di Sergio Niger

Sommario

  1. Premessa
  2. Anonimizzazione e pseudonimizzazione dei dati personali
  3. L’ “uso secondario” dei dati sulla salute per scopi di ricerca scientifica
  1. Premessa

Il Garante per la protezione dei dati personali con il provvedimento del 1° giugno 2023 (doc. web n. 9913795) nel comminare una sanzione a una società per aver trattato illecitamente e non aver adottato idonee tecniche di anonimizzazione dei dati sanitari di numerosi pazienti, raccolti presso circa settemila medici di medicina generale, fa il punto sulle tecniche di anonimizzazione, in particolare dei dati sanitari, e fornisce indicazioni utili in merito all’uso dei dati sulla salute nel campo della ricerca scientifica.

Il provvedimento del Garante è stato originato dalla segnalazione di un medico di base che lamentava una presunta violazione della disciplina privacy da parte della società oggetto del provvedimento, impegnata nella realizzazione di un progetto internazionale volto a migliorare le cure dei pazienti attraverso la raccolta e l’analisi di dati sanitari. A tal fine i medici di medicina generale, aderenti all’iniziativa, dovevano aggiungere al gestionale in uso – fornito da un’azienda informatica partner della società – un’ulteriore funzionalità (c.d. add-on) volta ad anonimizzare automaticamente i dati dei pazienti e trasmetterli in un data base della stessa società. In cambio i medici ottenevano una serie di vantaggi, tra cui un compenso economico. Dall’istruttoria del Garante, è emerso che le funzionalità del c.d. add-on, indicate dalla società, non consentivano l’effettiva anonimizzazione delle informazioni acquisite dai medici di medicina generale. Pertanto, la società ha effettuato un trattamento illecito di dati personali pseudonimizzati in violazione dei principi fondamentali di liceità e trasparenza. La semplice sostituzione dell’ID attribuito ai pazienti, con un sistema di crittografia o un codice hash irreversibile – segnala il Garante– non rappresenta, in alcuna circostanza, misura idonea rispetto al requisito della rimozione delle singolarità (single out) necessario a qualificare l’operazione di trattamento come un’anonimizzazione. Principio espresso peraltro nel parere n. 5/2014 dell’allora Gruppo di lavoro Articolo 29, in base al quale “affidarsi semplicemente alla solidità del meccanismo di crittografia quale misura di ‘anonimizzazione’ di un insieme di dati è fuorviante, in quanto molti altri fattori tecnici e organizzativi incidono sulla sicurezza generale di un meccanismo di crittografia o di una funzione di hash”. Tra le altre violazioni accertate dal Garante privacy, vi è e anche l’erronea attribuzione del ruolo di titolare del trattamento ai medici di base, tenuto conto che finalità e mezzi del trattamento con particolare riferimento alla definizione delle tecniche di anonimizzazione risultavano definite dalla società.

  1. Anonimizzazione e pseudonimizzazione dei dati personali

Secondo quanto previsto dal considerando n. 26 del GDPR e dall’art. 4, punto 5 dello stesso, la pseudonimizzazione è un processo che consente di trattare i dati in maniera tale da non poterli più attribuire ad un utente, in particolare, senza l’accostamento di informazioni aggiuntive che devono, allo stesso tempo, non essere attribuite “ad una persona fisica identificata o identificabile: “Per pseudonimizzazione si intende: “il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile” (art. 4 punto 5)”.

La pseudonimizzazione, precisa al riguardo il Garante, costituisce una misura di estremo rilievo nel settore della ricerca scientifica in particolare al fine di garantire effettiva applicazione al principio di minimizzazione (art. 5, par. 1, lett. c) e 89 del GDPR). I dati pseudonimizzati sono quindi dati personali che devono essere trattati nel rispetto del GDPR. A tale riguardo, il Gruppo di lavoro Articolo 29 ha evidenziato che “la pseudonimizzazione non è un metodo di anonimizzazione. Si limita a ridurre la correlabilità di un insieme di dati all’identità originaria di una persona interessata, e rappresenta pertanto una misura di sicurezza utile” (Parere 05/2014 sulle tecniche di anonimizzazione adottato il 10 aprile 2014). La pseudonimizzazione riduce il rischio di identificazione diretta degli individui, riducendo la correlabilità di un insieme di dati all’identità originaria di una persona interessata, ma non produce dati anonimi. Quindi, i dati pseudonimizzati non sono dati anonimizzati, bensì sono dati personali che rientrano nella disciplina del GDPR. La possibilità di risalire ai dati originali, avendo comunque la possibilità di divulgare i dati pseudonimizzati senza rischio di reidentificazione, costituisce il principale vantaggio della tecnica della pseudonimizzazione1.

Il dato anonimizzato, al quale non si applica la disciplina in materia di protezione dei dati personali, evidenzia il Garante, è tale solo se non consente l’identificazione diretta o indiretta di una persona tenuto conto di tutti i mezzi ragionevoli (economici, informazioni, risorse tecnologiche, competenze, tempo) nella disponibilità di chi (titolare o altro soggetto) provi a utilizzare tali mezzi per identificare un interessato. Detto processo, qualificato appunto come anonimizzazione, deve pertanto impedire che si possa: isolare una persona in un gruppo (single-out); collegare un dato anonimizzato a dati riferibili a una persona presente in un distinto insieme di dati (linkability); dedurre nuove informazioni riferibili a una persona da un dato anonimizzato (inference). Sempre in merito all’anonimizzazione dei dati, sotto altro profilo, si sottolinea che il Comitato europeo per la protezione dei dati e il Garante hanno evidenziato, altresì, come essa già di per sé rappresenti un trattamento di dati personali e che, in quanto tale, deve essere svolta in conformità con la normativa vigente in materia di protezione dei dati personali2.

Per anonimizzazione del dato personale, quindi, si intende quella tecnica con cui le persone fisiche interessate non possano più essere identificate in nessun modo, determinando una de-identificazione irreversibile3. Requisito fondamentale è che i dati personali siano stati inizialmente raccolti, trattati e conservati in conformità alla normativa vigente, con riferimento ai principi applicabili al trattamento e alla liceità dello stesso, ai sensi degli artt. 5 e 6 del GDPR. Se l’anonimizzazione è stata eseguita correttamente, i dati oggetto dell’operazione non sono più classificati come dati personali4, e quindi non rientrano nella dimensione applicativa del GDPR come affermato dal Considerando n. 26 del GDPR. Peraltro, i dati anonimizzati sono compresi fra gli esempi specifici di “dati non personali”, così come definito nel Considerando 9 del “Regolamento UE 2018/1807 relativo alla libera circolazione dei dati non personali nell’Unione Europea”. L’utilità della anonimizzazione è da ravvisare nella condivisione di set di dati, garantendo sia la privacy delle persone fisiche che la possibilità di sfruttare il predetto set di dati per analisi e ricerche statistiche. L’anonimizzazione si può realizzare tramite la rimozione, la sostituzione, la distorsione, la generalizzazione o l’aggregazione degli identificatori diretti, come il nome completo o altre caratteristiche rilevanti della persona fisica, e indiretti, cioè attributi che combinati con altre informazioni disponibili rendono identificabile una persona, come per esempio una combinazione di occupazione, stipendio ed età5.

Sul tema va messa in luce anche la giurisprudenza della Corte di Giustizia Europea, che ha dettato ulteriori parametri per la qualificazione del dato come “personale”, affermando, in particolare, che il dato possa ritenersi non anonimo soltanto quando il destinatario dei dati – anche pseudonimizzati – abbia la “ragionevole” possibilità di combinare le informazioni in suo possesso con i dati ricevuti, consentendo la re-identificabilità del soggetto cui dette informazioni si riferiscono. Nota è la sentenza 26 aprile 2023, nella causa T‑557/20, della Corte di Giustizia UE (Caso Deloitte), nella quale si precisa che per poter essere considerati anonimi, i dati dovrebbero essere sottoposti dalle autorità garanti ad un test di re-identificabilità, teso a stabilire se il destinatario dei dati “anonimizzati” abbia effettivamente la possibilità, con gli strumenti concretamente utilizzabili da quest’ultimo, di consentire la re-identificazione di uno specifico soggetto.

Esistono diverse pratiche e tecniche di anonimizzazione che presentano gradi variabili di affidabilità. Il presente contributo riporta solo i punti principali che i titolari del trattamento devono prendere in considerazione nell’applicarle, riprendendo le indicazioni del Gruppo ex Art. 29, in particolare per quanto riguarda il livello di garanzia che una data tecnica consente di ottenere tenendo conto dello stato attuale della tecnologia e di tre rischi essenziali per l’anonimizzazione: 1. individuazione, che corrisponde alla possibilità di isolare alcuni o tutti i dati che identificano una persona all’interno dell’insieme di dati; 2. correlabilità, vale a dire la possibilità di correlare almeno due dati concernenti la medesima persona interessata o un gruppo di persone interessate (nella medesima banca dati o in due diverse banche dati). “Se un intruso riesce a determinare (ad esempio mediante un’analisi della correlazione) che due dati sono assegnati allo stesso gruppo di persone, ma non è in grado di identificare alcuna persona del gruppo, la tecnica fornisce una protezione contro l’individuazione, ma non contro la correlabilità”; 3. deduzione, vale a dire la possibilità di desumere, con un alto grado di probabilità, il valore di un attributo dai valori di un insieme di altri attributi. Pertanto, una soluzione che sia in grado di eliminare i tre suddetti rischi sarebbe utile per impedire la reidentificazione effettuata mediante i mezzi più probabili e ragionevoli che potrebbero essere utilizzati dal responsabile del trattamento e da altri. Al riguardo, le tecniche di deidentificazione e di anonimizzazione sono oggetto di ricerca continua e tale ricerca ha ripetutamente dimostrato che nessuna tecnica è di per sé esente da carenze. In generale, esistono due diversi approcci all’anonimizzazione: il primo si basa sulla randomizzazione, mentre il secondo si basa sulla generalizzazione.

La randomizzazione è una famiglia di tecniche che modifica la veridicità dei dati al fine di eliminare la forte correlazione che esiste tra i dati e la persona. Se i dati sono sufficientemente incerti non possono più essere riferiti a una persona specifica. Di per sé la randomizzazione (nota il Gruppo di lavoro) non riduce l’unicità di ogni dato, in quanto ciascun dato può comunque essere ancora estrapolato da un’unica persona interessata, ma può rappresentare una tutela dagli attacchi/rischi di deduzione e può essere affiancata da tecniche di generalizzazione per fornire maggiori garanzie di tutela della sfera privata. Potrebbe essere necessario applicare tecniche supplementari per garantire che un dato non possa identificare una singola persona.

La tecnica dell’aggiunta del rumore statistico può rivelarsi utile nel caso in cui gli attributi possano avere un effetto avverso importante sulle persone e consiste nel modificare gli attributi contenuti nell’insieme di dati in modo tale da renderli meno accurati mantenendo nel contempo la distribuzione generale. Solitamente, l’aggiunta del rumore statistico deve essere affiancata da altre tecniche di anonimizzazione, quali l’eliminazione degli attributi ovvi e dei quasi-identificatori. Il livello di rumore statistico dovrebbe dipendere dal livello di informazioni richieste e dall’impatto sulla sfera privata delle persone in seguito alla divulgazione degli attributi protetti.

Un’altra tecnica è la permutazione, questa consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate, detta tecnica è utile quando è importante mantenere l’esatta distribuzione di ciascun attributo all’interno dell’insieme di dati. Un’ulteriore tecnica è rappresentata dalla c.d. privacy differenziale6, che appartiene alla famiglia delle tecniche di randomizzazione, ma adotta un approccio diverso: mentre l’inserimento del rumore statistico interviene prima, al momento dell’eventuale pubblicazione dell’insieme di dati, la privacy differenziale può essere utilizzata quando il titolare del trattamento genera opinioni anonimizzate di un insieme di dati e conserva al contempo una copia dei dati originali. Le opinioni anonimizzate sono di solito generate attraverso un sottogruppo di interrogazioni per terzi specifici. Le tecniche di privacy differenziale, però, non modificano i dati originari e pertanto, finché questi permangono, il responsabile del trattamento è in grado di identificare le persone all’interno dei risultati delle interrogazioni di privacy differenziale tenendo conto dell’insieme dei mezzi che possono essere ragionevolmente utilizzati. Questi risultati vanno trattati come dei dati personali.

La generalizzazione rappresenta la seconda famiglia di tecniche di anonimizzazione e consiste nel generalizzare, o diluire, gli attributi delle persone interessate modificando la rispettiva scala o ordine di grandezza. Sebbene possa essere efficace per impedire l’individuazione, la generalizzazione non consente un’anonimizzazione che risulti efficace in tutti i casi; in particolare, presuppone approcci quantitativi specifici e sofisticati per impedire la correlabilità e la deduzione. Le tecniche di aggregazione e k-anonimato sono volte a impedire l’individuazione di persone interessate mediante il loro raggruppamento con almeno k altre persone. A tal fine, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona lo stesso valore.

Le tecniche di deidentificazione e anonimizzazione sono oggetto di continue ricerche e ciascuna tecnica presenta vantaggi e svantaggi. Nella maggior parte dei casi non è possibile fornire raccomandazioni minime circa i parametri da utilizzare, in quanto ogni insieme di dati va studiato caso per caso. Al riguardo, I titolari del trattamento devono esaminare (facendo ricorso ai principi di accountability e della privacy by design (artt. 5, par. 2, 24 e 25 par. 1 del Regolamento UE 2016/679), con attenzione tali limiti prima di utilizzare una determinata tecnica per effettuare un processo di anonimizzazione.

  1. L’ “uso secondario” dei dati sulla salute per scopi di ricerca scientifica

Sempre nel provvedimento del 1° giugno 2023, il Garante sottolinea che l’eventuale ulteriore trattamento e conservazione dei dati personali per scopi di ricerca scientifica sono ammessi nei limiti del quadro normativo di riferimento (cons. 50, artt. 5, par. 1, lett. b) ed e), 6, par. 4 del Regolamento, punto 5.6 delle Prescrizioni per il trattamento dei dati personali per scopi di ricerca scientifica; si vedano anche A Preliminary Opinion on data protection and scientific research, adottata il 6 gennaio 2020 dall’European data protection Supervisor, (EDPS) e il Parere 3/2019 relativo alle domande e risposte sull’interazione tra il regolamento sulla sperimentazione clinica e il regolamento generale sulla protezione dei dati (articolo 70, paragrafo 1, lettera b), del 23 gennaio 2019 e il Document on response to the request from the European Commission for clarifications on the consistent application of the GDPR, focusing on health research, del 2 febbraio 2021, adottati dall’European data protection Board (EDPB).

Note

1 M. MOURBY, E. MACKEY, M. ELLIOT, H. GOWANS, S.E. WALLACE, J. BELL, H. SMITH, S. AIDINLIS E J. KAYE, Are ‘pseudonymised’ data always personal data? Implications of the GDPR for administrative data research in the UK, in S. Stalla-Bourdillon (a cura di), Computer Law and Security Review, 2018, Vol. 34, No. 2, p. 223.

2 EDPB, Document on response to the request from the European Commission for clarifications on the consistent application of the GDPR, focusing on health research, 2 febbraio 2021.

3 Gruppo di lavoro articolo 29, Parere 05/2014 sulle tecniche di anonimizzazione, p. 7.

4 D. WHITELEGG, Minimizing application privacy risk, maggio 2018, https://developer.ibm.com/articles/s-gdpr3/

5 R. CAVALLI, Anonimizzazione del dato: le tecniche possibili, in https://www.iusinitinere.it/anonimizzazione-del-dato-le-tecniche-possibili-26388#_ftn35

6 C. Dwork, Differential privacy. In Automata, languages and programming, Springer Berlin Heidelberg, 2006.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *