Il mondo dell’industria è sempre più alle prese con la gestione dei dati e, ormai, non può più fare a meno di affidarsi all’intelligenza artificiale per migliorare i processi e il decision making. Tuttavia, a fronte di questa necessità, si presenta è una sfida significativa per garantire la privacy delle informazioni sensibili di identificazione personale, le cosiddette PII, Personal Identifiable Information [in inglese] presenti nella maggior parte dei set di dati. La salvaguardia delle PII, d’altra parte, non è un problema nuovo, poiché i team IT interrogano i dati contenenti PII, ma solo pochi eletti ne richiedono l’accesso: la limitazione degli accessi, la protezione di questi ultimi basata sui ruoli, e il mascheramento sono stati ampiamente adottati nelle applicazioni di BI tradizionali per gestire l’accesso ai dati sensibili.

La protezione di questi ultimi nelle pipeline AI/ML di ultima generazione può avere diversi requisiti. La categoria emergente – e in continua crescita – di chi utilizza dati è costituita dai data scientist esperti di ML e dalle applicazioni che richiedono set di dati più grandi. In entrambi i casi, i proprietari dei dati devono camminare sul filo del rasoio per garantire che le componenti del loro ciclo di vita AI/ML abbiano l’accesso più appropriato a ciò di cui hanno bisogno, massimizzando, al contempo, la privacy dei dati PII.

Una nuova classe

I data scientist che si occupano di machine learning necessitano di grandi quantità di dati per addestrare i modelli di apprendimento automatico, i quali diventano poi, a loro volta, consumatori di grandi quantità di dati per fornire informazioni utili alle decisioni aziendali.

A differenza degli utenti tradizionali che hanno bisogno di accedere solo a quantità limitate di dati, questa nuova categoria di data scientist, come pure le applicazioni di ML richiedono l’accesso a interi set di dati per garantire che i loro modelli rappresentino gli output con precisione. E, anche quando essi vengono criptati o mascherati, non è detto che un malintenzionato non riesca a ricavare, dalla loro analisi, informazioni sensibili su coloro a cui fanno capo.

Per estrarre informazioni dai dati, gli scienziati dell’informazione utilizzano spesso tecniche avanzate come il deep learning, l’elaborazione del linguaggio naturale e la computer vision. Tuttavia, questi sforzi possono risultare rallentati o bloccati perché si trovano di fronte a dati sensibili PII presenti in alte percentuali nei set di dati: secondo le statistiche, si parla di percentuali di dati notevoli, che possono arrivare anche fino al 44% del totale [in inglese]. È facile comprendere, quindi, la misura in cui tale limitazione blocchi la strada verso la “terra promessa” dell’IA nella creazione di valore, nell’efficienza e nell’esplorazione di nuovi e rivoluzionari casi di utilizzo.

Sebbene, per ovviare al problema, siano state introdotte tecniche avanzate come la differential privacy, l’apprendimento federato, i dati sintetici e la crittografia omomorfa, che mirano a proteggere le PII che consentono ai data scientist e alle applicazioni di ML di accedere e analizzare i dati di cui hanno bisogno, il mercato ha ancora bisogno di soluzioni da implementare lungo tutto il ciclo di vita del ML (prima e dopo l’addestramento del modello) per proteggere le PII e allo stesso tempo accedere a vasti set di dati, senza modificare drasticamente la metodologia e l’hardware utilizzati oggi.