Privacy&

2020/2

Francesco Amigoni Orlandi Andrea Lensi Flavia Messina

Adeguatezza del data set e dell’algoritmo per un training a prova di etica

1. Introduzione: una strategia europea per l’intelligenza artificiale

Considerata l’importanza, in termini sociali ed economici, assunta a livello globale dall’intelligenza artificiale (di seguito anche “AI”) a partire dal 2018, con la comunicazione COM(2018) 237, Artificial Intelligence for Europe, l’Unione europea ha lanciato un significativo programma di sviluppo, noto come “European AI Strategy”[1].

Riconoscendo, infatti, il potenziale dell’intelligenza artificiale in numerosi settori, tra cui quelli della sanità, della pubblica amministrazione, dei trasporti, dell’industria e della filiera alimentare, l’Unione europea ha inteso definire un approccio comune finalizzato a potenziare la cooperazione tra gli Stati membri nello sviluppo, distribuzione e utilizzo dei sistemi di intelligenza artificiale, al fine di aumentare la propria competitività rispetto al resto del mondo, in primis Stati Uniti e alla Cina[2].

Le iniziative intraprese dall’UE per favorire l’intelligenza artificiale si collocano inoltre nel più ampio progetto di sviluppo del c.d. Digital Single Market - il mercato unico digitale - finalizzato a promuovere un approccio coeso tra i diversi Stati dell’Unione, nella consapevolezza che l’Europa unita abbia maggiori possibilità di competere in questo campo, rispetto a quella che avrebbero i singoli Paesi ove agissero autonomamente[3].

Al fine di raggiungere tali obiettivi, l’Unione europea ha individuato un approccio trasversale, segnatamente, di tipo tecnologico, etico, legale e socio-economico, fondando la propria strategia di sviluppo dell’intelligenza artificiale su tre pilastri fondamentali:

  1. “rafforzare la capacità tecnologica e industriale dell’UE e la diffusione dell’IA in tutta l’economia”, attraverso, inter alia, l’aumento degli investimenti (anche privati); il rafforzamento della ricerca e dell’innovazione; e la facilitazione dell’accesso alla tecnologia, anche per piccole e medie imprese. Una significativa attenzione è altresì riservata alla disponibilità dei dati: maggiore è la quantità di dati, più accurata sarà l’individuazione delle relazioni che intercorrono fra essi da parte della macchina[4];
  2. “prepararsi ai cambiamenti socio-economici”, con particolare attenzione alla trasformazione del mondo del lavoro e all’importanza di formare nuove competenze per il mercato in evoluzione;
  3. “assicurare un idoneo quadro etico e giuridico”, mediante l’elaborazione di orientamenti etici per l’intelligenza artificiale, l’aggiornamento del quadro normativo in materia di sicurezza e responsabilità civile da prodotto difettoso e tutela dei consumatori[5].

 

Alla luce di quanto sin qui esposto, emerge chiaramente il duplice intento del legislatore europeo: da un lato, favorire lo sviluppo dell’intelligenza artificiale nel territorio comunitario e, dall’altro lato, tutelare la persona fisica nei suoi diritti fondamentali, nel rispetto dei valori su cui poggia l’Unione europea[6].

In tal senso, la European AI Strategy ruota attorno al concetto di intelligenza artificiale antropocentrica, il c.d. “human-centric approach”. L’intelligenza artificiale deve essere infatti intesa non come uno strumento fine a sé stesso, quanto piuttosto quale mezzo propedeutico allo sviluppo del genere umano e del suo benessere.

In questo framework, si inserisce il Libro Bianco sull’Intelligenza Artificiale – Un approccio europeo all’eccellenza e alla fiducia[7] (il “Libro Bianco”) pubblicato dalla Commissione europea lo scorso 19 febbraio 2020.

Il Libro Bianco, da un punto di vista economico e sociale, supporta l’obiettivo europeo finalizzato a creare un’Unione più attraente, sicura e dinamica nell’utilizzo dell’intelligenza artificiale, mentre, da un punto di vista normativo, esso si concentra sui rischi di violazione dei diritti degli utenti potenzialmente insiti nello sviluppo e nel ricorso all’IA, che potrebbero minare la fiducia  nella stessa[8].

A questo proposito, la Commissione europea si è interrogata in merito all’adeguatezza dell’attuale quadro normativo rispetto alle caratteristiche dell’intelligenza artificiale e alle sue possibilità di sviluppo. In particolare, tenuto conto delle specificità di molte tecnologie che si avvalgono di sistemi di AI, nonché della sovente opacità, complessità e difficile predicibilità dell’intelligenza artificiale, le disposizioni attualmente vigenti potrebbero non essere in grado di rispondere efficacemente alle sfide e ai rischi posti dall’intelligenza artificiale in tutte le sue declinazioni, a partire dalla difficoltà di verifica del loro rispetto.

D’altronde, come spesso accade, non sempre l’apparato normativo viaggia alla medesima velocità del processo di sviluppo tecnologico, rendendo quindi necessario un intervento successivo del legislatore per adattare il quadro giuridico alle esigenze manifestate dall’innovazione.

La Commissione ha quindi constatato la necessità di rivedere alcuni istituti della legislazione vigente in un’ottica evolutiva, nonché l’opportunità di predisporre un impianto normativo ad hoc in materia di intelligenza artificiale che sia in grado di adeguare l’attuale quadro giuridico in vista degli sviluppi tecnologici e commerciali attuali e futuri.

Al riguardo, si rileva tuttavia che, per evitare di imporre oneri eccessivamente stringenti in capo alle piccole e medie imprese, la Commissione suggerisce l’adozione di un approccio basato sul rischio in forza del quale il nuovo impianto normativo troverebbe applicazione solo per le situazioni “ad alto rischio”[9], ferme restando alcune eccezioni, per cui  “l’uso di applicazioni di IA per determinati scopi deve essere considerato ad alto rischio di per sé, ossia indipendentemente dal settore interessato, per cui si applicherebbero comunque le prescrizioni”. È comunque fatto salvo il diritto di singole organizzazioni di aderire alle prescrizioni su base volontaria, ipotizzando un marchio di qualità per tali applicazioni.

Nonostante le evidenti opportunità che l’intelligenza artificiale è in grado di generare, essa può infatti provocare danni di natura materiale e immateriale. I primi incidono ad esempio sulla salute e sulla sicurezza delle persone; i secondi su diritti fondamentali dell’individuo quali la tutela dei dati personali, la libertà di espressione, la dignità o l’uguaglianza. La Commissione si è quindi concentrata sulla loro sterilizzazione, il cui livello di ampiezza non può dipendere dal fatto che un determinato servizio o prodotto si basi su un sistema di intelligenza artificiale o meno.

 

2. Cos’è un sistema di intelligenza artificiale

Per esigenze di chiarezza espositiva[10], è opportuno introdurre – da un punto di vista tecnico – innanzitutto i termini del discorso e, in particolare, pur con parecchie semplificazioni necessarie a una breve trattazione, cos’è e come funziona un sistema di intelligenza artificiale[11].

Un siffatto sistema opera in un ambiente, ricevendo da esso gli input (“percependo” l’ambiente) e restituendo ad esso gli output (“agendo” sull’ambiente) a ciclo continuo, secondo il paradigma iterativo percezione-decisione-azione; si tratta di un modello concettualmente astratto in quanto  prescinde dalla realizzazione tecnologica del sistema e dall’ambito applicativo nel quale è impiegato.

Si veda ad  esempio un’automobile autonoma che percepisce il proprio ambiente, cioè le strade e ciò che si trova nelle vicinanze, tramite un insieme di sensori (solitamente, di prossimità, telecamere e telemetri laser) e  agisce quindi in tale ambiente avanzando, sterzando, accelerando, rallentando, fermandosi e così via.

Altro esempio  è un sistema di intelligenza artificiale per il riconoscimento dei volti utilizzato in aeroporto (o in altro luogo pubblico) per ragioni di sicurezza  che suggerisce su quali passeggeri sia opportuno effettuare controlli più approfonditi (azione) sulla base dell’analisi dei loro connotati, catturati in immagini riprese da telecamere (percezione).

Una delle componenti principali dei sistemi di intelligenza artificiale è l’insieme di algoritmi che determinano come, a fronte degli input percepiti dall’ambiente, sono prodotti gli output.

In linea generale, gli algoritmi possono essere realizzati con due diverse modalità ovvero attraverso la combinazione delle stesse. Nel dettaglio, nel contesto dell’intelligenza artificiale classica, essi sono “scritti” da progettisti umani; in alternativa, gli algoritmi, o alcune delle loro parti, possono essere generati dai dati grazie all’apprendimento automatico (c.d. machine learning).

Fermo restando che, nella pratica attuale, gli algoritmi di intelligenza artificiale sono frequentemente realizzati combinando le due modalità, nel prosieguo della trattazione ci concentreremo sulla tecnica di machine learning - a cui il Libro Bianco ha dedicato particolare attenzione - limitandoci al caso, di grande rilevanza applicativa, dell’apprendimento supervisionato.

In questo caso, gli algoritmi che governano il funzionamento di un sistema di intelligenza artificiale sono sviluppati partendo dalla disponibilità di una grande quantità di dati, chiamati dati di training. I dati di training sono costituiti da un ampio insieme (data set) di coppie input-output, ognuna delle quali rappresenta l’associazione dell’output corretto al corrispondente input, elaborata da un esperto umano o ricavata da esperienze passate, eventualmente validate da uno specialista del settore.

Per esempio, sempre nel caso di una automobile autonoma, i dati di training possono essere costituiti da milioni di immagini riprese da telecamere su strade urbane e extraurbane (input) nelle quali ogni area è classificata con una etichetta (output) che descrive il significato semantico della porzione di ambiente rappresentato dall’area dell’immagine: ‘strada’, ‘marciapiede’, ‘albero’, ‘ciclista’, ‘pedone’, ‘altra auto’, ecc. Nel caso di un sistema di intelligenza artificiale per il riconoscimento dei volti, invece, i dati di training possono consistere in una collezione di milioni di immagini di volti (input) e, per ognuna di esse, la corrispondente decisione se sottoporre la persona a controlli più rigorosi o meno (output).

I dati di training sono utilizzati per apprendere gli algoritmi alla base del funzionamento dei sistemi di intelligenza artificiale. Più precisamente, la struttura, lo scheletro o l’impalcatura, degli algoritmi è spesso determinata dal progettista umano che, però, non è in grado di determinare tutti i valori dei parametri coinvolti. A titolo esemplificativo, il progettista determina che il sistema di intelligenza artificiale in fase di sviluppo debba funzionare secondo un algoritmo basato sulle reti neurali[12]. Tali algoritmi possono avere milioni di parametri: tipicamente i pesi da attribuire alle informazioni numeriche scambiate dai neuroni, le soglie sopra le quali i neuroni inviano informazioni ad altri neuroni (si noti che alcuni di questi parametri non hanno un significato immediato per gli esseri umani) ma anche gli iper-parametri relativi alla struttura delle reti stesse, come il numero di neuroni e il numero e tipo di livelli.

Il progettista non è tipicamente in grado di individuare i valori opportuni per tutti questi parametri; in particolare, nel citato caso di sistema per il riconoscimento dei volti, il progettista potrebbe non essere in grado di individuare i pesi da attribuire alle diverse caratteristiche (o feature, come la distanza fra gli occhi, la forma del naso e della bocca, etc.) per prendere la migliore decisione sull’ulteriore controllo o meno della persona il cui volto è valutato dal sistema.

Il processo di training assolve esattamente a questo compito, sgravando il progettista umano dall’incombenza e individuando in modo automatico i valori dei parametri sulla base dei dati di training. Semplificando, questi valori sono determinati in modo da minimizzare l’errore che il sistema commetterebbe se dovesse ricostruire le coppie input-output presenti nei dati di training. In pratica, numerosi altri fattori entrano in gioco nel processo di training, per esempio legati alla generalizzabilità delle prestazioni del sistema (spesso la minimizzazione dell’errore menzionata sopra va a scapito della capacità del sistema di generalizzare le prestazioni ad altri dati di input) e alla complessità del sistema stesso (sistemi meno complessi sono generalmente preferibili).

Nella sua forma base, quindi, l’apprendimento supervisionato degli algoritmi a partire dai dati di training non prevede alcun intervento umano, (e, ai fini di quanto diremo nel prosieguo) alcuna decisione etica, ma dipende unicamente, appunto, dai dati di training. Numerose varianti di questo processo di base possono essere realizzate, in alcune, per esempio, possono essere introdotte regole stabilite dai progettisti umani che permettono di annullare o modificare le decisioni prese dal sistema se le condizioni di tali regole non sono soddisfatte.

L’influenza che i dati di training hanno sul funzionamento e, in ultima istanza, sulle decisioni prese da un algoritmo sviluppato a partire da essi porta, in modo naturale, a interrogarsi sulla provenienza, sulla presenza di bias e sulla correttezza, anche relativamente a principi etici, di tali dati. Per cercare di fornire delle risposte è utile, innanzitutto, considerare che la costruzione di un data set di training (il quale, ricordiamo, nel contesto qui preso in considerazione è sostanzialmente un insieme di coppie input-output che rappresentano esempi di come l’algoritmo dovrebbe funzionare, cioè di quale output dovrebbe prodursi a fronte di un input) è un processo generalmente molto dispendioso, per due motivi.

In primo luogo, è spesso difficile e costoso ottenere grandi quantità di dati di input. Nel nostro esempio, relativo al sistema a bordo di un’automobile autonoma che, data un’immagine ripresa da una telecamera sul veicolo, classifica le diverse aree dell’immagine con etichette semantiche, i dati di input del data set di training sono costituiti da milioni di immagini riprese su strade urbane e extraurbane che possono essere collezionate in modo relativamente poco costoso, per esempio guidando (anche manualmente) una automobile per centinaia di chilometri e acquisendo immagini nel frattempo. Nel caso, invece, di un sistema del tutto simile ma che opera su immagini relative ad ambienti domestici (che, per esempio, potrebbe essere a bordo di un robot per l’assistenza a una persona anziana o disabile), collezionare milioni di immagini riprese dall’interno di centinaia o migliaia di appartamenti risulta estremamente costoso e di difficile realizzazione pratica. Per questo motivo, si ricorre spesso a simulazioni per ottenere facilmente data set di training[13]. L’uso di algoritmi addestrati a partire da dati simulati in sistemi che operano in contesti reali è da anni oggetto di grande dibattito nella comunità scientifica, specialmente rispetto a quello che viene chiamato reality gap e che indica il “salto”, spesso non irrilevante, che separa  simulazioni e realtà.

In secondo luogo, per costruire un data set di training, ad ogni dato di input va associato l’output corretto corrispondente. Tale operazione è spesso dispendiosa perché richiede l’intervento di esseri umani. Riprendendo l’esempio della classificazione semantica di immagini riprese da automobili, sono attualmente esseri umani che associano la corretta etichetta (output) a ogni area di una immagine (input) per produrre data set di training che permetteranno poi a un algoritmo di apprendere come svolgere lo stesso compito[14].

 

Il risultato è che, nella pratica corrente, i data set di training sono scelti con criteri che hanno frequentemente a che fare con la loro immediata disponibilità, senza un’analisi approfondita della loro completezza e rappresentatività relativamente agli input che il sistema addestrato su tali dati si troverà di fronte una volta operativo. La conseguenza è che il comportamento del sistema “sul campo” sarà difficilmente prevedibile da parte degli stessi progettisti e realizzatori del sistema.

Consideriamo un esempio estremo ma rappresentativo di alcune situazioni reali: supponiamo sia facile reperire un data set di training formato da immagini di volti di persone per lo più giovani e maschi e che, su tale data set, si sia addestrato un algoritmo per decidere se effettuare o meno ulteriori controlli ad alcune delle persone i cui volti sono ripresi nelle immagini.

I progettisti e realizzatori dell’algoritmo potrebbero dire poco su come questo si comporterà nel momento in cui dovesse essere chiamato a classificare (effettuare o non effettuare ulteriori controlli) l’immagine del volto di una signora anziana.

A partire dall’esempio, è chiaro come risulti difficile predire il funzionamento di un algoritmo a fronte di dati non presenti fra quelli di training nonché fornire delle garanzie che il comportamento di un sistema il cui comportamento è appreso da un data set di training rispetti principi etici o di altra natura.

Il quadro è ulteriormente complicato dalla possibilità di non separare nettamente le fasi di apprendimento e di operatività del sistema (come implicitamente assunto nella trattazione fino a questo punto), ma di permettere a un sistema di apprendere anche durante il suo funzionamento. Si pensi, per esempio, a un’automobile autonoma che apprende nuovi comportamenti o modifica quelli esistenti sulla base delle esperienze che accumula durante il suo funzionamento: parte del suo apprendimento successivo dipenderà ora dal contesto, dall’ambiente in cui l’ automobile sarà manovrata, ora dalle abitudini dell’autista stesso.

 

3. Considerazioni etico/giuridiche sulle caratteristiche del data set

Tanto premesso da un punto di vista tecnico, in ambito normativo, ferma restando la centralità della responsabilità nello sviluppo dell’Intelligence for Europe[15], il presente articolo si soffermerà adesso sugli aspetti connessi alla tutela dei diritti fondamentali delle persone nell’utilizzo dei sistemi di intelligenza artificiale.

Al riguardo giova innanzitutto ricordare i valori enucleati nell’articolo 2 del Trattato sull’Unione Europea (TUE), ai sensi del quale “L’Unione si fonda sui valori del rispetto della dignità umana, della libertà, della democrazia, dell’uguaglianza, dello Stato di diritto e del rispetto dei diritti umani, compresi i diritti delle persone appartenenti a minoranze. Questi valori sono comuni agli Stati membri in una società caratterizzata dal pluralismo, dalla non discriminazione, dalla tolleranza, dalla giustizia, dalla solidarietà e dalla parità tra donne e uomini”. Gli stessi valori sono inoltre ripresi nel preambolo della Carta Europea sui Diritti dell’Uomo (“CEDU”) che individua numerosi diritti, libertà e principi posti a fondamento dell’organizzazione, tra cui il diritto alla protezione dei dati di carattere personale, la libertà di pensiero, di coscienza e di religione, la libertà di espressione e di informazione, il diritto all’uguaglianza davanti alla legge e alla non discriminazione, la parità tra uomini e donne.

Un utilizzo distorto e non etico dell’intelligenza artificiale può comportare rischi per la lesione di ciascuno dei diritti e delle libertà fondamentali dell’individuo. Le insidie possono nascondersi nell’opacità e nell’imprevedibilità di molti strumenti di intelligenza artificiale, ma anche derivare da difetti di progettazione o, come si vedrà nel prosieguo, dall’uso di insiemi di dati contenenti falle che non sono state corrette[16].

Alcuni esempi concreti potranno agevolare la comprensione delle conseguenze che tali rischi possono avere sulle persone fisiche.

In ambito penale, ad esempio, è fonte di preoccupazione l’utilizzo di sistemi automatizzati, c.d. di predictive policing, che, prevedendo la probabile inclinazione di un individuo a commettere dei crimini (ovvero tendenza alla recidiva) nonché in quali luoghi è più verosimile che possa essere perpetrato un reato, sono in grado di condizionare l’applicazione delle pene o l’impiego delle risorse delle forze dell’ordine. Tenuto conto degli elevati rischi connessi al mancato rispetto del diritto alla non discriminazione, non da ultimo per il pericolo che i data set da cui sono presi i dati contengano dei bias, l’utilizzo di tali strumenti richiede un’attenta supervisione e l’applicazione di garanzie adeguate[17].

Non meno importante il tema della libertà di espressione, basti pensare a come  sempre più frequentemente i dibattiti politici e televisivi affrontano la questione delle c.d. fake news. Anche in questo caso, il potere degli strumenti di intelligenza artificiale e, conseguentemente, dei loro sviluppatori e utilizzatori, è così ampio da essere in grado, potenzialmente, di influenzare gli equilibri mondiali[18]. L’utilizzo di algoritmi, grazie alla loro capacità di classificare o indicizzare contenuti nei motori di ricerca, possono incidere significativamente sulla varietà dei contenuti offerti agli utenti. Ove questi presentassero falle o distorsioni, si incorrerebbe nel rischio di violare il diritto dei cittadini ad avere una informazione pluralista[19].

Celebre, infine, il dilemma etico del veicolo a guida autonoma. Si supponga, ad esempio, che un gruppo di pedoni appaia improvvisamente sulla strada in prossimità di una curva pericolosa, l’automobile dovrebbe essere programmata in modo tale da tutelare il guidatore (e possibilmente il veicolo stesso) oppure i passanti? E ancora, la decisione dovrebbe subire qualche mutamento in considerazione, ad esempio, dell’età anagrafica o delle condizioni economico-sociali dei soggetti considerati? La complicata questione ha assunto fama globale dopo che un gruppo di ricercatori del Massachusetts Institute of Technology (MIT) ha lanciato un sondaggio online (“Moral Machine”) sottoponendo ai partecipanti diverse casistiche chiedendo loro di scegliere, di volta in volta, i soggetti che la macchina avrebbe dovuto salvaguardare[20].

Tali considerazioni non possono che essere amplificate nell’ambito dei sistemi di apprendimento automatico. Il machine learning, tecnologia grazie alla quale le macchine hanno la capacità di imparare comportamenti nuovi per comprendere l’ambiente che li circonda, interagire con gli individui e con altri oggetti, agendo in modo indipendente dall’intervento umano, rappresenta, infatti, senz’altro uno degli aspetti più dirompenti (e critici) dell’intelligenza artificiale.

Da un punto di vista etico-giuridico, tali sistemi possono determinare rischi particolarmente significativi connessi ai c.d. “comportamenti emergenti” della macchina[21].Tali rischi saranno quanto mai importanti, soprattutto ove l’insieme dei dati su cui tale comportamento si basa contiene dei bias, delle distorsioni, che non siano state corrette o che siano frutto non tanto della fase di progettazione del sistema di intelligenza artificiale, quanto delle correlazioni o dei modelli da esso individuati all’interno del data set stesso.

Di tali pericoli, che possono sfociare in concreti pregiudizi per i diritti di utilizzatori, consumatori, interessati, ha dimostrato di essere consapevole la Commissione europea che, come anticipato, nel Libro Bianco ha preso espressamente in considerazione l’attività di training dell’intelligenza artificiale con specifico riferimento al data set a tal fine utilizzato.

Tenuto conto, infatti, che il funzionamento dell’AI, e ancor più dei sistemi di machine learning, dipende dal data set utilizzato, non sorprende la fondamentale importanza riconosciuta alla quantità, qualità e tipologia di dati utilizzati per l’addestramento del sistema di intelligenza artificiale. Il data set di training, infatti, deve possedere determinate caratteristiche affinché l’algoritmo risultante sia conforme, non solo ai requisiti normativi, poc’anzi ricordati, ma altresì ai principi etici comunemente riconosciuti e recentemente formalizzati, proprio con riferimento all’utilizzo delle tecnologie in esame, dall’Indipendent High Level Expert Group on Artificial Intelligence (il “Gruppo di esperti”) nell’ambito delle linee guida “Orientamenti etici per un’IA affidabile”, pubblicate l’8 aprile 2019 (le “Linee Guida”)[22].

Invero, al fine di garantire che le azioni intraprese e le decisioni assunte dalla macchina siano in linea con i principi e i valori dell’Unione europea e, in quanto tali, possano essere destinatarie della fiducia dei consumatori secondo l’approccio antropocentrico da essa delineato, il Libro Bianco individua tre principali ambiti di attenzione:

  1. assicurare la sicurezza, anche con riferimento a eventuali usi successivi dei prodotti e dei servizi basati sull’AI. A tal fine, per l’addestramento dei sistemi di intelligenza artificiale dovrebbero, ad esempio, essere utilizzati data set sufficientemente ampi da contenere tutti gli scenari rilevanti, in modo da evitare situazioni pericolose;
  2. adottare misure ragionevoli per evitare che un utilizzo successivo dell’intelligenza artificiale possa generare discriminazioni vietate, quali, ad esempio, data set sufficientemente rappresentativi da rispecchiare in modo adeguato le pertinenti dimensioni di genere, etnia e gli altri possibili motivi di discriminazione;
  3. garantire un’adeguata protezione dei dati personali durante l’uso dei prodotti e dei servizi basati sull’intelligenza artificiale.

 

Secondo la Commissione, quindi, il data set utilizzato deve essere, almeno, sufficientemente ampio, rappresentativo e conforme ai requisiti previsti dalla normativa in materia di protezione dei dati personali.

Proprio in virtù del fatto che il data set usato per l’apprendimento di un sistema di intelligenza artificiale non rileva esclusivamente da un punto di vista giuridico, ma anche (e forse soprattutto) da quello etico, tali raccomandazioni non possono che essere interpretate in coerenza con quanto previsto dal Gruppo di esperti negli Orientamenti etici per un’IA affidabile. Infatti, tra i requisiti concreti[23] in cui sono stati  tradotti i principi etici astrattamente individuati nelle Linee Guida[24], figurano anche il criterio della qualità e dell’integrità dei dati (corollari del più ampio requisito della riservatezza e governance dei dati).

Con specifico riferimento alla qualità dei dati utilizzati, secondo il Gruppo di esperti, essa “è di fondamentale importanza per le prestazioni dei sistemi di IA. I dati che vengono raccolti possono contenere distorsioni, imprecisioni, errori e sbagli socialmente costruiti, ed è un aspetto da affrontare prima di addestrare la macchina con un determinato data set”. Al contempo, non ha mancato di osservare, relativamente all’integrità dei dati utilizzati, come “se si immettono dati malevoli, un sistema di IA può cambiare il suo comportamento, in particolare con i sistemi di autoapprendimento”[25].

Quelle delineate dal Gruppo di esperti sono indicazioni peraltro coerenti con i principi sanciti dalla normativa in materia di protezione dei dati personali. Con specifico riferimento alla qualità dei dati, infatti, l’articolo 5 del Regolamento (UE) 2016/679 (il GDPR) prevede, che essi siano “adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità per le quali sono trattati” (principio di minimizzazione dei dati - articolo 5, paragrafo 1, lett. c)), oltre che “esatti e, se necessario, aggiornati” (principio di esattezza dei dati - articolo 5, paragrafo 1, lett. d)). Secondo la lettera dell’articolo 5, GDPR, inoltre, i dati possono essere “conservati in una forma che consenta l’identificazione degli interessati per un arco di tempo non superiore al conseguimento delle finalità per le quali sono trattati” (principio di limitazione della conservazione – articolo 5, paragrafo 1, lett. e))[26].

Nella pratica, il rispetto di tali principi nella pratica può essere tutt’altro che agevole. Tanto più se si pensa che una gran parte dei sistemi di intelligenza artificiale si basa su tecnologie big data[27]. Non v’è dubbio, infatti, che sorgano contrasti di non banale risoluzione tra l’osservanza dei principi etico-giuridici menzionati da un lato, e l’esigenza di raccogliere una considerevole quantità di dati, anche personali, per lo sviluppo dei sistemi di intelligenza artificiale dall’altro[28].

Peraltro, secondo quanto precisato dalla Commissione nel Libro Bianco, profili di rischio sussisterebbero anche nell’utilizzo di dati anonimi. Infatti, tenendo a mente la definizione di dato personale prevista dal GDPR, nella quale rientra qualunque informazione che consenta di identificare una persona fisica anche indirettamente, non può escludersi che, grazie alla considerevole mole di dati utilizzata dai sistemi di intelligenza artificiale e alla possibilità di individuare collegamenti tra gli stessi, i sistemi informatici intelligenti non possano invertire il procedimento di anonimizzazione dei dati riguardanti le persone fisiche, rendendo rilevanti ai fini data protection data set che di per sé non contengono dati personali.

Tenuto conto che per la normativa in materia di protezione dei dati personali il concetto di dato anonimo è relativo[29], dipendendo dalla combinazione di diversi elementi, anche la qualificazione del dato nei medesimi termini è variabile e, per tale ragione, deve essere oggetto di una continua verifica da parte del titolare del trattamento (nel caso di specie lo sviluppatore o il distributore del sistema di intelligenza artificiale)[30].

Come anticipato, particolare rilevanza nell’ambito del data set assumono i c.d. bias, pregiudizi o distorsioni che possono condizionare il funzionamento degli algoritmi e gli output che restituiscono, incidendo, tra le altre cose, sul rispetto dei principi di diversità, non discriminazione ed equità. Tenuto conto della sua rilevanza in ambito etico, il tema non è sfuggito al Gruppo di esperti che ne ha fatto oggetto di specifica discussione nell’ambito delle linee guida pubblicate.

In particolare, evidenziando ancora una volta come i bias possano influenzare i dati di addestramento utilizzati, il Gruppo di esperti ha sollevato anche il profilo connesso ad un utilizzo doloso di tali distorsioni, ad esempio per lo svolgimento di attività di concorrenza sleale.

Al fine di poter contrastare tali effetti e mirare ad un’intelligenza artificiale affidabile, il Gruppo di esperti ha affiancato ad una proposta di tipo tecnico, avente ad oggetto l’implementazione di processi di sorveglianza che analizzino in modo chiaro e trasparente le finalità, i vincoli, i requisiti e le decisioni del sistema, una raccomandazione di tipo organizzativo, quale l’assunzione di personale proveniente da contesti, culture e discipline diverse in modo da garantire una più ampia diversità di opinioni.

Peraltro, in aggiunta a quelle poc’anzi indicate, il Gruppo di esperti ha fornito agli “addetti ai lavori” ulteriori indicazioni di tipo pratico. Particolare rilevanza, al riguardo, assume la “lista di controllo per la valutazione dell’affidabilità dell’IA”[31]. In estrema sintesi, si tratta di una check list di cui sviluppatori, distributori e utilizzatori possono avvalersi per valutare l’affidabilità di un sistema di intelligenza artificiale, anche con specifico riferimento alla qualità e all’integrità dei dati, nonché al rispetto dei requisiti di diversità, non discriminazione ed equità.

 

Con specifico riferimento alla verifica dei requisiti di diversità, non discriminazione ed equità, il Gruppo di esperti propone lo svolgimento dei seguenti controlli:

  1. “È stata prevista una strategia o una serie di procedure per evitare di creare o rafforzare distorsioni inique (unfair bias) nel sistema di IA, sia per quanto riguarda l’uso dei dati di input che per la progettazione dell’algoritmo?”
  2. A seconda del caso d’uso, è stato previsto un meccanismo che permetta a terzi di segnalare problemi di distorsione, discriminazione o scarsa prestazione del sistema di IA?”
  3. “È stato valutato se esiste la possibilità che si verifichi una variabilità delle decisioni nelle stesse condizioni?”
  4. “È stata prevista un’adeguata definizione operativa di “equità” da applicare alla progettazione di sistemi di IA?”

4. Conclusioni

Come anticipato, la Commissione europea, premessa l’inadeguatezza dell’attuale quadro normativo comunitario  ad affrontare le sfide poste dalle caratteristiche dell’intelligenza artificiale, che rendono le disposizioni oggi in vigore difficilmente applicabili, ha individuato due principali aree di rischio per gli individui: il rispetto dei diritti fondamentali e la tutela della salute con conseguente responsabilità da prodotto difettoso.

Relativamente al primo dei due aspetti, oggetto del presente articolo, è evidente che le caratteristiche del data set utilizzato per alimentare gli algoritmi di intelligenza artificiale sono fondamentali (anche se a volte non sufficienti) per assicurare che questa sia affidabile; agisca, cioè nel rispetto dei valori dell’Unione europea e dei principi etici riconosciuti, ponendosi come obiettivo lo sviluppo dell’uomo e del suo benessere.

Invero, l’utilizzo di insiemi di dati non idonei, secondo i chiarimenti sino ad oggi forniti dagli organi ed esperti europei chiamati a intervenire sul tema, può significativamente compromettere l’output restituito dagli algoritmi di intelligenza artificiale, con significative conseguenze in termini, per restare ai casi considerati dal Libro Bianco, di violazione dei diritti fondamentali e di sicurezza degli individui.

I rischi, peraltro, possono essere causati non solo da data set originariamente inadeguati, ad esempio per la presenza di bias, ma possono essere anche successivamente alterati per l’ingerenza di fattori esterni, come, ad esempio, un attacco informatico o un problema di connessione alla rete[32].

E gli effetti negativi, come poc’anzi chiarito, possono essere senz’altro maggiori nell’ambito dei sistemi di machine learning che continuano ad apprendere durante il loro funzionamento, ove il risultato prodotto dalla macchina, in virtù della sua capacità di apprendere continuamente in autonomia rispetto all’individuo, può essere anche considerevolmente diverso da quello atteso in fase di sviluppo. In tal caso, non solo i dati di addestramento ma anche quelli “visti” dalla macchina durante il suo funzionamento assumono fondamentale importanza nella determinazione del comportamento futuro della stessa.

Ma, ampliando l’ambito di analisi svolto dalla Commissione, se è vero che i sistemi di intelligenza artificiale devono essere affidabili nei termini sopra chiariti, ci si può spingere ad affermare che la restituzione da parte del sistema automatizzato di un output diverso da quello atteso, non in linea con i principi etici universalmente riconosciuti, possa richiamare il concetto di “prodotto difettoso”, con le conseguenze che ne derivano in termini di responsabilità.

Si supponga, ad esempio, che il comportamento assunto dal veicolo autonomo precedentemente menzionato, a causa di un bias nel data set utilizzato per il suo addestramento, non sia etico: può esso essere considerato un difetto del prodotto veicolo autonomo azionando la relativa responsabilità?

D’altro canto, ben si potrebbe avere un comportamento perfettamente etico della macchina ma comunque fallace nel suo risultato per un errore nel processo di machine learning.

Il tema, quindi, della responsabilità da prodotto comandato attraverso machine learning è senz’altro complesso e affascinante per un giurista e sarà affrontato su questi tipi seguendo le evoluzioni sviluppate dall’Expert Group on Liability and New Technologies.