banner
lunedì 17 Febbraio 2025
banner

Studio Nih USA: intelligenza artificiale, brava a fare le diagnosi, ma non le sa spiegare

banner

Roma, 25 luglio – L’intelligenza artificiale in camice da dottore? Diciamo che se la cava, perché riesce a ottenere buoni risultati nel quiz di diagnostica medica. Il problema, non proprio di poco conto, è che incappa in errori quando le diagnosi le deve spiegare e quando deve illustrare come è arrivato a formulare la risposta corretta.

Queste, in sintesi estreme, le conclusioni di uno studio effettuato dai National Institutes of Health (Nih) statunitensi per fare luce sui rischi e sui benefici dell’integrazione dell’Ai nel processo decisionale medico.

Il modello di Ai sotto esame ha risolto le domande dei quiz medici progettati per testare la capacità dei professionisti sanitari di fare diagnosi ai pazienti in base alle immagini cliniche e a un breve riassunto di testo, con elevata accuratezza. Tuttavia, i valutatori medici hanno scoperto che il modello di Ai ha poi commesso errori nel descrivere le immagini e nello spiegare come il suo processo decisionale abbia portato proprio alla risposta corretta.

I risultati sono stati pubblicati su Npj Digital Medicine due giorni fa. Autori dello studio ricercatori della National Library of Medicine (Nlm) dei Nih e della Weill Cornell Medicine, New York City.

«L’integrazione dell’intelligenza artificiale nell’assistenza sanitaria è molto promettente come strumento per aiutare i professionisti medici a fare diagnosi più rapidamente, consentendo ai pazienti di iniziare il trattamento prima» commenta il direttore facente funzione della Nlm, Stephen Sherry (nella foto). «Tuttavia, come dimostra questo studio, l’intelligenza artificiale non è ancora abbastanza avanzata da sostituire l’esperienza umana, che è fondamentale per una diagnosi accurata».

Il modello Ai e i medici umani hanno risposto alle domande dell’Image Challenge del ‘New England Journal of Medicine’ (Nejm). La sfida è un quiz online che fornisce immagini cliniche reali e una breve descrizione testuale che include dettagli sui sintomi e la presentazione del paziente, quindi chiede agli utenti di scegliere la diagnosi corretta tra le risposte a scelta multipla.

I ricercatori hanno incaricato il modello Ai di rispondere a 207 domande di sfida sulle immagini e fornire una motivazione scritta per giustificare ogni risposta. Il prompt specificava che la motivazione avrebbe dovuto includere una descrizione dell’immagine, un riepilogo delle conoscenze mediche pertinenti e fornire un ragionamento passo dopo passo su come il modello ha scelto la risposta.

Sono stati poi reclutati 9 medici di diverse istituzioni, ognuno con una diversa specializzazione medica, e hanno risposto alle domande assegnate prima in un contesto ‘a libro chiuso’ (senza fare riferimento a materiali esterni come risorse online), poi in un contesto ‘a libro aperto’ (utilizzando risorse esterne). I ricercatori hanno quindi fornito ai medici la risposta corretta, insieme alla risposta del modello di Ai e alla relativa motivazione. Infine, ai medici è stato chiesto di valutare la capacità del dottor Ai di descrivere l’immagine, riassumere le conoscenze mediche rilevanti e fornire il suo ragionamento passo dopo passo.

I ricercatori hanno scoperto che sia il modello Ai che i medici hanno ottenuto punteggi elevati nella selezione della diagnosi corretta. È interessante notare che il modello Ai ha selezionato la diagnosi corretta più spesso dei medici in contesti a libro chiuso, mentre i medici nella modalità a libro aperto hanno ottenuto risultati migliori dell’Ai, soprattutto quando hanno risposto alle domande classificate come più difficili.

È anche importante notare che, in base alle valutazioni dei medici, il modello Ai ha spesso commesso errori nel descrivere l’immagine medica e nello spiegare il ragionamento alla base della diagnosi, anche nei casi in cui ha fatto la scelta finale corretta. In un esempio, al modello Ai è stata fornita una foto del braccio di un paziente con due lesioni. Un medico avrebbe facilmente riconosciuto che entrambe le lesioni erano causate dalla stessa patologia. Tuttavia, poiché le lesioni erano presentate da angolazioni diverse, causando l’illusione di colori e forme diversi, il modello Ai non è riuscito a riconoscere che entrambe le lesioni potevano essere correlate alla stessa diagnosi.

I ricercatori sostengono che questi risultati rafforzano l’importanza di valutare ulteriormente la tecnologia di intelligenza artificiale multi-modale prima di introdurla in ambito clinico. «Comprendere i rischi e i limiti di questa tecnologia è essenziale per sfruttarne il potenziale in medicina» evidenzia il ricercatore senior della Nlm e autore corrispondente dello studio, Zhiyong Lu.

Lo studio ha utilizzato il modello di intelligenza artificiale Gpt-4V (Generative Pre-trained Transformer 4 with Vision), in grado di elaborare combinazioni di più tipi di dati, tra cui testo e immagini. Sono ora necessarie ulteriori ricerche, concludono gli autori, per comprendere come tali modelli si confrontino con la capacità dei medici di diagnosticare i pazienti.

banner
Articoli correlati

i più recenti

I più letti degli ultimi 7 giorni