
Are Large Vision Language Models Truly Grounded in Medical Images?
Evidenza dal Visual Question Answering clinico italiano: i VLM guardano davvero le immagini, o stanno solo indovinando?
Il sospetto
I Vision Language Models di frontiera — Claude Sonnet 4.5, GPT-4o, GPT-5-mini, Gemini 2.0 — raggiungono performance impressionanti sui benchmark di Medical Visual Question Answering. Sembra quasi che sappiano leggere una radiografia, riconoscere una lesione cutanea, interpretare un'ecografia.
Ma c'è una domanda scomoda che la comunità ha tendenzialmente evitato: quei punteggi vengono davvero dall'immagine, o l'immagine è una scenografia? Un modello potrebbe rispondere correttamente semplicemente sfruttando indizi linguistici nella domanda, conoscenza testuale memorizzata dal pre-training, o pattern statistici sulle risposte plausibili — senza in realtà guardare il pixel medico che gli viene mostrato.
È la versione clinica del paradosso del Clever Hans: il cavallo che sembrava saper contare e in realtà leggeva la postura del padrone.
Cosa abbiamo fatto
Abbiamo costruito un dataset di domande cliniche in italiano, una scelta deliberata: spostare la lingua fuori dall'inglese rende più costoso al modello "cavarsela" pescando dai pattern di training. Poi abbiamo sottoposto i quattro VLM frontiera a un protocollo pensato per separare ciò che il modello sa da ciò che il modello vede.
L'idea è semplice e brutale: se un modello è veramente grounded sull'immagine, alterare l'immagine deve alterare la risposta. Se la risposta non cambia, l'immagine non era mai stata letta davvero.
I misteri ancora aperti
Tre cose non quadrano e meritano ricerca futura:
-
L'asimmetria tra modelli. Non tutti i VLM si comportano allo stesso modo sotto perturbazione visiva. Alcuni crollano in modo prevedibile quando l'immagine viene mascherata o sostituita; altri restano stabili — e quella stabilità è il segnale più sospetto, non il più rassicurante.
-
Il gap linguistico. Le performance in italiano non scalano linearmente da quelle in inglese. Resta da capire se il divario sia di comprensione linguistica del prompt, di vocabolario clinico specifico, o di un effetto più profondo sulla pipeline di fusione vision-language.
-
Cosa significa davvero "guardare". Esiste un continuum tra grounding pieno (il modello usa l'immagine come fonte primaria) e grounding nullo (l'immagine è ignorata). I modelli di oggi vivono in una zona grigia in mezzo — usano l'immagine, ma in modo opportunistico, come uno studente che sbircia solo quando la domanda è difficile.
Ipotesi sotto esame
- I VLM potrebbero sfruttare scorciatoie testuali nelle domande (parole-chiave demografiche, indizi anatomici nel testo) per ricavare la risposta prima di consultare l'immagine.
- Potrebbero esibire prior medicali fortissimi appresi dal corpus testuale (es. "lesione + età 65 + fumatore → diagnosi più probabile") che dominano il segnale visivo.
- Il fine-tuning su benchmark anglo-centrici potrebbe averli ottimizzati a riconoscere il formato delle domande, non il contenuto delle immagini.
Nessuna di queste è dimostrata in modo definitivo. Tutte sono compatibili con i numeri che osserviamo.
Perché preoccuparsene
Il rischio non è teorico. Se un VLM viene deployato in un contesto clinico — anche solo come supporto al triage o alla seconda opinione — e in realtà non sta usando l'immagine, allora:
- Le sue risposte sono affidabili solo quando la domanda testuale è già abbastanza informativa da contenere la risposta. Nei casi davvero ambigui (quelli per cui serviva l'AI) crollerà.
- Gli errori saranno sistematici per popolazione: i pazienti i cui dati testuali si discostano dal "prototipo" su cui il modello ha imparato a rispondere senza guardare, riceveranno predizioni peggiori.
- Le metriche di benchmark aggregate nasconderanno questo crollo, perché in media i modelli appaiono bravi.
È lo stesso schema che abbiamo visto nei bias di genere sui modelli predittivi clinici: una performance media alta che maschera comportamenti distorti sui sottogruppi.
Cosa portarsi a casa
Prima di fidarsi di un VLM in sanità — o di proporlo a un comitato etico, a un payer, a un paziente — la domanda da fare non è "qual è l'AUROC?", ma:
"Se nascondo l'immagine, la risposta cambia?"
Se cambia poco, non stai usando un Vision Language Model. Stai usando un Language Model con un'immagine decorativa accanto. E in medicina la differenza non è un dettaglio: è la differenza tra un sistema diagnostico e un sistema che recita una parte.