Il boom dell’AI per immagini e video: chi non vede resta indietro?

Tabella dei Contenuti

Google ha appena annunciato due novità importanti.

La prima riguarda Google Photos, dove ora si può modificare una foto “parlando”: basta scrivere o dire cosa si vuole fare e l’app applica le modifiche. L’azienda ha introdotto anche le Content Credentials C2PA, che permettono di vedere come un’immagine è stata creata o trasformata dall’AI. Per ora, però, questa funzione è disponibile solo nell’app mobile: sul web non c’è, e non risulta esistere una vista testuale passo per passo, leggibile da screen reader, che racconti le operazioni svolte. Un cieco, quindi, non saprebbe dire se la sua foto è stata schiarita, ritagliata o manipolata con uno sfondo diverso.

La seconda novità è il debutto del modello Gemini 2.5 Flash Image, nome interno “nano-banana”. Consente di fare editing multi-turno, unire più immagini mantenendo la coerenza dei soggetti, e porta in automatico il watermark SynthID. È disponibile nell’app Gemini e per gli sviluppatori attraverso le API e Vertex AI. Diversi media hanno scritto che l’accesso è possibile anche per chi usa la versione gratuita, oltre che per gli abbonati.

Qualche mese fa, durante Google I/O, era stato mostrato Veo 3, un modello per la generazione video ora integrato in Gemini e Vertex AI. La documentazione descrive la capacità di produrre anche audio nativo, effetti e dialoghi, ma non fa riferimento ad alcuna funzione di audiodescrizione integrata.

Se guardiamo ancora indietro, nell’autunno 2023 ChatGPT aveva introdotto la visione, cioè la capacità di leggere e spiegare le immagini. All’epoca sembrava un cambio di passo enorme. Poi, nel dicembre 2024, OpenAI ha presentato Sora, capace di creare video da testo con una qualità sorprendente. In entrambi i casi, però, resta una mancanza: questi strumenti non forniscono, di default, descrizioni accessibili delle trasformazioni o audiodescrizioni dei video.

Negli ultimi due anni si è assistito a una crescita esponenziale dell’AI visiva. Non si ricorda un periodo con un’attenzione così totalizzante verso immagini e video generati. Basti pensare alla vicenda del cosiddetto “Ghibli-style”, che tra marzo e aprile 2025 ha fatto discutere il mondo intero, tra entusiasmo e polemiche sul copyright.

Per chi è cieco, questa ondata può trasformarsi in una fonte di frustrazione. E non è solo un’impressione. The Guardian ha scritto che i ciechi rischiano di restare esclusi dai benefici dell’AI, perché lo sviluppo procede in direzione sempre più visiva. Il Financial Times ha raccontato come i cosiddetti overlay “magici” pensati per l’accessibilità finiscano spesso per peggiorare l’esperienza, fino a generare cause legali. Wired ha riportato il caso Eyebobs legato ad AccessiBe, dove l’uso di soluzioni automatiche per l’accessibilità ha portato in tribunale. Time, invece, ha ricordato come i meme, ormai linguaggio universale del web, restino di fatto inaccessibili: gli algoritmi non colgono l’ironia, il contesto, il gioco visivo.

La frustrazione emerge anche nei forum e nelle community. Su Reddit, nella sezione r/Blind, si parla di strumenti per l’audiodescrizione automatica, ma con limiti evidenti: paywall, restrizioni sui minuti, qualità altalenante. Su AppleVis c’è chi teme che gli sviluppatori, confidando troppo nell’AI, smettano di curare l’alt text e la struttura delle app, rendendo l’accessibilità più fragile. E su Mastodon si moltiplicano i promemoria a inserire manualmente il testo alternativo, segno che il problema resta tutto sulle spalle della community.

Il nodo è sempre lo stesso: manca una funzione nativa di spiegazione. Non basta dire “questa immagine è stata modificata con l’AI”: serve una descrizione leggibile, che elenchi le trasformazioni in modo chiaro. Serve che Sora, Veo o Photos dicano: “Lo sfondo è stato sostituito con un paesaggio innevato”, “il soggetto è stato reso più luminoso”, “sono state aggiunte due persone accanto all’originale”. Lo stesso vale per i video: se un modello genera una scena, dovrebbe automaticamente produrre anche una breve audiodescrizione. Non come accessorio o plugin, ma come parte integrante.

Il rischio, altrimenti, è che mentre la società intera si entusiasma per video iper-realistici e immagini trasformate dall’AI, milioni di ciechi e ipovedenti restino spettatori passivi. Le soluzioni tecniche ci sono già: le Content Credentials C2PA potrebbero diventare il punto di partenza per un log accessibile, l’audiodescrizione automatica è già oggetto di ricerche e sperimentazioni, e le stesse community hanno dimostrato di saper colmare i vuoti. La domanda vera è se i grandi player vorranno compiere questo passo o se continueranno a inseguire soltanto la perfezione visiva.

Probabilmente, la vera rivoluzione dell’AI non sarà un video sempre più realistico, ma la possibilità che anche chi non vede sappia davvero cosa sta accadendo sullo schermo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *