Le ultime novità presentate da Google durante il Google I/O 2025 e il Global Accessibility Awareness Day introducono tre soluzioni di assistenza visiva che promettono di migliorare nettamente il modo in cui le persone con disabilità visiva interagiscono con il mondo digitale e fisico.
Nei prossimi giorni pubblicherò sul blog tre articoli di approfondimento dedicati a ciascuna delle tecnologie chiave, che sono le seguenti: Project Astra con il suo Visual Interpreter, Gemini Live e il nuovo TalkBack potenziato da Gemini Nano. Oggi vi porto una panoramica completa, vediamo quindi come Google sta migliorando l’assistenza visiva, come sempre ovviamente attraverso l’intelligenza artificiale.
Una visione che diventa realtà
“Quando diciamo che vogliamo costruire per tutti – lo intendiamo davvero”, ha dichiarato Sundar Pichai, CEO di Google, durante la presentazione. La mission aziendale di rendere l’informazione universalmente accessibile si traduce ora in strumenti di assistenza visiva che utilizzano i più avanzati modelli generativi e multimodali.
Christopher Patnoe, responsabile Accessibilità EMEA di Google, spiega: “Come Google, siamo impegnati da sempre a rendere l’informazione universalmente accessibile e crediamo che la tecnologia abbia il potere di migliorare la vita di tutte le persone, comprese quelle con disabilità e neurodivergenze”.
L’approccio di Google parte da un dato che di certo non lascia indifferenti: nel mondo ci sono quasi 253 milioni di persone non vedenti o ipovedenti. Per loro, l’accesso alle informazioni visive è sempre stato mediato da altri o limitato dalla tecnologia disponibile. Ora l’assistenza visiva basata su AI cambia le regole del gioco.
Project Astra: l’assistente che vede per te
La prima grande novità è Project Astra, sviluppato da Google DeepMind in stretta collaborazione con la community dei disabili visivi. Al suo cuore c’è il Visual Interpreter, un sistema di assistenza visiva capace di comprendere e descrivere in tempo reale oggetti, ambienti e situazioni.
Il sistema reagisce dinamicamente ai cambiamenti nel campo visivo: quando la fotocamera del telefono si muove, Astra aggiorna continuamente la descrizione della scena circostante. Un utente può puntare il telefono in una stanza sconosciuta e ricevere informazioni come “Sei in un soggiorno: di fronte a te c’è un divano grigio, a sinistra un tavolino con sopra una tazza, a destra c’è una porta aperta che conduce in cucina”.
La grande utilità di questa tecnologia deriva dall’ integrazione con l’ecosistema Google. Il Visual Interpreter attinge a Google Maps per l’orientamento e l’identificazione dei luoghi, a Google Foto per riconoscere volti noti o oggetti già fotografati, e a Google Lens per migliorare l’accuratezza nell’identificazione degli elementi.
Dorsey Parker, musicista statunitense con solo l’8% di vista residua, è tra i primi tester del sistema: “Uso il telefono per esplorare nuovi luoghi. Astra descrive ciò che mi circonda e interagisce con app come Lens e Maps per guidarmi. È come avere un accompagnatore sempre disponibile”.
Google ha stretto una partnership strategica con Aira, servizio di assistenza visiva umana on-demand, per sviluppare e perfezionare Astra. Gli operatori e gli utenti di Aira hanno contribuito come beta tester e hanno assicurato che il prototipo risponda alle vere esigenze delle persone con disabilità visive.
Attualmente Project Astra è in fase di test ristretto attraverso il programma Trusted Tester, con supervisione umana professionale in tempo reale come garanzia di sicurezza. Il sistema è pensato per funzionare sia su smartphone Android sia su prototipi di occhiali smart, con memoria condivisa tra dispositivi.
Gemini Live: l’AI che dialoga con la tua fotocamera
La seconda novità arriva con Gemini Live, funzione integrata nell’app Google Gemini e resa completamente gratuita per tutti gli utenti Android e iOS. A differenza di soluzioni precedenti che richiedevano app specializzate, Gemini Live porta l’assistenza visiva direttamente nell’assistente generale di Google.
Gli utenti possono inquadrare qualsiasi cosa con lo smartphone e dialogare in tempo reale con l’assistente su ciò che vedono. Basta puntare il telefono verso un oggetto, una scena o uno schermo e fare domande vocali o testuali: l’AI analizza lo stream video istantaneamente e fornisce descrizioni, riconoscimenti e risposte.
“Gemini Live con condivisione della fotocamera e dello schermo è ora gratuito per tutti su Android e iOS, così puoi puntare il telefono su qualsiasi cosa e parlarne con l’AI che ti assiste”, ha annunciato il team di Google Labs durante il lancio.
La funzionalità si estende alla condivisione dello schermo del dispositivo. Se un utente apre un’app non ottimizzata per screen reader, può chiedere a Gemini di leggerne il contenuto o di aiutarlo nella navigazione. Una persona cieca può mostrare all’assistente un pacco appena ricevuto e dire “leggimi il contenuto”, oppure inquadrare un capo d’abbigliamento e chiedere “che colore è questa maglietta?” e ricevere risposte immediate e dettagliate.
Qui vale la pena fare un confronto con ChatGPT Camera Live di OpenAI (ne abbiamo parlato più volte), una funzionalità simile di assistenza visiva ma disponibile solo per utenti Plus (20/mese) o Pro (200/mese)oPro(200/mese). ChatGPT offre la possibilità di puntare il telefono su oggetti e ricevere descrizioni vocali, ma la differenza forse più evidente sta nell’accessibilità: Gemini Live è completamente gratuito e integrato nell’ecosistema Google. Entrambi i sistemi offrono velocità notevole e dialoghi fluidi, ma Gemini Live beneficia dell’integrazione con Google Lens per riconoscimenti più accurati di prodotti, testi e luoghi del mondo reale.
L’integrazione con Google Lens permette a Gemini Live di eccellere nel riconoscimento multilingue: utenti hanno riportato traduzioni efficaci di testi in ideogrammi cinesi semplicemente con l’inquadratura. La tecnologia beneficia dell’immensa base di dati visivi di Google, che include cataloghi di prodotti, monumenti e punti di riferimento.
TalkBack migliorato: quando lo screen reader diventa intelligente
La terza innovazione riguarda TalkBack, lo screen reader integrato in Android dal 2009. Google ha completamente rivoluzionato il sistema con l’integrazione di Gemini Nano, la versione ottimizzata per dispositivi mobili del modello di assistenza visiva dell’azienda.
Prima, quando TalkBack incontrava un’immagine senza testo alternativo, poteva fornire solo descrizioni generiche come “Immagine: potrebbe essere all’aperto”. Ora, grazie a Gemini Nano, le descrizioni diventano vivide e dettagliate: “Vista panoramica notturna dell’Opera House di Sydney e del Sydney Harbour Bridge, ripresi dalla riva nord di Sydney, nel Nuovo Galles del Sud, Australia”.
Lisie Lillianfeld, product manager di TalkBack, commenta: “Gemini Nano aiuta a colmare le informazioni mancanti. Che si tratti di più dettagli su cosa c’è in una foto inviata da un amico, o dello stile e del taglio di un vestito durante lo shopping online”.
L’aspetto innovativo di questa assistenza visiva è che tutto avviene direttamente sul dispositivo, senza necessità di connessione internet. Android 15 supporta nativamente modelli di IA on-device tramite AICore, con latenza bassissima e protezione della privacy.
A maggio 2025 Google ha introdotto una funzionalità se possibile ancora pià interessante: gli utenti possono ora fare domande in linguaggio naturale sulle immagini o sul contenuto dello schermo. Se un amico invia la foto di una chitarra, TalkBack la descrive e l’utente può chiedere “Di che marca è? Di che colore? Cos’altro c’è nella foto?” e ricevere dettagli specifici.
Durante la navigazione in un’app di shopping, si può domandare “Di che materiale è questo vestito? Ci sono sconti indicati?” e l’AI estrae le informazioni dallo schermo. La modalità domanda-risposta trasforma l’esperienza d’uso e avvicina l’utente non vedente all’autonomia totale nella fruizione di contenuti visivi.
L’ecosistema che fa la differenza
Le tre tecnologie non operano in isolamento ma formano un ecosistema integrato di assistenza visiva. Un utente medio di TalkBack incontra circa 90 immagini non etichettate al giorno nelle sue attività digitali. Prima doveva “sorvolare” su questi contenuti potenzialmente importanti. Ora vengono descritti automaticamente e diventano informazioni fruibili.
Google ha implementato una soluzione ibrida che combina elaborazione locale e cloud. Gemini Nano lavora sul dispositivo per velocità e privacy, ma per descrizioni ancora più dettagliate si può attivare Gemini Flash 1.5 sul cloud. Un esempio: Gemini Nano potrebbe dire “Foto di una famiglia in spiaggia al tramonto”. Se l’utente vuole più informazioni, Gemini Flash può aggiungere “Ci sono quattro persone: due adulti e due bambini che stanno costruendo un castello di sabbia. Tutti sorridono rivolti verso la fotocamera; il cielo è arancione e il sole è basso sull’orizzonte”.
Il confronto con la concorrenza
Google Come ormai sappiamo non è sola in questa corsa all’accessibilità. OpenAI, come abbiamo visto, propone ChatGPT con modalità Camera Live, ma richiede un abbonamento Plus (20/mese) o Pro (200/mese)oPro(200/mese). Microsoft ha Seeing AI, app gratuita ma separata dal sistema operativo. Apple integra funzioni di riconoscimento in VoiceOver ma senza le capacità conversazionali di Google.
La differenza chiave è l’approccio di Big G: altri offrono strumenti specializzati di assistenza visiva, Google la integra direttamente nel sistema operativo e nei servizi principali e la rende disponibile gratuitamente a tutti.
I centri di scoperta per l’accessibilità
L’impegno di Google include anche spazi fisici dedicati. L’azienda ha aperto Accessibility Discovery Center in sei città mondiali, inclusa Milano da novembre 2024. Questi spazi permettono di provare tecnologie di assistenza visiva, partecipare a workshop e favorire l’incontro tra sviluppatori, designer e persone con disabilità.
“Lo abbiamo concepito come luogo di scoperta e di incontro, con l’obiettivo di promuovere lo scambio di idee e la consapevolezza sulle esigenze delle persone con varie forme di disabilità”, spiega Patnoe.
Il futuro è già qui
I primi feedback dalla community sono entusiastici. Utenti definiscono le nuove descrizioni di TalkBack un “game changer”. C’è chi esprime meraviglia nell’ascoltare dettagli mai pensati di poter ottenere in autonomia: la descrizione precisa di una scena turistica o il poter “vedere” tramite parole com’è vestito un amico in una foto.
La strada verso l’inclusione totale è ancora lunga, ma le fondamenta sono solide. Google dimostra che l’assistenza visivapuò essere “universalmente utile”, messa al servizio di tutti senza esclusioni. Come affermato da Pichai: “Finché c’è anche solo una persona esclusa dall’accesso alle opportunità offerte dalla tecnologia, il nostro lavoro non può dirsi concluso”.
Le persone cieche e ipovedenti possono finalmente guardare al futuro con ottimismo: un mondo dove la vista non è più prerequisito per accedere pienamente all’informazione e alle opportunità digitali. Un mondo dove l’assistenza visivabasata su AI diventa gli occhi di chi non può vedere, amplifica le capacità umane e abbatte barriere millenarie.
Restate sintonizzati per i miei approfondimenti dedicati a ciascuna di queste tecnologie.