Con la IA llegan nuevas herramientas para ciegos y personas con baja visión
La Nación··en 1 hora
Aplicaciones y asistentes con inteligencia artificial ya permiten leer textos, describir escenas, identificar objetos y responder preguntas sobre el entorno. Pero entre mejoras reales en autonomía y promesas sobredimensionadas, usuarios y especialistas también marcan límites de conectividad, costo, ...
Una persona entra a una farmacia para comprar un medicamento. Tiene dudas sobre sus características, pero como su visión está disminuida, no puede leer lo que dice la caja y mucho menos el prospecto, escrito con una tipografía mínima. En estos casos, durante mucho tiempo necesitó ayuda de otra persona para acceder a esa información básica o resignarse a no tenerla. Pero hoy existen aplicaciones que combinan la cámara del smartphone, el lector de pantalla y la inteligencia artificial (IA), de modo que basta apuntar el celular hacia la caja o el folleto para escuchar de qué remedio se trata, para qué sirve y qué dice el texto impreso.Tanto en el ejemplo citado como al tratar de distinguir un billete, poder elegir la ropa de un armario, saber qué hay en la heladera o incluso qué es lo que aparece en una foto, tareas comunes para casi cualquier persona, se convierten en un desafío para una persona ciega o con baja visión, sobre todo cuando el acceso a esa información depende de alguien más o de herramientas que hasta hace poco solo podían leer texto, y de manera bastante rígida. La nueva camada de aplicaciones y asistentes con IA no solo lee: también describe, interpreta y permite hacer preguntas sobre lo que hay delante de la cámara.Durante años, muchas herramientas de accesibilidad visual se apoyaron en el reconocimiento óptico de caracteres (OCR), reconocimiento de objetos y lectores de pantalla. Ahora empiezan a sumar modelos capaces de procesar imagen, voz y texto en simultáneo. El cambio no pasa solo por identificar objetos o leer texto, sino por interpretar escenas más complejas y responder preguntas sobre ellas. Ya no se limitan a decir “hay una caja” o “esto es una foto”, sino que permiten preguntar qué hay sobre una mesa, qué ropa aparece en una imagen, qué dice un cartel o cómo está distribuido un ambiente.En ese sentido, Google, por ejemplo, integró Gemini con TalkBack, el lector de pantalla de Android, para que las personas ciegas o con baja visión no solo reciban descripciones de imágenes sin texto alternativo, sino que también puedan hacer preguntas de seguimiento sobre esas imágenes y sobre toda la pantalla, para tener una idea mucho más concreta de lo que se está mostrando. Voceros de Google le indicaron a LA NACION que esa evolución forma parte de un ecosistema más amplio de accesibilidad en Android, Chrome, Maps y otras herramientas. Por ejemplo, lanzaron StreetReaderAI, una guía virtual que analiza el entorno físico y mantiene el contexto, permitiendo preguntarle, por ejemplo, dónde está una parada de colectivo mientras camina, a lo que le responderá con la dirección y distancia exacta.De acuerdo con Google, esto se encuadra dentro de su enfoque denominado Interfaces Nativamente Adaptables (NAI por sus siglas en inglés), destinado a que la IA ayude al software a procesar voz, visión y texto simultáneamente para adaptarlo a las necesidades de cada persona.Por su parte, Seeing AI, la aplicación de Microsoft, permite leer textos, reconocer productos, describir imágenes y detectar objetos. Be My Eyes, que comenzó como una plataforma que conectaba a personas ciegas con voluntarios humanos, sumó luego funciones de IA para describir escenas e interpretar contenido visual. Cash Reader está enfocada en la identificación de billetes. Envision, por su parte, permite leer textos, describir escenas y hacer preguntas sobre lo que muestra la cámara. Lo nuevo, en todos los casos, es menos la existencia de una herramienta puntual que la mejora en la capacidad de describir contextos y responder consultas en lenguaje natural.Desde la asociación civil Tiflonexos, dedicada a mejorar la calidad de vida de las personas con discapacidad visual, señalan que hoy muchas personas ciegas o con baja visión en la Argentina usan herramientas como Be My Eyes, Seeing AI, Cash Reader y también Gemini integrado con TalkBack. E indican que la incorporación de inteligencia artificial volvió más precisas algunas funciones que ya existían, especialmente en la descripción detallada de imágenes, por ejemplo, al describir ambientes, ropa, fotos, pizarrones o fotocopias. Aunque advierten que persisten límites claros: la necesidad de contar con buena conectividad, tener un celular lo suficientemente potente, por lo general de gama media o alta, y el hecho de que en algunas situaciones la asistencia humana sigue siendo necesaria.Gonzalo Román tiene discapacidad visual y trabaja en Tiflonexos. En charla con LA NACION, aseguró que “la inteligencia artificial ha mejorado mucho mi vida cotidiana. Uso Seeing AI y Be My Eyes para que me describan imágenes, lo que me permite acceder a fotos, textos en imágenes y productos en casa, dándome más autonomía y facilitando la accesibilidad en mi entorno”. Después detalló algunos usos concretos: enterarse de lo que muestran las fotos que circulan en grupos de WhatsApp, leer flyers en los que el texto está incrustado dentro de una imagen o identificar productos del supermercado. “Gracias a estas herramientas puedo saber si la caja que estoy abriendo es de mate cocido o si la de arroz es integral”, explicó.La Federación Argentina de Instituciones de Ciegos y Ambliopes (FAICA) agrega otra dimensión al tema: la laboral. Desde la federación sostienen que estas herramientas no solo sirven para resolver tareas cotidianas, sino también para estudiar, buscar trabajo y desempeñarse con más autonomía en un empleo. Ponen ejemplos concretos: preparar un currículum con herramientas accesibles y revisar luego su formato, leer documentación en papel durante una entrevista, interpretar gráficos o imágenes en material de trabajo, verificar datos antes de firmar un documento o reconocer señalización dentro de un edificio desconocido. En esa línea, remarcan además que la inteligencia artificial no viene a reemplazar tecnologías de apoyo ya consolidadas, como los lectores de pantalla, sino a complementarlas allí donde históricamente lo visual fue más difícil de resolver de manera autónoma.La adopción, sin embargo, todavía está lejos de ser generalizada. Esa mirada coincide con lo que vienen señalando usuarios y organizaciones del sector: el avance existe, pero no llega a todos por igual. Hace falta infraestructura, entrenamiento y diseño accesible para que estas soluciones no queden reservadas a quienes tienen más recursos o mayor familiaridad tecnológica.Las empresas del sector también están tratando de llevar esa lógica más allá del celular. En marzo, Be My Eyes anunció dos movimientos que muestran hacia dónde va el mercado: por un lado, informó que ya superó 1 millón de usuarios ciegos o con baja visión y 10 millones de voluntarios; por otro, lanzó junto con Meta nuevas funciones para conectar, mediante comandos de voz y video manos libres, a usuarios con contactos de confianza o con equipos de soporte a través de las gafas Ray-Ban Meta y Oakley Meta. El mismo mes presentó además Workplace AI, un asistente de escritorio pensado para describir diapositivas, capturas, paneles, pizarras y otros contenidos visuales del trabajo cotidiano. La dirección del mercado parece clara: la categoría ya no apunta solo a leer etiquetas o carteles, sino también a cubrir entornos laborales y flujos de información más complejos.Pero en paralelo apareció otra tendencia que puede resultar incluso más importante que las gafas: sacar parte de este procesamiento de la nube y llevarlo al propio dispositivo. El 2 de abril, Envision anunció junto con ARM y Google una integración para ejecutar en smartphones funciones como descripción de escenas y preguntas visuales de seguimiento de manera local, usando modelos Gemma, sin necesidad de enviar cada imagen a la nube.No son herramientas infalibles La empresa planteó ese cambio como una mejora en tres frentes que en accesibilidad no son menores: menor latencia, mejor funcionamiento offline o con mala conectividad y más privacidad al mantener el procesamiento en el equipo. En este terreno, ese punto importa: enviar cada imagen a la nube puede implicar demoras, consumo de datos y también dudas de privacidad cuando lo que se está mostrando son documentos, medicamentos, ropa o escenas del hogar. Para mercados como el argentino, donde el acceso a buen hardware y buena conexión no siempre acompaña, eso puede volverse más determinante que cualquier demo futurista con gafas.Ahí aparece también el límite de la épica. Porque, pese a los avances, estas herramientas no equivalen a autonomía total ni a una comprensión infalible del entorno. Tiflonexos marca tres barreras concretas: la necesidad de buena conectividad, el costo de contar con un celular adecuado y el hecho de que, cuando la IA no alcanza, la asistencia humana sigue siendo necesaria. La propia Apple, en su guía de funciones de reconocimiento y descripciones en vivo, advierte que esas capacidades no deben usarse en situaciones donde la persona pueda resultar dañada, ni para navegación, ni para diagnóstico o tratamiento médico. El avance existe, sí, pero incluso las propias compañías dejan en claro que todavía no conviene confundir ayuda con certeza.Lucía Torres, técnica en comunicación social e integrante de la comisión directiva de la Biblioteca Argentina para Ciegos, coincide en que estas herramientas resultan especialmente valiosas para quienes viven solos o no cuentan con ayuda constante para las tareas cotidianas. “Uso Be My Eyes porque me describe la ropa que tengo disponible y así puedo vestirme y también combinar ropa y accesorios, aunque siempre lo chequeo antes con mi mamá o con amigos, por las dudas”, contó a LA NACION. En su caso, explica que, aunque tiene ceguera total, vio los colores hasta los 7 años, por lo que conserva una referencia visual que le permite aprovechar mejor ese tipo de descripciones. También destaca que estas aplicaciones ayudan a describir objetos del entorno, comidas o cosas tiradas en el suelo, y que incluso pueden sugerir decisiones cotidianas, como elegir qué cocinar en función de lo que hay en la heladera o en la ala