Inteligencia Artificial para el reconocimiento del entorno mediante imagen

Cada vez estamos más acostumbrados a rodearnos de herramientas y/o productos tecnológicos que nos hacen la vida más fácil: robots que limpian solos, algoritmos que nos filtran la publicidad para solo mostrarnos lo que realmente nos interesa, asistentes virtuales conversacionales con los que podemos hablar y obtener información deseada,… todos ellos utilizan distintas modalidades de Inteligencia Artificial para llevar a cabo sus tareas. Dentro de todo este conjunto de herramientas se encuentran unas que, para algunas personas pasan desapercibidas pero que pueden ser de gran utilidad para otras. Son las que usan la Inteligencia Artificial para reconocer elementos el entorno. Lo que para algunos son herramientas que se usan más a modo de juego, para personas con discapacidad visual se pueden convertir en herramientas que permiten desempeñar tareas del día a día de una manera autónoma: leer un cartel de un autobús, un plano del metro, la etiqueta de un bote, o saber si la prenda que tiene delante es de un color u otro para combinar ropa a la hora de vestirse… Este artículo se centra en las apps para móvil que cuentan con funcionalidad de reconocimiento de imagen, y es que son las aplicaciones que se pueden instalar en el móvil las de mayor utilidad, pues son las que permiten al usuario desplazarse por el entorno, no tienen que estar fijos en un punto. Es importante resaltar que antes de que el uso de la Inteligencia Artificial estuviese tan extendido, ya existían aplicaciones que trataban de dar solución a la problemática de detección de elementos del entorno. Dos ejemplos son las aplicaciones TapTapSee y Be My Eyes, en las cuales el usuario toma una foto y la manda a un grupo de voluntarios que se encargan de reconocer lo presente en la imagen y dar una respuesta. No obstante, esto plantea problemas como la privacidad del usuario, así como el tiempo en dar una respuesta (en algunos casos se puede llegar a los 15 segundos). De entre las herramientas existentes que hacen este reconocimiento de manera automática en lugar de empleado voluntarios, se van a mencionar Seeing AI (Microsoft) y Google Lens (Google) por estar ambos disponibles tanto en Android como en iOS (en el caso del Google Lens a través de la app Google), y por su demostrada potencia y buenos resultados. En ambos casos, son apps que requieren como única acción por parte del usuario el que lance la aplicación y enfoque con su cámara el elemento a reconocer. En cuanto a las funcionalidades principales que aportan, encontramos:

Lectura de textos y QRs
Reconocimiento de objetos y lugares de interés
Reconocimiento de animales y plantas

Además, cada una de ellas aporta otras funcionalidades de valor añadido, como, por ejemplo, la emisión de un pitido para ayudar a la identificación de códigos de barras en el caso de Seeing AI, o la vinculación de la app con las reseñas de Google en el caso de Google Lens.