Bienvenidos a una nueva experiencia IoT …

El fin del test de Turing: las nuevas pruebas para evaluar la inteligencia artificial

En los últimos 70 años, el debate filosófico sobre los robots y las inteligencias artificiales ha sido uno de los temas más discutidos en la comunidad científica y académica. Una de las preguntas fundamentales en este debate es “¿pueden las máquinas hacer lo que nosotros (como entidades pensantes) hacemos?”. Para obtener una respuesta a esta pregunta, se propuso someter a las IAs y las máquinas a un juego de imitación, conocido como el test de Turing. Lamentablemente, desde hace años este test se ha vuelto obsoleto y es necesario buscar alternativas.

El test de Turing se basa en si una máquina es capaz de imitar a los humanos. Sin embargo, en los últimos años se han propuesto nuevas pruebas que buscan poner a prueba las capacidades de las IAs de manera más precisa. Una de estas pruebas es el test de Lovelace 2.0. Diseñado en 2001 por el profesor Mark Riedl del Instituto Tecnológico de Georgia, y actualizado en 2014, se centra en el aspecto creativo de las IAs. Para superar el test, la IA debe ser capaz de escribir una historia de ficción, crear un poema o elaborar una pintura y obtener la aprobación de los examinadores. Esto requiere de tareas complejas como entender los tamaños relativos o la mezcla de conceptos. Sin embargo, con el boom de las IAs generativas como Stable Diffusion o ChatGPT, ya hemos visto que son capaces de pasar el test con facilidad.

Otra prueba propuesta es la prueba de esquemas de Winograd. Terry Winograd, profesor de psicología e inteligencia artificial de la Universidad de Stanford, propuso una prueba que consiste en resolver anáforas, es decir, identificar el antecedente de un pronombre ambiguo. Con esto el test pretende poner a prueba el procesamiento del lenguaje natural. Aunque las máquinas son buenas a la hora de resolver preguntas o cuestiones que pueden entenderse como un algoritmo, cuando el lenguaje es más cotidiano, muchas de ellas fallan. Estos esquemas son la base de benchmarks como GLUE (‘General Language Understanding Evaluation’).

El test de Eugene propuesto por Eugene Goostman, es otra alternativa al test de Turing. Goostman propuso una serie de test donde se ponga a prueba las capacidades de las máquinas en campos como la visión artificial o el reconocimiento del habla. Entre las pruebas estaría desde descifrar el significado de un vídeo o algo tan “humano” como montar un mueble. En este último caso, la máquina debe identificar las partes del mueble, entender las instrucciones y finalmente montarlo.

Por último, otra prueba propuesta es el test de Marcus, propuesto por Gary Marcus, profesor de psicología y neurociencia cognitiva en la Universidad de Nueva York. Este test se centra en las habilidades de las máquinas para comprender el lenguaje natural y la comprensión del mundo físico. El test de Marcus busca evaluar si las máquinas son capaces de entender conceptos complejos y abstractos, así como si son capaces de aprender de forma autónoma.

En conclusión, el test de Turing ha sido durante años el estándar para evaluar las capacidades de las máquinas y las IAs. Sin embargo, su obsolecencia ha llevado a la propuesta de nuevas pruebas, como el test de Lovelace 2.0, la prueba de esquemas de Winograd, el test de Eugene y el test de Marcus, que buscan evaluar de manera más precisa y completa las habilidades y capacidades de las máquinas. A medida que las IAs se vuelven cada vez más avanzadas, es importante tener en cuenta que estas pruebas deben ser actualizadas para mantenerse al día con el rápido avance tecnológico.