Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han surgido como una tecnología revolucionaria gracias a sus capacidades sin precedentes para generar texto en diversas aplicaciones. Sin embargo, persisten preocupaciones sobre la precisión y adecuación del contenido que generan. Una metodología contemporánea, la autocorrección, se ha propuesto como una solución a estos problemas. Partiendo de esta premisa, este artículo examina críticamente el papel y la eficacia de la autocorrección en los LLMs, arrojando luz sobre su verdadero potencial y limitaciones. Central a nuestra investigación es la noción de autocorrección intrínseca, mediante la cual un LLM intenta corregir sus respuestas iniciales utilizando únicamente sus capacidades inherentes, sin depender de retroalimentación externa. En el contexto del razonamiento, nuestra investigación indica que los LLMs tienen dificultades para autocorregir sus respuestas sin retroalimentación externa y, en ocasiones, su rendimiento incluso puede deteriorarse después de la autocorrección. A partir de estos hallazgos, ofrecemos sugerencias para futuras investigaciones y aplicaciones prácticas en este campo.
Recientemente, se han desarrollado una gran variedad de modelos de generación y edición de imágenes condicionales para abordar diferentes tareas posteriores, incluyendo la generación de imágenes a partir de texto, la edición de imágenes guiada por texto, la generación de imágenes basada en sujetos, la generación de imágenes guiada por controles, entre otras. Sin embargo, observamos grandes inconsistencias en las condiciones experimentales: conjuntos de datos, inferencia y métricas de evaluación, lo que dificulta las comparaciones justas. Este artículo propone ImagenHub, una biblioteca integral para estandarizar la inferencia y evaluación de todos los modelos de generación de imágenes condicionales. En primer lugar, definimos siete tareas destacadas y seleccionamos conjuntos de datos de evaluación de alta calidad para ellas. En segundo lugar, construimos una canalización de inferencia unificada para garantizar comparaciones justas. En tercer lugar, diseñamos dos puntuaciones de evaluación humana, es decir, Consistencia Semántica y Calidad Perceptual, junto con pautas completas para evaluar las imágenes generadas. Capacitamos a evaluadores expertos para valorar las salidas de los modelos según las métricas propuestas. Nuestra evaluación humana alcanza un alto acuerdo inter-evaluador, con un alfa de Krippendorff superior a 0.4 en el 76% de los modelos. Evaluamos exhaustivamente un total de alrededor de 30 modelos y observamos tres conclusiones clave: (1) el rendimiento de los modelos existentes es generalmente insatisfactorio, excepto en la Generación de Imágenes Guiada por Texto y la Generación de Imágenes Basada en Sujetos, con un 74% de los modelos obteniendo una puntuación general inferior a 0.5. (2) examinamos las afirmaciones de los artículos publicados y encontramos que el 83% de ellas se sostienen, con algunas excepciones. (3) Ninguna de las métricas automáticas existentes tiene una correlación de Spearman superior a 0.2, excepto en la generación de imágenes basada en sujetos. En el futuro, continuaremos nuestros esfuerzos para evaluar los modelos recién publicados y actualizaremos nuestro ranking para seguir el progreso en la generación de imágenes condicionales.
El enfoque de "cadena de pensamiento" (Chain-of-Thought, CoT) para modelos de lenguaje demuestra un rendimiento impresionante en tareas de razonamiento, pero generalmente requiere ejemplos etiquetados del proceso de razonamiento. En este trabajo, presentamos un nuevo enfoque de "prompting" llamado "Prompting Analógico", diseñado para guiar automáticamente el proceso de razonamiento de los modelos de lenguaje grandes. Inspirado en el razonamiento analógico, un proceso cognitivo en el que los humanos recurren a experiencias pasadas relevantes para abordar nuevos problemas, nuestro enfoque impulsa a los modelos de lenguaje a autogenerar ejemplos o conocimientos relevantes en el contexto, antes de proceder a resolver el problema dado. Este método ofrece varias ventajas: elimina la necesidad de etiquetar o recuperar ejemplos, proporcionando generalidad y conveniencia; también puede adaptar los ejemplos y conocimientos generados a cada problema, ofreciendo adaptabilidad. Los resultados experimentales muestran que nuestro enfoque supera al CoT de 0-shot y al CoT manual de few-shot en una variedad de tareas de razonamiento, incluyendo la resolución de problemas matemáticos en GSM8K y MATH, la generación de código en Codeforces y otras tareas de razonamiento en BIG-Bench.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes han demostrado un gran potencial hacia agentes inteligentes y la automatización de próxima generación, pero actualmente carecemos de un punto de referencia sistemático para evaluar las capacidades de los LLMs como agentes. Presentamos SmartPlay: tanto un punto de referencia desafiante como una metodología para evaluar LLMs como agentes. SmartPlay consta de 6 juegos diferentes, incluyendo Piedra-Papel-Tijeras, la Torre de Hanói y Minecraft. Cada juego presenta un entorno único, ofreciendo hasta 20 configuraciones de evaluación y variaciones infinitas del entorno. Cada juego en SmartPlay desafía de manera única un subconjunto de 9 capacidades importantes de un agente LLM inteligente, incluyendo razonamiento con dependencias de objetos, planificación anticipada, razonamiento espacial, aprendizaje a partir de la historia y comprensión de la aleatoriedad. La distinción entre el conjunto de capacidades que cada juego evalúa nos permite analizar cada capacidad por separado. SmartPlay no solo sirve como un terreno de prueba riguroso para evaluar el rendimiento general de los agentes LLM, sino también como una hoja de ruta para identificar brechas en las metodologías actuales. Publicamos nuestro punto de referencia en github.com/LLMsmartplay/SmartPlay.