Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado sus potentes capacidades en numerosos dominios y tareas, incluyendo la comprensión de contexto, la generación de código, la generación de lenguaje, la narración de datos, entre otros, muchos analistas de datos pueden plantear preocupaciones sobre si sus trabajos serán reemplazados por la inteligencia artificial (IA). Este tema controvertido ha captado mucha atención pública. Sin embargo, aún nos encontramos en una etapa de opiniones divergentes sin una conclusión definitiva. Motivados por esto, planteamos la pregunta de investigación "¿es GPT-4 un buen analista de datos?" en este trabajo y buscamos responderla mediante la realización de estudios comparativos directos. En detalle, consideramos a GPT-4 como un analista de datos para realizar análisis de datos de extremo a extremo con bases de datos de una amplia gama de dominios. Proponemos un marco para abordar los problemas mediante el diseño cuidadoso de indicaciones (prompts) para GPT-4 con el fin de llevar a cabo experimentos. También diseñamos varias métricas de evaluación específicas para tareas con el objetivo de comparar sistemáticamente el rendimiento entre varios analistas de datos humanos profesionales y GPT-4. Los resultados experimentales muestran que GPT-4 puede alcanzar un rendimiento comparable al de los humanos. Además, ofrecemos discusiones detalladas sobre nuestros resultados para arrojar luz sobre futuros estudios antes de llegar a la conclusión de que GPT-4 puede reemplazar a los analistas de datos.
Con la reciente aparición de los LLMs en entornos prácticos, contar con métodos que puedan detectar de manera efectiva inconsistencias factuales es crucial para reducir la propagación de desinformación y mejorar la confianza en las salidas de los modelos. Al evaluar en los benchmarks existentes de consistencia factual, encontramos que algunos modelos de lenguaje grandes (LLMs) tienen un desempeño competitivo en benchmarks de clasificación para la detección de inconsistencias factuales en comparación con métodos tradicionales no basados en LLMs. Sin embargo, un análisis más detallado revela que la mayoría de los LLMs fallan en formulaciones más complejas de la tarea y expone problemas con los benchmarks de evaluación existentes, lo que afecta la precisión de la evaluación. Para abordar esto, proponemos un nuevo protocolo para la creación de benchmarks de detección de inconsistencias y lo implementamos en un benchmark de 10 dominios llamado SummEdits. Este nuevo benchmark es 20 veces más rentable por muestra que los benchmarks anteriores y altamente reproducible, ya que estimamos un acuerdo interanotador de aproximadamente 0.9. La mayoría de los LLMs tienen dificultades en SummEdits, con un rendimiento cercano al azar. El modelo con mejor desempeño, GPT-4, sigue estando un 8% por debajo del rendimiento humano estimado, lo que destaca las brechas en la capacidad de los LLMs para razonar sobre hechos y detectar inconsistencias cuando ocurren.
Los juegos de supervivencia en mundos abiertos presentan desafíos significativos para los algoritmos de IA debido a sus requisitos de multitarea, exploración profunda y priorización de objetivos. Aunque el aprendizaje por refuerzo (RL) es popular para resolver juegos, su alta complejidad muestral limita su efectividad en juegos complejos de mundo abierto como Crafter o Minecraft. Proponemos un enfoque novedoso, SPRING, para leer el artículo académico original del juego y utilizar el conocimiento aprendido para razonar y jugar el juego a través de un modelo de lenguaje grande (LLM). Al proporcionar el código fuente en LaTeX como contexto del juego y una descripción de la observación actual del agente, nuestro marco SPRING emplea un grafo acíclico dirigido (DAG) con preguntas relacionadas con el juego como nodos y dependencias como aristas. Identificamos la acción óptima a tomar en el entorno recorriendo el DAG y calculando las respuestas del LLM para cada nodo en orden topológico, donde la respuesta del LLM al nodo final se traduce directamente en acciones del entorno. En nuestros experimentos, estudiamos la calidad del "razonamiento" en contexto inducido por diferentes formas de indicaciones en el entorno de mundo abierto de Crafter. Nuestros experimentos sugieren que los LLM, cuando se les proporciona una cadena de pensamiento consistente, tienen un gran potencial para completar trayectorias sofisticadas de alto nivel. Cuantitativamente, SPRING con GPT-4 supera a todos los baselines de RL de última generación, entrenados durante 1 millón de pasos, sin ningún entrenamiento. Finalmente, mostramos el potencial de los juegos como banco de pruebas para LLM.
Si bien la Traducción Automática Neuronal (NMT, por sus siglas en inglés) representa el enfoque líder en Traducción Automática (MT), los resultados de los modelos NMT aún requieren post-edición de traducción para corregir errores y mejorar la calidad, especialmente en entornos críticos. En este trabajo, formalizamos la tarea de post-edición de traducción con Modelos de Lenguaje de Gran Escala (LLMs) y exploramos el uso de GPT-4 para post-editar automáticamente los resultados de NMT en varios pares de idiomas. Nuestros resultados demuestran que GPT-4 es competente en la post-edición de traducciones y produce ediciones significativas incluso cuando el idioma objetivo no es el inglés. Cabe destacar que logramos un rendimiento de vanguardia en los pares de idiomas inglés-chino, inglés-alemán, chino-inglés y alemán-inglés de WMT-22 utilizando la post-edición basada en GPT-4, según lo evaluado por métricas de calidad de MT de última generación.
Estrategias como el prompting de cadena de pensamiento mejoran el rendimiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) en tareas de razonamiento complejo al descomponer ejemplos de entrada en pasos intermedios. Sin embargo, aún no está claro cómo aplicar tales métodos para razonar sobre documentos largos, en los que tanto la descomposición como el resultado de cada paso intermedio son difíciles de obtener. En este trabajo, proponemos PEARL, un marco de prompting para mejorar el razonamiento sobre documentos largos, que consta de tres etapas: minería de acciones, formulación de planes y ejecución de planes. Más específicamente, dada una pregunta sobre un documento largo, PEARL descompone la pregunta en una secuencia de acciones (por ejemplo, RESUMIR, ENCONTRAR_EVENTO, ENCONTRAR_RELACIÓN) y luego las ejecuta sobre el documento para obtener la respuesta. Cada etapa de PEARL se implementa mediante prompting de pocos ejemplos o sin ejemplos (zero-shot o few-shot) en LLMs (en nuestro trabajo, GPT-4) con una intervención humana mínima. Evaluamos PEARL en un subconjunto desafiante del conjunto de datos QuALITY, que contiene preguntas que requieren razonamiento complejo sobre textos narrativos largos. PEARL supera al prompting zero-shot y de cadena de pensamiento en este conjunto de datos, y los experimentos de ablación muestran que cada etapa de PEARL es crítica para su rendimiento. En general, PEARL es un primer paso hacia el aprovechamiento de los LLMs para razonar sobre documentos largos.