Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Modelos de Lenguaje Grandes Orquestando Razonamiento Estructurado Alcanzan el Nivel de Gran Maestro en Kaggle
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Presentamos al Agente K v1.0, un agente autónomo de ciencia de datos de extremo a extremo diseñado para automatizar, optimizar y generalizar en diversas tareas de ciencia de datos. Totalmente automatizado, el Agente K v1.0 gestiona todo el ciclo de vida de la ciencia de datos aprendiendo de la experiencia. Utiliza un marco de razonamiento estructurado altamente flexible que le permite procesar dinámicamente la memoria en una estructura anidada, aprendiendo efectivamente de la experiencia acumulada almacenada para manejar tareas de razonamiento complejas. Optimiza la memoria a largo y corto plazo almacenando y recuperando selectivamente información clave, guiando decisiones futuras basadas en recompensas ambientales. Este enfoque iterativo le permite refinar decisiones sin ajustes finos o retropropagación, logrando una mejora continua a través del aprendizaje experiencial. Evaluamos las capacidades de nuestro agente utilizando competiciones de Kaggle como estudio de caso. Siguiendo un protocolo totalmente automatizado, el Agente K v1.0 aborda sistemáticamente tareas complejas y multimodales de ciencia de datos, empleando optimización bayesiana para ajuste de hiperparámetros e ingeniería de características. Nuestro nuevo marco de evaluación evalúa rigurosamente las capacidades de extremo a extremo del Agente K v1.0 para generar y enviar envíos a partir de una URL de competición de Kaggle. Los resultados demuestran que el Agente K v1.0 logra una tasa de éxito del 92.5\% en tareas, abarcando dominios tabulares, visión por computadora, procesamiento de lenguaje natural y multimodales. Al compararlo con 5,856 competidores humanos de Kaggle calculando puntajes Elo-MMR para cada uno, el Agente K v1.0 se ubica en el top 38\%, demostrando un nivel de habilidad general comparable a usuarios de nivel Experto. Destacadamente, su puntaje Elo-MMR se sitúa entre el primer y tercer cuartil de los puntajes logrados por Grandes Maestros humanos. Además, nuestros resultados indican que el Agente K v1.0 ha alcanzado un nivel de rendimiento equivalente a un Gran Maestro de Kaggle, con un récord de 6 medallas de oro, 3 de plata y 7 de bronce, según el sistema de progresión de Kaggle.

¡Tanto el texto como las imágenes se filtraron! Un análisis sistemático de la contaminación de datos multimodales de LLM.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

La rápida progresión de los modelos de lenguaje multimodales de gran tamaño (MLLMs) ha demostrado un rendimiento superior en varios puntos de referencia multimodales. Sin embargo, el problema de la contaminación de datos durante el entrenamiento crea desafíos en la evaluación del rendimiento y la comparación. Aunque existen numerosos métodos para detectar la contaminación del conjunto de datos en los grandes modelos de lenguaje (LLMs), son menos efectivos para los MLLMs debido a sus diversas modalidades y múltiples fases de entrenamiento. En este estudio, presentamos un marco de detección de contaminación de datos multimodales, MM-Detect, diseñado para MLLMs. Nuestros resultados experimentales indican que MM-Detect es sensible a diferentes grados de contaminación y puede resaltar mejoras significativas en el rendimiento debido a la filtración del conjunto de entrenamiento de los puntos de referencia multimodales. Además, también exploramos la posibilidad de contaminación que se origina en la fase de pre-entrenamiento de LLMs utilizada por MLLMs y en la fase de ajuste fino de MLLMs, ofreciendo nuevas perspectivas sobre las etapas en las que la contaminación puede ser introducida.

Activaciones de Composición Polinomial: Liberando la Dinámica de Modelos de Lenguaje Grandes
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Los Transformers han encontrado amplias aplicaciones en diversos dominios debido a sus potentes capacidades de ajuste. Este éxito puede atribuirse parcialmente a su inherente no linealidad. Por lo tanto, además de la función ReLU empleada en la arquitectura original del transformer, los investigadores han explorado módulos alternativos como GeLU y SwishGLU para mejorar la no linealidad y, por ende, aumentar la capacidad representativa. En este artículo, proponemos una nueva categoría de activaciones de composición polinomial (PolyCom), diseñadas para optimizar la dinámica de los transformers. Teóricamente, proporcionamos un análisis matemático exhaustivo de PolyCom, resaltando su expresividad y eficacia mejoradas en comparación con otras funciones de activación. Destacadamente, demostramos que las redes que incorporan PolyCom logran la tasa de aproximación óptima, lo que indica que las redes PolyCom requieren parámetros mínimos para aproximar funciones suaves generales en espacios de Sobolev. Realizamos experimentos empíricos en las configuraciones de pre-entrenamiento de grandes modelos de lenguaje (LLMs), incluyendo arquitecturas densas y dispersas. Al sustituir las funciones de activación convencionales por PolyCom, permitimos que los LLMs capturen interacciones de orden superior dentro de los datos, mejorando así las métricas de rendimiento en términos de precisión y tasas de convergencia. Los extensos resultados experimentales demuestran la efectividad de nuestro método, mostrando mejoras sustanciales sobre otras funciones de activación. El código está disponible en https://github.com/BryceZhuo/PolyCom.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

Optimización de la Preferencia de Autoconsistencia
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

La autoalineación, mediante la cual los modelos aprenden a mejorarse a sí mismos sin anotaciones humanas, es un área de investigación en rápido crecimiento. Sin embargo, las técnicas existentes a menudo no logran mejorar tareas de razonamiento complejas debido a la dificultad de asignar recompensas correctas. Un enfoque ortogonal que se sabe que mejora la corrección es la autoconsistencia, un método aplicado en el momento de la inferencia basado en múltiples muestreos para encontrar la respuesta más consistente. En este trabajo, extendemos el concepto de autoconsistencia para ayudar a entrenar modelos. Por lo tanto, introducimos la optimización de preferencia de autoconsistencia (ScPO), que entrena de forma iterativa para que se prefieran respuestas consistentes sobre las inconsistentes en problemas nuevos no supervisados. Mostramos que ScPO conduce a mejoras significativas sobre el entrenamiento convencional del modelo de recompensa en tareas de razonamiento como GSM8K y MATH, reduciendo la brecha con el entrenamiento supervisado con respuestas o preferencias correctas, y que combinar ScPO con el aprendizaje supervisado estándar mejora aún más los resultados. En ZebraLogic, ScPO ajusta finamente a Llama-3 8B para que sea superior a Llama-3 70B, Gemma-2 27B y Claude-3 Haiku.

De Medprompt a o1: Exploración de Estrategias en Tiempo de Ejecución para Problemas de Desafío Médico y Más Allá
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Estrategias de dirección en tiempo de ejecución como Medprompt son valiosas para guiar a grandes modelos de lenguaje (LLMs) hacia un rendimiento óptimo en tareas desafiantes. Medprompt demuestra que un LLM general puede ser enfocado para ofrecer un rendimiento de vanguardia en dominios especializados como la medicina mediante el uso de un estímulo para provocar una estrategia en tiempo de ejecución que involucra razonamiento en cadena y ensamblaje. El modelo o1-preview de OpenAI representa un nuevo paradigma, donde un modelo está diseñado para razonar en tiempo de ejecución antes de generar respuestas finales. Buscamos comprender el comportamiento de o1-preview en un conjunto diverso de desafíos médicos. Siguiendo el estudio de Medprompt con GPT-4, evaluamos sistemáticamente el modelo o1-preview en varios benchmarks de problemas médicos. Destacadamente, incluso sin técnicas de estímulo, o1-preview supera en gran medida a la serie GPT-4 con Medprompt. Además, estudiamos sistemáticamente la eficacia de estrategias clásicas de ingeniería de estímulos, representadas por Medprompt, dentro del nuevo paradigma de modelos de razonamiento. Descubrimos que el estímulo de pocos ejemplos obstaculiza el rendimiento de o1, lo que sugiere que el aprendizaje en contexto puede que ya no sea un enfoque efectivo para modelos nativos de razonamiento. Aunque el ensamblaje sigue siendo viable, es intensivo en recursos y requiere una optimización cuidadosa del rendimiento en relación al costo. Nuestro análisis de costo y precisión en las estrategias de tiempo de ejecución revela una frontera de Pareto, donde GPT-4o representa una opción más asequible y o1-preview logra un rendimiento de vanguardia a un costo más alto. Aunque o1-preview ofrece un rendimiento óptimo, GPT-4o con estrategias de dirección como Medprompt conserva valor en contextos específicos. Además, observamos que el modelo o1-preview ha alcanzado una saturación cercana en muchos benchmarks médicos existentes, subrayando la necesidad de nuevos benchmarks desafiantes. Concluimos con reflexiones sobre las direcciones generales para la computación en tiempo de inferencia con LLMs.