Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos al Agente K v1.0, un agente autónomo de ciencia de datos de extremo a extremo diseñado para automatizar, optimizar y generalizar en diversas tareas de ciencia de datos. Totalmente automatizado, el Agente K v1.0 gestiona todo el ciclo de vida de la ciencia de datos aprendiendo de la experiencia. Utiliza un marco de razonamiento estructurado altamente flexible que le permite procesar dinámicamente la memoria en una estructura anidada, aprendiendo efectivamente de la experiencia acumulada almacenada para manejar tareas de razonamiento complejas. Optimiza la memoria a largo y corto plazo almacenando y recuperando selectivamente información clave, guiando decisiones futuras basadas en recompensas ambientales. Este enfoque iterativo le permite refinar decisiones sin ajustes finos o retropropagación, logrando una mejora continua a través del aprendizaje experiencial. Evaluamos las capacidades de nuestro agente utilizando competiciones de Kaggle como estudio de caso. Siguiendo un protocolo totalmente automatizado, el Agente K v1.0 aborda sistemáticamente tareas complejas y multimodales de ciencia de datos, empleando optimización bayesiana para ajuste de hiperparámetros e ingeniería de características. Nuestro nuevo marco de evaluación evalúa rigurosamente las capacidades de extremo a extremo del Agente K v1.0 para generar y enviar envíos a partir de una URL de competición de Kaggle. Los resultados demuestran que el Agente K v1.0 logra una tasa de éxito del 92.5\% en tareas, abarcando dominios tabulares, visión por computadora, procesamiento de lenguaje natural y multimodales. Al compararlo con 5,856 competidores humanos de Kaggle calculando puntajes Elo-MMR para cada uno, el Agente K v1.0 se ubica en el top 38\%, demostrando un nivel de habilidad general comparable a usuarios de nivel Experto. Destacadamente, su puntaje Elo-MMR se sitúa entre el primer y tercer cuartil de los puntajes logrados por Grandes Maestros humanos. Además, nuestros resultados indican que el Agente K v1.0 ha alcanzado un nivel de rendimiento equivalente a un Gran Maestro de Kaggle, con un récord de 6 medallas de oro, 3 de plata y 7 de bronce, según el sistema de progresión de Kaggle.
La rápida progresión de los modelos de lenguaje multimodales de gran tamaño (MLLMs) ha demostrado un rendimiento superior en varios puntos de referencia multimodales. Sin embargo, el problema de la contaminación de datos durante el entrenamiento crea desafíos en la evaluación del rendimiento y la comparación. Aunque existen numerosos métodos para detectar la contaminación del conjunto de datos en los grandes modelos de lenguaje (LLMs), son menos efectivos para los MLLMs debido a sus diversas modalidades y múltiples fases de entrenamiento. En este estudio, presentamos un marco de detección de contaminación de datos multimodales, MM-Detect, diseñado para MLLMs. Nuestros resultados experimentales indican que MM-Detect es sensible a diferentes grados de contaminación y puede resaltar mejoras significativas en el rendimiento debido a la filtración del conjunto de entrenamiento de los puntos de referencia multimodales. Además, también exploramos la posibilidad de contaminación que se origina en la fase de pre-entrenamiento de LLMs utilizada por MLLMs y en la fase de ajuste fino de MLLMs, ofreciendo nuevas perspectivas sobre las etapas en las que la contaminación puede ser introducida.
Los Transformers han encontrado amplias aplicaciones en diversos dominios debido a sus potentes capacidades de ajuste. Este éxito puede atribuirse parcialmente a su inherente no linealidad. Por lo tanto, además de la función ReLU empleada en la arquitectura original del transformer, los investigadores han explorado módulos alternativos como GeLU y SwishGLU para mejorar la no linealidad y, por ende, aumentar la capacidad representativa. En este artículo, proponemos una nueva categoría de activaciones de composición polinomial (PolyCom), diseñadas para optimizar la dinámica de los transformers. Teóricamente, proporcionamos un análisis matemático exhaustivo de PolyCom, resaltando su expresividad y eficacia mejoradas en comparación con otras funciones de activación. Destacadamente, demostramos que las redes que incorporan PolyCom logran la tasa de aproximación óptima, lo que indica que las redes PolyCom requieren parámetros mínimos para aproximar funciones suaves generales en espacios de Sobolev. Realizamos experimentos empíricos en las configuraciones de pre-entrenamiento de grandes modelos de lenguaje (LLMs), incluyendo arquitecturas densas y dispersas. Al sustituir las funciones de activación convencionales por PolyCom, permitimos que los LLMs capturen interacciones de orden superior dentro de los datos, mejorando así las métricas de rendimiento en términos de precisión y tasas de convergencia. Los extensos resultados experimentales demuestran la efectividad de nuestro método, mostrando mejoras sustanciales sobre otras funciones de activación. El código está disponible en https://github.com/BryceZhuo/PolyCom.
La autoalineación, mediante la cual los modelos aprenden a mejorarse a sí mismos sin anotaciones humanas, es un área de investigación en rápido crecimiento. Sin embargo, las técnicas existentes a menudo no logran mejorar tareas de razonamiento complejas debido a la dificultad de asignar recompensas correctas. Un enfoque ortogonal que se sabe que mejora la corrección es la autoconsistencia, un método aplicado en el momento de la inferencia basado en múltiples muestreos para encontrar la respuesta más consistente. En este trabajo, extendemos el concepto de autoconsistencia para ayudar a entrenar modelos. Por lo tanto, introducimos la optimización de preferencia de autoconsistencia (ScPO), que entrena de forma iterativa para que se prefieran respuestas consistentes sobre las inconsistentes en problemas nuevos no supervisados. Mostramos que ScPO conduce a mejoras significativas sobre el entrenamiento convencional del modelo de recompensa en tareas de razonamiento como GSM8K y MATH, reduciendo la brecha con el entrenamiento supervisado con respuestas o preferencias correctas, y que combinar ScPO con el aprendizaje supervisado estándar mejora aún más los resultados. En ZebraLogic, ScPO ajusta finamente a Llama-3 8B para que sea superior a Llama-3 70B, Gemma-2 27B y Claude-3 Haiku.
Estrategias de dirección en tiempo de ejecución como Medprompt son valiosas para guiar a grandes modelos de lenguaje (LLMs) hacia un rendimiento óptimo en tareas desafiantes. Medprompt demuestra que un LLM general puede ser enfocado para ofrecer un rendimiento de vanguardia en dominios especializados como la medicina mediante el uso de un estímulo para provocar una estrategia en tiempo de ejecución que involucra razonamiento en cadena y ensamblaje. El modelo o1-preview de OpenAI representa un nuevo paradigma, donde un modelo está diseñado para razonar en tiempo de ejecución antes de generar respuestas finales. Buscamos comprender el comportamiento de o1-preview en un conjunto diverso de desafíos médicos. Siguiendo el estudio de Medprompt con GPT-4, evaluamos sistemáticamente el modelo o1-preview en varios benchmarks de problemas médicos. Destacadamente, incluso sin técnicas de estímulo, o1-preview supera en gran medida a la serie GPT-4 con Medprompt. Además, estudiamos sistemáticamente la eficacia de estrategias clásicas de ingeniería de estímulos, representadas por Medprompt, dentro del nuevo paradigma de modelos de razonamiento. Descubrimos que el estímulo de pocos ejemplos obstaculiza el rendimiento de o1, lo que sugiere que el aprendizaje en contexto puede que ya no sea un enfoque efectivo para modelos nativos de razonamiento. Aunque el ensamblaje sigue siendo viable, es intensivo en recursos y requiere una optimización cuidadosa del rendimiento en relación al costo. Nuestro análisis de costo y precisión en las estrategias de tiempo de ejecución revela una frontera de Pareto, donde GPT-4o representa una opción más asequible y o1-preview logra un rendimiento de vanguardia a un costo más alto. Aunque o1-preview ofrece un rendimiento óptimo, GPT-4o con estrategias de dirección como Medprompt conserva valor en contextos específicos. Además, observamos que el modelo o1-preview ha alcanzado una saturación cercana en muchos benchmarks médicos existentes, subrayando la necesidad de nuevos benchmarks desafiantes. Concluimos con reflexiones sobre las direcciones generales para la computación en tiempo de inferencia con LLMs.