Modelos de Lenguaje Grandes Orquestando Razonamiento Estructurado Alcanzan el Nivel de Gran Maestro en KaggleLarge Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
Presentamos al Agente K v1.0, un agente autónomo de ciencia de datos de extremo a extremo diseñado para automatizar, optimizar y generalizar en diversas tareas de ciencia de datos. Totalmente automatizado, el Agente K v1.0 gestiona todo el ciclo de vida de la ciencia de datos aprendiendo de la experiencia. Utiliza un marco de razonamiento estructurado altamente flexible que le permite procesar dinámicamente la memoria en una estructura anidada, aprendiendo efectivamente de la experiencia acumulada almacenada para manejar tareas de razonamiento complejas. Optimiza la memoria a largo y corto plazo almacenando y recuperando selectivamente información clave, guiando decisiones futuras basadas en recompensas ambientales. Este enfoque iterativo le permite refinar decisiones sin ajustes finos o retropropagación, logrando una mejora continua a través del aprendizaje experiencial. Evaluamos las capacidades de nuestro agente utilizando competiciones de Kaggle como estudio de caso. Siguiendo un protocolo totalmente automatizado, el Agente K v1.0 aborda sistemáticamente tareas complejas y multimodales de ciencia de datos, empleando optimización bayesiana para ajuste de hiperparámetros e ingeniería de características. Nuestro nuevo marco de evaluación evalúa rigurosamente las capacidades de extremo a extremo del Agente K v1.0 para generar y enviar envíos a partir de una URL de competición de Kaggle. Los resultados demuestran que el Agente K v1.0 logra una tasa de éxito del 92.5\% en tareas, abarcando dominios tabulares, visión por computadora, procesamiento de lenguaje natural y multimodales. Al compararlo con 5,856 competidores humanos de Kaggle calculando puntajes Elo-MMR para cada uno, el Agente K v1.0 se ubica en el top 38\%, demostrando un nivel de habilidad general comparable a usuarios de nivel Experto. Destacadamente, su puntaje Elo-MMR se sitúa entre el primer y tercer cuartil de los puntajes logrados por Grandes Maestros humanos. Además, nuestros resultados indican que el Agente K v1.0 ha alcanzado un nivel de rendimiento equivalente a un Gran Maestro de Kaggle, con un récord de 6 medallas de oro, 3 de plata y 7 de bronce, según el sistema de progresión de Kaggle.