Modelos de Linguagem de Grande Escala Orquestrando Raciocínio Estruturado Alcançam o Nível de Mestre no Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level
November 5, 2024
Autores: Antoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang
cs.AI
Resumo
Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.
English
We introduce Agent K v1.0, an end-to-end autonomous data science agent
designed to automate, optimise, and generalise across diverse data science
tasks. Fully automated, Agent K v1.0 manages the entire data science life cycle
by learning from experience. It leverages a highly flexible structured
reasoning framework to enable it to dynamically process memory in a nested
structure, effectively learning from accumulated experience stored to handle
complex reasoning tasks. It optimises long- and short-term memory by
selectively storing and retrieving key information, guiding future decisions
based on environmental rewards. This iterative approach allows it to refine
decisions without fine-tuning or backpropagation, achieving continuous
improvement through experiential learning. We evaluate our agent's apabilities
using Kaggle competitions as a case study. Following a fully automated
protocol, Agent K v1.0 systematically addresses complex and multimodal data
science tasks, employing Bayesian optimisation for hyperparameter tuning and
feature engineering. Our new evaluation framework rigorously assesses Agent K
v1.0's end-to-end capabilities to generate and send submissions starting from a
Kaggle competition URL. Results demonstrate that Agent K v1.0 achieves a 92.5\%
success rate across tasks, spanning tabular, computer vision, NLP, and
multimodal domains. When benchmarking against 5,856 human Kaggle competitors by
calculating Elo-MMR scores for each, Agent K v1.0 ranks in the top 38\%,
demonstrating an overall skill level comparable to Expert-level users. Notably,
its Elo-MMR score falls between the first and third quartiles of scores
achieved by human Grandmasters. Furthermore, our results indicate that Agent K
v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a
record of 6 gold, 3 silver, and 7 bronze medals, as defined by Kaggle's
progression system.Summary
AI-Generated Summary