Modelos de Linguagem de Grande Escala Orquestrando Raciocínio Estruturado Alcançam o Nível de Mestre no Kaggle.

Resumo

Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.

English

We introduce Agent K v1.0, an end-to-end autonomous data science agent designed to automate, optimise, and generalise across diverse data science tasks. Fully automated, Agent K v1.0 manages the entire data science life cycle by learning from experience. It leverages a highly flexible structured reasoning framework to enable it to dynamically process memory in a nested structure, effectively learning from accumulated experience stored to handle complex reasoning tasks. It optimises long- and short-term memory by selectively storing and retrieving key information, guiding future decisions based on environmental rewards. This iterative approach allows it to refine decisions without fine-tuning or backpropagation, achieving continuous improvement through experiential learning. We evaluate our agent's apabilities using Kaggle competitions as a case study. Following a fully automated protocol, Agent K v1.0 systematically addresses complex and multimodal data science tasks, employing Bayesian optimisation for hyperparameter tuning and feature engineering. Our new evaluation framework rigorously assesses Agent K v1.0's end-to-end capabilities to generate and send submissions starting from a Kaggle competition URL. Results demonstrate that Agent K v1.0 achieves a 92.5\% success rate across tasks, spanning tabular, computer vision, NLP, and multimodal domains. When benchmarking against 5,856 human Kaggle competitors by calculating Elo-MMR scores for each, Agent K v1.0 ranks in the top 38\%, demonstrating an overall skill level comparable to Expert-level users. Notably, its Elo-MMR score falls between the first and third quartiles of scores achieved by human Grandmasters. Furthermore, our results indicate that Agent K v1.0 has reached a performance level equivalent to Kaggle Grandmaster, with a record of 6 gold, 3 silver, and 7 bronze medals, as defined by Kaggle's progression system.

Modelos de Linguagem de Grande Escala Orquestrando Raciocínio Estruturado Alcançam o Nível de Mestre no Kaggle.

Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Resumo

Support