Modelos de Linguagem de Grande Escala Orquestrando Raciocínio Estruturado Alcançam o Nível de Mestre no Kaggle.Large Language Models Orchestrating Structured Reasoning Achieve Kaggle
Grandmaster Level
Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.