AutoKaggle: Um Framework Multiagente para Competições Autônomas de Ciência de Dados
AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions
October 27, 2024
Autores: Ziming Li, Qianbo Zang, David Ma, Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge Zhang
cs.AI
Resumo
Tarefas de ciência de dados envolvendo dados tabulares apresentam desafios complexos que exigem abordagens sofisticadas de resolução de problemas. Propomos o AutoKaggle, um framework poderoso e centrado no usuário que auxilia cientistas de dados na conclusão diária de pipelines de dados por meio de um sistema colaborativo de múltiplos agentes. O AutoKaggle implementa um processo de desenvolvimento iterativo que combina execução de código, depuração e testes unitários abrangentes para garantir a correção do código e a consistência lógica. O framework oferece fluxos de trabalho altamente personalizáveis, permitindo que os usuários intervenham em cada fase, integrando assim inteligência automatizada com expertise humana. Nosso kit de ferramentas universal de ciência de dados, composto por funções validadas para limpeza de dados, engenharia de características e modelagem, constitui a base desta solução, aprimorando a produtividade ao simplificar tarefas comuns. Selecionamos 8 competições do Kaggle para simular fluxos de processamento de dados em cenários de aplicação do mundo real. Os resultados da avaliação demonstram que o AutoKaggle alcança uma taxa de submissão de validação de 0,85 e uma pontuação abrangente de 0,82 em pipelines típicos de ciência de dados, provando totalmente sua eficácia e praticidade no tratamento de tarefas complexas de ciência de dados.
English
Data science tasks involving tabular data present complex challenges that
require sophisticated problem-solving approaches. We propose AutoKaggle, a
powerful and user-centric framework that assists data scientists in completing
daily data pipelines through a collaborative multi-agent system. AutoKaggle
implements an iterative development process that combines code execution,
debugging, and comprehensive unit testing to ensure code correctness and logic
consistency. The framework offers highly customizable workflows, allowing users
to intervene at each phase, thus integrating automated intelligence with human
expertise. Our universal data science toolkit, comprising validated functions
for data cleaning, feature engineering, and modeling, forms the foundation of
this solution, enhancing productivity by streamlining common tasks. We selected
8 Kaggle competitions to simulate data processing workflows in real-world
application scenarios. Evaluation results demonstrate that AutoKaggle achieves
a validation submission rate of 0.85 and a comprehensive score of 0.82 in
typical data science pipelines, fully proving its effectiveness and
practicality in handling complex data science tasks.Summary
AI-Generated Summary