ChatPaper.aiChatPaper

AutoKaggle: Un marco de trabajo multiagente para competiciones autónomas de ciencia de datos

AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions

October 27, 2024
Autores: Ziming Li, Qianbo Zang, David Ma, Jiawei Guo, Tuney Zheng, Minghao Liu, Xinyao Niu, Yue Wang, Jian Yang, Jiaheng Liu, Wanjun Zhong, Wangchunshu Zhou, Wenhao Huang, Ge Zhang
cs.AI

Resumen

Las tareas de ciencia de datos que implican datos tabulares presentan desafíos complejos que requieren enfoques sofisticados para la resolución de problemas. Proponemos AutoKaggle, un marco potente y centrado en el usuario que asiste a los científicos de datos en completar las canalizaciones de datos diarias a través de un sistema colaborativo de múltiples agentes. AutoKaggle implementa un proceso de desarrollo iterativo que combina la ejecución de código, la depuración y pruebas unitarias exhaustivas para garantizar la corrección del código y la consistencia lógica. El marco ofrece flujos de trabajo altamente personalizables, permitiendo a los usuarios intervenir en cada fase, integrando así la inteligencia automatizada con la experiencia humana. Nuestra caja de herramientas universal de ciencia de datos, que comprende funciones validadas para la limpieza de datos, la ingeniería de características y modelado, constituye la base de esta solución, mejorando la productividad al optimizar tareas comunes. Seleccionamos 8 competiciones de Kaggle para simular flujos de procesamiento de datos en escenarios de aplicación del mundo real. Los resultados de evaluación demuestran que AutoKaggle logra una tasa de presentación de validación del 0.85 y una puntuación integral del 0.82 en canalizaciones típicas de ciencia de datos, demostrando plenamente su eficacia y practicidad en el manejo de tareas complejas de ciencia de datos.
English
Data science tasks involving tabular data present complex challenges that require sophisticated problem-solving approaches. We propose AutoKaggle, a powerful and user-centric framework that assists data scientists in completing daily data pipelines through a collaborative multi-agent system. AutoKaggle implements an iterative development process that combines code execution, debugging, and comprehensive unit testing to ensure code correctness and logic consistency. The framework offers highly customizable workflows, allowing users to intervene at each phase, thus integrating automated intelligence with human expertise. Our universal data science toolkit, comprising validated functions for data cleaning, feature engineering, and modeling, forms the foundation of this solution, enhancing productivity by streamlining common tasks. We selected 8 Kaggle competitions to simulate data processing workflows in real-world application scenarios. Evaluation results demonstrate that AutoKaggle achieves a validation submission rate of 0.85 and a comprehensive score of 0.82 in typical data science pipelines, fully proving its effectiveness and practicality in handling complex data science tasks.

Summary

AI-Generated Summary

PDF414November 16, 2024