AutoMind : Agent adaptatif et expert pour la science des données automatisée
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Auteurs: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Résumé
Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré un potentiel considérable pour résoudre des problèmes de science des données dans le monde réel. Les agents de science des données pilotés par des LLM promettent d'automatiser l'intégralité du pipeline d'apprentissage automatique, mais leur efficacité pratique reste limitée. Les frameworks existants reposent sur des workflows rigides et prédéfinis ainsi que des stratégies de codage inflexibles ; par conséquent, ils excellent uniquement sur des problèmes relativement simples et classiques, et ne parviennent pas à capturer l'expertise empirique que les praticiens humains apportent aux tâches complexes et innovantes. Dans ce travail, nous présentons AutoMind, un framework d'agent LLM adaptatif et informé qui surmonte ces lacunes grâce à trois avancées clés : (1) une base de connaissances expertes organisée qui ancre l'agent dans le savoir des experts du domaine, (2) un algorithme de recherche arborescente agentique et informé qui explore stratégiquement les solutions possibles, et (3) une stratégie de codage auto-adaptative qui ajuste dynamiquement la génération de code à la complexité de la tâche. Les évaluations sur deux benchmarks automatisés de science des données montrent qu'AutoMind offre des performances supérieures par rapport aux approches de pointe existantes. Des analyses supplémentaires confirment une efficacité, une efficience et une qualité de solution qualitatives favorables, positionnant AutoMind comme une étape robuste et efficace vers une science des données entièrement automatisée.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.