AutoMind: Adaptiver Wissensagent für automatisierte Data Science
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Autoren: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Zusammenfassung
Große Sprachmodell (LLM)-Agenten haben großes Potenzial bei der Bewältigung realer Datenwissenschaftsprobleme gezeigt. LLM-gesteuerte Datenwissenschaftsagenten versprechen, den gesamten maschinellen Lernprozess zu automatisieren, doch ihre reale Effektivität bleibt begrenzt. Bestehende Frameworks basieren auf starren, vordefinierten Workflows und unflexiblen Codierungsstrategien; folglich glänzen sie nur bei relativ einfachen, klassischen Problemen und scheitern daran, die empirische Expertise menschlicher Praktiker bei komplexen, innovativen Aufgaben zu erfassen. In dieser Arbeit stellen wir AutoMind vor, ein adaptives, wissensbasiertes LLM-Agenten-Framework, das diese Mängel durch drei wesentliche Fortschritte überwindet: (1) eine kuratierte Expertenwissensbasis, die den Agenten in domänenspezifischem Expertenwissen verankert, (2) einen agentenbasierten, wissensgestützten Baum-Suchalgorithmus, der strategisch mögliche Lösungen erkundet, und (3) eine selbstadaptive Codierungsstrategie, die die Codegenerierung dynamisch an die Aufgabenkomplexität anpasst. Evaluierungen an zwei automatisierten Datenwissenschafts-Benchmarks zeigen, dass AutoMind eine überlegene Leistung gegenüber modernsten Baselines erzielt. Zusätzliche Analysen bestätigen eine günstige Effektivität, Effizienz und qualitative Lösungsqualität, was AutoMind als einen effizienten und robusten Schritt hin zur vollständig automatisierten Datenwissenschaft hervorhebt.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.