AutoMind: Adaptieve Kennisrijke Agent voor Geautomatiseerde Data Science
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Auteurs: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Samenvatting
Large Language Model (LLM)-agents hebben groot potentieel getoond bij het aanpakken van real-world data science-problemen. LLM-gestuurde data science-agents beloven de volledige machine learning-pijplijn te automatiseren, maar hun effectiviteit in de praktijk blijft beperkt. Bestaande frameworks zijn afhankelijk van rigide, vooraf gedefinieerde workflows en inflexibele coderingsstrategieën; als gevolg daarvan presteren ze alleen goed bij relatief eenvoudige, klassieke problemen en slagen ze er niet in de empirische expertise te benutten die menselijke beoefenaars inzetten bij complexe, innovatieve taken. In dit werk introduceren we AutoMind, een adaptief, kennisrijk LLM-agentframework dat deze tekortkomingen overwint door drie belangrijke verbeteringen: (1) een samengestelde expertkennisbank die de agent grondt in domeinexpertkennis, (2) een agent-gebaseerde kennisrijke boomzoekalgoritme dat strategisch mogelijke oplossingen verkent, en (3) een zelf-adaptieve coderingsstrategie die codegeneratie dynamisch afstemt op de complexiteit van de taak. Evaluaties op twee geautomatiseerde data science-benchmarks tonen aan dat AutoMind superieure prestaties levert ten opzichte van state-of-the-art referentiemodellen. Aanvullende analyses bevestigen gunstige effectiviteit, efficiëntie en kwalitatieve oplossingskwaliteit, wat AutoMind benadrukt als een efficiënte en robuuste stap richting volledig geautomatiseerde data science.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.