AutoMind: Agente Conoscitivo Adattivo per la Scienza dei Dati Automatizzata
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Autori: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale nell'affrontare problemi di data science del mondo reale. Gli agenti di data science guidati da LLM promettono di automatizzare l'intera pipeline di machine learning, ma la loro efficacia nel mondo reale rimane limitata. I framework esistenti dipendono da flussi di lavoro rigidi e predefiniti e da strategie di codifica inflessibili; di conseguenza, eccellono solo su problemi relativamente semplici e classici e non riescono a catturare l'esperienza empirica che i professionisti umani portano a compiti complessi e innovativi. In questo lavoro, introduciamo AutoMind, un framework adattivo e informato per agenti LLM che supera queste carenze attraverso tre progressi chiave: (1) una base di conoscenza esperta curata che radica l'agente nella conoscenza degli esperti di dominio, (2) un algoritmo di ricerca ad albero agente informato che esplora strategicamente le possibili soluzioni, e (3) una strategia di codifica auto-adattiva che adatta dinamicamente la generazione del codice alla complessità del compito. Le valutazioni su due benchmark automatizzati di data science dimostrano che AutoMind offre prestazioni superiori rispetto alle baseline all'avanguardia. Analisi aggiuntive confermano un'efficacia, un'efficienza e una qualità qualitativa delle soluzioni favorevoli, evidenziando AutoMind come un passo efficiente e robusto verso la data science completamente automatizzata.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.