AutoMind: Agente Conhecedor Adaptativo para Ciência de Dados Automatizada
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Autores: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Resumo
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado grande potencial na resolução de problemas reais de ciência de dados. Agentes de ciência de dados impulsionados por LLM prometem automatizar todo o pipeline de aprendizado de máquina, mas sua eficácia no mundo real ainda é limitada. Os frameworks existentes dependem de fluxos de trabalho rígidos e pré-definidos, bem como de estratégias de codificação inflexíveis; consequentemente, eles se destacam apenas em problemas relativamente simples e clássicos, falhando em capturar a expertise empírica que os profissionais humanos trazem para tarefas complexas e inovadoras. Neste trabalho, apresentamos o AutoMind, um framework de agente LLM adaptativo e informado que supera essas deficiências por meio de três avanços principais: (1) uma base de conhecimento especializado curada que fundamenta o agente no conhecimento de especialistas do domínio, (2) um algoritmo de busca em árvore informado e agentivo que explora estrategicamente possíveis soluções, e (3) uma estratégia de codificação auto-adaptativa que ajusta dinamicamente a geração de código à complexidade da tarefa. Avaliações em dois benchmarks automatizados de ciência de dados demonstram que o AutoMind oferece desempenho superior em comparação com as abordagens state-of-the-art. Análises adicionais confirmam eficácia, eficiência e qualidade qualitativa das soluções favoráveis, destacando o AutoMind como um passo eficiente e robusto em direção à ciência de dados totalmente automatizada.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.