AutoMind: Agente Adaptativo con Conocimiento para Ciencia de Datos Automatizada
AutoMind: Adaptive Knowledgeable Agent for Automated Data Science
June 12, 2025
Autores: Yixin Ou, Yujie Luo, Jingsheng Zheng, Lanning Wei, Shuofei Qiao, Jintian Zhang, Da Zheng, Huajun Chen, Ningyu Zhang
cs.AI
Resumen
Los agentes basados en modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado un gran potencial para abordar problemas de ciencia de datos del mundo real. Los agentes de ciencia de datos impulsados por LLM prometen automatizar todo el flujo de trabajo de aprendizaje automático, aunque su efectividad en escenarios reales sigue siendo limitada. Los marcos existentes dependen de flujos de trabajo rígidos y predefinidos, así como de estrategias de codificación inflexibles; como resultado, solo destacan en problemas relativamente simples y clásicos, y no logran capturar la experiencia empírica que los profesionales humanos aportan a tareas complejas e innovadoras. En este trabajo, presentamos AutoMind, un marco de agente LLM adaptativo y experto que supera estas deficiencias mediante tres avances clave: (1) una base de conocimiento experto curada que fundamenta al agente en el conocimiento del dominio, (2) un algoritmo de búsqueda en árbol con conocimiento agéntico que explora estratégicamente posibles soluciones, y (3) una estrategia de codificación auto-adaptativa que ajusta dinámicamente la generación de código según la complejidad de la tarea. Las evaluaciones en dos benchmarks automatizados de ciencia de datos demuestran que AutoMind ofrece un rendimiento superior en comparación con los enfoques más avanzados. Análisis adicionales confirman una efectividad, eficiencia y calidad cualitativa de las soluciones favorables, destacando a AutoMind como un paso eficiente y robusto hacia la ciencia de datos completamente automatizada.
English
Large Language Model (LLM) agents have shown great potential in addressing
real-world data science problems. LLM-driven data science agents promise to
automate the entire machine learning pipeline, yet their real-world
effectiveness remains limited. Existing frameworks depend on rigid, pre-defined
workflows and inflexible coding strategies; consequently, they excel only on
relatively simple, classical problems and fail to capture the empirical
expertise that human practitioners bring to complex, innovative tasks. In this
work, we introduce AutoMind, an adaptive, knowledgeable LLM-agent framework
that overcomes these deficiencies through three key advances: (1) a curated
expert knowledge base that grounds the agent in domain expert knowledge, (2) an
agentic knowledgeable tree search algorithm that strategically explores
possible solutions, and (3) a self-adaptive coding strategy that dynamically
tailors code generation to task complexity. Evaluations on two automated data
science benchmarks demonstrate that AutoMind delivers superior performance
versus state-of-the-art baselines. Additional analyses confirm favorable
effectiveness, efficiency, and qualitative solution quality, highlighting
AutoMind as an efficient and robust step toward fully automated data science.