Una Encuesta de Agentes de Datos: ¿Paradigma Emergente o Exageración Sobredimensionada?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
October 27, 2025
Autores: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
cs.AI
Resumen
El rápido avance de los modelos de lenguaje extenso (LLM) ha impulsado la aparición de agentes de datos: sistemas autónomos diseñados para orquestar ecosistemas de Datos + IA con el fin de abordar tareas complejas relacionadas con datos. Sin embargo, el término "agente de datos" sufre actualmente de ambigüedad terminológica y adopción inconsistente, confundiendo desde simples respondedores de consultas hasta arquitecturas autónomas sofisticadas. Esta ambigüedad terminológica fomenta expectativas de usuario desalineadas, desafíos de responsabilidad y barreras para el crecimiento de la industria. Inspirado por el estándar SAE J3016 para la automatización de la conducción, este estudio presenta la primera taxonomía jerárquica sistemática para agentes de datos, que comprende seis niveles que delinean y trazan cambios progresivos en la autonomía, desde operaciones manuales (N0) hasta una visión de agentes de datos generativos y completamente autónomos (N5), aclarando así los límites de capacidad y la asignación de responsabilidades. A través de esta lente, ofrecemos una revisión estructurada de la investigación existente organizada por autonomía creciente, abarcando agentes de datos especializados para la gestión, preparación y análisis de datos, junto con esfuerzos emergentes hacia sistemas versátiles e integrales con mayor autonomía. Además, analizamos saltos evolutivos críticos y brechas técnicas para el avance de los agentes de datos, especialmente la transición en curso del N2 al N3, donde los agentes de datos evolucionan de la ejecución procedural a la orquestación autónoma. Finalmente, concluimos con una hoja de ruta prospectiva, vislumbrando la llegada de agentes de datos generativos y proactivos.
English
The rapid advancement of large language models (LLMs) has spurred the
emergence of data agents--autonomous systems designed to orchestrate Data + AI
ecosystems for tackling complex data-related tasks. However, the term "data
agent" currently suffers from terminological ambiguity and inconsistent
adoption, conflating simple query responders with sophisticated autonomous
architectures. This terminological ambiguity fosters mismatched user
expectations, accountability challenges, and barriers to industry growth.
Inspired by the SAE J3016 standard for driving automation, this survey
introduces the first systematic hierarchical taxonomy for data agents,
comprising six levels that delineate and trace progressive shifts in autonomy,
from manual operations (L0) to a vision of generative, fully autonomous data
agents (L5), thereby clarifying capability boundaries and responsibility
allocation. Through this lens, we offer a structured review of existing
research arranged by increasing autonomy, encompassing specialized data agents
for data management, preparation, and analysis, alongside emerging efforts
toward versatile, comprehensive systems with enhanced autonomy. We further
analyze critical evolutionary leaps and technical gaps for advancing data
agents, especially the ongoing L2-to-L3 transition, where data agents evolve
from procedural execution to autonomous orchestration. Finally, we conclude
with a forward-looking roadmap, envisioning the advent of proactive, generative
data agents.