Un'indagine sugli agenti di dati: paradigma emergente o hype sopravvalutato?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
October 27, 2025
Autori: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
cs.AI
Abstract
Il rapido progresso dei grandi modelli linguistici (LLM) ha favorito l'emergere di agenti di dati—sistemi autonomi progettati per orchestrare ecosistemi Dati + IA per affrontare compiti complessi legati ai dati. Tuttavia, il termine "agente di dati" soffre attualmente di ambiguità terminologica e di un'adozione incoerente, confondendo semplici risponditori a query con architetture autonome sofisticate. Questa ambiguità terminologica favorisce aspettative dell'utente disallineate, sfide di responsabilità e barriere alla crescita del settore. Ispirandosi allo standard SAE J3016 per l'automazione della guida, questo studio introduce la prima tassonomia gerarchica sistematica per gli agenti di dati, comprendente sei livelli che delineano e tracciano i cambiamenti progressivi nell'autonomia, dalle operazioni manuali (L0) a una visione di agenti di dati generativi e completamente autonomi (L5, chiarendo così i confini delle capacità e l'allocazione delle responsabilità. Attraverso questa lente, offriamo una revisione strutturata della ricerca esistente organizzata per autonomia crescente, che comprende agenti di dati specializzati per la gestione, preparazione e analisi dei dati, insieme a sforzi emergenti verso sistemi versatili e completi con autonomia potenziata. Analizziamo inoltre i salti evolutivi critici e le lacune tecniche per l'avanzamento degli agenti di dati, in particolare l'ongoing transizione da L2 a L3, dove gli agenti di dati evolvono dall'esecuzione procedurale all'orchestrazione autonoma. Infine, concludiamo con una roadmap prospettica, prefigurando l'avvento di agenti di dati proattivi e generativi.
English
The rapid advancement of large language models (LLMs) has spurred the
emergence of data agents--autonomous systems designed to orchestrate Data + AI
ecosystems for tackling complex data-related tasks. However, the term "data
agent" currently suffers from terminological ambiguity and inconsistent
adoption, conflating simple query responders with sophisticated autonomous
architectures. This terminological ambiguity fosters mismatched user
expectations, accountability challenges, and barriers to industry growth.
Inspired by the SAE J3016 standard for driving automation, this survey
introduces the first systematic hierarchical taxonomy for data agents,
comprising six levels that delineate and trace progressive shifts in autonomy,
from manual operations (L0) to a vision of generative, fully autonomous data
agents (L5), thereby clarifying capability boundaries and responsibility
allocation. Through this lens, we offer a structured review of existing
research arranged by increasing autonomy, encompassing specialized data agents
for data management, preparation, and analysis, alongside emerging efforts
toward versatile, comprehensive systems with enhanced autonomy. We further
analyze critical evolutionary leaps and technical gaps for advancing data
agents, especially the ongoing L2-to-L3 transition, where data agents evolve
from procedural execution to autonomous orchestration. Finally, we conclude
with a forward-looking roadmap, envisioning the advent of proactive, generative
data agents.