Une enquête sur les agents de données : nouveau paradigme ou battage médiatique exagéré ?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
October 27, 2025
papers.authors: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
cs.AI
papers.abstract
La progression rapide des grands modèles de langage (LLM) a stimulé l'émergence d'agents de données – des systèmes autonomes conçus pour orchestrer des écosystèmes Données + IA afin de traiter des tâches complexes liées aux données. Cependant, le terme « agent de données » souffre actuellement d'une ambiguïté terminologique et d'une adoption incohérente, confondant des répondeurs à des requêtes simples avec des architectures autonomes sophistiquées. Cette ambiguïté terminologique favorise des attentes utilisateurs disproportionnées, des défis de responsabilisation et des obstacles à la croissance de l'industrie. Inspiré par la norme SAE J3016 pour l'automatisation de la conduite, cette étude introduit la première taxonomie hiérarchique systématique pour les agents de données, comprenant six niveaux qui délimitent et retracent les transitions progressives de l'autonomie, depuis les opérations manuelles (L0) jusqu'à une vision d'agents de données génératifs et entièrement autonomes (L5), clarifiant ainsi les limites des capacités et l'allocation des responsabilités. À travers ce prisme, nous proposons une revue structurée de la recherche existante, organisée par autonomie croissante, englobant les agents de données spécialisés pour la gestion, la préparation et l'analyse des données, ainsi que les efforts émergents vers des systèmes polyvalents et complets dotés d'une autonomie accrue. Nous analysons en outre les sauts évolutifs critiques et les lacunes techniques pour faire progresser les agents de données, en particulier la transition en cours du L2 au L3, où les agents de données évoluent d'une exécution procédurale vers une orchestration autonome. Enfin, nous concluons par une feuille de route prospective, envisageant l'avènement d'agents de données proactifs et génératifs.
English
The rapid advancement of large language models (LLMs) has spurred the
emergence of data agents--autonomous systems designed to orchestrate Data + AI
ecosystems for tackling complex data-related tasks. However, the term "data
agent" currently suffers from terminological ambiguity and inconsistent
adoption, conflating simple query responders with sophisticated autonomous
architectures. This terminological ambiguity fosters mismatched user
expectations, accountability challenges, and barriers to industry growth.
Inspired by the SAE J3016 standard for driving automation, this survey
introduces the first systematic hierarchical taxonomy for data agents,
comprising six levels that delineate and trace progressive shifts in autonomy,
from manual operations (L0) to a vision of generative, fully autonomous data
agents (L5), thereby clarifying capability boundaries and responsibility
allocation. Through this lens, we offer a structured review of existing
research arranged by increasing autonomy, encompassing specialized data agents
for data management, preparation, and analysis, alongside emerging efforts
toward versatile, comprehensive systems with enhanced autonomy. We further
analyze critical evolutionary leaps and technical gaps for advancing data
agents, especially the ongoing L2-to-L3 transition, where data agents evolve
from procedural execution to autonomous orchestration. Finally, we conclude
with a forward-looking roadmap, envisioning the advent of proactive, generative
data agents.