Обзор агентов данных: зарождающаяся парадигма или преувеличенный ажиотаж?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
October 27, 2025
Авторы: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
cs.AI
Аннотация
Быстрое развитие больших языковых моделей (LLM) стимулировало появление data agents — автономных систем, предназначенных для оркестрации экосистем «Данные + ИИ» для решения сложных задач, связанных с данными. Однако термин «data agent» в настоящее время страдает от терминологической неоднозначности и непоследовательного употребления, смешивая простые системы, отвечающие на запросы, со сложными автономными архитектурами. Эта терминологическая неоднозначность порождает несоответствие ожиданиям пользователей, проблемы с подотчетностью и барьеры для роста отрасли. Вдохновленные стандартом SAE J3016 для автоматизации вождения, данное исследование представляет первую систематическую иерархическую таксономию для data agents, состоящую из шести уровней, которые описывают и отслеживают прогрессивные изменения в автономности — от ручных операций (Уровень 0) до видения генеративных, полностью автономных data agents (Уровень 5), — тем самым проясняя границы возможностей и распределение ответственности. Через эту призму мы предлагаем структурированный обзор существующих исследований, упорядоченных по возрастанию автономности, охватывающий специализированные data agents для управления, подготовки и анализа данных, а также новые усилия по созданию универсальных, комплексных систем с повышенной автономностью. Далее мы анализируем ключевые эволюционные скачки и технические пробелы для продвижения data agents, особенно текущий переход от Уровня 2 к Уровню 3, где data agents эволюционируют от процедурного выполнения к автономной оркестрации. В заключение мы предлагаем перспективную дорожную карту, предвосхищая появление проактивных, генеративных data agents.
English
The rapid advancement of large language models (LLMs) has spurred the
emergence of data agents--autonomous systems designed to orchestrate Data + AI
ecosystems for tackling complex data-related tasks. However, the term "data
agent" currently suffers from terminological ambiguity and inconsistent
adoption, conflating simple query responders with sophisticated autonomous
architectures. This terminological ambiguity fosters mismatched user
expectations, accountability challenges, and barriers to industry growth.
Inspired by the SAE J3016 standard for driving automation, this survey
introduces the first systematic hierarchical taxonomy for data agents,
comprising six levels that delineate and trace progressive shifts in autonomy,
from manual operations (L0) to a vision of generative, fully autonomous data
agents (L5), thereby clarifying capability boundaries and responsibility
allocation. Through this lens, we offer a structured review of existing
research arranged by increasing autonomy, encompassing specialized data agents
for data management, preparation, and analysis, alongside emerging efforts
toward versatile, comprehensive systems with enhanced autonomy. We further
analyze critical evolutionary leaps and technical gaps for advancing data
agents, especially the ongoing L2-to-L3 transition, where data agents evolve
from procedural execution to autonomous orchestration. Finally, we conclude
with a forward-looking roadmap, envisioning the advent of proactive, generative
data agents.