데이터 에이전트 조사: 신흥 패러다임인가, 과대 포장된 유행인가?
A Survey of Data Agents: Emerging Paradigm or Overstated Hype?
October 27, 2025
저자: Yizhang Zhu, Liangwei Wang, Chenyu Yang, Xiaotian Lin, Boyan Li, Wei Zhou, Xinyu Liu, Zhangyang Peng, Tianqi Luo, Yu Li, Chengliang Chai, Chong Chen, Shimin Di, Ju Fan, Ji Sun, Nan Tang, Fugee Tsung, Jiannan Wang, Chenglin Wu, Yanwei Xu, Shaolei Zhang, Yong Zhang, Xuanhe Zhou, Guoliang Li, Yuyu Luo
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 발전으로 복잡한 데이터 관련 작업을 해결하기 위해 데이터 + AI 생태계를 조율하도록 설계된 자율 시스템인 데이터 에이전트의 출현이 촉진되고 있습니다. 그러나 현재 '데이터 에이전트'라는 용어는 용어적 모호성과 채택 불일치 문제를 겪으며, 단순한 질의 응답 시스템과 정교한 자율 아키텍처를 혼동하고 있습니다. 이러한 용어적 모호성은 사용자 기대치 불일치, 책임성 문제, 그리고 산업 성장의 장벽을 초래합니다. 자동화 주행 분야의 SAE J3016 표준에서 영감을 받은 본 연구는 데이터 에이전트를 위한 최초의 체계적인 계층적 분류 체계를 제안합니다. 이 체계는 수동 운영(L0)에서 생성형 완전 자율 데이터 에이전트(L5)의 비전에 이르기까지 자율성의 점진적 변화를 구분하고 추적하는 6단계로 구성되어, 능력의 경계와 책임 할당을 명확히 합니다. 이러한 관점을 통해 우리는 자율성 수준이 증가하는 순서로 배열된 기존 연구를 체계적으로 검토하며, 데이터 관리, 준비, 분석을 위한 특화된 데이터 에이전트와 더 높은 자율성을 지닌 다목적 포괄 시스템을 향한 신흥 연구를 아우릅니다. 나아가 데이터 에이전트의 발전을 위한 핵심 진화적 도약과 기술적 격차, 특히 데이터 에이전트가 절차적 실행에서 자율적 조율로 진화하는 진행 중인 L2에서 L3으로의 전환을 분석합니다. 마지막으로, 우리는 능동적이고 생성적인 데이터 에이전트의 도래를 예견하는 미래 지향적인 로드맵을 제시하며 결론을 맺습니다.
English
The rapid advancement of large language models (LLMs) has spurred the
emergence of data agents--autonomous systems designed to orchestrate Data + AI
ecosystems for tackling complex data-related tasks. However, the term "data
agent" currently suffers from terminological ambiguity and inconsistent
adoption, conflating simple query responders with sophisticated autonomous
architectures. This terminological ambiguity fosters mismatched user
expectations, accountability challenges, and barriers to industry growth.
Inspired by the SAE J3016 standard for driving automation, this survey
introduces the first systematic hierarchical taxonomy for data agents,
comprising six levels that delineate and trace progressive shifts in autonomy,
from manual operations (L0) to a vision of generative, fully autonomous data
agents (L5), thereby clarifying capability boundaries and responsibility
allocation. Through this lens, we offer a structured review of existing
research arranged by increasing autonomy, encompassing specialized data agents
for data management, preparation, and analysis, alongside emerging efforts
toward versatile, comprehensive systems with enhanced autonomy. We further
analyze critical evolutionary leaps and technical gaps for advancing data
agents, especially the ongoing L2-to-L3 transition, where data agents evolve
from procedural execution to autonomous orchestration. Finally, we conclude
with a forward-looking roadmap, envisioning the advent of proactive, generative
data agents.