Uma Análise dos Agentes de Dados: Paradigma Emergente ou Exagero Superestimado?

Resumo

O rápido avanço dos grandes modelos de linguagem (LLMs) impulsionou o surgimento de agentes de dados – sistemas autónomos concebidos para orquestrar ecossistemas de Dados + IA para lidar com tarefas complexas relacionadas com dados. No entanto, o termo "agente de dados" sofre atualmente de ambiguidade terminológica e adoção inconsistente, confundindo respondentes de consultas simples com arquiteturas autónomas sofisticadas. Esta ambiguidade terminológica fomenta expetativas desencontradas por parte dos utilizadores, desafios de responsabilização e barreiras ao crescimento da indústria. Inspirado pela norma SAE J3016 para automação de condução, este estudo introduz a primeira taxonomia hierárquica sistemática para agentes de dados, compreendendo seis níveis que delimitam e traçam mudanças progressivas na autonomia, desde operações manuais (L0) até uma visão de agentes de dados generativos e totalmente autónomos (L5), esclarecendo assim os limites de capacidade e a alocação de responsabilidades. Através desta lente, oferecemos uma revisão estruturada da investigação existente, organizada por autonomia crescente, abrangendo agentes de dados especializados para gestão, preparação e análise de dados, juntamente com esforços emergentes no sentido de sistemas versáteis e abrangentes com autonomia reforçada. Analisamos ainda saltos evolutivos críticos e lacunas técnicas para o avanço dos agentes de dados, especialmente a transição em curso do L2 para o L3, onde os agentes de dados evoluem da execução procedural para a orquestração autónoma. Por fim, concluímos com um roteiro prospetivo, antevendo o advento de agentes de dados proativos e generativos.

English

The rapid advancement of large language models (LLMs) has spurred the emergence of data agents--autonomous systems designed to orchestrate Data + AI ecosystems for tackling complex data-related tasks. However, the term "data agent" currently suffers from terminological ambiguity and inconsistent adoption, conflating simple query responders with sophisticated autonomous architectures. This terminological ambiguity fosters mismatched user expectations, accountability challenges, and barriers to industry growth. Inspired by the SAE J3016 standard for driving automation, this survey introduces the first systematic hierarchical taxonomy for data agents, comprising six levels that delineate and trace progressive shifts in autonomy, from manual operations (L0) to a vision of generative, fully autonomous data agents (L5), thereby clarifying capability boundaries and responsibility allocation. Through this lens, we offer a structured review of existing research arranged by increasing autonomy, encompassing specialized data agents for data management, preparation, and analysis, alongside emerging efforts toward versatile, comprehensive systems with enhanced autonomy. We further analyze critical evolutionary leaps and technical gaps for advancing data agents, especially the ongoing L2-to-L3 transition, where data agents evolve from procedural execution to autonomous orchestration. Finally, we conclude with a forward-looking roadmap, envisioning the advent of proactive, generative data agents.

Uma Análise dos Agentes de Dados: Paradigma Emergente ou Exagero Superestimado?

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

Resumo

Support