Een onderzoek naar data-agents: opkomend paradigma of overdreven hype?

Samenvatting

De snelle vooruitgang van grote taalmodellen (LLM's) heeft de opkomst van data-agents gestimuleerd – autonome systemen die zijn ontworpen om Data + AI-ecosystemen te orkestreren voor het aanpakken van complexe data-gerelateerde taken. De term "data-agent" lijdt echter momenteel aan terminologische ambiguïteit en inconsistente toepassing, waarbij eenvoudige vraagbeantwoorders worden samengevoegd met geavanceerde autonome architecturen. Deze terminologische onduidelijkheid bevordert ongepaste gebruikersverwachtingen, verantwoordelijkheidsuitdagingen en barrières voor industriële groei. Geïnspireerd door de SAE J3016-standaard voor rijhulpsystemen, introduceert dit overzicht de eerste systematische hiërarchische taxonomie voor data-agents, bestaande uit zes niveaus die progressieve verschuivingen in autonomie afbakenen en traceren, van handmatige operaties (L0) tot een visie van generatieve, volledig autonome data-agents (L5), waardoor de grenzen van capaciteiten en verantwoordelijkheidsverdeling worden verduidelijkt. Door deze lens bieden we een gestructureerd overzicht van bestaand onderzoek, gerangschikt naar toenemende autonomie, dat gespecialiseerde data-agents voor data management, -voorbereiding en -analyse omvat, naast opkomende inspanningen richting veelzijdige, uitgebreide systemen met verbeterde autonomie. We analyseren verder kritische evolutionaire sprongen en technische hiaten voor de verdere ontwikkeling van data-agents, met name de voortdurende L2-naar-L3-transitie, waarbij data-agents evolueren van procedurele uitvoering naar autonome orkestratie. Ten slotte sluiten we af met een vooruitziende routekaart, waarin de komst van proactieve, generatieve data-agents wordt voorzien.

English

The rapid advancement of large language models (LLMs) has spurred the emergence of data agents--autonomous systems designed to orchestrate Data + AI ecosystems for tackling complex data-related tasks. However, the term "data agent" currently suffers from terminological ambiguity and inconsistent adoption, conflating simple query responders with sophisticated autonomous architectures. This terminological ambiguity fosters mismatched user expectations, accountability challenges, and barriers to industry growth. Inspired by the SAE J3016 standard for driving automation, this survey introduces the first systematic hierarchical taxonomy for data agents, comprising six levels that delineate and trace progressive shifts in autonomy, from manual operations (L0) to a vision of generative, fully autonomous data agents (L5), thereby clarifying capability boundaries and responsibility allocation. Through this lens, we offer a structured review of existing research arranged by increasing autonomy, encompassing specialized data agents for data management, preparation, and analysis, alongside emerging efforts toward versatile, comprehensive systems with enhanced autonomy. We further analyze critical evolutionary leaps and technical gaps for advancing data agents, especially the ongoing L2-to-L3 transition, where data agents evolve from procedural execution to autonomous orchestration. Finally, we conclude with a forward-looking roadmap, envisioning the advent of proactive, generative data agents.

Een onderzoek naar data-agents: opkomend paradigma of overdreven hype?

A Survey of Data Agents: Emerging Paradigm or Overstated Hype?

Samenvatting

Support