Autodata: Een agentische datawetenschapper voor het creëren van hoogwaardige synthetische data.

Samenvatting

We introduceren Autodata, een algemene methode die AI-agenten in staat stelt om als datawetenschappers op te treden die hoogwaardige trainings- en evaluatiedata creëren. We laten zien hoe we zo'n datawetenschapper-agent kunnen trainen (meta-optimaliseren), zodat deze leert om nog sterkere data te genereren. We beschrijven de algemene formulering en een specifieke praktische implementatie, Agentic Self-Instruct. We voeren experimenten uit op taken in computerwetenschappelijk onderzoek, juridische redeneertaken en redeneren met wiskundige objecten, waarbij we verbeterde resultaten behalen in vergelijking met klassieke methoden voor het creëren van synthetische datasets. Bovendien levert het meta-optimaliseren van de datawetenschapper-agent zelf een nog grotere prestatieverbetering op. Agentische datacreatie biedt een manier om toegenomen inferentierekenkracht om te zetten in training van hogere kwaliteit. Al met al geloven we dat deze richting de potentie heeft om de manier waarop we AI-data bouwen te veranderen.

English

We introduce Autodata, a general method that enables AI agents to act as data scientists who build high quality training and evaluation data. We show how to train (meta-optimize) such a data scientist agent, so that it learns to create even stronger data. We describe the overall formulation, and a specific practical implementation, Agentic Self-Instruct. We conduct experiments on computer science research tasks, legal reasoning tasks and reasoning with mathematical objects, where we obtain improved results compared to classical synthetic dataset creation methods. Further, meta-optimizing the data scientist agent itself delivers an even larger performance uplift. Agentic data creation provides a way to convert increased inference compute into higher quality model training. Overall, we believe this direction has the potential to change the way we build AI data.