Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных

Аннотация

Мы представляем Autodata — общий метод, позволяющий ИИ-агентам выступать в роли специалистов по данным, создающих высококачественные обучающие и оценочные наборы данных. Мы показываем, как обучить (мета-оптимизировать) такого агента-специалиста по данным, чтобы он научился генерировать ещё более качественные данные. Описывается общая формулировка метода и его практическая реализация — Agentic Self-Instruct. Мы проводим эксперименты на задачах из области компьютерных наук, задачах юридического мышления и рассуждений с математическими объектами, где получаем улучшенные результаты по сравнению с классическими методами создания синтетических наборов данных. Более того, мета-оптимизация самого агента-специалиста по данным обеспечивает ещё более значительный прирост производительности. Агентное создание данных предоставляет способ преобразовать увеличение вычислительных ресурсов инференса в более высокое качество обучения модели. В целом, мы полагаем, что данное направление способно изменить подход к построению данных для ИИ.

English

We introduce Autodata, a general method that enables AI agents to act as data scientists who build high quality training and evaluation data. We show how to train (meta-optimize) such a data scientist agent, so that it learns to create even stronger data. We describe the overall formulation, and a specific practical implementation, Agentic Self-Instruct. We conduct experiments on computer science research tasks, legal reasoning tasks and reasoning with mathematical objects, where we obtain improved results compared to classical synthetic dataset creation methods. Further, meta-optimizing the data scientist agent itself delivers an even larger performance uplift. Agentic data creation provides a way to convert increased inference compute into higher quality model training. Overall, we believe this direction has the potential to change the way we build AI data.