Синтетическая песочница для обучения инженерных агентов машинного обучения

Аннотация

По мере того как агенты на основе больших языковых моделей выходят за рамки задач программной инженерии (SWE) в область машинного обучения (MLE), верификация их поведения становится на порядки дороже: если задачи SWE можно проверить с помощью быстрых модульных тестов, то верификация MLE требует выполнения полных ML-пайплайнов — предобработки данных, обучения моделей и оценки метрик — на больших наборах данных на каждом шаге развертывания, что делает пошаговое обучение с подкреплением (RL) на стратегии непозволительно медленным. Существующие подходы отступают к контролируемому тонкому обучению (SFT) или использованию оффлайн-суррогатных наград, жертвуя преимуществами исследования и обобщения, которые дает RL на стратегии. Мы наблюдаем, что основной причиной этого узкого места является объем данных в песочнице. Основываясь на этом наблюдении, мы представляем SandMLE — мульти-агентный фреймворк, который генерирует разнообразные, верифицируемые синтетические среды MLE из небольшого числа начальных задач, сохраняя структурную и техническую сложность реальных проблем, ограничивая при этом наборы данных микро-масштабом (каждая задача снабжена всего 50-200 обучающими примерами). В ходе масштабных экспериментов мы показываем, что SandMLE сокращает время выполнения более чем в 13 раз, впервые делая возможным крупномасштабное пошаговое RL на стратегии в области MLE. На бенчмарке MLE-bench-lite SandMLE демонстрирует значительное преимущество над базовыми методами SFT для моделей Qwen3-8B, 14B и 30B-A3B, с относительным улучшением метрики medal rate от 20,3% до 66,9%. Более того, обученная политика хорошо обобщается на незнакомые агентные сценарии, достигая улучшения показателя HumanRank до 32,4% на MLE-Dojo.

English

As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.

Синтетическая песочница для обучения инженерных агентов машинного обучения

Synthetic Sandbox for Training Machine Learning Engineering Agents

Аннотация

Support