ChatPaper.aiChatPaper

Синтетическая песочница для обучения инженерных агентов машинного обучения

Synthetic Sandbox for Training Machine Learning Engineering Agents

April 6, 2026
Авторы: Yuhang Zhou, Lizhu Zhang, Yifan Wu, Jiayi Liu, Xiangjun Fan, Zhuokai Zhao, Hong Yan
cs.AI

Аннотация

По мере того как агенты на основе больших языковых моделей выходят за рамки задач программной инженерии (SWE) в область машинного обучения (MLE), верификация их поведения становится на порядки дороже: если задачи SWE можно проверить с помощью быстрых модульных тестов, то верификация MLE требует выполнения полных ML-пайплайнов — предобработки данных, обучения моделей и оценки метрик — на больших наборах данных на каждом шаге развертывания, что делает пошаговое обучение с подкреплением (RL) на стратегии непозволительно медленным. Существующие подходы отступают к контролируемому тонкому обучению (SFT) или использованию оффлайн-суррогатных наград, жертвуя преимуществами исследования и обобщения, которые дает RL на стратегии. Мы наблюдаем, что основной причиной этого узкого места является объем данных в песочнице. Основываясь на этом наблюдении, мы представляем SandMLE — мульти-агентный фреймворк, который генерирует разнообразные, верифицируемые синтетические среды MLE из небольшого числа начальных задач, сохраняя структурную и техническую сложность реальных проблем, ограничивая при этом наборы данных микро-масштабом (каждая задача снабжена всего 50-200 обучающими примерами). В ходе масштабных экспериментов мы показываем, что SandMLE сокращает время выполнения более чем в 13 раз, впервые делая возможным крупномасштабное пошаговое RL на стратегии в области MLE. На бенчмарке MLE-bench-lite SandMLE демонстрирует значительное преимущество над базовыми методами SFT для моделей Qwen3-8B, 14B и 30B-A3B, с относительным улучшением метрики medal rate от 20,3% до 66,9%. Более того, обученная политика хорошо обобщается на незнакомые агентные сценарии, достигая улучшения показателя HumanRank до 32,4% на MLE-Dojo.
English
As large language model agents advance beyond software engineering (SWE) tasks toward machine learning engineering (MLE), verifying agent behavior becomes orders of magnitude more expensive: while SWE tasks can be verified via fast-executing unit tests, MLE verification requires running full ML pipelines -- data preprocessing, model training, and metric evaluation -- on large datasets at each rollout step, rendering trajectory-wise on-policy reinforcement learning (RL) prohibitively slow. Existing approaches retreat to supervised fine-tuning (SFT) or offline proxy rewards, sacrificing the exploration and generalization benefits of on-policy RL. We observe that sandbox data size is the primary source of this bottleneck. Based on this insight, we introduce SandMLE, a multi-agent framework that generates diverse, verifiable synthetic MLE environments from a small number of seed tasks, preserving the structural and technical complexity of real-world problems while constraining datasets to micro-scale (each task is paired with only 50-200 training samples). Through extensive experiments, we show that SandMLE reduces execution time by over 13 times, enabling large-scale, on-policy trajectory-wise RL for the first time in the MLE domain. On MLE-bench-lite, SandMLE yields significant gains over SFT baselines across Qwen3-8B, 14B, and 30B-A3B, with relative medal rate improvements ranging from 20.3% to 66.9%. Furthermore, the trained policy generalizes across unseen agentic scaffolds, achieving up to 32.4% better HumanRank score on MLE-Dojo.
PDF41April 8, 2026