합성 과제 확장을 통한 AI 과학자 양성
AI Scientist via Synthetic Task Scaling
March 17, 2026
저자: Ziyang Cai, Harkirat Behl
cs.AI
초록
AI 에이전트의 등장으로 자동화된 과학적 발견이 실현 가능한 목표가 되었습니다. 최근 많은 연구에서 머신러닝 연구를 수행할 수 있는 에이전트 시스템을 구축하고 있으나, 이러한 에이전트를 훈련시키는 원칙적인 방법을 제시하지는 않습니다. 또한 현재의 대규모 언어 모델(LLM)은 그럴듯해 보이지만 실제로는 비효율적인 아이디어를 생성하는 경우가 많습니다. 실천을 통해 학습할 수 있는 에이전트 훈련 방법론을 발전시키기 위해, 우리는 머신러닝 에이전트를 대상으로 한 새로운 종합 환경 생성 파이프라인을 제안합니다. 우리의 파이프라인은 주제 샘플링, 데이터셋 제안, 코드 생성 과정을 포함하여 SWE-agent 프레임워크와 호환되는 머신러닝 과제를 자동으로 생성합니다. 이렇게 생성된 종합 과제는 1) 제안된 데이터셋이 Huggingface API를 통해 검증되므로 실제 머신러닝 데이터셋에 기반하며, 2) 자체 디버깅 루프를 통해 더 높은 품질이 검증됩니다. 우리의 종합 과제 효과를 검증하기 위해 머신러닝 과제 벤치마크인 MLGym에 대해 실험을 수행했습니다. 종합 과제에서 교사 모델(GPT-5)의 트랙젝토리를 샘플링한 후, 이를 이용하여 학생 모델(Qwen3-4B 및 Qwen3-8B)을 훈련시켰습니다. 우리의 종합 과제로 훈련된 학생 모델은 MLGym에서 성능이 향상되었으며, Qwen3-4B는 AUP 메트릭이 9%, Qwen3-8B는 12% 각각 상승했습니다.
English
With the advent of AI agents, automatic scientific discovery has become a tenable goal. Many recent works scaffold agentic systems that can perform machine learning research, but don't offer a principled way to train such agents -- and current LLMs often generate plausible-looking but ineffective ideas. To make progress on training agents that can learn from doing, we provide a novel synthetic environment generation pipeline targeting machine learning agents. Our pipeline automatically synthesizes machine learning challenges compatible with the SWE-agent framework, covering topic sampling, dataset proposal, and code generation. The resulting synthetic tasks are 1) grounded in real machine learning datasets, because the proposed datasets are verified against the Huggingface API and are 2) verified for higher quality with a self-debugging loop. To validate the effectiveness of our synthetic tasks, we tackle MLGym, a benchmark for machine learning tasks. From the synthetic tasks, we sample trajectories from a teacher model (GPT-5), then use the trajectories to train a student model (Qwen3-4B and Qwen3-8B). The student models trained with our synthetic tasks achieve improved performance on MLGym, raising the AUP metric by 9% for Qwen3-4B and 12% for Qwen3-8B.