약한 주도 학습: 약한 에이전트가 강한 에이전트를 더 강하게 만드는 방법
Weak-Driven Learning: How Weak Agents make Strong Agents Stronger
February 9, 2026
저자: Zehao Chen, Gongxun Li, Tianxiang Ai, Yifei Li, Zixuan Huang, Wang Zhou, Fuzhen Zhuang, Xianglong Liu, Jianxin Li, Deqing Wang, Yikun Ban
cs.AI
초록
사후 훈련 최적화가 대규모 언어 모델 성능 향상의 핵심으로 부상함에 따라, 우리는 지속적인 포화 병목 현상을 관찰한다: 모델이 매우 높은 신뢰도에 도달하면 추가 훈련은 한계 수익을 보인다. 기존 방법들이 목표 예측을 계속 강화하는 동안, 우리는 유익한 지도 신호가 모델 자체의 역사적 약한 상태에 잠재되어 있음을 발견했다. 이러한 관찰을 바탕으로, 우리는 약한 체크포인트를 활용하여 지속적인 최적화를 안내하는 사후 훈련 패러다임인 WMSS(Weak Agents Can Make Strong Agents Stronger)를 제안한다. 엔트로피 역학을 통해 복구 가능한 학습 격차를 식별하고 보상 학습을 통해 이를 강화함으로써, WMSS는 강력한 에이전트가 기존 사후 훈련 포화 한계를 넘어 발전할 수 있도록 한다. 수학적 추론 및 코드 생성 데이터셋에 대한 실험 결과, 우리의 접근법으로 훈련된 에이전트는 추가 추론 비용 없이 효과적인 성능 향상을 달성함을 보여준다.
English
As post-training optimization becomes central to improving large language models, we observe a persistent saturation bottleneck: once models grow highly confident, further training yields diminishing returns. While existing methods continue to reinforce target predictions, we find that informative supervision signals remain latent in models' own historical weak states. Motivated by this observation, we propose WMSS (Weak Agents Can Make Strong Agents Stronger), a post-training paradigm that leverages weak checkpoints to guide continued optimization. By identifying recoverable learning gaps via entropy dynamics and reinforcing them through compensatory learning, WMSS enables strong agents to improve beyond conventional post-training saturation. Experiments on mathematical reasoning and code generation datasets show that agents trained with our approach achieve effective performance improvements, while incurring zero additional inference cost.