ChatPaper.aiChatPaper

최소 인간 감독으로 안내된 자기 진화 대규모 언어 모델

Guided Self-Evolving LLMs with Minimal Human Supervision

December 2, 2025
저자: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI

초록

AI 자기 진화는 오랫동안 모델이 자체 학습 경험으로부터 지식을 자율적으로 습득, 정제 및 내재화하여 초지능으로 나아가는 길로 여겨져 왔습니다. 그러나 실제로는 비지도 자기 진화 시스템은 훈련이 진행됨에 따라 빠르게 정체되거나 심지어 성능이 저하되는 경우가 많습니다. 이러한 실패는 모델이 자체 편향을 강화하고 저엔트로피 행동으로 수렴함에 따라 개념 드리프트, 다양성 붕괴, 잘못된 진화 등의 문제에서 비롯됩니다. 인간의 감독에 대한 의존을 최소화하면서 모델이 안정적이고 제어 가능한 방식으로 자기 진화할 수 있도록 하기 위해, 우리는 인-컨텍스트 기반 설정과 혼합 훈련을 통한 경량 인간 감독을 통합한 가이드 자기 대결 방식의 챌린저-솔버 프레임워크인 R-Few를 소개합니다. 각 반복에서 챌린저는 소량의 인간 레이블 예시를 샘플링하여 합성 질문 생성을 안내하고, 솔버는 온라인 난이도 기반 커리큘럼 하에서 인간 예시와 합성 예시를 함께 훈련합니다. 수학 및 일반 추론 벤치마크 전반에 걸쳐 R-Few는 꾸준하고 반복적인 성능 향상을 달성합니다. 예를 들어, Qwen3-8B-Base는 수학 과제에서 R-Zero 대비 +3.0점 향상되었으며, General-Reasoner와 동등한 성능을 보였는데 후자는 20배 더 많은 인간 데이터로 훈련되었음에도 불구하고 그렇습니다. 어블레이션 연구는 기반을 둔 챌린저 훈련과 커리큘럼 기반 솔버 훈련의 상호 보완적 기여를 확인하며, 추가 분석은 R-Few가 드리프트를 완화하여 더 안정적이고 제어 가능한 공진화 역학을 산출함을 보여줍니다.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
PDF371December 4, 2025