最小限の人的監督によるガイド付き自己進化型大規模言語モデル
Guided Self-Evolving LLMs with Minimal Human Supervision
December 2, 2025
著者: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI
要旨
AIの自己進化は、モデルが自身の学習経験から自律的に知識を獲得・洗練・内在化する超知能への道筋として長らく構想されてきた。しかし実際には、無指導の自己進化システムは、学習が進むにつれて急速に頭打ちになるか、場合によっては性能が劣化することが多い。これらの失敗は、概念ドリフト、多様性崩壊、誤進化といった問題から生じる。モデルが自身のバイアスを強化し、低エントロピー行動へ収束するためである。人間の監督への依存を最小限に抑えつつ、モデルが安定かつ制御可能な方法で自己進化できるようにするため、我々はR-Fewを提案する。これは、文脈内接地と混合訓練による軽量な人間監督を組み込んだ、指導付き自己対戦型のChallenger-Solverフレームワークである。各反復において、Challengerは人間がラベル付けた少数の事例を抽出して合成問題生成を導き、Solverは人間提供の事例と合成事例を、難易度に基づくオンラインカリキュラムの下で共同で学習する。数学および一般推論のベンチマークにおいて、R-Fewは一貫した反復的改善を達成する。例えば、Qwen3-8B-Baseは数学タスクでR-Zeroを3.0ポイント上回り、後者が20倍の人間データで学習しているにもかかわらず、General-Reasonerと同等の性能を発揮した。アブレーション研究は、接地されたChallenger訓練とカリキュラムに基づくSolver訓練の相補的貢献を確認し、さらなる分析は、R-Fewがドリフトを緩和し、より安定した制御可能な共進化的ダイナミクスをもたらすことを示している。
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.