ChatPaper.aiChatPaper

Geführte selbst-evolvierende LLMs mit minimaler menschlicher Aufsicht

Guided Self-Evolving LLMs with Minimal Human Supervision

December 2, 2025
papers.authors: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI

papers.abstract

Die Selbstevolution von KI wird seit langem als Weg zur Superintelligenz angesehen, bei dem Modelle autonom Wissen aus ihren eigenen Lernerfahrungen erwerben, verfeinern und verinnerlichen. In der Praxis erreichen ungelenkte, sich selbst entwickelnde Systeme jedoch oft schnell ein Plateau oder verschlechtern sich sogar im Trainingsverlauf. Diese Fehlschläge resultieren aus Problemen wie Konzeptdrift, Diversitätskollaps und Fehlentwicklung, da Modelle ihre eigenen Verzerrungen verstärken und zu Verhaltensweisen mit niedriger Entropie konvergieren. Um Modelle zu ermöglichen, sich auf stabile und kontrollierbare Weise selbst weiterzuentwickeln und gleichzeitig die Abhängigkeit von menschlicher Aufsicht zu minimieren, stellen wir R-Few vor: einen gelenkten Self-Play-Rahmen mit Herausforderer- und Löser-Komponente, der leichtgewichtige menschliche Steuerung durch In-Context-Grounding und gemischtes Training integriert. In jeder Iteration sampelt der Herausforderer einen kleinen Satz menschlich gelabelter Beispiele, um die synthetische Fragengenerierung zu steuern, während der Löser gemeinsam auf menschlichen und synthetischen Beispielen nach einem online-basierten, schwierigkeitsgesteuerten Curriculum trainiert. In mathematischen und allgemeinen Reasoning-Benchmarks erzielt R-Few konsistente und iterative Verbesserungen. So verbessert sich Qwen3-8B-Base beispielsweise in mathematischen Aufgaben um +3,0 Punkte gegenüber R-Zero und erreicht eine Leistung, die mit General-Reasoner vergleichbar ist, obwohl letzterer mit der 20-fachen Menge an menschlichen Daten trainiert wurde. Ablationsstudien bestätigen die komplementären Beiträge des grounded Challenger-Trainings und des curriculum-basierten Solver-Trainings. Eine weiterführende Analyse zeigt, dass R-Few Drift abmildert und stabilere sowie kontrollierbare Ko-Evolutionsdynamiken hervorbringt.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
PDF371December 4, 2025