Zelf-evoluerende grote taalmodellen met minimale menselijke supervisie
Guided Self-Evolving LLMs with Minimal Human Supervision
December 2, 2025
Auteurs: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Zelfevolutie van AI wordt al lang gezien als een pad naar superintelligentie, waarbij modellen autonoom kennis verwerven, verfijnen en internaliseren vanuit hun eigen leerervaringen. In de praktijk bereiken onbegeleide zelf-evoluerende systemen echter vaak snel een plateau of degraderen ze zelfs naarmate de training vordert. Deze mislukkingen ontstaan door problemen zoals conceptdrift, diversiteitscollaps en mis-evolutie, waarbij modellen hun eigen vooroordelen versterken en convergeren naar gedrag met lage entropie. Om modellen in staat te stellen op een stabiele en controleerbare manier te evolueren, met minimale afhankelijkheid van menselijk toezicht, introduceren we R-Few: een begeleid Self-Play Challenger-Solver raamwerk dat lichte menselijke supervisie integreert via in-context grounding en gemengde training. Bij elke iteratie bemonstert de Challenger een kleine set door mensen gelabelde voorbeelden om de synthetische vraaggeneratie te sturen, terwijl de Solver gezamenlijk traint op menselijke en synthetische voorbeelden volgens een online, op moeilijkheidsgraad gebaseerd curriculum. Op wiskundige en algemene redeneerbenchmarks behaalt R-Few consistente en iteratieve verbeteringen. Zo verbetert Qwen3-8B-Base met +3,0 punten ten opzichte van R-Zero op wiskundetaken en presteert het even goed als General-Reasoner, ondanks dat de laatste getraind is met 20 keer meer menselijke data. Ablatiestudies bevestigen de complementaire bijdragen van grounded challenger-training en curriculum-gebaseerde solver-training, en verdere analyse toont aan dat R-Few drift vermindert, wat leidt tot stabielere en beter controleerbare co-evolutionaire dynamiek.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.