ChatPaper.aiChatPaper

Linguaggi di Grandi Modelli Autoevolutivi Guidati con Supervisione Umana Minima

Guided Self-Evolving LLMs with Minimal Human Supervision

December 2, 2025
Autori: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI

Abstract

L'auto-evoluzione dell'IA è stata a lungo immaginata come un percorso verso la superintelligenza, in cui i modelli acquisiscono, affinano e interiorizzano autonomamente la conoscenza dalle proprie esperienze di apprendimento. Tuttavia, nella pratica, i sistemi di auto-evoluzione non guidati spesso raggiungono rapidamente un plateau o addirittura si degradano con il progredire dell'addestramento. Questi fallimenti derivano da problemi come il *concept drift*, il collasso della diversità e la *mis-evolution*, poiché i modelli rafforzano i propri bias e convergono verso comportamenti a bassa entropia. Per consentire ai modelli di auto-evolversi in modo stabile e controllabile, minimizzando al contempo la dipendenza dalla supervisione umana, introduciamo R-Few, un framework di auto-competizione (*Self-Play*) guidato "Challenger-Solver" che incorpora una supervisione umana leggera attraverso il *grounding* in contesto (*in-context grounding*) e l'addestramento misto. Ad ogni iterazione, il Challenger campiona un piccolo insieme di esempi etichettati dall'uomo per guidare la generazione sintetica di domande, mentre il Solver si addestra congiuntamente su esempi umani e sintetici seguendo un curriculum online basato sulla difficoltà. Su benchmark di matematica e ragionamento generale, R-Few ottiene miglioramenti consistenti e iterativi. Ad esempio, Qwen3-8B-Base migliora di +3,0 punti rispetto a R-Zero sui compiti matematici e raggiunge prestazioni pari a General-Reasoner, nonostante quest'ultimo sia stato addestrato su 20 volte più dati umani. Studi di *ablation* confermano i contributi complementari dell'addestramento del Challenger basato sul *grounding* e dell'addestramento del Solver basato sul curriculum, e un'analisi più approfondita mostra che R-Few mitiga il *drift*, producendo dinamiche co-evolutive più stabili e controllabili.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
PDF371December 4, 2025