ChatPaper.aiChatPaper

LLMs auto-évolutifs guidés avec une supervision humaine minimale

Guided Self-Evolving LLMs with Minimal Human Supervision

December 2, 2025
papers.authors: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI

papers.abstract

L'auto-évolution de l'IA a longtemps été envisagée comme une voie vers la superintelligence, où les modèles acquièrent, améliorent et internalisent de manière autonome des connaissances à partir de leurs propres expériences d'apprentissage. Pourtant, en pratique, les systèmes d'auto-évolution non guidés atteignent souvent rapidement un plateau ou se dégradent même au fil de l'entraînement. Ces échecs proviennent de problèmes tels que la dérive conceptuelle, l'effondrement de la diversité et la mauvaise évolution, les modèles renforçant leurs propres biais et convergeant vers des comportements à faible entropie. Pour permettre aux modèles d'évoluer de manière stable et contrôlable tout en minimisant la dépendance à la supervision humaine, nous présentons R-Few, un cadre Challenger-Solver en jeu auto-supervisé guidé qui intègre une supervision humaine légère via un ancrage contextuel et un entraînement mixte. À chaque itération, le Challenger échantillonne un petit ensemble d'exemples étiquetés par des humains pour guider la génération de questions synthétiques, tandis que le Solver s'entraîne conjointement sur des exemples humains et synthétiques selon un curriculum en ligne basé sur la difficulté. Sur des benchmarks de mathématiques et de raisonnement général, R-Few réalise des améliorations constantes et itératives. Par exemple, Qwen3-8B-Base s'améliore de +3,0 points par rapport à R-Zero sur les tâches mathématiques et atteint des performances équivalentes à General-Reasoner, bien que ce dernier ait été entraîné sur 20 fois plus de données humaines. Les études d'ablation confirment les contributions complémentaires de l'entraînement ancré du Challenger et de l'entraînement curriculaire du Solver, et une analyse plus poussée montre que R-Few atténue la dérive, produisant des dynamiques co-évolutives plus stables et contrôlables.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
PDF371December 4, 2025