Саморазвивающиеся большие языковые модели с минимальным контролем человека
Guided Self-Evolving LLMs with Minimal Human Supervision
December 2, 2025
Авторы: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI
Аннотация
Давно предполагалось, что саморазвитие искусственного интеллекта является путем к сверхразуму, когда модели автономно приобретают, совершенствуют и усваивают знания из собственного опыта обучения. Однако на практике неуправляемые саморазвивающиеся системы часто быстро выходят на плато или даже деградируют по мере прогресса обучения. Эти неудачи возникают из-за таких проблем, как дрейф концепций, коллапс разнообразия и ошибочная эволюция, когда модели усиливают собственные предубеждения и сходятся к низкоэнтропийному поведению. Чтобы обеспечить стабильное и контролируемое саморазвитие моделей при минимальной зависимости от человеческого контроля, мы представляем R-Few — управляемую структуру «Самопроверки: Испытатель-Решатель», которая включает легковесный человеческий надзор через контекстную привязку и смешанное обучение. На каждой итерации Испытатель выбирает небольшой набор размеченных человеком примеров для направления генерации синтетических вопросов, в то время как Решатель совместно обучается на человеческих и синтетических примерах в рамках онлайн-учебного плана, основанного на сложности. На эталонах математических и общих рассуждений R-Few демонстрирует последовательные и итеративные улучшения. Например, Qwen3-8B-Base улучшает результат на +3.0 пункта по сравнению с R-Zero в математических задачах и достигает производительности на уровне General-Reasoner, несмотря на то, что последний обучался на 20 раз большем объеме человеческих данных. Исследования методом абляции подтверждают взаимодополняющий вклад обучения Испытателя с привязкой и обучения Решателя по учебному плану, а дальнейший анализ показывает, что R-Few смягчает дрейф, обеспечивая более стабильную и управляемую коэволюционную динамику.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.