Grandes Modelos de Linguagem Autoevolutivos Guiados com Supervisão Humana Mínima

Resumo

A auto-evolução da IA tem sido há muito vislumbrada como um caminho para a superinteligência, na qual os modelos adquirem, refinam e internalizam conhecimentos de forma autónoma a partir das suas próprias experiências de aprendizagem. No entanto, na prática, os sistemas de auto-evolução não guiados frequentemente estagnam rapidamente ou até degradam-se à medida que o treinamento progride. Estas falhas surgem de problemas como a deriva de conceitos, o colapso da diversidade e a má evolução, à medida que os modelos reforçam os seus próprios vieses e convergem para comportamentos de baixa entropia. Para permitir que os modelos evoluam de forma estável e controlável, minimizando a dependência da supervisão humana, introduzimos o R-Few, uma estrutura guiada de Desafiador-Resolvedor (Self-Play) que incorpora uma supervisão humana leve através de fundamentação contextual e treino misto. Em cada iteração, o Desafiador amostra um pequeno conjunto de exemplos anotados por humanos para orientar a geração sintética de questões, enquanto o Resolvedor treina conjuntamente com exemplos humanos e sintéticos sob um currículo dinâmico baseado na dificuldade. Em benchmarks de matemática e raciocínio geral, o R-Few alcança melhorias consistentes e iterativas. Por exemplo, o Qwen3-8B-Base melhora +3,0 pontos em relação ao R-Zero em tarefas matemáticas e atinge um desempenho equivalente ao General-Reasoner, apesar deste último ter sido treinado com 20 vezes mais dados humanos. Estudos de ablação confirmam as contribuições complementares do treino fundamentado do desafiador e do treino curricular do resolvedor, e uma análise mais aprofundada mostra que o R-Few mitiga a deriva, produzindo dinâmicas coevolutivas mais estáveis e controláveis.

English

AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.

Grandes Modelos de Linguagem Autoevolutivos Guiados com Supervisão Humana Mínima

Guided Self-Evolving LLMs with Minimal Human Supervision

Resumo

Support