ChatPaper.aiChatPaper

LLM Autoguiados y de Evolución Autónoma con Supervisión Humana Mínima

Guided Self-Evolving LLMs with Minimal Human Supervision

December 2, 2025
Autores: Wenhao Yu, Zhenwen Liang, Chengsong Huang, Kishan Panaganti, Tianqing Fang, Haitao Mi, Dong Yu
cs.AI

Resumen

La autoevolución de la IA ha sido durante mucho tiempo visualizada como un camino hacia la superinteligencia, donde los modelos adquieren, refinan e internalizan conocimientos de manera autónoma a partir de sus propias experiencias de aprendizaje. Sin embargo, en la práctica, los sistemas de autoevolución no guiada a menudo se estancan rápidamente o incluso se degradan a medida que avanza el entrenamiento. Estos fracasos surgen de problemas como la deriva de concepto, el colapso de la diversidad y la mala evolución, a medida que los modelos refuerzan sus propios sesgos y convergen hacia comportamientos de baja entropía. Para permitir que los modelos evolucionen de manera estable y controlable minimizando la dependencia de la supervisión humana, presentamos R-Few, un marco guiado de Desafiador-Solucionador de Autojuego que incorpora una supervisión humana ligera mediante fundamentación en contexto y entrenamiento mixto. En cada iteración, el Desafiador muestrea un pequeño conjunto de ejemplos etiquetados por humanos para guiar la generación sintética de preguntas, mientras que el Solucionador se entrena conjuntamente con ejemplos humanos y sintéticos bajo un currículo en línea basado en la dificultad. En benchmarks de matemáticas y razonamiento general, R-Few logra mejoras consistentes e iterativas. Por ejemplo, Qwen3-8B-Base mejora +3.0 puntos sobre R-Zero en tareas matemáticas y alcanza un rendimiento similar a General-Reasoner, a pesar de que este último fue entrenado con 20 veces más datos humanos. Los estudios de ablación confirman las contribuciones complementarias del entrenamiento del desafiador fundamentado y del entrenamiento del solucionador basado en currículo, y un análisis adicional muestra que R-Few mitiga la deriva, produciendo dinámicas coevolutivas más estables y controlables.
English
AI self-evolution has long been envisioned as a path toward superintelligence, where models autonomously acquire, refine, and internalize knowledge from their own learning experiences. Yet in practice, unguided self-evolving systems often plateau quickly or even degrade as training progresses. These failures arise from issues such as concept drift, diversity collapse, and mis-evolution, as models reinforce their own biases and converge toward low-entropy behaviors. To enable models to self-evolve in a stable and controllable manner while minimizing reliance on human supervision, we introduce R-Few, a guided Self-Play Challenger-Solver framework that incorporates lightweight human oversight through in-context grounding and mixed training. At each iteration, the Challenger samples a small set of human-labeled examples to guide synthetic question generation, while the Solver jointly trains on human and synthetic examples under an online, difficulty-based curriculum. Across math and general reasoning benchmarks, R-Few achieves consistent and iterative improvements. For example, Qwen3-8B-Base improves by +3.0 points over R-Zero on math tasks and achieves performance on par with General-Reasoner, despite the latter being trained on 20 times more human data. Ablation studies confirm the complementary contributions of grounded challenger training and curriculum-based solver training, and further analysis shows that R-Few mitigates drift, yielding more stable and controllable co-evolutionary dynamics.
PDF371December 4, 2025