Bandidos en Variedades: Aprendizaje Curricular Bayesiano sobre la Geometría Latente de Grandes Modelos de Lenguaje

Resumen

El aprendizaje por refuerzo (RL) es un enfoque central para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLMs), donde la eficiencia del entrenamiento depende críticamente de cómo se muestrean los problemas durante la optimización. Los métodos existentes de aprendizaje curricular adaptativo suelen priorizar los prompts de dificultad intermedia, tratando la selección de problemas como un problema de bandidos estándar con brazos independientes y pasando por alto la naturaleza estructurada y heterogénea del espacio de tareas. En este trabajo, enmarcamos el muestreo de problemas como un problema de bandidos estructurado por variedades con no estacionariedad endógena: los problemas se relacionan a través del espacio de representación latente del modelo, y las decisiones de muestreo pueden dirigir cómo evolucionan las señales de aprendizaje a través de ese espacio. Para operacionalizar esta perspectiva, introducimos el Currículo Bayesiano de Variedades (BMC), un marco consciente de la estructura que organiza los problemas en un árbol de tareas jerárquico y aplica aprendizaje bayesiano para guiar el muestreo. Empíricamente, encontramos que diferentes estrategias de muestreo inducen compensaciones no triviales entre productividad (señal de aprendizaje), diversidad (cobertura de la variedad de tareas) y utilidad (relevancia evaluativa). Estos resultados muestran que priorizar únicamente la dificultad es insuficiente para obtener un rendimiento sólido en etapas posteriores, destacando la importancia de incorporar la estructura y el conocimiento del tipo en el muestreo de problemas.

English

Reinforcement learning (RL) is a central approach for improving reasoning capabilities in large language models (LLMs), where training efficiency depends critically on how problems are sampled during optimization. Existing adaptive curriculum learning methods typically prioritize prompts of intermediate difficulty, treating problem selection as a standard bandit problem with independent arms and overlooking the structured, heterogeneous nature of the task space. In this work, we frame problem sampling as a manifold-structured bandit problem with endogenous non-stationarity: problems are related through the model's latent representation space, and sampling decisions can steer how learning signals evolve across that space. To operationalize this perspective, we introduce Bayesian Manifold Curriculum (BMC), a structure-aware framework that organizes problems into a hierarchical task tree and applies Bayesian learning to guide sampling. Empirically, we find that different sampling strategies induce non-trivial tradeoffs between productivity (learning signal), diversity (coverage of the task manifold), and utility (evaluation relevance). These results show that prioritizing difficulty alone is insufficient for strong downstream performance, highlighting the importance of incorporating structure and type-awareness into problem sampling.