Bandits sur variétés : Apprentissage curriculaire bayésien sur la géométrie latente des grands modèles de langage

Résumé

L'apprentissage par renforcement (RL) constitue une approche centrale pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs), dont l'efficacité d'entraînement dépend crucialement de la manière dont les problèmes sont échantillonnés au cours de l'optimisation. Les méthodes existantes d'apprentissage curriculaire adaptatif privilégient généralement les prompts de difficulté intermédiaire, traitant la sélection des problèmes comme un problème de bandit standard à bras indépendants et négligeant la nature structurée et hétérogène de l'espace des tâches. Dans ce travail, nous formulons l'échantillonnage des problèmes comme un problème de bandit à structure de variété avec non-stationnarité endogène : les problèmes sont reliés via l'espace de représentation latent du modèle, et les décisions d'échantillonnage peuvent orienter la manière dont les signaux d'apprentissage évoluent à travers cet espace. Pour concrétiser cette perspective, nous introduisons le Curriculum Bayésien sur Variété (BMC), un cadre conscient de la structure qui organise les problèmes en un arbre de tâches hiérarchique et applique l'apprentissage bayésien pour guider l'échantillonnage. Empiriquement, nous constatons que différentes stratégies d'échantillonnage induisent des compromis non triviaux entre productivité (signal d'apprentissage), diversité (couverture de la variété des tâches) et utilité (pertinence pour l'évaluation). Ces résultats montrent que privilégier uniquement la difficulté est insuffisant pour obtenir de bonnes performances en aval, soulignant l'importance d'intégrer la structure et la conscience des types dans l'échantillonnage des problèmes.

English

Reinforcement learning (RL) is a central approach for improving reasoning capabilities in large language models (LLMs), where training efficiency depends critically on how problems are sampled during optimization. Existing adaptive curriculum learning methods typically prioritize prompts of intermediate difficulty, treating problem selection as a standard bandit problem with independent arms and overlooking the structured, heterogeneous nature of the task space. In this work, we frame problem sampling as a manifold-structured bandit problem with endogenous non-stationarity: problems are related through the model's latent representation space, and sampling decisions can steer how learning signals evolve across that space. To operationalize this perspective, we introduce Bayesian Manifold Curriculum (BMC), a structure-aware framework that organizes problems into a hierarchical task tree and applies Bayesian learning to guide sampling. Empirically, we find that different sampling strategies induce non-trivial tradeoffs between productivity (learning signal), diversity (coverage of the task manifold), and utility (evaluation relevance). These results show that prioritizing difficulty alone is insufficient for strong downstream performance, highlighting the importance of incorporating structure and type-awareness into problem sampling.