Бандиты на многообразиях: Байесовское куррикулум-обучение по латентной геометрии больших языковых моделей

Аннотация

Обучение с подкреплением (RL) является центральным подходом для улучшения способностей к рассуждению в больших языковых моделях (LLM), где эффективность обучения критически зависит от того, как задачи выбираются во время оптимизации. Существующие методы адаптивного куppingкулумного обучения, как правило, отдают приоритет подсказкам промежуточной сложности, рассматривая выбор задач как стандартную задачу многорукого бандита с независимыми рукавами и игнорируя структурированную, гетерогенную природу пространства задач. В этой работе мы формулируем выборку задач как проблему бандита с многообразной структурой и эндогенной нестационарностью: задачи связаны через пространство латентных представлений модели, и решения о выборке могут направлять то, как обучающие сигналы эволюционируют в этом пространстве. Для операционализации этой перспективы мы вводим Байесовский многообразный куppingкулум (BMC) — основанную на структуре структуру, которая организует задачи в иерархическое дерево задач и применяет байесовское обучение для управления выборкой. Эмпирически мы обнаруживаем, что разные стратегии выборки порождают нетривиальные компромиссы между продуктивностью (обучающий сигнал), разнообразием (покрытие многообразия задач) и полезностью (релевантность для оценки). Эти результаты показывают, что приоритизация только сложности недостаточна для достижения высокой производительности на последующих этапах, что подчеркивает важность включения структуры и осведомленности о типах в выборку задач.

English

Reinforcement learning (RL) is a central approach for improving reasoning capabilities in large language models (LLMs), where training efficiency depends critically on how problems are sampled during optimization. Existing adaptive curriculum learning methods typically prioritize prompts of intermediate difficulty, treating problem selection as a standard bandit problem with independent arms and overlooking the structured, heterogeneous nature of the task space. In this work, we frame problem sampling as a manifold-structured bandit problem with endogenous non-stationarity: problems are related through the model's latent representation space, and sampling decisions can steer how learning signals evolve across that space. To operationalize this perspective, we introduce Bayesian Manifold Curriculum (BMC), a structure-aware framework that organizes problems into a hierarchical task tree and applies Bayesian learning to guide sampling. Empirically, we find that different sampling strategies induce non-trivial tradeoffs between productivity (learning signal), diversity (coverage of the task manifold), and utility (evaluation relevance). These results show that prioritizing difficulty alone is insufficient for strong downstream performance, highlighting the importance of incorporating structure and type-awareness into problem sampling.