ChatPaper.aiChatPaper

Маленькие обобщающие промпт-прогностические модели могут направлять эффективное обучение с подкреплением больших моделей рассуждений после их основной подготовки

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

February 2, 2026
Авторы: Yun Qu, Qi Wang, Yixiu Mao, Heming Zou, Yuhang Jiang, Weijie Liu, Clive Bai, Kai Yang, Yangkun Chen, Saiyong Yang, Xiangyang Ji
cs.AI

Аннотация

Подкрепляющее обучение расширяет рассужденческие возможности больших языковых моделей, однако часто сопряжено с высокими вычислительными затратами из-за ресурсоемкой оптимизации с использованием множества прогонов. Онлайн-выбор промтов предлагает потенциальное решение за счет приоритизации информативных промтов для повышения эффективности обучения. Однако существующие методы либо зависят от дорогостоящих точных оценок, либо строят прогностические модели, специфичные для конкретных промтов, которые не обладают обобщающей способностью. В данном исследовании представлен метод обобщающего прогностического выбора промтов (GPS), который выполняет байесовский вывод относительно сложности промтов с использованием легковесной генеративной модели, обученной на общей истории оптимизации. Принцип пакетного отбора включает приоритизацию промтов средней сложности и обеспечение разнообразия на основе истории для выбора информативных пакетов промтов. Небольшая прогностическая модель также демонстрирует обобщающую способность на этапе тестирования для эффективного распределения вычислительных ресурсов. Эксперименты на различных наборах данных для проверки рассуждений показывают значительное улучшение GPS по сравнению с передовыми базовыми методами с точки зрения эффективности обучения, итоговой производительности и эффективности на этапе тестирования.
English
Reinforcement learning enhances the reasoning capabilities of large language models but often involves high computational costs due to rollout-intensive optimization. Online prompt selection presents a plausible solution by prioritizing informative prompts to improve training efficiency. However, current methods either depend on costly, exact evaluations or construct prompt-specific predictive models lacking generalization across prompts. This study introduces Generalizable Predictive Prompt Selection (GPS), which performs Bayesian inference towards prompt difficulty using a lightweight generative model trained on the shared optimization history. Intermediate-difficulty prioritization and history-anchored diversity are incorporated into the batch acquisition principle to select informative prompt batches. The small predictive model also generalizes at test-time for efficient computational allocation. Experiments across varied reasoning benchmarks indicate GPS's substantial improvements in training efficiency, final performance, and test-time efficiency over superior baseline methods.
PDF22March 12, 2026