Стимулирование логического мышления для улучшенного выполнения сложных инструкций в крупных языковых моделях
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
June 2, 2025
Авторы: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI
Аннотация
Существующие крупные языковые модели (LLM) сталкиваются с трудностями при выполнении сложных инструкций, особенно когда присутствуют и организованы в параллельные, цепочечные и ветвящиеся структуры множественные ограничения. Интуитивное решение, а именно цепочка рассуждений (CoT), ожидается как универсальный способ улучшения возможностей LLM. Однако мы обнаружили, что стандартный CoT оказывает негативное влияние на производительность из-за поверхностного шаблона рассуждений, который просто перефразирует инструкции. Он не способен раскрыть композицию ограничений для определения их взаимосвязей на различных уровнях иерархии типов и измерений. В связи с этим мы предлагаем систематический метод для повышения эффективности LLM в работе со сложными инструкциями, стимулируя рассуждения для масштабирования вычислений во время тестирования. Во-первых, мы основываемся на декомпозиции сложных инструкций в рамках существующих таксономий и предлагаем воспроизводимый метод сбора данных. Во-вторых, мы используем обучение с подкреплением (RL) с проверяемыми сигналами вознаграждения, ориентированными на правила, чтобы развивать рассуждения, специально предназначенные для выполнения инструкций. Мы устраняем поверхностный, несущественный характер рассуждений при сложных инструкциях с помощью контрастного анализа на уровне выборок для более эффективного применения CoT. Также мы используем клонирование поведения экспертов для облегчения устойчивого сдвига распределения от быстромыслящих LLM к умелым рассуждающим моделям. Обширные оценки на семи комплексных бенчмарках подтверждают валидность предложенного метода, где LLM с 1,5 млрд параметров достигает улучшения на 11,74%, демонстрируя производительность, сопоставимую с LLM с 8 млрд параметров. Коды и данные доступны по адресу https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex
instructions, especially when multiple constraints are present and organized in
paralleling, chaining, and branching structures. One intuitive solution, namely
chain-of-thought (CoT), is expected to universally improve capabilities of
LLMs. However, we find that the vanilla CoT exerts a negative impact on
performance due to its superficial reasoning pattern of simply paraphrasing the
instructions. It fails to peel back the compositions of constraints for
identifying their relationship across hierarchies of types and dimensions. To
this end, we propose a systematic method to boost LLMs in dealing with complex
instructions via incentivizing reasoning for test-time compute scaling. First,
we stem from the decomposition of complex instructions under existing
taxonomies and propose a reproducible data acquisition method. Second, we
exploit reinforcement learning (RL) with verifiable rule-centric reward signals
to cultivate reasoning specifically for instruction following. We address the
shallow, non-essential nature of reasoning under complex instructions via
sample-wise contrast for superior CoT enforcement. We also exploit behavior
cloning of experts to facilitate steady distribution shift from fast-thinking
LLMs to skillful reasoners. Extensive evaluations on seven comprehensive
benchmarks confirm the validity of the proposed method, where a 1.5B LLM
achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data
are available at https://github.com/yuleiqin/RAIF.