ChatPaper.aiChatPaper

Стимулирование логического мышления для улучшенного выполнения сложных инструкций в крупных языковых моделях

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

June 2, 2025
Авторы: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI

Аннотация

Существующие крупные языковые модели (LLM) сталкиваются с трудностями при выполнении сложных инструкций, особенно когда присутствуют и организованы в параллельные, цепочечные и ветвящиеся структуры множественные ограничения. Интуитивное решение, а именно цепочка рассуждений (CoT), ожидается как универсальный способ улучшения возможностей LLM. Однако мы обнаружили, что стандартный CoT оказывает негативное влияние на производительность из-за поверхностного шаблона рассуждений, который просто перефразирует инструкции. Он не способен раскрыть композицию ограничений для определения их взаимосвязей на различных уровнях иерархии типов и измерений. В связи с этим мы предлагаем систематический метод для повышения эффективности LLM в работе со сложными инструкциями, стимулируя рассуждения для масштабирования вычислений во время тестирования. Во-первых, мы основываемся на декомпозиции сложных инструкций в рамках существующих таксономий и предлагаем воспроизводимый метод сбора данных. Во-вторых, мы используем обучение с подкреплением (RL) с проверяемыми сигналами вознаграждения, ориентированными на правила, чтобы развивать рассуждения, специально предназначенные для выполнения инструкций. Мы устраняем поверхностный, несущественный характер рассуждений при сложных инструкциях с помощью контрастного анализа на уровне выборок для более эффективного применения CoT. Также мы используем клонирование поведения экспертов для облегчения устойчивого сдвига распределения от быстромыслящих LLM к умелым рассуждающим моделям. Обширные оценки на семи комплексных бенчмарках подтверждают валидность предложенного метода, где LLM с 1,5 млрд параметров достигает улучшения на 11,74%, демонстрируя производительность, сопоставимую с LLM с 8 млрд параметров. Коды и данные доступны по адресу https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex instructions, especially when multiple constraints are present and organized in paralleling, chaining, and branching structures. One intuitive solution, namely chain-of-thought (CoT), is expected to universally improve capabilities of LLMs. However, we find that the vanilla CoT exerts a negative impact on performance due to its superficial reasoning pattern of simply paraphrasing the instructions. It fails to peel back the compositions of constraints for identifying their relationship across hierarchies of types and dimensions. To this end, we propose a systematic method to boost LLMs in dealing with complex instructions via incentivizing reasoning for test-time compute scaling. First, we stem from the decomposition of complex instructions under existing taxonomies and propose a reproducible data acquisition method. Second, we exploit reinforcement learning (RL) with verifiable rule-centric reward signals to cultivate reasoning specifically for instruction following. We address the shallow, non-essential nature of reasoning under complex instructions via sample-wise contrast for superior CoT enforcement. We also exploit behavior cloning of experts to facilitate steady distribution shift from fast-thinking LLMs to skillful reasoners. Extensive evaluations on seven comprehensive benchmarks confirm the validity of the proposed method, where a 1.5B LLM achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data are available at https://github.com/yuleiqin/RAIF.
PDF152June 3, 2025