Incentivizando o Raciocínio para o Acompanhamento Avançado de Instruções em Modelos de Linguagem de Grande Escala
Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models
June 2, 2025
Autores: Yulei Qin, Gang Li, Zongyi Li, Zihan Xu, Yuchen Shi, Zhekai Lin, Xiao Cui, Ke Li, Xing Sun
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) existentes enfrentam desafios ao seguir instruções complexas, especialmente quando múltiplas restrições estão presentes e organizadas em estruturas paralelas, encadeadas e ramificadas. Uma solução intuitiva, conhecida como cadeia de pensamento (CoT), é esperada para melhorar universalmente as capacidades dos LLMs. No entanto, descobrimos que a CoT básica exerce um impacto negativo no desempenho devido ao seu padrão superficial de raciocínio, que simplesmente parafraseia as instruções. Ela falha em desvendar as composições das restrições para identificar suas relações através de hierarquias de tipos e dimensões. Para isso, propomos um método sistemático para impulsionar os LLMs no tratamento de instruções complexas, incentivando o raciocínio para a escalabilidade computacional em tempo de teste. Primeiro, partimos da decomposição de instruções complexas sob taxonomias existentes e propomos um método reprodutível de aquisição de dados. Segundo, exploramos o aprendizado por reforço (RL) com sinais de recompensa centrados em regras verificáveis para cultivar o raciocínio especificamente para o seguimento de instruções. Abordamos a natureza superficial e não essencial do raciocínio sob instruções complexas por meio de contraste amostral para uma aplicação superior da CoT. Também exploramos a clonagem de comportamento de especialistas para facilitar uma mudança estável na distribuição de LLMs de pensamento rápido para raciocinadores habilidosos. Avaliações extensas em sete benchmarks abrangentes confirmam a validade do método proposto, onde um LLM de 1,5B alcança ganhos de 11,74% com desempenho comparável a um LLM de 8B. Códigos e dados estão disponíveis em https://github.com/yuleiqin/RAIF.
English
Existing large language models (LLMs) face challenges of following complex
instructions, especially when multiple constraints are present and organized in
paralleling, chaining, and branching structures. One intuitive solution, namely
chain-of-thought (CoT), is expected to universally improve capabilities of
LLMs. However, we find that the vanilla CoT exerts a negative impact on
performance due to its superficial reasoning pattern of simply paraphrasing the
instructions. It fails to peel back the compositions of constraints for
identifying their relationship across hierarchies of types and dimensions. To
this end, we propose a systematic method to boost LLMs in dealing with complex
instructions via incentivizing reasoning for test-time compute scaling. First,
we stem from the decomposition of complex instructions under existing
taxonomies and propose a reproducible data acquisition method. Second, we
exploit reinforcement learning (RL) with verifiable rule-centric reward signals
to cultivate reasoning specifically for instruction following. We address the
shallow, non-essential nature of reasoning under complex instructions via
sample-wise contrast for superior CoT enforcement. We also exploit behavior
cloning of experts to facilitate steady distribution shift from fast-thinking
LLMs to skillful reasoners. Extensive evaluations on seven comprehensive
benchmarks confirm the validity of the proposed method, where a 1.5B LLM
achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data
are available at https://github.com/yuleiqin/RAIF.