Incentivizando o Raciocínio para o Acompanhamento Avançado de Instruções em Modelos de Linguagem de Grande Escala

Resumo

Os grandes modelos de linguagem (LLMs) existentes enfrentam desafios ao seguir instruções complexas, especialmente quando múltiplas restrições estão presentes e organizadas em estruturas paralelas, encadeadas e ramificadas. Uma solução intuitiva, conhecida como cadeia de pensamento (CoT), é esperada para melhorar universalmente as capacidades dos LLMs. No entanto, descobrimos que a CoT básica exerce um impacto negativo no desempenho devido ao seu padrão superficial de raciocínio, que simplesmente parafraseia as instruções. Ela falha em desvendar as composições das restrições para identificar suas relações através de hierarquias de tipos e dimensões. Para isso, propomos um método sistemático para impulsionar os LLMs no tratamento de instruções complexas, incentivando o raciocínio para a escalabilidade computacional em tempo de teste. Primeiro, partimos da decomposição de instruções complexas sob taxonomias existentes e propomos um método reprodutível de aquisição de dados. Segundo, exploramos o aprendizado por reforço (RL) com sinais de recompensa centrados em regras verificáveis para cultivar o raciocínio especificamente para o seguimento de instruções. Abordamos a natureza superficial e não essencial do raciocínio sob instruções complexas por meio de contraste amostral para uma aplicação superior da CoT. Também exploramos a clonagem de comportamento de especialistas para facilitar uma mudança estável na distribuição de LLMs de pensamento rápido para raciocinadores habilidosos. Avaliações extensas em sete benchmarks abrangentes confirmam a validade do método proposto, onde um LLM de 1,5B alcança ganhos de 11,74% com desempenho comparável a um LLM de 8B. Códigos e dados estão disponíveis em https://github.com/yuleiqin/RAIF.

English

Existing large language models (LLMs) face challenges of following complex instructions, especially when multiple constraints are present and organized in paralleling, chaining, and branching structures. One intuitive solution, namely chain-of-thought (CoT), is expected to universally improve capabilities of LLMs. However, we find that the vanilla CoT exerts a negative impact on performance due to its superficial reasoning pattern of simply paraphrasing the instructions. It fails to peel back the compositions of constraints for identifying their relationship across hierarchies of types and dimensions. To this end, we propose a systematic method to boost LLMs in dealing with complex instructions via incentivizing reasoning for test-time compute scaling. First, we stem from the decomposition of complex instructions under existing taxonomies and propose a reproducible data acquisition method. Second, we exploit reinforcement learning (RL) with verifiable rule-centric reward signals to cultivate reasoning specifically for instruction following. We address the shallow, non-essential nature of reasoning under complex instructions via sample-wise contrast for superior CoT enforcement. We also exploit behavior cloning of experts to facilitate steady distribution shift from fast-thinking LLMs to skillful reasoners. Extensive evaluations on seven comprehensive benchmarks confirm the validity of the proposed method, where a 1.5B LLM achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data are available at https://github.com/yuleiqin/RAIF.

Incentivizando o Raciocínio para o Acompanhamento Avançado de Instruções em Modelos de Linguagem de Grande Escala

Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

Resumo

Support