ThoughtFold: Dobrando Cadeias de Raciocínio via Aprendizagem Introspectiva de Preferências

Resumo

Grandes Modelos de Raciocínio (LRMs) alcançaram progressos notáveis graças ao Aprendizado por Reforço com Recompensas Verificáveis (RLVR) em Cadeias de Pensamento (CoTs). No entanto, como CoTs longas naturalmente contêm tentativa e erro, e as abordagens convencionais de RLVR selecionam trajetórias de CoT corretas para memorização, as explorações redundantes em CoTs longas são inevitavelmente reforçadas, resultando nos problemas de excesso de pensamento dos LRMs. Tentativas anteriores de resolver esse problema atribuíam principalmente maior vantagem a trajetórias mais curtas, mas seus sinais de aprendizado ainda são baseados no resultado e não conseguem reduzir a memorização de explorações redundantes em CoTs longas. Portanto, propomos ThoughtFold, uma estrutura que utiliza aprendizado de preferência de granularidade fina para mitigar explorações redundantes em busca de raciocínio eficiente. ThoughtFold emprega uma estratégia introspectiva para identificar redundância dentro de cada trajetória correta, gerando um espectro de sub-trajetórias candidatas. Utilizando esse espectro, introduzimos um objetivo de otimização de preferência mascarada que penaliza explicitamente explorações redundantes e incentiva o modelo a conectar diretamente segmentos de raciocínio essenciais, efetivamente dobrando suas cadeias de raciocínio em um caminho mais conciso. Experimentos extensivos mostram que ThoughtFold melhora significativamente a eficiência. Ele reduz o uso de tokens do DeepSeek-R1-Distill-Qwen-7B em aproximadamente 56%, mantendo precisão de ponta.

English

Large Reasoning Models (LRMs) have achieved remarkable progress thanks to Reinforcement Learning with Verifiable Rewards (RLVR) on Chain-of-Thoughts (CoTs). However, since long CoTs naturally contain trial and errors and mainstream RLVR approaches choose outcome-correct CoT trajectories for memorization, the redundant explorations in long CoTs are inevitably reinforced, which results in the over-thinking issues of LRMs. Previous attempts to resolve this issue mainly give more advantage to shorter trajectories, yet their learning signals are still outcome-based and cannot reduce the memorization of redundant explorations in long CoTs. Therefore, we propose ThoughtFold, a framework that leverages fine-grained preference learning to mitigate redundant explorations for efficient reasoning. ThoughtFold employs an introspective strategy to identify redundancy within each correct trajectory, which yields a spectrum of candidate sub-trajectories. Leveraging this spectrum, we introduce a masked preference optimization objective that explicitly penalizes redundant explorations and encourages the model to directly bridge essential reasoning segments, effectively folding its reasoning chains into a more concise path. Extensive experiments show that ThoughtFold significantly enhances efficiency. It reduces the token usage of DeepSeek-R1-Distill-Qwen-7B by approximately 56% while maintaining state-of-the-art accuracy.