ThoughtFold: Het vouwen van redeneerketens via introspectief voorkeursleren

Samenvatting

Grote Redeneringsmodellen (LRMs) hebben opmerkelijke vooruitgang geboekt dankzij Versterkend Leren met Verifieerbare Beloningen (RLVR) op Denkketens (CoTs). Echter, aangezien lange CoTs van nature pogingen en fouten bevatten en gangbare RLVR-benaderingen voor memorisatie kiezen voor uitkomst-correcte CoT-trajecten, worden de redundante exploraties in lange CoTs onvermijdelijk versterkt, wat leidt tot overdenkingsproblemen van LRMs. Eerdere pogingen om dit probleem op te lossen geven kortere trajecten vooral een groter voordeel, maar hun leersignalen zijn nog steeds uitkomstgebaseerd en kunnen de memorisatie van redundante exploraties in lange CoTs niet verminderen. Daarom stellen we ThoughtFold voor, een raamwerk dat gebruikmaakt van fijnmazig voorkeursleren om redundante exploraties te beperken voor efficiënt redeneren. ThoughtFold hanteert een introspectieve strategie om redundantie binnen elk correct traject te identificeren, wat een spectrum van kandidaat-subtrajecten oplevert. Met behulp van dit spectrum introduceren we een gemaskeerd voorkeursoptimalisatiedoel dat redundante exploraties expliciet bestraft en het model aanmoedigt om essentiële redeneersegmenten direct te overbruggen, waardoor de redeneerketens effectief worden gevouwen tot een beknopter pad. Uitgebreide experimenten tonen aan dat ThoughtFold de efficiëntie aanzienlijk verbetert. Het vermindert het tokenverbruik van DeepSeek-R1-Distill-Qwen-7B met ongeveer 56% terwijl de state-of-the-art nauwkeurigheid behouden blijft.

English

Large Reasoning Models (LRMs) have achieved remarkable progress thanks to Reinforcement Learning with Verifiable Rewards (RLVR) on Chain-of-Thoughts (CoTs). However, since long CoTs naturally contain trial and errors and mainstream RLVR approaches choose outcome-correct CoT trajectories for memorization, the redundant explorations in long CoTs are inevitably reinforced, which results in the over-thinking issues of LRMs. Previous attempts to resolve this issue mainly give more advantage to shorter trajectories, yet their learning signals are still outcome-based and cannot reduce the memorization of redundant explorations in long CoTs. Therefore, we propose ThoughtFold, a framework that leverages fine-grained preference learning to mitigate redundant explorations for efficient reasoning. ThoughtFold employs an introspective strategy to identify redundancy within each correct trajectory, which yields a spectrum of candidate sub-trajectories. Leveraging this spectrum, we introduce a masked preference optimization objective that explicitly penalizes redundant explorations and encourages the model to directly bridge essential reasoning segments, effectively folding its reasoning chains into a more concise path. Extensive experiments show that ThoughtFold significantly enhances efficiency. It reduces the token usage of DeepSeek-R1-Distill-Qwen-7B by approximately 56% while maintaining state-of-the-art accuracy.