Grafgebaseerd Ketendenkend Pruning voor het Verminderen van Overbodige Reflecties in Redenerende LLM's

Samenvatting

Het uitbreiden van Chain-of-Thought (CoT) met Reinforcement Learning (RL) wordt veelvuldig toegepast om de redeneervaardigheden van grote taalmodellen (LLM's) te verbeteren. Echter, door de schaarste van beloningssignalen kan dit ook ongewenste denkpatronen induceren, zoals 'overthinking' - het genereren van overbodige tussenliggende redeneerstappen. In dit werk stellen wij dat een belangrijke bron van dergelijke redundantie inefficiënte reflectie is, die zich vaak manifesteert in twee problematische patronen: Ongefundeerde Reflectie, waarbij het model brede, weinig impactvolle controles uitvoert tijdens het redeneren, en Repetitieve Reflectie, waarbij het herhaaldelijk een reeds bereikte conclusie opnieuw verifieert. Om dit aan te pakken, introduceren wij een op grafen gebaseerd CoT-optimalisatiekader. Concreet zetten wij elke lineaire CoT om in een gerichte acyclische graaf (DAG) met expliciete afhankelijkheidsedges, en ontwerpen wij een dubbele pruningstrategie: pruning op takniveau verwijdert zwak bijdragende reflectietakken, terwijl pruning op diepteniveau late herverificatie elimineert. Wij destilleren dit gedrag via een pijplijn van drie fasen: (1) Supervised Fine-Tuning (SFT) om het beleid te initialiseren op beknopte, geprunede sporen, (2) Direct Preference Optimization (DPO) om correcte maar minder redundante trajectorieën te prefereren, en (3) Group Relative Policy Optimization (GRPO) met een lengtestraf om zowel antwoordnauwkeurigheid als efficiëntie gezamenlijk te optimaliseren. Experimenten tonen aan dat onze aanpak het gemiddelde aantal redeneertokens met 42% vermindert, terwijl de nauwkeurigheid behouden blijft of verbetert.

English

Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.

Grafgebaseerd Ketendenkend Pruning voor het Verminderen van Overbodige Reflecties in Redenerende LLM's

Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs

Samenvatting

Support