Poda de Cadeia de Pensamento Baseada em Grafos para Reduzir Reflexões Redundantes em LLMs de Raciocínio

Resumo

A extensão da Cadeia de Pensamento (CoT) através de Aprendizagem por Reforço (RL) tem sido amplamente utilizada para melhorar as capacidades de raciocínio dos LLMs. No entanto, devido à esparsidade dos sinais de recompensa, esta abordagem também pode induzir padrões de pensamento indesejáveis, como o excesso de reflexão (overthinking), ou seja, a geração de conteúdo de raciocínio intermediário redundante. Neste trabalho, argumentamos que uma das principais fontes dessa redundância é a reflexão ineficiente, que frequentemente se manifesta em dois padrões problemáticos: Reflexão Indiscriminada, onde o modelo realiza verificações amplas e de baixo impacto ao longo do raciocínio, e Reflexão Repetitiva, onde ele re-verifica repetidamente uma conclusão já estabelecida. Para resolver isso, introduzimos uma estrutura de otimização de CoT baseada em grafos. Especificamente, convertemos cada CoT linear num grafo acíclico dirigido (DAG) com arestas de dependência explícitas e projetamos uma estratégia de poda dupla: a poda a nível de ramo remove ramos de reflexão com contribuição fraca, enquanto a poda a nível de profundidade elimina re-verificações em fases tardias. Destilamos este comportamento através de um *pipeline* de três etapas: (1) Ajuste Fino Supervisionado (SFT) para inicializar a política em traços concisos podados, (2) Otimização de Preferência Direta (DPO) para preferir trajetórias corretas mas menos redundantes, e (3) Otimização de Política de Reforço por Grafo (GRPO) com penalização de comprimento para otimizar conjuntamente a correção da resposta e a eficiência. Experiências mostram que a nossa abordagem reduz os *tokens* de raciocínio médios em 42\%, mantendo ou melhorando a precisão.

English

Extending CoT through RL has been widely used to enhance the reasoning capabilities of LLMs. However, due to the sparsity of reward signals, it can also induce undesirable thinking patterns such as overthinking, i.e., generating redundant intermediate reasoning content. In this work, we argue that a major source of such redundancy is inefficient reflection, which often manifests in two problematic patterns: Indiscriminate Reflection, where the model performs broad, low-impact checks throughout reasoning, and Repetitive Reflection, where it repeatedly re-verifies an already established conclusion. To address this, we introduce a graph-based CoT optimization framework. Specifically, we convert each linear CoT into a directed acyclic graph (DAG) with explicit dependency edges, and design a dual pruning strategy: branch-level pruning removes weakly contributing reflection branches, while depth-level pruning eliminates late-stage re-verification. We distill this behavior via a three-stage pipeline: (1) SFT to initialize the policy on pruned concise traces, (2) DPO to prefer correct but less redundant trajectories, and (3) GRPO with length penalty to jointly optimize answer correctness and efficiency. Experiments show that our approach reduces the average reasoning tokens by 42\% while maintaining or improving accuracy.

Poda de Cadeia de Pensamento Baseada em Grafos para Reduzir Reflexões Redundantes em LLMs de Raciocínio

Graph-Based Chain-of-Thought Pruning for Reducing Redundant Reflections in Reasoning LLMs

Resumo

Support