SwiReasoning: Pensamento de Alternância em Níveis Latente e Explícito para Raciocínio Pareto-Superior em LLMs

Resumo

Trabalhos recentes mostram que, além do raciocínio discreto por meio de etapas explícitas de cadeia de pensamento, que são limitadas pelas fronteiras das linguagens naturais, os grandes modelos de linguagem (LLMs) também podem raciocinar continuamente no espaço latente, permitindo informações mais ricas por etapa e, assim, melhorando a eficiência de tokens. Apesar dessa promessa, o raciocínio latente ainda enfrenta dois desafios, especialmente em configurações sem treinamento: 1) o raciocínio puramente latente amplia a distribuição de busca ao manter múltiplos caminhos implícitos, o que difunde a massa de probabilidade, introduz ruído e impede a convergência para uma única solução de alta confiança, prejudicando a precisão; e 2) o excesso de pensamento persiste mesmo sem texto explícito, desperdiçando tokens e degradando a eficiência. Para abordar esses problemas, introduzimos o SwiReasoning, uma estrutura sem treinamento para raciocínio em LLMs que apresenta duas inovações principais: 1) o SwiReasoning alterna dinamicamente entre raciocínio explícito e latente, guiado pela confiança em blocos estimada a partir de tendências de entropia nas distribuições de próximos tokens, para equilibrar exploração e exploração e promover a convergência oportuna. 2) Ao limitar o número máximo de alternâncias de blocos de pensamento, o SwiReasoning controla o excesso de pensamento e melhora a eficiência de tokens em diferentes níveis de dificuldade de problemas. Em benchmarks amplamente utilizados de matemática e STEM, o SwiReasoning melhora consistentemente a precisão média em 1,5%-2,8% em LLMs de raciocínio de diferentes famílias e escalas de modelos. Além disso, sob orçamentos restritos, o SwiReasoning melhora a eficiência média de tokens em 56%-79%, com ganhos maiores à medida que os orçamentos se tornam mais restritos.

English

Recent work shows that, beyond discrete reasoning through explicit chain-of-thought steps, which are limited by the boundaries of natural languages, large language models (LLMs) can also reason continuously in latent space, allowing richer information per step and thereby improving token efficiency. Despite this promise, latent reasoning still faces two challenges, especially in training-free settings: 1) purely latent reasoning broadens the search distribution by maintaining multiple implicit paths, which diffuses probability mass, introduces noise, and impedes convergence to a single high-confidence solution, thereby hurting accuracy; and 2) overthinking persists even without explicit text, wasting tokens and degrading efficiency. To address these issues, we introduce SwiReasoning, a training-free framework for LLM reasoning which features two key innovations: 1) SwiReasoning dynamically switches between explicit and latent reasoning, guided by block-wise confidence estimated from entropy trends in next-token distributions, to balance exploration and exploitation and promote timely convergence. 2) By limiting the maximum number of thinking-block switches, SwiReasoning curbs overthinking and improves token efficiency across varying problem difficulties. On widely used mathematics and STEM benchmarks, SwiReasoning consistently improves average accuracy by 1.5%-2.8% across reasoning LLMs of different model families and scales. Furthermore, under constrained budgets, SwiReasoning improves average token efficiency by 56%-79%, with larger gains as budgets tighten.

SwiReasoning: Pensamento de Alternância em Níveis Latente e Explícito para Raciocínio Pareto-Superior em LLMs

SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs

Resumo

Support