SwiReasoning: Pensamento de Alternância em Níveis Latente e Explícito para Raciocínio Pareto-Superior em LLMs
SwiReasoning: Switch-Thinking in Latent and Explicit for Pareto-Superior Reasoning LLMs
October 6, 2025
Autores: Dachuan Shi, Abedelkadir Asi, Keying Li, Xiangchi Yuan, Leyan Pan, Wenke Lee, Wen Xiao
cs.AI
Resumo
Trabalhos recentes mostram que, além do raciocínio discreto por meio de etapas explícitas de cadeia de pensamento, que são limitadas pelas fronteiras das linguagens naturais, os grandes modelos de linguagem (LLMs) também podem raciocinar continuamente no espaço latente, permitindo informações mais ricas por etapa e, assim, melhorando a eficiência de tokens. Apesar dessa promessa, o raciocínio latente ainda enfrenta dois desafios, especialmente em configurações sem treinamento: 1) o raciocínio puramente latente amplia a distribuição de busca ao manter múltiplos caminhos implícitos, o que difunde a massa de probabilidade, introduz ruído e impede a convergência para uma única solução de alta confiança, prejudicando a precisão; e 2) o excesso de pensamento persiste mesmo sem texto explícito, desperdiçando tokens e degradando a eficiência. Para abordar esses problemas, introduzimos o SwiReasoning, uma estrutura sem treinamento para raciocínio em LLMs que apresenta duas inovações principais: 1) o SwiReasoning alterna dinamicamente entre raciocínio explícito e latente, guiado pela confiança em blocos estimada a partir de tendências de entropia nas distribuições de próximos tokens, para equilibrar exploração e exploração e promover a convergência oportuna. 2) Ao limitar o número máximo de alternâncias de blocos de pensamento, o SwiReasoning controla o excesso de pensamento e melhora a eficiência de tokens em diferentes níveis de dificuldade de problemas. Em benchmarks amplamente utilizados de matemática e STEM, o SwiReasoning melhora consistentemente a precisão média em 1,5%-2,8% em LLMs de raciocínio de diferentes famílias e escalas de modelos. Além disso, sob orçamentos restritos, o SwiReasoning melhora a eficiência média de tokens em 56%-79%, com ganhos maiores à medida que os orçamentos se tornam mais restritos.
English
Recent work shows that, beyond discrete reasoning through explicit
chain-of-thought steps, which are limited by the boundaries of natural
languages, large language models (LLMs) can also reason continuously in latent
space, allowing richer information per step and thereby improving token
efficiency. Despite this promise, latent reasoning still faces two challenges,
especially in training-free settings: 1) purely latent reasoning broadens the
search distribution by maintaining multiple implicit paths, which diffuses
probability mass, introduces noise, and impedes convergence to a single
high-confidence solution, thereby hurting accuracy; and 2) overthinking
persists even without explicit text, wasting tokens and degrading efficiency.
To address these issues, we introduce SwiReasoning, a training-free framework
for LLM reasoning which features two key innovations: 1) SwiReasoning
dynamically switches between explicit and latent reasoning, guided by
block-wise confidence estimated from entropy trends in next-token
distributions, to balance exploration and exploitation and promote timely
convergence. 2) By limiting the maximum number of thinking-block switches,
SwiReasoning curbs overthinking and improves token efficiency across varying
problem difficulties. On widely used mathematics and STEM benchmarks,
SwiReasoning consistently improves average accuracy by 1.5%-2.8% across
reasoning LLMs of different model families and scales. Furthermore, under
constrained budgets, SwiReasoning improves average token efficiency by 56%-79%,
with larger gains as budgets tighten.