Raciocínio Fracionário via Vetores de Direcionamento Latentes Melhora o Tempo de Inferência Computacional
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute
June 18, 2025
Autores: Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou
cs.AI
Resumo
O cálculo em tempo de teste emergiu como um paradigma poderoso para melhorar o desempenho de grandes modelos de linguagem (LLMs), onde a geração de múltiplas saídas ou o refinamento de cadeias individuais pode aumentar significativamente a precisão das respostas. No entanto, métodos existentes como Best-of-N, votação majoritária e autorreflexão geralmente aplicam o raciocínio de maneira uniforme entre as entradas, ignorando o fato de que diferentes problemas podem exigir diferentes níveis de profundidade de raciocínio. Neste trabalho, propomos o Raciocínio Fracionado, uma estrutura livre de treinamento e independente de modelo que permite o controle contínuo da intensidade do raciocínio no momento da inferência, indo além das limitações de instruções fixas. Nosso método opera extraindo o vetor latente de direcionamento associado a um raciocínio mais profundo e reaplicando-o com um fator de escala ajustável, permitindo que o modelo adapte seu processo de raciocínio à complexidade de cada entrada. Isso suporta dois modos principais de escalonamento em tempo de teste: (1) melhorar a qualidade da saída em estratégias baseadas em amplitude (por exemplo, Best-of-N, votação majoritária) e (2) aprimorar a correção de cadeias individuais de raciocínio em estratégias baseadas em profundidade (por exemplo, autorreflexão). Experimentos no GSM8K, MATH500 e GPQA demonstram que o Raciocínio Fracionado melhora consistentemente o desempenho em diversas tarefas e modelos de raciocínio.
English
Test-time compute has emerged as a powerful paradigm for improving the
performance of large language models (LLMs), where generating multiple outputs
or refining individual chains can significantly boost answer accuracy. However,
existing methods like Best-of-N, majority voting, and self-reflection typically
apply reasoning in a uniform way across inputs, overlooking the fact that
different problems may require different levels of reasoning depth. In this
work, we propose Fractional Reasoning, a training-free and model-agnostic
framework that enables continuous control over reasoning intensity at inference
time, going beyond the limitations of fixed instructional prompts. Our method
operates by extracting the latent steering vector associated with deeper
reasoning and reapplying it with a tunable scaling factor, allowing the model
to tailor its reasoning process to the complexity of each input. This supports
two key modes of test-time scaling: (1) improving output quality in
breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing
the correctness of individual reasoning chains in depth-based strategies (e.g.,
self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that
Fractional Reasoning consistently improves performance across diverse reasoning
tasks and models.