Raciocínio Fracionário via Vetores de Direcionamento Latentes Melhora o Tempo de Inferência Computacional

Resumo

O cálculo em tempo de teste emergiu como um paradigma poderoso para melhorar o desempenho de grandes modelos de linguagem (LLMs), onde a geração de múltiplas saídas ou o refinamento de cadeias individuais pode aumentar significativamente a precisão das respostas. No entanto, métodos existentes como Best-of-N, votação majoritária e autorreflexão geralmente aplicam o raciocínio de maneira uniforme entre as entradas, ignorando o fato de que diferentes problemas podem exigir diferentes níveis de profundidade de raciocínio. Neste trabalho, propomos o Raciocínio Fracionado, uma estrutura livre de treinamento e independente de modelo que permite o controle contínuo da intensidade do raciocínio no momento da inferência, indo além das limitações de instruções fixas. Nosso método opera extraindo o vetor latente de direcionamento associado a um raciocínio mais profundo e reaplicando-o com um fator de escala ajustável, permitindo que o modelo adapte seu processo de raciocínio à complexidade de cada entrada. Isso suporta dois modos principais de escalonamento em tempo de teste: (1) melhorar a qualidade da saída em estratégias baseadas em amplitude (por exemplo, Best-of-N, votação majoritária) e (2) aprimorar a correção de cadeias individuais de raciocínio em estratégias baseadas em profundidade (por exemplo, autorreflexão). Experimentos no GSM8K, MATH500 e GPQA demonstram que o Raciocínio Fracionado melhora consistentemente o desempenho em diversas tarefas e modelos de raciocínio.

English

Test-time compute has emerged as a powerful paradigm for improving the performance of large language models (LLMs), where generating multiple outputs or refining individual chains can significantly boost answer accuracy. However, existing methods like Best-of-N, majority voting, and self-reflection typically apply reasoning in a uniform way across inputs, overlooking the fact that different problems may require different levels of reasoning depth. In this work, we propose Fractional Reasoning, a training-free and model-agnostic framework that enables continuous control over reasoning intensity at inference time, going beyond the limitations of fixed instructional prompts. Our method operates by extracting the latent steering vector associated with deeper reasoning and reapplying it with a tunable scaling factor, allowing the model to tailor its reasoning process to the complexity of each input. This supports two key modes of test-time scaling: (1) improving output quality in breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing the correctness of individual reasoning chains in depth-based strategies (e.g., self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that Fractional Reasoning consistently improves performance across diverse reasoning tasks and models.

Raciocínio Fracionário via Vetores de Direcionamento Latentes Melhora o Tempo de Inferência Computacional

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Resumo

Support