Le raisonnement fractionnel via des vecteurs de pilotage latents améliore le temps d'inférence et le calcul

Résumé

Le calcul au moment du test est apparu comme un paradigme puissant pour améliorer les performances des grands modèles de langage (LLMs), où la génération de multiples sorties ou l'affinement de chaînes de raisonnement individuelles peut considérablement augmenter la précision des réponses. Cependant, les méthodes existantes comme Best-of-N, le vote majoritaire et l'auto-réflexion appliquent généralement un raisonnement de manière uniforme à travers les entrées, négligeant le fait que différents problèmes peuvent nécessiter des niveaux de profondeur de raisonnement variés. Dans ce travail, nous proposons le Raisonnement Fractionnel, un cadre sans apprentissage et indépendant du modèle qui permet un contrôle continu de l'intensité du raisonnement au moment de l'inférence, dépassant les limites des instructions fixes. Notre méthode fonctionne en extrayant le vecteur de pilotage latent associé à un raisonnement plus profond et en le réappliquant avec un facteur d'échelle ajustable, permettant au modèle d'adapter son processus de raisonnement à la complexité de chaque entrée. Cela soutient deux modes clés de mise à l'échelle au moment du test : (1) améliorer la qualité des sorties dans les stratégies basées sur la largeur (par exemple, Best-of-N, vote majoritaire), et (2) renforcer la justesse des chaînes de raisonnement individuelles dans les stratégies basées sur la profondeur (par exemple, l'auto-réflexion). Les expériences sur GSM8K, MATH500 et GPQA démontrent que le Raisonnement Fractionnel améliore systématiquement les performances à travers diverses tâches de raisonnement et modèles.

English

Test-time compute has emerged as a powerful paradigm for improving the performance of large language models (LLMs), where generating multiple outputs or refining individual chains can significantly boost answer accuracy. However, existing methods like Best-of-N, majority voting, and self-reflection typically apply reasoning in a uniform way across inputs, overlooking the fact that different problems may require different levels of reasoning depth. In this work, we propose Fractional Reasoning, a training-free and model-agnostic framework that enables continuous control over reasoning intensity at inference time, going beyond the limitations of fixed instructional prompts. Our method operates by extracting the latent steering vector associated with deeper reasoning and reapplying it with a tunable scaling factor, allowing the model to tailor its reasoning process to the complexity of each input. This supports two key modes of test-time scaling: (1) improving output quality in breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing the correctness of individual reasoning chains in depth-based strategies (e.g., self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that Fractional Reasoning consistently improves performance across diverse reasoning tasks and models.

Le raisonnement fractionnel via des vecteurs de pilotage latents améliore le temps d'inférence et le calcul

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Résumé

Support