El Razonamiento Fraccional mediante Vectores de Dirección Latentes Mejora el Tiempo de Inferencia Computacional
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute
June 18, 2025
Autores: Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou
cs.AI
Resumen
El cómputo en tiempo de prueba ha surgido como un paradigma poderoso para mejorar el rendimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), donde la generación de múltiples salidas o el refinamiento de cadenas individuales puede aumentar significativamente la precisión de las respuestas. Sin embargo, métodos existentes como Best-of-N, votación por mayoría y autorreflexión suelen aplicar el razonamiento de manera uniforme en todas las entradas, pasando por alto el hecho de que diferentes problemas pueden requerir distintos niveles de profundidad de razonamiento. En este trabajo, proponemos Razonamiento Fraccional, un marco de trabajo independiente del modelo y sin necesidad de entrenamiento que permite un control continuo sobre la intensidad del razonamiento durante la inferencia, superando las limitaciones de las instrucciones fijas. Nuestro método opera extrayendo el vector de dirección latente asociado con un razonamiento más profundo y reaplicándolo con un factor de escalado ajustable, lo que permite al modelo adaptar su proceso de razonamiento a la complejidad de cada entrada. Esto respalda dos modos clave de escalado en tiempo de prueba: (1) mejorar la calidad de la salida en estrategias basadas en amplitud (por ejemplo, Best-of-N, votación por mayoría), y (2) aumentar la corrección de cadenas de razonamiento individuales en estrategias basadas en profundidad (por ejemplo, autorreflexión). Los experimentos en GSM8K, MATH500 y GPQA demuestran que el Razonamiento Fraccional mejora consistentemente el rendimiento en diversas tareas y modelos de razonamiento.
English
Test-time compute has emerged as a powerful paradigm for improving the
performance of large language models (LLMs), where generating multiple outputs
or refining individual chains can significantly boost answer accuracy. However,
existing methods like Best-of-N, majority voting, and self-reflection typically
apply reasoning in a uniform way across inputs, overlooking the fact that
different problems may require different levels of reasoning depth. In this
work, we propose Fractional Reasoning, a training-free and model-agnostic
framework that enables continuous control over reasoning intensity at inference
time, going beyond the limitations of fixed instructional prompts. Our method
operates by extracting the latent steering vector associated with deeper
reasoning and reapplying it with a tunable scaling factor, allowing the model
to tailor its reasoning process to the complexity of each input. This supports
two key modes of test-time scaling: (1) improving output quality in
breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing
the correctness of individual reasoning chains in depth-based strategies (e.g.,
self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that
Fractional Reasoning consistently improves performance across diverse reasoning
tasks and models.