El Razonamiento Fraccional mediante Vectores de Dirección Latentes Mejora el Tiempo de Inferencia Computacional

Resumen

El cómputo en tiempo de prueba ha surgido como un paradigma poderoso para mejorar el rendimiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), donde la generación de múltiples salidas o el refinamiento de cadenas individuales puede aumentar significativamente la precisión de las respuestas. Sin embargo, métodos existentes como Best-of-N, votación por mayoría y autorreflexión suelen aplicar el razonamiento de manera uniforme en todas las entradas, pasando por alto el hecho de que diferentes problemas pueden requerir distintos niveles de profundidad de razonamiento. En este trabajo, proponemos Razonamiento Fraccional, un marco de trabajo independiente del modelo y sin necesidad de entrenamiento que permite un control continuo sobre la intensidad del razonamiento durante la inferencia, superando las limitaciones de las instrucciones fijas. Nuestro método opera extrayendo el vector de dirección latente asociado con un razonamiento más profundo y reaplicándolo con un factor de escalado ajustable, lo que permite al modelo adaptar su proceso de razonamiento a la complejidad de cada entrada. Esto respalda dos modos clave de escalado en tiempo de prueba: (1) mejorar la calidad de la salida en estrategias basadas en amplitud (por ejemplo, Best-of-N, votación por mayoría), y (2) aumentar la corrección de cadenas de razonamiento individuales en estrategias basadas en profundidad (por ejemplo, autorreflexión). Los experimentos en GSM8K, MATH500 y GPQA demuestran que el Razonamiento Fraccional mejora consistentemente el rendimiento en diversas tareas y modelos de razonamiento.

English

Test-time compute has emerged as a powerful paradigm for improving the performance of large language models (LLMs), where generating multiple outputs or refining individual chains can significantly boost answer accuracy. However, existing methods like Best-of-N, majority voting, and self-reflection typically apply reasoning in a uniform way across inputs, overlooking the fact that different problems may require different levels of reasoning depth. In this work, we propose Fractional Reasoning, a training-free and model-agnostic framework that enables continuous control over reasoning intensity at inference time, going beyond the limitations of fixed instructional prompts. Our method operates by extracting the latent steering vector associated with deeper reasoning and reapplying it with a tunable scaling factor, allowing the model to tailor its reasoning process to the complexity of each input. This supports two key modes of test-time scaling: (1) improving output quality in breadth-based strategies (e.g., Best-of-N, majority voting), and (2) enhancing the correctness of individual reasoning chains in depth-based strategies (e.g., self-reflection). Experiments on GSM8K, MATH500, and GPQA demonstrate that Fractional Reasoning consistently improves performance across diverse reasoning tasks and models.

El Razonamiento Fraccional mediante Vectores de Dirección Latentes Mejora el Tiempo de Inferencia Computacional

Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Resumen

Support