Razonamiento de Cadena de Pensamiento Fracturado
Fractured Chain-of-Thought Reasoning
May 19, 2025
Autores: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Resumen
Las técnicas de escalado en tiempo de inferencia han fortalcido significativamente las capacidades de razonamiento de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) al aprovechar un esfuerzo computacional adicional durante la inferencia sin necesidad de reentrenamiento. De manera similar, el enfoque de "Cadena de Pensamiento" (Chain-of-Thought, CoT) y su extensión, Long CoT, mejoran la precisión al generar trayectorias intermedias de razonamiento ricas, pero estos métodos incurren en costos sustanciales de tokens que dificultan su implementación en entornos sensibles a la latencia. En este trabajo, primero demostramos que el CoT truncado, que detiene el razonamiento antes de su finalización y genera directamente la respuesta final, a menudo iguala al muestreo completo de CoT mientras utiliza significativamente menos tokens. Basándonos en esta idea, introducimos Fractured Sampling, una estrategia unificada en tiempo de inferencia que interpola entre el CoT completo y el muestreo de solo solución a lo largo de tres ejes ortogonales: (1) el número de trayectorias de razonamiento, (2) el número de soluciones finales por trayectoria y (3) la profundidad a la que se truncan los rastros de razonamiento. A través de experimentos exhaustivos en cinco benchmarks de razonamiento diversos y varias escalas de modelos, demostramos que Fractured Sampling logra consistentemente un equilibrio superior entre precisión y costo, obteniendo ganancias de escalado log-lineal pronunciadas en Pass@k frente al presupuesto de tokens. Nuestro análisis revela cómo asignar el cómputo a través de estas dimensiones para maximizar el rendimiento, allanando el camino para un razonamiento más eficiente y escalable en los LLMs.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.Summary
AI-Generated Summary