HRBench: Evaluación comparativa y comprensión de las estrategias de cambio de modo de pensamiento en LLMs de razonamiento híbrido

Resumen

Los modelos de lenguaje grandes (LLMs) de razonamiento híbrido exponen controles explícitos sobre el esfuerzo de razonamiento, lo que permite a usuarios o sistemas intercambiar la calidad de la respuesta por el costo de inferencia. Sin embargo, los métodos existentes para la selección adaptativa del modo de pensamiento suelen evaluarse bajo diferentes modelos, conjuntos de datos y supuestos de implementación, lo que dificulta la comparación de su comportamiento práctico. Presentamos HRBench, un marco de evaluación unificado para estudiar la conmutación del modo de pensamiento en LLMs de razonamiento híbrido. HRBench organiza el espacio de diseño a lo largo de dos ejes: tres familias de estrategias de conmutación —selección basada en indicaciones, enrutamiento externo y ejecución especulativa— y cuatro regímenes de entrenamiento —sin entrenamiento, fine-tuning supervisado (SFT), aprendizaje por refuerzo (RL) fuera de línea y en línea—, lo que da lugar a 12 configuraciones de evaluación controladas. Evaluamos estas configuraciones en 6 LLMs, desde Qwen3.5-2B hasta Kimi-K2.5-1.1T, y 5 benchmarks de razonamiento que abarcan matemáticas, ciencias y código, reimplementando más de 12 métodos representativos previos dentro del mismo pipeline. Nuestro análisis caracteriza cómo las diferentes estrategias de conmutación ocupan distintas regiones de compensación entre efectividad y eficiencia: los métodos basados en indicaciones suelen ofrecer compensaciones favorables entre tokens y precisión, los métodos de enrutamiento proporcionan una reducción de costos más estable y los métodos especulativos tienden a mejorar la precisión a un mayor costo de tokens. Además, encontramos que el entrenamiento afecta a las estrategias de manera diferente y que la estrategia preferida varía según la escala del modelo y el dominio de la tarea. HRBench proporciona implementaciones de referencia y una plataforma de evaluación unificada para apoyar una investigación más controlada sobre el razonamiento eficiente en LLMs de razonamiento híbrido. Nuestros datos, código y repositorio están disponibles en https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.