HRBench: Avaliação e Compreensão de Estratégias de Alternância de Modo de Pensamento em LLMs de Raciocínio Híbrido

Resumo

Modelos de linguagem de grande escala com raciocínio híbrido (LLMs) expõem controles explícitos sobre o esforço de raciocínio, permitindo que usuários ou sistemas façam um compromisso entre a qualidade da resposta e o custo de inferência. No entanto, os métodos existentes para seleção adaptativa do modo de pensamento são tipicamente avaliados sob diferentes modelos, conjuntos de dados e pressupostos de implementação, dificultando a comparação de seu comportamento prático. Apresentamos o HRBench, uma estrutura de avaliação unificada para estudar a alternância de modos de pensamento em LLMs com raciocínio híbrido. O HRBench organiza o espaço de design em dois eixos: três famílias de estratégias de alternância — seleção baseada em prompt, roteamento externo e execução especulativa — e quatro regimes de treinamento — livre de treinamento, SFT, RL offline e RL online —, resultando em 12 configurações de avaliação controladas. Avaliamos essas configurações em 6 LLMs, do Qwen3.5-2B ao Kimi-K2.5-1.1T, e em 5 benchmarks de raciocínio que abrangem matemática, ciências e código, reimplementando mais de 12 métodos representativos anteriores dentro do mesmo pipeline. Nossa análise caracteriza como diferentes estratégias de alternância ocupam regiões distintas de compromisso entre eficácia e eficiência: métodos baseados em prompt frequentemente oferecem compromissos favoráveis entre tokens e precisão, métodos de roteamento proporcionam redução de custo mais estável, e métodos especulativos tendem a melhorar a precisão a um custo maior de tokens. Adicionalmente, constatamos que o treinamento afeta as estratégias de maneira diferente, e que a estratégia preferida varia com a escala do modelo e o domínio da tarefa. O HRBench fornece implementações de referência e uma plataforma de avaliação unificada para apoiar pesquisas mais controladas sobre raciocínio eficiente em LLMs com raciocínio híbrido. Nossos dados, código e repositório estão disponíveis em https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.