HRBench : évaluation comparative et compréhension des stratégies de basculement de modes de pensée dans les LLMs à raisonnement hybride

Résumé

Les modèles de langage à raisonnement hybride (LLMs) exposent des contrôles explicites sur l'effort de raisonnement, permettant aux utilisateurs ou systèmes de faire un compromis entre la qualité des réponses et le coût d'inférence. Cependant, les méthodes existantes pour la sélection adaptative du mode de réflexion sont généralement évaluées avec des modèles, des jeux de données et des hypothèses d'implémentation différents, ce qui rend difficile la comparaison de leur comportement pratique. Nous présentons HRBench, un cadre d'évaluation unifié pour l'étude du changement de mode de réflexion dans les LLMs à raisonnement hybride. HRBench organise l'espace de conception selon deux axes : trois familles de stratégies de commutation – sélection basée sur un prompt, routage externe et exécution spéculative – et quatre régimes d'entraînement – sans entraînement, SFT, RL hors ligne et en ligne – aboutissant à 12 configurations d'évaluation contrôlées. Nous évaluons ces configurations sur 6 LLMs, de Qwen3.5-2B à Kimi-K2.5-1.1T, et 5 benchmarks de raisonnement couvrant les mathématiques, les sciences et le code, tout en réimplémentant plus de 12 méthodes antérieures représentatives dans le même pipeline. Notre analyse caractérise la manière dont les différentes stratégies de commutation occupent des régions distinctes de compromis efficacité-efficience : les méthodes basées sur un prompt offrent souvent des compromis token-précision favorables, les méthodes de routage fournissent une réduction de coût plus stable, et les méthodes spéculatives tendent à améliorer la précision à un coût en tokens plus élevé. Nous observons en outre que l'entraînement affecte différemment les stratégies et que la stratégie préférée varie avec l'échelle du modèle et le domaine de la tâche. HRBench fournit des implémentations de référence et une plateforme d'évaluation unifiée pour soutenir une recherche plus contrôlée sur le raisonnement efficace dans les LLMs à raisonnement hybride. Nos données, code et dépôt sont disponibles à l'adresse https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.