HRBench: Benchmarking und Verständnis von Denkmodus-Umschaltstrategien in Hybrid-Reasoning-LLMs

Zusammenfassung

Hybride Reasoning-Sprachmodelle (Large Language Models, LLMs) bieten explizite Kontrollmöglichkeiten über den Denkaufwand, sodass Nutzer oder Systeme die Antwortqualität gegen die Inferenzkosten abwägen können. Allerdings werden bestehende Methoden zur adaptiven Denkmodus-Auswahl typischerweise unter verschiedenen Modellen, Datensätzen und Implementierungsannahmen evaluiert, was einen Vergleich ihres praktischen Verhaltens erschwert. Wir stellen HRBench vor, einen einheitlichen Evaluierungsrahmen zur Untersuchung des Denkmodus-Umschaltens in hybriden Reasoning-Sprachmodellen. HRBench organisiert den Entwurfsraum entlang zweier Achsen: drei Strategiefamilien für das Umschalten (promptbasierte Auswahl, externes Routing und spekulative Ausführung) und vier Trainingsregime (trainingsfrei, SFT, Offline- und Online-RL), woraus sich 12 kontrollierte Evaluierungseinstellungen ergeben. Wir evaluieren diese Einstellungen über 6 LLMs hinweg, von Qwen3.5-2B bis Kimi-K2.5-1.1T, sowie über 5 Reasoning-Benchmarks, die Mathematik, Naturwissenschaften und Code abdecken, und implementieren dabei über 12 repräsentative frühere Methoden innerhalb derselben Pipeline neu. Unsere Analyse charakterisiert, wie verschiedene Umschaltstrategien unterschiedliche Effektivitäts-Effizienz-Abwägungsbereiche besetzen: promptbasierte Methoden bieten oft günstige Token-Genauigkeits-Abwägungen, Routing-Methoden ermöglichen eine stabilere Kostenreduzierung, und spekulative Methoden neigen dazu, die Genauigkeit bei höheren Token-Kosten zu verbessern. Wir stellen ferner fest, dass das Training die Strategien unterschiedlich beeinflusst und dass die bevorzugte Strategie mit der Modellskala und dem Aufgabenbereich variiert. HRBench bietet Referenzimplementierungen und eine einheitliche Evaluierungsplattform, um kontrolliertere Forschung zu effizientem Reasoning in hybriden Reasoning-Sprachmodellen zu unterstützen. Unsere Daten, der Code und das Repository sind verfügbar unter https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.