HRBench: Benchmarken en begrijpen van denkmodus-omschakelstrategieën in hybride-redenerende LLM's

Samenvatting

Hybride-redenering grote taalmodellen (LLM's) bieden expliciete controle over de redeneerinspanning, waardoor gebruikers of systemen de kwaliteit van antwoorden kunnen afwegen tegen de inferentiekosten. Bestaande methoden voor adaptieve denkmodusselectie worden echter doorgaans geëvalueerd onder verschillende modellen, datasets en implementatieaannames, wat het moeilijk maakt om hun praktische gedrag te vergelijken. Wij introduceren HRBench, een uniform evaluatiekader voor het bestuderen van denkmoduswisseling in hybride-redenering LLM's. HRBench organiseert de ontwerpruimte langs twee assen: drie families van wisselstrategieën (prompt-gebaseerde selectie, externe routering en speculatieve uitvoering) en vier trainingsregimes (trainingsvrij, SFT, offline en online RL), wat resulteert in 12 gecontroleerde evaluatie-instellingen. We evalueren deze instellingen over 6 LLM's, van Qwen3.5-2B tot Kimi-K2.5-1.1T, en 5 redeneerbenchmarks die wiskunde, wetenschap en code bestrijken, terwijl we meer dan 12 representatieve eerdere methoden binnen dezelfde pijplijn opnieuw implementeren. Onze analyse karakteriseert hoe verschillende wisselstrategieën afzonderlijke effectiviteit-efficiëntie afwegingsgebieden innemen: prompt-gebaseerde methoden bieden vaak gunstige token-nauwkeurigheid afwegingen, routeringsmethoden bieden een stabielere kostenreductie, en speculatieve methoden hebben de neiging om de nauwkeurigheid te verbeteren tegen hogere tokenkosten. We vinden verder dat training strategieën verschillend beïnvloedt, en dat de voorkeursstrategie varieert met modelschaal en taakdomein. HRBench biedt referentie-implementaties en een uniform evaluatieplatform om meer gecontroleerd onderzoek naar efficiënt redeneren in hybride-redenering LLM's te ondersteunen. Onze data, code en repository zijn beschikbaar op https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.