HRBench: Бенчмаркинг и понимание стратегий переключения режимов мышления в LLM с гибридным рассуждением

Аннотация

Гибридные языковые модели большого объема (LLM) предоставляют явный контроль над затратами на рассуждение, позволяя пользователям или системам балансировать качество ответов и стоимость вывода. Однако существующие методы адаптивного выбора режима мышления обычно оцениваются с использованием различных моделей, наборов данных и предположений о реализации, что затрудняет сравнение их практического поведения. Мы представляем HRBench — унифицированную систему оценки для изучения переключения режимов мышления в гибридных LLM. HRBench организует пространство проектирования по двум осям: три семейства стратегий переключения (выбор на основе подсказок, внешняя маршрутизация и спекулятивное выполнение) и четыре режима обучения (без обучения, SFT, офлайн и онлайн RL), что дает 12 контролируемых настроек оценки. Мы оцениваем эти настройки на 6 LLM (от Qwen3.5-2B до Kimi-K2.5-1.1T) и 5 тестах рассуждения, охватывающих математику, науку и код, при этом повторно реализуя 12+ репрезентативных предыдущих методов в рамках одного пайплайна. Наш анализ показывает, как различные стратегии переключения занимают разные области компромисса между эффективностью и результативностью: методы на основе подсказок часто обеспечивают благоприятный компромисс между токенами и точностью, методы маршрутизации предлагают более стабильное снижение затрат, а спекулятивные методы, как правило, повышают точность при более высоких затратах токенов. Кроме того, мы обнаружили, что обучение влияет на стратегии по-разному, и что предпочитаемая стратегия варьируется в зависимости от масштаба модели и предметной области задачи. HRBench предоставляет эталонные реализации и унифицированную платформу оценки для поддержки более контролируемых исследований эффективного рассуждения в гибридных LLM. Наши данные, код и репозиторий доступны по адресу https://github.com/usail-hkust/HRBench.

English

Hybrid-reasoning large language models (LLMs) expose explicit controls over reasoning effort, allowing users or systems to trade off answer quality against inference cost. However, existing methods for adaptive thinking-mode selection are typically evaluated under different models, datasets, and implementation assumptions, making it difficult to compare their practical behavior. We introduce HRBench, a unified evaluation framework for studying thinking-mode switching in hybrid-reasoning LLMs. HRBench organizes the design space along two axes: three switching strategy families, prompt-based selection, external routing, and speculative execution, and four training regimes, training-free, SFT, offline and online RL, yielding 12 controlled evaluation settings. We evaluate these settings across 6 LLMs, from Qwen3.5-2B to Kimi-K2.5-1.1T, and 5 reasoning benchmarks covering mathematics, science, and code, while reimplementing 12+ representative prior methods within the same pipeline. Our analysis characterizes how different switching strategies occupy distinct effectiveness-efficiency trade-off regions: prompt-based methods often provide favorable token-accuracy trade-offs, routing methods offer more stable cost reduction, and speculative methods tend to improve accuracy at higher token cost. We further find that training affects strategies differently, and that the preferred strategy varies with model scale and task domain. HRBench provides reference implementations and a unified evaluation platform to support more controlled research on efficient reasoning in hybrid-reasoning LLMs. Our data, code and repository are available at https://github.com/usail-hkust/HRBench.