StyleBench: Оценка стилей мышления в больших языковых моделях
StyleBench: Evaluating thinking styles in Large Language Models
September 25, 2025
Авторы: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
cs.AI
Аннотация
Эффективность крупных языковых моделей (LLM) в значительной степени зависит от стратегий рассуждений, или стилей мышления, используемых в их запросах. Однако взаимодействие между этими стилями рассуждений, архитектурой модели и типом задачи остается плохо изученным. Чтобы устранить этот пробел, мы представляем StyleBench — всеобъемлющий бенчмарк для систематической оценки стилей рассуждений на разнообразных задачах и моделях. Мы оцениваем пять репрезентативных стилей рассуждений, включая цепочку мыслей (CoT), дерево мыслей (ToT), алгоритм мыслей (AoT), набросок мыслей (SoT) и цепочку черновиков (CoD), на пяти задачах рассуждений, используя 15 открытых моделей из основных семейств (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi и DeepSeek) с параметрами от 270 млн до 120 млрд. Наш масштабный анализ показывает, что ни один стиль не является универсально оптимальным. Мы демонстрируем, что эффективность стратегии сильно зависит как от масштаба модели, так и от типа задачи: методы, основанные на поиске (AoT, ToT), превосходно справляются с открытыми задачами, но требуют крупномасштабных моделей, в то время как лаконичные стили (SoT, CoD) достигают радикального повышения эффективности на четко определенных задачах. Кроме того, мы выявляем ключевые поведенческие паттерны: меньшие модели часто не следуют инструкциям вывода и переходят к угадыванию, в то время как устойчивость рассуждений проявляется как функция масштаба. Наши результаты предлагают важный ориентир для выбора оптимальных стратегий рассуждений в зависимости от конкретных ограничений. Мы открываем исходный код бенчмарка на https://github.com/JamesJunyuGuo/Style_Bench.
English
The effectiveness of Large Language Models (LLMs) is heavily influenced by
the reasoning strategies, or styles of thought, employed in their prompts.
However, the interplay between these reasoning styles, model architecture, and
task type remains poorly understood. To address this, we introduce StyleBench,
a comprehensive benchmark for systematically evaluating reasoning styles across
diverse tasks and models. We assess five representative reasoning styles,
including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought
(AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning
tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral,
Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our
large-scale analysis reveals that no single style is universally optimal. We
demonstrate that strategy efficacy is highly contingent on both model scale and
task type: search-based methods (AoT, ToT) excel in open-ended problems but
require large-scale models, while concise styles (SoT, CoD) achieve radical
efficiency gains on well-defined tasks. Furthermore, we identify key behavioral
patterns: smaller models frequently fail to follow output instructions and
default to guessing, while reasoning robustness emerges as a function of scale.
Our findings offer a crucial roadmap for selecting optimal reasoning strategies
based on specific constraints, we open source the benchmark in
https://github.com/JamesJunyuGuo/Style_Bench.