StyleBench: Evaluación de estilos de pensamiento en Modelos de Lenguaje a Gran Escala
StyleBench: Evaluating thinking styles in Large Language Models
September 25, 2025
Autores: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
cs.AI
Resumen
La efectividad de los Modelos de Lenguaje a Gran Escala (LLMs) está fuertemente influenciada por las estrategias de razonamiento, o estilos de pensamiento, empleados en sus instrucciones. Sin embargo, la interacción entre estos estilos de razonamiento, la arquitectura del modelo y el tipo de tarea sigue siendo poco comprendida. Para abordar esto, presentamos StyleBench, un benchmark integral para evaluar sistemáticamente estilos de razonamiento en diversas tareas y modelos. Evaluamos cinco estilos de razonamiento representativos, incluyendo Cadena de Pensamiento (CoT), Árbol de Pensamiento (ToT), Algoritmo de Pensamiento (AoT), Bosquejo de Pensamiento (SoT) y Cadena de Borradores (CoD) en cinco tareas de razonamiento, utilizando 15 modelos de código abierto de las principales familias (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi y DeepSeek) que van desde 270M hasta 120B parámetros. Nuestro análisis a gran escala revela que ningún estilo es universalmente óptimo. Demostramos que la eficacia de la estrategia depende en gran medida tanto de la escala del modelo como del tipo de tarea: los métodos basados en búsqueda (AoT, ToT) sobresalen en problemas abiertos pero requieren modelos a gran escala, mientras que los estilos concisos (SoT, CoD) logran ganancias radicales de eficiencia en tareas bien definidas. Además, identificamos patrones clave de comportamiento: los modelos más pequeños a menudo no siguen las instrucciones de salida y recurren a adivinar, mientras que la robustez del razonamiento emerge como una función de la escala. Nuestros hallazgos ofrecen una guía crucial para seleccionar estrategias de razonamiento óptimas basadas en restricciones específicas, y ponemos a disposición el benchmark en https://github.com/JamesJunyuGuo/Style_Bench.
English
The effectiveness of Large Language Models (LLMs) is heavily influenced by
the reasoning strategies, or styles of thought, employed in their prompts.
However, the interplay between these reasoning styles, model architecture, and
task type remains poorly understood. To address this, we introduce StyleBench,
a comprehensive benchmark for systematically evaluating reasoning styles across
diverse tasks and models. We assess five representative reasoning styles,
including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought
(AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning
tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral,
Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our
large-scale analysis reveals that no single style is universally optimal. We
demonstrate that strategy efficacy is highly contingent on both model scale and
task type: search-based methods (AoT, ToT) excel in open-ended problems but
require large-scale models, while concise styles (SoT, CoD) achieve radical
efficiency gains on well-defined tasks. Furthermore, we identify key behavioral
patterns: smaller models frequently fail to follow output instructions and
default to guessing, while reasoning robustness emerges as a function of scale.
Our findings offer a crucial roadmap for selecting optimal reasoning strategies
based on specific constraints, we open source the benchmark in
https://github.com/JamesJunyuGuo/Style_Bench.