StyleBench: Evaluación de estilos de pensamiento en Modelos de Lenguaje a Gran Escala

Resumen

La efectividad de los Modelos de Lenguaje a Gran Escala (LLMs) está fuertemente influenciada por las estrategias de razonamiento, o estilos de pensamiento, empleados en sus instrucciones. Sin embargo, la interacción entre estos estilos de razonamiento, la arquitectura del modelo y el tipo de tarea sigue siendo poco comprendida. Para abordar esto, presentamos StyleBench, un benchmark integral para evaluar sistemáticamente estilos de razonamiento en diversas tareas y modelos. Evaluamos cinco estilos de razonamiento representativos, incluyendo Cadena de Pensamiento (CoT), Árbol de Pensamiento (ToT), Algoritmo de Pensamiento (AoT), Bosquejo de Pensamiento (SoT) y Cadena de Borradores (CoD) en cinco tareas de razonamiento, utilizando 15 modelos de código abierto de las principales familias (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi y DeepSeek) que van desde 270M hasta 120B parámetros. Nuestro análisis a gran escala revela que ningún estilo es universalmente óptimo. Demostramos que la eficacia de la estrategia depende en gran medida tanto de la escala del modelo como del tipo de tarea: los métodos basados en búsqueda (AoT, ToT) sobresalen en problemas abiertos pero requieren modelos a gran escala, mientras que los estilos concisos (SoT, CoD) logran ganancias radicales de eficiencia en tareas bien definidas. Además, identificamos patrones clave de comportamiento: los modelos más pequeños a menudo no siguen las instrucciones de salida y recurren a adivinar, mientras que la robustez del razonamiento emerge como una función de la escala. Nuestros hallazgos ofrecen una guía crucial para seleccionar estrategias de razonamiento óptimas basadas en restricciones específicas, y ponemos a disposición el benchmark en https://github.com/JamesJunyuGuo/Style_Bench.

English

The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.

StyleBench: Evaluación de estilos de pensamiento en Modelos de Lenguaje a Gran Escala

StyleBench: Evaluating thinking styles in Large Language Models

Resumen

Support