ChatPaper.aiChatPaper

StyleBench: Avaliando estilos de pensamento em Modelos de Linguagem de Grande Escala

StyleBench: Evaluating thinking styles in Large Language Models

September 25, 2025
Autores: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
cs.AI

Resumo

A eficácia dos Modelos de Linguagem de Grande Escala (LLMs) é fortemente influenciada pelas estratégias de raciocínio, ou estilos de pensamento, empregados em seus prompts. No entanto, a interação entre esses estilos de raciocínio, a arquitetura do modelo e o tipo de tarefa permanece pouco compreendida. Para abordar isso, introduzimos o StyleBench, um benchmark abrangente para avaliar sistematicamente estilos de raciocínio em diversas tarefas e modelos. Avaliamos cinco estilos de raciocínio representativos, incluindo Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) e Chain-of-Draft (CoD) em cinco tarefas de raciocínio, utilizando 15 modelos de código aberto de famílias principais (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi e DeepSeek) variando de 270M a 120B parâmetros. Nossa análise em larga escala revela que nenhum estilo é universalmente ótimo. Demonstramos que a eficácia da estratégia é altamente dependente tanto da escala do modelo quanto do tipo de tarefa: métodos baseados em busca (AoT, ToT) se destacam em problemas de resposta aberta, mas exigem modelos de grande escala, enquanto estilos concisos (SoT, CoD) alcançam ganhos radicais de eficiência em tarefas bem definidas. Além disso, identificamos padrões comportamentais-chave: modelos menores frequentemente falham em seguir instruções de saída e recorrem a adivinhações, enquanto a robustez do raciocínio emerge como uma função da escala. Nossas descobertas oferecem um roteiro crucial para a seleção de estratégias de raciocínio ideais com base em restrições específicas, e disponibilizamos o benchmark em código aberto em https://github.com/JamesJunyuGuo/Style_Bench.
English
The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.
PDF32September 26, 2025