StyleBench : Évaluation des styles de pensée dans les modèles de langage de grande taille

papers.abstract

L'efficacité des modèles de langage à grande échelle (LLMs) est fortement influencée par les stratégies de raisonnement, ou styles de pensée, utilisés dans leurs prompts. Cependant, l'interaction entre ces styles de raisonnement, l'architecture des modèles et le type de tâche reste mal comprise. Pour remédier à cela, nous introduisons StyleBench, un benchmark complet pour évaluer systématiquement les styles de raisonnement à travers diverses tâches et modèles. Nous évaluons cinq styles de raisonnement représentatifs, incluant la Chaîne de Pensée (CoT), l'Arbre de Pensée (ToT), l'Algorithme de Pensée (AoT), l'Esquisse de Pensée (SoT) et la Chaîne de Brouillon (CoD) sur cinq tâches de raisonnement, en utilisant 15 modèles open-source issus des principales familles (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi et DeepSeek) allant de 270M à 120B paramètres. Notre analyse à grande échelle révèle qu'aucun style n'est universellement optimal. Nous démontrons que l'efficacité des stratégies dépend fortement à la fois de l'échelle du modèle et du type de tâche : les méthodes basées sur la recherche (AoT, ToT) excellent dans les problèmes ouverts mais nécessitent des modèles à grande échelle, tandis que les styles concis (SoT, CoD) obtiennent des gains d'efficacité radicaux sur des tâches bien définies. De plus, nous identifions des schémas comportementaux clés : les modèles plus petits échouent souvent à suivre les instructions de sortie et se rabattent sur des suppositions, tandis que la robustesse du raisonnement émerge en fonction de l'échelle. Nos résultats offrent une feuille de route cruciale pour sélectionner les stratégies de raisonnement optimales en fonction de contraintes spécifiques, et nous ouvrons le benchmark à l'adresse https://github.com/JamesJunyuGuo/Style_Bench.

English

The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.

StyleBench : Évaluation des styles de pensée dans les modèles de langage de grande taille

StyleBench: Evaluating thinking styles in Large Language Models

papers.abstract

Support