StyleBench: Bewertung von Denkstilen in großen Sprachmodellen

papers.abstract

Die Effektivität von Large Language Models (LLMs) wird maßgeblich von den Denkstrategien oder Denkstilen beeinflusst, die in ihren Prompts verwendet werden. Das Zusammenspiel zwischen diesen Denkstilen, der Modellarchitektur und dem Aufgabentyp ist jedoch noch weitgehend unverstanden. Um dies zu adressieren, führen wir StyleBench ein, einen umfassenden Benchmark zur systematischen Bewertung von Denkstilen über verschiedene Aufgaben und Modelle hinweg. Wir bewerten fünf repräsentative Denkstile, darunter Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT) und Chain-of-Draft (CoD) in fünf Denkaufgaben, wobei wir 15 Open-Source-Modelle aus wichtigen Modellfamilien (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi und DeepSeek) mit einer Bandbreite von 270M bis 120B Parametern verwenden. Unsere groß angelegte Analyse zeigt, dass kein einzelner Stil universell optimal ist. Wir demonstrieren, dass die Wirksamkeit der Strategien stark von der Modellgröße und dem Aufgabentyp abhängt: suchbasierte Methoden (AoT, ToT) glänzen bei offenen Problemen, erfordern jedoch große Modelle, während prägnante Stile (SoT, CoD) radikale Effizienzgewinne bei klar definierten Aufgaben erzielen. Darüber hinaus identifizieren wir wichtige Verhaltensmuster: kleinere Modelle scheitern häufig daran, Ausgabeanweisungen zu befolgen, und greifen auf Raten zurück, während die Robustheit des Denkens als Funktion der Modellgröße entsteht. Unsere Erkenntnisse bieten einen entscheidenden Leitfaden für die Auswahl optimaler Denkstrategien basierend auf spezifischen Einschränkungen. Wir stellen den Benchmark unter https://github.com/JamesJunyuGuo/Style_Bench als Open Source zur Verfügung.

English

The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.

StyleBench: Bewertung von Denkstilen in großen Sprachmodellen

StyleBench: Evaluating thinking styles in Large Language Models

papers.abstract

Support