ChatPaper.aiChatPaper

StyleBench: Het evalueren van denkstijlen in Grote Taalmodellen

StyleBench: Evaluating thinking styles in Large Language Models

September 25, 2025
Auteurs: Junyu Guo, Shangding Gu, Ming Jin, Costas Spanos, Javad Lavaei
cs.AI

Samenvatting

De effectiviteit van Large Language Models (LLMs) wordt sterk beïnvloed door de redeneerstrategieën, of denkstijlen, die worden gebruikt in hun prompts. Echter, de interactie tussen deze denkstijlen, modelarchitectuur en taaktype blijft slecht begrepen. Om dit aan te pakken, introduceren we StyleBench, een uitgebreide benchmark voor het systematisch evalueren van denkstijlen over diverse taken en modellen. We beoordelen vijf representatieve denkstijlen, waaronder Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), en Chain-of-Draft (CoD) op vijf redeneertaken, waarbij we gebruikmaken van 15 open-source modellen uit belangrijke families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, en DeepSeek) met een bereik van 270M tot 120B parameters. Onze grootschalige analyse toont aan dat geen enkele stijl universeel optimaal is. We laten zien dat de effectiviteit van een strategie sterk afhankelijk is van zowel de schaal van het model als het type taak: zoekgebaseerde methoden (AoT, ToT) blinken uit in open-einde problemen maar vereisen grootschalige modellen, terwijl beknopte stijlen (SoT, CoD) radicale efficiëntiewinsten behalen op goed gedefinieerde taken. Bovendien identificeren we belangrijke gedragspatronen: kleinere modellen slagen er vaak niet in om uitvoerinstructies te volgen en vervallen in gissen, terwijl robuustheid in redeneren ontstaat als een functie van schaal. Onze bevindingen bieden een cruciale routekaart voor het selecteren van optimale redeneerstrategieën op basis van specifieke beperkingen, en we maken de benchmark openbaar op https://github.com/JamesJunyuGuo/Style_Bench.
English
The effectiveness of Large Language Models (LLMs) is heavily influenced by the reasoning strategies, or styles of thought, employed in their prompts. However, the interplay between these reasoning styles, model architecture, and task type remains poorly understood. To address this, we introduce StyleBench, a comprehensive benchmark for systematically evaluating reasoning styles across diverse tasks and models. We assess five representative reasoning styles, including Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), and Chain-of-Draft (CoD) on five reasoning tasks, using 15 open-source models from major families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, and DeepSeek) ranging from 270M to 120B parameters. Our large-scale analysis reveals that no single style is universally optimal. We demonstrate that strategy efficacy is highly contingent on both model scale and task type: search-based methods (AoT, ToT) excel in open-ended problems but require large-scale models, while concise styles (SoT, CoD) achieve radical efficiency gains on well-defined tasks. Furthermore, we identify key behavioral patterns: smaller models frequently fail to follow output instructions and default to guessing, while reasoning robustness emerges as a function of scale. Our findings offer a crucial roadmap for selecting optimal reasoning strategies based on specific constraints, we open source the benchmark in https://github.com/JamesJunyuGuo/Style_Bench.
PDF32September 26, 2025