Gedankenmanipulation: Externe Gedanken können effizient für große Schlussfolgermodelle sein

papers.abstract

Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben die Wirksamkeit der Skalierung von Testzeit-Berechnungen zur Verbesserung der Reasoning-Fähigkeiten bei verschiedenen Aufgaben gezeigt. Allerdings leiden LRMs typischerweise unter „Overthinking“-Problemen, bei denen Modelle deutlich redundante Reasoning-Schritte erzeugen, während sie nur begrenzte Leistungssteigerungen bringen. Bisherige Arbeiten setzen auf Feinabstimmung, um Overthinking zu mildern, was zusätzliche Daten, unkonventionelle Trainingsaufbauten, riskante Sicherheitsfehlausrichtungen und eine schlechte Generalisierung erfordert. Durch empirische Analysen decken wir eine wichtige Eigenschaft des LRM-Verhaltens auf: Das Platzieren externer CoTs, die von kleineren Modellen generiert werden, zwischen den Denk-Tokens (<think> und </think>) kann das Modell effektiv dazu bringen, weniger Gedanken zu erzeugen. Aufbauend auf diesen Erkenntnissen schlagen wir eine einfache, aber effiziente Pipeline, ThoughtMani, vor, um LRMs zu ermöglichen, unnötige Zwischenschritte zu umgehen und die Rechenkosten erheblich zu reduzieren. Wir führen umfangreiche Experimente durch, um die Nützlichkeit und Effizienz von ThoughtMani zu validieren. Beispielsweise reduziert ThoughtMani, wenn es auf QwQ-32B im LiveBench/Code-Datensatz angewendet wird, die Anzahl der Ausgabe-Tokens um etwa 30 %, bei gleichbleibender ursprünglicher Leistung und geringem Overhead durch den CoT-Generator. Darüber hinaus stellen wir fest, dass ThoughtMani die Sicherheitsausrichtung im Durchschnitt um 10 % verbessert. Da Modellanbieter typischerweise Modelle unterschiedlicher Größe gleichzeitig bereitstellen, bietet ThoughtMani eine effektive Möglichkeit, effizientere und zugänglichere LRMs für reale Anwendungen zu konstruieren.

English

Recent advancements in large reasoning models (LRMs) have demonstrated the effectiveness of scaling test-time computation to enhance reasoning capabilities in multiple tasks. However, LRMs typically suffer from "overthinking" problems, where models generate significantly redundant reasoning steps while bringing limited performance gains. Existing work relies on fine-tuning to mitigate overthinking, which requires additional data, unconventional training setups, risky safety misalignment, and poor generalization. Through empirical analysis, we reveal an important characteristic of LRM behaviors that placing external CoTs generated by smaller models between the thinking token (<think> and </think>) can effectively manipulate the model to generate fewer thoughts. Building on these insights, we propose a simple yet efficient pipeline, ThoughtMani, to enable LRMs to bypass unnecessary intermediate steps and reduce computational costs significantly. We conduct extensive experiments to validate the utility and efficiency of ThoughtMani. For instance, when applied to QwQ-32B on the LiveBench/Code dataset, ThoughtMani keeps the original performance and reduces output token counts by approximately 30%, with little overhead from the CoT generator. Furthermore, we find that ThoughtMani enhances safety alignment by an average of 10%. Since model vendors typically serve models of different sizes simultaneously, ThoughtMani provides an effective way to construct more efficient and accessible LRMs for real-world applications.

Gedankenmanipulation: Externe Gedanken können effizient für große Schlussfolgermodelle sein

Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

papers.abstract

Support