Denken vor dem Einschränken: Ein einheitliches Dekodierungsframework für große Sprachmodelle

Zusammenfassung

Die natürliche Generierung ermöglicht es großen Sprachmodellen (Large Language Models, LLMs), freie Antworten mit umfangreichem Reasoning zu erzeugen, jedoch erschwert die fehlende Struktur die Überprüfbarkeit der Ausgaben. Umgekehrt gewährleistet eingeschränktes Decoding standardisierte Formate, kann aber die Reasoning-Fähigkeiten unbeabsichtigt einschränken, indem es zu früh im Generierungsprozess Zwänge auferlegt. Wir schlagen einen hybriden Ansatz namens In-Writing vor, der freies Reasoning und strukturierte Generierung in einem einzigen Aufruf kombiniert. Das Modell führt zunächst uneingeschränktes Reasoning durch und wendet erst nach der Generierung eines Auslöser-Tokens strukturiertes Decoding an, wodurch Reasoning und Formatierung explizit entkoppelt werden. Wir belegen, dass unsere Strategien für Auslöser-Token ein vorzeitiges Auslösen, eine Fehlfunktion, bei der eingeschränktes Decoding das laufende Reasoning unterbricht, nahezu vollständig verhindern können. Evaluierungen über verschiedene Datensätze, die Klassifikations- und Reasoning-Aufgaben abdecken, zeigen, dass unser Ansatz den aktuellen Stand der Technik übertrifft, mit Genauigkeitssteigerungen von bis zu 27 % gegenüber der natürlichen Generierung. Unser Code ist verfügbar unter: https://github.com/Nokia-Bell-Labs/InWriting.

English

Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.