ChatPaper.aiChatPaper

Обдумывание перед ограничением: Единый фреймворк декодирования для больших языковых моделей

Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

May 28, 2026
Авторы: Ngoc Trinh Hung Nguyen, Alonso Silva, Laith Zumot, Liubov Tupikina, Armen Aghasaryan, Mehwish Alam
cs.AI

Аннотация

Естественная генерация позволяет большим языковым моделям (LLM) создавать ответы в свободной форме с богатой аргументацией, однако отсутствие структуры затрудняет верификацию результатов. С другой стороны, ограниченное декодирование обеспечивает стандартизированные форматы, но может непреднамеренно ограничивать способности к рассуждению, накладывая ограничения слишком рано в процессе генерации. Мы предлагаем гибридный подход, названный In-Writing, который объединяет рассуждение в свободной форме и структурированную генерацию в одном вызове. Модель сначала выполняет неограниченное рассуждение и применяет структурированное декодирование только после генерации триггерного токена, явно разделяя рассуждение и форматирование. Мы показываем, что наши стратегии с триггерными токенами позволяют практически полностью устранить преждевременное срабатывание — вид сбоя, при котором ограниченное декодирование прерывает продолжающееся рассуждение. Оценки на различных наборах данных, охватывающих задачи классификации и рассуждения, показывают, что наш подход превосходит современные методы, обеспечивая прирост точности до 27% по сравнению с естественной генерацией. Наш код доступен по адресу: https://github.com/Nokia-Bell-Labs/InWriting.
English
Natural generation allows Large Language Models (LLMs) to produce free-form responses with rich reasoning, yet the lack of structure makes outputs difficult to verify. Conversely, constrained decoding ensures standardized formats but can inadvertently restrict reasoning capabilities by imposing constraints too early in the generation process. We propose a hybrid approach, namely In-Writing, that combines free-form reasoning and structured generation in a single call. The model first performs unconstrained reasoning and only applies structured decoding after a trigger token is generated, explicitly decoupling reasoning from formatting. We establish that our trigger-token strategies are able to virtually eradicate premature triggering, a failure mode in which constrained decoding interrupts on-going reasoning. Evaluations across diverse datasets covering classification and reasoning tasks demonstrate that our approach outperforms the state-of-the-art by achieving accuracy gains of up to 27% over natural generation. Our code are available at: https://github.com/Nokia-Bell-Labs/InWriting.