Когда размышлять, когда говорить: обучение стратегиям раскрытия информации для рассуждений больших языковых моделей

Аннотация

В интерфейсах с однонаправленной авторегрессией одни и те же токены одновременно обновляют состояние модели и представляют собой необратимое публичное обязательство. Эта связь создает "налог на молчание": дополнительное обдумывание откладывает появление первого релевантного для задачи контента, тогда как наивная ранняя потоковая передача рискует привести к преждевременным обязательствам, которые смещают последующие генерации. Мы представляем метод побочного параллельного (Side-by-Side, SxS) чередующегося рассуждения, который делает время раскрытия информации управляемым решением в рамках стандартной авторегрессионной генерации. SxS чередует частичные раскрытия с продолжением приватных рассуждений в одном контексте, но публикует контент только тогда, когда он подтвержден текущими рассуждениями. Чтобы научиться такому темпу без поощрения "воды", мы конструируем траектории чередования, выровненные по отношению логического следования (entailment), сопоставляя префиксы ответов с подтверждающими префиксами рассуждений, а затем обучаем модель с помощью SFT для усвоения семантики двойного действия и RL для восстановления производительности рассуждений в новом формате. На двух архитектурах/масштабах Qwen3 (MoE Qwen3-30B-A3B, плотная Qwen3-4B) и на внутрипредметных (AIME25) и внепредметных (GPQA-Diamond) бенчмарках, SxS улучшает Парето-компромиссы между точностью и задержкой контента при использовании токен-уровневых прокси, таких как время ожидания между обновлениями.

English

In single-stream autoregressive interfaces, the same tokens both update the model state and constitute an irreversible public commitment. This coupling creates a silence tax: additional deliberation postpones the first task-relevant content, while naive early streaming risks premature commitments that bias subsequent generations. We introduce Side-by-Side (SxS) Interleaved Reasoning, which makes disclosure timing a controllable decision within standard autoregressive generation. SxS interleaves partial disclosures with continued private reasoning in the same context, but releases content only when it is supported by the reasoning so far. To learn such pacing without incentivizing filler, we construct entailment-aligned interleaved trajectories by matching answer prefixes to supporting reasoning prefixes, then train with SFT to acquire the dual-action semantics and RL to recover reasoning performance under the new format. Across two Qwen3 architectures/scales (MoE Qwen3-30B-A3B, dense Qwen3-4B) and both in-domain (AIME25) and out-of-domain (GPQA-Diamond) benchmarks, SxS improves accuracy--content-latency Pareto trade-offs under token-level proxies such as inter-update waiting.

Когда размышлять, когда говорить: обучение стратегиям раскрытия информации для рассуждений больших языковых моделей

When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

Аннотация

Support