Wanneer te Denken, Wanneer te Spreken: Het Leren van Openbaarmakingsbeleid voor LLM-redeneerprocessen

Samenvatting

In single-stream autoregressieve interfaces werken dezelfde tokens zowel als update van de modelstatus als als onherroepelijke publieke commitment. Deze koppeling creëert een stiltebelasting: extra beraad stelt de eerste taakrelevante content uit, terwijl naïef vroeg streamen het risico loopt op voorbarige commitments die latere generaties beïnvloeden. Wij introduceren Side-by-Side (SxS) Interleaved Reasoning, waarmee de timing van openbaarmaking een controleerbare beslissing wordt binnen standaard autoregressieve generatie. SxS verweeft gedeeltelijke openbaarmakingen met voortgezette private redenering in dezelfde context, maar geeft content pas vrij wanneer deze wordt ondersteund door de redenering tot dan toe. Om een dergelijke pacing aan te leren zonder vulmateriaal te stimuleren, construeren we *entailment*-gealigneerde verweven trajecten door antwoordprefixen te matchen met ondersteunende redeneerprefixen, en trainen we met SFT voor de dual-action semantiek en met RL om de redeneerprestatie onder het nieuwe formaat te herstellen. Over twee Qwen3-architecturen/schalen (MoE Qwen3-30B-A3B, dense Qwen3-4B) en zowel in-domein (AIME25) als uit-domein (GPQA-Diamond) benchmarks verbetert SxS de nauwkeurigheid–content-latency Pareto trade-offs onder token-level proxies zoals de wachttijd tussen updates.

English

In single-stream autoregressive interfaces, the same tokens both update the model state and constitute an irreversible public commitment. This coupling creates a silence tax: additional deliberation postpones the first task-relevant content, while naive early streaming risks premature commitments that bias subsequent generations. We introduce Side-by-Side (SxS) Interleaved Reasoning, which makes disclosure timing a controllable decision within standard autoregressive generation. SxS interleaves partial disclosures with continued private reasoning in the same context, but releases content only when it is supported by the reasoning so far. To learn such pacing without incentivizing filler, we construct entailment-aligned interleaved trajectories by matching answer prefixes to supporting reasoning prefixes, then train with SFT to acquire the dual-action semantics and RL to recover reasoning performance under the new format. Across two Qwen3 architectures/scales (MoE Qwen3-30B-A3B, dense Qwen3-4B) and both in-domain (AIME25) and out-of-domain (GPQA-Diamond) benchmarks, SxS improves accuracy--content-latency Pareto trade-offs under token-level proxies such as inter-update waiting.

Wanneer te Denken, Wanneer te Spreken: Het Leren van Openbaarmakingsbeleid voor LLM-redeneerprocessen

When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

Samenvatting

Support