Quand réfléchir, quand parler : Apprendre des politiques de divulgation pour le raisonnement des grands modèles de langage

Résumé

Dans les interfaces autorégressives à flux unique, les mêmes jetons mettent à jour l'état du modèle et constituent simultanément un engagement public irréversible. Ce couplage crée une taxe de silence : une délibération supplémentaire retarde le premier contenu pertinent pour la tâche, tandis qu'un streaming précoce et naïf risque des engagements prématurés qui biaisent les générations suivantes. Nous présentons le Raisonnement Entrelacé Côte à Côte (SxS), qui fait du moment de la divulgation une décision contrôlable au sein de la génération autorégressive standard. SxS entrelace des divulgations partielles avec un raisonnement privé qui se poursuit dans le même contexte, mais ne publie le contenu que lorsqu'il est étayé par le raisonnement accumulé. Pour apprendre un tel rythme sans encourager le remplissage, nous construisons des trajectoires entrelacées alignées par entailment en faisant correspondre les préfixes de réponse avec les préfixes de raisonnement justificatifs, puis nous entraînons avec SFT pour acquérir la sémantique à double action et avec RL pour retrouver les performances de raisonnement dans le nouveau format. Sur deux architectures/échelles de Qwen3 (MoE Qwen3-30B-A3B, dense Qwen3-4B) et sur des benchmarks en domaine connu (AIME25) et hors domaine (GPQA-Diamond), SxS améliore les compromis de Pareto précision–latence du contenu sous des proxies au niveau des jetons, tels que le temps d'attente entre les mises à jour.

English

In single-stream autoregressive interfaces, the same tokens both update the model state and constitute an irreversible public commitment. This coupling creates a silence tax: additional deliberation postpones the first task-relevant content, while naive early streaming risks premature commitments that bias subsequent generations. We introduce Side-by-Side (SxS) Interleaved Reasoning, which makes disclosure timing a controllable decision within standard autoregressive generation. SxS interleaves partial disclosures with continued private reasoning in the same context, but releases content only when it is supported by the reasoning so far. To learn such pacing without incentivizing filler, we construct entailment-aligned interleaved trajectories by matching answer prefixes to supporting reasoning prefixes, then train with SFT to acquire the dual-action semantics and RL to recover reasoning performance under the new format. Across two Qwen3 architectures/scales (MoE Qwen3-30B-A3B, dense Qwen3-4B) and both in-domain (AIME25) and out-of-domain (GPQA-Diamond) benchmarks, SxS improves accuracy--content-latency Pareto trade-offs under token-level proxies such as inter-update waiting.

Quand réfléchir, quand parler : Apprendre des politiques de divulgation pour le raisonnement des grands modèles de langage

When to Think, When to Speak: Learning Disclosure Policies for LLM Reasoning

Résumé

Support