Au-delà du tour de l'assistant : la génération du tour de l'utilisateur comme sonde de la conscience de l'interaction dans les modèles de langage

Résumé

Les benchmarks standards des LLM évaluent le tour de l'assistant : le modèle génère une réponse à une entrée, un vérificateur score la justesse, et l'analyse se termine. Ce paradigme laisse sans mesure la question de savoir si le LLM encode une quelconque conscience de ce qui suit la réponse de l'assistant. Nous proposons la génération du tour de l'utilisateur comme une sonde de cet écart : étant donné un contexte de conversation incluant la requête utilisateur et la réponse de l'assistant, nous laissons un modèle générer en prenant le rôle de l'utilisateur. Si les poids du modèle encodent une conscience de l'interaction, le tour d'utilisateur généré sera une suite ancrée qui réagit au contexte précédent. À travers des expériences sur 11 LLM à poids ouverts (Qwen3.5, gpt-oss, GLM) et 5 jeux de données (raisonnement mathématique, suivi d'instructions, conversation), nous montrons que la conscience de l'interaction est découplée de la précision sur la tâche. En particulier, au sein de la famille Qwen3.5, la précision sur GSM8K évolue de 41 % (0,8B) à 96,8 % (397B-A17B), tandis que les taux de suites authentiques sous génération déterministe restent proches de zéro. En revanche, un échantillonnage à température plus élevée révèle que la conscience de l'interaction est latente, avec des taux de suite atteignant 22 %. Des perturbations contrôlées valident le fait que la sonde proposée mesure une propriété réelle du modèle, et un post-entraînement axé sur la collaboration sur Qwen3.5-2B démontre une augmentation des taux de suite. Nos résultats montrent que la génération du tour de l'utilisateur capture une dimension du comportement des LLM, la conscience de l'interaction, qui est inexplorée et invisible avec les benchmarks actuels centrés uniquement sur l'assistant.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

Au-delà du tour de l'assistant : la génération du tour de l'utilisateur comme sonde de la conscience de l'interaction dans les modèles de langage

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Résumé

Support