Voorbij de Assistent-beurt: Gebruikersbeurtgeneratie als Onderzoeksmiddel voor Interactiebewustzijn in Taalmodellen

Samenvatting

Standaard LLM-benchmarks evalueren de assistent-beurt: het model genereert een reactie op een invoer, een verificator scoort de correctheid, en de analyse eindigt. Dit paradigma laat ongemeten of het LLM enig besef codeert van wat er volgt op de assistent-reactie. Wij stellen gebruikers-beurt-generatie voor als een peiling van deze kloof: gegeven een gesprekscontext van gebruikersvraag en assistent-reactie, laten we een model genereren in de gebruikersrol. Als de gewichten van het model interactiebewustzijn coderen, zal de gegenereerde gebruikersbeurt een gegronde vervolgvraag zijn die reageert op de voorafgaande context. Door experimenten met 11 open-weight LLM's (Qwen3.5, gpt-oss, GLM) en 5 datasets (wiskundig redeneren, instructie-opvolging, conversatie) tonen we aan dat interactiebewustzijn ontkoppeld is van taaknauwkeurigheid. In het bijzonder: binnen de Qwen3.5-familie schaalt de GSM8K-nauwkeurigheid van 41% (0.8B) naar 96.8% (397B-A17B), toch blijven de percentages van authentieke vervolgvragen onder deterministische generatie nabij nul. Daarentegen onthult hogere temperatuur-sampling dat interactiebewustzijn latent aanwezig is, met vervolgpercentages tot 22%. Gecontroleerde perturbaties valideren dat de voorgestelde peiling een reële eigenschap van het model meet, en collaboratiegerichte natreining op Qwen3.5-2B demonstreert een toename in vervolgpercentages. Onze resultaten tonen aan dat gebruikers-beurt-generatie een dimensie van LLM-gedrag vastlegt, interactiebewustzijn, die onontgonnen en onzichtbaar is met huidige assistent-gerichte benchmarks.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

Voorbij de Assistent-beurt: Gebruikersbeurtgeneratie als Onderzoeksmiddel voor Interactiebewustzijn in Taalmodellen

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Samenvatting

Support