Oltre il Turno dell'Assistente: La Generazione del Turno Utente come Sonda della Consapevolezza Interattiva nei Modelli Linguistici

Abstract

I benchmark standard per LLM valutano il turno dell'assistente: il modello genera una risposta a un input, un verificatore assegna un punteggio di correttezza e l'analisi termina. Questo paradigma lascia non misurato se l'LLM codifichi una qualche consapevolezza di ciò che segue la risposta dell'assistente. Proponiamo la generazione del turno utente come sonda di questa lacuna: dato un contesto conversazionale composto da una query utente e una risposta dell'assistente, lasciamo che un modello generi nel ruolo dell'utente. Se i pesi del modello codificano una consapevolezza dell'interazione, il turno utente generato sarà un follow-up contestuale che reagisce al contesto precedente. Attraverso esperimenti su 11 LLM open-weight (Qwen3.5, gpt-oss, GLM) e 5 dataset (ragionamento matematico, esecuzione di istruzioni, conversazione), dimostriamo che la consapevolezza dell'interazione è disaccoppiata dall'accuratezza nel compito. In particolare, all'interno della famiglia Qwen3.5, l'accuratezza su GSM8K scala dal 41% (0.8B) al 96.8% (397B-A17B), eppure i tassi di follow-up genuini sotto generazione deterministica rimangono prossimi allo zero. Al contrario, un campionamento a temperatura più elevata rivela che la consapevolezza dell'interazione è latente, con tassi di follow-up che raggiungono il 22%. Perturbazioni controllate convalidano che la sonda proposta misura una proprietà reale del modello, e un post-addestramento orientato alla collaborazione su Qwen3.5-2B dimostra un aumento dei tassi di follow-up. I nostri risultati mostrano che la generazione del turno utente cattura una dimensione del comportamento degli LLM, la consapevolezza dell'interazione, che è inesplorata e invisibile con gli attuali benchmark incentrati solo sull'assistente.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

Oltre il Turno dell'Assistente: La Generazione del Turno Utente come Sonda della Consapevolezza Interattiva nei Modelli Linguistici

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Abstract

Support