Más allá del turno del asistente: La generación de turnos del usuario como sonda de la conciencia interactiva en los modelos de lenguaje

Resumen

Los benchmarks estándar de LLM evalúan el turno del asistente: el modelo genera una respuesta a una entrada, un verificador puntúa la corrección y el análisis termina. Este paradigma deja sin medir si el LLM codifica algún tipo de conciencia sobre lo que sigue a la respuesta del asistente. Proponemos la generación del turno del usuario como una sonda para explorar esta brecha: dado un contexto de conversación que incluye la consulta del usuario y la respuesta del asistente, permitimos que un modelo genere texto asumiendo el rol de usuario. Si los pesos del modelo codifican conciencia de la interacción, el turno de usuario generado será una continuación fundamentada que reaccione al contexto precedente. Mediante experimentos con 11 LLM de pesos abiertos (Qwen3.5, gpt-oss, GLM) y 5 conjuntos de datos (razonamiento matemático, seguimiento de instrucciones, conversación), demostramos que la conciencia de la interacción está disociada de la precisión en la tarea. En particular, dentro de la familia Qwen3.5, la precisión en GSM8K escala del 41% (0.8B) al 96.8% (397B-A17B), mientras que las tasas de continuación genuina bajo generación determinista se mantienen cercanas a cero. Por el contrario, un muestreo con mayor temperatura revela que la conciencia de la interacción está latente, con tasas de continuación que alcanzan el 22%. Perturbaciones controladas validan que la sonda propuesta mide una propiedad real del modelo, y el post-entrenamiento orientado a la colaboración en Qwen3.5-2B demuestra un aumento en las tasas de continuación. Nuestros resultados muestran que la generación del turno del usuario captura una dimensión del comportamiento de los LLM, la conciencia de la interacción, que no se explora y es invisible con los benchmarks actuales centrados únicamente en el asistente.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

Más allá del turno del asistente: La generación de turnos del usuario como sonda de la conciencia interactiva en los modelos de lenguaje

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Resumen

Support