Jenseits des Assistenten-Turns: Die Generierung von Benutzer-Turns als Untersuchungsmethode für Interaktionsbewusstsein in Sprachmodellen

Zusammenfassung

Standard-Benchmarks für LLMs bewerten die Assistenten-Antwort: Das Modell generiert eine Antwort auf eine Eingabe, ein Prüfer bewertet die Korrektheit, und die Analyse endet. Dieses Paradigma lässt ungemessen, ob das LLM ein Bewusstsein dafür kodiert, was auf die Assistenten-Antwort folgt. Wir schlagen die Generierung von Benutzer-Zügen als Test für diese Lücke vor: Ausgehend von einem Konversationskontext aus Benutzeranfrage und Assistenten-Antwort lassen wir ein Modell in der Rolle des Benutzers generieren. Wenn die Gewichte des Modells Interaktionsbewusstsein kodieren, wird der generierte Benutzerzug eine fundierte Fortsetzung sein, die auf den vorangegangenen Kontext reagiert. Durch Experimente mit 11 Open-Weight-LLMs (Qwen3.5, gpt-oss, GLM) und 5 Datensätzen (mathematisches Reasoning, Befolgung von Anweisungen, Konversation) zeigen wir, dass Interaktionsbewusstsein von der Aufgaben-Genauigkeit entkoppelt ist. Insbesondere in der Qwen3.5-Familie skaliert die GSM8K-Genauigkeit von 41 % (0,8B) auf 96,8 % (397B-A17B), während die Raten echter Fortsetzungen unter deterministischer Generierung nahe null bleiben. Im Gegensatz dazu zeigt Sampling mit höherer Temperatur, dass Interaktionsbewusstsein latent vorhanden ist, mit Folgeraten von bis zu 22 %. Kontrollierte Perturbationen validieren, dass der vorgeschlagene Test eine reale Eigenschaft des Modells misst, und kollaborationsorientiertes Post-Training an Qwen3.5-2B demonstriert einen Anstieg der Folgeraten. Unsere Ergebnisse zeigen, dass die Generierung von Benutzer-Zügen eine Dimension des LLM-Verhaltens erfasst – das Interaktionsbewusstsein –, die von aktuellen, ausschließlich auf den Assistenten fokussierten Benchmarks unerforscht und unsichtbar bleibt.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

Jenseits des Assistenten-Turns: Die Generierung von Benutzer-Turns als Untersuchungsmethode für Interaktionsbewusstsein in Sprachmodellen

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Zusammenfassung

Support