За пределами хода ассистента: генерация пользовательских реплик как метод исследования осознания взаимодействия в языковых моделях

Аннотация

Стандартные бенчмарки для больших языковых моделей оценивают ответ ассистента: модель генерирует ответ на входной запрос, верификатор оценивает корректность, и анализ завершается. Данная парадигма оставляет без измерения то, кодирует ли ИЯМ какое-либо осознание того, что следует после ответа ассистента. Мы предлагаем генерацию хода пользователя в качестве пробы для исследования этого пробела: имея контекст диалога, включающий запрос пользователя и ответ ассистента, мы позволяем модели генерировать текст в роли пользователя. Если веса модели кодируют осведомленность о взаимодействии, сгенерированный ход пользователя будет обоснованным продолжением, которое реагирует на предшествующий контекст. В экспериментах с 11 открытыми ИЯМ (Qwen3.5, gpt-oss, GLM) и 5 наборами данных (математические рассуждения, выполнение инструкций, диалог) мы показываем, что осведомленность о взаимодействии не связана с точностью решения задач. В частности, в семействе Qwen3.5 точность на GSM8K возрастает с 41% (0.8B) до 96.8% (397B-A17B), однако процент подлинных продолжений при детерминистической генерации остается близким к нулю. В противоположность этому, сэмплирование с повышенной температурой показывает, что осведомленность о взаимодействии является латентной: процент продолжений достигает 22%. Контролируемые пертурбации подтверждают, что предложенная проба измеряет реальное свойство модели, а пост-обучение модели Qwen3.5-2B, ориентированное на совместную работу, демонстрирует увеличение процента продолжений. Наши результаты показывают, что генерация хода пользователя выявляет измерение поведения ИЯМ — осведомленность о взаимодействии, — которое не исследуется и остается невидимым для современных бенчмарков, ориентированных только на ассистента.

English

Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across 11 open-weight LLMs (Qwen3.5, gpt-oss, GLM) and 5 datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from 41% (0.8B) to 96.8% (397B-A17B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching 22%. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.

За пределами хода ассистента: генерация пользовательских реплик как метод исследования осознания взаимодействия в языковых моделях

Beyond the Assistant Turn: User Turn Generation as a Probe of Interaction Awareness in Language Models

Аннотация

Support