STREAM: дата-центрический фреймворк для извлечения высокоценных целеориентированных диалогов из потоковых медиа

Аннотация

Крупные языковые модели для вертикальных доменов ограничены нехваткой сложных, предметно-ориентированных диалогов по выполнению задач. Существующие конвейеры получения данных сталкиваются с устойчивой трилеммой: экспертная разметка дорогостояща, реальные сервисные разговоры ограничены требованиями конфиденциальности и коммерческими ограничениями, а статические корпуса быстро устаревают. Мы предлагаем Stream — ориентированную на данные структуру, которая использует общедоступные потоковые медиа (прямые эфиры и короткие видео) для синтеза высокоценных сервисных диалогов в масштабе. Stream извлекает аутентичные сигналы взаимодействия из зашумленных потоков и синтезирует разговоры путем интеграции ролевого конструирования персоны с построением разговорного плана (Conversational Blueprint); дополнительно применяется генерация с дополнением по поиску (RAG) для поддержки ответов, учитывающих знания. На основе Stream мы выпускаем StreamDial — крупномасштабный многодоменный набор данных, охватывающий автомобильную сферу, рестораны и гостиницы. StreamDial содержит 87 498 диалоговых сессий и в общей сложности 1 497 320 реплик, в среднем 17,11 реплик на сессию, со сравнимым объемом по доменам. Каждая сессия организована в виде структурированного квадруплета ⟨P_u, P_a, B, H⟩, который объединяет историю диалога с явными персонами пользователя/агента и разговорным планом, фиксируя реалистичное сервисное поведение, такое как сбор требований, конфликты ограничений, переговоры и восстановление. Оценки с помощью автоматических критериев и по нисходящим задачам показывают, что StreamDial улучшает внутреннее качество диалога по сравнению с сильными базовыми линиями, а модели, обученные на StreamDial, улучшают отслеживание состояния диалога (Dialogue State Tracking) для различных базовых архитектур; мы также сообщаем о завершенном наборе результатов человеческой оценки и обнадеживающем многоязычном переносе на Qwen3-8B при контролируемом бюджете обучения. Данные опубликованы по адресу https://github.com/hitxueliang/DialogDataSetBySTREAM.

English

Large language models for vertical domains are bottlenecked by the scarcity of complex, domain-specific task-oriented dialogues. Existing data acquisition pipelines face a persistent trilemma: expert annotation is expensive, real-world service conversations are constrained by privacy and commercial restrictions, and static corpora quickly become temporally stale. We propose Stream, a data-centric framework that leverages publicly available streaming media (live streams and short videos) to synthesize high-value service dialogues at scale. Stream mines authentic interaction signals from noisy streams and synthesizes conversations by integrating role-grounded persona construction with Conversational Blueprint construction; it further adopts retrieval-augmented generation (RAG) to support knowledge-aware responses. Based on Stream, we release StreamDial, a large-scale multi-domain dataset covering Automotive, Restaurant, and Hotel. StreamDial contains 87,498 dialogue sessions and 1,497,320 turns in total, with an average of 17.11 turns per session and a comparable scale across domains. Each session is organized as a structured quadruplet langle P_u, P_a, B, H rangle that pairs dialogue history with explicit user/agent personas and a Conversational Blueprint, capturing realistic service behaviors such as requirement mining, constraint conflicts, negotiation, and recovery. Evaluations with automatic judges and downstream tasks show that StreamDial improves intrinsic dialogue quality over strong baselines, and models trained with StreamDial improve Dialogue State Tracking across backbones; we further report a completed human-evaluation set and encouraging multilingual transfer on Qwen3-8B under a controlled training budget. The data is released in https://github.com/hitxueliang/DialogDataSetBySTREAM.