STREAM : un cadre centré sur les données pour l'extraction de dialogues orientés tâches à forte valeur ajoutée depuis des médias en streaming.

Résumé

Les grands modèles de langage pour les domaines verticaux sont limités par la rareté des dialogues orientés tâches, complexes et spécifiques au domaine. Les pipelines d'acquisition de données existants sont confrontés à un trilemme persistant : l'annotation experte est coûteuse, les conversations de service réelles sont contraintes par des restrictions de confidentialité et commerciales, et les corpus statiques deviennent rapidement obsolètes sur le plan temporel. Nous proposons Stream, un cadre centré sur les données qui exploite les médias en streaming accessibles au public (flux en direct et vidéos courtes) pour synthétiser à grande échelle des dialogues de service à haute valeur ajoutée. Stream extrait les signaux d'interaction authentiques des flux bruités et synthétise des conversations en intégrant la construction de persona ancrée dans les rôles (role-grounded persona construction) à la construction de plans conversationnels (Conversational Blueprint) ; il adopte en outre la génération augmentée par récupération (retrieval-augmented generation, RAG) pour soutenir des réponses conscientes des connaissances. Basé sur Stream, nous publions StreamDial, un ensemble de données multi-domaines à grande échelle couvrant l'automobile, la restauration et l'hôtellerie. StreamDial contient 87 498 sessions de dialogue et 1 497 320 tours au total, avec une moyenne de 17,11 tours par session et une échelle comparable d'un domaine à l'autre. Chaque session est organisée sous forme d'un quadruplet structuré ⟨P_u, P_a, B, H⟩ qui associe l'historique du dialogue à des personae explicites d'utilisateur et d'agent et à un plan conversationnel, capturant des comportements de service réalistes tels que l'exploration des besoins, les conflits de contraintes, la négociation et le rétablissement. Les évaluations réalisées par des juges automatiques et des tâches en aval montrent que StreamDial améliore la qualité intrinsèque des dialogues par rapport aux bases de référence solides, et que les modèles entraînés avec StreamDial améliorent le suivi d'état du dialogue (Dialogue State Tracking) sur différentes architectures ; nous rapportons en outre un ensemble d'évaluation humaine complet et un transfert multilingue prometteur sur Qwen3-8B sous un budget d'entraînement contrôlé. Les données sont publiées à l'adresse https://github.com/hitxueliang/DialogDataSetBySTREAM.

English

Large language models for vertical domains are bottlenecked by the scarcity of complex, domain-specific task-oriented dialogues. Existing data acquisition pipelines face a persistent trilemma: expert annotation is expensive, real-world service conversations are constrained by privacy and commercial restrictions, and static corpora quickly become temporally stale. We propose Stream, a data-centric framework that leverages publicly available streaming media (live streams and short videos) to synthesize high-value service dialogues at scale. Stream mines authentic interaction signals from noisy streams and synthesizes conversations by integrating role-grounded persona construction with Conversational Blueprint construction; it further adopts retrieval-augmented generation (RAG) to support knowledge-aware responses. Based on Stream, we release StreamDial, a large-scale multi-domain dataset covering Automotive, Restaurant, and Hotel. StreamDial contains 87,498 dialogue sessions and 1,497,320 turns in total, with an average of 17.11 turns per session and a comparable scale across domains. Each session is organized as a structured quadruplet langle P_u, P_a, B, H rangle that pairs dialogue history with explicit user/agent personas and a Conversational Blueprint, capturing realistic service behaviors such as requirement mining, constraint conflicts, negotiation, and recovery. Evaluations with automatic judges and downstream tasks show that StreamDial improves intrinsic dialogue quality over strong baselines, and models trained with StreamDial improve Dialogue State Tracking across backbones; we further report a completed human-evaluation set and encouraging multilingual transfer on Qwen3-8B under a controlled training budget. The data is released in https://github.com/hitxueliang/DialogDataSetBySTREAM.