STREAM: Un marco centrado en datos para la minería de diálogos orientados a tareas de alto valor a partir de medios en streaming.
STREAM: A Data-Centric Framework for Mining High-Value Task-Oriented Dialogues from Streaming Media
May 24, 2026
Autores: Liang Xue, Haoyu Liu, Cheng Wang, Pengyu Chen, Haozhuo Zheng, Yang Liu
cs.AI
Resumen
Los modelos de lenguaje de gran escala para dominios verticales se ven limitados por la escasez de diálogos complejos y específicos de una tarea orientados al dominio. Los pipelines de adquisición de datos existentes enfrentan un trilema persistente: la anotación de expertos es costosa, las conversaciones de servicio reales están restringidas por privacidad y limitaciones comerciales, y los corpus estáticos rápidamente se vuelven temporalmente obsoletos. Proponemos Stream, un marco centrado en datos que aprovecha los medios de transmisión en vivo públicos (transmisiones en vivo y videos cortos) para sintetizar diálogos de servicio de alto valor a escala. Stream extrae señales de interacción auténticas de transmisiones ruidosas y sintetiza conversaciones integrando la construcción de personajes basados en roles con la construcción de Planos de Conversación; además, adopta generación aumentada por recuperación (RAG) para respaldar respuestas conscientes del conocimiento. Basado en Stream, publicamos StreamDial, un conjunto de datos multidisciplinario a gran escala que cubre Automoción, Restaurante y Hotel. StreamDial contiene 87,498 sesiones de diálogo y 1,497,320 turnos en total, con un promedio de 17.11 turnos por sesión y una escala comparable entre dominios. Cada sesión se organiza como un cuádruple estructurado ⟨P_u, P_a, B, H⟩ que empareja el historial de diálogo con personajes explícitos de usuario/agente y un Plano de Conversación, capturando comportamientos de servicio realistas como extracción de requisitos, conflictos de restricciones, negociación y recuperación. Las evaluaciones con jueces automáticos y tareas posteriores muestran que StreamDial mejora la calidad intrínseca del diálogo en comparación con líneas base sólidas, y los modelos entrenados con StreamDial mejoran el Seguimiento del Estado del Diálogo en distintas arquitecturas; además, reportamos un conjunto completo de evaluación humana y una transferencia multilingüe alentadora en Qwen3-8B bajo un presupuesto de entrenamiento controlado. Los datos se publican en https://github.com/hitxueliang/DialogDataSetBySTREAM.
English
Large language models for vertical domains are bottlenecked by the scarcity of complex, domain-specific task-oriented dialogues. Existing data acquisition pipelines face a persistent trilemma: expert annotation is expensive, real-world service conversations are constrained by privacy and commercial restrictions, and static corpora quickly become temporally stale. We propose Stream, a data-centric framework that leverages publicly available streaming media (live streams and short videos) to synthesize high-value service dialogues at scale. Stream mines authentic interaction signals from noisy streams and synthesizes conversations by integrating role-grounded persona construction with Conversational Blueprint construction; it further adopts retrieval-augmented generation (RAG) to support knowledge-aware responses. Based on Stream, we release StreamDial, a large-scale multi-domain dataset covering Automotive, Restaurant, and Hotel. StreamDial contains 87,498 dialogue sessions and 1,497,320 turns in total, with an average of 17.11 turns per session and a comparable scale across domains. Each session is organized as a structured quadruplet langle P_u, P_a, B, H rangle that pairs dialogue history with explicit user/agent personas and a Conversational Blueprint, capturing realistic service behaviors such as requirement mining, constraint conflicts, negotiation, and recovery. Evaluations with automatic judges and downstream tasks show that StreamDial improves intrinsic dialogue quality over strong baselines, and models trained with StreamDial improve Dialogue State Tracking across backbones; we further report a completed human-evaluation set and encouraging multilingual transfer on Qwen3-8B under a controlled training budget. The data is released in https://github.com/hitxueliang/DialogDataSetBySTREAM.