STREAM: Uma Estrutura Centrada em Dados para Mineração de Diálogos de Alto Valor Orientados a Tarefas em Mídias de Streaming

Resumo

Modelos de linguagem de grande porte para domínios verticais são limitados pela escassez de diálogos complexos e específicos de domínio orientados a tarefas. Os pipelines existentes de aquisição de dados enfrentam um trilema persistente: a anotação especializada é cara, as conversas reais de serviço são restritas por questões de privacidade e comerciais, e os corpora estáticos rapidamente se tornam temporalmente obsoletos. Propomos o Stream, uma estrutura centrada em dados que aproveita mídias de streaming publicamente disponíveis (transmissões ao vivo e vídeos curtos) para sintetizar diálogos de serviço de alto valor em escala. O Stream extrai sinais autênticos de interação de streams ruidosos e sintetiza conversas integrando a construção de persona baseada em papéis com a construção de Blueprint Conversacional; além disso, adota geração aumentada por recuperação (RAG) para suportar respostas com consciência de conhecimento. Com base no Stream, disponibilizamos o StreamDial, um conjunto de dados multidomínio de grande escala que abrange Automotivo, Restaurante e Hotel. O StreamDial contém 87.498 sessões de diálogo e 1.497.320 turnos no total, com uma média de 17,11 turnos por sessão e escala comparável entre domínios. Cada sessão é organizada como uma quádrupla estruturada ⟨P_u, P_a, B, H⟩ que combina o histórico de diálogo com personas explícitas de usuário/agente e um Blueprint Conversacional, capturando comportamentos realistas de serviço, como mineração de requisitos, conflitos de restrições, negociação e recuperação. Avaliações com juízes automáticos e tarefas subsequentes mostram que o StreamDial melhora a qualidade intrínseca do diálogo em relação a bases de referência robustas, e modelos treinados com StreamDial aprimoram o Rastreamento de Estado do Diálogo em diferentes arquiteturas; relatamos ainda um conjunto completo de avaliação humana e encorajadora transferência multilíngue no Qwen3-8B sob um orçamento de treinamento controlado. Os dados estão disponíveis em https://github.com/hitxueliang/DialogDataSetBySTREAM.

English

Large language models for vertical domains are bottlenecked by the scarcity of complex, domain-specific task-oriented dialogues. Existing data acquisition pipelines face a persistent trilemma: expert annotation is expensive, real-world service conversations are constrained by privacy and commercial restrictions, and static corpora quickly become temporally stale. We propose Stream, a data-centric framework that leverages publicly available streaming media (live streams and short videos) to synthesize high-value service dialogues at scale. Stream mines authentic interaction signals from noisy streams and synthesizes conversations by integrating role-grounded persona construction with Conversational Blueprint construction; it further adopts retrieval-augmented generation (RAG) to support knowledge-aware responses. Based on Stream, we release StreamDial, a large-scale multi-domain dataset covering Automotive, Restaurant, and Hotel. StreamDial contains 87,498 dialogue sessions and 1,497,320 turns in total, with an average of 17.11 turns per session and a comparable scale across domains. Each session is organized as a structured quadruplet langle P_u, P_a, B, H rangle that pairs dialogue history with explicit user/agent personas and a Conversational Blueprint, capturing realistic service behaviors such as requirement mining, constraint conflicts, negotiation, and recovery. Evaluations with automatic judges and downstream tasks show that StreamDial improves intrinsic dialogue quality over strong baselines, and models trained with StreamDial improve Dialogue State Tracking across backbones; we further report a completed human-evaluation set and encouraging multilingual transfer on Qwen3-8B under a controlled training budget. The data is released in https://github.com/hitxueliang/DialogDataSetBySTREAM.