Sumarização de Sentenças: Tarefa, Conjuntos de Dados e Modelagem de Ponta a Ponta com Destilação de Conhecimento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation
August 1, 2024
Autores: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
cs.AI
Resumo
Este artigo apresenta uma abordagem inovadora chamada sumarização de fala por sentença (Sen-SSum), que gera resumos de texto a partir de um documento falado de maneira sentença a sentença. Sen-SSum combina o processamento em tempo real do reconhecimento automático de fala (ASR) com a concisão da sumarização de fala. Para explorar essa abordagem, apresentamos dois conjuntos de dados para Sen-SSum: Mega-SSum e CSJ-SSum. Utilizando esses conjuntos de dados, nosso estudo avalia dois tipos de modelos baseados em Transformer: 1) modelos em cascata que combinam ASR e modelos fortes de sumarização de texto, e 2) modelos ponta a ponta (E2E) que convertem diretamente a fala em um resumo de texto. Embora os modelos E2E sejam atraentes para desenvolver modelos eficientes em termos de computação, eles têm um desempenho inferior aos modelos em cascata. Portanto, propomos a destilação de conhecimento para os modelos E2E usando pseudo-resumos gerados pelos modelos em cascata. Nossos experimentos mostram que essa destilação de conhecimento proposta melhora efetivamente o desempenho do modelo E2E em ambos os conjuntos de dados.
English
This paper introduces a novel approach called sentence-wise speech
summarization (Sen-SSum), which generates text summaries from a spoken document
in a sentence-by-sentence manner. Sen-SSum combines the real-time processing of
automatic speech recognition (ASR) with the conciseness of speech
summarization. To explore this approach, we present two datasets for Sen-SSum:
Mega-SSum and CSJ-SSum. Using these datasets, our study evaluates two types of
Transformer-based models: 1) cascade models that combine ASR and strong text
summarization models, and 2) end-to-end (E2E) models that directly convert
speech into a text summary. While E2E models are appealing to develop
compute-efficient models, they perform worse than cascade models. Therefore, we
propose knowledge distillation for E2E models using pseudo-summaries generated
by the cascade models. Our experiments show that this proposed knowledge
distillation effectively improves the performance of the E2E model on both
datasets.Summary
AI-Generated Summary