Resumen de Oraciones en el Habla: Tarea, Conjuntos de Datos y Modelado de Extremo a Extremo con Destilación de Conocimiento de LM
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation
August 1, 2024
Autores: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
cs.AI
Resumen
Este documento presenta un enfoque novedoso llamado resumen de habla por oraciones (Sen-SSum), que genera resúmenes de texto a partir de un documento hablado de manera oración por oración. Sen-SSum combina el procesamiento en tiempo real del reconocimiento automático del habla (ASR) con la concisión del resumen de habla. Para explorar este enfoque, presentamos dos conjuntos de datos para Sen-SSum: Mega-SSum y CSJ-SSum. Utilizando estos conjuntos de datos, nuestro estudio evalúa dos tipos de modelos basados en Transformer: 1) modelos en cascada que combinan ASR y modelos sólidos de resumen de texto, y 2) modelos de extremo a extremo (E2E) que convierten directamente el habla en un resumen de texto. Aunque los modelos E2E son atractivos para desarrollar modelos eficientes en cómputo, tienen un rendimiento inferior a los modelos en cascada. Por lo tanto, proponemos la destilación de conocimiento para los modelos E2E utilizando pseudo-resúmenes generados por los modelos en cascada. Nuestros experimentos muestran que esta destilación de conocimiento propuesta mejora efectivamente el rendimiento del modelo E2E en ambos conjuntos de datos.
English
This paper introduces a novel approach called sentence-wise speech
summarization (Sen-SSum), which generates text summaries from a spoken document
in a sentence-by-sentence manner. Sen-SSum combines the real-time processing of
automatic speech recognition (ASR) with the conciseness of speech
summarization. To explore this approach, we present two datasets for Sen-SSum:
Mega-SSum and CSJ-SSum. Using these datasets, our study evaluates two types of
Transformer-based models: 1) cascade models that combine ASR and strong text
summarization models, and 2) end-to-end (E2E) models that directly convert
speech into a text summary. While E2E models are appealing to develop
compute-efficient models, they perform worse than cascade models. Therefore, we
propose knowledge distillation for E2E models using pseudo-summaries generated
by the cascade models. Our experiments show that this proposed knowledge
distillation effectively improves the performance of the E2E model on both
datasets.Summary
AI-Generated Summary