ChatPaper.aiChatPaper

Résumé de discours phrase par phrase : Tâche, jeux de données et modélisation end-to-end avec distillation de connaissances de modèles de langage

Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

August 1, 2024
Auteurs: Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
cs.AI

Résumé

Cet article présente une nouvelle approche appelée résumé de parole phrase par phrase (Sen-SSum), qui génère des résumés textuels à partir d'un document parlé de manière phrase par phrase. Sen-SSum combine le traitement en temps réel de la reconnaissance automatique de la parole (ASR) avec la concision du résumé de parole. Pour explorer cette approche, nous présentons deux ensembles de données pour Sen-SSum : Mega-SSum et CSJ-SSum. En utilisant ces ensembles de données, notre étude évalue deux types de modèles basés sur les Transformers : 1) des modèles en cascade qui combinent l'ASR et des modèles de résumé de texte performants, et 2) des modèles de bout en bout (E2E) qui convertissent directement la parole en un résumé textuel. Bien que les modèles E2E soient attrayants pour développer des modèles efficaces en termes de calcul, ils obtiennent de moins bons résultats que les modèles en cascade. Par conséquent, nous proposons une distillation de connaissances pour les modèles E2E en utilisant des pseudo-résumés générés par les modèles en cascade. Nos expériences montrent que cette distillation de connaissances proposée améliore efficacement les performances du modèle E2E sur les deux ensembles de données.
English
This paper introduces a novel approach called sentence-wise speech summarization (Sen-SSum), which generates text summaries from a spoken document in a sentence-by-sentence manner. Sen-SSum combines the real-time processing of automatic speech recognition (ASR) with the conciseness of speech summarization. To explore this approach, we present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum. Using these datasets, our study evaluates two types of Transformer-based models: 1) cascade models that combine ASR and strong text summarization models, and 2) end-to-end (E2E) models that directly convert speech into a text summary. While E2E models are appealing to develop compute-efficient models, they perform worse than cascade models. Therefore, we propose knowledge distillation for E2E models using pseudo-summaries generated by the cascade models. Our experiments show that this proposed knowledge distillation effectively improves the performance of the E2E model on both datasets.

Summary

AI-Generated Summary

PDF62November 28, 2024