Distillation de Conversations : Compression Abstraite du Contexte Audio Conversationnel pour la Reconnaissance Automatique de la Parole Basée sur les LLM
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Auteurs: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Résumé
Les systèmes de reconnaissance vocale standard basés sur LLM traitent généralement les énoncés de manière isolée, ce qui limite leur capacité à exploiter le contexte conversationnel. Dans ce travail, nous étudions si le contexte multimodal des tours de parole précédents améliore la reconnaissance automatique de la parole (ASR) basée sur LLM et comment représenter ce contexte efficacement. Nous constatons qu'après un apprentissage supervisé multi-tours, le contexte conversationnel aide principalement à la reconnaissance des entités contextuelles. Cependant, le conditionnement sur le contexte brut est coûteux car la séquence de tokens audio des tours précédents croît rapidement avec la longueur de la conversation. Pour résoudre ce problème, nous proposons une compression abstraite, qui remplace la portion audio des tours précédents par un nombre fixe de tokens latents appris tout en conservant explicitement les transcriptions correspondantes. Sur des ensembles de test intra-domaine et hors-domaine, le modèle compressé récupère une partie des gains du conditionnement sur contexte brut avec une empreinte audio réduite pour les tours précédents. Nous fournissons également des analyses ciblées de la configuration de compression et de ses compromis.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.