Destilación de Conversaciones: Compresión Abstracta del Contexto de Audio Conversacional para ASR Basado en LLM
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Autores: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Resumen
Los sistemas de reconocimiento de voz basados en LLM suelen procesar los enunciados de forma aislada, lo que limita su capacidad para aprovechar el contexto conversacional. En este trabajo, estudiamos si el contexto multimodal de turnos previos mejora el ASR basado en LLM y cómo representar dicho contexto de manera eficiente. Descubrimos que, tras un entrenamiento supervisado multiturno, el contexto conversacional ayuda principalmente al reconocimiento de entidades contextuales. Sin embargo, condicionar sobre el contexto en bruto es costoso, ya que la secuencia de tokens de audio de turnos anteriores crece rápidamente con la longitud de la conversación. Para abordar esto, proponemos la Compresión Abstracta, que reemplaza la porción de audio de turnos previos con un número fijo de tokens latentes aprendidos, mientras retiene explícitamente las transcripciones correspondientes. Tanto en conjuntos de prueba internos como externos al dominio, el modelo comprimido recupera parte de las ganancias del condicionamiento por contexto en bruto con una huella de audio de turnos previos más pequeña. También proporcionamos análisis específicos de la configuración de compresión y sus compensaciones.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.