Distillare Conversazioni: Compressione Astratta del Contesto Audio Conversazionale per ASR Basato su LLM
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Autori: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Abstract
I sistemi di riconoscimento vocale basati su LLM (Large Language Model) tipicamente elaborano gli enunciati in modo isolato, limitando la loro capacità di sfruttare il contesto conversazionale. In questo lavoro, studiamo se il contesto multimodale proveniente dai turni precedenti migliori l'ASR basato su LLM e come rappresentare tale contesto in modo efficiente. Scopriamo che, dopo un addestramento supervisionato multi-turno, il contesto conversazionale aiuta principalmente nel riconoscimento di entità contestuali. Tuttavia, il condizionamento sul contesto grezzo è oneroso perché la sequenza di token audio del turno precedente cresce rapidamente con la lunghezza della conversazione. Per affrontare questo problema, proponiamo la Compressione Astratta, che sostituisce la porzione audio dei turni precedenti con un numero fisso di token latenti appresi, mantenendo esplicitamente le trascrizioni corrispondenti. Sia su set di test in-dominio che out-of-dominio, il modello compresso recupera parte dei vantaggi del condizionamento sul contesto grezzo, con un'impronta audio dei turni precedenti più ridotta. Forniamo inoltre analisi mirate della configurazione di compressione e dei suoi compromessi.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.