Conversaties Destilleren: Abstracte Compressie van Conversatie-Audiocontext voor LLM-gebaseerde Spraakherkenning
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Auteurs: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Samenvatting
Standaard op LLM gebaseerde spraakherkenningssystemen verwerken uitingen doorgaans geïsoleerd, wat hun vermogen beperkt om gesprekscontext te benutten. In dit werk onderzoeken we of multimodale context uit voorgaande gespreksbeurten de op LLM gebaseerde automatische spraakherkenning (ASR) verbetert en hoe we die context efficiënt kunnen representeren. Wij constateren dat, na gesuperviseerde training met meerdere beurten, gesprekscontext met name helpt bij de herkenning van contextuele entiteiten. Conditionering op ruwe context is echter kostbaar omdat de audiotokenreeks van voorgaande beurten snel groeit met de gesprekslengte. Om dit aan te pakken, stellen wij Abstracte Compressie voor, waarbij het audiogedeelte van voorgaande beurten wordt vervangen door een vast aantal aangeleerde latente tokens, terwijl de bijbehorende transcripties expliciet behouden blijven. Op zowel in-domein als uit-domein testensets behaalt het gecomprimeerde model een deel van de winst van conditionering op ruwe context terug, maar met een kleinere audiovoetafdruk van voorgaande beurten. Wij geven ook gerichte analyses van de compressieopzet en de bijbehorende afwegingen.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.