Verdichtung von Gesprächen: Abstrakte Kompression von Konversations-Audio-Kontext für LLM-basierte Spracherkennung
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Autoren: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Zusammenfassung
Herkömmliche, auf LLM basierende Spracherkennungssysteme verarbeiten Äußerungen typischerweise isoliert, was ihre Fähigkeit einschränkt, Konversationskontext zu nutzen. In dieser Arbeit untersuchen wir, ob multimodaler Kontext aus vorherigen Gesprächsbeiträgen die LLM-basierte automatische Spracherkennung (ASR) verbessert und wie sich dieser Kontext effizient repräsentieren lässt. Wir stellen fest, dass Konversationskontext nach überwachtem Mehr-Zug-Training hauptsächlich bei der Erkennung von kontextuellen Entitäten hilft. Die Konditionierung auf Rohdaten-Kontext ist jedoch rechenintensiv, da die Audio-Token-Sequenz vorheriger Beiträge mit der Gesprächslänge schnell anwächst. Um dies zu adressieren, schlagen wir Abstrakte Kompression vor, bei der der Audioanteil vorheriger Beiträge durch eine feste Anzahl gelernter latenter Token ersetzt wird, während die entsprechenden Transkripte explizit erhalten bleiben. Sowohl auf innen- als auch außerhalb der Domäne liegenden Testdatensätzen erreicht das komprimierte Modell einen Teil des Leistungszuwachses der Rohdaten-Konditionierung, jedoch mit einem geringeren Footprint für vorherige Audiobeiträge. Wir liefern zudem gezielte Analysen des Kompressionsaufbaus und seiner Kompromisse.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.