ChatPaper.aiChatPaper

Destilação de Conversas: Compressão Abstrata do Contexto de Áudio Conversacional para ASR Baseado em LLM

Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

March 27, 2026
Autores: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI

Resumo

Os sistemas de reconhecimento de fala baseados em LLM (Large Language Models) normalmente processam enunciados de forma isolada, limitando sua capacidade de aproveitar o contexto conversacional. Neste trabalho, investigamos se o contexto multimodal de turnos anteriores melhora o ASR baseado em LLM e como representar esse contexto de forma eficiente. Constatamos que, após um treinamento supervisionado multiturno, o contexto conversacional auxilia principalmente no reconhecimento de entidades contextuais. No entanto, condicionar o modelo ao contexto bruto é computacionalmente custoso, pois a sequência de tokens de áudio dos turnos anteriores cresce rapidamente com a duração da conversa. Para resolver isso, propomos a Compressão Abstrata, que substitui a porção de áudio dos turnos anteriores por um número fixo de tokens latentes aprendidos, mantendo explicitamente as transcrições correspondentes. Tanto em conjuntos de teste internos quanto externos ao domínio, o modelo compactado recupera parte dos ganhos do condicionamento por contexto bruto, mas com uma pegada de áudio anterior menor. Também fornecemos análises direcionadas da configuração de compressão e seus trade-offs.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.
PDF11April 2, 2026