Дистилляция диалогов: абстрактное сжатие контекста разговорной аудиостимуляции для ASR на основе больших языковых моделей
Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR
March 27, 2026
Авторы: Shashi Kumar, Esaú Villatoro-Tello, Sergio Burdisso, Kadri Hacioglu, Thibault Bañeras-Roux, Hasindri Watawana, Dairazalia Sanchez-Cortes, Srikanth Madikeri, Petr Motlicek, Andreas Stolcke
cs.AI
Аннотация
Типичные системы распознавания речи на основе больших языковых моделей (LLM) обычно обрабатывают высказывания изолированно, что ограничивает их способность использовать контекст беседы. В данной работе мы исследуем, улучшает ли мультимодальный контекст из предыдущих реплик LLM-ASR и как эффективно представить этот контекст. Мы обнаружили, что после контролируемого многорепликового обучения контекст беседы в основном помогает распознаванию контекстуальных сущностей. Однако использование необработанного контекста является затратным, поскольку последовательность аудиотокенов предыдущих реплик быстро растет с увеличением длины диалога. Для решения этой проблемы мы предлагаем метод абстрактного сжатия, который заменяет аудиокомпонент предыдущих реплик фиксированным количеством обученных латентных токенов, при этом явно сохраняя соответствующие транскрипты. Как на внутридоменных, так и на внедоменных тестовых наборах сжатая модель восстанавливает часть преимуществ кондиционирования на необработанном контексте при меньшем объеме аудиоданных предыдущих реплик. Мы также проводим целевой анализ конфигурации сжатия и связанных с ним компромиссов.
English
Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.