Дистилляция диалогов: абстрактное сжатие контекста разговорной аудиостимуляции для ASR на основе больших языковых моделей

Аннотация

Типичные системы распознавания речи на основе больших языковых моделей (LLM) обычно обрабатывают высказывания изолированно, что ограничивает их способность использовать контекст беседы. В данной работе мы исследуем, улучшает ли мультимодальный контекст из предыдущих реплик LLM-ASR и как эффективно представить этот контекст. Мы обнаружили, что после контролируемого многорепликового обучения контекст беседы в основном помогает распознаванию контекстуальных сущностей. Однако использование необработанного контекста является затратным, поскольку последовательность аудиотокенов предыдущих реплик быстро растет с увеличением длины диалога. Для решения этой проблемы мы предлагаем метод абстрактного сжатия, который заменяет аудиокомпонент предыдущих реплик фиксированным количеством обученных латентных токенов, при этом явно сохраняя соответствующие транскрипты. Как на внутридоменных, так и на внедоменных тестовых наборах сжатая модель восстанавливает часть преимуществ кондиционирования на необработанном контексте при меньшем объеме аудиоданных предыдущих реплик. Мы также проводим целевой анализ конфигурации сжатия и связанных с ним компромиссов.

English

Standard LLM-based speech recognition systems typically process utterances in isolation, limiting their ability to leverage conversational context. In this work, we study whether multimodal context from prior turns improves LLM-based ASR and how to represent that context efficiently. We find that, after supervised multi-turn training, conversational context mainly helps with the recognition of contextual entities. However, conditioning on raw context is expensive because the prior-turn audio token sequence grows rapidly with conversation length. To address this, we propose Abstract Compression, which replaces the audio portion of prior turns with a fixed number of learned latent tokens while retaining corresponding transcripts explicitly. On both in-domain and out-of-domain test sets, the compressed model recovers part of the gains of raw-context conditioning with a smaller prior-turn audio footprint. We also provide targeted analyses of the compression setup and its trade-offs.

Дистилляция диалогов: абстрактное сжатие контекста разговорной аудиостимуляции для ASR на основе больших языковых моделей

Distilling Conversations: Abstract Compression of Conversational Audio Context for LLM-based ASR

Аннотация

Support