SAKE: К редактированию знаний об акустических атрибутах в больших аудио-языковых моделях
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
Авторы: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
Аннотация
Редактирование знаний предлагает эффективный способ обновления знаний модели без полного переобучения, однако предыдущие работы были сосредоточены почти исключительно на текстовых или визуальных модальностях. Мы представляем SAKE — первый бенчмарк, специально разработанный для редактирования знаний о слуховых атрибутах в больших аудио-языковых моделях (БАЯМ). В отличие от обновления фактов, SAKE нацелен на несколько абстрактных слуховых атрибутов, охватывая типы знаний, выходящие за рамки традиционных текстовых и визуальных доменов. Мы тестируем семь методов редактирования на двух БАЯМ по четырем измерениям: надежность, обобщаемость, локальность (аудио/текст) и портируемость. Результаты выявляют такие проблемы, как сохранение внутриатрибутного знания, не связанного с редактированием, обобщение правок для мультимодального мышления и сохранение изменений при последовательных обновлениях. SAKE предоставляет принципиальную основу для изучения того, как редактирование знаний распространяется на слуховые модальности, открывая новые направления для поддержки и адаптации БАЯМ в более разнообразных реальных сценариях.
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.