ChatPaper.aiChatPaper

SAKE: Hacia la Edición del Conocimiento de Atributos Auditivos en Modelos Grandes de Audio y Lenguaje

SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

October 19, 2025
Autores: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI

Resumen

La edición de conocimiento ofrece una forma eficiente de actualizar el conocimiento del modelo sin un reentrenamiento completo, pero trabajos previos se han concentrado casi exclusivamente en modalidades textuales o visuales. Presentamos SAKE, el primer benchmark diseñado específicamente para editar conocimiento de atributos auditivos en Modelos Grandes de Audio y Lenguaje (LALMs). A diferencia de las actualizaciones factuales, SAKE se enfoca en varios atributos auditivos abstractos, capturando tipos de conocimiento que van más allá de los dominios textuales y visuales convencionales. Evaluamos siete métodos de edición en dos LALMs a lo largo de cuatro dimensiones: confiabilidad, generalidad, localidad audio/texto y portabilidad. Los resultados destacan desafíos como preservar el conocimiento intra-atributo no relacionado con la edición, generalizar las ediciones al razonamiento multimodal y mantener las ediciones bajo actualizaciones secuenciales. SAKE proporciona un marco de trabajo fundamentado para estudiar cómo la edición de conocimiento se extiende a las modalidades auditivas, abriendo nuevas direcciones para mantener y adaptar LALMs en escenarios del mundo real más diversos.
English
Knowledge editing offers an efficient way to update model knowledge without full retraining, but prior work has concentrated almost exclusively on textual or visual modalities. We introduce SAKE, the first benchmark specifically designed for editing auditory attribute knowledge in Large Audio-Language Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory attributes, capturing knowledge types that go beyond conventional textual and visual domains. We benchmark seven editing methods on two LALMs along four dimensions: reliability, generality, audio/text locality, and portability. Results highlight challenges such as preserving intra-attribute knowledge unrelated to the edit, generalizing edits to multimodal reasoning, and maintaining edits under sequential updates. SAKE provides a principled framework to study how knowledge editing extends to the auditory modalities, opening new directions for maintaining and adapting LALMs in more diverse real-world scenarios.
PDF192December 2, 2025