SAKE: Rumo à Edição do Conhecimento de Atributos Auditivos em Grandes Modelos de Áudio e Linguagem
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
Autores: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
Resumo
A edição de conhecimento oferece uma forma eficiente de atualizar o conhecimento do modelo sem
retreinamento completo, mas trabalhos anteriores concentraram-se quase exclusivamente em modalidades
textuais ou visuais. Apresentamos o SAKE, o primeiro benchmark especificamente
desenhado para editar conhecimento de atributos auditivos em Large Audio-Language
Models (LALMs). Diferente de atualizações factuais, o SAKE tem como alvo vários atributos auditivos abstratos,
capturando tipos de conhecimento que vão além dos domínios textuais e visuais convencionais.
Avaliamos sete métodos de edição em dois LALMs ao longo de quatro dimensões: confiabilidade,
generalidade, localidade áudio/texto e portabilidade. Os resultados destacam desafios como
preservar o conhecimento intra-atributo não relacionado à edição, generalizar edições para o raciocínio multimodal e
manter edições sob atualizações sequenciais. O SAKE fornece uma estrutura principiada
para estudar como a edição de conhecimento se estende às modalidades auditivas,
abrindo novas direções para manter e adaptar LALMs em cenários reais mais diversos.
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.