SAKE: Naar het Bewerken van Auditieve Attribuutkennis in Grote Audio-Taalmodellen
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
Auteurs: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
Samenvatting
Kennisbewerking biedt een efficiënte manier om modelkennis bij te werken zonder
volledige hertraining, maar eerder werk concentreerde zich bijna uitsluitend op tekstuele
of visuele modaliteiten. Wij introduceren SAKE, de eerste benchmark die specifiek
ontworpen is voor het bewerken van kennis over auditieve attributen in Grote Audio-Taalmodellen
(GAT-modellen). In tegenstelling tot feitelijke updates, richt SAKE zich op verschillende abstracte auditieve
attributen, waarbij kennissoorten worden vastgelegd die verder gaan dan conventionele tekstuele en visuele domeinen.
Wij testen zeven bewerkingsmethoden op twee GAT-modellen langs vier dimensies:
betrouwbaarheid, generaliseerbaarheid, audio/tekst-localiteit en overdraagbaarheid.
Resultaten belichten uitdagingen zoals het behouden van intra-attribuutkennis
die niet gerelateerd is aan de bewerking, het generaliseren van bewerkingen naar multimodale redenering, en
het behouden van bewerkingen bij sequentiële updates. SAKE biedt een principieel
kader om te bestuderen hoe kennisbewerking zich uitstrekt tot de auditieve modaliteiten,
wat nieuwe richtingen opent voor het onderhouden en aanpassen van GAT-modellen in meer diverse
realistische scenario's.
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.