SAKE: Auf dem Weg zur Bearbeitung auditiver Attributkenntnisse großer Audio-Sprach-Modelle
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
papers.authors: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
papers.abstract
Wissensbearbeitung bietet eine effiziente Methode zur Aktualisierung von Modellwissen ohne vollständiges Neutraining, doch konzentrierte sich bisherige Arbeit fast ausschließlich auf textuelle oder visuelle Modalitäten. Wir stellen SAKE vor, den ersten speziell entwickelten Benchmark zur Bearbeitung auditiver Attributkenntnisse in großen Audio-Sprach-Modellen (LALMs). Im Gegensatz zu faktischen Aktualisierungen zielt SAKE auf mehrere abstrakte auditive Attribute ab und erfasst Wissensarten, die über konventionelle textuelle und visuelle Domänen hinausgehen. Wir evaluieren sieben Bearbeitungsmethoden an zwei LALMs in vier Dimensionen: Zuverlässigkeit, Generalisierbarkeit, Audio-/Textlokalität und Übertragbarkeit. Die Ergebnisse verdeutlichen Herausforderungen wie den Erhalt von attributinternem Wissen unabhängig von der Bearbeitung, die Generalisierung von Bearbeitungen auf multimodales Reasoning sowie die Beibehaltung von Bearbeitungen bei sequenziellen Aktualisierungen. SAKE bietet einen prinzipienbasierten Rahmen zur Erforschung der Ausweitung von Wissensbearbeitung auf auditive Modalitäten und eröffnet neue Richtungen für die Wartung und Anpassung von LALMs in vielfältigeren realen Szenarien.
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.