SAKE : Vers l'édition des connaissances des attributs auditifs dans les grands modèles audio-linguistiques
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
papers.authors: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
papers.abstract
L'édition des connaissances offre un moyen efficace de mettre à jour les connaissances d'un modèle sans recourir à un réentraînement complet, mais les travaux antérieurs se sont concentrés presque exclusivement sur les modalités textuelles ou visuelles. Nous présentons SAKE, le premier benchmark spécifiquement conçu pour éditer les connaissances sur les attributs auditifs dans les Grands Modèles Audio-Linguistiques (LALM). Contrairement aux mises à jour factuelles, SAKE cible plusieurs attributs auditifs abstraits, capturant des types de connaissances qui dépassent les domaines textuels et visuels conventionnels. Nous évaluons sept méthodes d'édition sur deux LALM selon quatre dimensions : la fiabilité, la généralité, la localité audio/texte et la portabilité. Les résultats mettent en lumière des défis tels que la préservation des connaissances intra-attribut non liées à l'édition, la généralisation des éditions au raisonnement multimodal et le maintien des éditions lors de mises à jour séquentielles. SAKE fournit un cadre méthodologique pour étudier comment l'édition des connaissances s'étend aux modalités auditives, ouvrant de nouvelles directions pour maintenir et adapter les LALM dans des scénarios réels plus diversifiés.
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.