SAKE: 大規模音声言語モデルの聴覚属性知識編集に向けて
SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models
October 19, 2025
著者: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI
要旨
知識編集は、完全な再学習を必要とせずにモデルの知識を更新する効率的な方法を提供しますが、従来の研究はほぼ独占的にテキストまたは視覚モダリティに焦点を当ててきました。本論文では、大規模音声言語モデル(LALM)における聴覚的属性知識の編集に特化して設計された初のベンチマークであるSAKEを提案します。事実の更新とは異なり、SAKEはいくつかの抽象的な聴覚的属性を対象とし、従来のテキストおよび視覚領域を超える知識タイプを捉えます。2つのLALMにおいて7つの編集手法を、信頼性、一般性、音声/テキスト局所性、移植性の4次元に沿ってベンチマーク評価しました。結果から、編集対象外の属性内知識の保持、マルチモーダル推論への編集の一般化、連続的更新下での編集の維持といった課題が浮き彫りになりました。SAKEは、知識編集が聴覚モダリティにどのように拡張されるかを研究するための原理的な枠組みを提供し、より多様な実世界シナリオにおけるLALMの維持と適応に向けた新たな方向性を開拓します。
English
Knowledge editing offers an efficient way to update model knowledge without
full retraining, but prior work has concentrated almost exclusively on textual
or visual modalities. We introduce SAKE, the first benchmark specifically
designed for editing auditory attribute knowledge in Large Audio-Language
Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory
attributes, capturing knowledge types that go beyond conventional textual and
visual domains. We benchmark seven editing methods on two LALMs along four
dimensions: reliability, generality, audio/text locality, and portability.
Results highlight challenges such as preserving intra-attribute knowledge
unrelated to the edit, generalizing edits to multimodal reasoning, and
maintaining edits under sequential updates. SAKE provides a principled
framework to study how knowledge editing extends to the auditory modalities,
opening new directions for maintaining and adapting LALMs in more diverse
real-world scenarios.