ChatPaper.aiChatPaper

SAKE: 대규모 오디오-언어 모델의 청각 속성 지식 편집을 향하여

SAKE: Towards Editing Auditory Attribute Knowledge of Large Audio-Language Models

October 19, 2025
저자: Chih-Kai Yang, Yen-Ting Piao, Tzu-Wen Hsu, Szu-Wei Fu, Zhehuai Chen, Ke-Han Lu, Sung-Feng Huang, Chao-Han Huck Yang, Yu-Chiang Frank Wang, Yun-Nung Chen, Hung-yi Lee
cs.AI

초록

지식 편집은 전체 재학습 없이 모델 지식을 업데이트하는 효율적인 방법을 제공하지만, 기존 연구는 거의 전적으로 텍스트나 시각 양식에 집중해왔습니다. 우리는 대규모 오디오-언어 모델(LALM)에서 청각 속성 지식을 편집하기 위해 특별히 설계된 첫 번째 벤치마크인 SAKE를 소개합니다. 사실적 업데이트와 달리 SAKE는 여러 추상적인 청각 속성을 대상으로 하여 기존 텍스트 및 시각 영역을 넘어서는 지식 유형을 포착합니다. 우리는 두 가지 LALM에 대해 7가지 편집 방법을 신뢰도, 일반성, 오디오/텍스트 지역성, 이식성이라는 네 가지 차원에서 벤치마크했습니다. 결과는 편집과 무관한 속성 내 지식 보존, 다중 모달 추론으로의 편집 일반화, 순차적 업데이트 하에서 편집 내용 유지와 같은 과제를 부각시킵니다. SAKE는 지식 편집이 청각 양식으로 어떻게 확장되는지 연구하기 위한 체계적인 프레임워크를 제공하며, 보다 다양화된 실제 시나리오에서 LALM을 유지 및 적응시키는 새로운 방향을 제시합니다.
English
Knowledge editing offers an efficient way to update model knowledge without full retraining, but prior work has concentrated almost exclusively on textual or visual modalities. We introduce SAKE, the first benchmark specifically designed for editing auditory attribute knowledge in Large Audio-Language Models (LALMs). Unlike factual updates, SAKE targets several abstract auditory attributes, capturing knowledge types that go beyond conventional textual and visual domains. We benchmark seven editing methods on two LALMs along four dimensions: reliability, generality, audio/text locality, and portability. Results highlight challenges such as preserving intra-attribute knowledge unrelated to the edit, generalizing edits to multimodal reasoning, and maintaining edits under sequential updates. SAKE provides a principled framework to study how knowledge editing extends to the auditory modalities, opening new directions for maintaining and adapting LALMs in more diverse real-world scenarios.
PDF192December 2, 2025