ChatPaper.aiChatPaper

"짹짹"과 "대화" 구분하기: 소리와 언어의 자기 지도 시각적 그라운딩

Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

June 9, 2024
저자: Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman
cs.AI

초록

우리는 비디오 시청만을 통해 고해상도, 의미론적으로 의미 있으며 오디오-비주얼로 정렬된 특징을 학습하는 새로운 듀얼 인코더 그라운딩 아키텍처인 DenseAV를 소개합니다. DenseAV가 명시적 위치 감독 없이도 단어의 "의미"와 소리의 "위치"를 발견할 수 있음을 보여줍니다. 더 나아가, 이는 감독 없이도 이러한 두 유형의 연관성을 자동으로 발견하고 구분합니다. DenseAV의 위치 파악 능력은 대조 학습을 위해 밀집된 이미지와 오디오 표현을 직접 비교하는 새로운 멀티헤드 특징 집계 연산자에서 비롯됨을 보여줍니다. 반면, "글로벌" 오디오 및 비디오 표현을 학습하는 많은 다른 시스템은 단어와 소리의 위치를 파악할 수 없습니다. 마지막으로, 우리는 음성 및 소리 프롬프트 의미론적 분할을 통해 AV 표현의 평가를 개선하기 위해 두 개의 새로운 데이터셋을 제공합니다. 이러한 데이터셋과 다른 데이터셋에서 DenseAV가 음성 및 소리 프롬프트 의미론적 분할에서 기존 기술을 크게 능가함을 보여줍니다. DenseAV는 매개변수의 절반 미만을 사용하여 크로스 모달 검색에서 이전 최첨단 기술인 ImageBind을 능가합니다. 프로젝트 페이지: https://aka.ms/denseav{https://aka.ms/denseav}
English
We present DenseAV, a novel dual encoder grounding architecture that learns high-resolution, semantically meaningful, and audio-visually aligned features solely through watching videos. We show that DenseAV can discover the ``meaning'' of words and the ``location'' of sounds without explicit localization supervision. Furthermore, it automatically discovers and distinguishes between these two types of associations without supervision. We show that DenseAV's localization abilities arise from a new multi-head feature aggregation operator that directly compares dense image and audio representations for contrastive learning. In contrast, many other systems that learn ``global'' audio and video representations cannot localize words and sound. Finally, we contribute two new datasets to improve the evaluation of AV representations through speech and sound prompted semantic segmentation. On these and other datasets we show DenseAV dramatically outperforms the prior art on speech and sound prompted semantic segmentation. DenseAV outperforms the previous state-of-the-art, ImageBind, on cross-modal retrieval using fewer than half of the parameters. Project Page: https://aka.ms/denseav{https://aka.ms/denseav}

Summary

AI-Generated Summary

PDF81December 8, 2024