EgoAVU: Эгоцентрическое аудиовизуальное понимание

Аннотация

Понимание эгоцентричных видео играет ключевую роль для воплощенного интеллекта. Современные мультимодальные большие языковые модели (MLLM) способны воспринимать как визуальные, так и аудиовходы. Однако, в связи со сложностью получения текстовых меток с согласованной межмодальной информацией, вопрос о том, могут ли MLLM совместно понимать обе модальности в эгоцентричных видео, остается малоизученным. Для решения этой проблемы мы представляем EgoAVU — масштабируемый механизм генерации данных, который автоматически создает эгоцентричные аудиовизуальные описания, вопросы и ответы. EgoAVU обогащает человеческие описания мультимодальным контекстом и генерирует аудиовизуальные нарративы посредством моделирования кросс-модальных корреляций. Токенная фильтрация видео и модульная курация на основе графов обеспечивают как разнообразие, так и качество данных. Используя EgoAVU, мы создали EgoAVU-Instruct — крупномасштабный обучающий набор данных из 3 млн примеров, и EgoAVU-Bench — проверенную вручную оценочную выборку, охватывающую разнообразные задачи. EgoAVU-Bench четко выявляет ограничения существующих MLLM: они сильно смещены в сторону визуальных сигналов, часто игнорируя аудиоподсказки или не связывая звук с визуальным источником. Дообучение MLLM на EgoAVU-Instruct эффективно решает эту проблему, обеспечивая до 113% улучшения производительности на EgoAVU-Bench. Эти преимущества также переносятся на другие эталоны, такие как EgoTempo и EgoIllusion, достигая до 28% относительного прироста производительности. Код будет опубликован для сообщества.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.

EgoAVU: Эгоцентрическое аудиовизуальное понимание

EgoAVU: Egocentric Audio-Visual Understanding

Аннотация

Support