EgoAVU: Эгоцентрическое аудиовизуальное понимание
EgoAVU: Egocentric Audio-Visual Understanding
February 5, 2026
Авторы: Ashish Seth, Xinhao Mei, Changsheng Zhao, Varun Nagaraja, Ernie Chang, Gregory P. Meyer, Gael Le Lan, Yunyang Xiong, Vikas Chandra, Yangyang Shi, Dinesh Manocha, Zhipeng Cai
cs.AI
Аннотация
Понимание эгоцентричных видео играет ключевую роль для воплощенного интеллекта. Современные мультимодальные большие языковые модели (MLLM) способны воспринимать как визуальные, так и аудиовходы. Однако, в связи со сложностью получения текстовых меток с согласованной межмодальной информацией, вопрос о том, могут ли MLLM совместно понимать обе модальности в эгоцентричных видео, остается малоизученным. Для решения этой проблемы мы представляем EgoAVU — масштабируемый механизм генерации данных, который автоматически создает эгоцентричные аудиовизуальные описания, вопросы и ответы. EgoAVU обогащает человеческие описания мультимодальным контекстом и генерирует аудиовизуальные нарративы посредством моделирования кросс-модальных корреляций. Токенная фильтрация видео и модульная курация на основе графов обеспечивают как разнообразие, так и качество данных. Используя EgoAVU, мы создали EgoAVU-Instruct — крупномасштабный обучающий набор данных из 3 млн примеров, и EgoAVU-Bench — проверенную вручную оценочную выборку, охватывающую разнообразные задачи. EgoAVU-Bench четко выявляет ограничения существующих MLLM: они сильно смещены в сторону визуальных сигналов, часто игнорируя аудиоподсказки или не связывая звук с визуальным источником. Дообучение MLLM на EgoAVU-Instruct эффективно решает эту проблему, обеспечивая до 113% улучшения производительности на EgoAVU-Bench. Эти преимущества также переносятся на другие эталоны, такие как EgoTempo и EgoIllusion, достигая до 28% относительного прироста производительности. Код будет опубликован для сообщества.
English
Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.