EgoAVU: Compreensão Áudio-Visual Egocêntrica

Resumo

A compreensão de vídeos egocêntricos desempenha um papel vital para a inteligência incorporada. Os recentes modelos de linguagem de grande porte multimodais (MLLMs) podem aceitar entradas visuais e auditivas. No entanto, devido ao desafio de obter rótulos de texto com informações conjuntas de modalidade coerentes, a capacidade dos MLLMs de compreender conjuntamente ambas as modalidades em vídeos egocêntricos permanece pouco explorada. Para resolver este problema, introduzimos o EgoAVU, um mecanismo de dados escalável para gerar automaticamente narrações, perguntas e respostas audiovisuais egocêntricas. O EgoAVU enriquece as narrações humanas com contexto multimodal e gera narrações audiovisuais através da modelagem de correlação cross-modal. A filtragem de vídeos baseada em tokens e a curadoria modular baseada em grafos garantem tanto a diversidade quanto a qualidade dos dados. Aproveitando o EgoAVU, construímos o EgoAVU-Instruct, um conjunto de dados de treinamento em larga escala com 3M de amostras, e o EgoAVU-Bench, uma divisão de avaliação verificada manualmente que abrange diversas tarefas. O EgoAVU-Bench revela claramente as limitações dos MLLMs existentes: eles apresentam um forte viés em direção a sinais visuais, frequentemente negligenciando pistas auditivas ou falhando em correlacionar o áudio com a fonte visual. O ajuste fino de MLLMs no EgoAVU-Instruct aborda efetivamente esta questão, permitindo uma melhoria de desempenho de até 113% no EgoAVU-Bench. Tais benefícios também se transferem para outras referências, como EgoTempo e EgoIllusion, alcançando um ganho de desempenho relativo de até 28%. O código será disponibilizado para a comunidade.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.

EgoAVU: Compreensão Áudio-Visual Egocêntrica

EgoAVU: Egocentric Audio-Visual Understanding

Resumo

Support