EgoAVU: Comprensione Audio-Visiva Egocentrica

Abstract

La comprensione di video egocentrici riveste un ruolo fondamentale per l'intelligenza incarnata. I recenti modelli linguistici multimodali di grandi dimensioni (MLLM) sono in grado di accettare input sia visivi che audio. Tuttavia, a causa della difficoltà di ottenere etichette testuali con informazioni coerenti di modalità congiunta, la capacità degli MLLM di comprendere congiuntamente entrambe le modalità nei video egocentrici rimane poco esplorata. Per affrontare questo problema, introduciamo EgoAVU, un motore di dati scalabile per generare automaticamente narrazioni, domande e risposte audiovisive egocentriche. EgoAVU arricchisce le narrazioni umane con contesto multimodale e genera narrazioni audiovisive attraverso la modellazione delle correlazioni cross-modali. La filtrazione dei video basata su token e una curatela modulare basata su grafi garantiscono sia la diversità che la qualità dei dati. Sfruttando EgoAVU, costruiamo EgoAVU-Instruct, un ampio dataset di addestramento di 3 milioni di campioni, ed EgoAVU-Bench, una suddivisione valutativa verificata manualmente che copre diverse attività. EgoAVU-Bench rivela chiaramente i limiti degli MLLM esistenti: mostrano una forte propensione per i segnali visivi, trascurando spesso gli indizi audio o non riuscendo a correlare l'audio con la fonte visiva. Il fine-tuning degli MLLM su EgoAVU-Instruct affronta efficacemente questo problema, consentendo un miglioramento delle prestazioni fino al 113% su EgoAVU-Bench. Tali benefici si trasferiscono anche ad altri benchmark come EgoTempo ed EgoIllusion, raggiungendo un guadagno prestazionale relativo fino al 28%. Il codice verrà rilasciato alla comunità.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.

EgoAVU: Comprensione Audio-Visiva Egocentrica

EgoAVU: Egocentric Audio-Visual Understanding

Abstract

Support