EgoAVU: Egocentrisches Audio-Visuelles Verständnis

Zusammenfassung

Das Verstehen egozentrischer Videos spielt eine entscheidende Rolle für verkörperte Intelligenz. Aktuelle multimodale Large Language Models (MLLMs) können sowohl visuelle als auch auditive Eingaben verarbeiten. Aufgrund der Herausforderung, Textlabels mit kohärenter multimodaler Information zu erhalten, bleibt jedoch weitgehend unerforscht, ob MLLMs beide Modalitäten in egozentrischen Videos gemeinsam verstehen können. Um dieses Problem zu adressieren, stellen wir EgoAVU vor, eine skalierbare Daten-Engine zur automatischen Generierung egozentrischer audiovisueller Beschreibungen, Fragen und Antworten. EgoAVU reichert menschliche Beschreibungen mit multimodalem Kontext an und erzeugt audiovisuelle Narrationen durch cross-modale Korrelationsmodellierung. Token-basierte Videofilterung und modulare, graphenbasierte Kuratierung gewährleisten sowohl Datenvielfalt als auch -qualität. Mithilfe von EgoAVU konstruieren wir EgoAVU-Instruct, einen groß angelegten Trainingsdatensatz mit 3M Beispielen, und EgoAVU-Bench, eine manuell verifizierte Evaluierungspartition mit diversen Aufgaben. EgoAVU-Bench zeigt deutlich die Limitierungen existierender MLLMs auf: Sie sind stark auf visuelle Signale fokussiert, vernachlässigen häufig auditive Hinweise oder scheitern daran, Audio mit der visuellen Quelle zu korrelieren. Fine-Tuning von MLLMs auf EgoAVU-Instruct behebt dieses Problem effektiv und ermöglicht Leistungssteigerungen von bis zu 113% auf EgoAVU-Bench. Diese Vorteile übertragen sich auch auf andere Benchmarks wie EgoTempo und EgoIllusion mit relativen Leistungssteigerungen von bis zu 28%. Der Code wird der Community zur Verfügung gestellt.

English

Understanding egocentric videos plays a vital role for embodied intelligence. Recent multi-modal large language models (MLLMs) can accept both visual and audio inputs. However, due to the challenge of obtaining text labels with coherent joint-modality information, whether MLLMs can jointly understand both modalities in egocentric videos remains under-explored. To address this problem, we introduce EgoAVU, a scalable data engine to automatically generate egocentric audio-visual narrations, questions, and answers. EgoAVU enriches human narrations with multimodal context and generates audio-visual narrations through cross-modal correlation modeling. Token-based video filtering and modular, graph-based curation ensure both data diversity and quality. Leveraging EgoAVU, we construct EgoAVU-Instruct, a large-scale training dataset of 3M samples, and EgoAVU-Bench, a manually verified evaluation split covering diverse tasks. EgoAVU-Bench clearly reveals the limitations of existing MLLMs: they bias heavily toward visual signals, often neglecting audio cues or failing to correspond audio with the visual source. Finetuning MLLMs on EgoAVU-Instruct effectively addresses this issue, enabling up to 113% performance improvement on EgoAVU-Bench. Such benefits also transfer to other benchmarks such as EgoTempo and EgoIllusion, achieving up to 28% relative performance gain. Code will be released to the community.

EgoAVU: Egocentrisches Audio-Visuelles Verständnis

EgoAVU: Egocentric Audio-Visual Understanding

Zusammenfassung

Support