MM-Ego: Auf dem Weg zur Entwicklung egozentrischer multimodaler LLMs
MM-Ego: Towards Building Egocentric Multimodal LLMs
October 9, 2024
Autoren: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang
cs.AI
Zusammenfassung
Diese Forschung zielt darauf ab, umfassend den Aufbau eines multimodalen Grundlagenmodells für das Verständnis von egozentrischen Videos zu erkunden. Um dieses Ziel zu erreichen, arbeiten wir auf drei Fronten. Erstens, da es an QA-Daten für das Verständnis von egozentrischen Videos mangelt, entwickeln wir eine Daten-Engine, die effizient 7M hochwertige QA-Beispiele für egozentrische Videos von 30 Sekunden bis zu einer Stunde generiert, basierend auf menschenannotierten Daten. Dies ist derzeit der größte egozentrische QA-Datensatz. Zweitens tragen wir einen anspruchsvollen egozentrischen QA-Benchmark mit 629 Videos und 7.026 Fragen bei, um die Fähigkeit der Modelle zu bewerten, visuelle Details über Videos unterschiedlicher Längen hinweg zu erkennen und zu behalten. Wir führen eine neue Entschärfungsbewertungsmethode ein, um den unvermeidlichen Sprachbias zu mildern, der in den evaluierten Modellen vorhanden ist. Drittens schlagen wir eine spezialisierte multimodale Architektur vor, die einen neuartigen Mechanismus namens "Memory Pointer Prompting" umfasst. Dieses Design beinhaltet einen globalen Blickschritt, um ein übergreifendes Verständnis des gesamten Videos zu erlangen und wichtige visuelle Informationen zu identifizieren, gefolgt von einem Ausweichschritt, der die wichtigen visuellen Informationen nutzt, um Antworten zu generieren. Dies ermöglicht es dem Modell, den erweiterten Videoinhalt effektiver zu verstehen. Mit den Daten, dem Benchmark und dem Modell bauen wir erfolgreich MM-Ego, ein egozentrisches multimodales LLM, das eine starke Leistung beim Verständnis von egozentrischen Videos zeigt.
English
This research aims to comprehensively explore building a multimodal
foundation model for egocentric video understanding. To achieve this goal, we
work on three fronts. First, as there is a lack of QA data for egocentric video
understanding, we develop a data engine that efficiently generates 7M
high-quality QA samples for egocentric videos ranging from 30 seconds to one
hour long, based on human-annotated data. This is currently the largest
egocentric QA dataset. Second, we contribute a challenging egocentric QA
benchmark with 629 videos and 7,026 questions to evaluate the models' ability
in recognizing and memorizing visual details across videos of varying lengths.
We introduce a new de-biasing evaluation method to help mitigate the
unavoidable language bias present in the models being evaluated. Third, we
propose a specialized multimodal architecture featuring a novel "Memory Pointer
Prompting" mechanism. This design includes a global glimpse step to gain an
overarching understanding of the entire video and identify key visual
information, followed by a fallback step that utilizes the key visual
information to generate responses. This enables the model to more effectively
comprehend extended video content. With the data, benchmark, and model, we
successfully build MM-Ego, an egocentric multimodal LLM that shows powerful
performance on egocentric video understanding.Summary
AI-Generated Summary