ChatPaper.aiChatPaper

MM-Ego: Auf dem Weg zur Entwicklung egozentrischer multimodaler LLMs

MM-Ego: Towards Building Egocentric Multimodal LLMs

October 9, 2024
Autoren: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang
cs.AI

Zusammenfassung

Diese Forschung zielt darauf ab, umfassend den Aufbau eines multimodalen Grundlagenmodells für das Verständnis von egozentrischen Videos zu erkunden. Um dieses Ziel zu erreichen, arbeiten wir auf drei Fronten. Erstens, da es an QA-Daten für das Verständnis von egozentrischen Videos mangelt, entwickeln wir eine Daten-Engine, die effizient 7M hochwertige QA-Beispiele für egozentrische Videos von 30 Sekunden bis zu einer Stunde generiert, basierend auf menschenannotierten Daten. Dies ist derzeit der größte egozentrische QA-Datensatz. Zweitens tragen wir einen anspruchsvollen egozentrischen QA-Benchmark mit 629 Videos und 7.026 Fragen bei, um die Fähigkeit der Modelle zu bewerten, visuelle Details über Videos unterschiedlicher Längen hinweg zu erkennen und zu behalten. Wir führen eine neue Entschärfungsbewertungsmethode ein, um den unvermeidlichen Sprachbias zu mildern, der in den evaluierten Modellen vorhanden ist. Drittens schlagen wir eine spezialisierte multimodale Architektur vor, die einen neuartigen Mechanismus namens "Memory Pointer Prompting" umfasst. Dieses Design beinhaltet einen globalen Blickschritt, um ein übergreifendes Verständnis des gesamten Videos zu erlangen und wichtige visuelle Informationen zu identifizieren, gefolgt von einem Ausweichschritt, der die wichtigen visuellen Informationen nutzt, um Antworten zu generieren. Dies ermöglicht es dem Modell, den erweiterten Videoinhalt effektiver zu verstehen. Mit den Daten, dem Benchmark und dem Modell bauen wir erfolgreich MM-Ego, ein egozentrisches multimodales LLM, das eine starke Leistung beim Verständnis von egozentrischen Videos zeigt.
English
This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models' ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel "Memory Pointer Prompting" mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.

Summary

AI-Generated Summary

PDF223November 16, 2024