ChatPaper.aiChatPaper

MM-Ego: Verso la costruzione di LLM multimodali egocentrici

MM-Ego: Towards Building Egocentric Multimodal LLMs

October 9, 2024
Autori: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang
cs.AI

Abstract

Questa ricerca mira a esplorare in modo esaustivo la costruzione di un modello fondamentale multimodale per la comprensione dei video egocentrici. Per raggiungere questo obiettivo, lavoriamo su tre fronti. In primo luogo, poiché mancano dati di domande e risposte per la comprensione dei video egocentrici, sviluppiamo un motore di dati che genera in modo efficiente 7 milioni di campioni di domande e risposte di alta qualità per video egocentrici della durata di 30 secondi fino a un'ora, basandoci su dati annotati da umani. Attualmente, questo è il dataset di domande e risposte egocentrico più grande. In secondo luogo, contribuiamo con un banco di prova sfidante di domande e risposte egocentriche con 629 video e 7.026 domande per valutare l'abilità dei modelli nel riconoscere e memorizzare dettagli visivi attraverso video di varie lunghezze. Introduciamo un nuovo metodo di valutazione per la correzione dei bias per aiutare a mitigare il bias linguistico inevitabile presente nei modelli in fase di valutazione. In terzo luogo, proponiamo un'architettura multimodale specializzata che include un innovativo meccanismo di "Memory Pointer Prompting". Questo design comprende un passaggio di visione globale per ottenere una comprensione generale dell'intero video e identificare le informazioni visive chiave, seguito da un passaggio di fallback che utilizza le informazioni visive chiave per generare risposte. Questo consente al modello di comprendere in modo più efficace i contenuti video estesi. Con i dati, il banco di prova e il modello, costruiamo con successo MM-Ego, un LLM multimodale egocentrico che mostra prestazioni potenti nella comprensione dei video egocentrici.
English
This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models' ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel "Memory Pointer Prompting" mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.
PDF223November 16, 2024