Apollo: Eine Untersuchung der Videoverarbeitung in großen multimodalen Modellen.

papers.abstract

Trotz der schnellen Integration von Video-Perzeptionsfähigkeiten in Große Multimodale Modelle (LMMs) sind die zugrunde liegenden Mechanismen, die ihr Verständnis von Videos steuern, schlecht verstanden. Folglich werden viele Designentscheidungen in diesem Bereich ohne angemessene Rechtfertigung oder Analyse getroffen. Die hohe Rechenleistung, die für das Training und die Bewertung solcher Modelle erforderlich ist, gepaart mit begrenzter offener Forschung, behindert die Entwicklung von Video-LMMs. Um dem entgegenzuwirken, präsentieren wir eine umfassende Studie, die dazu beiträgt, zu enthüllen, was das Videoverständnis in LMMs effektiv vorantreibt. Wir beginnen damit, die Hauptursachen für die hohen Rechenanforderungen im Zusammenhang mit der Video-LMM-Forschung kritisch zu untersuchen und entdecken die Skalierungskonsistenz, bei der Design- und Trainingsentscheidungen, die bei kleineren Modellen und Datensätzen getroffen werden (bis zu einer kritischen Größe), effektiv auf größere Modelle übertragen werden. Unter Nutzung dieser Erkenntnisse haben wir viele video-spezifische Aspekte von Video-LMMs erforscht, einschließlich Video-Sampling, Architekturen, Datenzusammensetzung, Trainingspläne und mehr. Zum Beispiel haben wir gezeigt, dass fps-Sampling während des Trainings weitaus bevorzugt wird gegenüber gleichmäßigem Frame-Sampling und welche Vision-Encoder am besten für die Video-Repräsentation geeignet sind. Basierend auf diesen Erkenntnissen stellen wir Apollo vor, eine hochmoderne Familie von LMMs, die eine überlegene Leistung über verschiedene Modellgrößen hinweg erzielen. Unsere Modelle können einstündige Videos effizient wahrnehmen, wobei Apollo-3B die meisten bestehenden 7B-Modelle mit beeindruckenden 55,1 auf LongVideoBench übertrifft. Apollo-7B ist im Vergleich zu 7B LMMs auf dem neuesten Stand mit 70,9 auf MLVU und 63,3 auf Video-MME.

English

Despite the rapid integration of video perception capabilities into Large Multimodal Models (LMMs), the underlying mechanisms driving their video understanding remain poorly understood. Consequently, many design decisions in this domain are made without proper justification or analysis. The high computational cost of training and evaluating such models, coupled with limited open research, hinders the development of video-LMMs. To address this, we present a comprehensive study that helps uncover what effectively drives video understanding in LMMs. We begin by critically examining the primary contributors to the high computational requirements associated with video-LMM research and discover Scaling Consistency, wherein design and training decisions made on smaller models and datasets (up to a critical size) effectively transfer to larger models. Leveraging these insights, we explored many video-specific aspects of video-LMMs, including video sampling, architectures, data composition, training schedules, and more. For example, we demonstrated that fps sampling during training is vastly preferable to uniform frame sampling and which vision encoders are the best for video representation. Guided by these findings, we introduce Apollo, a state-of-the-art family of LMMs that achieve superior performance across different model sizes. Our models can perceive hour-long videos efficiently, with Apollo-3B outperforming most existing 7B models with an impressive 55.1 on LongVideoBench. Apollo-7B is state-of-the-art compared to 7B LMMs with a 70.9 on MLVU, and 63.3 on Video-MME.

Apollo: Eine Untersuchung der Videoverarbeitung in großen multimodalen Modellen.

Apollo: An Exploration of Video Understanding in Large Multimodal Models

papers.abstract

Support