LLaVA-OneVision: Einfache visuelle Aufgabenübertragung

papers.abstract

Wir präsentieren LLaVA-OneVision, eine Familie offener großer multimodaler Modelle (LMMs), die durch die Konsolidierung unserer Erkenntnisse zu Daten, Modellen und visuellen Darstellungen in der LLaVA-NeXT-Blogserie entwickelt wurden. Unsere experimentellen Ergebnisse zeigen, dass LLaVA-OneVision das erste einzelne Modell ist, das gleichzeitig die Leistungsgrenzen offener LMMs in drei wichtigen Szenarien der Computer Vision erweitern kann: Einzelbild-, Mehrbild- und Videoszenarien. Die Gestaltung von LLaVA-OneVision ermöglicht insbesondere starkes Transferlernen über verschiedene Modalitäten/Szenarien hinweg, was zu neuen aufkommenden Fähigkeiten führt. Insbesondere werden starke Videoverständnis- und Cross-Szenario-Fähigkeiten durch die Aufgabentransfer von Bildern auf Videos demonstriert.

English

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

LLaVA-OneVision: Einfache visuelle Aufgabenübertragung

LLaVA-OneVision: Easy Visual Task Transfer

papers.abstract

Support