ChatPaper.aiChatPaper

LLaVA-OneVision: Eenvoudige Overdracht van Visuele Taken

LLaVA-OneVision: Easy Visual Task Transfer

August 6, 2024
Auteurs: Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li
cs.AI

Samenvatting

We presenteren LLaVA-OneVision, een familie van open grote multimodale modellen (LMMs) die zijn ontwikkeld door onze inzichten in data, modellen en visuele representaties uit de LLaVA-NeXT blogserie te consolideren. Onze experimentele resultaten tonen aan dat LLaVA-OneVision het eerste enkele model is dat tegelijkertijd de prestatiegrenzen van open LMMs kan verleggen in drie belangrijke computervisiescenario's: enkelvoudige afbeeldingen, meervoudige afbeeldingen en videoscenario's. Belangrijk is dat het ontwerp van LLaVA-OneVision sterke transfer learning mogelijk maakt over verschillende modaliteiten/scenario's, wat nieuwe opkomende capaciteiten oplevert. In het bijzonder worden sterke video-begrip en cross-scenario capaciteiten gedemonstreerd door taakoverdracht van afbeeldingen naar video's.
English
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.
PDF612February 8, 2026