LLaVA-OneVision : Transfert simplifié des tâches visuelles
LLaVA-OneVision: Easy Visual Task Transfer
August 6, 2024
papers.authors: Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li
cs.AI
papers.abstract
Nous présentons LLaVA-OneVision, une famille de modèles multimodaux ouverts de grande taille (LMMs) développée en consolidant nos insights sur les données, les modèles et les représentations visuelles dans la série de blogs LLaVA-NeXT. Nos résultats expérimentaux démontrent que LLaVA-OneVision est le premier modèle unique capable de repousser simultanément les limites de performance des LMMs ouverts dans trois scénarios importants de vision par ordinateur : les scénarios à image unique, à images multiples et à vidéo. De manière cruciale, la conception de LLaVA-OneVision permet un transfert d'apprentissage robuste à travers différentes modalités/scénarios, engendrant de nouvelles capacités émergentes. En particulier, une compréhension vidéo robuste et des capacités transversales sont démontrées grâce au transfert de tâches des images vers les vidéos.
English
We present LLaVA-OneVision, a family of open large multimodal models (LMMs)
developed by consolidating our insights into data, models, and visual
representations in the LLaVA-NeXT blog series. Our experimental results
demonstrate that LLaVA-OneVision is the first single model that can
simultaneously push the performance boundaries of open LMMs in three important
computer vision scenarios: single-image, multi-image, and video scenarios.
Importantly, the design of LLaVA-OneVision allows strong transfer learning
across different modalities/scenarios, yielding new emerging capabilities. In
particular, strong video understanding and cross-scenario capabilities are
demonstrated through task transfer from images to videos.