LLaVA-OneVision: Trasferimento Semplice di Compiti Visivi

Abstract

Presentiamo LLaVA-OneVision, una famiglia di modelli multimodali di grandi dimensioni (LMM) open source sviluppata consolidando le nostre intuizioni su dati, modelli e rappresentazioni visive nella serie di blog LLaVA-NeXT. I nostri risultati sperimentali dimostrano che LLaVA-OneVision è il primo modello singolo in grado di spingere simultaneamente i limiti delle prestazioni degli LMM open source in tre importanti scenari di visione artificiale: scenari con immagine singola, immagini multiple e video. È importante sottolineare che il design di LLaVA-OneVision consente un forte trasferimento di apprendimento tra diverse modalità/scenari, generando nuove capacità emergenti. In particolare, una solida comprensione video e capacità cross-scenario vengono dimostrate attraverso il trasferimento di compiti da immagini a video.

English

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

LLaVA-OneVision: Trasferimento Semplice di Compiti Visivi

LLaVA-OneVision: Easy Visual Task Transfer

Abstract

Support