LLaVA-OneVision: Transferencia Sencilla de Tareas Visuales
LLaVA-OneVision: Easy Visual Task Transfer
August 6, 2024
Autores: Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li
cs.AI
Resumen
Presentamos LLaVA-OneVision, una familia de modelos grandes multimodales abiertos (LMMs) desarrollados consolidando nuestras ideas sobre datos, modelos y representaciones visuales en la serie de blogs LLaVA-NeXT. Nuestros resultados experimentales demuestran que LLaVA-OneVision es el primer modelo único que puede empujar simultáneamente los límites de rendimiento de LMMs abiertos en tres escenarios importantes de visión por computadora: escenarios de imagen única, multiimagen y video. Es importante destacar que el diseño de LLaVA-OneVision permite un fuerte aprendizaje por transferencia entre diferentes modalidades/escenarios, generando nuevas capacidades emergentes. En particular, se demuestran una sólida comprensión de video y capacidades de transferencia de tarea de imágenes a videos.
English
We present LLaVA-OneVision, a family of open large multimodal models (LMMs)
developed by consolidating our insights into data, models, and visual
representations in the LLaVA-NeXT blog series. Our experimental results
demonstrate that LLaVA-OneVision is the first single model that can
simultaneously push the performance boundaries of open LMMs in three important
computer vision scenarios: single-image, multi-image, and video scenarios.
Importantly, the design of LLaVA-OneVision allows strong transfer learning
across different modalities/scenarios, yielding new emerging capabilities. In
particular, strong video understanding and cross-scenario capabilities are
demonstrated through task transfer from images to videos.Summary
AI-Generated Summary