LLaVA-OneVision: Transferencia Sencilla de Tareas Visuales

Resumen

Presentamos LLaVA-OneVision, una familia de modelos grandes multimodales abiertos (LMMs) desarrollados consolidando nuestras ideas sobre datos, modelos y representaciones visuales en la serie de blogs LLaVA-NeXT. Nuestros resultados experimentales demuestran que LLaVA-OneVision es el primer modelo único que puede empujar simultáneamente los límites de rendimiento de LMMs abiertos en tres escenarios importantes de visión por computadora: escenarios de imagen única, multiimagen y video. Es importante destacar que el diseño de LLaVA-OneVision permite un fuerte aprendizaje por transferencia entre diferentes modalidades/escenarios, generando nuevas capacidades emergentes. En particular, se demuestran una sólida comprensión de video y capacidades de transferencia de tarea de imágenes a videos.

English

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

LLaVA-OneVision: Transferencia Sencilla de Tareas Visuales

LLaVA-OneVision: Easy Visual Task Transfer

Resumen

Support