ChatPaper.aiChatPaper

LLaVA-OneVision: Transferência Fácil de Tarefas Visuais

LLaVA-OneVision: Easy Visual Task Transfer

August 6, 2024
Autores: Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li
cs.AI

Resumo

Apresentamos LLaVA-OneVision, uma família de modelos grandes multimodais abertos (LMMs) desenvolvidos consolidando nossas percepções sobre dados, modelos e representações visuais na série de blogs LLaVA-NeXT. Nossos resultados experimentais demonstram que LLaVA-OneVision é o primeiro modelo único que pode simultaneamente impulsionar os limites de desempenho dos LMMs abertos em três cenários importantes de visão computacional: cenários de imagem única, múltiplas imagens e vídeo. Importante ressaltar que o design do LLaVA-OneVision permite uma forte transferência de aprendizado entre diferentes modalidades/cenários, resultando em novas capacidades emergentes. Em particular, uma forte compreensão de vídeo e capacidades de transferência entre cenários são demonstradas através da transferência de tarefas de imagens para vídeos.
English
We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

Summary

AI-Generated Summary

PDF612November 28, 2024