LLaVA-OneVision: Простой перенос визуальных задач

Аннотация

Мы представляем LLaVA-OneVision, семейство открытых крупных мультимодальных моделей (LMM), разработанных на основе наших исследований в области данных, моделей и визуальных представлений в серии блогов LLaVA-NeXT. Наши экспериментальные результаты демонстрируют, что LLaVA-OneVision является первой одиночной моделью, способной одновременно расширять границы производительности открытых LMM в трех важных сценариях компьютерного зрения: сценариях одиночного изображения, множественных изображений и видео. Важно, что концепция LLaVA-OneVision позволяет эффективное обучение с передачей знаний между различными модальностями/сценариями, что приводит к появлению новых возможностей. В частности, сильное понимание видео и возможности межсценарного обучения демонстрируются через передачу задач от изображений к видео.

English

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

LLaVA-OneVision: Простой перенос визуальных задач

LLaVA-OneVision: Easy Visual Task Transfer

Аннотация

Support