ChatPaper.aiChatPaper

OpenVision 2: 멀티모달 학습을 위한 생성적 사전 학습 시각 인코더 패밀리

OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

September 1, 2025
저자: Yanqing Liu, Xianhang Li, Letian Zhang, Zirui Wang, Zeyu Zheng, Yuyin Zhou, Cihang Xie
cs.AI

초록

본 논문은 OpenVision의 아키텍처와 손실 함수 설계를 단순화하여 훈련 효율성을 향상시키는 방법을 제시합니다. CapPa와 AIMv2와 같은 기존의 시각-언어 사전 훈련 연구 및 LLaVA와 같은 현대적 다중모달 설계를 따르며, 우리의 변경 사항은 직관적입니다: 텍스트 인코더(따라서 대조 손실)를 제거하고 순수 생성적 훈련 신호로서 캡셔닝 손실만을 유지합니다. 이 새로운 버전을 OpenVision 2로 명명했습니다. 초기 결과는 고무적입니다: 이러한 단순화에도 불구하고, OpenVision 2는 광범위한 다중모달 벤치마크에서 원본 모델의 성능을 경쟁적으로 따라가면서 훈련 시간과 메모리 소비를 상당히 절감합니다. 예를 들어, ViT-L/14를 사용할 때 훈련 시간을 약 1.5배(83시간에서 57시간으로) 단축하고, 메모리 사용량을 약 1.8배(24.5GB에서 13.8GB로, 이는 최대 배치 크기를 2k에서 8k로 증가시킬 수 있음을 의미합니다) 줄였습니다. 이 우수한 훈련 효율성은 OpenVision에서 사용된 가장 큰 시각 인코더를 훨씬 넘어서 10억 개 이상의 파라미터에 도달할 수 있게 합니다. 우리는 이 경량화된, 순수 생성적 패러다임이 다중모달 기반 모델에서의 미래 시각 인코더 개발에 있어 매우 매력적이라고 강하게 믿습니다.
English
This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
PDF231September 3, 2025