인코더 없는 비전-언어 모델의 공개
Unveiling Encoder-Free Vision-Language Models
June 17, 2024
저자: Haiwen Diao, Yufeng Cui, Xiaotong Li, Yueze Wang, Huchuan Lu, Xinlong Wang
cs.AI
초록
기존의 시각-언어 모델(VLMs)은 주로 시각 인코더를 사용하여 시각적 특징을 추출한 후, 대규모 언어 모델(LLMs)을 통해 시각-언어 작업을 수행합니다. 그러나 시각 인코더는 해상도, 종횡비, 의미론적 사전 지식과 같은 시각적 표현을 추상화하는 데 강한 귀납적 편향을 설정하여, VLMs의 유연성과 효율성을 저해할 수 있습니다. 시각 인코더 없이 시각과 언어 입력을 원활하게 받아들이는 순수 VLMs를 훈련하는 것은 여전히 어려운 과제이며, 거의 탐구되지 않았습니다. 실험적 관찰에 따르면, 인코더 없이 직접 훈련할 경우 수렴 속도가 느리고 성능 격차가 크게 발생합니다. 본 연구에서는 인코더 기반 모델과 인코더 없는 모델 간의 격차를 메우고, 순수 VLMs를 위한 간단하면서도 효과적인 훈련 방법을 제시합니다. 구체적으로, 철저한 실험을 통해 인코더 없는 VLMs를 효율적으로 훈련하는 핵심 요소를 밝혀냈습니다: (1) 하나의 통합 디코더 내에서 시각-언어 표현을 연결하고, (2) 추가 감독을 통해 시각 인식 능력을 강화합니다. 이러한 전략을 통해, 우리는 효율적으로 훈련 및 추론이 가능한 인코더 없는 시각-언어 모델인 EVE를 출시했습니다. 특히, 공개적으로 접근 가능한 35M 데이터만을 사용하여 EVE는 여러 시각-언어 벤치마크에서 유사한 용량의 인코더 기반 VLMs와 경쟁할 수 있는 인상적인 성능을 보여줍니다. 또한, EVE는 훈련 절차와 훈련 데이터가 공개되지 않은 Fuyu-8B를 크게 능가합니다. 우리는 EVE가 다양한 모달리티에 걸쳐 순수 디코더 전용 아키텍처를 개발하는 데 있어 투명하고 효율적인 경로를 제공한다고 믿습니다. 우리의 코드와 모델은 https://github.com/baaivision/EVE에서 공개되어 있습니다.
English
Existing vision-language models (VLMs) mostly rely on vision encoders to
extract visual features followed by large language models (LLMs) for
visual-language tasks. However, the vision encoders set a strong inductive bias
in abstracting visual representation, e.g., resolution, aspect ratio, and
semantic priors, which could impede the flexibility and efficiency of the VLMs.
Training pure VLMs that accept the seamless vision and language inputs, i.e.,
without vision encoders, remains challenging and rarely explored. Empirical
observations reveal that direct training without encoders results in slow
convergence and large performance gaps. In this work, we bridge the gap between
encoder-based and encoder-free models, and present a simple yet effective
training recipe towards pure VLMs. Specifically, we unveil the key aspects of
training encoder-free VLMs efficiently via thorough experiments: (1) Bridging
vision-language representation inside one unified decoder; (2) Enhancing visual
recognition capability via extra supervision. With these strategies, we launch
EVE, an encoder-free vision-language model that can be trained and forwarded
efficiently. Notably, solely utilizing 35M publicly accessible data, EVE can
impressively rival the encoder-based VLMs of similar capacities across multiple
vision-language benchmarks. It significantly outperforms the counterpart
Fuyu-8B with mysterious training procedures and undisclosed training data. We
believe that EVE provides a transparent and efficient route for developing a
pure decoder-only architecture across modalities. Our code and models are
publicly available at: https://github.com/baaivision/EVE.Summary
AI-Generated Summary