InternVL3: 오픈소스 멀티모달 모델을 위한 고급 학습 및 테스트 시점 기법 탐구InternVL3: Exploring Advanced Training and Test-Time Recipes for
Open-Source Multimodal Models
우리는 원천적인 멀티모달 사전 학습 패러다임을 특징으로 하는 InternVL 시리즈의 중요한 진보인 InternVL3를 소개한다. 텍스트 전용 대형 언어 모델(LLM)을 시각적 입력을 지원하는 멀티모달 대형 언어 모델(MLLM)로 적응시키는 대신, InternVL3는 단일 사전 학습 단계에서 다양한 멀티모달 데이터와 순수 텍스트 코퍼스로부터 멀티모달 및 언어적 능력을 공동으로 획득한다. 이 통합된 학습 패러다임은 기존의 MLLM을 위한 사후 학습 파이프라인에서 흔히 발생하는 복잡성과 정렬 문제를 효과적으로 해결한다. 성능과 확장성을 더욱 개선하기 위해, InternVL3는 확장된 멀티모달 컨텍스트를 지원하기 위한 가변 시각적 위치 인코딩(V2PE)을 도입하고, 지도 미세 조정(SFT) 및 혼합 선호 최적화(MPO)와 같은 고급 사후 학습 기법을 활용하며, 테스트 시 스케일링 전략과 최적화된 학습 인프라를 채택한다. 광범위한 실험적 평가를 통해 InternVL3가 다양한 멀티모달 작업에서 우수한 성능을 보여줌을 입증했다. 특히, InternVL3-78B는 MMMU 벤치마크에서 72.2점을 달성하여 오픈소스 MLLM 중 새로운 최첨단 기록을 세웠다. 이 모델의 능력은 ChatGPT-4o, Claude 3.5 Sonnet, Gemini 2.5 Pro와 같은 선도적인 독점 모델과도 매우 경쟁력이 있으며, 동시에 강력한 순수 언어 능력을 유지한다. 오픈 사이언스 원칙을 추구하며, 우리는 차세대 MLLM 연구 및 개발을 촉진하기 위해 학습 데이터와 모델 가중치를 공개할 예정이다.