오픈 소스 다중 모달 모델의 성능 경계 확장: 모델, 데이터 및 테스트 시간 스케일링을 통해Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling
우리는 InternVL 2.0을 기반으로 한 핵심 모델 구조를 유지하면서 교육 및 테스트 전략과 데이터 품질을 크게 향상시킨 첨단 다중 모달 대형 언어 모델 (MLLM) 시리즈인 InternVL 2.5를 소개합니다. 본 연구에서는 모델 확장과 성능 사이의 관계에 대해 탐구하며, 시각 인코더, 언어 모델, 데이터셋 크기 및 테스트 시 구성에서 성능 트렌드를 체계적으로 탐색합니다. 다중 학문적 추론, 문서 이해, 다중 이미지/비디오 이해, 현실 이해, 다중 모달 환각 감지, 시각 기준, 다국어 능력 및 순수 언어 처리를 포함한 다양한 벤치마크에서의 포괄적인 평가를 통해 InternVL 2.5는 GPT-4o 및 Claude-3.5-Sonnet과 같은 주요 상용 모델과 경쟁력 있는 성능을 보여줍니다. 특히, 우리 모델은 MMMU 벤치마크에서 70%를 넘어서는 첫 번째 오픈 소스 MLLM으로, Chain-of-Thought (CoT) 추론을 통해 3.7포인트 향상을 달성하고 테스트 시 확장에 대한 강력한 잠재력을 보여줍니다. 이 모델이 다중 모달 AI 시스템을 개발하고 적용하는 새로운 기준을 설정함으로써 오픈 소스 커뮤니티에 기여할 것을 희망합니다. HuggingFace 데모는 https://huggingface.co/spaces/OpenGVLab/InternVL에서 확인하실 수 있습니다.