PaliGemma 2: 이동을 위한 다재다능한 VLM 계열PaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2는 Gemma 2 패밀리의 언어 모델을 기반으로 한 PaliGemma 오픈 비전-언어 모델 (VLM)의 업그레이드입니다. 우리는 PaliGemma에서 사용된 SigLIP-So400m 비전 인코더를 Gemma 2의 전 범위 모델, 2B부터 27B 모델까지 결합합니다. 이러한 모델들을 224px, 448px, 896px의 세 가지 해상도에서 다단계로 훈련하여 이식을 통해 넓은 지식을 갖추게 합니다. 서로 다른 모델 크기와 해상도를 다루는 기본 모델 패밀리는 이식 성능에 영향을 미치는 요소 (학습률과 같은) 및 작업 유형, 모델 크기, 해상도 간의 상호 작용을 분석할 수 있도록 합니다. 우리는 PaliGemma의 범위를 넘어서 다양한 OCR 관련 작업 (테이블 구조 인식, 분자 구조 인식, 악보 인식 및 세밀한 캡션 및 방사선 영상 보고서 생성)을 포함한 이식 작업의 수와 범위를 더욱 증가시킵니다. PaliGemma 2는 이러한 작업에서 최첨단 결과를 얻습니다.