PaliGemma 2: 転移向けの多目的VLMファミリPaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2は、Gemma 2ファミリーの言語モデルに基づいたPaliGemmaオープンビジョン言語モデル(VLM)のアップグレードです。PaliGemmaで使用されたSigLIP-So400mビジョンエンコーダーを、2Bから27BモデルまでのGemma 2モデル全体と組み合わせています。これらのモデルを224px、448px、896pxの3つの解像度で複数段階でトレーニングし、ファインチューニングを介して広範な知識を装備します。異なるモデルサイズと解像度をカバーするベースモデルファミリーが生まれ、転移パフォーマンスに影響を与える要因(学習率など)や、タスクの種類、モデルサイズ、解像度の相互作用を分析することが可能です。PaliGemmaを超える転移タスクの数と幅をさらに拡大し、テーブル構造認識、分子構造認識、楽譜認識、詳細なキャプション付け、放射線画像報告書生成などの異なるOCR関連タスクを含み、PaliGemma 2が最先端の結果を達成しています。