PaliGemma:転移学習のための汎用3B VLMPaliGemma: A versatile 3B VLM for transfer
PaliGemmaは、SigLIP-So400mビジョンエンコーダとGemma-2B言語モデルを基盤としたオープンなVision-Language Model(VLM)です。このモデルは、汎用性が高く幅広い知識を持つベースモデルとして訓練されており、転移学習に効果的です。PaliGemmaは、多様なオープンワールドタスクにおいて優れた性能を発揮します。私たちは、標準的なVLMベンチマークに加え、リモートセンシングやセグメンテーションなどより専門的なタスクを含む、約40種類の多様なタスクでPaliGemmaを評価しました。