PaliGemma: Универсальная 3B VLM для передачиPaliGemma: A versatile 3B VLM for transfer
PaliGemma - это открытая модель видео-языка (VLM), основанная на визионном кодировщике SigLIP-So400m и языковой модели Gemma-2B. Она обучена быть универсальной и широко осведомленной базовой моделью, которая эффективна для передачи знаний. Она демонстрирует высокую производительность на широком спектре задач в открытом мире. Мы оцениваем PaliGemma на почти 40 разнообразных задачах, включая стандартные бенчмарки VLM, а также более специализированные задачи, такие как дистанционное зондирование и сегментация.