PaliGemma 2: Семейство универсальных VLM для передачиPaliGemma 2: A Family of Versatile VLMs for Transfer
PaliGemma 2 является улучшением открытой модели Vision-Language Model (VLM) PaliGemma на основе семейства языковых моделей Gemma 2. Мы комбинируем видео-кодер SigLIP-So400m, который также использовался в PaliGemma, со всем спектром моделей Gemma 2, начиная с модели 2B и заканчивая моделью 27B. Мы обучаем эти модели на трех разрешениях (224px, 448px и 896px) на нескольких этапах, чтобы оснастить их обширными знаниями для передачи через тонкую настройку. Результирующее семейство базовых моделей, охватывающее различные размеры моделей и разрешения, позволяет нам исследовать факторы, влияющие на производительность передачи (такие как скорость обучения) и анализировать взаимодействие между типом задачи, размером модели и разрешением. Мы дополнительно увеличиваем количество и широту задач передачи за пределами области PaliGemma, включая различные задачи, связанные с OCR, такие как распознавание структуры таблиц, распознавание молекулярной структуры, распознавание музыкальных нот, а также длинное детализированное подписывание и генерацию радиологических отчетов, на которых PaliGemma 2 достигает передовых результатов.