PaliGemma: Ein vielseitiger 3B VLM für TransferPaliGemma: A versatile 3B VLM for transfer
PaliGemma ist ein offenes Vision-Language Model (VLM), das auf dem SigLIP-So400m Vision-Encoder und dem Gemma-2B Sprachmodell basiert. Es wurde darauf trainiert, ein vielseitiges und breit informiertes Basismodell zu sein, das effektiv übertragen werden kann. Es erzielt starke Leistungen bei einer Vielzahl von Open-World-Aufgaben. Wir evaluieren PaliGemma an fast 40 verschiedenen Aufgaben, darunter Standard-VLM-Benchmarks, aber auch spezialisiertere Aufgaben wie Fernerkundung und Segmentierung.