ChatPaper.aiChatPaper

Modelos de Linguagem Visual PaLI-3: Menores, Mais Rápidos, Mais Poderosos

PaLI-3 Vision Language Models: Smaller, Faster, Stronger

October 13, 2023
Autores: Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut
cs.AI

Resumo

Este artigo apresenta o PaLI-3, um modelo de linguagem visual (VLM) menor, mais rápido e mais robusto que se compara favoravelmente a modelos semelhantes que são 10 vezes maiores. Como parte do processo para alcançar esse desempenho superior, comparamos modelos Vision Transformer (ViT) pré-treinados usando objetivos de classificação com aqueles pré-treinados de forma contrastiva (SigLIP). Descobrimos que, embora apresente um desempenho ligeiramente inferior em benchmarks padrão de classificação de imagens, o PaLI baseado em SigLIP demonstra desempenho superior em vários benchmarks multimodais, especialmente em localização e compreensão de texto visualmente contextualizado. Escalamos o codificador de imagens SigLIP para até 2 bilhões de parâmetros e alcançamos um novo estado da arte em recuperação cruzada multimodal multilingue. Esperamos que o PaLI-3, com apenas 5 bilhões de parâmetros, reacenda a pesquisa sobre componentes fundamentais de VLMs complexos e possa impulsionar uma nova geração de modelos em escala ampliada.
English
This paper presents PaLI-3, a smaller, faster, and stronger vision language model (VLM) that compares favorably to similar models that are 10x larger. As part of arriving at this strong performance, we compare Vision Transformer (ViT) models pretrained using classification objectives to contrastively (SigLIP) pretrained ones. We find that, while slightly underperforming on standard image classification benchmarks, SigLIP-based PaLI shows superior performance across various multimodal benchmarks, especially on localization and visually-situated text understanding. We scale the SigLIP image encoder up to 2 billion parameters, and achieves a new state-of-the-art on multilingual cross-modal retrieval. We hope that PaLI-3, at only 5B parameters, rekindles research on fundamental pieces of complex VLMs, and could fuel a new generation of scaled-up models.
PDF294December 14, 2025