PaLI-X: Sobre a Escalabilidade de um Modelo Multilíngue de Visão e Linguagem

Resumo

Apresentamos a metodologia de treinamento e os resultados da ampliação do PaLI-X, um modelo multimodal de visão e linguagem, tanto em termos do tamanho dos componentes quanto da abrangência da mistura de tarefas de treinamento. Nosso modelo alcança novos patamares de desempenho em uma ampla gama de tarefas variadas e complexas, incluindo múltiplas tarefas de geração de legendas e questionamento baseadas em imagens, compreensão de documentos baseados em imagens e aprendizado few-shot (em contexto), além de detecção de objetos, questionamento sobre vídeos e geração de legendas para vídeos. O PaLI-X avança o estado da arte na maioria dos benchmarks de visão e linguagem considerados (mais de 25). Por fim, observamos capacidades emergentes, como contagem complexa e detecção de objetos multilingue, tarefas que não estão explicitamente na mistura de treinamento.

English

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of varied and complex tasks, including multiple image-based captioning and question-answering tasks, image-based document understanding and few-shot (in-context) learning, as well as object detection, video question answering, and video captioning. PaLI-X advances the state-of-the-art on most vision-and-language benchmarks considered (25+ of them). Finally, we observe emerging capabilities, such as complex counting and multilingual object detection, tasks that are not explicitly in the training mix.

PaLI-X: Sobre a Escalabilidade de um Modelo Multilíngue de Visão e Linguagem

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Resumo

Support