PaLI-X: Sull'ingrandimento di un modello multilingue per la visione e il linguaggio

Abstract

Presentiamo la ricetta di addestramento e i risultati del potenziamento di PaLI-X, un modello multilingue per la visione e il linguaggio, sia in termini di dimensioni dei componenti che di ampiezza della miscela di compiti di addestramento. Il nostro modello raggiunge nuovi livelli di prestazione su un'ampia gamma di compiti vari e complessi, tra cui attività di descrizione e risposta a domande basate su immagini, comprensione di documenti basati su immagini e apprendimento few-shot (in-context), nonché rilevamento di oggetti, risposta a domande su video e descrizione di video. PaLI-X avanza lo stato dell'arte nella maggior parte dei benchmark considerati per la visione e il linguaggio (oltre 25). Infine, osserviamo capacità emergenti, come il conteggio complesso e il rilevamento multilingue di oggetti, compiti che non sono esplicitamente presenti nella miscela di addestramento.

English

We present the training recipe and results of scaling up PaLI-X, a multilingual vision and language model, both in terms of size of the components and the breadth of its training task mixture. Our model achieves new levels of performance on a wide-range of varied and complex tasks, including multiple image-based captioning and question-answering tasks, image-based document understanding and few-shot (in-context) learning, as well as object detection, video question answering, and video captioning. PaLI-X advances the state-of-the-art on most vision-and-language benchmarks considered (25+ of them). Finally, we observe emerging capabilities, such as complex counting and multilingual object detection, tasks that are not explicitly in the training mix.

PaLI-X: Sull'ingrandimento di un modello multilingue per la visione e il linguaggio

PaLI-X: On Scaling up a Multilingual Vision and Language Model

Abstract

Support