ChatPaper.aiChatPaper

LEOPARD: Un modello di linguaggio visivo per compiti multi-immagine ricchi di testo

LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

October 2, 2024
Autori: Mengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
cs.AI

Abstract

Le immagini ricche di testo, in cui il testo funge da elemento visivo centrale guidando la comprensione complessiva, sono diffuse nelle applicazioni del mondo reale, come diapositive di presentazioni, documenti scannerizzati e istantanee di pagine web. I compiti che coinvolgono più immagini ricche di testo sono particolarmente impegnativi, poiché richiedono non solo la comprensione del contenuto delle singole immagini, ma anche il ragionamento sulle interrelazioni e i flussi logici tra più input visivi. Nonostante l'importanza di questi scenari, attuali modelli di linguaggio multimodali di grandi dimensioni (MLLMs) faticano a gestire tali compiti a causa di due sfide chiave: (1) la scarsità di set di dati di sintonizzazione delle istruzioni di alta qualità per scenari multi-immagine ricche di testo e (2) la difficoltà nel bilanciare la risoluzione dell'immagine con la lunghezza della sequenza delle caratteristiche visive. Per affrontare queste sfide, proponiamo \OurMethod, un MLLM progettato specificamente per gestire compiti di visione-linguaggio che coinvolgono più immagini ricche di testo. In primo luogo, abbiamo selezionato circa un milione di dati di sintonizzazione delle istruzioni multimodali di alta qualità, adattati a scenari multi-immagine ricche di testo. In secondo luogo, abbiamo sviluppato un modulo di codifica multi-immagine ad alta risoluzione adattivo per ottimizzare dinamicamente l'allocazione della lunghezza della sequenza visiva in base ai rapporti di aspetto originali e alle risoluzioni delle immagini di input. Gli esperimenti su un'ampia gamma di benchmark dimostrano le capacità superiori del nostro modello nelle valutazioni multi-immagine ricche di testo e le prestazioni competitive nelle valutazioni di dominio generale.
English
Text-rich images, where text serves as the central visual element guiding the overall understanding, are prevalent in real-world applications, such as presentation slides, scanned documents, and webpage snapshots. Tasks involving multiple text-rich images are especially challenging, as they require not only understanding the content of individual images but reasoning about inter-relationships and logical flows across multiple visual inputs. Despite the importance of these scenarios, current multimodal large language models (MLLMs) struggle to handle such tasks due to two key challenges: (1) the scarcity of high-quality instruction tuning datasets for text-rich multi-image scenarios, and (2) the difficulty in balancing image resolution with visual feature sequence length. To address these challenges, we propose \OurMethod, a MLLM designed specifically for handling vision-language tasks involving multiple text-rich images. First, we curated about one million high-quality multimodal instruction-tuning data, tailored to text-rich, multi-image scenarios. Second, we developed an adaptive high-resolution multi-image encoding module to dynamically optimize the allocation of visual sequence length based on the original aspect ratios and resolutions of the input images. Experiments across a wide range of benchmarks demonstrate our model's superior capabilities in text-rich, multi-image evaluations and competitive performance in general domain evaluations.
PDF265November 16, 2024