Miglioramento della Comprensione Multi-Immagine attraverso il Ridimensionamento dei Token Delimitatore
Enhancing Multi-Image Understanding through Delimiter Token Scaling
February 2, 2026
Autori: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe
cs.AI
Abstract
I grandi modelli visione-linguaggio (LVLM) ottengono prestazioni solide su compiti con singola immagine, ma le loro prestazioni decadono quando vengono fornite più immagini in input. Una ragione principale è la dispersione di informazioni tra immagini, dove il modello fatica a distinguere le informazioni tra le diverse immagini. I LVLM esistenti utilizzano già token delimitatori per segnare l'inizio e la fine di ogni immagine, eppure la nostra analisi rivela che questi token non riescono a bloccare efficacemente la dispersione di informazioni tra immagini. Per migliorarne l'efficacia, proponiamo un metodo che scala gli stati nascosti dei token delimitatori. Ciò potenzia la capacità del modello di preservare le informazioni specifiche per immagine rinforzando l'interazione intra-immagine e limitando le indesiderate interazioni tra immagini. Di conseguenza, il modello è in grado di distinguere meglio tra le immagini e di ragionare su di esse in modo più accurato. Gli esperimenti mostrano miglioramenti prestazionali su benchmark multi-immagine come Mantis, MuirBench, MIRB e QBench2. Valutiamo ulteriormente il nostro metodo su compiti esclusivamente testuali che richiedono una chiara distinzione. Il metodo migliora le prestazioni su benchmark di comprensione multi-documento e multi-tabella, inclusi TQABench, MultiNews e WCEP-10. Notevolmente, il nostro metodo non richiede costi addizionali di addestramento o inferenza.
English
Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.