Verbetering van Multi-Beeldbegrip door Schaling van Scheidingstokens
Enhancing Multi-Image Understanding through Delimiter Token Scaling
February 2, 2026
Auteurs: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe
cs.AI
Samenvatting
Grote Vision-Language Modellen (LVLMs) leveren sterke prestaties bij taken met één afbeelding, maar hun prestaties gaan achteruit wanneer meerdere afbeeldingen als invoer worden gegeven. Een belangrijke reden is het lekken van informatie tussen afbeeldingen, waarbij het model moeite heeft om informatie van verschillende afbeeldingen te onderscheiden. Bestaande LVLMs gebruiken al scheidingstokens om het begin en einde van elke afbeelding aan te geven, maar onze analyse toont aan dat deze tokens er niet effectief in slagen om het lekken van informatie tussen afbeeldingen tegen te gaan. Om hun effectiviteit te vergroten, stellen we een methode voor die de verborgen toestanden van de scheidingstokens schaalt. Dit versterkt het vermogen van het model om afbeeldingsspecifieke informatie te behouden door de interactie binnen afbeeldingen te versterken en ongewenste interacties tussen afbeeldingen te beperken. Hierdoor is het model beter in staat om onderscheid te maken tussen afbeeldingen en er nauwkeuriger over te redeneren. Experimenten tonen prestatieverbeteringen aan op benchmarks met meerdere afbeeldingen, zoals Mantis, MuirBench, MIRB en QBench2. We evalueren onze methode verder op taken met alleen tekst die een duidelijk onderscheid vereisen. De methode verbetert de prestaties op benchmarks voor het begrijpen van meerdere documenten en tabellen, waaronder TQABench, MultiNews en WCEP-10. Opmerkelijk is dat onze methode geen extra trainings- of inferentiekosten met zich meebrengt.
English
Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.