Verbesserung des Verständnisses multipler Bilder durch Skalierung von Trennzeichen-Tokens

Zusammenfassung

Große Vision-Sprach-Modelle (LVLMs) erzielen starke Leistungen bei Einzelbild-Aufgaben, doch ihre Leistung lässt nach, wenn mehrere Bilder als Eingabe bereitgestellt werden. Ein Hauptgrund ist die übergreifende Informationsweitergabe zwischen den Bildern, bei der das Modell Schwierigkeiten hat, Informationen über verschiedene Bilder hinweg zu unterscheiden. Bestehende LVLMs verwenden bereits Trennzeichen-Tokens, um den Beginn und das Ende jedes Bildes zu markieren, doch unsere Analyse zeigt, dass diese Tokens nicht effektiv verhindern können, dass Informationen zwischen den Bildern durchsickern. Um ihre Wirksamkeit zu steigern, schlagen wir eine Methode vor, die die verborgenen Zustände der Trennzeichen-Tokens skaliert. Dies verstärkt die Fähigkeit des Modells, bildspezifische Informationen zu bewahren, indem die Interaktion innerhalb eines Bildes gestärkt und unerwünschte übergreifende Interaktionen eingeschränkt werden. Folglich kann das Modell Bilder besser unterscheiden und genauer über sie schlussfolgern. Experimente zeigen Leistungssteigerungen bei Multi-Image-Benchmarks wie Mantis, MuirBench, MIRB und QBench2. Wir evaluieren unsere Methode weiterhin an reinen Textaufgaben, die eine klare Unterscheidung erfordern. Die Methode verbessert die Leistung bei Benchmarks für das Verständnis mehrerer Dokumente und Tabellen, einschließlich TQABench, MultiNews und WCEP-10. Bemerkenswerterweise erfordert unsere Methode keine zusätzlichen Trainings- oder Inferenzkosten.

English

Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.

Verbesserung des Verständnisses multipler Bilder durch Skalierung von Trennzeichen-Tokens

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Zusammenfassung

Support