Amélioration de la compréhension multi-images par mise à l'échelle des tokens délimiteurs

Résumé

Les grands modèles de vision et de langage (LVLM) obtiennent de bonnes performances sur les tâches à image unique, mais leurs résultats déclinent lorsqu’on leur fournit plusieurs images en entrée. Une raison majeure est la fuite d’information inter-images, où le modèle peine à distinguer les informations provenant de différentes images. Les LVLM existants utilisent déjà des tokens délimiteurs pour marquer le début et la fin de chaque image, mais notre analyse révèle que ces tokens ne parviennent pas à bloquer efficacement cette fuite. Pour renforcer leur efficacité, nous proposons une méthode qui met à l’échelle les états cachés des tokens délimiteurs. Cela améliore la capacité du modèle à préserver les informations spécifiques à chaque image en renforçant les interactions intra-image et en limitant les interactions inter-images indésirables. Par conséquent, le modèle distingue mieux les images et raisonne plus précisément sur celles-ci. Les expériences montrent des gains de performance sur des benchmarks multi-images tels que Mantis, MuirBench, MIRB et QBench2. Nous évaluons également notre méthode sur des tâches purement textuelles nécessitant une distinction claire. La méthode améliore les performances sur des benchmarks de compréhension multi-documents et multi-tableaux, incluant TQABench, MultiNews et WCEP-10. Fait notable, notre méthode ne nécessite aucun coût supplémentaire d’entraînement ou d’inférence.

English

Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.

Amélioration de la compréhension multi-images par mise à l'échelle des tokens délimiteurs

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Résumé

Support