Улучшение анализа множественных изображений за счёт масштабирования разделительных токенов

Аннотация

Крупные визуально-языковые модели (LVLM) демонстрируют высокую производительность при работе с одиночными изображениями, но их эффективность снижается, когда на вход подается несколько изображений. Одной из основных причин является утечка информации между изображениями, когда модель не может адекватно разграничить информацию, относящуюся к разным изображениям. Существующие LVLM уже используют токены-разделители для обозначения начала и конца каждого изображения, однако наш анализ показывает, что эти токены не способны эффективно блокировать межизображенческую утечку информации. Для повышения их эффективности мы предлагаем метод масштабирования скрытых состояний токенов-разделителей. Это усиливает способность модели сохранять информацию, специфичную для каждого изображения, за счет усиления внутриизображенческого взаимодействия и ограничения нежелательных межизображенческих взаимодействий. В результате модель лучше различает изображения и точнее над ними рассуждает. Эксперименты показывают рост производительности на мультиизображенческих бенчмарках, таких как Mantis, MuirBench, MIRB и QBench2. Мы также оценили наш метод на чисто текстовых задачах, требующих четкого разграничения. Метод улучшает производительность на бенчмарках для понимания множественных документов и таблиц, включая TQABench, MultiNews и WCEP-10. Примечательно, что наш метод не требует дополнительных затрат на обучение или вывод.

English

Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.

Улучшение анализа множественных изображений за счёт масштабирования разделительных токенов

Enhancing Multi-Image Understanding through Delimiter Token Scaling

Аннотация

Support