Aprimorando a Compreensão de Múltiplas Imagens por meio da Escalonamento de Tokens Delimitadores
Enhancing Multi-Image Understanding through Delimiter Token Scaling
February 2, 2026
Autores: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe
cs.AI
Resumo
Os Grandes Modelos de Visão e Linguagem (LVLMs) demonstram forte desempenho em tarefas de imagem única, mas o seu desempenho diminui quando múltiplas imagens são fornecidas como entrada. Uma das principais razões é o vazamento de informação entre imagens (*cross-image information leakage*), onde o modelo tem dificuldade em distinguir informações provenientes de diferentes imagens. Os LVLMs existentes já utilizam *tokens* delimitadores para marcar o início e o fim de cada imagem; no entanto, a nossa análise revela que estes *tokens* não conseguem bloquear eficazmente o vazamento de informação entre imagens. Para aumentar a sua eficácia, propomos um método que dimensiona os estados ocultos (*hidden states*) dos *tokens* delimitadores. Isto melhora a capacidade do modelo para preservar informação específica de cada imagem, reforçando a interação intra-imagem e limitando as interações indesejadas entre imagens. Consequentemente, o modelo consegue distinguir melhor entre as imagens e raciocinar sobre elas com maior precisão. Os resultados experimentais mostram ganhos de desempenho em *benchmarks* de múltiplas imagens, como o Mantis, MuirBench, MIRB e QBench2. Avaliámos ainda o nosso método em tarefas exclusivamente textuais que requerem uma distinção clara. O método melhora o desempenho em *benchmarks* de compreensão de múltiplos documentos e múltiplas tabelas, incluindo TQABench, MultiNews e WCEP-10. É de notar que o nosso método não requer custos adicionais de treino ou de inferência.
English
Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.