구분자 토큰 스케일링을 통한 다중 이미지 이해 향상
Enhancing Multi-Image Understanding through Delimiter Token Scaling
February 2, 2026
저자: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe
cs.AI
초록
대규모 시각-언어 모델(LVLM)은 단일 이미지 작업에서 강력한 성능을 보이지만, 다중 이미지가 입력으로 제공될 경우 성능이 저하됩니다. 주요 원인 중 하나는 교차 이미지 정보 누출로, 모델이 서로 다른 이미지 간 정보를 구분하는 데 어려움을 겪기 때문입니다. 기존 LVLM은 이미 각 이미지의 시작과 끝을 표시하는 구분자 토큰을 사용하고 있으나, 우리의 분석 결과 이러한 토큰들이 교차 이미지 정보 누출을 효과적으로 차단하지 못하는 것으로 나타났습니다. 이들의 효과를 향상시키기 위해 우리는 구분자 토큰의 은닉 상태를 스케일링하는 방법을 제안합니다. 이는 이미지 내 상호작용을 강화하고 원치 않는 이미지 간 상호작용을 제한함으로써 모델의 이미지별 정보 보존 능력을 증대시킵니다. 그 결과 모델은 이미지 간 구별을 더 잘 수행하고 더 정확하게 추론할 수 있게 됩니다. 실험 결과 Mantis, MuirBench, MIRB, QBench2와 같은 다중 이미지 벤치마크에서 성능 향상을 확인했습니다. 또한 우리는 명확한 구분이 필요한 텍스트 전용 작업에 대해서도 본 방법을 평가했습니다. 이 방법은 TQABench, MultiNews, WCEP-10을 포함한 다중 문서 및 다중 테이블 이해 벤치마크에서 성능을 개선했습니다. 특히 우리의 방법은 추가적인 학습 또는 추론 비용이 필요하지 않습니다.
English
Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.