ELV-Halluc: 장기 비디오 이해에서의 의미적 집합 환각 현상 벤치마킹
ELV-Halluc: Benchmarking Semantic Aggregation Hallucinations in Long Video Understanding
August 29, 2025
저자: Hao Lu, Jiahao Wang, Yaolun Zhang, Ruohui Wang, Xuanyu Zheng, Yepeng Tang, Dahua Lin, Lewei Lu
cs.AI
초록
비디오 멀티모달 대형 언어 모델(Video-MLLMs)은 비디오 이해 분야에서 놀라운 진전을 이루어냈습니다. 그러나 이러한 모델들은 여전히 비디오 입력과 일치하지 않거나 관련 없는 내용을 생성하는 환각(hallucination)에 취약합니다. 기존의 비디오 환각 벤치마크는 주로 짧은 비디오에 초점을 맞추고 있으며, 환각의 원인을 강력한 언어 사전 지식, 누락된 프레임, 또는 시각 인코더에 의해 도입된 시각-언어 편향과 같은 요인들로 귀결짓습니다. 이러한 원인들이 짧은 비디오에서 발생하는 대부분의 환각을 설명하긴 하지만, 여전히 환각의 원인을 지나치게 단순화하고 있습니다. 때로는 모델이 잘못된 출력을 생성하지만 프레임 수준의 의미는 정확한 경우가 있습니다. 우리는 이러한 유형의 환각을 의미 집계 환각(Semantic Aggregation Hallucination, SAH)이라고 부르며, 이는 프레임 수준의 의미를 이벤트 수준의 의미 그룹으로 집계하는 과정에서 발생합니다. SAH는 긴 비디오에서 여러 이벤트에 걸친 의미적 복잡성이 증가함에 따라 특히 중요해지므로, 이러한 유형의 환각의 원인을 분리하고 철저히 조사하는 것이 필수적입니다. 이러한 문제를 해결하기 위해, 우리는 긴 비디오 환각에 전념한 첫 번째 벤치마크인 ELV-Halluc를 소개하여 SAH에 대한 체계적인 연구를 가능하게 합니다. 우리의 실험은 SAH의 존재를 확인하고, 이가 의미적 복잡성과 함께 증가함을 보여줍니다. 또한, 모델이 빠르게 변화하는 의미에 대해 SAH에 더 취약하다는 것을 발견했습니다. 더 나아가, SAH를 완화하기 위한 잠재적인 접근 방식을 논의합니다. 우리는 위치 인코딩 전략이 SAH 완화에 기여함을 입증하고, DPO 전략을 추가적으로 도입하여 모델이 이벤트 내 및 이벤트 간 의미를 구분하는 능력을 향상시킵니다. 이를 지원하기 위해, 우리는 8K개의 적대적 데이터 쌍으로 구성된 데이터셋을 구축하고, ELV-Halluc와 Video-MME 모두에서 개선을 달성했으며, SAH 비율을 27.7% 크게 감소시켰습니다.
English
Video multimodal large language models (Video-MLLMs) have achieved remarkable
progress in video understanding. However, they remain vulnerable to
hallucination-producing content inconsistent with or unrelated to video inputs.
Previous video hallucination benchmarks primarily focus on short-videos. They
attribute hallucinations to factors such as strong language priors, missing
frames, or vision-language biases introduced by the visual encoder. While these
causes indeed account for most hallucinations in short videos, they still
oversimplify the cause of hallucinations. Sometimes, models generate incorrect
outputs but with correct frame-level semantics. We refer to this type of
hallucination as Semantic Aggregation Hallucination (SAH), which arises during
the process of aggregating frame-level semantics into event-level semantic
groups. Given that SAH becomes particularly critical in long videos due to
increased semantic complexity across multiple events, it is essential to
separate and thoroughly investigate the causes of this type of hallucination.
To address the above issues, we introduce ELV-Halluc, the first benchmark
dedicated to long-video hallucination, enabling a systematic investigation of
SAH. Our experiments confirm the existence of SAH and show that it increases
with semantic complexity. Additionally, we find that models are more prone to
SAH on rapidly changing semantics. Moreover, we discuss potential approaches to
mitigate SAH. We demonstrate that positional encoding strategy contributes to
alleviating SAH, and further adopt DPO strategy to enhance the model's ability
to distinguish semantics within and across events. To support this, we curate a
dataset of 8K adversarial data pairs and achieve improvements on both
ELV-Halluc and Video-MME, including a substantial 27.7% reduction in SAH ratio.