GDCNet: 멀티모달 비꼼 감지를 위한 생성적 불일치 비교 네트워크
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
저자: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
초록
다중모드 비꼼 감지(MSD)는 다양한 모드 간의 의미론적 불일치를 모델링하여 이미지-텍스트 쌍 내에서 비꼼을 식별하는 것을 목표로 합니다. 기존 방법들은 모드 간 임베딩 불일치를 활용하여 비일관성을 탐지하지만, 시각적 및 텍스트적 내용이 느슨하게 연관되거나 의미론적으로 간접적인 경우에는 어려움을 겪습니다. 최근 접근법들은 대규모 언어 모델(LLM)을 활용하여 비꼼 신호를 생성하지만, 이러한 생성물의 내재적 다양성과 주관성은 종종 노이즈를 유입시킵니다. 이러한 한계를 해결하기 위해 우리는 생성적 불일치 비교 네트워크(GDCNet)를 제안합니다. 이 프레임워크는 다중모드 LLM(MLLM)에 의해 생성된 사실에 기반한 객관적 이미지 설명을 안정적인 의미론적 정착점으로 활용하여 모드 간 충돌을 포착합니다. 구체적으로, GDCNet은 생성된 객관적 설명과 원본 텍스트 간의 의미론적 및 감정적 불일치를 계산함과 동시에 시각-텍스트 정확도를 측정합니다. 이러한 불일치 특징들은 게이트 모듈을 통해 시각적 및 텍스트적 표현과 융합되어 모달리티 기여도를 적응적으로 균형 잡습니다. MSD 벤치마크에 대한 광범위한 실험을 통해 GDCNet이 우수한 정확도와 강건성을 보여주며, MMSD2.0 벤치마크에서 새로운 최첨단 성능을确立함을 입증했습니다.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.