ChatPaper.aiChatPaper

GDCNet:マルチモーダル皮肉検出のための生成的差異比較ネットワーク

GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

January 28, 2026
著者: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI

要旨

マルチモーダル皮肉検出(MSD)は、画像とテキストのペア内における皮肉を、モダリティ間の意味論的不整合をモデル化することで識別することを目的とする。既存手法では、クロスモーダルな埋め込みの不整合を利用して矛盾を検出することが多いが、視覚的コンテンツとテキストコンテンツの関連性が弱い場合や意味的に間接的な場合には対応が困難である。近年のアプローチでは大規模言語モデル(LLM)を活用して皮肉の手がかりを生成するが、生成結果に内在する多様性と主観性により、ノイズが導入されやすい。これらの課題を解決するため、我々は生成的差異比較ネットワーク(GDCNet)を提案する。このフレームワークは、マルチモーダルLLM(MLLM)によって生成された、事実に基づいた記述的な画像キャプションを安定した意味的アンカーとして利用することで、モダリティ間の対立を捉える。具体的には、GDCNetは、生成された客観的記述と元のテキストとの間の意味的および感情的な差異を計算するとともに、視覚-テキスト間の忠実度を測定する。これらの差異特徴は、ゲート機構を備えたモジュールにより視覚的・テキスト的表現と融合され、モダリティの寄与を適応的に調整する。MSDベンチマークにおける大規模な実験により、GDCNetが優れた精度と頑健性を発揮し、MMSD2.0ベンチマークにおいて新たなstate-of-the-artを確立することを実証した。
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.
PDF21January 30, 2026