GDCNet: Генеративная сеть сравнения расхождений для мультимодального обнаружения сарказма
GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
January 28, 2026
Авторы: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI
Аннотация
Мультимодальное обнаружение сарказма (MSD) направлено на выявление сарказма в парах "изображение-текст" путем моделирования семантических несоответствий между модальностями. Существующие методы часто используют рассогласование кросс-модальных эмбеддингов для обнаружения неконсистентности, но испытывают трудности, когда визуальный и текстовый контент слабо связаны или семантически опосредованы. В то время как современные подходы задействуют большие языковые модели (LLM) для генерации признаков сарказма, присущее разнообразие и субъективность этих генераций часто вносят шум. Для преодоления этих ограничений мы предлагаем Сеть Генеративного Сравнения Рассогласований (GDCNet). Данная архитектура фиксирует кросс-модальные конфликты, используя сгенерированные мультимодальными LLM (MLLM) описательные, фактически обоснованные подписи к изображениям в качестве стабильных семантических якорей. В частности, GDCNet вычисляет семантические и сентиментные расхождения между сгенерированным объективным описанием и исходным текстом, параллельно измеряя визуально-текстовую соответственность. Эти признаки рассогласования затем объединяются с визуальными и текстовыми представлениями через управляемый модуль для адаптивного балансирования вклада модальностей. Многочисленные эксперименты на бенчмарках MSD демонстрируют превосходную точность и устойчивость GDCNet, устанавливая новый state-of-the-art на бенчмарке MMSD2.0.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.