ChatPaper.aiChatPaper

GDCNet: Red Generativa de Comparación de Discrepancias para la Detección Multimodal de Sarcasmo

GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

January 28, 2026
Autores: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao
cs.AI

Resumen

La detección multimodal de sarcasmo (MSD, por sus siglas en inglés) tiene como objetivo identificar el sarcasmo en pares de imagen-texto mediante el modelado de incongruencias semánticas entre modalidades. Los métodos existentes a menudo explotan la desalineación de incrustaciones cruzadas para detectar inconsistencias, pero presentan dificultades cuando el contenido visual y textual está débilmente relacionado o es semánticamente indirecto. Si bien los enfoques recientes aprovechan los modelos de lenguaje extensos (LLMs) para generar pistas sarcásticas, la diversidad inherente y la subjetividad de estas generaciones a menudo introducen ruido. Para abordar estas limitaciones, proponemos la Red de Comparación de Discrepancias Generativas (GDCNet). Este marco captura conflictos cruzados mediante el uso de descripciones de imágenes objetivas y basadas en hechos, generadas por LLMs multimodales (MLLMs), como anclajes semánticos estables. Específicamente, GDCNet calcula las discrepancias semánticas y de sentimiento entre la descripción objetiva generada y el texto original, junto con la medición de la fidelidad visual-textual. Estas características de discrepancia se fusionan luego con las representaciones visuales y textuales a través de un módulo de compuerta para equilibrar de manera adaptativa las contribuciones de las modalidades. Experimentos exhaustivos en puntos de referencia de MSD demuestran la precisión y robustez superiores de GDCNet, estableciendo un nuevo estado del arte en el benchmark MMSD2.0.
English
Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.
PDF21January 30, 2026