ChatPaper.aiChatPaper

Modelo de Espacio de Estados Condicionado por Texto para la Detección de Cambios Generalizada en Dominios en Preguntas y Respuestas Visuales

Text-conditioned State Space Model For Domain-generalized Change Detection Visual Question Answering

August 12, 2025
Autores: Elman Ghazaei, Erchan Aptoula
cs.AI

Resumen

La superficie de la Tierra está en constante cambio, y detectar estos cambios proporciona información valiosa que beneficia diversos aspectos de la sociedad humana. Si bien los métodos tradicionales de detección de cambios se han utilizado para identificar alteraciones a partir de imágenes bi-temporales, estos enfoques generalmente requieren conocimientos expertos para una interpretación precisa. Para permitir un acceso más amplio y flexible a la información de cambios por parte de usuarios no expertos, se ha introducido la tarea de Respuesta Visual a Preguntas sobre Detección de Cambios (CDVQA, por sus siglas en inglés). Sin embargo, los métodos existentes de CDVQA se han desarrollado bajo el supuesto de que los conjuntos de datos de entrenamiento y prueba comparten distribuciones similares. Este supuesto no se cumple en aplicaciones del mundo real, donde a menudo ocurren cambios de dominio. En este artículo, se revisa la tarea de CDVQA con un enfoque en abordar el cambio de dominio. Con este fin, se introduce un nuevo conjunto de datos multimodal y multidominio, BrightVQA, para facilitar la investigación en generalización de dominios en CDVQA. Además, se propone un nuevo modelo de espacio de estados, denominado Modelo de Espacio de Estados Condicionado por Texto (TCSSM, por sus siglas en inglés). El marco TCSSM está diseñado para aprovechar tanto las imágenes bi-temporales como la información textual relacionada con desastres geológicos de manera unificada, con el fin de extraer características invariantes al dominio. Los parámetros dependientes de la entrada en TCSSM se predicen dinámicamente utilizando tanto las imágenes bi-temporales como las descripciones relacionadas con desastres geológicos, facilitando así la alineación entre los datos visuales bi-temporales y las descripciones textuales asociadas. Se realizan experimentos exhaustivos para evaluar el método propuesto frente a modelos de última generación, demostrando un rendimiento superior de manera consistente. El código y el conjunto de datos estarán disponibles públicamente tras su aceptación en https://github.com/Elman295/TCSSM.
English
The Earth's surface is constantly changing, and detecting these changes provides valuable insights that benefit various aspects of human society. While traditional change detection methods have been employed to detect changes from bi-temporal images, these approaches typically require expert knowledge for accurate interpretation. To enable broader and more flexible access to change information by non-expert users, the task of Change Detection Visual Question Answering (CDVQA) has been introduced. However, existing CDVQA methods have been developed under the assumption that training and testing datasets share similar distributions. This assumption does not hold in real-world applications, where domain shifts often occur. In this paper, the CDVQA task is revisited with a focus on addressing domain shift. To this end, a new multi-modal and multi-domain dataset, BrightVQA, is introduced to facilitate domain generalization research in CDVQA. Furthermore, a novel state space model, termed Text-Conditioned State Space Model (TCSSM), is proposed. The TCSSM framework is designed to leverage both bi-temporal imagery and geo-disaster-related textual information in an unified manner to extract domain-invariant features across domains. Input-dependent parameters existing in TCSSM are dynamically predicted by using both bi-temporal images and geo-disaster-related description, thereby facilitating the alignment between bi-temporal visual data and the associated textual descriptions. Extensive experiments are conducted to evaluate the proposed method against state-of-the-art models, and superior performance is consistently demonstrated. The code and dataset will be made publicly available upon acceptance at https://github.com/Elman295/TCSSM.
PDF02August 13, 2025