ChatPaper.aiChatPaper

FG-CLIP 2: Un modelo bilingüe de alineación visión-lenguaje de grano fino

FG-CLIP 2: A Bilingual Fine-grained Vision-Language Alignment Model

October 13, 2025
Autores: Chunyu Xie, Bin Wang, Fanjing Kong, Jincheng Li, Dawei Liang, Ji Ao, Dawei Leng, Yuhui Yin
cs.AI

Resumen

La comprensión detallada entre visión y lenguaje requiere una alineación precisa entre el contenido visual y las descripciones lingüísticas, una capacidad que sigue siendo limitada en los modelos actuales, especialmente en entornos no anglófonos. Aunque modelos como CLIP funcionan bien en la alineación global, a menudo tienen dificultades para capturar detalles específicos en atributos de objetos, relaciones espaciales y expresiones lingüísticas, con un soporte limitado para la comprensión bilingüe. Para abordar estos desafíos, presentamos FG-CLIP 2, un modelo bilingüe de visión y lenguaje diseñado para avanzar en la alineación detallada tanto para el inglés como para el chino. Nuestro enfoque aprovecha una supervisión detallada, incluyendo la correspondencia entre regiones y texto y el modelado de descripciones largas, junto con múltiples objetivos discriminativos. Además, introducimos la pérdida de Contraste Intra-modal Textual (TIC) para distinguir mejor las descripciones semánticamente similares. Entrenado con una mezcla cuidadosamente seleccionada de datos a gran escala en inglés y chino, FG-CLIP 2 logra un rendimiento bilingüe potente. Para permitir una evaluación rigurosa, presentamos un nuevo punto de referencia para la comprensión multimodal en chino, que incluye la recuperación de descripciones largas y la clasificación de cuadros delimitadores. Experimentos extensos en 29 conjuntos de datos a través de 8 tareas muestran que FG-CLIP 2 supera a los métodos existentes, alcanzando resultados de vanguardia en ambos idiomas. Publicamos el modelo, el código y el punto de referencia para facilitar futuras investigaciones sobre la alineación detallada bilingüe.
English
Fine-grained vision-language understanding requires precise alignment between visual content and linguistic descriptions, a capability that remains limited in current models, particularly in non-English settings. While models like CLIP perform well on global alignment, they often struggle to capture fine-grained details in object attributes, spatial relations, and linguistic expressions, with limited support for bilingual comprehension. To address these challenges, we introduce FG-CLIP 2, a bilingual vision-language model designed to advance fine-grained alignment for both English and Chinese. Our approach leverages rich fine-grained supervision, including region-text matching and long-caption modeling, alongside multiple discriminative objectives. We further introduce the Textual Intra-modal Contrastive (TIC) loss to better distinguish semantically similar captions. Trained on a carefully curated mixture of large-scale English and Chinese data, FG-CLIP 2 achieves powerful bilingual performance. To enable rigorous evaluation, we present a new benchmark for Chinese multimodal understanding, featuring long-caption retrieval and bounding box classification. Extensive experiments on 29 datasets across 8 tasks show that FG-CLIP 2 outperforms existing methods, achieving state-of-the-art results in both languages. We release the model, code, and benchmark to facilitate future research on bilingual fine-grained alignment.
PDF82October 16, 2025