Un Patch pour Tous les Captionner : Un Cadre Unifié de Génération de Légendes en Zero-Shot

papers.abstract

Les générateurs de légendes zero-shot sont des modèles récemment proposés qui exploitent des représentations vision-langage dans un espace commun pour légender des images sans s'appuyer sur des données appariées image-texte. Pour légender une image, ils procèdent en décodant textuellement une caractéristique d'image alignée sur le texte, mais ils limitent leur portée aux représentations globales et aux légendes d'image entière. Nous présentons , un cadre unifié pour la génération de légendes zero-shot qui passe d'un paradigme centré sur l'image à un paradigme centré sur les patchs, permettant de légender des régions arbitraires sans nécessiter de supervision au niveau des régions. Au lieu de s'appuyer sur des représentations globales de l'image, nous traitons les patchs individuels comme des unités atomiques de légendage et les agrégeons pour décrire des régions arbitraires, allant de patchs uniques à des zones non contiguës et à des images entières. Nous analysons les éléments clés qui permettent aux générateurs de légendes latents actuels de fonctionner dans notre nouveau cadre proposé. Les expériences démontrent que les architectures produisant des caractéristiques visuelles denses et significatives, comme DINO, sont essentielles pour atteindre des performances de pointe dans plusieurs tâches de légendage basées sur les régions. Par rapport à d'autres modèles de référence et à des concurrents de pointe, nos modèles obtiennent de meilleures performances sur des tâches de légendage dense zero-shot, de légendage d'ensemble de régions, et sur une nouvelle tâche de légendage de traces, mettant en évidence l'efficacité des représentations sémantiques par patch pour la génération de légendes scalable. Page du projet à l'adresse https://paciosoft.com/Patch-ioner/ .

English

Zero-shot captioners are recently proposed models that utilize common-space vision-language representations to caption images without relying on paired image-text data. To caption an image, they proceed by textually decoding a text-aligned image feature, but they limit their scope to global representations and whole-image captions. We present , a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision. Instead of relying on global image representations, we treat individual patches as atomic captioning units and aggregate them to describe arbitrary regions, from single patches to non-contiguous areas and entire images. We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework. Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks. Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .

Un Patch pour Tous les Captionner : Un Cadre Unifié de Génération de Légendes en Zero-Shot

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

papers.abstract

Support