Un Patch pour Tous les Captionner : Un Cadre Unifié de Génération de Légendes en Zero-Shot
One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
October 3, 2025
papers.authors: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi
cs.AI
papers.abstract
Les générateurs de légendes zero-shot sont des modèles récemment proposés qui exploitent des représentations vision-langage dans un espace commun pour légender des images sans s'appuyer sur des données appariées image-texte. Pour légender une image, ils procèdent en décodant textuellement une caractéristique d'image alignée sur le texte, mais ils limitent leur portée aux représentations globales et aux légendes d'image entière. Nous présentons , un cadre unifié pour la génération de légendes zero-shot qui passe d'un paradigme centré sur l'image à un paradigme centré sur les patchs, permettant de légender des régions arbitraires sans nécessiter de supervision au niveau des régions. Au lieu de s'appuyer sur des représentations globales de l'image, nous traitons les patchs individuels comme des unités atomiques de légendage et les agrégeons pour décrire des régions arbitraires, allant de patchs uniques à des zones non contiguës et à des images entières. Nous analysons les éléments clés qui permettent aux générateurs de légendes latents actuels de fonctionner dans notre nouveau cadre proposé. Les expériences démontrent que les architectures produisant des caractéristiques visuelles denses et significatives, comme DINO, sont essentielles pour atteindre des performances de pointe dans plusieurs tâches de légendage basées sur les régions. Par rapport à d'autres modèles de référence et à des concurrents de pointe, nos modèles obtiennent de meilleures performances sur des tâches de légendage dense zero-shot, de légendage d'ensemble de régions, et sur une nouvelle tâche de légendage de traces, mettant en évidence l'efficacité des représentations sémantiques par patch pour la génération de légendes scalable. Page du projet à l'adresse https://paciosoft.com/Patch-ioner/ .
English
Zero-shot captioners are recently proposed models that utilize common-space
vision-language representations to caption images without relying on paired
image-text data. To caption an image, they proceed by textually decoding a
text-aligned image feature, but they limit their scope to global
representations and whole-image captions. We present , a
unified framework for zero-shot captioning that shifts from an image-centric to
a patch-centric paradigm, enabling the captioning of arbitrary regions without
the need of region-level supervision. Instead of relying on global image
representations, we treat individual patches as atomic captioning units and
aggregate them to describe arbitrary regions, from single patches to
non-contiguous areas and entire images. We analyze the key ingredients that
enable current latent captioners to work in our novel proposed framework.
Experiments demonstrate that backbones producing meaningful, dense visual
features, such as DINO, are key to achieving state-of-the-art performance in
multiple region-based captioning tasks. Compared to other baselines and
state-of-the-art competitors, our models achieve better performance on
zero-shot dense, region-set, and a newly introduced trace captioning task,
highlighting the effectiveness of patch-wise semantic representations for
scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .