ChatPaper.aiChatPaper

Un'unica Patch per Descriverle Tutte: Un Framework Unificato per la Generazione di Didascalie in Modalità Zero-Shot

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

October 3, 2025
Autori: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi
cs.AI

Abstract

I modelli di captioning zero-shot sono proposte recenti che sfruttano rappresentazioni visivo-linguistiche in uno spazio comune per descrivere immagini senza fare affidamento su dati accoppiati immagine-testo. Per generare una descrizione, decodificano testualmente una caratteristica dell'immagine allineata al testo, ma limitano il loro ambito a rappresentazioni globali e descrizioni dell'intera immagine. Presentiamo un framework unificato per il captioning zero-shot che passa da un paradigma centrato sull'immagine a uno centrato sulle patch, consentendo la descrizione di regioni arbitrarie senza la necessità di supervisione a livello di regione. Invece di basarsi su rappresentazioni globali dell'immagine, trattiamo le singole patch come unità atomiche di captioning e le aggregiamo per descrivere regioni arbitrarie, dalle singole patch ad aree non contigue e intere immagini. Analizziamo gli elementi chiave che consentono ai modelli di captioning latenti di funzionare nel nostro nuovo framework proposto. Gli esperimenti dimostrano che modelli di base che producono caratteristiche visive dense e significative, come DINO, sono fondamentali per raggiungere prestazioni all'avanguardia in molteplici task di captioning basati su regioni. Rispetto ad altri baseline e competitor all'avanguardia, i nostri modelli ottengono prestazioni migliori in task di captioning zero-shot denso, su insiemi di regioni e in un nuovo task di captioning a traccia, evidenziando l'efficacia delle rappresentazioni semantiche basate su patch per la generazione scalabile di descrizioni. Pagina del progetto: https://paciosoft.com/Patch-ioner/.
English
Zero-shot captioners are recently proposed models that utilize common-space vision-language representations to caption images without relying on paired image-text data. To caption an image, they proceed by textually decoding a text-aligned image feature, but they limit their scope to global representations and whole-image captions. We present , a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision. Instead of relying on global image representations, we treat individual patches as atomic captioning units and aggregate them to describe arbitrary regions, from single patches to non-contiguous areas and entire images. We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework. Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks. Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .
PDF42October 13, 2025