すべてをキャプションするための一つのパッチ:統一ゼロショットキャプションフレームワーク
One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework
October 3, 2025
著者: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi
cs.AI
要旨
ゼロショットキャプションモデルは最近提案されたもので、ペア画像-テキストデータに依存せずに、共通空間の視覚-言語表現を利用して画像のキャプションを生成します。画像にキャプションを付ける際、これらのモデルはテキストに整列した画像特徴をテキスト的にデコードしますが、その範囲はグローバル表現と画像全体のキャプションに限定されています。本論文では、画像中心からパッチ中心のパラダイムにシフトし、領域レベルの教師データを必要とせずに任意の領域のキャプションを可能にする、ゼロショットキャプションの統一フレームワークを提案します。グローバルな画像表現に依存する代わりに、個々のパッチを原子キャプションユニットとして扱い、それらを集約して、単一のパッチから非連続領域、さらには画像全体まで、任意の領域を記述します。我々は、現在の潜在キャプションモデルがこの新しいフレームワークで機能するための重要な要素を分析します。実験により、DINOのような意味のある密な視覚特徴を生成するバックボーンが、複数の領域ベースのキャプションタスクで最先端の性能を達成する鍵であることが示されています。他のベースラインや最先端の競合モデルと比較して、我々のモデルはゼロショットの密なキャプション、領域セットキャプション、および新たに導入されたトレースキャプションタスクにおいてより優れた性能を達成し、スケーラブルなキャプション生成におけるパッチ単位の意味表現の有効性を強調しています。プロジェクトページはhttps://paciosoft.com/Patch-ioner/にあります。
English
Zero-shot captioners are recently proposed models that utilize common-space
vision-language representations to caption images without relying on paired
image-text data. To caption an image, they proceed by textually decoding a
text-aligned image feature, but they limit their scope to global
representations and whole-image captions. We present , a
unified framework for zero-shot captioning that shifts from an image-centric to
a patch-centric paradigm, enabling the captioning of arbitrary regions without
the need of region-level supervision. Instead of relying on global image
representations, we treat individual patches as atomic captioning units and
aggregate them to describe arbitrary regions, from single patches to
non-contiguous areas and entire images. We analyze the key ingredients that
enable current latent captioners to work in our novel proposed framework.
Experiments demonstrate that backbones producing meaningful, dense visual
features, such as DINO, are key to achieving state-of-the-art performance in
multiple region-based captioning tasks. Compared to other baselines and
state-of-the-art competitors, our models achieve better performance on
zero-shot dense, region-set, and a newly introduced trace captioning task,
highlighting the effectiveness of patch-wise semantic representations for
scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .