ChatPaper.aiChatPaper

모든 것을 설명하는 하나의 패치: 통합 제로샷 캡셔닝 프레임워크

One Patch to Caption Them All: A Unified Zero-Shot Captioning Framework

October 3, 2025
저자: Lorenzo Bianchi, Giacomo Pacini, Fabio Carrara, Nicola Messina, Giuseppe Amato, Fabrizio Falchi
cs.AI

초록

제로샷 캡셔너(Zero-shot captioner)는 최근 제안된 모델로, 이미지-텍스트 쌍 데이터에 의존하지 않고 공통 공간의 시각-언어 표현을 활용하여 이미지에 캡션을 생성합니다. 이미지에 캡션을 생성하기 위해, 이 모델들은 텍스트 정렬된 이미지 특징을 텍스트로 디코딩하는 방식을 사용하지만, 전역 표현과 전체 이미지 캡션에만 국한됩니다. 우리는 이미지 중심에서 패치 중심으로 패러다임을 전환하여, 영역 수준의 지도 없이도 임의의 영역에 캡션을 생성할 수 있는 통합된 제로샷 캡셔닝 프레임워크를 제시합니다. 전역 이미지 표현에 의존하는 대신, 개별 패치를 원자적 캡셔닝 단위로 취급하고 이를 집계하여 단일 패치부터 비연속 영역, 전체 이미지에 이르기까지 임의의 영역을 설명합니다. 우리는 현재의 잠재 캡셔너가 우리가 제안한 새로운 프레임워크에서 작동할 수 있도록 하는 핵심 요소를 분석합니다. 실험 결과, DINO와 같이 의미 있는 밀집 시각 특징을 생성하는 백본이 여러 영역 기반 캡셔닝 작업에서 최첨단 성능을 달성하는 데 핵심적임을 보여줍니다. 다른 베이스라인 및 최첨단 경쟁 모델과 비교했을 때, 우리의 모델은 제로샷 밀집 캡셔닝, 영역 집합 캡셔닝, 그리고 새로 도입된 트레이스 캡셔닝 작업에서 더 나은 성능을 달성하며, 확장 가능한 캡션 생성을 위한 패치 단위의 의미 표현의 효과를 강조합니다. 프로젝트 페이지는 https://paciosoft.com/Patch-ioner/ 에서 확인할 수 있습니다.
English
Zero-shot captioners are recently proposed models that utilize common-space vision-language representations to caption images without relying on paired image-text data. To caption an image, they proceed by textually decoding a text-aligned image feature, but they limit their scope to global representations and whole-image captions. We present , a unified framework for zero-shot captioning that shifts from an image-centric to a patch-centric paradigm, enabling the captioning of arbitrary regions without the need of region-level supervision. Instead of relying on global image representations, we treat individual patches as atomic captioning units and aggregate them to describe arbitrary regions, from single patches to non-contiguous areas and entire images. We analyze the key ingredients that enable current latent captioners to work in our novel proposed framework. Experiments demonstrate that backbones producing meaningful, dense visual features, such as DINO, are key to achieving state-of-the-art performance in multiple region-based captioning tasks. Compared to other baselines and state-of-the-art competitors, our models achieve better performance on zero-shot dense, region-set, and a newly introduced trace captioning task, highlighting the effectiveness of patch-wise semantic representations for scalable caption generation. Project page at https://paciosoft.com/Patch-ioner/ .
PDF42October 13, 2025