ChatPaper.aiChatPaper

AnyCap 프로젝트: 통제 가능한 범모달 캡셔닝을 위한 통합 프레임워크, 데이터셋 및 벤치마크

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

July 17, 2025
저자: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI

초록

정밀한 다중모달 정렬과 명령어 수행을 위해서는 제어 가능한 캡셔닝이 필수적이지만, 기존 모델들은 종종 세밀한 제어와 신뢰할 수 있는 평가 프로토콜이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 모델, 데이터셋, 평가를 아우르는 통합 솔루션인 AnyCap 프로젝트를 소개합니다. 우리는 AnyCapModel(ACM)을 제안하는데, 이는 기반 모델을 재학습하지 않고도 오모달 캡셔닝을 위한 기존 파운데이션 모델의 제어 가능성을 향상시키는 경량의 플러그 앤 플레이 프레임워크입니다. ACM은 기반 모델의 원본 캡션을 재사용하면서 사용자 명령어와 모달리티 특징을 통합하여 개선된 캡션을 생성합니다. 제어 가능한 다중모달 캡셔닝의 데이터 부족 문제를 해결하기 위해, 우리는 세 가지 모달리티, 28가지 사용자 명령어 유형, 그리고 300,000개의 고품질 데이터 항목을 포함하는 AnyCapDataset(ACD)를 구축했습니다. 또한, 우리는 내용 정확도와 스타일 충실도를 분리하여 제어 가능한 캡셔닝을 위한 더 신뢰할 수 있는 평가 지표를 제공하는 새로운 벤치마크인 AnyCapEval을 제안합니다. ACM은 AnyCapEval에서 다양한 기반 모델들에 걸쳐 캡션 품질을 현저히 개선합니다. 특히, ACM-8B는 GPT-4o의 내용 점수를 45%, 스타일 점수를 12% 향상시키며, MIA-Bench와 VidCapBench와 같은 널리 사용되는 벤치마크에서도 상당한 성능 향상을 달성합니다.
English
Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.
PDF301July 18, 2025