ChatPaper.aiChatPaper

AnyCap Project: Een Uniform Framework, Dataset en Benchmark voor Beheersbare Omni-modale Beschrijvingen

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

July 17, 2025
Auteurs: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI

Samenvatting

Beheersbare bijschriften zijn essentieel voor precieze multimodale uitlijning en instructievolging, maar bestaande modellen missen vaak fijnmijnerige controle en betrouwbare evaluatieprotocollen. Om deze kloof te dichten, presenteren we het AnyCap Project, een geïntegreerde oplossing die model, dataset en evaluatie omvat. We introduceren AnyCapModel (ACM), een lichtgewicht plug-and-play raamwerk dat de beheersbaarheid van bestaande basis modellen voor omnimodale bijschriften verbetert zonder het basismodel opnieuw te trainen. ACM hergebruikt de originele bijschriften van basis modellen terwijl het gebruikersinstructies en modaliteitskenmerken integreert om verbeterde bijschriften te genereren. Om het gebrek aan data in beheersbare multimodale bijschriften te verhelpen, bouwen we AnyCapDataset (ACD), dat drie modaliteiten, 28 gebruikersinstructietypen en 300.000 hoogwaardige data-entries omvat. We stellen verder AnyCapEval voor, een nieuwe benchmark die betrouwbaardere evaluatiemetrics biedt voor beheersbare bijschriften door inhoudelijke nauwkeurigheid en stilistische trouw te ontkoppelen. ACM verbetert de kwaliteit van bijschriften aanzienlijk over een diverse set van basis modellen op AnyCapEval. Opmerkelijk is dat ACM-8B de inhoudsscores van GPT-4o met 45% en de stijlscores met 12% verhoogt, en het behaalt ook aanzienlijke winsten op veelgebruikte benchmarks zoals MIA-Bench en VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.
PDF411July 18, 2025