ChatPaper.aiChatPaper

AnyCap-Projekt: Ein einheitliches Framework, Datensatz und Benchmark für kontrollierbare omnimodale Bildbeschreibung

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

July 17, 2025
papers.authors: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI

papers.abstract

Steuerbare Bildbeschriftung ist entscheidend für präzise multimodale Ausrichtung und Befolgung von Anweisungen, doch bestehende Modelle mangelt es oft an feinkörniger Steuerung und zuverlässigen Evaluierungsprotokollen. Um diese Lücke zu schließen, präsentieren wir das AnyCap-Projekt, eine integrierte Lösung, die Modell, Datensatz und Evaluierung umfasst. Wir stellen AnyCapModel (ACM) vor, ein leichtgewichtiges Plug-and-Play-Framework, das die Steuerbarkeit bestehender Basismodelle für omnimodale Bildbeschriftung verbessert, ohne das Basismodell neu trainieren zu müssen. ACM nutzt die ursprünglichen Beschriftungen der Basismodelle, während es Benutzeranweisungen und Modalitätsmerkmale einbezieht, um verbesserte Beschriftungen zu generieren. Um die Datenknappheit bei steuerbarer multimodaler Bildbeschriftung zu beheben, haben wir AnyCapDataset (ACD) erstellt, das drei Modalitäten, 28 Arten von Benutzeranweisungen und 300.000 hochwertige Dateneinträge abdeckt. Weiterhin schlagen wir AnyCapEval vor, einen neuen Benchmark, der zuverlässigere Evaluierungsmetriken für steuerbare Bildbeschriftung bietet, indem er inhaltliche Genauigkeit und stilistische Treue entkoppelt. ACM verbessert die Beschriftungsqualität deutlich über eine Vielzahl von Basismodellen auf AnyCapEval. Bemerkenswerterweise erhöht ACM-8B die Inhaltswerte von GPT-4o um 45\% und die Stilwerte um 12\%, und es erzielt auch erhebliche Gewinne auf weit verbreiteten Benchmarks wie MIA-Bench und VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.
PDF301July 18, 2025