ChatPaper.aiChatPaper

Projet AnyCap : Un cadre unifié, un ensemble de données et un benchmark pour la génération contrôlée de légendes omni-modales

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

July 17, 2025
papers.authors: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI

papers.abstract

La génération de légendes contrôlable est essentielle pour un alignement multimodal précis et le suivi des instructions, mais les modèles existants manquent souvent de contrôle fin et de protocoles d'évaluation fiables. Pour combler cette lacune, nous présentons le projet AnyCap, une solution intégrée englobant modèle, jeu de données et évaluation. Nous introduisons AnyCapModel (ACM), un framework léger et plug-and-play qui améliore la contrôlabilité des modèles de base existants pour la génération de légendes omni-modales sans nécessiter de réentraînement du modèle de base. ACM réutilise les légendes originales des modèles de base tout en intégrant les instructions utilisateur et les caractéristiques modales pour générer des légendes améliorées. Pour pallier la pénurie de données dans la génération de légendes multimodales contrôlables, nous avons construit AnyCapDataset (ACD), couvrant trois modalités, 28 types d'instructions utilisateur et 300 000 entrées de données de haute qualité. Nous proposons également AnyCapEval, un nouveau benchmark qui fournit des métriques d'évaluation plus fiables pour la génération de légendes contrôlables en découplant la précision du contenu et la fidélité stylistique. ACM améliore notablement la qualité des légendes sur un ensemble diversifié de modèles de base selon AnyCapEval. En particulier, ACM-8B augmente les scores de contenu de GPT-4o de 45 % et les scores stylistiques de 12 %, tout en obtenant des gains substantiels sur des benchmarks largement utilisés tels que MIA-Bench et VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.
PDF301July 18, 2025