Progetto AnyCap: Un Framework Unificato, Dataset e Benchmark per la Generazione Controllata di Didascalie Omni-modali
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
July 17, 2025
Autori: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI
Abstract
La generazione controllata di didascalie è essenziale per un allineamento multimodale preciso e il rispetto delle istruzioni, tuttavia i modelli esistenti spesso mancano di un controllo fine e di protocolli di valutazione affidabili. Per colmare questa lacuna, presentiamo il Progetto AnyCap, una soluzione integrata che comprende modello, dataset e valutazione. Introduciamo AnyCapModel (ACM), un framework leggero plug-and-play che migliora la controllabilità dei modelli di base esistenti per la generazione di didascalie omni-modali senza dover riaddestrare il modello di base. ACM riutilizza le didascalie originali dei modelli di base, incorporando le istruzioni dell'utente e le caratteristiche modali per generare didascalie migliorate. Per ovviare alla scarsità di dati nella generazione controllata di didascalie multimodali, abbiamo costruito AnyCapDataset (ACD), che copre tre modalità, 28 tipi di istruzioni utente e 300.000 voci di dati di alta qualità. Proponiamo inoltre AnyCapEval, un nuovo benchmark che fornisce metriche di valutazione più affidabili per la generazione controllata di didascalie, separando l'accuratezza del contenuto dalla fedeltà stilistica. ACM migliora significativamente la qualità delle didascalie su un'ampia gamma di modelli di base in AnyCapEval. In particolare, ACM-8B aumenta i punteggi di contenuto di GPT-4o del 45% e i punteggi stilistici del 12%, e ottiene anche guadagni sostanziali su benchmark ampiamente utilizzati come MIA-Bench e VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and
instruction following, yet existing models often lack fine-grained control and
reliable evaluation protocols. To address this gap, we present the AnyCap
Project, an integrated solution spanning model, dataset, and evaluation. We
introduce AnyCapModel (ACM), a lightweight plug-and-play framework that
enhances the controllability of existing foundation models for omni-modal
captioning without retraining the base model. ACM reuses the original captions
from base models while incorporating user instructions and modality features to
generate improved captions. To remedy the data scarcity in controllable
multimodal captioning, we build AnyCapDataset (ACD), covering three modalities,
28 user-instruction types, and 300\,k high-quality data entries. We further
propose AnyCapEval, a new benchmark that provides more reliable evaluation
metrics for controllable captioning by decoupling content accuracy and
stylistic fidelity. ACM markedly improves caption quality across a diverse set
of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores
by 45\% and style scores by 12\%, and it also achieves substantial gains on
widely used benchmarks such as MIA-Bench and VidCapBench.