Progetto AnyCap: Un Framework Unificato, Dataset e Benchmark per la Generazione Controllata di Didascalie Omni-modali

Abstract

La generazione controllata di didascalie è essenziale per un allineamento multimodale preciso e il rispetto delle istruzioni, tuttavia i modelli esistenti spesso mancano di un controllo fine e di protocolli di valutazione affidabili. Per colmare questa lacuna, presentiamo il Progetto AnyCap, una soluzione integrata che comprende modello, dataset e valutazione. Introduciamo AnyCapModel (ACM), un framework leggero plug-and-play che migliora la controllabilità dei modelli di base esistenti per la generazione di didascalie omni-modali senza dover riaddestrare il modello di base. ACM riutilizza le didascalie originali dei modelli di base, incorporando le istruzioni dell'utente e le caratteristiche modali per generare didascalie migliorate. Per ovviare alla scarsità di dati nella generazione controllata di didascalie multimodali, abbiamo costruito AnyCapDataset (ACD), che copre tre modalità, 28 tipi di istruzioni utente e 300.000 voci di dati di alta qualità. Proponiamo inoltre AnyCapEval, un nuovo benchmark che fornisce metriche di valutazione più affidabili per la generazione controllata di didascalie, separando l'accuratezza del contenuto dalla fedeltà stilistica. ACM migliora significativamente la qualità delle didascalie su un'ampia gamma di modelli di base in AnyCapEval. In particolare, ACM-8B aumenta i punteggi di contenuto di GPT-4o del 45% e i punteggi stilistici del 12%, e ottiene anche guadagni sostanziali su benchmark ampiamente utilizzati come MIA-Bench e VidCapBench.

English

Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.

Progetto AnyCap: Un Framework Unificato, Dataset e Benchmark per la Generazione Controllata di Didascalie Omni-modali

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

Abstract

Support