Proyecto AnyCap: Un Marco Unificado, Conjunto de Datos y Punto de Referencia para la Generación Controlada de Subtítulos Omnimodales
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
July 17, 2025
Autores: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI
Resumen
La generación controlada de descripciones es esencial para una alineación multimodal precisa y el seguimiento de instrucciones, sin embargo, los modelos existentes a menudo carecen de control detallado y protocolos de evaluación confiables. Para abordar esta brecha, presentamos el Proyecto AnyCap, una solución integrada que abarca modelo, conjunto de datos y evaluación. Introducimos AnyCapModel (ACM), un marco ligero plug-and-play que mejora la controlabilidad de los modelos base existentes para la generación de descripciones omni-modales sin necesidad de reentrenar el modelo base. ACM reutiliza las descripciones originales de los modelos base mientras incorpora instrucciones del usuario y características modales para generar descripciones mejoradas. Para remediar la escasez de datos en la generación controlada de descripciones multimodales, construimos AnyCapDataset (ACD), que cubre tres modalidades, 28 tipos de instrucciones de usuario y 300.000 entradas de datos de alta calidad. Además, proponemos AnyCapEval, un nuevo punto de referencia que proporciona métricas de evaluación más confiables para la generación controlada de descripciones al desacoplar la precisión del contenido y la fidelidad estilística. ACM mejora notablemente la calidad de las descripciones en un conjunto diverso de modelos base en AnyCapEval. Destacadamente, ACM-8B aumenta las puntuaciones de contenido de GPT-4o en un 45% y las puntuaciones de estilo en un 12%, y también logra ganancias sustanciales en puntos de referencia ampliamente utilizados como MIA-Bench y VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and
instruction following, yet existing models often lack fine-grained control and
reliable evaluation protocols. To address this gap, we present the AnyCap
Project, an integrated solution spanning model, dataset, and evaluation. We
introduce AnyCapModel (ACM), a lightweight plug-and-play framework that
enhances the controllability of existing foundation models for omni-modal
captioning without retraining the base model. ACM reuses the original captions
from base models while incorporating user instructions and modality features to
generate improved captions. To remedy the data scarcity in controllable
multimodal captioning, we build AnyCapDataset (ACD), covering three modalities,
28 user-instruction types, and 300\,k high-quality data entries. We further
propose AnyCapEval, a new benchmark that provides more reliable evaluation
metrics for controllable captioning by decoupling content accuracy and
stylistic fidelity. ACM markedly improves caption quality across a diverse set
of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores
by 45\% and style scores by 12\%, and it also achieves substantial gains on
widely used benchmarks such as MIA-Bench and VidCapBench.