Projeto AnyCap: Um Framework Unificado, Conjunto de Dados e Benchmark para Geração Controlada de Legendas Omni-modais
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
July 17, 2025
Autores: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI
Resumo
A geração controlada de legendas é essencial para o alinhamento multimodal preciso e o seguimento de instruções, mas os modelos existentes frequentemente carecem de controle refinado e protocolos de avaliação confiáveis. Para preencher essa lacuna, apresentamos o Projeto AnyCap, uma solução integrada que abrange modelo, conjunto de dados e avaliação. Introduzimos o AnyCapModel (ACM), uma estrutura leve e plug-and-play que melhora a controlabilidade dos modelos base existentes para legendagem omni-modal sem a necessidade de retreinar o modelo base. O ACM reutiliza as legendas originais dos modelos base, ao mesmo tempo que incorpora instruções do usuário e características modais para gerar legendas aprimoradas. Para remediar a escassez de dados em legendagem multimodal controlável, construímos o AnyCapDataset (ACD), que abrange três modalidades, 28 tipos de instruções do usuário e 300 mil entradas de dados de alta qualidade. Além disso, propomos o AnyCapEval, um novo benchmark que fornece métricas de avaliação mais confiáveis para legendagem controlável, desacoplando a precisão do conteúdo e a fidelidade estilística. O ACM melhora significativamente a qualidade das legendas em um conjunto diversificado de modelos base no AnyCapEval. Notavelmente, o ACM-8B aumenta as pontuações de conteúdo do GPT-4o em 45% e as pontuações de estilo em 12%, além de alcançar ganhos substanciais em benchmarks amplamente utilizados, como MIA-Bench e VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and
instruction following, yet existing models often lack fine-grained control and
reliable evaluation protocols. To address this gap, we present the AnyCap
Project, an integrated solution spanning model, dataset, and evaluation. We
introduce AnyCapModel (ACM), a lightweight plug-and-play framework that
enhances the controllability of existing foundation models for omni-modal
captioning without retraining the base model. ACM reuses the original captions
from base models while incorporating user instructions and modality features to
generate improved captions. To remedy the data scarcity in controllable
multimodal captioning, we build AnyCapDataset (ACD), covering three modalities,
28 user-instruction types, and 300\,k high-quality data entries. We further
propose AnyCapEval, a new benchmark that provides more reliable evaluation
metrics for controllable captioning by decoupling content accuracy and
stylistic fidelity. ACM markedly improves caption quality across a diverse set
of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores
by 45\% and style scores by 12\%, and it also achieves substantial gains on
widely used benchmarks such as MIA-Bench and VidCapBench.