Проект AnyCap: Унифицированная структура, набор данных и эталон для управляемого омни-модального описания
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
July 17, 2025
Авторы: Yiming Ren, Zhiqiang Lin, Yu Li, Gao Meng, Weiyun Wang, Junjie Wang, Zicheng Lin, Jifeng Dai, Yujiu Yang, Wenhai Wang, Ruihang Chu
cs.AI
Аннотация
Управляемое создание подписей имеет ключевое значение для точного мультимодального согласования и выполнения инструкций, однако существующие модели часто не обладают детализированным контролем и надежными протоколами оценки. Для устранения этого пробела мы представляем проект AnyCap — комплексное решение, охватывающее модель, набор данных и оценку. Мы представляем AnyCapModel (ACM), легковесную модульную платформу, которая повышает управляемость существующих базовых моделей для создания подписей в любых модальностях без необходимости их переобучения. ACM повторно использует оригинальные подписи базовых моделей, одновременно интегрируя пользовательские инструкции и особенности модальностей для генерации улучшенных подписей. Для решения проблемы недостатка данных в управляемом мультимодальном создании подписей мы создали AnyCapDataset (ACD), охватывающий три модальности, 28 типов пользовательских инструкций и 300 тыс. высококачественных записей. Мы также предлагаем AnyCapEval — новый эталонный тест, который обеспечивает более надежные метрики оценки управляемого создания подписей за счет разделения точности содержания и стилистической достоверности. ACM значительно улучшает качество подписей для разнообразных базовых моделей в рамках AnyCapEval. В частности, ACM-8B повышает показатели содержания GPT-4o на 45% и стилистические показатели на 12%, а также демонстрирует существенные улучшения на широко используемых тестах, таких как MIA-Bench и VidCapBench.
English
Controllable captioning is essential for precise multimodal alignment and
instruction following, yet existing models often lack fine-grained control and
reliable evaluation protocols. To address this gap, we present the AnyCap
Project, an integrated solution spanning model, dataset, and evaluation. We
introduce AnyCapModel (ACM), a lightweight plug-and-play framework that
enhances the controllability of existing foundation models for omni-modal
captioning without retraining the base model. ACM reuses the original captions
from base models while incorporating user instructions and modality features to
generate improved captions. To remedy the data scarcity in controllable
multimodal captioning, we build AnyCapDataset (ACD), covering three modalities,
28 user-instruction types, and 300\,k high-quality data entries. We further
propose AnyCapEval, a new benchmark that provides more reliable evaluation
metrics for controllable captioning by decoupling content accuracy and
stylistic fidelity. ACM markedly improves caption quality across a diverse set
of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores
by 45\% and style scores by 12\%, and it also achieves substantial gains on
widely used benchmarks such as MIA-Bench and VidCapBench.