Проект AnyCap: Унифицированная структура, набор данных и эталон для управляемого омни-модального описания

Аннотация

Управляемое создание подписей имеет ключевое значение для точного мультимодального согласования и выполнения инструкций, однако существующие модели часто не обладают детализированным контролем и надежными протоколами оценки. Для устранения этого пробела мы представляем проект AnyCap — комплексное решение, охватывающее модель, набор данных и оценку. Мы представляем AnyCapModel (ACM), легковесную модульную платформу, которая повышает управляемость существующих базовых моделей для создания подписей в любых модальностях без необходимости их переобучения. ACM повторно использует оригинальные подписи базовых моделей, одновременно интегрируя пользовательские инструкции и особенности модальностей для генерации улучшенных подписей. Для решения проблемы недостатка данных в управляемом мультимодальном создании подписей мы создали AnyCapDataset (ACD), охватывающий три модальности, 28 типов пользовательских инструкций и 300 тыс. высококачественных записей. Мы также предлагаем AnyCapEval — новый эталонный тест, который обеспечивает более надежные метрики оценки управляемого создания подписей за счет разделения точности содержания и стилистической достоверности. ACM значительно улучшает качество подписей для разнообразных базовых моделей в рамках AnyCapEval. В частности, ACM-8B повышает показатели содержания GPT-4o на 45% и стилистические показатели на 12%, а также демонстрирует существенные улучшения на широко используемых тестах, таких как MIA-Bench и VidCapBench.

English

Controllable captioning is essential for precise multimodal alignment and instruction following, yet existing models often lack fine-grained control and reliable evaluation protocols. To address this gap, we present the AnyCap Project, an integrated solution spanning model, dataset, and evaluation. We introduce AnyCapModel (ACM), a lightweight plug-and-play framework that enhances the controllability of existing foundation models for omni-modal captioning without retraining the base model. ACM reuses the original captions from base models while incorporating user instructions and modality features to generate improved captions. To remedy the data scarcity in controllable multimodal captioning, we build AnyCapDataset (ACD), covering three modalities, 28 user-instruction types, and 300\,k high-quality data entries. We further propose AnyCapEval, a new benchmark that provides more reliable evaluation metrics for controllable captioning by decoupling content accuracy and stylistic fidelity. ACM markedly improves caption quality across a diverse set of base models on AnyCapEval. Notably, ACM-8B raises GPT-4o\'s content scores by 45\% and style scores by 12\%, and it also achieves substantial gains on widely used benchmarks such as MIA-Bench and VidCapBench.

Проект AnyCap: Унифицированная структура, набор данных и эталон для управляемого омни-модального описания

AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning

Аннотация

Support