BLIP3-KALE: Знание-усиленные плотные подписи на большом масштабе.

Аннотация

Мы представляем BLIP3-KALE, набор данных из 218 миллионов пар изображений и текста, который заполняет пробел между описательными синтетическими подписями и фактическими веб-масштабными альт-текстами. KALE дополняет синтетические плотные подписи изображений веб-масштабными альт-текстами для создания фактически обоснованных подписей изображений. Наш подход двухэтапный: мы используем большие модели видео-языка и языковые модели для создания знанием насыщенных подписей, которые затем используются для обучения специализированной модели видео-языка для масштабирования набора данных. Мы обучаем модели видео-языка на KALE и демонстрируем улучшения на задачах видео-языка. Наши эксперименты показывают полезность KALE для обучения более способных и информированных мультимодальных моделей. Мы выпускаем набор данных KALE по ссылке https://huggingface.co/datasets/Salesforce/blip3-kale.

English

We introduce BLIP3-KALE, a dataset of 218 million image-text pairs that bridges the gap between descriptive synthetic captions and factual web-scale alt-text. KALE augments synthetic dense image captions with web-scale alt-text to generate factually grounded image captions. Our two-stage approach leverages large vision-language models and language models to create knowledge-augmented captions, which are then used to train a specialized VLM for scaling up the dataset. We train vision-language models on KALE and demonstrate improvements on vision-language tasks. Our experiments show the utility of KALE for training more capable and knowledgeable multimodal models. We release the KALE dataset at https://huggingface.co/datasets/Salesforce/blip3-kale

BLIP3-KALE: Знание-усиленные плотные подписи на большом масштабе.

BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions

Аннотация

Support