ChatPaper.aiChatPaper

xGen-MM (BLIP-3): Семейство открытых больших мультимодальных моделей

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

August 16, 2024
Авторы: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
cs.AI

Аннотация

Данный отчет представляет xGen-MM (также известный как BLIP-3), фреймворк для разработки крупных мультимодальных моделей (LMM). Фреймворк включает тщательно подготовленные наборы данных, рецепт обучения, архитектуры моделей и набор LMM. xGen-MM, сокращение от xGen-MultiModal, расширяет инициативу Salesforce xGen по базовым моделям искусственного интеллекта. Наши модели проходят строгую оценку по ряду задач, включая как одиночные, так и многокартинные тесты. Наша предварительно обученная базовая модель обладает сильными возможностями контекстного обучения, а модель, настроенная на инструкции, демонстрирует конкурентоспособную производительность среди LMM с аналогичными размерами моделей в открытом доступе. Кроме того, мы представляем модель, настроенную на безопасность с DPO, с целью смягчения вредных поведенческих моделей, таких как галлюцинации, и улучшения безопасности. Мы предоставляем наши модели, тщательно подготовленные масштабные наборы данных и нашу базу кода для донастройки в открытый доступ, чтобы облегчить дальнейшие достижения в исследованиях LMM. Связанные ресурсы будут доступны на нашей странице проекта выше.
English
This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

Summary

AI-Generated Summary

PDF1017November 26, 2024