xGen-MM (BLIP-3): Семейство открытых больших мультимодальных моделей

Аннотация

Данный отчет представляет xGen-MM (также известный как BLIP-3), фреймворк для разработки крупных мультимодальных моделей (LMM). Фреймворк включает тщательно подготовленные наборы данных, рецепт обучения, архитектуры моделей и набор LMM. xGen-MM, сокращение от xGen-MultiModal, расширяет инициативу Salesforce xGen по базовым моделям искусственного интеллекта. Наши модели проходят строгую оценку по ряду задач, включая как одиночные, так и многокартинные тесты. Наша предварительно обученная базовая модель обладает сильными возможностями контекстного обучения, а модель, настроенная на инструкции, демонстрирует конкурентоспособную производительность среди LMM с аналогичными размерами моделей в открытом доступе. Кроме того, мы представляем модель, настроенную на безопасность с DPO, с целью смягчения вредных поведенческих моделей, таких как галлюцинации, и улучшения безопасности. Мы предоставляем наши модели, тщательно подготовленные масштабные наборы данных и нашу базу кода для донастройки в открытый доступ, чтобы облегчить дальнейшие достижения в исследованиях LMM. Связанные ресурсы будут доступны на нашей странице проекта выше.

English

This report introduces xGen-MM (also known as BLIP-3), a framework for developing Large Multimodal Models (LMMs). The framework comprises meticulously curated datasets, a training recipe, model architectures, and a resulting suite of LMMs. xGen-MM, short for xGen-MultiModal, expands the Salesforce xGen initiative on foundation AI models. Our models undergo rigorous evaluation across a range of tasks, including both single and multi-image benchmarks. Our pre-trained base model exhibits strong in-context learning capabilities and the instruction-tuned model demonstrates competitive performance among open-source LMMs with similar model sizes. In addition, we introduce a safety-tuned model with DPO, aiming to mitigate harmful behaviors such as hallucinations and improve safety. We open-source our models, curated large-scale datasets, and our fine-tuning codebase to facilitate further advancements in LMM research. Associated resources will be available on our project page above.

xGen-MM (BLIP-3): Семейство открытых больших мультимодальных моделей

xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

Аннотация

Support