Кэмбрий-1: Полностью открытое, ориентированное на зрение исследование мультимодальных языковых моделей.Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs
Мы представляем Cambrian-1, семейство мультимодальных языковых моделей (MLLMs), разработанных с учетом визионерного подхода. Хотя более мощные языковые модели могут улучшить мультимодальные возможности, выбор дизайна для компонентов зрения часто недостаточно исследован и оторван от исследований обучения визуального представления. Этот разрыв затрудняет точное сопоставление сенсорных данных в реальных сценариях. Наше исследование использует LLMs и настройку визуальных инструкций в качестве интерфейса для оценки различных визуальных представлений, предлагая новые идеи по различным моделям и архитектурам - на основе экспериментов с более чем 20 кодировщиками зрения. Мы критически рассматриваем существующие бенчмарки MLLM, решая трудности, связанные с объединением и интерпретацией результатов из различных задач, и представляем новый визионерный бенчмарк, CV-Bench. Для дальнейшего улучшения визуального сопоставления мы предлагаем Пространственный Визионерный Агрегатор (SVA), динамический и пространственно осознающий коннектор, который интегрирует высокоразрешенные визионерные характеристики с LLMs, сокращая количество токенов. Кроме того, мы обсуждаем курирование высококачественных данных настройки визуальных инструкций из общедоступных источников, подчеркивая важность балансировки и распределения данных. В целом, Cambrian-1 не только достигает передовой производительности, но и служит всесторонним, открытым справочником для настроенных по инструкции MLLMs. Мы предоставляем веса модели, код, вспомогательные инструменты, наборы данных и подробные инструкции по настройке и оценке. Мы надеемся, что наш выпуск вдохновит и ускорит прогресс в мультимодальных системах и обучении визуальному представлению.