MoAI: Смесь Всех Интеллектов для Больших Языковых и Визионных МоделейMoAI: Mixture of All Intelligence for Large Language and Vision Models
Возникновение больших языковых моделей (LLM) и настройка инструкций привели к текущему тренду инструкционно настроенных крупных языковых и видеомоделей (LLVM). Этот тренд включает либо тщательное составление множества наборов данных для настройки инструкций, адаптированных к конкретным целям, либо увеличение размеров LLVM для обработки огромных объемов данных видеоязыка (VL). Однако текущие LLVM игнорируют детальное и всестороннее понимание реального мира, доступное из специализированных моделей компьютерного зрения (CV) в задачах визуального восприятия, таких как сегментация, детекция, генерация графа сцены (SGG) и оптическое распознавание символов (OCR). Вместо этого существующие LLVM в основном полагаются на большую емкость и возможности их LLM основы. Поэтому мы представляем новый LLVM, Mixture of All Intelligence (MoAI), который использует вспомогательную визуальную информацию, полученную из выводов внешних моделей сегментации, детекции, SGG и OCR. MoAI работает через два вновь введенных модуля: MoAI-Compressor и MoAI-Mixer. После вербализации выводов внешних CV моделей MoAI-Compressor выравнивает и сжимает их для эффективного использования соответствующей вспомогательной визуальной информации для задач VL. Затем MoAI-Mixer смешивает три типа интеллекта (1) визуальные признаки, (2) вспомогательные признаки из внешних CV моделей и (3) языковые признаки, используя концепцию Mixture of Experts. Через эту интеграцию MoAI значительно превосходит как открытые, так и закрытые LLVM во многих нулевых задачах VL, особенно связанных с пониманием реального мира, таких как наличие объектов, их позиции, отношения и OCR, без увеличения размера модели или составления дополнительных наборов данных для настройки инструкций визуального восприятия.