Метеор: Обход на основе Mamba обоснования для крупных моделей языка и зренияMeteor: Mamba-based Traversal of Rationale for Large Language and Vision
Models
Быстрое развитие крупных языковых и визуальных моделей (LLVM) было обусловлено прогрессом в настройке визуальных инструкций. Недавно открытые LLVM собрали качественные наборы данных для настройки визуальных инструкций и использовали дополнительные визуальные кодировщики или несколько моделей компьютерного зрения для сокращения разрыва в производительности с мощными закрытыми LLVM. Эти усовершенствования связаны с многоаспектной информацией, необходимой для различных возможностей, включая фундаментальное понимание изображений, знание о реальном мире, общее чувство и необъектные концепции (например, диаграммы, схемы, символы, знаки и математические задачи), а также пошаговые процедуры для решения сложных вопросов. Извлекая из многоаспектной информации, мы представляем новую эффективную LLVM, основанную на методе обхода обоснований Mamba (Meteor), которая использует многоаспектные обоснования для улучшения возможностей понимания и ответа. Для встраивания длинных обоснований, содержащих обильную информацию, мы используем архитектуру Mamba, способную обрабатывать последовательные данные с линейной временной сложностью. Мы вводим новую концепцию обхода обоснований, которая облегчает эффективное встраивание обоснований. Впоследствии основная мультимодальная языковая модель (MLM) обучается генерировать ответы с помощью обоснования. Благодаря этим шагам Meteor достигает значительных улучшений в производительности визуально-языковых моделей на различных оценочных бенчмарках, требующих разнообразных возможностей, без увеличения размера модели или использования дополнительных визуальных кодировщиков и моделей компьютерного зрения.