Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данной работе мы обсуждаем создание производительных мультимодальных больших языковых моделей (MLLM). В частности, мы изучаем важность различных архитектурных компонентов и выбора данных. После тщательного и всестороннего анализа кодировщика изображений, связующего звена видео-языка и различных выборов данных для предварительного обучения, мы выявили несколько ключевых уроков по проектированию. Например, мы демонстрируем, что для предварительного мультимодального обучения в большом масштабе важно использование тщательно подобранной смеси данных изображение-подпись, чередующихся данные изображение-текст и только текстовые данные для достижения результатов на уровне передовых технологий (SOTA) при малом количестве обучающих примеров по сравнению с другими опубликованными результатами предварительного обучения. Кроме того, мы показываем, что кодировщик изображений вместе с разрешением изображения и количеством токенов изображения имеют существенное влияние, в то время как проектирование связующего звена видео-языка имеет сравнительно незначительное значение. Увеличивая представленный рецепт, мы создаем MM1, семейство мультимодальных моделей до 30 миллиардов параметров, включающее как плотные модели, так и варианты смеси экспертов (MoE), которые являются SOTA по метрикам предварительного обучения и достигают конкурентоспособных результатов после надзорной дообучения на ряде установленных мультимодальных бенчмарков. Благодаря предварительному обучению в большом масштабе, MM1 обладает привлекательными свойствами, такими как улучшенное обучение в контексте и множественное рассуждение по изображениям, обеспечивая возможность маломасштабного подсказывания цепочки мыслей.
При написании и разговоре люди иногда делают паузы, чтобы подумать. Хотя работы, ориентированные на рассуждения, часто представляли рассуждения как метод ответа на вопросы или выполнения агентных задач, рассуждения подразумеваются практически во всем письменном тексте. Например, это относится к шагам, не указанным между строк доказательства или к теории ума, лежащей в основе разговора. В работе "Self-Taught Reasoner" (STaR, Зеликман и др., 2022) полезное мышление учится путем вывода обоснований из примеров с небольшим числом шагов в вопросно-ответной системе и обучения на тех, которые приводят к правильному ответу. Это очень ограниченная среда - в идеале языковая модель могла бы вместо этого научиться выводить не указанные обоснования в произвольном тексте. Мы представляем Quiet-STaR, обобщение STaR, в котором языковые модели учатся генерировать обоснования для каждого токена для объяснения будущего текста, улучшая свои прогнозы. Мы решаем ключевые проблемы, включая 1) вычислительные затраты на генерацию продолжений, 2) то, что языковая модель изначально не знает, как генерировать или использовать внутренние мысли, и 3) необходимость предсказывать за пределами отдельных следующих токенов. Для решения этих проблем мы предлагаем алгоритм параллельной выборки по токенам, используя обучаемые токены, указывающие начало и конец мысли, а также расширенную технику учителя-принуждения. Обнадеживающе, сгенерированные обоснования пропорционально помогают модели с труднопредсказуемыми токенами и улучшают способность языковой модели прямо отвечать на сложные вопросы. В частности, после продолжения предварительного обучения языковой модели на корпусе интернет-текста с Quiet-STaR, мы обнаруживаем улучшения без обучения на GSM8K (5.9% -> 10.9%) и CommonsenseQA (36.3% -> 47.2%) и наблюдаем улучшение перплексии сложных токенов в естественном тексте. Ключевым является то, что для этих улучшений не требуется дополнительного настройки на эти задачи. Quiet-STaR представляет собой шаг к языковым моделям, которые могут научиться рассуждать более общим и масштабируемым способом.
Использование моделей видео-языка (VLM) в веб-разработке представляет собой многообещающую стратегию для повышения эффективности и разблокировки решений без кода: предоставив снимок экрана или эскиз пользовательского интерфейса, VLM может сгенерировать код для его воспроизведения, например, на языке HTML. Несмотря на прогресс в области VLM для различных задач, конкретная задача преобразования снимка экрана в соответствующий HTML была минимально исследована. Мы предполагаем, что это в основном связано с отсутствием подходящего, высококачественного набора данных. В данной работе представлен WebSight, синтетический набор данных, состоящий из 2 миллионов пар HTML-кодов и соответствующих им снимков экрана. Мы донастраиваем фундаментальную VLM на нашем наборе данных и демонстрируем умение преобразовывать снимки веб-страниц в функциональный HTML-код. Для ускорения исследований в этой области мы открываем исходный код WebSight.
Данный документ предлагает простую, но эффективную структуру, названную GiT, одновременно применимую для различных задач компьютерного зрения только с использованием стандартной модели ViT. Вдохновленные универсальностью архитектуры многослойного трансформера (например, GPT), широко используемой в крупных моделях языка (LLM), мы стремимся расширить ее область применения, чтобы служить мощной моделью основы зрения (VFM). Однако, в отличие от моделирования языка, визуальные задачи обычно требуют специфических модулей, таких как головы областей привязки для обнаружения и декодеры пикселей для сегментации, что значительно затрудняет применение мощных многослойных трансформеров в области зрения. Для решения этой проблемы мы разрабатываем универсальный языковой интерфейс, который обеспечивает успешное авторегрессивное декодирование для умелого объединения различных визуальных задач, от понимания на уровне изображения (например, подписывание), через разреженное восприятие (например, обнаружение) до плотного прогнозирования (например, сегментация). На основе вышеперечисленных концепций вся модель состоит исключительно из ViT, без каких-либо специфических дополнений, предлагая замечательное упрощение архитектуры. GiT - это многофункциональная визуальная модель, совместно обученная на пяти репрезентативных бенчмарках без специфической донастройки для каждой задачи. Интересно, что наша модель GiT устанавливает новый стандарт в общей производительности и способствует взаимному улучшению между задачами, что приводит к значительным улучшениям по сравнению с изолированным обучением. Это отражает сходный эффект, наблюдаемый в LLM. Дополнительно обогащая обучение 27 наборами данных, GiT достигает высоких результатов нулевого обучения по различным задачам. Благодаря своему простому дизайну, этот подход обещает сократить архитектурный разрыв между зрением и языком. Код и модели будут доступны по адресу https://github.com/Haiyang-W/GiT.
Огромный успех моделей диффузии в синтезе текста в изображение сделал их многообещающими кандидатами для следующего поколения приложений конечного пользователя для генерации и редактирования изображений. Предыдущие работы сосредоточились на улучшении удобства использования моделей диффузии путем сокращения времени вывода или увеличения интерактивности пользователя, позволяя новые, более детализированные контроли, такие как текстовые подсказки на основе регионов. Однако мы эмпирически обнаружили, что интеграция обеих ветвей работ является нетривиальной, что ограничивает потенциал моделей диффузии. Для решения этой несовместимости мы представляем StreamMultiDiffusion, первую в реальном времени рамочную систему генерации изображений из текста на основе регионов. Стабилизируя быстрые методы вывода и перестраивая модель во вновь предложенную многозадачную потоковую архитектуру, мы достигаем в 10 раз быстрее генерации панорам, чем существующие решения, и скорость генерации 1,57 кадра в секунду в синтезе изображений из текста на основе регионов на одном графическом процессоре RTX 2080 Ti. Наше решение открывает новую парадигму для интерактивной генерации изображений под названием семантическая палитра, где высококачественные изображения генерируются в реальном времени из заданных нескольких регионов, кодируя предписанные семантические значения (например, орел, девушка). Наш код и демонстрационное приложение доступны по адресу https://github.com/ironjr/StreamMultiDiffusion.
Мы представляем Emu Video Edit (EVE), модель, которая устанавливает новый уровень в области видеомонтажа без использования каких-либо данных обучения видеомонтажу. Для разработки EVE мы отдельно обучаем адаптер редактирования изображений и адаптер генерации видео, и присоединяем оба к одной и той же модели текст-к-изображению. Затем, чтобы выровнять адаптеры в направлении видеомонтажа, мы представляем новую процедуру надзорного уплотнения, Факторизованную Диффузионную Уплотнение. Эта процедура уплотняет знания одного или нескольких учителей одновременно, без каких-либо данных обучения. Мы используем эту процедуру, чтобы обучить EVE редактировать видео путем совместного уплотнения знаний для (i) точного редактирования каждого отдельного кадра из адаптера редактирования изображений, и (ii) обеспечения временной согласованности между отредактированными кадрами с использованием адаптера генерации видео. Наконец, чтобы продемонстрировать потенциал нашего подхода в разблокировке других возможностей, мы выравниваем дополнительные комбинации адаптеров.
Эффективные модули внимания сыграли ключевую роль в успехе крупных моделей языка на основе трансформера (LLM), однако квадратичная сложность по времени и памяти этих модулей внимания также представляет собой вызов при обработке длинных последовательностей. Одно из потенциальных решений проблемы длинных последовательностей - использовать распределенные кластеры для параллельного выполнения вычислений модулей внимания на нескольких устройствах (например, GPU). Однако принятие распределенного подхода неизбежно вносит дополнительные накладные расходы памяти для хранения локальных результатов внимания и вызывает дополнительные затраты на коммуникацию для агрегации локальных результатов в глобальные. В данной статье мы предлагаем распределенную архитектуру внимания под названием "BurstAttention" для оптимизации доступа к памяти и операций коммуникации как на уровне глобального кластера, так и на уровне локального устройства. В наших экспериментах мы сравниваем BurstAttention с другими конкурентоспособными распределенными решениями внимания для обработки длинных последовательностей. Экспериментальные результаты при различных настройках длины демонстрируют, что BurstAttention предлагает значительные преимущества для обработки длинных последовательностей по сравнению с этими конкурентными базовыми вариантами, сокращая накладные расходы на коммуникацию на 40% и достигая ускорения в 2 раза во время обучения последовательности длиной 32K на 8 устройствах A100.
Визуальное отображение текста представляет собой фундаментальное вызов для современных моделей генерации текста в изображения, с основной проблемой, заключающейся в недостатках текстового кодировщика. Для достижения точного визуального отображения текста мы выделяем два важных требования к текстовым кодировщикам: осведомленность о символах и соответствие глифам. Наше решение включает создание серии настраиваемых текстовых кодировщиков, Glyph-ByT5, путем донастройки осведомленного о символах кодировщика ByT5 с использованием тщательно подобранного набора данных, содержащего пары глифов и текста. Мы представляем эффективный метод интеграции Glyph-ByT5 с SDXL, что приводит к созданию модели Glyph-SDXL для генерации дизайнов изображений. Это значительно повышает точность визуального отображения текста, улучшая ее с менее чем 20% до почти 90% на нашем бенчмарке дизайна изображений. Следует отметить, что у Glyph-SDXL появилась новая способность для визуального отображения текстовых абзацев, достигая высокой точности написания для десятков и сотен символов с автоматическими многострочными макетами. Наконец, путем донастройки Glyph-SDXL с небольшим набором высококачественных фотореалистичных изображений с визуальным текстом мы демонстрируем значительное улучшение возможностей визуального отображения текста в сценах на изображениях реального мира в открытой области. Эти убедительные результаты призваны поощрить дальнейшее исследование в области разработки настраиваемых текстовых кодировщиков для разнообразных и сложных задач.
Большие модели языка и зрения достигли точного восприятия объектов, однако ограничение разрешения изображения остается значительным препятствием для превзойтия производительности специалистов по конкретным задачам в сложных и плотных сценариях. Такое ограничение дополнительно ограничивает потенциал модели достижения тонкой визуальной и языковой ссылки в областях, таких как агенты GUI, подсчет и т. д. Для решения этой проблемы мы представляем объединенную модель общего назначения с высоким разрешением, Griffon v2, обеспечивающую гибкую ссылку на объекты с визуальными и текстовыми подсказками. Для эффективного увеличения разрешения изображения мы разработали простой и легкий проектор снижения частоты дискретизации для преодоления ограничения на ввод токенов в больших языковых моделях. Этот дизайн встроенно сохраняет полные контексты и мелкие детали, и значительно улучшает способность к мультимодальному восприятию, особенно для маленьких объектов. На основе этого мы дополнительно оснастили модель возможностями визуально-языковой ко-ссылки через удобный в использовании визуальный токенизатор. Он обеспечивает взаимодействие с гибкими целевыми изображениями, свободными текстами и даже координатами. Эксперименты показывают, что Griffon v2 может локализовать любые интересующие объекты с визуальной и текстовой ссылкой, достигать передовой производительности в задачах REC, фразовой привязки и REG, и превосходить экспертные модели в обнаружении объектов и подсчете объектов. Данные, коды и модели будут опубликованы на https://github.com/jefferyZhan/Griffon.
Понимание видео является одним из фундаментальных направлений в исследованиях компьютерного зрения, с обширными усилиями, посвященными изучению различных архитектур, таких как RNN, 3D CNN и Трансформеры. Недавно предложенная архитектура модели пространства состояний, например, Mamba, показывает многообещающие черты для расширения своего успеха в моделировании видео с длинными последовательностями. Для оценки того, может ли Mamba быть жизнеспособной альтернативой Трансформерам в области понимания видео, в данной работе мы проводим комплексный набор исследований, исследуя различные роли, которые Mamba может играть в моделировании видео, и исследуя различные задачи, где Mamba может проявить превосходство. Мы классифицируем Mamba на четыре роли для моделирования видео, вытекая из этого Видео-набора Mamba, состоящего из 14 моделей/модулей, и оцениваем их на 12 задачах по пониманию видео. Наши обширные эксперименты раскрывают сильный потенциал Mamba как в задачах только с видео, так и в задачах видео-языка, показывая многообещающие компромиссы между эффективностью и производительностью. Мы надеемся, что данная работа может предоставить ценные данные и идеи для будущих исследований в области понимания видео. Код общедоступен: https://github.com/OpenGVLab/video-mamba-suite.
Недавние модели вид-язык-действие (VLA) основаны на 2D входных данных и не взаимодействуют с широким миром 3D физического мира. Более того, они предсказывают действия, обучаясь прямому отображению от восприятия к действию, игнорируя обширную динамику мира и связи между действиями и динамикой. В отличие от этого, человек обладает моделями мира, которые позволяют представить себе будущие сценарии для планирования действий соответственно. Для этой цели мы предлагаем 3D-VLA, вводя новое семейство моделей фундаментальных воплощений, которые плавно связывают 3D восприятие, рассуждения и действия через генеративную модель мира. Конкретно, 3D-VLA строится на основе модели большого языка (LLM) на основе 3D, и вводится набор токенов взаимодействия для взаимодействия с воплощенной средой. Кроме того, чтобы внедрить способности генерации в модель, мы обучаем серию моделей диффузии воплощений и выравниваем их с LLM для прогнозирования целевых изображений и облаков точек. Для обучения нашего 3D-VLA мы составляем крупномасштабный набор данных инструкций воплощения 3D, извлекая обширную информацию, связанную с 3D, из существующих наборов данных по робототехнике. Наши эксперименты на удерживаемых наборах данных показывают, что 3D-VLA значительно улучшает способности рассуждения, мультимодальной генерации и планирования во воплощенных средах, демонстрируя его потенциал в реальных приложениях.
Эволюция текста к визуальным компонентам облегчает повседневную жизнь людей, такие как создание изображений, видео из текста и идентификация желаемых элементов в изображениях. Модели компьютерного зрения, включающие мультимодальные способности, в предыдущие дни сосредотачивались на обнаружении изображений, классификации на основе четко определенных объектов. Большие модели языка (LLM) вводят преобразование от естественного языка к визуальным объектам, представляющим визуальное оформление для текстовых контекстов. OpenAI GPT-4 появился как вершина в LLM, в то время как область компьютерного зрения (CV) гордится множеством передовых моделей и алгоритмов для преобразования 2D изображений в их 3D представления. Однако несоответствие между алгоритмами и проблемой может привести к нежелательным результатам. В ответ на этот вызов мы предлагаем единую структуру VisionGPT-3D для объединения передовых моделей зрения, тем самым облегчая развитие зрительно-ориентированного искусственного интеллекта. VisionGPT-3D предоставляет универсальную мультимодальную структуру, основанную на сильных сторонах фундаментальных моделей мультимодальности. Он плавно интегрирует различные передовые модели зрения и обеспечивает автоматизацию выбора передовых моделей зрения, идентифицирует подходящие алгоритмы создания 3D мешей, соответствующие анализу 2D карт глубины, генерирует оптимальные результаты на основе разнообразных мультимодальных входов, таких как текстовые подсказки. Ключевые слова: VisionGPT-3D, понимание 3D зрения, мультимодальный агент
В последнее время исследователи в области искусственного интеллекта проявляют большой интерес к тому, как сочетаются язык и зрение, что приводит к разработке мультимодельных моделей, направленных на беспрепятственное интегрирование текстовой и визуальной информации. Мультимодельные модели, расширение Больших Языковых Моделей (LLM), проявили замечательные способности в решении разнообразных задач, начиная от описания изображений и визуального вопросно-ответного моделирования (VQA) до визуального закрепления. Несмотря на значительные достижения этих моделей, остаются вызовы в точной интерпретации изображений и ответа на вопрос, что является распространенным явлением в реальных сценариях. В данной статье представлен новаторский подход к улучшению мультимодальных способностей существующих моделей. В ответ на наблюдаемые ограничения в текущих Моделях Визуального Языка (VLM) и Мультимодальных Больших Языковых Моделях (MLLM), наша предложенная модель Veagle включает уникальный механизм, вдохновленный успехами и идеями предыдущих работ. Veagle использует динамический механизм для прямой проекции закодированной визуальной информации непосредственно в языковую модель. Этот динамический подход позволяет более тонко понимать сложные детали, присутствующие в визуальных контекстах. Для проверки эффективности Veagle мы проводим комплексные эксперименты на эталонных наборах данных, акцентируясь на задачах, таких как визуальное вопросно-ответное моделирование и понимание изображений. Наши результаты указывают на улучшение производительности на 5-6 \%, причем Veagle превосходит существующие модели значительно. Полученные результаты подчеркивают универсальность и применимость модели за пределами традиционных эталонов.
Недавние достижения в моделях пространства состояний, в частности Mamba, продемонстрировали значительный прогресс в моделировании длинных последовательностей для задач, таких как понимание языка. Тем не менее, их применение в задачах зрения не значительно превзошло производительность традиционных сверточных нейронных сетей (CNN) и трансформеров зрения (ViTs). В данной статье утверждается, что ключ к улучшению Vision Mamba (ViM) заключается в оптимизации направлений сканирования для моделирования последовательностей. Традиционные подходы ViM, которые выравнивают пространственные токены, не учитывают сохранение локальных 2D зависимостей, увеличивая расстояние между смежными токенами. Мы предлагаем новую стратегию локального сканирования, которая разделяет изображения на отдельные окна, эффективно захватывая локальные зависимости, сохраняя при этом глобальную перспективу. Кроме того, учитывая различные предпочтения к схемам сканирования на разных слоях сети, мы предлагаем динамический метод независимого поиска оптимальных выборов сканирования для каждого слоя, что значительно улучшает производительность. Обширные эксперименты как с простыми, так и с иерархическими моделями подчеркивают превосходство нашего подхода в эффективном захвате изображений. Например, наша модель значительно превосходит Vim-Ti на 3,1% на ImageNet при том же объеме операций с плавающей запятой (FLOPs) в 1,5G. Код доступен по ссылке: https://github.com/hunto/LocalMamba.