Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Jamba, новую базовую модель большого языка, основанную на новаторской гибридной архитектуре Transformer-Mamba смеси экспертов (MoE). Конкретно, Jamba вставляет блоки слоев Transformer и Mamba, получая преимущества обеих семейств моделей. MoE добавляется в некоторые из этих слоев для увеличения емкости модели, при этом управление активным использованием параметров остаётся удобным. Эта гибкая архитектура позволяет конфигурации, ориентированные на ресурсы и цели. В конкретной конфигурации, которую мы реализовали, мы получили мощную модель, которая помещается на одном графическом процессоре объёмом 80 ГБ. Созданный в большом масштабе, Jamba обеспечивает высокую производительность и небольшой объём памяти по сравнению с обычными трансформерами, а также демонстрирует передовые результаты на стандартных бенчмарках языковых моделей и оценках длинного контекста. Замечательно, модель показывает сильные результаты для контекстной длины до 256 тыс. токенов. Мы изучаем различные архитектурные решения, такие как объединение слоев Transformer и Mamba, а также смешивание экспертов, и показываем, что некоторые из них критически важны для моделирования в большом масштабе. Мы также описываем несколько интересных свойств этих архитектур, которые были выявлены при обучении и оценке Jamba, и планируем выпустить контрольные точки из различных запусков абляции, чтобы поощрить дальнейшее изучение этой новой архитектуры. Мы предоставляем веса нашей реализации Jamba общедоступно на основе лицензии с открытым исходным кодом.
Мы представляем модель встраивания текста под названием Gecko, которая компактна и универсальна. Gecko достигает высокой производительности поиска за счет использования ключевой идеи: дистилляции знаний из больших языковых моделей (LLM) в поисковик. Наш двухэтапный процесс дистилляции начинается с создания разнообразных синтетических парных данных с использованием LLM. Затем мы дополнительно улучшаем качество данных, извлекая набор кандидатов для каждого запроса и повторно маркируя положительные и сложные негативные отрывки с использованием того же LLM. Эффективность нашего подхода подтверждается компактностью Gecko. На бенчмарке по встраиванию текста (MTEB) модель Gecko с 256 измерениями встраивания превосходит все существующие записи с размером встраивания 768. Модель Gecko с 768 измерениями встраивания достигает среднего показателя 66.31, конкурируя с моделями в 7 раз большего размера и с встраиванием в 5 раз большей размерности.
Большая языковая модель (LLM) широко используется для задач, таких как интеллектуальные помощники, суммирование текста, перевод и мультимодальность на мобильных телефонах. Однако текущие методы развертывания LLM на устройствах поддерживают медленную скорость вывода, что приводит к плохому пользовательскому опыту. Для облегчения высокоэффективного развертывания LLM на графических процессорах устройств мы предлагаем четыре техники оптимизации: (a) подход на основе символьных выражений для поддержки вывода модели динамической формы; (b) оптимизации операторов и установка приоритета выполнения для увеличения скорости вывода и снижения задержек на телефоне; (c) метод квантования FP4, названный M0E4, для снижения накладных расходов на деквантование; (d) техника на основе подтензоров для устранения необходимости копирования кэша KV после вывода LLM. Более того, мы реализуем эти методы в нашем мобильном движке вывода, Transformer-Lite, который совместим как с процессорами Qualcomm, так и с MTK. Мы оценили производительность Transformer-Lite с использованием LLM с различными архитектурами и параметрами от 2B до 14B. В частности, мы достигли скоростей предварительной загрузки и декодирования 121 токен/с и 14 токен/с для ChatGLM2 6B, и 330 токен/с и 30 токен/с для более маленькой Gemma 2B, соответственно. По сравнению с CPU-ориентированным FastLLM и GPU-ориентированным MLC-LLM, наш движок достигает более чем в 10 раз ускорения скорости предварительной загрузки и в 2-3 раза ускорения скорости декодирования.
Разрешение ссылок - важная проблема, существенная для понимания и успешной обработки контекста различного рода. Этот контекст включает как предыдущие ходы, так и контекст, относящийся к неконверсационным сущностям, таким как сущности на экране пользователя или работающие в фоновом режиме. Хотя LLM-модели показали себя чрезвычайно мощными для различных задач, их использование в разрешении ссылок, особенно для неконверсационных сущностей, остается недоиспользованным. В данной статье демонстрируется, как LLM-модели могут быть использованы для создания чрезвычайно эффективной системы для разрешения ссылок различных типов, показывая, как разрешение ссылок может быть преобразовано в задачу языкового моделирования, несмотря на то, что включает формы сущностей, такие как те, что на экране, которые традиционно не поддаются сведению к текстовому виду. Мы демонстрируем значительные улучшения по сравнению с существующей системой с аналогичной функциональностью по различным типам ссылок, причем наша самая маленькая модель достигает абсолютного прироста более 5% для ссылок на экране. Мы также проводим сравнительный анализ с GPT-3.5 и GPT-4, при этом наша самая маленькая модель достигает производительности, сравнимой с GPT-4, а наши более крупные модели значительно превосходят ее.
Хотя синтез нового вида (NVS) достиг значительного прогресса в 3D компьютерном зрении, обычно требуется начальная оценка камерной интринсики и экстринсики из плотных точек зрения. Эта предварительная обработка обычно выполняется с помощью конвейера структуры из движения (SfM), процедуры, которая может быть медленной и ненадежной, особенно в сценариях с разреженными видами, где недостаточно сопоставленных особенностей для точной реконструкции. В данной работе мы интегрируем преимущества точечных представлений (например, 3D Гауссово распыление, 3D-GS) с плотными моделями стерео (DUSt3R) для решения сложных и нерешенных проблем в NVS в неограниченных условиях, которые охватывают вызовы без позы и разреженных видов. Наша структура, InstantSplat, объединяет плотные стерео априори с 3D-GS для создания 3D гауссовских моделей крупномасштабных сцен из разреженных и без позы изображений менее чем за 1 минуту. Конкретно, InstantSplat включает модуль Грубой Геометрической Инициализации (CGI), который быстро устанавливает предварительную структуру сцены и параметры камеры для всех обучающих видов, используя глобально выровненные 3D точечные карты, полученные из предварительно обученного плотного стерео конвейера. Затем следует модуль Быстрой 3D-Гауссовской Оптимизации (F-3DGO), который совместно оптимизирует атрибуты 3D Гаусса и инициализированные позы с регуляризацией позы. Эксперименты, проведенные на крупномасштабных наборах данных Tanks & Temples, показывают, что InstantSplat значительно улучшает SSIM (на 32%), одновременно уменьшая Абсолютную Траекторную Ошибку (ATE) на 80%. Это подтверждает InstantSplat как жизнеспособное решение для сценариев, включающих условия без позы и разреженных видов. Страница проекта: instantsplat.github.io.
Эта статья представляет новое и значительное испытание для моделей Визуального Языка (VLM), названное Обнаружение Неразрешимой Проблемы (UPD). UPD исследует способность VLM удерживать ответы при столкновении с неразрешимыми проблемами в контексте задач Визуального Вопроса и Ответа (VQA). UPD включает три различных настройки: Обнаружение Отсутствующего Ответа (AAD), Обнаружение Несовместного Набора Ответов (IASD) и Обнаружение Несовместного Визуального Вопроса (IVQD). Для глубокого изучения проблемы UPD обширные эксперименты показывают, что большинство VLM, включая GPT-4V и LLaVA-Next-34B, испытывают трудности с нашими бенчмарками в различной степени, выделяя значительное пространство для улучшений. Для решения UPD мы исследуем как решения без обучения, так и основанные на обучении, предлагая новые идеи о их эффективности и ограничениях. Мы надеемся, что наши идеи, вместе с будущими усилиями в рамках предложенных настроек UPD, улучшат более широкое понимание и развитие более практичных и надежных VLM.
Можем ли мы локализовать веса и механизмы, используемые моделью языка для запоминания и воспроизведения целых абзацев своих обучающих данных? В данной статье мы показываем, что, хотя запоминание распределено по нескольким слоям и компонентам модели, градиенты запомненных абзацев имеют различимый пространственный узор, будучи более выраженными в нижних слоях модели, чем градиенты не запомненных примеров. Более того, запомненные примеры могут быть разучены путем донастройки только высокоградиентных весов. Мы локализуем внимание низкослойной головки, которая, кажется, особенно вовлечена в запоминание абзацев. Эта головка в основном сосредотачивает свое внимание на характерных, редких токенах, которые наименее часто встречаются в униграммном распределении корпуса. Затем мы изучаем, как локализовано запоминание через токены в префиксе, исказив токены и измерив вызванные изменения в декодировании. Несколько характерных токенов в начале префикса часто могут испортить весь последующий текст. В целом, запомненные продолжения не только сложнее разучить, но и испортить, чем не запомненные.
В попытке снизить вычислительную нагрузку Трансформеров, исследования в области линейного внимания набирают значительный оборот. Однако стратегии улучшения механизмов внимания обычно требуют обширной переобучения, что непрактично для больших языковых моделей с огромным количеством параметров. В данной статье мы представляем DiJiang, новый подход к ядерной кернелизации в частотной области, который позволяет преобразовать предварительно обученный обычный Трансформер в модель с линейной сложностью с небольшими затратами на обучение. Используя взвешенный метод квази-Монте-Карло для выборки, предложенный подход теоретически обеспечивает более эффективное приближение. Для дальнейшего снижения вычислительной сложности обучения наша кернелизация основана на операциях дискретного косинусного преобразования (DCT). Обширные эксперименты показывают, что предложенный метод достигает сопоставимой производительности с оригинальным Трансформером, но с значительно сниженными затратами на обучение и гораздо более быстрыми скоростями вывода. Наш DiJiang-7B достигает сопоставимой производительности с LLaMA2-7B на различных бенчмарках, требуя при этом лишь около 1/50 затрат на обучение. Код доступен по ссылке https://github.com/YuchuanTian/DiJiang.
Недавние достижения в области глубокого обучения в основном опирались на трансформеры из-за их зависимости от данных и способности обучаться в масштабе. Однако модуль внимания в этих архитектурах демонстрирует квадратичную сложность по времени и пространству в зависимости от размера ввода, что ограничивает их масштабируемость для моделирования длинных последовательностей. Несмотря на недавние попытки разработать эффективную и эффективную архитектурную основу для многомерных данных, таких как изображения и многомерные временные ряды, существующие модели либо независимы от данных, либо не позволяют обеспечить взаимодействие между измерениями и внутри измерений. Недавно модели пространства состояний (SSM), а точнее, выборочные модели пространства состояний, с эффективной аппаратно-ориентированной реализацией, показали многообещающий потенциал для моделирования длинных последовательностей. Вдохновленные успехом SSM, мы представляем MambaMixer, новую архитектуру с весами, зависящими от данных, которая использует двойной механизм выбора между токенами и каналами, называемый выборочным микшером токенов и каналов. MambaMixer соединяет выборочные микшеры с помощью механизма взвешенного усреднения, позволяя слоям иметь прямой доступ к начальным признакам. В качестве доказательства концепции мы разрабатываем архитектуры Vision MambaMixer (ViM2) и Time Series MambaMixer (TSM2) на основе блока MambaMixer и исследуем их производительность в различных задачах видения и прогнозирования временных рядов. Наши результаты подчеркивают важность выборочного смешивания как между токенами, так и между каналами. В классификации ImageNet, обнаружении объектов и семантической сегментации ViM2 достигает конкурентоспособной производительности с хорошо установленными моделями видения и превосходит модели видения на основе SSM. В прогнозировании временных рядов TSM2 достигает выдающейся производительности по сравнению с передовыми методами, продемонстрировав значительно улучшенные вычислительные затраты. Эти результаты показывают, что хотя трансформеры, внимание между каналами и многослойные перцептроны достаточны для хорошей производительности в прогнозировании временных рядов, ни одно из них не является обязательным.
Осязание и зрение идут рука об руку, взаимно улучшая нашу способность понимать мир. С исследовательской точки зрения проблема объединения осязания и зрения недостаточно изучена и представляет интересные вызовы. В этой связи мы предлагаем Tactile-Informed 3DGS, новый подход, который интегрирует данные осязания (локальные карты глубины) с данными многозрительного зрения для достижения реконструкции поверхности и синтеза нового вида. Наш метод оптимизирует 3D гауссовы примитивы для точного моделирования геометрии объекта в точках контакта. Создавая фреймворк, который уменьшает пропускание в местах касания, мы достигаем улучшенной реконструкции поверхности, обеспечивая равномерно гладкую карту глубины. Осязание особенно полезно при рассмотрении неламбертовых объектов (например, блестящих или отражающих поверхностей), поскольку современные методы часто не могут точно воссоздать блики. Сочетая зрительное и тактильное восприятие, мы достигаем более точной реконструкции геометрии с меньшим количеством изображений по сравнению с предыдущими методами. Мы проводим оценку на объектах с глянцевыми и отражающими поверхностями и демонстрируем эффективность нашего подхода, предлагая значительные улучшения качества реконструкции.