HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

10 papers found

Jamba: Гибридная модель языка трансформера-мамба
Jamba: A Hybrid Transformer-Mamba Language Model

Mar 28

ByOpher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham

112

Мы представляем Jamba, новую базовую модель большого языка, основанную на новаторской гибридной архитектуре Transformer-Mamba смеси экспертов (MoE). Конкретно, Jamba вставляет блоки слоев Transformer и Mamba, получая преимущества обеих семейств моделей. MoE добавляется в некоторые из этих слоев для увеличения емкости модели, при этом управление активным использованием параметров остаётся удобным. Эта гибкая архитектура позволяет конфигурации, ориентированные на ресурсы и цели. В конкретной конфигурации, которую мы реализовали, мы получили мощную модель, которая помещается на одном графическом процессоре объёмом 80 ГБ. Созданный в большом масштабе, Jamba обеспечивает высокую производительность и небольшой объём памяти по сравнению с обычными трансформерами, а также демонстрирует передовые результаты на стандартных бенчмарках языковых моделей и оценках длинного контекста. Замечательно, модель показывает сильные результаты для контекстной длины до 256 тыс. токенов. Мы изучаем различные архитектурные решения, такие как объединение слоев Transformer и Mamba, а также смешивание экспертов, и показываем, что некоторые из них критически важны для моделирования в большом масштабе. Мы также описываем несколько интересных свойств этих архитектур, которые были выявлены при обучении и оценке Jamba, и планируем выпустить контрольные точки из различных запусков абляции, чтобы поощрить дальнейшее изучение этой новой архитектуры. Мы предоставляем веса нашей реализации Jamba общедоступно на основе лицензии с открытым исходным кодом.

Гекко: универсальные текстовые вложения, выделенные из больших языковых моделей
Gecko: Versatile Text Embeddings Distilled from Large Language Models

Mar 29

ByJinhyuk Lee, Zhuyun Dai, Xiaoqi Ren, Blair Chen, Daniel Cer, Jeremy R. Cole, Kai Hui, Michael Boratko, Rajvi Kapadia, Wen Ding, Yi Luan, Sai Meher Karthik Duddu, Gustavo Hernandez Abrego, Weiqiang Shi, Nithi Gupta, Aditya Kusupati, Prateek Jain, Siddhartha Reddy Jonnalagadda, Ming-Wei Chang, Iftekhar Naim

Мы представляем модель встраивания текста под названием Gecko, которая компактна и универсальна. Gecko достигает высокой производительности поиска за счет использования ключевой идеи: дистилляции знаний из больших языковых моделей (LLM) в поисковик. Наш двухэтапный процесс дистилляции начинается с создания разнообразных синтетических парных данных с использованием LLM. Затем мы дополнительно улучшаем качество данных, извлекая набор кандидатов для каждого запроса и повторно маркируя положительные и сложные негативные отрывки с использованием того же LLM. Эффективность нашего подхода подтверждается компактностью Gecko. На бенчмарке по встраиванию текста (MTEB) модель Gecko с 256 измерениями встраивания превосходит все существующие записи с размером встраивания 768. Модель Gecko с 768 измерениями встраивания достигает среднего показателя 66.31, конкурируя с моделями в 7 раз большего размера и с встраиванием в 5 раз большей размерности.

Transformer-Lite: Высокоэффективное развертывание больших языковых моделей на графических процессорах мобильных телефонов
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs

Mar 29

ByLuchang Li, Sheng Qian, Jie Lu, Lunxi Yuan, Rui Wang, Qin Xie

Большая языковая модель (LLM) широко используется для задач, таких как интеллектуальные помощники, суммирование текста, перевод и мультимодальность на мобильных телефонах. Однако текущие методы развертывания LLM на устройствах поддерживают медленную скорость вывода, что приводит к плохому пользовательскому опыту. Для облегчения высокоэффективного развертывания LLM на графических процессорах устройств мы предлагаем четыре техники оптимизации: (a) подход на основе символьных выражений для поддержки вывода модели динамической формы; (b) оптимизации операторов и установка приоритета выполнения для увеличения скорости вывода и снижения задержек на телефоне; (c) метод квантования FP4, названный M0E4, для снижения накладных расходов на деквантование; (d) техника на основе подтензоров для устранения необходимости копирования кэша KV после вывода LLM. Более того, мы реализуем эти методы в нашем мобильном движке вывода, Transformer-Lite, который совместим как с процессорами Qualcomm, так и с MTK. Мы оценили производительность Transformer-Lite с использованием LLM с различными архитектурами и параметрами от 2B до 14B. В частности, мы достигли скоростей предварительной загрузки и декодирования 121 токен/с и 14 токен/с для ChatGLM2 6B, и 330 токен/с и 30 токен/с для более маленькой Gemma 2B, соответственно. По сравнению с CPU-ориентированным FastLLM и GPU-ориентированным MLC-LLM, наш движок достигает более чем в 10 раз ускорения скорости предварительной загрузки и в 2-3 раза ускорения скорости декодирования.

ReALM: Решение ссылок как моделирование языка
ReALM: Reference Resolution As Language Modeling

Mar 29

ByJoel Ruben Antony Moniz, Soundarya Krishnan, Melis Ozyildirim, Prathamesh Saraf, Halim Cagri Ates, Yuan Zhang, Hong Yu, Nidhi Rajshree

Разрешение ссылок - важная проблема, существенная для понимания и успешной обработки контекста различного рода. Этот контекст включает как предыдущие ходы, так и контекст, относящийся к неконверсационным сущностям, таким как сущности на экране пользователя или работающие в фоновом режиме. Хотя LLM-модели показали себя чрезвычайно мощными для различных задач, их использование в разрешении ссылок, особенно для неконверсационных сущностей, остается недоиспользованным. В данной статье демонстрируется, как LLM-модели могут быть использованы для создания чрезвычайно эффективной системы для разрешения ссылок различных типов, показывая, как разрешение ссылок может быть преобразовано в задачу языкового моделирования, несмотря на то, что включает формы сущностей, такие как те, что на экране, которые традиционно не поддаются сведению к текстовому виду. Мы демонстрируем значительные улучшения по сравнению с существующей системой с аналогичной функциональностью по различным типам ссылок, причем наша самая маленькая модель достигает абсолютного прироста более 5% для ссылок на экране. Мы также проводим сравнительный анализ с GPT-3.5 и GPT-4, при этом наша самая маленькая модель достигает производительности, сравнимой с GPT-4, а наши более крупные модели значительно превосходят ее.

InstantSplat: Неограниченное разреженное проецирование гауссовых капель без учета позы за 40 секунд.
InstantSplat: Unbounded Sparse-view Pose-free Gaussian Splatting in 40 Seconds

Mar 29

ByZhiwen Fan, Wenyan Cong, Kairun Wen, Kevin Wang, Jian Zhang, Xinghao Ding, Danfei Xu, Boris Ivanovic, Marco Pavone, Georgios Pavlakos, Zhangyang Wang, Yue Wang

Хотя синтез нового вида (NVS) достиг значительного прогресса в 3D компьютерном зрении, обычно требуется начальная оценка камерной интринсики и экстринсики из плотных точек зрения. Эта предварительная обработка обычно выполняется с помощью конвейера структуры из движения (SfM), процедуры, которая может быть медленной и ненадежной, особенно в сценариях с разреженными видами, где недостаточно сопоставленных особенностей для точной реконструкции. В данной работе мы интегрируем преимущества точечных представлений (например, 3D Гауссово распыление, 3D-GS) с плотными моделями стерео (DUSt3R) для решения сложных и нерешенных проблем в NVS в неограниченных условиях, которые охватывают вызовы без позы и разреженных видов. Наша структура, InstantSplat, объединяет плотные стерео априори с 3D-GS для создания 3D гауссовских моделей крупномасштабных сцен из разреженных и без позы изображений менее чем за 1 минуту. Конкретно, InstantSplat включает модуль Грубой Геометрической Инициализации (CGI), который быстро устанавливает предварительную структуру сцены и параметры камеры для всех обучающих видов, используя глобально выровненные 3D точечные карты, полученные из предварительно обученного плотного стерео конвейера. Затем следует модуль Быстрой 3D-Гауссовской Оптимизации (F-3DGO), который совместно оптимизирует атрибуты 3D Гаусса и инициализированные позы с регуляризацией позы. Эксперименты, проведенные на крупномасштабных наборах данных Tanks & Temples, показывают, что InstantSplat значительно улучшает SSIM (на 32%), одновременно уменьшая Абсолютную Траекторную Ошибку (ATE) на 80%. Это подтверждает InstantSplat как жизнеспособное решение для сценариев, включающих условия без позы и разреженных видов. Страница проекта: instantsplat.github.io.

Выявление неразрешимых проблем: Оценка достоверности моделей языка для зрения
Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

Mar 29

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Qing Yu, Go Irie, Yixuan Li, Hai Li, Ziwei Liu, Kiyoharu Aizawa

Эта статья представляет новое и значительное испытание для моделей Визуального Языка (VLM), названное Обнаружение Неразрешимой Проблемы (UPD). UPD исследует способность VLM удерживать ответы при столкновении с неразрешимыми проблемами в контексте задач Визуального Вопроса и Ответа (VQA). UPD включает три различных настройки: Обнаружение Отсутствующего Ответа (AAD), Обнаружение Несовместного Набора Ответов (IASD) и Обнаружение Несовместного Визуального Вопроса (IVQD). Для глубокого изучения проблемы UPD обширные эксперименты показывают, что большинство VLM, включая GPT-4V и LLaVA-Next-34B, испытывают трудности с нашими бенчмарками в различной степени, выделяя значительное пространство для улучшений. Для решения UPD мы исследуем как решения без обучения, так и основанные на обучении, предлагая новые идеи о их эффективности и ограничениях. Мы надеемся, что наши идеи, вместе с будущими усилиями в рамках предложенных настроек UPD, улучшат более широкое понимание и развитие более практичных и надежных VLM.

Локализация запоминания параграфов в языковых моделях
Localizing Paragraph Memorization in Language Models

Mar 28

ByNiklas Stoehr, Mitchell Gordon, Chiyuan Zhang, Owen Lewis

Можем ли мы локализовать веса и механизмы, используемые моделью языка для запоминания и воспроизведения целых абзацев своих обучающих данных? В данной статье мы показываем, что, хотя запоминание распределено по нескольким слоям и компонентам модели, градиенты запомненных абзацев имеют различимый пространственный узор, будучи более выраженными в нижних слоях модели, чем градиенты не запомненных примеров. Более того, запомненные примеры могут быть разучены путем донастройки только высокоградиентных весов. Мы локализуем внимание низкослойной головки, которая, кажется, особенно вовлечена в запоминание абзацев. Эта головка в основном сосредотачивает свое внимание на характерных, редких токенах, которые наименее часто встречаются в униграммном распределении корпуса. Затем мы изучаем, как локализовано запоминание через токены в префиксе, исказив токены и измерив вызванные изменения в декодировании. Несколько характерных токенов в начале префикса часто могут испортить весь последующий текст. В целом, запомненные продолжения не только сложнее разучить, но и испортить, чем не запомненные.

DiJiang: Эффективные большие языковые модели через компактную ядерную трансформацию
DiJiang: Efficient Large Language Models through Compact Kernelization

Mar 29

ByHanting Chen, Zhicheng Liu, Xutao Wang, Yuchuan Tian, Yunhe Wang

В попытке снизить вычислительную нагрузку Трансформеров, исследования в области линейного внимания набирают значительный оборот. Однако стратегии улучшения механизмов внимания обычно требуют обширной переобучения, что непрактично для больших языковых моделей с огромным количеством параметров. В данной статье мы представляем DiJiang, новый подход к ядерной кернелизации в частотной области, который позволяет преобразовать предварительно обученный обычный Трансформер в модель с линейной сложностью с небольшими затратами на обучение. Используя взвешенный метод квази-Монте-Карло для выборки, предложенный подход теоретически обеспечивает более эффективное приближение. Для дальнейшего снижения вычислительной сложности обучения наша кернелизация основана на операциях дискретного косинусного преобразования (DCT). Обширные эксперименты показывают, что предложенный метод достигает сопоставимой производительности с оригинальным Трансформером, но с значительно сниженными затратами на обучение и гораздо более быстрыми скоростями вывода. Наш DiJiang-7B достигает сопоставимой производительности с LLaMA2-7B на различных бенчмарках, требуя при этом лишь около 1/50 затрат на обучение. Код доступен по ссылке https://github.com/YuchuanTian/DiJiang.

MambaMixer: Эффективные модели пространства состояний с выбором двойных токенов и каналов.
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

Mar 29

ByAli Behrouz, Michele Santacatterina, Ramin Zabih

Недавние достижения в области глубокого обучения в основном опирались на трансформеры из-за их зависимости от данных и способности обучаться в масштабе. Однако модуль внимания в этих архитектурах демонстрирует квадратичную сложность по времени и пространству в зависимости от размера ввода, что ограничивает их масштабируемость для моделирования длинных последовательностей. Несмотря на недавние попытки разработать эффективную и эффективную архитектурную основу для многомерных данных, таких как изображения и многомерные временные ряды, существующие модели либо независимы от данных, либо не позволяют обеспечить взаимодействие между измерениями и внутри измерений. Недавно модели пространства состояний (SSM), а точнее, выборочные модели пространства состояний, с эффективной аппаратно-ориентированной реализацией, показали многообещающий потенциал для моделирования длинных последовательностей. Вдохновленные успехом SSM, мы представляем MambaMixer, новую архитектуру с весами, зависящими от данных, которая использует двойной механизм выбора между токенами и каналами, называемый выборочным микшером токенов и каналов. MambaMixer соединяет выборочные микшеры с помощью механизма взвешенного усреднения, позволяя слоям иметь прямой доступ к начальным признакам. В качестве доказательства концепции мы разрабатываем архитектуры Vision MambaMixer (ViM2) и Time Series MambaMixer (TSM2) на основе блока MambaMixer и исследуем их производительность в различных задачах видения и прогнозирования временных рядов. Наши результаты подчеркивают важность выборочного смешивания как между токенами, так и между каналами. В классификации ImageNet, обнаружении объектов и семантической сегментации ViM2 достигает конкурентоспособной производительности с хорошо установленными моделями видения и превосходит модели видения на основе SSM. В прогнозировании временных рядов TSM2 достигает выдающейся производительности по сравнению с передовыми методами, продемонстрировав значительно улучшенные вычислительные затраты. Эти результаты показывают, что хотя трансформеры, внимание между каналами и многослойные перцептроны достаточны для хорошей производительности в прогнозировании временных рядов, ни одно из них не является обязательным.

Снимай, Нажимай, Расплющивай: Тактильно информированное трехмерное гауссовское распыление для восстановления сложных поверхностей
Snap-it, Tap-it, Splat-it: Tactile-Informed 3D Gaussian Splatting for Reconstructing Challenging Surfaces

Mar 29

ByMauro Comi, Alessio Tonioni, Max Yang, Jonathan Tremblay, Valts Blukis, Yijiong Lin, Nathan F. Lepora, Laurence Aitchison

Осязание и зрение идут рука об руку, взаимно улучшая нашу способность понимать мир. С исследовательской точки зрения проблема объединения осязания и зрения недостаточно изучена и представляет интересные вызовы. В этой связи мы предлагаем Tactile-Informed 3DGS, новый подход, который интегрирует данные осязания (локальные карты глубины) с данными многозрительного зрения для достижения реконструкции поверхности и синтеза нового вида. Наш метод оптимизирует 3D гауссовы примитивы для точного моделирования геометрии объекта в точках контакта. Создавая фреймворк, который уменьшает пропускание в местах касания, мы достигаем улучшенной реконструкции поверхности, обеспечивая равномерно гладкую карту глубины. Осязание особенно полезно при рассмотрении неламбертовых объектов (например, блестящих или отражающих поверхностей), поскольку современные методы часто не могут точно воссоздать блики. Сочетая зрительное и тактильное восприятие, мы достигаем более точной реконструкции геометрии с меньшим количеством изображений по сравнению с предыдущими методами. Мы проводим оценку на объектах с глянцевыми и отражающими поверхностями и демонстрируем эффективность нашего подхода, предлагая значительные улучшения качества реконструкции.

MambaMixer: Эффективные модели пространства состояний с выбором двойных токенов и каналов.
MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

Mar 29

ByAli Behrouz, Michele Santacatterina, Ramin Zabih