HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

6 papers found

Ваш трансформер на самом деле линеен.
Your Transformer is Secretly Linear

May 19

ByAnton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Nikolai Gerasimenko, Ivan Oseledets, Denis Dimitrov, Andrey Kuznetsov

159

Этот документ раскрывает новую линейную характеристику, исключительную для декодеров трансформеров, включая модели, такие как GPT, LLaMA, OPT, BLOOM и другие. Мы анализируем преобразования вложений между последовательными слоями, раскрывая почти идеальное линейное отношение (оценка сходства Прокруста 0.99). Однако линейность уменьшается, когда компонент остатка удаляется из-за последовательно низкой нормы выхода слоя трансформера. Наши эксперименты показывают, что удаление или линейная аппроксимация некоторых наиболее линейных блоков трансформеров не оказывает значительного влияния на потери или производительность модели. Более того, в наших экспериментах по предварительному обучению на более маленьких моделях мы вводим регуляризацию на основе косинусного сходства с целью уменьшения линейности слоя. Эта регуляризация улучшает метрики производительности на бенчмарках, таких как Tiny Stories и SuperGLUE, а также успешно уменьшает линейность моделей. Это исследование вызывает сомнения в существующем понимании архитектур трансформеров, предполагая, что их функционирование может быть более линейным, чем ранее предполагалось.

Сокращение размера кеша ключ-значение трансформера с помощью внутрислойного внимания.
Reducing Transformer Key-Value Cache Size with Cross-Layer Attention

May 21

ByWilliam Brandon, Mayank Mishra, Aniruddha Nrusimha, Rameswar Panda, Jonathan Ragan Kelly

Кэш с ключами и значениями (KV) играет важную роль в ускорении декодирования для авторегрессионных моделей больших языков на основе трансформера (LLM). Однако объем памяти, необходимый для хранения кэша KV, может стать запретным при больших длинах последовательностей и больших размерах пакетов. С момента изобретения трансформера были обнаружены два из наиболее эффективных вмешательства для уменьшения размера кэша KV: Множественное Внимание Запросов (MQA) и его обобщение, Групповое Внимание Запросов (GQA). MQA и GQA изменяют конструкцию блока внимания так, что несколько головок запросов могут разделять одну головку ключа/значения, уменьшая количество различных головок ключа/значения на большой коэффициент, сохраняя при этом минимальное снижение точности. В данной статье мы показываем, что возможно пойти дальше в Множественном Внимании Запросов, также разделяя головки ключа и значения между смежными слоями, что приводит к новой конструкции внимания, которую мы называем Перекрестным Вниманием Слоев (CLA). С CLA мы обнаружили, что можно уменьшить размер кэша KV еще в 2 раза, сохраняя практически такую же точность, как у немодифицированного MQA. В экспериментах по обучению моделей с 1B и 3B параметрами с нуля мы демонстрируем, что CLA обеспечивает улучшение Парето в обмене память/точность, которое возможно с традиционным MQA, позволяя выводить более длинные последовательности и использовать большие размеры пакетов, чем это было бы возможно в противном случае.

Диффузия для моделирования мира: визуальные детали имеют значение в играх Atari.
Diffusion for World Modeling: Visual Details Matter in Atari

May 20

ByEloi Alonso, Adam Jelley, Vincent Micheli, Anssi Kanervisto, Amos Storkey, Tim Pearce, François Fleuret

Мировые модели представляют собой многообещающий подход для обучения агентов обучения с подкреплением способом, который безопасен и эффективен по использованию образцов. Недавние мировые модели в основном работают с последовательностями дискретных скрытых переменных для моделирования динамики окружения. Однако сжатие в компактное дискретное представление может игнорировать визуальные детали, которые важны для обучения с подкреплением. В то же время модели диффузии стали доминирующим подходом для генерации изображений, вызывая вызов у хорошо установленных методов моделирования дискретных скрытых переменных. Под влиянием этого парадигмального сдвига мы представляем DIAMOND (DIffusion As a Model Of eNvironment Dreams) - агента обучения с подкреплением, обученного в модели мира диффузии. Мы анализируем ключевые проектные решения, необходимые для того, чтобы сделать диффузию подходящей для моделирования мира, и демонстрируем, как улучшенные визуальные детали могут привести к улучшению производительности агента. DIAMOND достигает среднего нормализованного человеческого показателя 1,46 на конкурентном бенчмарке Atari 100k; новый лучший результат для агентов, обученных исключительно в модели мира. Для поощрения будущих исследований по диффузии для моделирования мира мы публикуем наш код, агентов и играбельные мировые модели на https://github.com/eloialonso/diamond.

Адаптер лица для предварительно обученных моделей диффузии с тонким управлением идентификаторами и атрибутами.
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21

ByYue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu

Существующие методы реанимации и обмена лицами в основном опираются на фреймворки GAN, однако последнее внимание сосредоточено на предварительно обученных моделях диффузии из-за их превосходных возможностей генерации. Однако обучение этих моделей требует больших ресурсов, и результаты пока не достигли удовлетворительного уровня производительности. Для решения этой проблемы мы представляем Face-Adapter, эффективный и эффективный адаптер, разработанный для высокоточного и высококачественного редактирования лиц с использованием предварительно обученных моделей диффузии. Мы замечаем, что задачи реанимации и обмена лицами в основном включают в себя комбинации целевой структуры, идентификатора и атрибута. Мы стремимся достаточно разделить управление этими факторами для достижения обеих задач в одной модели. Конкретно, наш метод включает: 1) Генератор пространственных условий, который обеспечивает точные ориентиры и фон; 2) Кодировщик идентичности Plug-and-play, который передает вложения лица в текстовое пространство с помощью декодера трансформера; 3) Контроллер атрибутов, который интегрирует пространственные условия и детальные атрибуты. Face-Adapter достигает сравнимой или даже превосходной производительности в плане точности управления движением, сохранения идентификатора и качества генерации по сравнению с полностью донастроенными моделями реанимации и обмена лицами. Кроме того, Face-Adapter легко интегрируется с различными моделями StableDiffusion.

OmniGlue: Обобщаемое сопоставление признаков с руководством модели-основы
OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

May 21

ByHanwen Jiang, Arjun Karpur, Bingyi Cao, Qixing Huang, Andre Araujo

Область сопоставления изображений наблюдает непрерывное появление новых техник обучаемого сопоставления признаков, с постоянным улучшением производительности на традиционных бенчмарках. Однако наше исследование показывает, что несмотря на эти достижения, их потенциал для применения в реальных приложениях ограничен из-за их ограниченных обобщающих способностей к новым областям изображений. В данной статье мы представляем OmniGlue, первый обучаемый сопоставитель изображений, разработанный с обобщением как основным принципом. OmniGlue использует широкие знания из модели основы зрения для направления процесса сопоставления признаков, повышая обобщение к областям, не виденным во время обучения. Кроме того, мы предлагаем новый механизм внимания, направляемый позицией ключевой точки, который разделяет пространственную и внешнюю информацию, что приводит к улучшению сопоставляющих дескрипторов. Мы проводим комплексные эксперименты на наборе из 7 наборов данных с различными областями изображений, включая сцену, объекты и аэрофотосъемку. Новые компоненты OmniGlue приводят к относительному приросту на невидимых областях в размере 20,9% по сравнению с прямо сравнимой базовой моделью, превосходя недавний метод LightGlue на 9,5% относительно. Код и модель можно найти по ссылке https://hwjiang1510.github.io/OmniGlue

Персонализированные остатки для генерации изображений по тексту на основе концепций.
Personalized Residuals for Concept-Driven Text-to-Image Generation

May 21

ByCusuh Ham, Matthew Fisher, James Hays, Nicholas Kolkin, Yuchen Liu, Richard Zhang, Tobias Hinz

Мы представляем персонализированные остатки и локализованное внимание-управляемое сэмплирование для эффективной генерации, основанной на концепциях, с использованием моделей диффузии текста в изображение. Наш метод сначала представляет концепции путем замораживания весов предварительно обученной модели диффузии, зависящей от текста, и обучения остатков низкого ранга для небольшого подмножества слоев модели. Подход на основе остатков затем непосредственно позволяет применять нашу предложенную технику сэмплирования, которая применяет изученные остатки только в областях, где концепция локализована с помощью кросс-внимания, и применяет исходные веса диффузии во всех остальных областях. Таким образом, локализованное сэмплирование объединяет изученную идентичность концепции с существующим генеративным априори базовой модели диффузии. Мы показываем, что персонализированные остатки эффективно захватывают идентичность концепции примерно за ~3 минуты на одном GPU без использования регуляризационных изображений и с меньшим количеством параметров, чем у предыдущих моделей, а локализованное сэмплирование позволяет использовать исходную модель в качестве сильного априори для большей части изображения.

Адаптер лица для предварительно обученных моделей диффузии с тонким управлением идентификаторами и атрибутами.
Face Adapter for Pre-Trained Diffusion Models with Fine-Grained ID and Attribute Control

May 21

ByYue Han, Junwei Zhu, Keke He, Xu Chen, Yanhao Ge, Wei Li, Xiangtai Li, Jiangning Zhang, Chengjie Wang, Yong Liu