Ежедневно отобранные исследовательские статьи по ИИ с переводами
Этот документ раскрывает новую линейную характеристику, исключительную для декодеров трансформеров, включая модели, такие как GPT, LLaMA, OPT, BLOOM и другие. Мы анализируем преобразования вложений между последовательными слоями, раскрывая почти идеальное линейное отношение (оценка сходства Прокруста 0.99). Однако линейность уменьшается, когда компонент остатка удаляется из-за последовательно низкой нормы выхода слоя трансформера. Наши эксперименты показывают, что удаление или линейная аппроксимация некоторых наиболее линейных блоков трансформеров не оказывает значительного влияния на потери или производительность модели. Более того, в наших экспериментах по предварительному обучению на более маленьких моделях мы вводим регуляризацию на основе косинусного сходства с целью уменьшения линейности слоя. Эта регуляризация улучшает метрики производительности на бенчмарках, таких как Tiny Stories и SuperGLUE, а также успешно уменьшает линейность моделей. Это исследование вызывает сомнения в существующем понимании архитектур трансформеров, предполагая, что их функционирование может быть более линейным, чем ранее предполагалось.
Кэш с ключами и значениями (KV) играет важную роль в ускорении декодирования для авторегрессионных моделей больших языков на основе трансформера (LLM). Однако объем памяти, необходимый для хранения кэша KV, может стать запретным при больших длинах последовательностей и больших размерах пакетов. С момента изобретения трансформера были обнаружены два из наиболее эффективных вмешательства для уменьшения размера кэша KV: Множественное Внимание Запросов (MQA) и его обобщение, Групповое Внимание Запросов (GQA). MQA и GQA изменяют конструкцию блока внимания так, что несколько головок запросов могут разделять одну головку ключа/значения, уменьшая количество различных головок ключа/значения на большой коэффициент, сохраняя при этом минимальное снижение точности. В данной статье мы показываем, что возможно пойти дальше в Множественном Внимании Запросов, также разделяя головки ключа и значения между смежными слоями, что приводит к новой конструкции внимания, которую мы называем Перекрестным Вниманием Слоев (CLA). С CLA мы обнаружили, что можно уменьшить размер кэша KV еще в 2 раза, сохраняя практически такую же точность, как у немодифицированного MQA. В экспериментах по обучению моделей с 1B и 3B параметрами с нуля мы демонстрируем, что CLA обеспечивает улучшение Парето в обмене память/точность, которое возможно с традиционным MQA, позволяя выводить более длинные последовательности и использовать большие размеры пакетов, чем это было бы возможно в противном случае.
Мировые модели представляют собой многообещающий подход для обучения агентов обучения с подкреплением способом, который безопасен и эффективен по использованию образцов. Недавние мировые модели в основном работают с последовательностями дискретных скрытых переменных для моделирования динамики окружения. Однако сжатие в компактное дискретное представление может игнорировать визуальные детали, которые важны для обучения с подкреплением. В то же время модели диффузии стали доминирующим подходом для генерации изображений, вызывая вызов у хорошо установленных методов моделирования дискретных скрытых переменных. Под влиянием этого парадигмального сдвига мы представляем DIAMOND (DIffusion As a Model Of eNvironment Dreams) - агента обучения с подкреплением, обученного в модели мира диффузии. Мы анализируем ключевые проектные решения, необходимые для того, чтобы сделать диффузию подходящей для моделирования мира, и демонстрируем, как улучшенные визуальные детали могут привести к улучшению производительности агента. DIAMOND достигает среднего нормализованного человеческого показателя 1,46 на конкурентном бенчмарке Atari 100k; новый лучший результат для агентов, обученных исключительно в модели мира. Для поощрения будущих исследований по диффузии для моделирования мира мы публикуем наш код, агентов и играбельные мировые модели на https://github.com/eloialonso/diamond.
Существующие методы реанимации и обмена лицами в основном опираются на фреймворки GAN, однако последнее внимание сосредоточено на предварительно обученных моделях диффузии из-за их превосходных возможностей генерации. Однако обучение этих моделей требует больших ресурсов, и результаты пока не достигли удовлетворительного уровня производительности. Для решения этой проблемы мы представляем Face-Adapter, эффективный и эффективный адаптер, разработанный для высокоточного и высококачественного редактирования лиц с использованием предварительно обученных моделей диффузии. Мы замечаем, что задачи реанимации и обмена лицами в основном включают в себя комбинации целевой структуры, идентификатора и атрибута. Мы стремимся достаточно разделить управление этими факторами для достижения обеих задач в одной модели. Конкретно, наш метод включает: 1) Генератор пространственных условий, который обеспечивает точные ориентиры и фон; 2) Кодировщик идентичности Plug-and-play, который передает вложения лица в текстовое пространство с помощью декодера трансформера; 3) Контроллер атрибутов, который интегрирует пространственные условия и детальные атрибуты. Face-Adapter достигает сравнимой или даже превосходной производительности в плане точности управления движением, сохранения идентификатора и качества генерации по сравнению с полностью донастроенными моделями реанимации и обмена лицами. Кроме того, Face-Adapter легко интегрируется с различными моделями StableDiffusion.
Область сопоставления изображений наблюдает непрерывное появление новых техник обучаемого сопоставления признаков, с постоянным улучшением производительности на традиционных бенчмарках. Однако наше исследование показывает, что несмотря на эти достижения, их потенциал для применения в реальных приложениях ограничен из-за их ограниченных обобщающих способностей к новым областям изображений. В данной статье мы представляем OmniGlue, первый обучаемый сопоставитель изображений, разработанный с обобщением как основным принципом. OmniGlue использует широкие знания из модели основы зрения для направления процесса сопоставления признаков, повышая обобщение к областям, не виденным во время обучения. Кроме того, мы предлагаем новый механизм внимания, направляемый позицией ключевой точки, который разделяет пространственную и внешнюю информацию, что приводит к улучшению сопоставляющих дескрипторов. Мы проводим комплексные эксперименты на наборе из 7 наборов данных с различными областями изображений, включая сцену, объекты и аэрофотосъемку. Новые компоненты OmniGlue приводят к относительному приросту на невидимых областях в размере 20,9% по сравнению с прямо сравнимой базовой моделью, превосходя недавний метод LightGlue на 9,5% относительно. Код и модель можно найти по ссылке https://hwjiang1510.github.io/OmniGlue
Мы представляем персонализированные остатки и локализованное внимание-управляемое сэмплирование для эффективной генерации, основанной на концепциях, с использованием моделей диффузии текста в изображение. Наш метод сначала представляет концепции путем замораживания весов предварительно обученной модели диффузии, зависящей от текста, и обучения остатков низкого ранга для небольшого подмножества слоев модели. Подход на основе остатков затем непосредственно позволяет применять нашу предложенную технику сэмплирования, которая применяет изученные остатки только в областях, где концепция локализована с помощью кросс-внимания, и применяет исходные веса диффузии во всех остальных областях. Таким образом, локализованное сэмплирование объединяет изученную идентичность концепции с существующим генеративным априори базовой модели диффузии. Мы показываем, что персонализированные остатки эффективно захватывают идентичность концепции примерно за ~3 минуты на одном GPU без использования регуляризационных изображений и с меньшим количеством параметров, чем у предыдущих моделей, а локализованное сэмплирование позволяет использовать исходную модель в качестве сильного априори для большей части изображения.