Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы разработали новое семейство гибридных нейронных сетей CNN-ViT под названием FasterViT, ориентированное на высокую пропускную способность изображений для задач компьютерного зрения (CV). FasterViT объединяет преимущества быстрого локального обучения представлений в CNN и глобальных свойств моделирования в ViT. Наш новый подход, названный Иерархическим Вниманием (HAT), декомпозирует глобальное самовнимание с квадратичной сложностью на многоуровневое внимание с уменьшенными вычислительными затратами. Мы используем эффективное самовнимание на основе окон, где каждое окно имеет доступ к выделенным токенам-носителям, участвующим в локальном и глобальном обучении представлений. На высоком уровне глобальное самовнимание обеспечивает эффективное межоконное взаимодействие с меньшими затратами. FasterViT достигает передового Парето-фронта по соотношению точности и пропускной способности изображений. Мы тщательно проверили его эффективность на различных задачах CV, включая классификацию, обнаружение объектов и сегментацию. Мы также показываем, что HAT может использоваться как модуль plug-and-play для существующих сетей, улучшая их производительность. Кроме того, мы демонстрируем значительно более быстрое и точное выполнение по сравнению с конкурентами для изображений с высоким разрешением. Код доступен по адресу https://github.com/NVlabs/FasterViT.
Алгоритмы обучения, в широком смысле, являются важной частью любого конвейера глубокого обучения. Улучшения алгоритмов обучения, которые ускоряют процесс обучения для широкого спектра задач (например, более эффективные правила обновления, протоколы настройки, графики изменения скорости обучения или схемы выбора данных), могут сэкономить время, вычислительные ресурсы и привести к созданию более качественных и точных моделей. К сожалению, в настоящее время сообщество не способно надежно идентифицировать улучшения алгоритмов обучения или даже определить современное состояние этого направления. В данной работе, используя конкретные эксперименты, мы утверждаем, что реальный прогресс в ускорении обучения требует новых бенчмарков, которые решают три основные проблемы, с которыми сталкиваются эмпирические сравнения алгоритмов обучения: (1) как определить, когда обучение завершено, и точно измерить время обучения, (2) как учитывать чувствительность измерений к деталям конкретной задачи, и (3) как справедливо сравнивать алгоритмы, требующие настройки гиперпараметров. Для решения этих проблем мы представляем новый конкурентный бенчмарк, измеряющий время до достижения результата, с использованием множества задач, выполняемых на фиксированном оборудовании, — бенчмарк AlgoPerf: Training Algorithms. Наш бенчмарк включает набор вариантов задач, которые позволяют обнаруживать решения, более устойчивые к изменениям задач, чем текущие широко используемые методы. Наконец, мы оцениваем базовые решения, созданные с использованием различных оптимизаторов, представляющих текущую практику, а также других оптимизаторов, которые недавно привлекли внимание в научной литературе. Эти базовые результаты в совокупности демонстрируют осуществимость нашего бенчмарка, показывают существование значительных различий между методами и устанавливают временное состояние современного уровня, которое будущие решения могут попытаться превзойти.
Крупные диффузионные модели для генерации изображений по текстовым запросам демонстрируют впечатляющие способности в создании фотореалистичных изображений. Вопрос о том, как эффективно направлять или контролировать эти мощные модели для выполнения различных задач, становится важной открытой проблемой. Для решения этой задачи мы представляем принципиальный метод тонкой настройки — Ортогональную Тонкую Настройку (Orthogonal Finetuning, OFT), предназначенную для адаптации диффузионных моделей генерации изображений по тексту к конкретным задачам. В отличие от существующих методов, OFT гарантированно сохраняет гиперсферическую энергию, которая характеризует парные отношения нейронов на единичной гиперсфере. Мы обнаружили, что это свойство критически важно для сохранения семантической способности генерации изображений в таких моделях. Для повышения стабильности тонкой настройки мы дополнительно предлагаем Ограниченную Ортогональную Тонкую Настройку (Constrained Orthogonal Finetuning, COFT), которая накладывает дополнительное ограничение на радиус гиперсферы. В частности, мы рассматриваем две важные задачи тонкой настройки для генерации изображений по тексту: генерацию, ориентированную на объект, где цель — создание изображений, специфичных для заданного объекта, на основе нескольких изображений объекта и текстового запроса, и управляемую генерацию, где цель — обеспечить возможность модели принимать дополнительные управляющие сигналы. Эмпирически мы показываем, что наш подход OFT превосходит существующие методы по качеству генерации и скорости сходимости.
Существующие крупные языковые модели (LLMs) могут обрабатывать только фиксированные по размеру входные данные из-за ограничения на длину ввода, что не позволяет им использовать богатую долгосрочную контекстную информацию из прошлых входов. Для решения этой проблемы мы предлагаем фреймворк Language Models Augmented with Long-Term Memory (LongMem), который позволяет LLMs запоминать длительную историю. Мы разработали новую разделенную сетевую архитектуру, где исходная базовая LLM заморожена в качестве кодировщика памяти, а адаптивная остаточная боковая сеть выступает в роли извлекателя и читателя памяти. Такая разделенная архитектура памяти позволяет легко кэшировать и обновлять долгосрочные прошлые контексты для извлечения памяти без проблем с устареванием данных. Благодаря адаптивному обучению с использованием памяти, LongMem может запоминать длительные прошлые контексты и использовать долгосрочную память для языкового моделирования. Предложенный модуль извлечения памяти способен обрабатывать контексты неограниченной длины в своем хранилище памяти, что приносит пользу различным задачам. В частности, LongMem может расширить долгосрочную память до 65 тысяч токенов, что позволяет кэшировать множество дополнительных демонстрационных примеров в качестве долгосрочной памяти для обучения в контексте. Эксперименты показывают, что наш метод превосходит сильные модели с длинным контекстом на бенчмарке ChapterBreak, сложном тесте для моделирования длинного контекста, и демонстрирует значительные улучшения в обучении с использованием памяти по сравнению с LLMs. Результаты подтверждают, что предложенный метод эффективно помогает языковым моделям запоминать и использовать длительные контенты. Наш код доступен по адресу https://aka.ms/LongMem.
Мы представляем Face0 — новый способ мгновенного задания условий для модели генерации изображений по тексту на основе лица, в режиме реального времени, без каких-либо процедур оптимизации, таких как тонкая настройка или инверсии. Мы расширяем набор данных аннотированных изображений, добавляя в него эмбеддинги лиц, и обучаем модель генерации изображений на этом расширенном наборе данных. После обучения наша система практически не отличается на этапе вывода от базовой модели, что позволяет ей генерировать изображения по предоставленному пользователем изображению лица и текстовому запросу всего за несколько секунд. Наш метод демонстрирует приятные результаты, отличается замечательной простотой, чрезвычайной скоростью и наделяет базовую модель новыми возможностями, такими как управление генерируемыми изображениями как через текст, так и через прямое манипулирование эмбеддингами входного лица. Кроме того, при использовании фиксированного случайного вектора вместо эмбеддинга лица из предоставленного пользователем изображения наш метод фактически решает проблему согласованной генерации персонажа на разных изображениях. Наконец, хотя для этого требуется дальнейшее исследование, мы надеемся, что наш метод, который разделяет текстовые предубеждения модели и её предубеждения относительно лиц, может стать шагом к смягчению предубеждений в будущих моделях генерации изображений по тексту.
Мы представляем Cap3D — автоматизированный подход для генерации описательного текста для 3D-объектов. Этот подход использует предобученные модели для создания подписей к изображениям, выравнивания изображений и текста, а также языковые модели (LLM) для объединения описаний, полученных с нескольких ракурсов 3D-актива, полностью избегая трудоемкого и дорогостоящего процесса ручной аннотации. Мы применяем Cap3D к недавно представленному крупномасштабному 3D-датасету Objaverse, получая 660 тысяч пар "3D-объект — текст". Наша оценка, проведенная с использованием 41 тысячи человеческих аннотаций из того же датасета, показывает, что Cap3D превосходит описания, созданные людьми, по качеству, стоимости и скорости. Благодаря эффективному инжинирингу промптов, Cap3D достигает уровня человеческой производительности в генерации геометрических описаний на основе 17 тысяч аннотаций из датасета ABO. Наконец, мы дообучаем модели Text-to-3D на данных Cap3D и человеческих описаниях, демонстрируя, что Cap3D превосходит их; также мы проводим сравнительный анализ с современными методами, включая Point-E, Shape-E и DreamFusion.
Языковые модели успешно применяются для моделирования естественных сигналов, таких как изображения, речь и музыка. Ключевым компонентом этих моделей является высококачественная нейронная модель сжатия, способная преобразовывать высокоразмерные естественные сигналы в низкоразмерные дискретные токены. В этой работе мы представляем универсальный нейронный алгоритм сжатия аудио с высокой точностью, который достигает сжатия аудио с частотой 44,1 кГц в ~90 раз при использовании полосы пропускания всего 8 кбит/с. Мы добиваемся этого, объединяя достижения в области генерации аудио высокой точности с улучшенными методами векторного квантования из области обработки изображений, а также с усовершенствованными функциями потерь для реконструкции и состязательного обучения. Мы сжимаем все типы аудио (речь, окружающие звуки, музыку и т.д.) с помощью единой универсальной модели, что делает её широко применимой для генеративного моделирования любого аудио. Мы сравниваем наш метод с конкурирующими алгоритмами сжатия аудио и обнаруживаем, что он значительно превосходит их. Мы предоставляем подробный анализ каждого этапа разработки, а также открытый исходный код и веса обученной модели. Мы надеемся, что наша работа заложит основу для следующего поколения моделей аудио высокой точности.
Мы выявляем динамику инкрементального обучения в трансформерах, где разница между обученными и начальными весами постепенно увеличивается по рангу. Мы строго доказываем, что это происходит при упрощающих предположениях о диагональных матрицах весов и малой инициализации. Наши эксперименты подтверждают теорию и также показывают, что это явление может происходить на практике без упрощающих предположений.
Контрастные модели изображений и текста, такие как CLIP, являются основой многих современных систем. Хотя они превосходно справляются с распознаванием общих концепций, они всё ещё испытывают трудности с детализированными объектами, которые встречаются редко или даже отсутствуют в предобучающем наборе данных. Таким образом, ключевым фактором их успеха стало использование крупномасштабных курируемых данных для предобучения, направленных на расширение набора концепций, которые они могут запомнить на этапе предобучения. В данной работе мы исследуем альтернативу прямому кодированию детализированных знаний в параметры модели: вместо этого мы обучаем модель извлекать эти знания из внешней памяти. В частности, мы предлагаем оснастить существующие модели обработки изображений и текста способностью уточнять свои эмбеддинги с помощью кросс-модальной информации, извлечённой из памяти на этапе вывода, что значительно улучшает их предсказания в условиях zero-shot. Примечательно, что мы показываем, что это можно реализовать с помощью лёгкого однослойного трансформера для слияния поверх замороженного CLIP. Наши эксперименты подтверждают, что обучение с усилением за счёт извлечения (RECO) существенно улучшает производительность CLIP на нескольких сложных задачах детализированного анализа: например, +10,9 на Stanford Cars, +10,2 на CUB-2011 и +7,3 на новом бенчмарке OVEN.
Современные методы извлечения информации ограничены ошибками OCR. Они хорошо работают с печатным текстом в структурированных документах, таких как формы, однако неструктурированные рукописные документы по-прежнему остаются сложной задачей. Адаптация существующих моделей к доменно-специфичным обучающим данным является весьма затратной из-за двух факторов: 1) ограниченной доступности доменно-специфичных документов (например, рукописных рецептов, лабораторных записей и т.д.) и 2) сложности аннотирования, поскольку для расшифровки неразборчивых рукописных изображений документов требуются доменно-специфичные знания. В данной работе мы сосредоточились на сложной задаче извлечения названий лекарств из рукописных рецептов, используя только слабо размеченные данные. Данные состоят из изображений и списка названий лекарств, но без указания их местоположения на изображении. Мы решаем эту задачу, сначала определяя области интереса, то есть строки с названиями лекарств, используя только слабые метки, а затем внедряя доменно-специфичную языковую модель лекарств, обученную исключительно на синтетически сгенерированных данных. По сравнению с готовыми современными методами наш подход показывает более чем 2,5-кратное улучшение в извлечении названий лекарств из рецептов.