Ежедневно отобранные исследовательские статьи по ИИ с переводами
Контрастное обучение стало трансформационным методом для обучения эффективных визуальных представлений путем выравнивания вложений изображения и текста. Однако вычисление попарной схожести в контрастной потере между парами изображений и текста представляет вычислительные сложности. В данной статье представлен новый метод слабо контролируемого предварительного обучения моделей зрения на веб-масштабных данных изображений и текста. Предложенный метод переформулирует предварительное обучение на данных изображения и текста как задачу классификации. В результате этого он устраняет необходимость в вычислениях попарной схожести в контрастной потере, достигая заметного ускорения в 2,7 раза по сравнению с контрастным обучением на веб-масштабных данных. Через обширные эксперименты, охватывающие различные задачи зрения, включая детекцию и сегментацию, мы демонстрируем, что предложенный метод сохраняет высокое качество представления. Наш исходный код вместе с весами предварительно обученной модели и рецептами обучения доступен по адресу https://github.com/apple/corenet.
Мы предлагаем метод настройки Pure and Lightning ID customization (PuLID), новый метод настройки ID без необходимости настройки для генерации текста в изображение. Путем внедрения ветви Lightning T2I вместе со стандартной ветвью диффузии, PuLID вводит как потерю контрастного выравнивания, так и точную потерю ID, минимизируя нарушения в исходной модели и обеспечивая высокую верность ID. Эксперименты показывают, что PuLID достигает превосходных результатов как в верности ID, так и в возможности редактирования. Еще одним привлекательным свойством PuLID является то, что элементы изображения (например, фон, освещение, композиция и стиль) до и после вставки ID сохраняются как можно более согласованными. Коды и модели будут доступны на https://github.com/ToTheBeginning/PuLID
Успех контрастного предварительного обучения язык-изображение (CLIP) зависит от наблюдения за соответствием между изображениями и подписями, которое часто является шумным в данных, полученных из веб-сканирования. Мы представляем Модель смеси данных экспертов (MoDE) и обучаем систему экспертов по данным CLIP с помощью кластеризации. Каждый эксперт по данным обучается на одном кластере данных, что делает его менее чувствительным к ложным отрицательным шумам в других кластерах. На этапе вывода мы объединяем их результаты, применяя веса, определяемые через корреляцию между метаданными задачи и условиями кластера. Для точной оценки корреляции образцы в одном кластере должны быть семантически похожими, но количество экспертов по данным должно быть все же разумным для обучения и вывода. Поэтому мы рассматриваем онтологию в человеческом языке и предлагаем использовать точные центры кластеров для представления каждого эксперта по данным на грубом уровне. Экспериментальные исследования показывают, что четыре эксперта по данным CLIP на модели ViT-B/16 превосходят модель ViT-L/14 от OpenAI CLIP и OpenCLIP в классификации изображений с нулевым обучением, но с меньшими (<35\%) затратами на обучение. Тем временем, MoDE может обучать всех экспертов по данным асинхронно и гибко включать новых экспертов по данным. Код доступен по ссылке https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
Бурное развитие моделей диффузии вызвало разнообразные приложения. Особое внимание привлекла генерация текста в изображение с сохранением идентичности (ID-T2I) из-за широкого спектра сценариев применения, таких как портреты и реклама в области искусственного интеллекта. Несмотря на впечатляющие результаты существующих методов ID-T2I, остаются несколько ключевых проблем: (1) сложно точно сохранить характеристики идентичности исходных портретов, (2) сгенерированные изображения лишены эстетического обаяния, особенно при сохранении идентичности, и (3) существует ограничение, которое не позволяет одновременно совместимо использовать методы на основе LoRA и Adapter. Для решения этих проблем мы представляем ID-Aligner, общую рамку обучения обратной связи для улучшения производительности ID-T2I. Для восстановления утраченных признаков идентичности мы внедряем обучение с наградой за согласованность идентичности для использования обратной связи от моделей обнаружения и распознавания лиц для улучшения сохранения идентичности в сгенерированных изображениях. Кроме того, мы предлагаем обучение с наградой за эстетику идентичности, используя награды от предпочтений, аннотированных людьми, и автоматически созданную обратную связь по генерации структуры персонажа для предоставления сигналов эстетической настройки. Благодаря универсальной рамке обучения обратной связи наш метод может быть легко применен как к моделям LoRA, так и к Adapter, достигая последовательного улучшения производительности. Обширные эксперименты на моделях диффузии SD1.5 и SDXL подтверждают эффективность нашего подхода. Страница проекта: \url{https://idaligner.github.io/}
Появление моделей диффузии значительно ускорило прогресс в области генерации изображений и видео. Недавно были предприняты усилия в области управляемой генерации видео, включая генерацию видео по тексту и управление движением видео, среди которых управление движением камеры является важной темой. Однако существующие методы управления движением камеры основаны на обучении временного модуля камеры и требуют значительных вычислительных ресурсов из-за большого количества параметров в моделях генерации видео. Более того, существующие методы предопределяют типы движения камеры во время обучения, что ограничивает их гибкость в управлении камерой. Для снижения затрат на обучение и достижения гибкого управления камерой мы предлагаем COMD, новую модель передачи движения видео без обучения, которая разделяет движения камеры и объектов в исходных видео и передает извлеченные движения камеры в новые видео. Сначала мы предлагаем метод декомпозиции движения камеры с одним снимком для извлечения движения камеры из одного исходного видео, который отделяет движущиеся объекты от фона и оценивает движение камеры в области движущихся объектов на основе движения в фоне путем решения уравнения Пуассона. Кроме того, мы предлагаем метод декомпозиции движения камеры с несколькими снимками для извлечения общего движения камеры из нескольких видео с похожими движениями камеры, который использует технику кластеризации на основе окон для извлечения общих признаков во временных картах внимания нескольких видео. Наконец, мы предлагаем метод комбинации движения для объединения различных типов движения камеры, что позволяет нашей модели более управляемое и гибкое управление камерой. Обширные эксперименты показывают, что наш подход без обучения эффективно разделяет движение камеры и объекта и применяет разделенное движение камеры к широкому спектру задач генерации видео с гибким и разнообразным управлением движением камеры.
Модели диффузии значительно продвинулись в задачах синтеза на основе текста. Однако редактирование предоставленных пользователем изображений остается сложной задачей, поскольку высокоразмерное пространство входного шума моделей диффузии не естественно подходит для инверсии изображения или пространственного редактирования. В данной работе мы предлагаем представление изображения, которое способствует пространственному редактированию входных изображений с использованием модели диффузии. Конкретно, мы учимся кодировать вход в "элементы изображения", которые могут точно восстанавливать входное изображение. Эти элементы могут быть интуитивно отредактированы пользователем и декодированы моделью диффузии в реалистичные изображения. Мы демонстрируем эффективность нашего представления на различных задачах редактирования изображений, таких как изменение размера объекта, перестановка, перетаскивание, устранение заслонок, удаление, вариация и композиция изображений. Страница проекта: https://jitengmu.github.io/Editable_Image_Elements/
Человеческое мэттинг является основной задачей в обработке изображений и видео, где извлекаются передние пиксели человека из входных данных. Предыдущие работы либо улучшают точность с помощью дополнительного руководства, либо повышают временную согласованность одного экземпляра на протяжении кадров. Мы предлагаем новую структуру MaGGIe, Маскированный Управляемый Постепенный Мэттинг Человеческого Экземпляра, которая прогнозирует альфа-маски постепенно для каждого человеческого экземпляра, сохраняя вычислительные затраты, точность и согласованность. Наш метод использует современные архитектуры, включая трансформаторное внимание и разреженную свертку, для одновременного вывода всех масок экземпляров без увеличения памяти и задержки. Несмотря на постоянные затраты на вывод в сценарии с несколькими экземплярами, наша структура достигает устойчивой и универсальной производительности на наших предложенных синтезированных бенчмарках. С более качественными бенчмарками по мэттингу изображений и видео представлен новый мульти-экземплярный синтезный подход из общедоступных источников для увеличения обобщения моделей в реальных сценариях.
Спекулятивная декодировка стала мощным методом улучшения задержки и пропускной способности при работе с большими языковыми моделями. Однако большинство существующих реализаций сосредоточены на генерации одной последовательности. Прикладные генеративные ИИ-приложения часто требуют нескольких ответов, и вопрос о том, как выполнять спекулятивную декодировку в пакетном режиме, сохраняя при этом преимущества в задержке, представляет собой нетривиальную задачу. В данной статье описывается система пакетной спекулятивной декодировки, которая устанавливает новый уровень в области задержки генерации нескольких последовательностей и демонстрирует более высокое использование GPU, а также качество генерации в рамках отведенного времени. Например, для модели размером 7,8 млрд на одном GPU A100 с размером пакета 8 каждая последовательность генерируется со средней скоростью 5,8 мс на токен, общая пропускная способность составляет 1,1 тыс. токенов в секунду. Эти результаты представляют собой современный уровень задержки и ускорение в 2,15 раза по сравнению с оптимизированным обычным декодированием. В рамках временного бюджета, в котором обычное декодирование не завершается, наша система способна генерировать последовательности с HumanEval Pass@First на уровне 43% и Pass@All на уровне 61%, что значительно превышает то, что возможно с помощью спекулятивной декодировки одной последовательности. Наш пиковый уровень использования GPU во время декодирования достигает 15,8%, более чем в 3 раза выше, чем у обычного декодирования, и около 10 раз выше, чем у спекулятивной декодировки одной последовательности.
Подходы к обучению в контексте (ICL) обычно используют подсказки для условного обучения языковых моделей только декодера на справочной информации. Обработка контекста в режиме реального времени неэффективна из-за квадратичной сложности операций самовнимания, и желательно использование кэширования. Однако кэширование состояний трансформера может легко потребовать почти столько же места, сколько параметры модели. Когда правильный контекст заранее неизвестен, кэширование ICL может быть вызовом. В данной работе рассматриваются эти ограничения путем введения моделей, которые, вдохновленные архитектурой кодировщик-декодировщик, используют кросс-внимание для условного обучения на справочном тексте без подсказки. Более точно, мы используем предварительно обученные модели только декодера и обучаем только небольшое количество добавленных слоев. Мы используем вопросно-ответную систему (QA) в качестве площадки для оценки способности наших моделей к условному обучению и наблюдаем, что они превосходят ICL, сравнимы с fein-tuned LLM с подсказкой и значительно уменьшают объем памяти по сравнению со стандартным кэшированием KV на два порядка.