Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в области мультимодальных больших языковых моделей (MLLM) были значительными, однако эти общедоступные MLLM часто не справляются с задачей полноценного понимания и эффективного взаимодействия с пользовательскими интерфейсами (UI). В данной статье мы представляем Ferret-UI, новую MLLM, специально разработанную для улучшенного понимания мобильных пользовательских интерфейсов, оснащенную возможностями ссылочной связи и обоснования, а также рассуждений. Учитывая, что пользовательские интерфейсы обычно имеют более вытянутое соотношение сторон и содержат меньшие объекты интереса (например, иконки, тексты) по сравнению с естественными изображениями, мы добавляем "любое разрешение" поверх Ferret для увеличения деталей и использования улучшенных визуальных характеристик. Конкретно, каждый экран делится на 2 подизображения на основе исходного соотношения сторон (горизонтальное деление для портретных экранов и вертикальное деление для альбомных экранов). Оба подизображения кодируются отдельно перед отправкой в LLM. Мы тщательно собираем обучающие выборки из широкого спектра элементарных задач пользовательского интерфейса, таких как распознавание иконок, поиск текста и перечисление виджетов. Эти выборки форматируются для последовательного выполнения инструкций с помощью аннотаций областей для облегчения точной ссылки и обоснования. Для улучшения способности модели к рассуждениям мы также составляем набор данных для продвинутых задач, включая подробное описание, беседы о восприятии/взаимодействии и вывод функций. После обучения на отобранных наборах данных Ferret-UI проявляет выдающееся понимание пользовательских интерфейсов и способность выполнять инструкции с открытым окончанием. Для оценки модели мы устанавливаем обширный бенчмарк, охватывающий все упомянутые задачи. Ferret-UI превосходит большинство общедоступных UI MLLM не только в элементарных задачах пользовательского интерфейса, но и превосходит GPT-4V во всех элементарных задачах пользовательского интерфейса.
Недавние достижения в области генерации текста в видео (T2V) достигли замечательных успехов в синтезе высококачественных общих видео из текстовых описаний. В значительной степени недооцененной проблемой в T2V является то, что существующие модели недостаточно закодировали физические знания о реальном мире, поэтому сгенерированные видео имеют ограниченное движение и недостаточное разнообразие. В данной статье мы предлагаем MagicTime, модель генерации видео с метаморфозами времени, которая изучает физические знания о мире из видео с ускоренным временем и реализует метаморфозную генерацию. Во-первых, мы разрабатываем схему MagicAdapter для разделения пространственного и временного обучения, кодируем больше физических знаний из видео с метаморфозами и преобразуем предварительно обученные модели T2V для генерации видео с метаморфозами. Во-вторых, мы представляем стратегию извлечения динамических кадров для адаптации к видео с метаморфозами времени, которые имеют более широкий диапазон вариации и охватывают драматические процессы метаморфозы объектов, таким образом, воплощая больше физических знаний, чем общие видео. Наконец, мы представляем Magic Text-Encoder для улучшения понимания текстовых подсказок для видео с метаморфозами. Кроме того, мы создаем набор данных видео-текст ChronoMagic, специально подобранный для разблокировки способности генерации видео с метаморфозами. Обширные эксперименты демонстрируют превосходство и эффективность MagicTime в генерации высококачественных и динамичных видео с метаморфозами, что указывает на то, что генерация видео с ускоренным временем является многообещающим путем к созданию метаморфозных симуляторов физического мира.
Эффективное редактирование персонального контента играет ключевую роль в обеспечении возможности индивидуумам выражать свою креативность, создавая увлекательные повествования в рамках их визуальных историй и повышая общее качество и воздействие их визуального контента. Поэтому в данной работе мы представляем SwapAnything, новую концепцию, которая может заменять любые объекты на изображении на персонализированные концепции, предоставленные в качестве ссылки, сохраняя при этом контекст неизменным. По сравнению с существующими методами персонализированного замещения объектов, SwapAnything обладает тремя уникальными преимуществами: (1) точное управление произвольными объектами и их частями, а не основным объектом, (2) более точное сохранение контекстных пикселей, (3) лучшая адаптация персонализированной концепции к изображению. Вначале мы предлагаем целевое переменное замещение для применения контроля области над латентными картами признаков и замены маскированных переменных для точного сохранения контекста и начального семантического замещения концепции. Затем мы вводим адаптацию внешнего вида, чтобы плавно адаптировать семантическую концепцию в оригинальное изображение в терминах целевого местоположения, формы, стиля и содержания во время процесса генерации изображения. Обширные результаты как человеческой, так и автоматической оценки демонстрируют значительные улучшения нашего подхода по сравнению с базовыми методами персонализированного замещения. Кроме того, SwapAnything проявляет свои точные и верные способности к замещению в рамках задач замещения одного объекта, нескольких объектов, частичного объекта и кросс-доменных задач замещения. SwapAnything также достигает отличных результатов в задачах замещения на основе текста и задачах, выходящих за рамки замещения, таких как вставка объектов.
Недавние достижения в области генеративного редактирования изображений на основе диффузии вызвали глубокую революцию, переформатируя ландшафт задач по outpainting и inpainting изображений. Несмотря на эти успехи, область сталкивается с врожденными проблемами, включая: i) низкое качество; ii) плохую последовательность; iii) недостаточное соблюдение инструкций; iv) субоптимальную эффективность генерации. Для преодоления этих препятствий мы представляем ByteEdit, инновационную систему обучения с обратной связью, тщательно разработанную для улучшения, соответствия и ускорения задач генеративного редактирования изображений. ByteEdit безупречно интегрирует модели вознаграждения изображений, посвященные улучшению эстетики и соответствия изображения и текста, а также вводит плотную модель вознаграждения на уровне пикселей, разработанную для содействия согласованности в выходных данных. Кроме того, мы предлагаем передовую стратегию обучения с адверсариальной и постепенной обратной связью для ускорения скорости вывода модели. Через обширные пользовательские оценки в большом масштабе мы демонстрируем, что ByteEdit превосходит ведущие продукты генеративного редактирования изображений, включая Adobe, Canva и MeiTu, как по качеству генерации, так и по последовательности. ByteEdit-Outpainting проявляет замечательное улучшение на 388% и 135% в качестве и последовательности соответственно по сравнению с базовой моделью. Эксперименты также подтвердили, что наши модели ускорения поддерживают отличные результаты производительности в терминах качества и последовательности.
Модели диффузии революционизировали область генерации изображений, приводя к появлению множества моделей высокого качества и разнообразных прикладных применений. Однако несмотря на значительные достижения, текущие конкурентные решения по-прежнему сталкиваются с несколькими ограничениями, включая низкое качество визуального представления, отсутствие эстетического привлекательности и неэффективность вывода, без четкого решения в виду. Для решения этих проблем мы представляем UniFL, унифицированную платформу, которая использует обратную связь для всестороннего улучшения моделей диффузии. UniFL выделяется как универсальное, эффективное и обобщенное решение, применимое к различным моделям диффузии, таким как SD1.5 и SDXL. Важно отметить, что UniFL включает три ключевых компонента: обучение с визуальной обратной связью, которое улучшает качество визуального представления; разделенное обучение с обратной связью, которое повышает эстетическую привлекательность; и адверсариальное обучение с обратной связью, которое оптимизирует скорость вывода. Глубокие эксперименты и обширные пользовательские исследования подтверждают превосходную производительность нашего предложенного метода в улучшении как качества сгенерированных моделей, так и их ускорения. Например, UniFL превосходит ImageReward на 17% в предпочтении пользователей по качеству генерации и превосходит LCM и SDXL Turbo на 57% и 20% в выводе на 4 шага. Более того, мы подтвердили эффективность нашего подхода в прикладных задачах, включая Lora, ControlNet и AnimateDiff.
Восстановление плотного и дальнего пиксельного движения в видео является сложной задачей. Часть трудностей возникает из-за процесса проекции 3D на 2D, что приводит к заслонам и разрывам в области движения 2D. Хотя 2D движение может быть сложным, мы предполагаем, что основное 3D движение часто может быть простым и низкоразмерным. В данной работе мы предлагаем оценивать точечные траектории в 3D пространстве для уменьшения проблем, вызванных проекцией изображения. Наш метод, названный SpatialTracker, преобразует 2D пиксели в 3D с использованием монокулярных оценщиков глубины, представляет 3D содержание каждого кадра эффективно с помощью трехплоскостного представления и выполняет итерационные обновления с использованием трансформера для оценки 3D траекторий. Отслеживание в 3D позволяет нам использовать ограничения "как можно жестко" (ARAP), одновременно обучая встраивание жесткости, которое кластеризует пиксели в различные жесткие части. Обширное оценивание показывает, что наш подход достигает передового уровня производительности отслеживания как качественно, так и количественно, особенно в сложных сценариях, таких как вращение вне плоскости.
Генерация сцен, ориентированных на человека, более высокого разрешения с деталями и управлением остается вызовом для существующих моделей диффузии текста в изображение. Этот вызов обусловлен ограниченным размером обучающего изображения, емкостью кодера текста (ограниченное количество токенов) и врожденной сложностью генерации сложных сцен с участием нескольких людей. В то время как текущие методы пытались решить только ограничение размера обучения, они часто приводили к сценам, ориентированным на человека, с серьезными артефактами. Мы предлагаем BeyondScene, новую концепцию, которая преодолевает предыдущие ограничения, генерируя изысканные сцены, ориентированные на человека, более высокого разрешения (более 8K) с исключительным соответствием текста и изображения и естественностью, используя существующие предварительно обученные модели диффузии. BeyondScene использует ступенчатый и иерархический подход для начальной генерации детализированного базового изображения, сосредотачиваясь на ключевых элементах в создании экземпляров для нескольких людей и детализированных описаниях, выходящих за пределы ограничения токенов модели диффузии, а затем бесшовно преобразовывает базовое изображение в выход более высокого разрешения, превышающий размер обучающего изображения и включающий детали, учитывающие текст и экземпляры, с помощью нашего новаторского процесса иерархического увеличения, включающего наше предложенное внедрение высокочастотной диффузии вперед и адаптивную совместную диффузию. BeyondScene превосходит существующие методы по соответствию с детальными текстовыми описаниями и естественностью, открывая путь к продвинутым приложениям в создании сцен, ориентированных на человека, более высокого разрешения, превышающих возможности предварительно обученных моделей диффузии без дорогостоящего повторного обучения. Страница проекта: https://janeyeon.github.io/beyond-scene.
С успехом крупных языковых моделей (LLM) внедрение модели зрения в LLM для создания моделей основы видео-языка недавно привлекло гораздо больше внимания. Однако существующие мультимодальные модели на основе LLM (например, Video-LLaMA, VideoChat) могут обрабатывать только ограниченное количество кадров для понимания коротких видео. В данном исследовании мы в основном сосредотачиваемся на разработке эффективной и эффективной модели для понимания видео в долгосрочной перспективе. Вместо попыток обрабатывать больше кадров одновременно, как это делается в большинстве существующих работ, мы предлагаем обрабатывать видео в режиме онлайн и сохранять прошлую видеоинформацию в банке памяти. Это позволяет нашей модели ссылаться на исторический видеоконтент для долгосрочного анализа без превышения ограничений на длину контекста LLM или ограничений по памяти GPU. Наш банк памяти может быть легко интегрирован в текущие мультимодальные LLM "из коробки". Мы проводим обширные эксперименты по различным задачам понимания видео, таким как понимание длинных видео, ответы на вопросы по видео и подписывание видео, и наша модель может достичь передовых результатов на нескольких наборах данных. Код доступен по адресу https://boheumd.github.io/MA-LMM/.
Моделирование и визуализация фотореалистичных аватаров имеют ключевое значение во многих приложениях. Однако существующие методы построения 3D аватара на основе визуальных наблюдений испытывают трудности при воссоздании облеченных людей. Мы представляем PhysAvatar, новую структуру, которая объединяет обратное визуализирование с обратной физикой для автоматической оценки формы и внешнего вида человека на основе видеоданных с нескольких ракурсов, а также физических параметров ткани их одежды. Для этой цели мы используем технику 4D Гаусса, выравненную по сетке, для пространственно-временного отслеживания сетки, а также физически обоснованный обратный визуализатор для оценки внутренних материальных свойств. PhysAvatar интегрирует физический симулятор для оценки физических параметров одежды с использованием оптимизации на основе градиентов в принципиальной манере. Эти новые возможности позволяют PhysAvatar создавать высококачественные визуализации аватаров в новых ракурсах, одетых в свободно облегающую одежду под движениями и условиями освещения, которые не были представлены в обучающих данных. Это представляет собой значительный прогресс в направлении моделирования фотореалистичных цифровых людей с использованием физически обоснованного обратного визуализирования с учетом физики. Наш веб-сайт проекта: https://qingqing-zhao.github.io/PhysAvatar
В быстро развивающейся области генеративных моделей разработка эффективных и высококачественных систем диффузии текста в изображение представляет собой значительную фронтальную задачу. В данном исследовании представлен YaART, новая модель каскадной диффузии текста в изображение, ориентированная на предпочтения человека и предназначенная для производства, использующая обучение с подкреплением на основе обратной связи от человека (RLHF). При разработке YaART мы особенно сосредотачиваемся на выборе размеров модели и обучающего набора данных, аспектов, которые ранее не были систематически исследованы для моделей каскадной диффузии текста в изображение. В частности, мы всесторонне анализируем, как эти выборы влияют как на эффективность процесса обучения, так и на качество созданных изображений, что является крайне важным на практике. Более того, мы демонстрируем, что модели, обученные на более маленьких наборах данных с изображениями более высокого качества, могут успешно конкурировать с теми, которые обучены на более крупных наборах данных, устанавливая более эффективный сценарий обучения моделей диффузии. С точки зрения качества, YaART последовательно предпочтительнее для пользователей по сравнению с многими существующими передовыми моделями.
В данной статье мы представляем MoMA: модель изображений с открытым словарем, не требующую обучения, обладающую гибкими возможностями нулевого обучения и персонализации. По мере быстрого развития основных моделей текст-к-изображению, растет спрос на надежные модели перевода изображений-в-изображения. Для решения этой потребности MoMA специализируется на генерации изображений, персонализированных под определенную тематику. Используя открытую модель большого языкового объема (MLLM), мы обучаем MoMA выполнять двойную роль - как извлекатель признаков и генератор. Этот подход эффективно синергизирует информацию о референтном изображении и текстовом подсказке для создания ценных признаков изображения, облегчая модель диффузии изображений. Для более эффективного использования сгенерированных признаков мы также представляем новый метод сокращения самовнимания, который эффективно передает признаки изображения в модель диффузии изображений, улучшая сходство целевого объекта на сгенерированных изображениях. Замечательно, что в качестве модуля, не требующего настройки, наша модель требует всего одного референтного изображения и превосходит существующие методы в генерации изображений с высокой детализацией, улучшенным сохранением идентичности и точностью подсказки. Наша работа с открытым исходным кодом обеспечивает универсальный доступ к этим достижениям.
Мы представляем Diffusion-KTO, новый подход к выравниванию моделей диффузии текста-изображения путем формулирования цели выравнивания как максимизации ожидаемой полезности для человека. Поскольку эта цель применяется к каждому поколению независимо, Diffusion-KTO не требует сбора дорогих данных предпочтений попарно или обучения сложной модели вознаграждения. Вместо этого наша цель требует простых сигналов обратной связи для каждого изображения, например, лайков или дизлайков, которые изобилируют. После донастройки с использованием Diffusion-KTO модели диффузии текста-изображения проявляют превосходную производительность по сравнению с существующими техниками, включая надзорную донастройку и Diffusion-DPO, как с точки зрения человеческого суждения, так и автоматических метрик оценки, таких как PickScore и ImageReward. В целом, Diffusion-KTO разблокирует потенциал использования легко доступных бинарных сигналов для каждого изображения и расширяет применимость выравнивания моделей диффузии текста-изображения с предпочтениями человека.
Трансформеры стимулировали прогресс в областях компьютерного зрения и обработки естественного языка (NLP). Однако значительная вычислительная сложность ставит ограничения на их применение в задачах с длинным контекстом, таких как генерация изображений высокого разрешения. В данной статье представлен ряд архитектур, адаптированных из модели RWKV, используемой в NLP, с необходимыми модификациями, нацеленными на модель диффузии, применяемую к задачам генерации изображений, известную как Diffusion-RWKV. Подобно диффузии с Трансформерами, наша модель разработана для эффективной обработки входных данных, разбитых на патчи в последовательности с дополнительными условиями, а также для эффективного масштабирования, способного вмещать как большое количество параметров, так и обширные наборы данных. Ее отличительным преимуществом является снижение сложности пространственной агрегации, что делает ее исключительно способной к обработке изображений высокого разрешения, тем самым устраняя необходимость в оконных или групповых кэшируемых операциях. Экспериментальные результаты как по задачам генерации изображений с условиями, так и без них показывают, что Diffusion-RWKV достигает производительности на уровне или превосходящей существующие модели диффузии на основе CNN или Трансформеров по метрикам FID и IS, при этом значительно сокращая общее использование вычислительных операций FLOP.
Недавние достижения в моделях диффузии показали замечательную производительность в редактировании 2D изображений на основе текстовых подсказок. Однако расширение этих техник на редактирование сцен в Нейронных радиационных полях (NeRF) является сложным, поскольку редактирование отдельных 2D кадров может привести к несоответствиям между различными видами. Нашим ключевым открытием является то, что геометрия сцены NeRF может служить мостом для интеграции этих 2D редакций. Используя эту геометрию, мы применяем глубинно-условную ControlNet для улучшения согласованности каждой модификации 2D изображения. Более того, мы представляем подход к заполнению, который использует информацию о глубине сцен NeRF для распределения 2D редакций по различным изображениям, обеспечивая устойчивость к ошибкам и вызовам повторной выборки. Наши результаты показывают, что эта методология достигает более согласованных, реалистичных и детализированных редакций, чем существующие ведущие методы для редактирования сцен NeRF по текстовым подсказкам.
Ответы на длинные видеовопросы - это сложная задача, которая включает в себя распознавание краткосрочных действий и рассуждения о их тонких взаимосвязях. Современные видео Large Language Models (vLLM) представляют собой многообещающее решение благодаря их продемонстрированным возможностям на новых задачах. Однако, несмотря на то, что vLLM обучены на миллионах коротких видеороликов длительностью всего несколько секунд, они не способны понимать видео длительностью в минуты и точно отвечать на вопросы о них. Для преодоления этого ограничения мы предлагаем легкий и самообучающийся подход, Key frame-conditioned long video-LLM (Koala), который вводит обучаемые пространственно-временные запросы для адаптации предварительно обученных vLLM к обобщению на более длинные видеоролики. Наш подход вводит два новых токенизатора, которые зависят от визуальных токенов, вычисленных из разреженных ключевых кадров видео для понимания кратких и длинных моментов видео. Мы обучаем наш предложенный подход на наборе данных HowTo100M и демонстрируем его эффективность на нулевых тестах понимания длинных видеороликов, где он превосходит современные крупные модели на 3-6% по абсолютной точности по всем задачам. Удивительно, мы также эмпирически показываем, что наш подход не только помогает предварительно обученному vLLM понимать длинные видеоролики, но также повышает его точность в распознавании краткосрочных действий.