Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области персонализированной генерации изображений с использованием диффузионных моделей были значительными. Однако развитие в области открытой и не требующей тонкой настройки персонализированной генерации изображений продвигается довольно медленно. В данной статье мы предлагаем Subject-Diffusion — новую модель персонализированной генерации изображений в открытой области, которая, помимо отсутствия необходимости тонкой настройки во время тестирования, также требует всего одного эталонного изображения для поддержки персонализированной генерации одного или нескольких объектов в любой области. Во-первых, мы создаем автоматизированный инструмент для разметки данных и используем набор данных LAION-Aesthetics для построения крупномасштабного набора данных, состоящего из 76 миллионов изображений и соответствующих им ограничивающих рамок для обнаружения объектов, масок сегментации и текстовых описаний. Во-вторых, мы разрабатываем новую унифицированную архитектуру, которая объединяет текстовую и визуальную семантику, включая грубое позиционирование и детализированное управление эталонным изображением для максимизации точности воспроизведения объекта и обобщаемости. Кроме того, мы также применяем механизм управления вниманием для поддержки генерации нескольких объектов. Обширные качественные и количественные результаты демонстрируют, что наш метод превосходит другие современные (SOTA) подходы в генерации одиночных, множественных и персонализированных изображений людей. Подробнее см. на нашей [странице проекта](https://oppo-mente-lab.github.io/subject_diffusion/).
Нейронные поля излучения (NeRF) обладают потенциалом стать важным форматом представления медиа. Поскольку обучение NeRF никогда не было простой задачей, защита авторских прав на такие модели должна быть приоритетной. В данной статье, проанализировав преимущества и недостатки возможных решений для защиты авторских прав, мы предлагаем защищать авторские права на модели NeRF путем замены исходного цветового представления в NeRF на водяное знаковое цветовое представление. Затем разрабатывается схема рендеринга, устойчивая к искажениям, чтобы гарантировать надежное извлечение сообщений в 2D-рендерингах NeRF. Наш предложенный метод позволяет напрямую защищать авторские права на модели NeRF, сохраняя при этом высокое качество рендеринга и точность битов по сравнению с альтернативными решениями.
Последние достижения в области нейронных полей излучения (NeRF) позволили добиться высокоточной реконструкции 3D-лиц и синтеза новых ракурсов, что сделало их манипуляцию важной задачей в области 3D-видения. Однако существующие методы манипуляции требуют значительных усилий со стороны человека, таких как предоставление пользователем семантической маски и ручной поиск атрибутов, что не подходит для неопытных пользователей. Вместо этого наш подход разработан для манипуляции лицом, реконструированным с помощью NeRF, с использованием всего одного текста. Для этого мы сначала обучаем манипулятор сцены — деформируемый NeRF, зависящий от латентного кода, — на динамической сцене, чтобы управлять деформацией лица с помощью этого кода. Однако представление деформации сцены с помощью одного латентного кода не подходит для композиции локальных деформаций, наблюдаемых в разных случаях. Поэтому наш предложенный позиционно-условный композитор якорей (PAC) учится представлять измененную сцену с помощью пространственно варьирующихся латентных кодов. Их визуализация с помощью манипулятора сцены затем оптимизируется для достижения высокой косинусной схожести с целевым текстом в пространстве встраиваний CLIP, что позволяет осуществлять текстовую манипуляцию. Насколько нам известно, наш подход является первым, который решает задачу текстовой манипуляции лицом, реконструированным с помощью NeRF. Многочисленные результаты, сравнения и исследования демонстрируют эффективность нашего подхода.
Несмотря на впечатляющие успехи диффузионных моделей в генерации изображений, проблема медленного сэмплинга остается актуальной. Для ускорения процесса сэмплинга предыдущие исследования переформулировали диффузионный сэмплинг как обыкновенное дифференциальное уравнение (ОДУ) или стохастическое дифференциальное уравнение (СДУ) и предложили численные методы более высокого порядка. Однако эти методы часто приводят к появлению артефактов расходимости, особенно при малом количестве шагов сэмплинга, что ограничивает возможное ускорение. В данной работе мы исследуем потенциальные причины этих артефактов и предполагаем, что основной причиной могут быть малые области устойчивости этих методов. Для решения этой проблемы мы предлагаем два новых подхода. Первый подход заключается во внедрении импульса Heavy Ball (HB), известного метода для улучшения оптимизации, в существующие численные методы диффузии с целью расширения их областей устойчивости. Мы также доказываем, что полученные методы обладают сходимостью первого порядка. Второй подход, называемый Generalized Heavy Ball (GHVB), создает новый метод высокого порядка, который предлагает переменный компромисс между точностью и подавлением артефактов. Экспериментальные результаты показывают, что наши методы эффективно снижают артефакты и улучшают качество изображений, превосходя современные диффузионные решатели как для пиксельных, так и для латентных диффузионных моделей при сэмплинге с малым числом шагов. Наше исследование предоставляет новые идеи для разработки численных методов в будущих работах по диффузии.