HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

19 papers found

TinyGPT-V: Эффективная мультимодальная большая языковая модель на основе компактных архитектур
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Dec 28

ByZhengqing Yuan, Zhaoxu Li, Lichao Sun

В эпоху передового мультимодального обучения мультимодальные большие языковые модели (MLLMs), такие как GPT-4V, достигли значительных успехов в объединении языковых и визуальных элементов. Однако закрытый исходный код и значительные вычислительные требования представляют собой серьезные вызовы для их универсального использования и модификаций. Именно здесь на сцену выходят открытые MLLMs, такие как LLaVA и MiniGPT-4, демонстрируя прорывные достижения в различных задачах. Несмотря на эти успехи, проблема вычислительной эффективности остается нерешенной, поскольку такие модели, как LLaVA-v1.5-13B, требуют значительных ресурсов. Решая эти проблемы, мы представляем TinyGPT-V — новую модель, сочетающую впечатляющую производительность с доступной вычислительной мощностью. Она выделяется тем, что для обучения требуется всего 24 ГБ видеопамяти, а для вывода — 8 ГБ видеопамяти или процессор. Основанная на Phi-2, TinyGPT-V объединяет эффективный языковой бэкбон с предобученными визуальными модулями из BLIP-2 или CLIP. 2,8 миллиарда параметров TinyGPT-V могут быть подвергнуты уникальному процессу квантования, что делает модель подходящей для локального развертывания и выполнения задач вывода на устройствах с 8 ГБ памяти. Наша работа способствует дальнейшему развитию проектирования экономически эффективных, производительных и высокоэффективных MLLMs, расширяя их применимость в широком спектре реальных сценариев. Кроме того, в данной статье предложена новая парадигма мультимодальных больших языковых моделей с использованием компактных бэкбонов. Наш код и веса для обучения доступны по адресам: https://github.com/DLYuanGod/TinyGPT-V и https://huggingface.co/Tyrannosaurus/TinyGPT-V соответственно.

Unified-IO 2: Масштабирование авторегрессивных мультимодальных моделей с использованием зрения, языка, аудио и действий
Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision, Language, Audio, and Action

Dec 28

ByJiasen Lu, Christopher Clark, Sangho Lee, Zichen Zhang, Savya Khosla, Ryan Marten, Derek Hoiem, Aniruddha Kembhavi

Мы представляем Unified-IO 2 — первую авторегрессивную мультимодальную модель, способную понимать и генерировать изображения, текст, аудио и действия. Для объединения различных модальностей мы токенизируем входные и выходные данные — изображения, текст, аудио, действия, ограничивающие рамки и т.д. — в общее семантическое пространство, а затем обрабатываем их с помощью единой модели трансформера с архитектурой кодировщик-декодировщик. Поскольку обучение с такими разнообразными модальностями является сложной задачей, мы предлагаем различные архитектурные улучшения для стабилизации процесса обучения модели. Мы обучаем нашу модель с нуля на большом мультимодальном корпусе предварительного обучения, собранном из разнообразных источников, с использованием мультимодальной смеси целей денойзеров. Для освоения широкого набора навыков, таких как выполнение мультимодальных инструкций, мы создаем и дообучаем модель на ансамбле из 120 наборов данных с подсказками и аугментациями. С единой унифицированной моделью Unified-IO 2 достигает наилучших результатов на бенчмарке GRIT и демонстрирует высокие показатели в более чем 35 бенчмарках, включая генерацию и понимание изображений, понимание естественного языка, понимание видео и аудио, а также манипуляции в робототехнике. Мы публикуем все наши модели для научного сообщества.

Генеративный ИИ для математики: Часть I — MathPile: Предобучающий корпус математических данных масштаба в миллиард токенов
Generative AI for Math: Part I -- MathPile: A Billion-Token-Scale Pretraining Corpus for Math

Dec 28

ByZengzhi Wang, Rui Xia, Pengfei Liu

Высококачественные крупномасштабные корпуса являются краеугольным камнем для создания базовых моделей. В данной работе мы представляем MathPile — разнообразный и высококачественный корпус, ориентированный на математику, содержащий около 9,5 миллиардов токенов. В процессе его создания мы придерживались принципа «меньше — значит больше», твердо веря в превосходство качества данных над их количеством даже на этапе предварительного обучения. Наши тщательные усилия по сбору и обработке данных включали комплексный набор этапов предобработки, предварительной фильтрации, идентификации языка, очистки, фильтрации и дедупликации, что обеспечило высокое качество нашего корпуса. Кроме того, мы провели проверку на загрязнение данных в тестовых наборах для последующих этапов, чтобы исключить дубликаты. Мы надеемся, что наш MathPile сможет способствовать улучшению способностей языковых моделей к математическому рассуждению. Мы планируем открыть исходный код различных версий \mathpile вместе с используемыми для обработки скриптами, чтобы способствовать дальнейшему развитию в этой области.

MobileVLM: Быстрый, воспроизводимый и мощный визуально-языковой ассистент для мобильных устройств
MobileVLM : A Fast, Reproducible and Strong Vision Language Assistant for Mobile Devices

Dec 28

ByXiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

Мы представляем MobileVLM, эффективную мультимодальную модель обработки визуальной и языковой информации (MMVLM), предназначенную для работы на мобильных устройствах. Эта модель объединяет множество архитектурных решений и методов, ориентированных на мобильные платформы, включая набор языковых моделей с параметрами масштаба 1,4 млрд и 2,7 млрд, обученных с нуля, мультимодальную визуальную модель, предварительно обученную в стиле CLIP, а также кросс-модальное взаимодействие через эффективный проектор. Мы оцениваем MobileVLM на нескольких типичных бенчмарках для VLM. Наши модели демонстрируют сопоставимую производительность по сравнению с несколькими значительно более крупными моделями. Что еще важнее, мы измеряем скорость вывода как на процессоре Qualcomm Snapdragon 888, так и на графическом процессоре NVIDIA Jetson Orin, достигая передовых показателей в 21,5 и 65,3 токенов в секунду соответственно. Наш код будет доступен по адресу: https://github.com/Meituan-AutoML/MobileVLM.

Независимая универсальная сегментация изображений
Unsupervised Universal Image Segmentation

Dec 28

ByDantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell

Было предложено несколько подходов к неконтролируемой сегментации изображений, которые устраняют необходимость в плотных ручных аннотациях масок сегментации; современные модели отдельно решают либо задачу семантической сегментации (например, STEGO), либо класс-независимой сегментации экземпляров (например, CutLER), но не обе задачи одновременно (т.е. панорамную сегментацию). Мы предлагаем модель Unsupervised Universal Segmentation (U2Seg), способную выполнять различные задачи сегментации изображений — сегментацию экземпляров, семантическую и панорамную — с использованием нового унифицированного подхода. U2Seg генерирует псевдосемантические метки для этих задач сегментации, используя самоконтролируемые модели с последующей кластеризацией; каждый кластер представляет различные семантические и/или принадлежность экземпляров пикселей. Затем мы проводим самообучение модели на этих псевдосемантических метках, что приводит к значительному улучшению производительности по сравнению с специализированными методами, адаптированными для каждой задачи: увеличение на +2.6 AP^{box} по сравнению с CutLER в неконтролируемой сегментации экземпляров на COCO и увеличение на +7.0 PixelAcc (по сравнению с STEGO) в неконтролируемой семантической сегментации на COCOStuff. Более того, наш метод устанавливает новый базовый уровень для неконтролируемой панорамной сегментации, которая ранее не исследовалась. U2Seg также является мощной предобученной моделью для сегментации с малым количеством данных, превосходя CutLER на +5.0 AP^{mask} при обучении в условиях ограниченных данных, например, всего 1% меток COCO. Мы надеемся, что наш простой, но эффективный метод вдохновит на дальнейшие исследования в области неконтролируемой универсальной сегментации изображений.

DreamGaussian4D: Генеративное 4D-размытие по методу Гаусса
DreamGaussian4D: Generative 4D Gaussian Splatting

Dec 28

ByJiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, Ziwei Liu

В последнее время был достигнут значительный прогресс в генерации 4D-контента. Однако существующие методы страдают от длительного времени оптимизации, отсутствия управляемости движением и низкого уровня детализации. В данной статье мы представляем DreamGaussian4D — эффективный фреймворк для генерации 4D-контента, основанный на представлении 4D Gaussian Splatting. Наше ключевое наблюдение заключается в том, что явное моделирование пространственных преобразований в Gaussian Splatting делает его более подходящим для задач 4D-генерации по сравнению с неявными представлениями. DreamGaussian4D сокращает время оптимизации с нескольких часов до нескольких минут, позволяет гибко управлять генерируемым 3D-движением и создает анимированные меши, которые могут быть эффективно отрендерены в 3D-движках.

DL3DV-10K: Крупномасштабный набор данных сцен для глубокого обучения в задачах 3D-зрения
DL3DV-10K: A Large-Scale Scene Dataset for Deep Learning-based 3D Vision

Dec 26

ByLu Ling, Yichen Sheng, Zhi Tu, Wentian Zhao, Cheng Xin, Kun Wan, Lantao Yu, Qianyu Guo, Zixun Yu, Yawen Lu, Xuanmao Li, Xingpeng Sun, Rohan Ashok, Aniruddha Mukherjee, Hao Kang, Xiangrui Kong, Gang Hua, Tianti Zhang, Bedrich Benes, Aniket Bera

Мы наблюдаем значительный прогресс в области трехмерного зрения на основе глубокого обучения, начиная с обучения представлениям 3D на основе нейронных полей излучения (NeRF) и заканчивая приложениями в синтезе новых видов (NVS). Однако существующие наборы данных на уровне сцен для трехмерного зрения на основе глубокого обучения, ограниченные либо синтетическими средами, либо узким выбором реальных сцен, являются крайне недостаточными. Эта недостаточность не только препятствует всестороннему тестированию существующих методов, но и ограничивает возможности исследования в области анализа 3D на основе глубокого обучения. Чтобы устранить этот критический пробел, мы представляем DL3DV-10K — крупномасштабный набор данных сцен, содержащий 51,2 миллиона кадров из 10 510 видеороликов, снятых в 65 типах точек интереса (POI), охватывающих как ограниченные, так и неограниченные сцены с различными уровнями отражения, прозрачности и освещения. Мы провели всестороннее тестирование современных методов NVS на DL3DV-10K, что позволило получить ценные инсайты для будущих исследований в области NVS. Кроме того, мы получили обнадеживающие результаты в пилотном исследовании по обучению обобщаемого NeRF на основе DL3DV-10K, что подчеркивает необходимость крупномасштабного набора данных на уровне сцен для создания фундаментальной модели обучения представлений 3D. Наш набор данных DL3DV-10K, результаты тестирования и модели будут общедоступны по адресу https://dl3dv-10k.github.io/DL3DV-10K/.

City-on-Web: Нейронный рендеринг крупномасштабных сцен в реальном времени в веб-среде
City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web

Dec 27

ByKaiwen Song, Juyong Zhang

NeRF значительно продвинул реконструкцию 3D-сцен, захватывая сложные детали в различных окружениях. Существующие методы успешно использовали "запекание" полей излучения для обеспечения рендеринга небольших сцен в реальном времени. Однако при применении к крупномасштабным сценам эти методы сталкиваются с серьезными трудностями, не обеспечивая плавного рендеринга в реальном времени из-за ограниченных вычислительных ресурсов, памяти и пропускной способности. В данной работе мы предлагаем City-on-Web, который представляет всю сцену, разделяя её на управляемые блоки, каждый с собственным уровнем детализации (Level-of-Detail), что обеспечивает высокую точность, эффективное управление памятью и быстрый рендеринг. При этом мы тщательно проектируем процесс обучения и вывода, чтобы конечный результат рендеринга в веб-среде соответствовал обучению. Благодаря нашей новой репрезентации и тщательно разработанному процессу обучения/вывода, мы первыми достигли рендеринга крупномасштабных сцен в реальном времени в условиях ограниченных ресурсов. Обширные экспериментальные результаты демонстрируют, что наш метод обеспечивает рендеринг крупномасштабных сцен в реальном времени на веб-платформе, достигая 32 кадров в секунду при разрешении 1080P на GPU RTX 3060, при этом качество близко к современным методам. Страница проекта: https://ustc3dv.github.io/City-on-Web/

I2V-Adapter: Универсальный адаптер для преобразования изображений в видео в моделях видеодиффузии
I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models

Dec 27

ByXun Guo, Mingwu Zheng, Liang Hou, Yuan Gao, Yufan Deng, Chongyang Ma, Weiming Hu, Zhengjun Zha, Haibin Huang, Pengfei Wan, Di Zhang

В быстро развивающейся области генерации цифрового контента внимание сместилось с моделей преобразования текста в изображение (T2I) на более продвинутые модели диффузии видео, в частности, преобразование текста в видео (T2V) и изображения в видео (I2V). В данной статье рассматривается сложная задача, связанная с I2V: преобразование статических изображений в динамичные, реалистичные видеопоследовательности с сохранением исходной точности изображения. Традиционные методы обычно предполагают интеграцию всего изображения в процессы диффузии или использование предобученных энкодеров для кросс-внимания. Однако такие подходы часто требуют изменения базовых весов моделей T2I, что ограничивает их повторное использование. Мы представляем новое решение, а именно I2V-Adapter, разработанное для преодоления этих ограничений. Наш подход сохраняет структурную целостность моделей T2I и их встроенные модули движения. I2V-Adapter работает, обрабатывая зашумленные кадры видео параллельно с входным изображением, используя легковесный адаптерный модуль. Этот модуль служит мостом, эффективно связывая входные данные с механизмом самовнимания модели, сохраняя пространственные детали без необходимости структурных изменений в модели T2I. Более того, I2V-Adapter требует лишь малой доли параметров по сравнению с традиционными моделями и обеспечивает совместимость с существующими моделями T2I и инструментами управления, разработанными сообществом. Наши экспериментальные результаты демонстрируют способность I2V-Adapter генерировать высококачественные видеовыходы. Такая производительность, в сочетании с универсальностью и сниженной потребностью в обучаемых параметрах, представляет собой значительный прогресс в области генерации видео с использованием ИИ, особенно для творческих приложений.

InsActor: Физически реалистичные персонажи, управляемые инструкциями
InsActor: Instruction-driven Physics-based Characters

Dec 28

ByJiawei Ren, Mingyuan Zhang, Cunjun Yu, Xiao Ma, Liang Pan, Ziwei Liu

Создание анимации физически основанных персонажей с интуитивным управлением долгое время оставалось желаемой задачей с множеством приложений. Однако генерация физически симулированных анимаций, отражающих высокоуровневые инструкции человека, остается сложной проблемой из-за сложности физических сред и богатства человеческого языка. В данной статье мы представляем InsActor, принципиальную генеративную структуру, которая использует последние достижения в диффузионных моделях движения человека для создания анимаций физически основанных персонажей, управляемых инструкциями. Наша структура позволяет InsActor улавливать сложные взаимосвязи между высокоуровневыми инструкциями человека и движениями персонажей, применяя диффузионные политики для гибкого планирования движений с учетом условий. Чтобы преодолеть недопустимые состояния и невозможные переходы между состояниями в запланированных движениях, InsActor обнаруживает низкоуровневые навыки и отображает планы в последовательности скрытых навыков в компактном скрытом пространстве. Многочисленные эксперименты демонстрируют, что InsActor достигает передовых результатов в различных задачах, включая генерацию движений, управляемых инструкциями, и движение к целевым точкам, управляемое инструкциями. Особенно важно, что способность InsActor генерировать физически симулированные анимации с использованием высокоуровневых инструкций человека делает его ценным инструментом, особенно для выполнения долгосрочных задач с богатым набором инструкций.

Пространственно-временное гауссово размытие признаков для синтеза динамических видов в реальном времени
Spacetime Gaussian Feature Splatting for Real-Time Dynamic View Synthesis

Dec 28

ByZhan Li, Zhang Chen, Zhong Li, Yi Xu

Синтез новых видов динамических сцен представляет собой увлекательную, но сложную задачу. Несмотря на недавние достижения, одновременное достижение фотореалистичных результатов высокого разрешения, рендеринга в реальном времени и компактного хранения данных остается серьезной проблемой. Для решения этих задач мы предлагаем новый метод представления динамических сцен — Spacetime Gaussian Feature Splatting, состоящий из трех ключевых компонентов. Во-первых, мы формулируем выразительные Spacetime Gaussians, расширяя 3D-гауссовы функции временной прозрачностью и параметрическим движением/вращением. Это позволяет Spacetime Gaussians захватывать статическое, динамическое и временное содержимое сцены. Во-вторых, мы вводим рендеринг с использованием сплаттинга признаков, заменяя сферические гармоники нейронными признаками. Эти признаки упрощают моделирование внешнего вида, зависящего от угла обзора и времени, сохраняя при этом малый размер. В-третьих, мы используем руководство по ошибке обучения и грубой глубине для выборки новых гауссовых функций в областях, которые сложно сходимы с существующими подходами. Эксперименты на нескольких известных наборах данных реального мира демонстрируют, что наш метод достигает наивысшего качества и скорости рендеринга при сохранении компактного хранения. На разрешении 8K наша облегченная версия модели способна рендерить со скоростью 60 кадров в секунду на GPU Nvidia RTX 4090.

Хирург LLM
The LLM Surgeon

Dec 28

ByTycho F. A. van der Ouderaa, Markus Nagel, Mart van Baalen, Yuki M. Asano, Tijmen Blankevoort

Современные языковые модели становятся все более крупными в стремлении достичь наивысшей производительности на больших корпусах доступных текстовых данных. Однако огромный размер архитектур Transformer затрудняет развертывание моделей в условиях вычислительных, экологических или специфических для устройств ограничений. Мы исследуем сжатие существующих предобученных моделей на основе данных как альтернативу обучению меньших моделей с нуля. Для этого мы масштабируем аппроксимации кривизны, факторизованные по Кронекеру, для ландшафта целевой функции потерь в крупных языковых моделях. Это позволяет нам вычислять как динамическое распределение структур, которые могут быть удалены, так и обновления оставшихся весов, учитывающие удаление. Мы предлагаем общий фреймворк для неструктурированного, полуструктурированного и структурированного прореживания и улучшаем обновления весов для учета большего количества корреляций между ними, сохраняя при этом вычислительную эффективность. Экспериментально наш метод позволяет прореживать строки и столбцы в ряде моделей OPT и Llamav2-7B на 20%-30% с незначительной потерей производительности и достигает современных результатов в неструктурированном и полуструктурированном прореживании крупных языковых моделей.

Hyper-VolTran: Быстрое и обобщаемое преобразование одного изображения в 3D-структуру объекта с использованием гиперсетей
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks

Dec 24

ByChristian Simon, Sen He, Juan-Manuel Perez-Rua, Frost Xu, Amine Benhalloum, Tao Xiang

Решение задачи преобразования изображения в 3D на основе одного вида является некорректно поставленной проблемой, и современные методы нейронной реконструкции, использующие диффузионные модели, по-прежнему опираются на оптимизацию, специфичную для конкретной сцены, что ограничивает их способность к обобщению. Чтобы преодолеть ограничения существующих подходов в отношении обобщения и согласованности, мы представляем новую технику нейронного рендеринга. Наш подход использует знаковую функцию расстояния для представления поверхности и включает обобщающие априорные знания через объемы, кодирующие геометрию, и HyperNetworks. В частности, наш метод строит нейронные кодирующие объемы на основе сгенерированных входных данных с нескольких видов. Мы настраиваем веса сети SDF, зависящие от входного изображения во время тестирования, чтобы позволить модели адаптироваться к новым сценам в прямом проходе через HyperNetworks. Для устранения артефактов, возникающих из синтезированных видов, мы предлагаем использовать модуль объемного трансформера для улучшения агрегации признаков изображения вместо обработки каждого вида по отдельности. Благодаря нашему предложенному методу, названному Hyper-VolTran, мы избегаем узкого места, связанного с оптимизацией, специфичной для сцены, и поддерживаем согласованность между изображениями, сгенерированными с нескольких точек зрения. Наши эксперименты демонстрируют преимущества предложенного подхода, обеспечивая согласованные результаты и быстрое генерирование.

PanGu-Draw: Развитие ресурсоэффективного синтеза изображений из текста с использованием временно-разделенного обучения и повторно используемого Coop-Diffusion
PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Dec 27

ByGuansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu

Современные крупномасштабные диффузионные модели представляют собой значительный прорыв в области условного синтеза изображений, способный интерпретировать разнообразные сигналы, такие как текст, позы человека и контуры. Однако их зависимость от значительных вычислительных ресурсов и обширного сбора данных остается узким местом. С другой стороны, интеграция существующих диффузионных моделей, каждая из которых специализируется на различных типах управления и работает в уникальных латентных пространствах, представляет собой сложность из-за несовместимых разрешений изображений и структур встраивания латентных пространств, что затрудняет их совместное использование. Для решения этих ограничений мы представляем "PanGu-Draw", новую латентную диффузионную модель, разработанную для ресурсоэффективного синтеза изображений по тексту, которая эффективно поддерживает множественные управляющие сигналы. Во-первых, мы предлагаем ресурсоэффективную стратегию обучения с разделением по времени, которая разделяет монолитную модель синтеза изображений по тексту на генераторы структуры и текстуры. Каждый генератор обучается с использованием методики, которая максимизирует использование данных и вычислительную эффективность, сокращая подготовку данных на 48% и уменьшая ресурсы для обучения на 51%. Во-вторых, мы представляем "Coop-Diffusion", алгоритм, который позволяет совместно использовать различные предварительно обученные диффузионные модели с разными латентными пространствами и предопределенными разрешениями в рамках единого процесса удаления шума. Это позволяет осуществлять синтез изображений с множественным управлением при произвольных разрешениях без необходимости дополнительных данных или переобучения. Эмпирические проверки PanGu-Draw демонстрируют его исключительные способности в синтезе изображений по тексту и генерации изображений с множественным управлением, указывая на перспективное направление для повышения эффективности обучения моделей и универсальности генерации. Самая крупная 5B T2I модель PanGu-Draw выпущена на платформе Ascend. Страница проекта: https://pangu-draw.github.io.

Компактные нейронные графические примитивы с обученным хэш-зондированием
Compact Neural Graphics Primitives with Learned Hash Probing

Dec 28

ByTowaki Takikawa, Thomas Müller, Merlin Nimier-David, Alex Evans, Sanja Fidler, Alec Jacobson, Alexander Keller

Нейронные графические примитивы работают быстрее и достигают более высокого качества, когда их нейронные сети дополнены пространственными структурами данных, содержащими обучаемые признаки, организованные в сетку. Однако существующие сетки признаков либо требуют значительного объема памяти (плотные или факторизованные сетки, деревья и хэш-таблицы), либо отличаются низкой производительностью (обучение индексов и векторное квантование). В данной работе мы показываем, что хэш-таблица с обученными пробами лишена этих недостатков, что приводит к выгодному сочетанию размера и скорости. Вывод данных происходит быстрее, чем в хэш-таблицах без проб, при равном качестве, а обучение занимает всего в 1,2–2,6 раза больше времени, значительно превосходя предыдущие подходы к обучению индексов. Мы приходим к этой формулировке, рассматривая все сетки признаков в рамках общей структуры: каждая из них соответствует функции поиска, которая индексирует таблицу векторов признаков. В этой структуре функции поиска существующих структур данных могут быть объединены с помощью простых арифметических комбинаций их индексов, что приводит к Парето-оптимальному сжатию и скорости.

SSR-Encoder: Кодирование избирательного представления субъекта для генерации, управляемой объектом
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation

Dec 26

ByYuxuan Zhang, Jiaming Liu, Yiren Song, Rui Wang, Hao Tang, Jinpeng Yu, Huaxia Li, Xu Tang, Yao Hu, Han Pan, Zhongliang Jing

Последние достижения в области генерации изображений на основе объектов привели к появлению генерации в режиме "zero-shot", однако точный выбор и фокусировка на ключевых представлениях объектов остаются сложными задачами. Для решения этой проблемы мы представляем SSR-Encoder — новую архитектуру, разработанную для избирательного захвата любого объекта из одного или нескольких эталонных изображений. Она реагирует на различные модальности запросов, включая текст и маски, без необходимости тонкой настройки во время тестирования. SSR-Encoder объединяет Token-to-Patch Aligner, который выравнивает входные запросы с участками изображения, и Detail-Preserving Subject Encoder для извлечения и сохранения детальных характеристик объектов, тем самым генерируя эмбеддинги объектов. Эти эмбеддинги, используемые совместно с оригинальными текстовыми эмбеддингами, управляют процессом генерации. Благодаря своей обобщаемости и эффективности, SSR-Encoder адаптируется к широкому спектру пользовательских моделей и управляющих модулей. Улучшенный за счет Embedding Consistency Regularization Loss для более качественного обучения, наши обширные эксперименты демонстрируют его эффективность в универсальной и высококачественной генерации изображений, что указывает на его широкую применимость. Страница проекта: https://ssr-encoder.github.io

Расширение промптов для адаптивной генерации текста в изображения
Prompt Expansion for Adaptive Text-to-Image Generation

Dec 27

BySiddhartha Datta, Alexander Ku, Deepak Ramachandran, Peter Anderson

Модели генерации изображений по тексту обладают мощными возможностями, но их использование сопряжено с трудностями. Пользователи создают специфические запросы для получения более качественных изображений, хотя результаты могут быть повторяющимися. В данной статье предлагается фреймворк Prompt Expansion, который помогает пользователям генерировать высококачественные и разнообразные изображения с меньшими усилиями. Модель Prompt Expansion принимает текстовый запрос на вход и выводит набор расширенных текстовых подсказок, оптимизированных таким образом, что при передаче в модель генерации изображений по тексту создается более широкий спектр привлекательных изображений. Мы провели исследование с участием людей, которое показало, что изображения, сгенерированные с использованием Prompt Expansion, более эстетичны и разнообразны по сравнению с результатами базовых методов. В целом, статья представляет новый и эффективный подход к улучшению опыта генерации изображений по тексту.

DiffusionGAN3D: Усиление генерации и адаптации 3D-моделей на основе текстовых описаний за счет комбинации 3D GAN и диффузионных моделей
DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaption by Combining 3D GANs and Diffusion Priors

Dec 28

ByBiwen Lei, Kai Yu, Mengyang Feng, Miaomiao Cui, Xuansong Xie

Адаптация и генерация 3D-портретов с текстовым управлением находят множество применений в различных областях. Однако из-за недостатка обучающих данных и сложностей, связанных с обработкой большого разнообразия геометрии и внешнего вида, существующие методы для этих задач страдают от таких проблем, как негибкость, нестабильность и низкая точность. В данной статье мы предлагаем новую структуру DiffusionGAN3D, которая улучшает адаптацию и генерацию 3D-доменов с текстовым управлением за счет комбинации 3D GAN и диффузионных априорных моделей. В частности, мы интегрируем предобученные 3D-генеративные модели (например, EG3D) и модели диффузии для преобразования текста в изображение. Первые обеспечивают прочную основу для стабильной и высококачественной генерации аватаров из текста. В свою очередь, модели диффузии предоставляют мощные априорные данные и направляют тонкую настройку 3D-генератора с информативным руководством для достижения гибкой и эффективной адаптации доменов с текстовым управлением. Для повышения разнообразия в адаптации доменов и способности генерации в задаче преобразования текста в аватар мы вводим соответственно функцию потерь на основе относительного расстояния и обучаемую триплоскость, специфичную для конкретного случая. Кроме того, мы разрабатываем прогрессивный модуль уточнения текстур для улучшения качества текстур в обеих задачах. Многочисленные эксперименты демонстрируют, что предложенная структура достигает превосходных результатов как в адаптации доменов, так и в задаче преобразования текста в аватар, превосходя существующие методы по качеству и эффективности генерации. Домашняя страница проекта доступна по адресу https://younglbw.github.io/DiffusionGAN3D-homepage/.

Восстановление путем генерации с ограниченными априорными условиями
Restoration by Generation with Constrained Priors

Dec 28

ByZheng Ding, Xuaner Zhang, Zhuowen Tu, Zhihao Xia

Врожденная генеративная способность моделей диффузии с удалением шума делает их хорошо подходящими для задач восстановления изображений, где цель заключается в нахождении оптимального высококачественного изображения в генеративном пространстве, которое максимально близко соответствует входному изображению. Мы предлагаем метод адаптации предварительно обученной модели диффузии для восстановления изображений путем простого добавления шума к входному изображению, которое требуется восстановить, и последующего удаления шума. Наш метод основан на наблюдении, что пространство генеративной модели необходимо ограничить. Мы накладываем это ограничение путем тонкой настройки генеративной модели с использованием набора опорных изображений, которые отражают характеристики входного изображения. С ограниченным пространством мы можем затем использовать стратегию выборки, применяемую для генерации, для выполнения восстановления изображений. Мы сравниваем наш метод с предыдущими подходами и демонстрируем превосходные результаты на нескольких наборах данных для восстановления реальных изображений с точки зрения сохранения идентичности и качества изображения. Мы также показываем важное и практическое применение персонализированного восстановления, где в качестве опорных изображений используется личный альбом для ограничения генеративного пространства. Этот подход позволяет нам получать результаты, которые точно сохраняют высокочастотные детали, что недоступно в предыдущих работах. Веб-страница проекта: https://gen2res.github.io.