ChatPaper.aiChatPaper

Одно Диффузное Преобразование, Чтобы Создать Их Всех

One Diffusion to Generate Them All

November 25, 2024
Авторы: Duong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
cs.AI

Аннотация

Мы представляем OneDiffusion - универсальную модель диффузии большого масштаба, которая безупречно поддерживает двустороннюю синтез и понимание изображений по различным задачам. Она позволяет условную генерацию на основе таких входных данных, как текст, глубина, поза, композиция и семантические карты, а также обрабатывает задачи, такие как размытие изображения, увеличение масштаба и обратные процессы, такие как оценка глубины и сегментация. Кроме того, OneDiffusion позволяет генерацию множества видов, оценку позы камеры и мгновенную персонализацию с использованием последовательных изображений. Наша модель применяет простой, но эффективный подход, рассматривая все задачи как последовательности кадров с различными уровнями шума во время обучения, что позволяет любому кадру действовать как условное изображение во время вывода. Наша унифицированная обучающая структура устраняет необходимость в специализированных архитектурах, поддерживает масштабируемое многозадачное обучение и плавно адаптируется к любому разрешению, улучшая как обобщение, так и масштабируемость. Экспериментальные результаты демонстрируют конкурентоспособную производительность по различным задачам как в области генерации, так и прогнозирования, таких как текст в изображение, многовидовая генерация, сохранение идентификатора, оценка глубины и поза камеры, несмотря на относительно небольшой набор данных для обучения. Наш код и контрольная точка доступны бесплатно по адресу https://github.com/lehduong/OneDiffusion
English
We introduce OneDiffusion, a versatile, large-scale diffusion model that seamlessly supports bidirectional image synthesis and understanding across diverse tasks. It enables conditional generation from inputs such as text, depth, pose, layout, and semantic maps, while also handling tasks like image deblurring, upscaling, and reverse processes such as depth estimation and segmentation. Additionally, OneDiffusion allows for multi-view generation, camera pose estimation, and instant personalization using sequential image inputs. Our model takes a straightforward yet effective approach by treating all tasks as frame sequences with varying noise scales during training, allowing any frame to act as a conditioning image at inference time. Our unified training framework removes the need for specialized architectures, supports scalable multi-task training, and adapts smoothly to any resolution, enhancing both generalization and scalability. Experimental results demonstrate competitive performance across tasks in both generation and prediction such as text-to-image, multiview generation, ID preservation, depth estimation and camera pose estimation despite relatively small training dataset. Our code and checkpoint are freely available at https://github.com/lehduong/OneDiffusion

Summary

AI-Generated Summary

PDF312November 26, 2024