Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Быстрый синтез изображений высокого разрешения с латентной адверсарной диффузионной дистилляцией
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Mar 18

ByAxel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach

Модели диффузии являются основным двигателем прогресса в синтезе изображений и видео, но страдают от медленной скорости вывода. Методы дистилляции, такие как недавно представленная дистилляция адверсариальной диффузии (ADD), нацелены на переход модели от многократного к одношаговому выводу, хотя за счет дорогостоящей и сложной оптимизации из-за зависимости от фиксированного предварительно обученного дискриминатора DINOv2. Мы представляем Латентную Адверсариальную Дистилляцию Диффузии (LADD), новый подход к дистилляции, преодолевающий ограничения ADD. В отличие от пиксельной ADD, LADD использует генеративные признаки из предварительно обученных моделей латентной диффузии. Этот подход упрощает обучение и улучшает производительность, обеспечивая синтез изображений высокого разрешения с различными соотношениями сторон. Мы применяем LADD к Stable Diffusion 3 (8B) для получения SD3-Turbo, быстрой модели, которая соответствует производительности передовых генераторов текста в изображения, используя всего лишь четыре неуправляемых шага выборки. Более того, мы систематически исследуем ее поведение при масштабировании и демонстрируем эффективность LADD в различных приложениях, таких как редактирование изображений и заполнение пробелов.

PERL: Параметрически эффективное обучение с подкреплением на основе обратной связи человека
PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Mar 15

ByHakim Sidahmed, Samrat Phatale, Alex Hutcheson, Zhuonan Lin, Zhang Chen, Zac Yu, Jarvis Jin, Roman Komarytsia, Christiane Ahlheim, Yonghao Zhu, Simral Chaudhary, Bowen Li, Saravanan Ganesh, Bill Byrne, Jessica Hoffmann, Hassan Mansoor, Wei Li, Abhinav Rastogi, Lucas Dixon

Обучение с подкреплением на основе обратной связи от человека (RLHF) доказало свою эффективность как сильный метод для согласования Предварительно обученных Больших Языковых Моделей (LLM) с предпочтениями человека. Однако обучение моделей с использованием RLHF является вычислительно затратным и в целом сложным процессом. В данной работе мы изучаем RLHF, в котором базовые модели обучаются с использованием метода эффективного по параметрам метода Низкоранговой Адаптации (LoRA), представленного Ху и др. [2021]. Мы исследуем настройку "Параметрически эффективного обучения с подкреплением" (PERL), в рамках которой мы проводим обучение модели вознаграждения и обучение с подкреплением с использованием LoRA. Мы сравниваем PERL с традиционной настройкой тонкой настройки (полной настройки) на различных конфигурациях для 7 бенчмарков, включая 2 новых набора данных, для моделирования вознаграждения и обучения с подкреплением. Мы обнаружили, что PERL показывает результаты на уровне традиционной настройки RLHF, при этом обучается быстрее и требует меньше памяти. Это обеспечивает высокую производительность RLHF, снижая вычислительную нагрузку, которая ограничивает его применение как метода согласования для Больших Языковых Моделей. Мы также представляем 2 новых набора данных с предпочтениями "палец вверх/палец вниз": "Taskmaster Coffee" и "Taskmaster Ticketing", чтобы содействовать исследованиям в области RLHF.

Ларимар: Большие языковые модели с управлением эпизодической памятью
Larimar: Large Language Models with Episodic Memory Control

Mar 18

ByPayel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen

Эффективное и точное обновление знаний, хранящихся в больших языковых моделях (LLM), является одной из наиболее актуальных исследовательских задач сегодня. В данной статье представлена Larimar - новая архитектура, вдохновленная мозгом, для улучшения LLM с распределенной эпизодической памятью. Память Larimar позволяет динамически обновлять знания одним выстрелом без необходимости затратного повторного обучения или настройки. Экспериментальные результаты на нескольких бенчмарках редактирования фактов показывают, что Larimar достигает точности, сравнимой с большинством конкурентных базовых уровней, даже в сложной последовательной настройке редактирования, но также превосходит в скорости - обеспечивая ускорение в 4-10 раз в зависимости от базового LLM - а также гибкость благодаря предложенной простой, не привязанной к LLM архитектуре и, следовательно, общей. Мы также предоставляем механизмы для выборочного забывания фактов и обобщения длины контекста ввода с помощью Larimar и демонстрируем их эффективность.

SV3D: Новый синтез многозрительности и генерация трехмерных объектов из одного изображения с использованием латентной видео-диффузии.
SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

Mar 18

ByVikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani

Мы представляем модель стабильного видео 3D (SV3D) - латентную модель диффузии видео для генерации изображений в множественных видах орбитальных видео вокруг 3D объекта. Недавние работы по созданию 3D моделей предлагают техники адаптации 2D генеративных моделей для синтеза нового вида (NVS) и 3D оптимизации. Однако эти методы имеют несколько недостатков из-за ограниченных видов или несогласованного NVS, что влияет на производительность генерации 3D объектов. В данной работе мы предлагаем SV3D, которая адаптирует модель диффузии изображения в видео для синтеза новых многовидовых изображений и генерации 3D, тем самым используя обобщение и многовидовую согласованность видео моделей, а также добавляя явное управление камерой для NVS. Мы также предлагаем улучшенные техники 3D оптимизации для использования SV3D и ее выходов NVS для генерации изображения в 3D. Обширные экспериментальные результаты на нескольких наборах данных с использованием 2D и 3D метрик, а также пользовательское исследование, демонстрируют передовую производительность SV3D в NVS и реконструкции 3D по сравнению с предыдущими работами.

Бесконечный-ID: персонализация с сохранением идентичности через семантику идентификатора Парадигма декуплирования
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

Mar 18

ByYi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li

Основываясь на последних достижениях в моделях диффузии для генерации текста в изображение, персонализация с сохранением идентичности сделала значительный прогресс в точном воспроизведении конкретных идентичностей с помощью всего одного исходного изображения. Однако существующие методы в основном интегрируют исходные изображения в пределах пространства встраивания текста, что приводит к сложному переплетению информации об изображении и тексте, что создает проблемы для сохранения как верности идентичности, так и семантической последовательности. Для решения этой проблемы мы предлагаем Infinite-ID, парадигму декуплирования идентификаторов и семантики для персонализации с сохранением идентичности. Конкретно, мы вводим улучшенное обучение идентификаторов, включая дополнительный модуль кросс-внимания к изображению для захвата достаточной информации об идентификаторе, отключая при этом исходный модуль кросс-внимания к тексту модели диффузии. Это гарантирует, что поток изображения точно представляет идентичность, предоставленную исходным изображением, минимизируя при этом вмешательство текстового ввода. Кроме того, мы вводим механизм взаимодействия функций, который объединяет смешанный модуль внимания с операцией AdaIN-mean для плавного слияния двух потоков. Этот механизм не только улучшает верность идентичности и семантическую последовательность, но также обеспечивает удобное управление стилями сгенерированных изображений. Обширные экспериментальные результаты как по генерации сырых фотографий, так и по генерации стилей изображений демонстрируют превосходную производительность нашего предложенного метода.

LightIt: Моделирование и управление освещением для моделей диффузного рассеивания
LightIt: Illumination Modeling and Control for Diffusion Models

Mar 15

ByPeter Kocsis, Julien Philip, Kalyan Sunkavalli, Matthias Nießner, Yannick Hold-Geoffroy

Мы представляем LightIt, метод явного управления освещением для генерации изображений. Недавние методы генерации не обладают контролем освещения, что критически важно для многих художественных аспектов генерации изображений, таких как установление общего настроения или кинематографического вида. Для преодоления этих ограничений мы предлагаем условие генерации на картах теней и нормалей. Мы моделируем освещение с помощью однократного отражения, включая отбрасывание теней. Сначала мы обучаем модуль оценки теней для создания набора данных из реальных изображений и пар теней. Затем мы обучаем сеть управления, используя оцененные тени и нормали в качестве входных данных. Наш метод продемонстрировал генерацию изображений высокого качества и управление освещением во многих сценах. Кроме того, мы используем наш созданный набор данных для обучения модели переосвещения, сохраняющей идентичность, условленной изображением и целевым освещением. Наш метод является первым, который позволяет генерацию изображений с управляемым, согласованным освещением и работает на уровне специализированных методов переосвещения новейших достижений.

LLaVA-UHD: модель с многомасштабным механизмом внимания для восприятия изображений любого соотношения сторон и высокого разрешения
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Mar 18

ByRuyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang

Визуальное кодирование составляет основу крупных мультимодальных моделей (LMM) в понимании визуального мира. Традиционные LMM обрабатывают изображения фиксированных размеров и ограниченного разрешения, в то время как недавние исследования в этом направлении ограничены в адаптивности, эффективности и даже правильности. В данной работе мы в первую очередь рассматриваем GPT-4V и LLaVA-1.5 в качестве репрезентативных примеров и выявляем систематические недостатки, заложенные в их стратегии визуального кодирования. Для решения поставленных задач мы представляем LLaVA-UHD, крупную мультимодальную модель, способную эффективно воспринимать изображения любого соотношения сторон и высокого разрешения. LLaVA-UHD включает три ключевых компонента: (1) стратегию модуляризации изображений, которая разделяет изображения нативного разрешения на более мелкие сегменты переменного размера для эффективного и расширяемого кодирования, (2) модуль сжатия, который дополнительно уплотня токены изображений от визуальных кодировщиков, и (3) пространственную схему для организации сегментов для LMM. Комплексные эксперименты показывают, что LLaVA-UHD превосходит установленные LMM, обученные на 2-3 порядка большем объеме данных, на 9 бенчмарках. Особенно стоит отметить, что наша модель, построенная на LLaVA-1.5 336x336, поддерживает изображения разрешением в 6 раз большем (т.е. 672x1088), используя всего лишь 94% вычислительных ресурсов для вывода, и достигает улучшения точности на 6.4 в задаче TextVQA. Более того, модель может быть эффективно обучена в академических условиях за 23 часа на 8 GPU A100 (в сравнении с 26 часами для LLaVA-1.5). Мы предоставляем данные и код публично по адресу https://github.com/thunlp/LLaVA-UHD.

Общий 3D диффузионный адаптер с использованием контролируемого многопросмотрового редактирования.
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

Mar 18

ByHansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas

Синтез трехмерных объектов в открытой области отстает от синтеза изображений из-за ограниченных данных и более высокой вычислительной сложности. Для устранения этого разрыва недавние работы исследовали многовидовую диффузию, но часто уступают в либо трехмерной согласованности, либо визуальном качестве, либо эффективности. В данной статье предлагается MVEdit, который функционирует как трехмерный аналог SDEdit, используя предковую выборку для совместного удаления шумов с многовидовых изображений и вывода высококачественных текстурированных сеток. Основанный на готовых 2D моделях диффузии, MVEdit достигает трехмерной согласованности через трехмерный адаптер без обучения, который преобразует 2D виды последнего временного шага в согласованное трехмерное представление, затем условиями делает 2D виды следующего временного шага с использованием отрендеренных видов, не жертвуя визуальным качеством. С временем вывода всего 2-5 минут, этот фреймворк достигает лучшего компромисса между качеством и скоростью, чем дистилляция оценки. MVEdit является высоко гибким и расширяемым, с широким спектром применений, включая генерацию текста/изображения в 3D, редактирование 3D в 3D и синтез текстур высокого качества. В частности, оценки демонстрируют передовые результаты как в задачах генерации изображения в 3D, так и в генерации текстуры по текстовому справочнику. Кроме того, мы представляем метод для тонкой настройки 2D латентных моделей диффузии на небольших 3D наборах данных с ограниченными ресурсами, обеспечивая быструю инициализацию текста в 3D низкого разрешения.

MindEye2: Модели с общим объектом позволяют преобразование данных fMRI в изображение за 1 час данных
MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

Mar 17

ByPaul S. Scotti, Mihir Tripathy, Cesar Kadir Torrico Villanueva, Reese Kneeland, Tong Chen, Ashutosh Narang, Charan Santhirasegaran, Jonathan Xu, Thomas Naselaris, Kenneth A. Norman, Tanishq Mathew Abraham

Восстановление визуального восприятия из активности мозга значительно улучшилось, однако практическая применимость таких методов ограничена. Это связано с тем, что такие модели обучаются независимо для каждого испытуемого, где каждому испытуемому требуется десятки часов дорогих данных fMRI для достижения высококачественных результатов. Настоящая работа демонстрирует высококачественные восстановления, используя всего 1 час обучающих данных fMRI. Мы предварительно обучаем нашу модель на 7 испытуемых, а затем донастраиваем на минимальных данных нового испытуемого. Наша новаторская процедура функциональной выравнивания линейно отображает все данные мозга в общее латентное пространство субъекта, за которым следует общее нелинейное отображение в пространство изображений CLIP. Затем мы отображаем из пространства CLIP в пространство пикселей, донастраивая Stable Diffusion XL для принятия латентов CLIP в качестве входных данных вместо текста. Этот подход улучшает обобщение за пределы испытуемого с ограниченными обучающими данными и также достигает метрик поиска и восстановления изображений наилучшего качества по сравнению с подходами для одного испытуемого. MindEye2 демонстрирует, как точные восстановления восприятия возможны после одного посещения в МРТ-центре. Весь код доступен на GitHub.

DiPaCo: Распределенная композиция путей
DiPaCo: Distributed Path Composition

Mar 15

ByArthur Douillard, Qixuan Feng, Andrei A. Rusu, Adhiguna Kuncoro, Yani Donchev, Rachita Chhaparia, Ionel Gog, Marc'Aurelio Ranzato, Jiajun Shen, Arthur Szlam

Прогресс в области машинного обучения (ML) был обеспечен масштабированием моделей нейронных сетей. Это масштабирование стало возможным благодаря все более героическим подвигам в инженерии, необходимым для адаптации подходов ML, требующих высокопропускной связи между устройствами, работающими параллельно. В данной работе мы предлагаем совместно разработанную модульную архитектуру и подход к обучению моделей ML, названный DIstributed PAth COmposition (DiPaCo). Во время обучения DiPaCo распределяет вычисления по путям через набор общих модулей. Вместе с оптимизацией, вдохновленной Local-SGD (DiLoCo), которая поддерживает синхронизацию модулей с существенно сокращенной коммуникацией, наш подход облегчает обучение на слабо связанных и гетерогенных рабочих узлах, с дизайном, который обеспечивает устойчивость к сбоям и прерываниям работы рабочих узлов. Во время вывода, для каждого ввода требуется выполнение только одного пути, без необходимости сжатия модели. Мы рассматриваем этот подход как первый прототип новой парадигмы масштабного обучения, менее синхронного и более модульного. Наши эксперименты на широко используемом бенчмарке C4 показывают, что при том же количестве шагов обучения, но меньшем времени настенных часов, DiPaCo превосходит производительность модели языкового трансформера с плотностью 1 миллиард параметров, выбирая один из 256 возможных путей, каждый из которых имеет размер 150 миллионов параметров.

VideoAgent: Многомодальный агент с памятью для понимания видео
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Mar 18

ByYue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li

Мы исследуем, как согласование нескольких базовых моделей (больших языковых моделей и моделей видео-языка) с новым объединенным механизмом памяти может решить сложную проблему понимания видео, особенно захватывая долгосрочные временные отношения в длинных видеороликах. В частности, предложенный мультимодальный агент VideoAgent: 1) создает структурированную память для хранения как общих временных описаний событий, так и объектно-центрических состояний отслеживания видео; 2) при заданном входном запросе к задаче он использует инструменты, включая локализацию видеосегментов и запросы памяти объектов, наряду с другими визуальными базовыми моделями для интерактивного решения задачи, используя возможность нулевого применения инструментов LLMs. VideoAgent демонстрирует впечатляющие результаты на нескольких долгосрочных бенчмарках понимания видео, в среднем увеличивая NExT-QA на 6.6% и EgoSchema на 26.0% по сравнению с базовыми моделями, сокращая разрыв между моделями с открытым и закрытым исходным кодом, включая Gemini 1.5 Pro.

LN3Diff: Масштабируемая диффузия латентных нейронных полей для быстрой генерации 3D моделей
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

Mar 18

ByYushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy

Область нейронного рендеринга заметила значительный прогресс благодаря развитию генеративных моделей и техник дифференцируемого рендеринга. Хотя двумерная диффузия достигла успеха, единый конвейер трехмерной диффузии остается нерешенным. В данной статье представляется новая концепция под названием LN3Diff, которая направлена на заполнение этого пробела и обеспечивает быстрое, высококачественное и универсальное условное трехмерное поколение. Наш подход использует архитектуру, осознающую трехмерное пространство, и вариационный автокодировщик (VAE) для кодирования входного изображения в структурированное, компактное и трехмерное латентное пространство. Латент декодируется декодером на основе трансформера в трехмерное нейронное поле большой емкости. Обучив модель диффузии на этом трехмерно осознающем латентном пространстве, наш метод достигает передовых результатов на ShapeNet для трехмерной генерации и проявляет превосходную производительность в монокулярной трехмерной реконструкции и условной трехмерной генерации на различных наборах данных. Более того, он превосходит существующие методы трехмерной диффузии по скорости вывода, не требуя оптимизации для каждого экземпляра. Наш предложенный LN3Diff представляет собой значительное продвижение в трехмерном генеративном моделировании и обещает многообещающие результаты для различных приложений в области трехмерного зрения и графики.

VFusion3D: Обучение масштабируемых трехмерных генеративных моделей из видео диффузии.
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Mar 18

ByJunlin Han, Filippos Kokkinos, Philip Torr

Данный доклад представляет новую парадигму построения масштабируемых 3D генеративных моделей с использованием предварительно обученных моделей диффузии видео. Основным препятствием при разработке основных 3D генеративных моделей является ограниченная доступность 3D данных. В отличие от изображений, текстов или видео, 3D данные не доступны легко и сложно получить. Это приводит к значительному разрыву в масштабе по сравнению с огромными объемами других типов данных. Для решения этой проблемы мы предлагаем использовать модель диффузии видео, обученную на обширных объемах текста, изображений и видео, в качестве источника знаний для 3D данных. Разблокировав ее многоплановые генеративные возможности через донастройку, мы создаем крупномасштабный синтетический многоплановый набор данных для обучения прямой 3D генеративной модели. Предложенная модель, VFusion3D, обученная на почти 3 млн синтетических многоплановых данных, способна генерировать 3D объект из одного изображения за секунды и достигает превосходных результатов по сравнению с текущими передовыми прямыми 3D генеративными моделями, с предпочтением пользователей в пользу наших результатов более чем в 70% случаев.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Быстрый синтез изображений высокого разрешения с латентной адверсарной диффузионной дистилляцией
Fast High-Resolution Image Synthesis with Latent Adversarial Diffusion Distillation

Mar 18

ByAxel Sauer, Frederic Boesel, Tim Dockhorn, Andreas Blattmann, Patrick Esser, Robin Rombach

PERL: Параметрически эффективное обучение с подкреплением на основе обратной связи человека
PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Mar 15

Ларимар: Большие языковые модели с управлением эпизодической памятью
Larimar: Large Language Models with Episodic Memory Control

Mar 18

ByPayel Das, Subhajit Chaudhury, Elliot Nelson, Igor Melnyk, Sarath Swaminathan, Sihui Dai, Aurélie Lozano, Georgios Kollias, Vijil Chenthamarakshan, Jiří, Navrátil, Soham Dan, Pin-Yu Chen

SV3D: Новый синтез многозрительности и генерация трехмерных объектов из одного изображения с использованием латентной видео-диффузии.
SV3D: Novel Multi-view Synthesis and 3D Generation from a Single Image using Latent Video Diffusion

Mar 18

ByVikram Voleti, Chun-Han Yao, Mark Boss, Adam Letts, David Pankratz, Dmitry Tochilkin, Christian Laforte, Robin Rombach, Varun Jampani

Бесконечный-ID: персонализация с сохранением идентичности через семантику идентификатора Парадигма декуплирования
Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

Mar 18

ByYi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li

LightIt: Моделирование и управление освещением для моделей диффузного рассеивания
LightIt: Illumination Modeling and Control for Diffusion Models

Mar 15

ByPeter Kocsis, Julien Philip, Kalyan Sunkavalli, Matthias Nießner, Yannick Hold-Geoffroy

LLaVA-UHD: модель с многомасштабным механизмом внимания для восприятия изображений любого соотношения сторон и высокого разрешения
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images

Mar 18

ByRuyi Xu, Yuan Yao, Zonghao Guo, Junbo Cui, Zanlin Ni, Chunjiang Ge, Tat-Seng Chua, Zhiyuan Liu, Maosong Sun, Gao Huang

Общий 3D диффузионный адаптер с использованием контролируемого многопросмотрового редактирования.
Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

Mar 18

ByHansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas

MindEye2: Модели с общим объектом позволяют преобразование данных fMRI в изображение за 1 час данных
MindEye2: Shared-Subject Models Enable fMRI-To-Image With 1 Hour of Data

Mar 17

DiPaCo: Распределенная композиция путей
DiPaCo: Distributed Path Composition

Mar 15

ByArthur Douillard, Qixuan Feng, Andrei A. Rusu, Adhiguna Kuncoro, Yani Donchev, Rachita Chhaparia, Ionel Gog, Marc'Aurelio Ranzato, Jiajun Shen, Arthur Szlam

VideoAgent: Многомодальный агент с памятью для понимания видео
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding

Mar 18

ByYue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li

LN3Diff: Масштабируемая диффузия латентных нейронных полей для быстрой генерации 3D моделей
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

Mar 18

ByYushi Lan, Fangzhou Hong, Shuai Yang, Shangchen Zhou, Xuyi Meng, Bo Dai, Xingang Pan, Chen Change Loy

VFusion3D: Обучение масштабируемых трехмерных генеративных моделей из видео диффузии.
VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models

Mar 18

ByJunlin Han, Filippos Kokkinos, Philip Torr