Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем временные векторы — простой инструмент для адаптации языковых моделей к новым временным периодам. Временные векторы создаются путем тонкой настройки языковой модели на данных из одного временного отрезка (например, года или месяца) с последующим вычитанием весов исходной предобученной модели. Этот вектор задает направление в пространстве весов, которое, как показывают наши эксперименты, улучшает производительность на текстах из этого временного периода. Временные векторы, специализированные для смежных временных периодов, оказываются расположенными ближе друг к другу на многообразии. Используя эту структуру, мы интерполируем между временными векторами, чтобы создавать новые модели, которые лучше справляются с промежуточными и будущими временными периодами без дополнительного обучения. Мы демонстрируем согласованность наших результатов для различных задач, областей, размеров моделей и временных масштабов. Наши результаты позволяют предположить, что время кодируется в пространстве весов тонко настроенных моделей.
Недавние достижения в области текстово-управляемого восстановления изображений, основанные на беспрецедентном успехе диффузионных моделей "текст-в-изображение", привели к исключительно реалистичным и визуально правдоподобным результатам. Однако в современных моделях восстановления изображений на основе текста все еще есть значительный потенциал для улучшения, особенно в более точном согласовании восстановленной области с пользовательскими запросами и выполнении восстановления в высоком разрешении. В связи с этим в данной статье мы представляем HD-Painter — полностью не требующий обучения подход, который точно следует запросам и масштабируется до восстановления изображений в высоком разрешении. Для этого мы разработали слой Prompt-Aware Introverted Attention (PAIntA), который усиливает показатели самовнимания с помощью информации из запроса, что приводит к более точному согласованию с текстом. Для дальнейшего улучшения согласованности с запросом мы вводим механизм Reweighting Attention Score Guidance (RASG), который бесшовно интегрирует стратегию пост-обработки в общую форму DDIM, предотвращая сдвиги латентных переменных за пределы распределения. Кроме того, HD-Painter позволяет масштабироваться до больших размеров благодаря специализированной технике супер-разрешения, адаптированной для восстановления изображений, что позволяет заполнять отсутствующие области в изображениях с разрешением до 2K. Наши эксперименты показывают, что HD-Painter превосходит существующие передовые подходы как качественно, так и количественно, достигая впечатляющего улучшения точности генерации на 61,4% против 51,9%. Мы опубликуем код по адресу: https://github.com/Picsart-AI-Research/HD-Painter.
Недавние достижения в задаче преобразования текста в 3D используют дообученные модели диффузии для генерации изображений с нескольких ракурсов, за которыми следует реконструкция с помощью NeRF. Однако существующие модели диффузии, дообученные с использованием контролируемых данных (SFT), всё ещё страдают от несогласованности между видами и артефактами в результирующих NeRF. Хотя более длительное обучение с SFT улучшает согласованность, оно также вызывает смещение распределения, что снижает разнообразие и реалистичность деталей. Мы утверждаем, что дообучение моделей диффузии для многовидовых данных напоминает этап дообучения по инструкциям в процессе согласования больших языковых моделей (LLM) и может выиграть от методов дообучения с подкреплением (RLFT). По сути, методы RLFT оптимизируют модели за пределы их распределения данных SFT, используя их собственные выходы, что эффективно смягчает смещение распределения. В связи с этим мы представляем Carve3D — метод RLFT, сочетающийся с метрикой согласованности многовидовой реконструкции (MRC), для улучшения согласованности моделей диффузии. Для вычисления MRC на наборе многовидовых изображений мы сравниваем их с соответствующими рендерами реконструированного NeRF с тех же точек зрения. Мы подтверждаем устойчивость MRC с помощью обширных экспериментов, проведённых при контролируемых уровнях несогласованности. Мы улучшаем базовый алгоритм RLFT для стабилизации процесса обучения, уменьшения смещения распределения и выявления законов масштабирования. С помощью качественных и количественных экспериментов, а также пользовательского исследования, мы демонстрируем улучшенную многовидовую согласованность Carve3D, превосходное качество реконструкции NeRF и минимальное смещение распределения по сравнению с более длительным SFT. Страница проекта: https://desaixie.github.io/carve-3d.
Мы представляем ShowRoom3D — трехэтапный подход для генерации высококачественных 3D-сцен комнатного масштаба на основе текстов. Предыдущие методы, использующие 2D диффузионные априори для оптимизации нейронных полей излучения (NeRF) при создании сцен комнатного масштаба, демонстрировали неудовлетворительное качество. Это в первую очередь связано с ограничениями 2D априори, которые не учитывают трехмерную структуру, а также с ограничениями в методологии обучения. В данной работе мы используем 3D диффузионный априор, MVDiffusion, для оптимизации 3D-сцен комнатного масштаба. Наш вклад заключается в двух аспектах. Во-первых, мы предлагаем прогрессивный процесс выбора ракурсов для оптимизации NeRF. Это включает разделение процесса обучения на три этапа с постепенным расширением области выборки камер. Во-вторых, мы предлагаем метод преобразования поз на втором этапе. Это обеспечивает точное руководство по выбору ракурсов со стороны MVDiffusion. В результате ShowRoom3D позволяет генерировать комнаты с улучшенной структурной целостностью, повышенной четкостью с любого ракурса, уменьшенным повторением контента и более высокой согласованностью между различными перспективами. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит современные подходы с большим отрывом по результатам пользовательских исследований.
Современные достижения в моделировании человеческой головы позволяют создавать правдоподобные 3D-модели голов с использованием нейронных представлений. Тем не менее, создание полных высокодетализированных моделей голов с явно контролируемой анимацией остается сложной задачей. Кроме того, завершение геометрии головы на основе частичного наблюдения, например, полученного с датчика глубины, с сохранением деталей часто вызывает трудности для существующих методов. Мы представляем генеративную модель для детализированных 3D-мешей голов, основанную на артикулированной 3DMM, которая позволяет одновременно явно управлять анимацией и сохранять высокую детализацию. Наш метод обучается в два этапа. Сначала мы регистрируем параметрическую модель головы с смещениями вершин для каждого меша из недавно представленного набора данных NPHM, содержащего точные 3D-сканы голов. Оцененные смещения запекаются в ручном UV-раскладе. Затем мы обучаем модель StyleGAN для обобщения UV-карт смещений. Разделение параметрической модели и высококачественных смещений вершин позволяет нам анимировать модель и изменять ее семантически. Мы демонстрируем результаты безусловной генерации и подгонки к полным или частичным наблюдениям. Страница проекта доступна по адресу https://seva100.github.io/headcraft.