Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области больших языковых моделей (LLM) привели к созданию интеллектуальных агентов, способных выполнять сложные задачи. В данной статье представлена новая мультимодальная агентская архитектура на основе LLM, предназначенная для работы с приложениями смартфонов. Наша архитектура позволяет агенту управлять приложениями через упрощённое пространство действий, имитируя человеческие взаимодействия, такие как нажатия и свайпы. Этот инновационный подход устраняет необходимость доступа к внутренним системам, что расширяет его применимость для различных приложений. Ключевым элементом функциональности нашего агента является его уникальный метод обучения. Агент учится ориентироваться и использовать новые приложения либо через автономное исследование, либо наблюдая за демонстрациями человека. Этот процесс создаёт базу знаний, к которой агент обращается для выполнения сложных задач в различных приложениях. Чтобы продемонстрировать практическую применимость нашего агента, мы провели обширное тестирование на 50 задачах в 10 различных приложениях, включая социальные сети, электронную почту, карты, покупки и сложные инструменты редактирования изображений. Результаты подтверждают способность агента успешно справляться с широким спектром высокоуровневых задач.
В данной статье представлен Paint3D — новый генеративный фреймворк, работающий по принципу от грубого к точному, который способен создавать высококачественные, лишенные освещения и разнообразные 2K UV-текстуры для не текстурированных 3D-мешей на основе текстовых или графических входных данных. Основная задача, решаемая в работе, — генерация высококачественных текстур без встроенной информации об освещении, что позволяет переосвещать или редактировать текстуры в современных графических конвейерах. Для достижения этой цели наш метод сначала использует предобученную 2D диффузионную модель, учитывающую глубину, для генерации изображений, зависящих от угла обзора, и выполнения слияния текстур из нескольких ракурсов, создавая начальную грубую текстуру. Однако, поскольку 2D-модели не могут полностью представить 3D-формы и устранить эффекты освещения, грубая текстура содержит незаполненные области и артефакты освещения. Для устранения этих недостатков мы обучаем отдельные модели UV Inpainting и UVHD, специализированные для осознанной доработки незаполненных областей и удаления артефактов освещения. Благодаря этому процессу от грубого к точному, Paint3D способен создавать высококачественные 2K UV-текстуры, которые сохраняют семантическую согласованность и лишены освещения, значительно продвигая современные методы текстурирования 3D-объектов.
Мы представляем временные векторы — простой инструмент для адаптации языковых моделей к новым временным периодам. Временные векторы создаются путем тонкой настройки языковой модели на данных из одного временного отрезка (например, года или месяца) с последующим вычитанием весов исходной предобученной модели. Этот вектор задает направление в пространстве весов, которое, как показывают наши эксперименты, улучшает производительность на текстах из этого временного периода. Временные векторы, специализированные для смежных временных периодов, оказываются расположенными ближе друг к другу на многообразии. Используя эту структуру, мы интерполируем между временными векторами, чтобы создавать новые модели, которые лучше справляются с промежуточными и будущими временными периодами без дополнительного обучения. Мы демонстрируем согласованность наших результатов для различных задач, областей, размеров моделей и временных масштабов. Наши результаты позволяют предположить, что время кодируется в пространстве весов тонко настроенных моделей.
Последние достижения в персонализированных моделях текста в изображение (T2I) произвели революцию в создании контента, позволяя неспециалистам генерировать впечатляющие изображения с уникальными стилями. Несмотря на перспективность, добавление реалистичных движений в эти персонализированные изображения с помощью текста ставит значительные задачи, такие как сохранение уникальных стилей, высококачественных деталей и достижение управляемости движений через текст. В данной статье мы представляем PIA (Personalized Image Animator), который превосходно справляется с согласованием с условиями изображений, достижением управляемости движений через текст и совместимостью с различными персонализированными моделями T2I без необходимости специальной настройки. Для достижения этих целей PIA основывается на базовой модели T2I с хорошо обученными слоями временного согласования, что позволяет бесшовно преобразовывать любую персонализированную модель T2I в модель анимации изображений. Ключевым компонентом PIA является введение модуля условий, который использует кадр условия и аффинность между кадрами в качестве входных данных для передачи информации о внешнем виде, направляемой подсказкой аффинности для синтеза отдельных кадров в латентном пространстве. Такая конструкция смягчает проблемы согласования изображений, связанных с внешним видом, и позволяет сосредоточиться на согласовании с руководством, связанным с движением.
Недавние достижения в области текстово-управляемого восстановления изображений, основанные на беспрецедентном успехе диффузионных моделей "текст-в-изображение", привели к исключительно реалистичным и визуально правдоподобным результатам. Однако в современных моделях восстановления изображений на основе текста все еще есть значительный потенциал для улучшения, особенно в более точном согласовании восстановленной области с пользовательскими запросами и выполнении восстановления в высоком разрешении. В связи с этим в данной статье мы представляем HD-Painter — полностью не требующий обучения подход, который точно следует запросам и масштабируется до восстановления изображений в высоком разрешении. Для этого мы разработали слой Prompt-Aware Introverted Attention (PAIntA), который усиливает показатели самовнимания с помощью информации из запроса, что приводит к более точному согласованию с текстом. Для дальнейшего улучшения согласованности с запросом мы вводим механизм Reweighting Attention Score Guidance (RASG), который бесшовно интегрирует стратегию пост-обработки в общую форму DDIM, предотвращая сдвиги латентных переменных за пределы распределения. Кроме того, HD-Painter позволяет масштабироваться до больших размеров благодаря специализированной технике супер-разрешения, адаптированной для восстановления изображений, что позволяет заполнять отсутствующие области в изображениях с разрешением до 2K. Наши эксперименты показывают, что HD-Painter превосходит существующие передовые подходы как качественно, так и количественно, достигая впечатляющего улучшения точности генерации на 61,4% против 51,9%. Мы опубликуем код по адресу: https://github.com/Picsart-AI-Research/HD-Painter.
Недавние достижения в задаче преобразования текста в 3D используют дообученные модели диффузии для генерации изображений с нескольких ракурсов, за которыми следует реконструкция с помощью NeRF. Однако существующие модели диффузии, дообученные с использованием контролируемых данных (SFT), всё ещё страдают от несогласованности между видами и артефактами в результирующих NeRF. Хотя более длительное обучение с SFT улучшает согласованность, оно также вызывает смещение распределения, что снижает разнообразие и реалистичность деталей. Мы утверждаем, что дообучение моделей диффузии для многовидовых данных напоминает этап дообучения по инструкциям в процессе согласования больших языковых моделей (LLM) и может выиграть от методов дообучения с подкреплением (RLFT). По сути, методы RLFT оптимизируют модели за пределы их распределения данных SFT, используя их собственные выходы, что эффективно смягчает смещение распределения. В связи с этим мы представляем Carve3D — метод RLFT, сочетающийся с метрикой согласованности многовидовой реконструкции (MRC), для улучшения согласованности моделей диффузии. Для вычисления MRC на наборе многовидовых изображений мы сравниваем их с соответствующими рендерами реконструированного NeRF с тех же точек зрения. Мы подтверждаем устойчивость MRC с помощью обширных экспериментов, проведённых при контролируемых уровнях несогласованности. Мы улучшаем базовый алгоритм RLFT для стабилизации процесса обучения, уменьшения смещения распределения и выявления законов масштабирования. С помощью качественных и количественных экспериментов, а также пользовательского исследования, мы демонстрируем улучшенную многовидовую согласованность Carve3D, превосходное качество реконструкции NeRF и минимальное смещение распределения по сравнению с более длительным SFT. Страница проекта: https://desaixie.github.io/carve-3d.
Мы представляем ShowRoom3D — трехэтапный подход для генерации высококачественных 3D-сцен комнатного масштаба на основе текстов. Предыдущие методы, использующие 2D диффузионные априори для оптимизации нейронных полей излучения (NeRF) при создании сцен комнатного масштаба, демонстрировали неудовлетворительное качество. Это в первую очередь связано с ограничениями 2D априори, которые не учитывают трехмерную структуру, а также с ограничениями в методологии обучения. В данной работе мы используем 3D диффузионный априор, MVDiffusion, для оптимизации 3D-сцен комнатного масштаба. Наш вклад заключается в двух аспектах. Во-первых, мы предлагаем прогрессивный процесс выбора ракурсов для оптимизации NeRF. Это включает разделение процесса обучения на три этапа с постепенным расширением области выборки камер. Во-вторых, мы предлагаем метод преобразования поз на втором этапе. Это обеспечивает точное руководство по выбору ракурсов со стороны MVDiffusion. В результате ShowRoom3D позволяет генерировать комнаты с улучшенной структурной целостностью, повышенной четкостью с любого ракурса, уменьшенным повторением контента и более высокой согласованностью между различными перспективами. Многочисленные эксперименты демонстрируют, что наш метод значительно превосходит современные подходы с большим отрывом по результатам пользовательских исследований.
Семантический синтез изображений, то есть генерация изображений на основе предоставленных пользователем семантических карт меток, является важной задачей условной генерации изображений, так как позволяет контролировать как содержание, так и пространственную компоновку создаваемых изображений. Хотя диффузионные модели значительно продвинули состояние дел в области генеративного моделирования изображений, итеративный характер их процесса вывода делает их вычислительно затратными. Другие подходы, такие как GAN, более эффективны, так как требуют всего одного прямого прохода для генерации, но качество изображений зачастую страдает на больших и разнообразных наборах данных. В данной работе мы предлагаем новый класс дискриминаторов GAN для семантического синтеза изображений, которые генерируют высокореалистичные изображения, используя предобученные сети для задач, таких как классификация изображений. Мы также представляем новую архитектуру генератора с улучшенным моделированием контекста и использованием кросс-внимания для внедрения шума в латентные переменные, что приводит к более разнообразным генерируемым изображениям. Наша модель, которую мы называем DP-SIMS, достигает наилучших результатов с точки зрения качества изображений и соответствия входным картам меток на наборах данных ADE-20K, COCO-Stuff и Cityscapes, превосходя современные диффузионные модели, при этом требуя на два порядка меньше вычислительных ресурсов для вывода.
Современные достижения в моделировании человеческой головы позволяют создавать правдоподобные 3D-модели голов с использованием нейронных представлений. Тем не менее, создание полных высокодетализированных моделей голов с явно контролируемой анимацией остается сложной задачей. Кроме того, завершение геометрии головы на основе частичного наблюдения, например, полученного с датчика глубины, с сохранением деталей часто вызывает трудности для существующих методов. Мы представляем генеративную модель для детализированных 3D-мешей голов, основанную на артикулированной 3DMM, которая позволяет одновременно явно управлять анимацией и сохранять высокую детализацию. Наш метод обучается в два этапа. Сначала мы регистрируем параметрическую модель головы с смещениями вершин для каждого меша из недавно представленного набора данных NPHM, содержащего точные 3D-сканы голов. Оцененные смещения запекаются в ручном UV-раскладе. Затем мы обучаем модель StyleGAN для обобщения UV-карт смещений. Разделение параметрической модели и высококачественных смещений вершин позволяет нам анимировать модель и изменять ее семантически. Мы демонстрируем результаты безусловной генерации и подгонки к полным или частичным наблюдениям. Страница проекта доступна по адресу https://seva100.github.io/headcraft.
Синтез видеоизображений, позволяющий создавать визуально привлекательные кадры с произвольных точек обзора и моментов времени, обеспечивает захватывающие впечатления от просмотра. Нейронные поля излучения, в частности NeRF, изначально разработанные для статичных сцен, стимулировали создание различных методов для синтеза видеоизображений. Однако сложность синтеза видеоизображений заключается в размытии движения, возникающем из-за перемещения объектов или камеры во время экспозиции, что затрудняет точное создание четких пространственно-временных видов. В ответ на это мы предлагаем новую динамическую структуру NeRF для устранения размытия в монохромных видео, называемую DyBluRF, которая состоит из этапа уточнения лучей с чередованием (Interleave Ray Refinement, IRR) и этапа устранения размытия на основе декомпозиции движения (Motion Decomposition-based Deblurring, MDD). Наш DyBluRF является первым решением, которое решает и обрабатывает синтез новых видов для размытых монохромных видео. Этап IRR совместно восстанавливает динамические 3D-сцены и уточняет неточную информацию о положении камеры для борьбы с неточностями, извлеченными из заданных размытых кадров. Этап MDD представляет собой новый инкрементальный подход к предсказанию скрытых четких лучей (Incremental Latent Sharp-rays Prediction, ILSP) для размытых монохромных видеокадров путем декомпозиции скрытых четких лучей на компоненты глобального движения камеры и локального движения объектов. Обширные экспериментальные результаты демонстрируют, что наш DyBluRF превосходит качественно и количественно самые современные методы. Наша страница проекта, включающая исходные коды и предварительно обученную модель, доступна по адресу https://kaist-viclab.github.io/dyblurf-site/.