Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области больших языковых моделей (LLM) привели к созданию интеллектуальных агентов, способных выполнять сложные задачи. В данной статье представлена новая мультимодальная агентская архитектура на основе LLM, предназначенная для работы с приложениями смартфонов. Наша архитектура позволяет агенту управлять приложениями через упрощённое пространство действий, имитируя человеческие взаимодействия, такие как нажатия и свайпы. Этот инновационный подход устраняет необходимость доступа к внутренним системам, что расширяет его применимость для различных приложений. Ключевым элементом функциональности нашего агента является его уникальный метод обучения. Агент учится ориентироваться и использовать новые приложения либо через автономное исследование, либо наблюдая за демонстрациями человека. Этот процесс создаёт базу знаний, к которой агент обращается для выполнения сложных задач в различных приложениях. Чтобы продемонстрировать практическую применимость нашего агента, мы провели обширное тестирование на 50 задачах в 10 различных приложениях, включая социальные сети, электронную почту, карты, покупки и сложные инструменты редактирования изображений. Результаты подтверждают способность агента успешно справляться с широким спектром высокоуровневых задач.
В данной статье представлен Paint3D — новый генеративный фреймворк, работающий по принципу от грубого к точному, который способен создавать высококачественные, лишенные освещения и разнообразные 2K UV-текстуры для не текстурированных 3D-мешей на основе текстовых или графических входных данных. Основная задача, решаемая в работе, — генерация высококачественных текстур без встроенной информации об освещении, что позволяет переосвещать или редактировать текстуры в современных графических конвейерах. Для достижения этой цели наш метод сначала использует предобученную 2D диффузионную модель, учитывающую глубину, для генерации изображений, зависящих от угла обзора, и выполнения слияния текстур из нескольких ракурсов, создавая начальную грубую текстуру. Однако, поскольку 2D-модели не могут полностью представить 3D-формы и устранить эффекты освещения, грубая текстура содержит незаполненные области и артефакты освещения. Для устранения этих недостатков мы обучаем отдельные модели UV Inpainting и UVHD, специализированные для осознанной доработки незаполненных областей и удаления артефактов освещения. Благодаря этому процессу от грубого к точному, Paint3D способен создавать высококачественные 2K UV-текстуры, которые сохраняют семантическую согласованность и лишены освещения, значительно продвигая современные методы текстурирования 3D-объектов.
Последние достижения в персонализированных моделях текста в изображение (T2I) произвели революцию в создании контента, позволяя неспециалистам генерировать впечатляющие изображения с уникальными стилями. Несмотря на перспективность, добавление реалистичных движений в эти персонализированные изображения с помощью текста ставит значительные задачи, такие как сохранение уникальных стилей, высококачественных деталей и достижение управляемости движений через текст. В данной статье мы представляем PIA (Personalized Image Animator), который превосходно справляется с согласованием с условиями изображений, достижением управляемости движений через текст и совместимостью с различными персонализированными моделями T2I без необходимости специальной настройки. Для достижения этих целей PIA основывается на базовой модели T2I с хорошо обученными слоями временного согласования, что позволяет бесшовно преобразовывать любую персонализированную модель T2I в модель анимации изображений. Ключевым компонентом PIA является введение модуля условий, который использует кадр условия и аффинность между кадрами в качестве входных данных для передачи информации о внешнем виде, направляемой подсказкой аффинности для синтеза отдельных кадров в латентном пространстве. Такая конструкция смягчает проблемы согласования изображений, связанных с внешним видом, и позволяет сосредоточиться на согласовании с руководством, связанным с движением.
Семантический синтез изображений, то есть генерация изображений на основе предоставленных пользователем семантических карт меток, является важной задачей условной генерации изображений, так как позволяет контролировать как содержание, так и пространственную компоновку создаваемых изображений. Хотя диффузионные модели значительно продвинули состояние дел в области генеративного моделирования изображений, итеративный характер их процесса вывода делает их вычислительно затратными. Другие подходы, такие как GAN, более эффективны, так как требуют всего одного прямого прохода для генерации, но качество изображений зачастую страдает на больших и разнообразных наборах данных. В данной работе мы предлагаем новый класс дискриминаторов GAN для семантического синтеза изображений, которые генерируют высокореалистичные изображения, используя предобученные сети для задач, таких как классификация изображений. Мы также представляем новую архитектуру генератора с улучшенным моделированием контекста и использованием кросс-внимания для внедрения шума в латентные переменные, что приводит к более разнообразным генерируемым изображениям. Наша модель, которую мы называем DP-SIMS, достигает наилучших результатов с точки зрения качества изображений и соответствия входным картам меток на наборах данных ADE-20K, COCO-Stuff и Cityscapes, превосходя современные диффузионные модели, при этом требуя на два порядка меньше вычислительных ресурсов для вывода.
Синтез видеоизображений, позволяющий создавать визуально привлекательные кадры с произвольных точек обзора и моментов времени, обеспечивает захватывающие впечатления от просмотра. Нейронные поля излучения, в частности NeRF, изначально разработанные для статичных сцен, стимулировали создание различных методов для синтеза видеоизображений. Однако сложность синтеза видеоизображений заключается в размытии движения, возникающем из-за перемещения объектов или камеры во время экспозиции, что затрудняет точное создание четких пространственно-временных видов. В ответ на это мы предлагаем новую динамическую структуру NeRF для устранения размытия в монохромных видео, называемую DyBluRF, которая состоит из этапа уточнения лучей с чередованием (Interleave Ray Refinement, IRR) и этапа устранения размытия на основе декомпозиции движения (Motion Decomposition-based Deblurring, MDD). Наш DyBluRF является первым решением, которое решает и обрабатывает синтез новых видов для размытых монохромных видео. Этап IRR совместно восстанавливает динамические 3D-сцены и уточняет неточную информацию о положении камеры для борьбы с неточностями, извлеченными из заданных размытых кадров. Этап MDD представляет собой новый инкрементальный подход к предсказанию скрытых четких лучей (Incremental Latent Sharp-rays Prediction, ILSP) для размытых монохромных видеокадров путем декомпозиции скрытых четких лучей на компоненты глобального движения камеры и локального движения объектов. Обширные экспериментальные результаты демонстрируют, что наш DyBluRF превосходит качественно и количественно самые современные методы. Наша страница проекта, включающая исходные коды и предварительно обученную модель, доступна по адресу https://kaist-viclab.github.io/dyblurf-site/.