Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на недавние достижения в области реконструкции одетых людей по одному изображению, точное восстановление "невидимых областей" с высоким уровнем детализации остается нерешенной задачей, которая не получает должного внимания. Существующие методы часто создают излишне сглаженные поверхности с размытой текстурой на обратной стороне. Но как эффективно захватить все визуальные атрибуты человека по одному изображению, которые достаточны для реконструкции невидимых областей (например, вид сзади)? Вдохновленные мощью базовых моделей, TeCH реконструирует 3D-человека, используя 1) описательные текстовые подсказки (например, одежда, цвета, прически), которые автоматически генерируются с помощью модели анализа одежды и визуального вопросно-ответного механизма (VQA), 2) персонализированную тонко настроенную модель диффузии "Текст-в-Изображение" (T2I), которая изучает "неописуемый" внешний вид. Для представления высококачественных 3D-одетых людей с приемлемыми затратами мы предлагаем гибридное 3D-представление на основе DMTet, состоящее из явной сетки формы тела и неявного поля расстояний. Руководствуясь описательными подсказками и персонализированной моделью диффузии T2I, геометрия и текстура 3D-человека оптимизируются с помощью многовидового Score Distillation Sampling (SDS) и потерь реконструкции, основанных на исходном наблюдении. TeCH создает высококачественные 3D-одетые модели с согласованной и детализированной текстурой, а также подробной геометрией всего тела. Количественные и качественные эксперименты демонстрируют, что TeCH превосходит современные методы по точности реконструкции и качеству рендеринга. Код будет доступен для исследовательских целей по адресу https://huangyangyi.github.io/tech.
Персонализированная генерация текста — это активно развивающаяся область исследований, которая привлекает значительное внимание в последние годы. Большинство исследований в этом направлении сосредоточено на конкретной предметной области путем разработки специализированных признаков или моделей. В данной работе мы предлагаем универсальный подход для персонализированной генерации текста с использованием больших языковых моделей (LLM). Вдохновленные практикой обучения письму, мы разрабатываем многоэтапную и многозадачную структуру для обучения LLM персонализированной генерации. В обучении письму задача написания текста на основе источников часто разбивается на несколько этапов, включающих поиск, оценку, обобщение, синтез и интеграцию информации. Аналогично, наш подход к персонализированной генерации текста состоит из нескольких этапов: поиск, ранжирование, обобщение, синтез и генерация. Кроме того, мы вводим многозадачную настройку, которая помогает модели дополнительно улучшить способность к генерации, что вдохновлено наблюдением в образовательной практике, согласно которому навыки чтения и письма у студентов часто взаимосвязаны. Мы оцениваем наш подход на трех публичных наборах данных, каждый из которых охватывает разные и репрезентативные области. Наши результаты демонстрируют значительное улучшение по сравнению с различными базовыми методами.
С появлением диффузионных моделей генерация видео по текстовому описанию в последнее время привлекает все больше внимания. Однако важным ограничением в этой области является то, что создаваемые видео часто содержат мерцания и артефакты. В данной работе мы предлагаем двухпотоковую диффузионную сеть (DSDN) для улучшения согласованности изменений контента при генерации видео. В частности, разработанные два диффузионных потока — ветви для контента и движения — могут не только работать независимо в своих пространствах для создания персонализированных вариаций видео и контента, но и быть хорошо согласованными между доменами контента и движения благодаря нашему модулю кросс-трансформерного взаимодействия, что способствует плавности генерируемых видео. Кроме того, мы также вводим декомпозитор и комбинатор движения для упрощения работы с видеодвижением. Качественные и количественные эксперименты показывают, что наш метод позволяет создавать впечатляющие непрерывные видео с меньшим количеством мерцаний.
Управляемая генерация видео привлекает значительное внимание в последние годы. Однако сохраняются два основных ограничения: во-первых, большинство существующих работ сосредоточено либо на текстовом, либо на изображении, либо на управлении на основе траекторий, что не позволяет достичь детализированного контроля в видео. Во-вторых, исследования в области управления траекториями находятся на ранних стадиях, и большинство экспериментов проводятся на простых наборах данных, таких как Human3.6M. Это ограничивает способность моделей обрабатывать изображения из открытых доменов и эффективно справляться со сложными криволинейными траекториями. В данной статье мы предлагаем DragNUWA, модель генерации видео на основе диффузии для открытых доменов. Чтобы решить проблему недостаточной детализации управления в существующих работах, мы одновременно вводим текстовую, изображенную и траекторную информацию, обеспечивая детализированный контроль над содержимым видео с семантической, пространственной и временной точек зрения. Чтобы устранить ограниченность управления траекториями в открытых доменах в текущих исследованиях, мы предлагаем моделирование траекторий с тремя аспектами: Сэмплер Траекторий (TS) для обеспечения управления произвольными траекториями в открытых доменах, Многоуровневое Слияние (MF) для управления траекториями с разной степенью детализации и Адаптивная Стратегия Обучения (AT) для генерации согласованных видео, следующих заданным траекториям. Наши эксперименты подтверждают эффективность DragNUWA, демонстрируя её превосходную производительность в детализированном управлении генерацией видео. Ссылка на домашнюю страницу: https://www.microsoft.com/en-us/research/project/dragnuwa/
Модели изображений, обученные с самоконтролем и с использованием языковых данных, содержат богатые знания о мире, которые важны для обобщения. Однако многие задачи в робототехнике требуют детального понимания трехмерной геометрии, что часто отсутствует в двумерных признаках изображений. Данная работа преодолевает этот разрыв между 2D и 3D для задач манипуляции роботов, используя дистиллированные поля признаков для объединения точной 3D-геометрии с богатой семантикой из базовых 2D-моделей. Мы представляем метод обучения с малым количеством примеров для захвата и размещения с шестью степенями свободы, который использует эти сильные пространственные и семантические априорные знания для достижения обобщения в реальных условиях на невидимые объекты. Используя признаки, дистиллированные из языковой модели CLIP, мы предлагаем способ задания новых объектов для манипуляции с помощью свободного текста на естественном языке и демонстрируем его способность обобщаться на незнакомые выражения и новые категории объектов.
Существующие методы для 4D-реконструкции общих объектов, подверженных нежестким деформациям, сосредоточены на синтезе новых видов и пренебрегают установлением соответствий. Однако временная согласованность позволяет решать более сложные задачи, такие как 3D-редактирование, анализ движения или создание виртуальных активов. Мы предлагаем метод SceNeRFlow для реконструкции общей сцены с нежесткими деформациями с сохранением временной согласованности. Наш метод динамического NeRF принимает на вход многовидовые RGB-видео и фоновые изображения, полученные с помощью статических камер с известными параметрами. Он реконструирует деформации оцененной канонической модели геометрии и внешнего вида в режиме реального времени. Поскольку эта каноническая модель инвариантна во времени, мы получаем соответствия даже для долгосрочных и протяженных движений. Мы используем нейронные представления сцены для параметризации компонентов нашего метода. Как и в предыдущих методах динамического NeRF, мы применяем модель обратной деформации. Мы обнаружили, что для обработки более крупных движений необходимы нетривиальные адаптации этой модели: мы разлагаем деформации на сильно регуляризованную грубую компоненту и слабо регуляризованную тонкую компоненту, причем грубая компонента также расширяет поле деформации в пространство вокруг объекта, что позволяет отслеживать его во времени. Экспериментально мы показываем, что, в отличие от предыдущих работ, которые справляются только с малыми движениями, наш метод позволяет реконструировать движения в масштабах студии.