Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генеративные априорные знания крупномасштабных моделей диффузии "текст-изображение" открывают широкий спектр новых возможностей для генерации и редактирования в различных визуальных модальностях. Однако при адаптации этих априорных знаний к сложным визуальным модальностям, часто представленным в виде нескольких изображений (например, видео), достижение согласованности между ними становится сложной задачей. В данной работе мы решаем эту проблему с помощью нового метода — Совместной Дистилляции Оценок (Collaborative Score Distillation, CSD). CSD основан на методе Стейновского Вариационного Градиентного Спуска (Stein Variational Gradient Descent, SVGD). В частности, мы предлагаем рассматривать несколько образцов как "частицы" в обновлении SVGD и объединять их функции оценки для синхронной дистилляции генеративных априорных знаний над набором изображений. Таким образом, CSD обеспечивает плавную интеграцию информации между 2D-изображениями, что приводит к согласованной визуальной синтезации между несколькими образцами. Мы демонстрируем эффективность CSD в различных задачах, включая визуальное редактирование панорамных изображений, видео и 3D-сцен. Наши результаты подчеркивают компетентность CSD как универсального метода для повышения согласованности между образцами, тем самым расширяя применимость моделей диффузии "текст-изображение".
Машинное обучение для дифференциальных уравнений открывает путь к вычислительно эффективным альтернативам численным решателям, что может иметь широкое влияние на науку и технику. Хотя современные алгоритмы обычно требуют смоделированных обучающих данных, адаптированных к конкретной задаче, можно также стремиться извлекать полезную информацию из разнородных источников или из наблюдений реальных динамических систем, которые могут быть неупорядоченными или неполными. В данной работе мы изучаем универсальные представления уравнений в частных производных (УЧП) на основе разнородных данных, применяя методы совместного встраивания для самообучения (SSL) — подход к обучению представлений без учителя, который показал значительные успехи в компьютерном зрении. Наше представление превосходит базовые подходы в задачах инвариантности, таких как регрессия коэффициентов УЧП, а также улучшает производительность нейронных решателей при пошаговом интегрировании. Мы надеемся, что предложенная методология окажется полезной для разработки универсальных базовых моделей для УЧП в будущем.
Мы представляем новый подход к генерации статических и сочленённых 3D-ассетов, в основе которого лежит 3D-автодекодер. Фреймворк 3D-автодекодера кодирует свойства, извлечённые из целевого набора данных, в латентном пространстве, которое затем может быть декодировано в объёмное представление для рендеринга согласованных по виду внешнего вида и геометрии. Мы определяем подходящее промежуточное объёмное латентное пространство и вводим устойчивые операции нормализации и денормализации для обучения 3D-диффузии на основе 2D-изображений или монохромных видео жёстких или сочленённых объектов. Наш подход достаточно гибок, чтобы использовать либо существующую информацию о камере, либо вообще обходиться без неё, эффективно обучая её в процессе тренировки. Наши оценки показывают, что результаты генерации превосходят современные альтернативы на различных эталонных наборах данных и метриках, включая наборы данных многовидовых изображений синтетических объектов, реальные видео движущихся людей в естественных условиях и крупномасштабный набор данных реальных видео статических объектов.
Имея набор калиброванных изображений сцены, мы представляем подход, который создает простое, компактное и пригодное для использования 3D-представление мира с помощью 3D-примитивов. В то время как многие методы сосредоточены на восстановлении высококачественных 3D-сцен, мы фокусируемся на разбиении сцены на промежуточные 3D-представления, состоящие из небольшого набора текстурированных примитивов. Такие представления интерпретируемы, легко поддаются манипуляциям и подходят для физически корректных симуляций. Более того, в отличие от существующих методов декомпозиции на примитивы, которые полагаются на 3D-входные данные, наш подход работает непосредственно с изображениями через дифференцируемый рендеринг. В частности, мы моделируем примитивы как текстурированные суперквадрические сетки и оптимизируем их параметры с нуля с использованием функции потерь на основе рендеринга изображений. Мы подчеркиваем важность моделирования прозрачности для каждого примитива, что критически важно для оптимизации и также позволяет работать с переменным количеством примитивов. Мы показываем, что полученные текстурированные примитивы точно восстанавливают входные изображения и корректно моделируют видимые 3D-точки, одновременно предоставляя амодальное завершение формы для невидимых областей объектов. Мы сравниваем наш подход с современными методами на разнообразных сценах из DTU и демонстрируем его устойчивость на реальных данных из BlendedMVS и Nerfstudio. Мы также показываем, как наши результаты могут быть использованы для легкого редактирования сцены или выполнения физических симуляций. Код и видеорезультаты доступны по адресу https://www.tmonnier.com/DBW.
Предварительное обучение на видео и тексте (Video-Language Pre-training, VLP) приобретает все большее значение благодаря своей способности обобщать различные задачи в области зрения и языка. Однако существующие эгоцентричные VLP-фреймворки используют отдельные кодировщики для видео и текста и изучают специфическую для задач кросс-модальную информацию только на этапе тонкой настройки, что ограничивает развитие унифицированной системы. В данной работе мы представляем второе поколение эгоцентричного предварительного обучения на видео и тексте (EgoVLPv2), значительное улучшение по сравнению с предыдущим поколением, за счет внедрения кросс-модального слияния непосредственно в базовые архитектуры для видео и текста. EgoVLPv2 изучает мощные представления видео и текста на этапе предварительного обучения и повторно использует модули кросс-модального внимания для поддержки различных задач в гибкой и эффективной манере, снижая затраты на тонкую настройку. Более того, предложенная стратегия слияния в базовой архитектуре является более легковесной и вычислительно эффективной по сравнению с добавлением дополнительных слоев, специфичных для слияния. Многочисленные эксперименты на широком спектре задач видео-языкового взаимодействия демонстрируют эффективность EgoVLPv2, достигая стабильно наилучших результатов по сравнению с сильными базовыми моделями во всех задачах. Наша страница проекта доступна по адресу https://shramanpramanick.github.io/EgoVLPv2/.
Доступ к высококачественным и разнообразным 3D-моделям цифровых людей с артикуляцией имеет решающее значение для различных приложений, начиная от виртуальной реальности и заканчивая социальными платформами. Генеративные подходы, такие как генеративные состязательные сети (GAN) для 3D, быстро заменяют трудоемкие инструменты ручного создания контента. Однако существующие 3D GAN-фреймворки обычно полагаются на представления сцены, которые используют либо шаблонные сетки, которые быстры, но предлагают ограниченное качество, либо объемные данные, которые обладают высокой емкостью, но медленно рендерятся, что ограничивает 3D-точность в настройках GAN. В данной работе мы представляем слоистые объемные поверхности (LSV) как новое представление 3D-объектов для артикулированных цифровых людей. LSV представляют человеческое тело с использованием нескольких текстурированных слоев сетки вокруг стандартного шаблона. Эти слои рендерятся с использованием альфа-композиции и быстрой дифференцируемой растеризации, и их можно интерпретировать как объемное представление, которое распределяет свою емкость на многообразие конечной толщины вокруг шаблона. В отличие от традиционных однослойных шаблонов, которые испытывают трудности с представлением мелких деталей вне поверхности, таких как волосы или аксессуары, наши объемные поверхности естественным образом захватывают такие детали. LSV могут быть артикулированы и демонстрируют исключительную эффективность в настройках GAN, где 2D-генератор учится синтезировать RGBA-текстуры для отдельных слоев. Обучаясь на неструктурированных наборах 2D-изображений с одного ракурса, наш LSV-GAN генерирует высококачественные и согласованные по виду 3D-модели цифровых людей с артикуляцией без необходимости использования 2D-сетей повышения разрешения, которые могут нарушать согласованность вида.
Предыдущие работы установили обучение во время тестирования (Test-Time Training, TTT) как общую структуру для дальнейшего улучшения обученной модели в процессе тестирования. Перед тем как сделать предсказание для каждого тестового экземпляра, модель обучается на этом же экземпляре с использованием задачи самообучения, например, восстановления изображений с помощью маскированных автоэнкодеров. Мы расширяем TTT для потоковой обработки, где несколько тестовых экземпляров — в нашем случае кадры видео — поступают в временном порядке. Наше расширение — это онлайн TTT: текущая модель инициализируется из предыдущей модели, затем обучается на текущем кадре и небольшом окне кадров, непосредственно предшествующих ему. Онлайн TTT значительно превосходит базовую модель с фиксированными параметрами для четырех задач на трех реальных наборах данных. Относительное улучшение составляет 45% и 66% для задач инстанс-сегментации и панорамной сегментации. Удивительно, но онлайн TTT также превосходит свою оффлайн-версию, которая использует больше информации, обучаясь на всех кадрах из всего тестового видео независимо от временного порядка. Это отличается от предыдущих результатов, полученных с использованием синтетических видео. Мы концептуализируем локальность как преимущество онлайн TTT перед оффлайн TTT. Мы анализируем роль локальности с помощью абляционных экспериментов и теории, основанной на компромиссе между смещением и дисперсией.