Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Адаптироваться или не адаптироваться? Реальное время адаптации для семантической сегментации
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

Jul 27, 2023

Marc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus Härenstam-Nielsen, Hossein Azizpour, Hedvig Kjellström, Daniel Cremers, Matteo Poggi

181

Цель онлайн-адаптации домена для семантической сегментации заключается в обработке непредвиденных изменений домена, возникающих во время эксплуатации, таких как внезапные изменения погоды. Однако высокие вычислительные затраты, связанные с методом грубой силы, делают этот подход непригодным для реальных приложений. В данной статье мы предлагаем HAMLET — аппаратно-ориентированную модульную систему обучения с минимальными затратами (Hardware-Aware Modular Least Expensive Training) для адаптации домена в реальном времени. Наш подход включает аппаратно-ориентированный агент оркестрации обратного распространения (HAMT) и специализированный детектор сдвига домена, который позволяет активно контролировать, когда и как модель адаптируется (LT). Благодаря этим усовершенствованиям наш подход способен выполнять семантическую сегментацию с одновременной адаптацией на скорости более 29 кадров в секунду на одной потребительской видеокарте. Убедительный компромисс между точностью и скоростью нашей системы демонстрируется на тестах OnDA и SHIFT с помощью экспериментальных результатов.

NeRF-Det: Обучение геометрически осознанного объемного представления для трехмерного обнаружения объектов на основе мультивью
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Jul 27, 2023

Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka

140

Мы представляем NeRF-Det — новый метод для 3D-детекции в помещениях, использующий в качестве входных данных RGB-изображения с известной позой. В отличие от существующих методов 3D-детекции в помещениях, которые испытывают трудности с моделированием геометрии сцены, наш метод оригинально использует NeRF в сквозном режиме для явного оценивания 3D-геометрии, что улучшает производительность 3D-детекции. В частности, чтобы избежать значительных дополнительных задержек, связанных с оптимизацией NeRF для каждой сцены, мы вводим достаточные геометрические априорные данные для повышения обобщаемости NeRF-MLP. Кроме того, мы тонко связываем ветви детекции и NeRF через общий MLP, что позволяет эффективно адаптировать NeRF для детекции и создавать геометрически осознанные объемные представления для 3D-детекции. Наш метод превосходит современные подходы на 3.9 mAP и 3.1 mAP на бенчмарках ScanNet и ARKITScenes соответственно. Мы предоставляем подробный анализ, чтобы прояснить, как работает NeRF-Det. Благодаря нашему совместному подходу к обучению, NeRF-Det способен хорошо обобщаться на неизвестные сцены для задач детекции объектов, синтеза видов и оценки глубины без необходимости оптимизации для каждой сцены. Код доступен по адресу https://github.com/facebookresearch/NeRF-Det.

MiDaS v3.1 — Коллекция моделей для надежного монокулярного оценивания относительной глубины
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Jul 26, 2023

Reiner Birkl, Diana Wofk, Matthias Müller

Мы представляем MiDaS v3.1 для оценки монохромной глубины, предлагая набор новых моделей, основанных на различных архитектурах энкодеров. Этот выпуск мотивирован успехами трансформеров в компьютерном зрении, а также широким разнообразием доступных предобученных визуальных трансформеров. Мы исследуем, как использование наиболее перспективных визуальных трансформеров в качестве энкодеров изображений влияет на качество оценки глубины и время выполнения архитектуры MiDaS. Наше исследование также включает современные сверточные подходы, которые достигают сопоставимого с визуальными трансформерами качества в задачах классификации изображений. В то время как предыдущий выпуск MiDaS v3.0 использовал только базовый визуальный трансформер ViT, MiDaS v3.1 предлагает дополнительные модели на основе BEiT, Swin, SwinV2, Next-ViT и LeViT. Эти модели предоставляют различные компромиссы между производительностью и временем выполнения. Лучшая модель улучшает качество оценки глубины на 28%, а эффективные модели позволяют выполнять задачи, требующие высокой частоты кадров. Мы также описываем общий процесс интеграции новых архитектур энкодеров. Видео, суммирующее работу, можно найти по адресу https://youtu.be/UjaeNNFf9sE, а код доступен на https://github.com/isl-org/MiDaS.

Как масштабировать экспоненциальное скользящее среднее (EMA)
How to Scale Your EMA

Jul 25, 2023

Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb

Сохранение динамики обучения при различных размерах пакетов является важным инструментом в практическом машинном обучении, так как позволяет находить компромисс между размером пакета и временем выполнения. Этот компромисс обычно достигается с помощью правила масштабирования. Например, в стохастическом градиентном спуске следует масштабировать скорость обучения линейно с размером пакета. Ещё одним важным инструментом в практическом машинном обучении является экспоненциальное скользящее среднее модели (EMA) — копия модели, которая не получает информацию о градиентах, а вместо этого следует за целевой моделью с определённым импульсом. Такая модель EMA может улучшить устойчивость и обобщающие свойства обучения с учителем, стабилизировать псевдоразметку и предоставить обучающий сигнал для самообучения (SSL). В предыдущих работах модель EMA рассматривалась отдельно от оптимизации, что приводило к различной динамике обучения при разных размерах пакетов и снижению производительности модели. В данной работе мы предлагаем правило масштабирования для оптимизации в присутствии моделей EMA и демонстрируем его применимость для различных архитектур, оптимизаторов и типов данных. Мы также показываем, что это правило работает в случаях, когда модель EMA участвует в оптимизации целевой модели, что позволяет обучать методы псевдоразметки и SSL, основанные на EMA, как при малых, так и при больших размерах пакетов. Для SSL мы смогли обучить модель BYOL с размером пакета до 24 576 без потери производительности, что оптимально сокращает время выполнения в 6 раз.

TEDi: Временнó-запутанная диффузия для синтеза долгосрочных движений
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Jul 27, 2023

Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka

Постепенный характер процесса диффузии, который синтезирует образцы небольшими шагами, является ключевым элементом моделей вероятностной диффузии с удалением шума (Denoising Diffusion Probabilistic Models, DDPM), которые продемонстрировали беспрецедентное качество в синтезе изображений и недавно были исследованы в области движения. В данной работе мы предлагаем адаптировать концепцию постепенной диффузии (действующей вдоль оси времени диффузии) к временной оси последовательности движений. Наша ключевая идея заключается в расширении фреймворка DDPM для поддержки временно изменяющегося удаления шума, тем самым связывая две оси. Используя нашу специальную формулировку, мы итеративно удаляем шум из буфера движения, который содержит набор поз с возрастающим уровнем шума, что авторегрессивно создает произвольно длинный поток кадров. При стационарной оси времени диффузии на каждом шаге диффузии мы увеличиваем только временную ось движения, так что фреймворк создает новый, чистый кадр, который удаляется из начала буфера, за которым следует новый вектор шума, добавляемый в конец. Этот новый механизм открывает путь к новому фреймворку для долгосрочного синтеза движения с приложениями в анимации персонажей и других областях.

Как масштабировать экспоненциальное скользящее среднее (EMA)
How to Scale Your EMA

Jul 25, 2023

Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb

Ежедневные статьи

Адаптироваться или не адаптироваться? Реальное время адаптации для семантической сегментации
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

MiDaS v3.1 — Коллекция моделей для надежного монокулярного оценивания относительной глубины
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Как масштабировать экспоненциальное скользящее среднее (EMA)
How to Scale Your EMA

TEDi: Временнó-запутанная диффузия для синтеза долгосрочных движений
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Support

Support

Ежедневные статьи

Адаптироваться или не адаптироваться? Реальное время адаптации для семантической сегментации
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

MiDaS v3.1 — Коллекция моделей для надежного монокулярного оценивания относительной глубины
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Как масштабировать экспоненциальное скользящее среднее (EMA)
How to Scale Your EMA

TEDi: Временнó-запутанная диффузия для синтеза долгосрочных движений
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis