Ежедневно отобранные исследовательские статьи по ИИ с переводами
Цель онлайн-адаптации домена для семантической сегментации заключается в обработке непредвиденных изменений домена, возникающих во время эксплуатации, таких как внезапные изменения погоды. Однако высокие вычислительные затраты, связанные с методом грубой силы, делают этот подход непригодным для реальных приложений. В данной статье мы предлагаем HAMLET — аппаратно-ориентированную модульную систему обучения с минимальными затратами (Hardware-Aware Modular Least Expensive Training) для адаптации домена в реальном времени. Наш подход включает аппаратно-ориентированный агент оркестрации обратного распространения (HAMT) и специализированный детектор сдвига домена, который позволяет активно контролировать, когда и как модель адаптируется (LT). Благодаря этим усовершенствованиям наш подход способен выполнять семантическую сегментацию с одновременной адаптацией на скорости более 29 кадров в секунду на одной потребительской видеокарте. Убедительный компромисс между точностью и скоростью нашей системы демонстрируется на тестах OnDA и SHIFT с помощью экспериментальных результатов.
Мы представляем NeRF-Det — новый метод для 3D-детекции в помещениях, использующий в качестве входных данных RGB-изображения с известной позой. В отличие от существующих методов 3D-детекции в помещениях, которые испытывают трудности с моделированием геометрии сцены, наш метод оригинально использует NeRF в сквозном режиме для явного оценивания 3D-геометрии, что улучшает производительность 3D-детекции. В частности, чтобы избежать значительных дополнительных задержек, связанных с оптимизацией NeRF для каждой сцены, мы вводим достаточные геометрические априорные данные для повышения обобщаемости NeRF-MLP. Кроме того, мы тонко связываем ветви детекции и NeRF через общий MLP, что позволяет эффективно адаптировать NeRF для детекции и создавать геометрически осознанные объемные представления для 3D-детекции. Наш метод превосходит современные подходы на 3.9 mAP и 3.1 mAP на бенчмарках ScanNet и ARKITScenes соответственно. Мы предоставляем подробный анализ, чтобы прояснить, как работает NeRF-Det. Благодаря нашему совместному подходу к обучению, NeRF-Det способен хорошо обобщаться на неизвестные сцены для задач детекции объектов, синтеза видов и оценки глубины без необходимости оптимизации для каждой сцены. Код доступен по адресу https://github.com/facebookresearch/NeRF-Det.
Мы представляем MiDaS v3.1 для оценки монохромной глубины, предлагая набор новых моделей, основанных на различных архитектурах энкодеров. Этот выпуск мотивирован успехами трансформеров в компьютерном зрении, а также широким разнообразием доступных предобученных визуальных трансформеров. Мы исследуем, как использование наиболее перспективных визуальных трансформеров в качестве энкодеров изображений влияет на качество оценки глубины и время выполнения архитектуры MiDaS. Наше исследование также включает современные сверточные подходы, которые достигают сопоставимого с визуальными трансформерами качества в задачах классификации изображений. В то время как предыдущий выпуск MiDaS v3.0 использовал только базовый визуальный трансформер ViT, MiDaS v3.1 предлагает дополнительные модели на основе BEiT, Swin, SwinV2, Next-ViT и LeViT. Эти модели предоставляют различные компромиссы между производительностью и временем выполнения. Лучшая модель улучшает качество оценки глубины на 28%, а эффективные модели позволяют выполнять задачи, требующие высокой частоты кадров. Мы также описываем общий процесс интеграции новых архитектур энкодеров. Видео, суммирующее работу, можно найти по адресу https://youtu.be/UjaeNNFf9sE, а код доступен на https://github.com/isl-org/MiDaS.
Сохранение динамики обучения при различных размерах пакетов является важным инструментом в практическом машинном обучении, так как позволяет находить компромисс между размером пакета и временем выполнения. Этот компромисс обычно достигается с помощью правила масштабирования. Например, в стохастическом градиентном спуске следует масштабировать скорость обучения линейно с размером пакета. Ещё одним важным инструментом в практическом машинном обучении является экспоненциальное скользящее среднее модели (EMA) — копия модели, которая не получает информацию о градиентах, а вместо этого следует за целевой моделью с определённым импульсом. Такая модель EMA может улучшить устойчивость и обобщающие свойства обучения с учителем, стабилизировать псевдоразметку и предоставить обучающий сигнал для самообучения (SSL). В предыдущих работах модель EMA рассматривалась отдельно от оптимизации, что приводило к различной динамике обучения при разных размерах пакетов и снижению производительности модели. В данной работе мы предлагаем правило масштабирования для оптимизации в присутствии моделей EMA и демонстрируем его применимость для различных архитектур, оптимизаторов и типов данных. Мы также показываем, что это правило работает в случаях, когда модель EMA участвует в оптимизации целевой модели, что позволяет обучать методы псевдоразметки и SSL, основанные на EMA, как при малых, так и при больших размерах пакетов. Для SSL мы смогли обучить модель BYOL с размером пакета до 24 576 без потери производительности, что оптимально сокращает время выполнения в 6 раз.
Постепенный характер процесса диффузии, который синтезирует образцы небольшими шагами, является ключевым элементом моделей вероятностной диффузии с удалением шума (Denoising Diffusion Probabilistic Models, DDPM), которые продемонстрировали беспрецедентное качество в синтезе изображений и недавно были исследованы в области движения. В данной работе мы предлагаем адаптировать концепцию постепенной диффузии (действующей вдоль оси времени диффузии) к временной оси последовательности движений. Наша ключевая идея заключается в расширении фреймворка DDPM для поддержки временно изменяющегося удаления шума, тем самым связывая две оси. Используя нашу специальную формулировку, мы итеративно удаляем шум из буфера движения, который содержит набор поз с возрастающим уровнем шума, что авторегрессивно создает произвольно длинный поток кадров. При стационарной оси времени диффузии на каждом шаге диффузии мы увеличиваем только временную ось движения, так что фреймворк создает новый, чистый кадр, который удаляется из начала буфера, за которым следует новый вектор шума, добавляемый в конец. Этот новый механизм открывает путь к новому фреймворку для долгосрочного синтеза движения с приложениями в анимации персонажей и других областях.