Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

¿Adaptar o no adaptar? Adaptación en tiempo real para segmentación semántica
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

Jul 27, 2023

Marc Botet Colomer, Pier Luigi Dovesi, Theodoros Panagiotakopoulos, Joao Frederico Carvalho, Linus Härenstam-Nielsen, Hossein Azizpour, Hedvig Kjellström, Daniel Cremers, Matteo Poggi

181

El objetivo de la Adaptación de Dominio en Línea para la segmentación semántica es manejar cambios de dominio imprevisibles que ocurren durante el despliegue, como eventos climáticos repentinos. Sin embargo, los altos costos computacionales asociados con la adaptación por fuerza bruta hacen que este paradigma sea inviable para aplicaciones del mundo real. En este artículo proponemos HAMLET, un marco de Entrenamiento Modular de Menor Costo Consciente del Hardware para la adaptación de dominio en tiempo real. Nuestro enfoque incluye un agente de orquestación de retropropagación consciente del hardware (HAMT) y un detector dedicado de cambios de dominio que permite un control activo sobre cuándo y cómo se adapta el modelo (LT). Gracias a estos avances, nuestro enfoque es capaz de realizar segmentación semántica mientras se adapta simultáneamente a más de 29 FPS en una sola GPU de consumo. El equilibrio alentador entre precisión y velocidad de nuestro marco se demuestra en los puntos de referencia OnDA y SHIFT a través de resultados experimentales.

NeRF-Det: Aprendizaje de Representaciones Volumétricas Conscientes de la Geometría para la Detección 3D de Objetos con Múltiples Vistas
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Jul 27, 2023

Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka

140

Presentamos NeRF-Det, un método novedoso para la detección 3D en interiores que utiliza imágenes RGB con pose como entrada. A diferencia de los métodos existentes de detección 3D en interiores que tienen dificultades para modelar la geometría de la escena, nuestro método utiliza NeRF de manera novedosa en un enfoque de extremo a extremo para estimar explícitamente la geometría 3D, mejorando así el rendimiento en la detección 3D. Específicamente, para evitar la latencia adicional significativa asociada con la optimización por escena de NeRF, introducimos suficientes priors geométricos para mejorar la generalización de NeRF-MLP. Además, conectamos sutilmente las ramas de detección y NeRF a través de una MLP compartida, permitiendo una adaptación eficiente de NeRF para la detección y generando representaciones volumétricas conscientes de la geometría para la detección 3D. Nuestro método supera a los métodos más avanzados en 3.9 mAP y 3.1 mAP en los benchmarks de ScanNet y ARKITScenes, respectivamente. Proporcionamos un análisis extenso para esclarecer cómo funciona NeRF-Det. Como resultado de nuestro diseño de entrenamiento conjunto, NeRF-Det es capaz de generalizar bien a escenas no vistas para tareas de detección de objetos, síntesis de vistas y estimación de profundidad sin requerir optimización por escena. El código está disponible en https://github.com/facebookresearch/NeRF-Det.

MiDaS v3.1 -- Un Model Zoo para la Estimación Robusta de Profundidad Relativa Monocular
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Jul 26, 2023

Reiner Birkl, Diana Wofk, Matthias Müller

Lanzamos MiDaS v3.1 para la estimación de profundidad monocular, ofreciendo una variedad de nuevos modelos basados en diferentes arquitecturas de codificadores. Este lanzamiento está motivado por el éxito de los transformadores en visión por computadora, con una amplia variedad de transformadores de visión preentrenados ahora disponibles. Exploramos cómo el uso de los transformadores de visión más prometedores como codificadores de imágenes impacta en la calidad de la estimación de profundidad y en el tiempo de ejecución de la arquitectura MiDaS. Nuestra investigación también incluye enfoques convolucionales recientes que logran una calidad comparable a los transformadores de visión en tareas de clasificación de imágenes. Mientras que la versión anterior, MiDaS v3.0, utilizaba únicamente el transformador de visión estándar ViT, MiDaS v3.1 ofrece modelos adicionales basados en BEiT, Swin, SwinV2, Next-ViT y LeViT. Estos modelos presentan diferentes compensaciones entre rendimiento y tiempo de ejecución. El mejor modelo mejora la calidad de la estimación de profundidad en un 28%, mientras que los modelos eficientes permiten tareas posteriores que requieren altas tasas de cuadros. También describimos el proceso general para integrar nuevas arquitecturas de codificadores. Un video que resume el trabajo se puede encontrar en https://youtu.be/UjaeNNFf9sE y el código está disponible en https://github.com/isl-org/MiDaS.

Cómo Escalar tu EMA
How to Scale Your EMA

Jul 25, 2023

Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb

Preservar la dinámica de entrenamiento a través de diferentes tamaños de lote es una herramienta importante para el aprendizaje automático práctico, ya que permite equilibrar el tamaño del lote y el tiempo de ejecución. Este equilibrio suele habilitarse mediante una regla de escalado; por ejemplo, en el descenso de gradiente estocástico, se debe escalar la tasa de aprendizaje linealmente con el tamaño del lote. Otra herramienta clave para el aprendizaje automático práctico es el Promedio Móvil Exponencial (EMA, por sus siglas en inglés) del modelo, que es una copia del modelo que no recibe información de gradientes, sino que sigue a su modelo objetivo con cierto impulso. Este EMA del modelo puede mejorar la robustez y las propiedades de generalización del aprendizaje supervisado, estabilizar el etiquetado pseudo-supervisado y proporcionar una señal de aprendizaje para el Aprendizaje Autosupervisado (SSL). Trabajos anteriores han tratado el EMA del modelo de manera separada a la optimización, lo que ha llevado a dinámicas de entrenamiento diferentes según el tamaño del lote y a un menor rendimiento del modelo. En este trabajo, proporcionamos una regla de escalado para la optimización en presencia de EMAs del modelo y demostramos su validez en una variedad de arquitecturas, optimizadores y modalidades de datos. También mostramos la validez de la regla cuando el EMA del modelo contribuye a la optimización del modelo objetivo, permitiéndonos entrenar métodos de etiquetado pseudo-supervisado y SSL basados en EMA con tamaños de lote pequeños y grandes. Para SSL, habilitamos el entrenamiento de BYOL hasta un tamaño de lote de 24,576 sin sacrificar el rendimiento, logrando óptimamente una reducción de 6 veces en el tiempo de ejecución.

TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Jul 27, 2023

Zihan Zhang, Richard Liu, Kfir Aberman, Rana Hanocka

La naturaleza gradual de un proceso de difusión que sintetiza muestras en pequeños incrementos constituye un componente clave de los Modelos Probabilísticos de Difusión con Eliminación de Ruido (DDPM, por sus siglas en inglés), los cuales han demostrado una calidad sin precedentes en la síntesis de imágenes y han sido recientemente explorados en el dominio del movimiento. En este trabajo, proponemos adaptar el concepto de difusión gradual (que opera a lo largo de un eje temporal de difusión) al eje temporal de la secuencia de movimiento. Nuestra idea principal es extender el marco de trabajo de los DDPM para admitir la eliminación de ruido temporalmente variable, entrelazando así ambos ejes. Utilizando nuestra formulación especial, eliminamos el ruido de manera iterativa en un búfer de movimiento que contiene un conjunto de poses con ruido creciente, lo cual produce de manera autorregresiva una secuencia de fotogramas de longitud arbitraria. Con un eje temporal de difusión estacionario, en cada paso de difusión incrementamos únicamente el eje temporal del movimiento, de modo que el marco de trabajo genera un nuevo fotograma limpio que se elimina del inicio del búfer, seguido de un nuevo vector de ruido que se añade al final. Este nuevo mecanismo abre el camino hacia un nuevo marco de trabajo para la síntesis de movimiento a largo plazo, con aplicaciones en la animación de personajes y otros dominios.

Cómo Escalar tu EMA
How to Scale Your EMA

Jul 25, 2023

Dan Busbridge, Jason Ramapuram, Pierre Ablin, Tatiana Likhomanenko, Eeshan Gunesh Dhekane, Xavier Suau, Russ Webb

Papers Diarios

¿Adaptar o no adaptar? Adaptación en tiempo real para segmentación semántica
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

NeRF-Det: Aprendizaje de Representaciones Volumétricas Conscientes de la Geometría para la Detección 3D de Objetos con Múltiples Vistas
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

MiDaS v3.1 -- Un Model Zoo para la Estimación Robusta de Profundidad Relativa Monocular
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Cómo Escalar tu EMA
How to Scale Your EMA

TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis

Support

Support

Papers Diarios

¿Adaptar o no adaptar? Adaptación en tiempo real para segmentación semántica
To Adapt or Not to Adapt? Real-Time Adaptation for Semantic Segmentation

NeRF-Det: Aprendizaje de Representaciones Volumétricas Conscientes de la Geometría para la Detección 3D de Objetos con Múltiples Vistas
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

MiDaS v3.1 -- Un Model Zoo para la Estimación Robusta de Profundidad Relativa Monocular
MiDaS v3.1 -- A Model Zoo for Robust Monocular Relative Depth Estimation

Cómo Escalar tu EMA
How to Scale Your EMA

TEDi: Difusión Temporalmente Entrelazada para la Síntesis de Movimientos a Largo Plazo
TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis