Artículos de investigación en IA seleccionados diariamente con traducciones
El objetivo de la Adaptación de Dominio en Línea para la segmentación semántica es manejar cambios de dominio imprevisibles que ocurren durante el despliegue, como eventos climáticos repentinos. Sin embargo, los altos costos computacionales asociados con la adaptación por fuerza bruta hacen que este paradigma sea inviable para aplicaciones del mundo real. En este artículo proponemos HAMLET, un marco de Entrenamiento Modular de Menor Costo Consciente del Hardware para la adaptación de dominio en tiempo real. Nuestro enfoque incluye un agente de orquestación de retropropagación consciente del hardware (HAMT) y un detector dedicado de cambios de dominio que permite un control activo sobre cuándo y cómo se adapta el modelo (LT). Gracias a estos avances, nuestro enfoque es capaz de realizar segmentación semántica mientras se adapta simultáneamente a más de 29 FPS en una sola GPU de consumo. El equilibrio alentador entre precisión y velocidad de nuestro marco se demuestra en los puntos de referencia OnDA y SHIFT a través de resultados experimentales.
Presentamos NeRF-Det, un método novedoso para la detección 3D en interiores que utiliza imágenes RGB con pose como entrada. A diferencia de los métodos existentes de detección 3D en interiores que tienen dificultades para modelar la geometría de la escena, nuestro método utiliza NeRF de manera novedosa en un enfoque de extremo a extremo para estimar explícitamente la geometría 3D, mejorando así el rendimiento en la detección 3D. Específicamente, para evitar la latencia adicional significativa asociada con la optimización por escena de NeRF, introducimos suficientes priors geométricos para mejorar la generalización de NeRF-MLP. Además, conectamos sutilmente las ramas de detección y NeRF a través de una MLP compartida, permitiendo una adaptación eficiente de NeRF para la detección y generando representaciones volumétricas conscientes de la geometría para la detección 3D. Nuestro método supera a los métodos más avanzados en 3.9 mAP y 3.1 mAP en los benchmarks de ScanNet y ARKITScenes, respectivamente. Proporcionamos un análisis extenso para esclarecer cómo funciona NeRF-Det. Como resultado de nuestro diseño de entrenamiento conjunto, NeRF-Det es capaz de generalizar bien a escenas no vistas para tareas de detección de objetos, síntesis de vistas y estimación de profundidad sin requerir optimización por escena. El código está disponible en https://github.com/facebookresearch/NeRF-Det.
Lanzamos MiDaS v3.1 para la estimación de profundidad monocular, ofreciendo una variedad de nuevos modelos basados en diferentes arquitecturas de codificadores. Este lanzamiento está motivado por el éxito de los transformadores en visión por computadora, con una amplia variedad de transformadores de visión preentrenados ahora disponibles. Exploramos cómo el uso de los transformadores de visión más prometedores como codificadores de imágenes impacta en la calidad de la estimación de profundidad y en el tiempo de ejecución de la arquitectura MiDaS. Nuestra investigación también incluye enfoques convolucionales recientes que logran una calidad comparable a los transformadores de visión en tareas de clasificación de imágenes. Mientras que la versión anterior, MiDaS v3.0, utilizaba únicamente el transformador de visión estándar ViT, MiDaS v3.1 ofrece modelos adicionales basados en BEiT, Swin, SwinV2, Next-ViT y LeViT. Estos modelos presentan diferentes compensaciones entre rendimiento y tiempo de ejecución. El mejor modelo mejora la calidad de la estimación de profundidad en un 28%, mientras que los modelos eficientes permiten tareas posteriores que requieren altas tasas de cuadros. También describimos el proceso general para integrar nuevas arquitecturas de codificadores. Un video que resume el trabajo se puede encontrar en https://youtu.be/UjaeNNFf9sE y el código está disponible en https://github.com/isl-org/MiDaS.
Preservar la dinámica de entrenamiento a través de diferentes tamaños de lote es una herramienta importante para el aprendizaje automático práctico, ya que permite equilibrar el tamaño del lote y el tiempo de ejecución. Este equilibrio suele habilitarse mediante una regla de escalado; por ejemplo, en el descenso de gradiente estocástico, se debe escalar la tasa de aprendizaje linealmente con el tamaño del lote. Otra herramienta clave para el aprendizaje automático práctico es el Promedio Móvil Exponencial (EMA, por sus siglas en inglés) del modelo, que es una copia del modelo que no recibe información de gradientes, sino que sigue a su modelo objetivo con cierto impulso. Este EMA del modelo puede mejorar la robustez y las propiedades de generalización del aprendizaje supervisado, estabilizar el etiquetado pseudo-supervisado y proporcionar una señal de aprendizaje para el Aprendizaje Autosupervisado (SSL). Trabajos anteriores han tratado el EMA del modelo de manera separada a la optimización, lo que ha llevado a dinámicas de entrenamiento diferentes según el tamaño del lote y a un menor rendimiento del modelo. En este trabajo, proporcionamos una regla de escalado para la optimización en presencia de EMAs del modelo y demostramos su validez en una variedad de arquitecturas, optimizadores y modalidades de datos. También mostramos la validez de la regla cuando el EMA del modelo contribuye a la optimización del modelo objetivo, permitiéndonos entrenar métodos de etiquetado pseudo-supervisado y SSL basados en EMA con tamaños de lote pequeños y grandes. Para SSL, habilitamos el entrenamiento de BYOL hasta un tamaño de lote de 24,576 sin sacrificar el rendimiento, logrando óptimamente una reducción de 6 veces en el tiempo de ejecución.
La naturaleza gradual de un proceso de difusión que sintetiza muestras en pequeños incrementos constituye un componente clave de los Modelos Probabilísticos de Difusión con Eliminación de Ruido (DDPM, por sus siglas en inglés), los cuales han demostrado una calidad sin precedentes en la síntesis de imágenes y han sido recientemente explorados en el dominio del movimiento. En este trabajo, proponemos adaptar el concepto de difusión gradual (que opera a lo largo de un eje temporal de difusión) al eje temporal de la secuencia de movimiento. Nuestra idea principal es extender el marco de trabajo de los DDPM para admitir la eliminación de ruido temporalmente variable, entrelazando así ambos ejes. Utilizando nuestra formulación especial, eliminamos el ruido de manera iterativa en un búfer de movimiento que contiene un conjunto de poses con ruido creciente, lo cual produce de manera autorregresiva una secuencia de fotogramas de longitud arbitraria. Con un eje temporal de difusión estacionario, en cada paso de difusión incrementamos únicamente el eje temporal del movimiento, de modo que el marco de trabajo genera un nuevo fotograma limpio que se elimina del inicio del búfer, seguido de un nuevo vector de ruido que se añade al final. Este nuevo mecanismo abre el camino hacia un nuevo marco de trabajo para la síntesis de movimiento a largo plazo, con aplicaciones en la animación de personajes y otros dominios.