Artículos de investigación en IA seleccionados diariamente con traducciones
Este trabajo presenta Depth Anything, una solución altamente práctica para la estimación robusta de profundidad monocular. Sin perseguir módulos técnicos novedosos, nuestro objetivo es construir un modelo base simple pero potente que maneje cualquier imagen en cualquier circunstancia. Para ello, ampliamos el conjunto de datos diseñando un motor de datos para recopilar y anotar automáticamente grandes cantidades de datos no etiquetados (~62M), lo que aumenta significativamente la cobertura de datos y, por tanto, reduce el error de generalización. Investigamos dos estrategias simples pero efectivas que hacen prometedor el escalado de datos. Primero, se crea un objetivo de optimización más desafiante aprovechando herramientas de aumento de datos. Esto obliga al modelo a buscar activamente conocimiento visual adicional y adquirir representaciones robustas. Segundo, se desarrolla una supervisión auxiliar para que el modelo herede ricos conocimientos semánticos previos de codificadores preentrenados. Evaluamos ampliamente sus capacidades de zero-shot, incluyendo seis conjuntos de datos públicos y fotos capturadas aleatoriamente. Demuestra una impresionante capacidad de generalización. Además, al ajustarlo con información de profundidad métrica de NYUv2 y KITTI, se establecen nuevos SOTAs. Nuestro mejor modelo de profundidad también resulta en un ControlNet condicionado por profundidad mejorado. Nuestros modelos están disponibles en https://github.com/LiheYoung/Depth-Anything.
El paralelismo de pipeline es uno de los componentes clave para el entrenamiento distribuido a gran escala, aunque su eficiencia se ve afectada por las burbujas de pipeline, que se consideraban inevitables. En este trabajo, presentamos una estrategia de planificación que, hasta donde sabemos, es la primera en lograr con éxito cero burbujas de pipeline bajo semántica de entrenamiento sincrónico. La idea clave detrás de esta mejora es dividir el cálculo de retropropagación en dos partes: una que calcula el gradiente para la entrada y otra que lo calcula para los parámetros. Basándonos en esta idea, diseñamos manualmente nuevos planes de pipeline que superan significativamente a los métodos de referencia. Además, desarrollamos un algoritmo que encuentra automáticamente un plan óptimo basado en la configuración específica del modelo y el límite de memoria. Adicionalmente, para lograr verdaderamente cero burbujas, introducimos una técnica novedosa para evitar sincronizaciones durante el paso del optimizador. Las evaluaciones experimentales muestran que nuestro método supera al plan 1F1B hasta en un 23% en rendimiento bajo un límite de memoria similar. Este número puede aumentar hasta un 31% cuando se relaja la restricción de memoria. Creemos que nuestros resultados representan un avance importante en el aprovechamiento del verdadero potencial del paralelismo de pipeline. Hemos liberado nuestra implementación basada en el popular repositorio Megatron-LM en https://github.com/sail-sg/zero-bubble-pipeline-parallelism.
Generar fondos de video que se adapten al movimiento del sujeto en primer plano es un problema importante para la industria cinematográfica y la comunidad de efectos visuales. Esta tarea implica sintetizar un fondo que se alinee con el movimiento y la apariencia del sujeto en primer plano, al mismo tiempo que cumple con la intención creativa del artista. Presentamos ActAnywhere, un modelo generativo que automatiza este proceso, el cual tradicionalmente requiere esfuerzos manuales tediosos. Nuestro modelo aprovecha el poder de los modelos de difusión de video a gran escala y está específicamente diseñado para esta tarea. ActAnywhere toma como entrada una secuencia de segmentación del sujeto en primer plano y una imagen que describe la escena deseada como condición, para producir un video coherente con interacciones realistas entre el primer plano y el fondo, mientras se adhiere al marco de la condición. Entrenamos nuestro modelo en un conjunto de datos a gran escala de videos de interacción humano-escena. Evaluaciones exhaustivas demuestran el rendimiento superior de nuestro modelo, superando significativamente a los métodos de referencia. Además, mostramos que ActAnywhere generaliza a diversas muestras fuera de distribución, incluyendo sujetos no humanos. Visite nuestra página del proyecto en https://actanywhere.github.io.
En este artículo, presentamos un marco basado en modelos de difusión para animar personas a partir de una sola imagen, dada una secuencia de movimiento 3D objetivo. Nuestro enfoque consta de dos componentes principales: a) aprender priors sobre las partes invisibles del cuerpo humano y la ropa, y b) renderizar nuevas posturas corporales con la ropa y textura adecuadas. Para la primera parte, entrenamos un modelo de difusión de relleno para alucinar las partes no visibles de una persona dada una sola imagen. Entrenamos este modelo en el espacio de mapas de textura, lo que lo hace más eficiente en términos de muestras, ya que es invariante a la postura y el punto de vista. En segundo lugar, desarrollamos una canalización de renderizado basada en difusión, controlada por posturas humanas 3D. Esto produce renderizados realistas de nuevas posturas de la persona, incluyendo la ropa, el cabello y un relleno plausible de las regiones no visibles. Este enfoque desacoplado permite que nuestro método genere una secuencia de imágenes que son fieles al movimiento objetivo en la postura 3D y a la imagen de entrada en términos de similitud visual. Además, el control 3D permite diversas trayectorias sintéticas de cámara para renderizar a una persona. Nuestros experimentos muestran que nuestro método es resistente en la generación de movimientos prolongados y posturas variadas, desafiantes y complejas en comparación con métodos anteriores. Consulte nuestro sitio web para más detalles: https://boyiliee.github.io/3DHM.github.io/.
La dictación permite una entrada eficiente de texto en dispositivos móviles. Sin embargo, escribir con voz puede producir textos poco fluidos, verbosos e incoherentes, lo que requiere un postprocesamiento intensivo. Este artículo presenta Rambler, una interfaz gráfica de usuario impulsada por un modelo de lenguaje grande (LLM) que permite la manipulación a nivel de esencia del texto dictado mediante dos conjuntos principales de funciones: extracción de esencia y revisión macro. La extracción de esencia genera palabras clave y resúmenes como anclas para facilitar la revisión e interacción con el texto hablado. Las revisiones macro asistidas por LLM permiten a los usuarios redictar, dividir, fusionar y transformar el texto dictado sin necesidad de especificar ubicaciones precisas de edición. Juntas, estas funciones allanan el camino para una dictación y revisión interactiva que ayuda a cerrar la brecha entre las palabras habladas espontáneas y la escritura bien estructurada. En un estudio comparativo con 12 participantes que realizaron tareas de composición verbal, Rambler superó la línea base de un editor de voz a texto + ChatGPT, ya que facilita mejor las revisiones iterativas con un mayor control del usuario sobre el contenido, al mismo tiempo que admite estrategias de usuario sorprendentemente diversas.
Este artículo estudia el problema de la interpretabilidad basada en conceptos de las representaciones de transformadores para videos. Concretamente, buscamos explicar el proceso de toma de decisiones de los transformadores de video basándonos en conceptos espaciotemporales de alto nivel que se descubren automáticamente. Investigaciones previas sobre interpretabilidad basada en conceptos se han centrado únicamente en tareas a nivel de imagen. En comparación, los modelos de video manejan la dimensión temporal adicional, lo que aumenta la complejidad y plantea desafíos en la identificación de conceptos dinámicos a lo largo del tiempo. En este trabajo, abordamos sistemáticamente estos desafíos introduciendo el primer algoritmo de Descubrimiento de Conceptos en Transformadores de Video (VTCD, por sus siglas en inglés). Para ello, proponemos un enfoque eficiente para la identificación no supervisada de unidades de representaciones de transformadores de video —conceptos— y la clasificación de su importancia para la salida de un modelo. Los conceptos resultantes son altamente interpretables, revelando mecanismos de razonamiento espaciotemporal y representaciones centradas en objetos en modelos de video no estructurados. Al realizar este análisis de manera conjunta sobre un conjunto diverso de representaciones supervisadas y auto-supervisadas, descubrimos que algunos de estos mecanismos son universales en los transformadores de video. Finalmente, demostramos que VTCD puede utilizarse para mejorar el rendimiento del modelo en tareas de gran detalle.