Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Magic123, un enfoque de dos etapas de lo general a lo detallado para la generación de mallas 3D de alta calidad con textura a partir de una única imagen sin posar en entornos naturales, utilizando tanto priores 2D como 3D. En la primera etapa, optimizamos un campo de radiancia neuronal para producir una geometría aproximada. En la segunda etapa, adoptamos una representación de malla diferenciable eficiente en memoria para obtener una malla de alta resolución con una textura visualmente atractiva. En ambas etapas, el contenido 3D se aprende mediante la supervisión de la vista de referencia y vistas novedosas guiadas por una combinación de priores de difusión 2D y 3D. Introducimos un único parámetro de equilibrio entre los priores 2D y 3D para controlar la exploración (más imaginativa) y la explotación (más precisa) de la geometría generada. Además, empleamos inversión textual y regularización de profundidad monocular para fomentar apariencias consistentes entre vistas y prevenir soluciones degeneradas, respectivamente. Magic123 demuestra una mejora significativa sobre las técnicas anteriores de imagen a 3D, como se valida a través de extensos experimentos en benchmarks sintéticos y diversas imágenes del mundo real. Nuestro código, modelos y activos 3D generados están disponibles en https://github.com/guochengqian/Magic123.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ofrecen una herramienta prometedora que permite a los robots realizar tareas complejas de razonamiento robótico. Sin embargo, la ventana de contexto limitada de los LLMs contemporáneos dificulta el razonamiento a lo largo de horizontes temporales prolongados. Las tareas encarnadas, como las que podría realizar un robot doméstico, suelen requerir que el planificador considere información adquirida hace mucho tiempo (por ejemplo, propiedades de los numerosos objetos que el robot encontró previamente en el entorno). Los intentos de capturar el estado del mundo utilizando la representación interna implícita de un LLM se complican debido a la escasez de información relevante para la tarea y el entorno disponible en el historial de acciones del robot, mientras que los métodos que dependen de la capacidad de transmitir información mediante el prompt al LLM están sujetos a su ventana de contexto limitada. En este artículo, proponemos Statler, un marco que dota a los LLMs de una representación explícita del estado del mundo como una forma de "memoria" que se mantiene en el tiempo. Esencial para Statler es su uso de dos instancias de LLMs generales —un lector de modelo del mundo y un escritor de modelo del mundo— que interactúan con el estado del mundo y lo mantienen. Al proporcionar acceso a esta "memoria" del estado del mundo, Statler mejora la capacidad de los LLMs existentes para razonar a lo largo de horizontes temporales más largos sin la restricción de la longitud del contexto. Evaluamos la efectividad de nuestro enfoque en tres dominios simulados de manipulación en mesas y un dominio de robot real, y demostramos que mejora el estado del arte en el razonamiento robótico basado en LLMs. Sitio web del proyecto: https://statler-lm.github.io/
Los transformadores de visión (ViTs) han transformado significativamente el panorama de la visión por computadora y han demostrado periódicamente un rendimiento superior en tareas de visión en comparación con las redes neuronales convolucionales (CNNs). Aunque aún no hay un veredicto definitivo sobre qué tipo de modelo es superior, cada uno tiene sesgos inductivos únicos que moldean su aprendizaje y rendimiento de generalización. Por ejemplo, los ViTs poseen propiedades interesantes en cuanto a la dependencia de características no locales en las capas iniciales, así como mecanismos de autoatención que mejoran la flexibilidad del aprendizaje, permitiéndoles ignorar de manera más efectiva la información de la imagen que está fuera de contexto. Nuestra hipótesis es que esta capacidad de ignorar información fuera de contexto (a la que llamamos selectividad de parches), mientras se integra información en contexto de manera no local en las capas iniciales, permite a los ViTs manejar más fácilmente las oclusiones. En este estudio, nuestro objetivo es ver si podemos hacer que las CNNs simulen esta capacidad de selectividad de parches al incorporar efectivamente este sesgo inductivo mediante la técnica de aumento de datos Patch Mixing, que consiste en insertar parches de otra imagen en una imagen de entrenamiento e interpolar las etiquetas entre las dos clases de imágenes. Específicamente, utilizamos Patch Mixing para entrenar ViTs y CNNs de última generación, evaluando su impacto en la capacidad de ignorar parches fuera de contexto y manejar oclusiones naturales. Descubrimos que los ViTs no mejoran ni empeoran cuando se entrenan con Patch Mixing, pero las CNNs adquieren nuevas capacidades para ignorar información fuera de contexto y mejoran en los puntos de referencia de oclusión, lo que nos lleva a concluir que este método de entrenamiento es una forma de simular en las CNNs las habilidades que los ViTs ya poseen. Publicaremos nuestra implementación de Patch Mixing y los conjuntos de datos propuestos para uso público. Página del proyecto: https://arielnlee.github.io/PatchMixing/
En la teoría del aprendizaje profundo, la matriz de covarianza de las representaciones sirve como un indicador para examinar la capacidad de entrenamiento de la red. Motivados por el éxito de los Transformers, estudiamos la matriz de covarianza de un modelo de atención basado en Softmax modificado con conexiones residuales en el límite proporcional de profundidad y anchura infinitas. Demostramos que, en la inicialización, la distribución límite puede describirse mediante una ecuación diferencial estocástica (SDE) indexada por la relación profundidad-anchura. Para lograr un límite estocástico bien definido, el mecanismo de atención del Transformer se modifica centrando la salida del Softmax en la identidad y escalando los logits del Softmax con un parámetro de temperatura dependiente de la anchura. Examinamos la estabilidad de la red a través de la SDE correspondiente, mostrando cómo la escala tanto de la deriva como de la difusión puede controlarse elegantemente con la ayuda de las conexiones residuales. La existencia de una SDE estable implica que la estructura de covarianza está bien comportada, incluso para profundidades y anchuras muy grandes, evitando así los notorios problemas de degeneración de rango en los modelos de atención profundos. Finalmente, mostramos, mediante simulaciones, que la SDE proporciona una descripción sorprendentemente buena del modelo de tamaño finito correspondiente. Acuñamos el nombre Transformer conformado para estas modificaciones arquitectónicas.
Este artículo presenta un nuevo mecanismo para facilitar el entrenamiento de transformadores de máscaras para la segmentación panóptica eficiente, democratizando su implementación. Observamos que, debido a su alta complejidad, el objetivo de entrenamiento de la segmentación panóptica inevitablemente conduce a una penalización mucho mayor de falsos positivos. Esta pérdida desequilibrada dificulta el proceso de entrenamiento de las arquitecturas basadas en transformadores de máscaras de extremo a extremo, especialmente para modelos eficientes. En este artículo, presentamos ReMaX, que añade relajación a las predicciones de máscaras y clases durante el entrenamiento para la segmentación panóptica. Demostramos que, mediante estas técnicas simples de relajación durante el entrenamiento, nuestro modelo puede mejorarse consistentemente por un margen claro sin ningún costo computacional adicional en la inferencia. Al combinar nuestro método con arquitecturas eficientes como MobileNetV3-Small, nuestro método alcanza nuevos resultados de vanguardia para la segmentación panóptica eficiente en COCO, ADE20K y Cityscapes. El código y los puntos de control preentrenados estarán disponibles en https://github.com/google-research/deeplab2.