Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Kosmos-2, un Modelo de Lenguaje Grande Multimodal (MLLM, por sus siglas en inglés), que habilita nuevas capacidades para percibir descripciones de objetos (por ejemplo, cuadros delimitadores) y anclar texto al mundo visual. Específicamente, representamos expresiones referenciales como enlaces en Markdown, es decir, ``[texto](cuadros delimitadores)'', donde las descripciones de objetos son secuencias de tokens de ubicación. Junto con corpus multimodales, construimos datos a gran escala de pares imagen-texto anclados (llamados GrIT) para entrenar el modelo. Además de las capacidades existentes de los MLLM (por ejemplo, percibir modalidades generales, seguir instrucciones y realizar aprendizaje en contexto), Kosmos-2 integra la capacidad de anclaje en aplicaciones posteriores. Evaluamos Kosmos-2 en una amplia gama de tareas, incluyendo (i) anclaje multimodal, como la comprensión de expresiones referenciales y el anclaje de frases, (ii) referencia multimodal, como la generación de expresiones referenciales, (iii) tareas de percepción-lenguaje, y (iv) comprensión y generación de lenguaje. Este trabajo sienta las bases para el desarrollo de la Inteligencia Artificial Encarnada y arroja luz sobre la gran convergencia del lenguaje, la percepción multimodal, la acción y el modelado del mundo, lo cual es un paso clave hacia la inteligencia artificial general. Los datos, demostraciones y modelos preentrenados están disponibles en https://aka.ms/kosmos-2.
Aunque el avance de los modelos de lenguaje preentrenados de gran escala continúa, la exploración de la construcción de un modelo unificado para el lenguaje y otros datos multimodales, como el movimiento, sigue siendo un desafío y un área inexplorada hasta ahora. Afortunadamente, el movimiento humano muestra un acoplamiento semántico similar al lenguaje humano, a menudo percibido como una forma de lenguaje corporal. Al fusionar datos de lenguaje con modelos de movimiento a gran escala, el preentrenamiento de movimiento-lenguaje que puede mejorar el rendimiento de tareas relacionadas con el movimiento se vuelve factible. Motivados por esta idea, proponemos MotionGPT, un modelo unificado, versátil y fácil de usar para manejar múltiples tareas relevantes al movimiento. Específicamente, empleamos la cuantización vectorial discreta para el movimiento humano y transferimos el movimiento 3D a tokens de movimiento, de manera similar al proceso de generación de tokens de palabras. Basándonos en este "vocabulario de movimiento", realizamos modelado de lenguaje tanto en movimiento como en texto de manera unificada, tratando el movimiento humano como un lenguaje específico. Además, inspirados por el aprendizaje basado en prompts, preentrenamos MotionGPT con una mezcla de datos de movimiento-lenguaje y lo afinamos en tareas de preguntas y respuestas basadas en prompts. Experimentos extensos demuestran que MotionGPT logra un rendimiento de vanguardia en múltiples tareas de movimiento, incluyendo la generación de movimiento impulsada por texto, la descripción de movimiento, la predicción de movimiento y la interpolación de movimiento.
La edición precisa y controlable de imágenes es una tarea desafiante que ha atraído una atención significativa. Recientemente, DragGAN ha permitido un marco de edición de imágenes interactivo basado en puntos y ha logrado resultados de edición impresionantes con precisión a nivel de píxel. Sin embargo, dado que este método se basa en redes generativas adversarias (GAN), su generalidad está limitada por la capacidad de los modelos GAN preentrenados. En este trabajo, extendemos dicho marco de edición a modelos de difusión y proponemos DragDiffusion. Al aprovechar modelos de difusión preentrenados a gran escala, mejoramos considerablemente la aplicabilidad de la edición interactiva basada en puntos en escenarios del mundo real. Mientras que la mayoría de los métodos existentes de edición de imágenes basados en difusión trabajan con incrustaciones de texto, DragDiffusion optimiza el latente de difusión para lograr un control espacial preciso. Aunque los modelos de difusión generan imágenes de manera iterativa, mostramos empíricamente que optimizar el latente de difusión en un solo paso es suficiente para generar resultados coherentes, lo que permite a DragDiffusion completar ediciones de alta calidad de manera eficiente. Experimentos extensos en una amplia gama de casos desafiantes (por ejemplo, múltiples objetos, diversas categorías de objetos, varios estilos, etc.) demuestran la versatilidad y generalidad de DragDiffusion.
El modelo Segment Anything (SAM) es un modelo base de visión guiado por instrucciones para extraer el objeto de interés de su fondo. Desde que el equipo de investigación de Meta lanzó el proyecto SA, SAM ha atraído una atención significativa debido a su impresionante rendimiento en transferencia zero-shot y su alta versatilidad al ser compatible con otros modelos para aplicaciones avanzadas de visión, como la edición de imágenes con control detallado. Muchos de estos casos de uso deben ejecutarse en dispositivos de borde con recursos limitados, como aplicaciones móviles. En este trabajo, nuestro objetivo es hacer que SAM sea apto para móviles reemplazando el codificador de imágenes pesado por uno ligero. Una forma ingenua de entrenar un nuevo SAM, como se describe en el artículo original, conduce a un rendimiento insatisfactorio, especialmente cuando los recursos de entrenamiento son limitados. Descubrimos que esto se debe principalmente a la optimización acoplada del codificador de imágenes y el decodificador de máscaras, lo que nos motiva a proponer la destilación desacoplada. Concretamente, destilamos el conocimiento del codificador de imágenes ViT-H en el SAM original hacia un codificador de imágenes ligero, que puede ser automáticamente compatible con el decodificador de máscaras del SAM original. El entrenamiento puede completarse en una sola GPU en menos de un día, y el SAM ligero resultante se denomina MobileSAM, que es más de 60 veces más pequeño pero tiene un rendimiento similar al SAM original. En cuanto a la velocidad de inferencia, MobileSAM procesa una imagen en aproximadamente 10 ms: 8 ms en el codificador de imágenes y 2 ms en el decodificador de máscaras. Con un rendimiento superior y una mayor versatilidad, nuestro MobileSAM es 7 veces más pequeño y 4 veces más rápido que el concurrente FastSAM, lo que lo hace más adecuado para aplicaciones móviles. El código del proyecto MobileSAM está disponible en https://github.com/ChaoningZhang/MobileSAM.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), a pesar de sus recientes logros impresionantes, son notablemente costosos de implementar, especialmente para aplicaciones que involucran la generación de contenido extenso, como sistemas de diálogo y escritura de historias. A menudo, una gran cantidad de información de estado transitorio, conocida como la caché KV, se almacena en la memoria de la GPU además de los parámetros del modelo, escalando linealmente con la longitud de la secuencia y el tamaño del lote. En este artículo, presentamos un enfoque novedoso para implementar la caché KV que reduce significativamente su huella de memoria. Nuestro enfoque se basa en la observación notable de que una pequeña porción de tokens contribuye con la mayor parte del valor al calcular las puntuaciones de atención. Llamamos a estos tokens "Heavy Hitters" (H_2). A través de una investigación exhaustiva, encontramos que (i) la aparición de H_2 es natural y está fuertemente correlacionada con la co-ocurrencia frecuente de tokens en el texto, y (ii) eliminarlos resulta en una degradación significativa del rendimiento. Basándonos en estas ideas, proponemos Heavy Hitter Oracle (H_2O), una política de expulsión de la caché KV que retiene dinámicamente un equilibrio entre tokens recientes y H_2. Formulamos la expulsión de la caché KV como un problema de submodularidad dinámica y demostramos (bajo suposiciones moderadas) una garantía teórica para nuestro novedoso algoritmo de expulsión que podría ayudar a guiar trabajos futuros. Validamos la precisión de nuestro algoritmo con OPT, LLaMA y GPT-NeoX en una amplia gama de tareas. Nuestra implementación de H_2O con un 20% de heavy hitters mejora el rendimiento sobre tres sistemas de inferencia líderes: DeepSpeed Zero-Inference, Hugging Face Accelerate y FlexGen, hasta 29 veces, 29 veces y 3 veces en OPT-6.7B y OPT-30B. Con el mismo tamaño de lote, H2O puede reducir la latencia hasta 1.9 veces. El código está disponible en https://github.com/FMInference/H2O.
Las tendencias actuales para el preentrenamiento de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) capaces se centran principalmente en la escalabilidad del tamaño del modelo y del conjunto de datos. Sin embargo, la calidad de los datos de preentrenamiento es un factor importante para entrenar LLMs potentes, aunque es un concepto nebuloso que no ha sido completamente caracterizado. Por lo tanto, utilizamos el coeficiente de diversidad Task2Vec, propuesto recientemente, para fundamentar y comprender aspectos formales de la calidad de los datos, yendo más allá de la escala por sí sola. Específicamente, medimos el coeficiente de diversidad de conjuntos de datos de preentrenamiento disponibles públicamente para demostrar que su diversidad formal es alta en comparación con los límites teóricos inferiores y superiores. Además, para generar confianza en el coeficiente de diversidad, realizamos experimentos de interpretabilidad y encontramos que el coeficiente se alinea con propiedades intuitivas de la diversidad, por ejemplo, aumenta a medida que crece el número de conceptos latentes. Concluimos que el coeficiente de diversidad es confiable, mostramos que es alto para los conjuntos de datos de LLMs disponibles públicamente, y conjeturamos que puede utilizarse para construir conjuntos de datos diversos y útiles para LLMs.
Un concepto central en el aprendizaje automático tanto práctico como teórico es el de un aprendiz débil, clasificadores que logran un rendimiento superior al azar (en cualquier distribución dada de datos), incluso por un margen pequeño. Dichos aprendices débiles forman la base práctica para métodos canónicos de aprendizaje automático como el boosting. En este trabajo, demostramos que los modelos de lenguaje grandes (LLMs) basados en prompts pueden funcionar eficazmente como dichos aprendices débiles. Específicamente, ilustramos el uso de un LLM como aprendiz débil en un algoritmo de boosting aplicado a datos tabulares. Mostramos que, al proporcionar (muestreados adecuadamente según la distribución de interés) descripciones textuales de muestras de datos tabulares, los LLMs pueden producir un resumen de las muestras que sirve como plantilla para la clasificación y logra el objetivo de actuar como un aprendiz débil en esta tarea. Incorporamos estos modelos en un enfoque de boosting, que en algunos casos puede aprovechar el conocimiento dentro del LLM para superar al boosting tradicional basado en árboles. El modelo supera tanto al aprendizaje con pocos ejemplos (few-shot learning) como, en ocasiones, incluso a procedimientos de ajuste fino más complejos, particularmente para tareas que involucran un número reducido de puntos de datos. Los resultados ilustran el potencial de los LLMs basados en prompts para funcionar no solo como aprendices con pocos ejemplos, sino como componentes de pipelines más grandes de aprendizaje automático.
Los grandes modelos transformadores entrenados en conjuntos de datos diversos han demostrado una capacidad notable para aprender en contexto, logrando un alto rendimiento en pocas muestras en tareas para las que no fueron explícitamente entrenados. En este artículo, estudiamos las capacidades de aprendizaje en contexto de los transformadores en problemas de toma de decisiones, es decir, aprendizaje por refuerzo (RL) para bandidos y procesos de decisión de Markov. Para ello, introducimos y estudiamos el Transformador Preentrenado para Decisiones (DPT, por sus siglas en inglés), un método de preentrenamiento supervisado en el que el transformador predice una acción óptima dado un estado de consulta y un conjunto de datos en contexto de interacciones, a través de una variedad de tareas. Este procedimiento, aunque simple, produce un modelo con varias capacidades sorprendentes. Encontramos que el transformador preentrenado puede usarse para resolver una gama de problemas de RL en contexto, exhibiendo tanto exploración en línea como conservadurismo fuera de línea, a pesar de no haber sido explícitamente entrenado para ello. El modelo también generaliza más allá de la distribución de preentrenamiento a nuevas tareas y adapta automáticamente sus estrategias de toma de decisiones a estructuras desconocidas. Teóricamente, mostramos que DPT puede verse como una implementación eficiente del muestreo bayesiano posterior, un algoritmo de RL con eficiencia muestral demostrada. Además, aprovechamos esta conexión para proporcionar garantías sobre el arrepentimiento del algoritmo en contexto generado por DPT, y demostramos que puede aprender más rápido que los algoritmos utilizados para generar los datos de preentrenamiento. Estos resultados sugieren un camino prometedor y simple hacia la instilación de fuertes habilidades de toma de decisiones en contexto en los transformadores.
Los conjuntos de datos a gran escala son esenciales para el aprendizaje profundo moderno. Los defensores argumentan que comprender estos métodos requiere transparencia en los conjuntos de datos (por ejemplo, "curación de datos, motivación, composición, proceso de recopilación, etc."). Sin embargo, casi nadie ha sugerido la publicación de las definiciones detalladas y los ejemplos visuales de categorías proporcionados a los anotadores, información crucial para entender la estructura de las anotaciones presentes en cada conjunto de datos. Estas etiquetas son el núcleo de los conjuntos de datos públicos, pero pocos incluyen las instrucciones que se utilizaron para generarlas. Introducimos una nueva tarea, la Generación de Instrucciones de Etiquetado, para abordar la falta de instrucciones de etiquetado disponibles públicamente. En la Generación de Instrucciones de Etiquetado, tomamos un conjunto de datos razonablemente anotado y: 1) generamos un conjunto de ejemplos que son visualmente representativos de cada categoría en el conjunto de datos; 2) proporcionamos una etiqueta de texto que corresponde a cada uno de los ejemplos. Introducimos un marco que no requiere entrenamiento de modelos para resolver esta tarea e incluye un sistema de recuperación rápida recién creado que aprovecha un modelo de visión y lenguaje preentrenado a gran escala. Este marco actúa como un sustituto de los anotadores humanos que puede ayudar tanto a generar un conjunto final de instrucciones de etiquetado como a evaluar su calidad. Nuestro marco genera múltiples representaciones visuales y textuales diversas de las categorías del conjunto de datos. El conjunto de instrucciones optimizado supera nuestra línea base más fuerte en 5 iteraciones por 7.06 mAP para NuImages y 12.9 mAP para COCO.
Los modelos preentrenados de propósito general ("modelos base") han permitido a los profesionales desarrollar soluciones generalizables para problemas individuales de aprendizaje automático utilizando conjuntos de datos significativamente más pequeños que los requeridos para aprender desde cero. Dichos modelos suelen entrenarse con grandes y diversos conjuntos de datos bajo supervisión débil, consumiendo mucha más información de entrenamiento de la disponible para cualquier aplicación descendente individual. En este artículo, describimos el Visual Navigation Transformer (ViNT), un modelo base que busca llevar el éxito de los modelos preentrenados de propósito general a la navegación robótica basada en visión. ViNT se entrena con un objetivo general de alcance de metas que puede utilizarse con cualquier conjunto de datos de navegación, y emplea una arquitectura flexible basada en Transformers para aprender affordances de navegación y permitir una adaptación eficiente a una variedad de tareas de navegación descendentes. ViNT se entrena con varios conjuntos de datos de navegación existentes, que comprenden cientos de horas de navegación robótica de diversas plataformas robóticas, y muestra transferencia positiva, superando a modelos especializados entrenados con conjuntos de datos individuales. ViNT puede mejorarse con propuestas de submetas basadas en difusión para explorar entornos novedosos, y puede resolver problemas de navegación a escala de kilómetros cuando se equipa con heurísticas de largo alcance. ViNT también puede adaptarse a nuevas especificaciones de tareas con una técnica inspirada en el ajuste por prompts, donde el codificador de metas se reemplaza por una codificación de otra modalidad de tarea (por ejemplo, waypoints GPS o comandos de ruteo) integrada en el mismo espacio de tokens de metas. Esta flexibilidad y capacidad para adaptarse a una variedad de dominios de problemas descendentes establece a ViNT como un modelo base efectivo para la robótica móvil. Para videos, código y puntos de control del modelo, visite nuestra página del proyecto en https://visualnav-transformer.github.io.
A pesar del progreso prometedor en tareas multimodales, los modelos multimodales grandes (LMM) actuales tienden a generar descripciones inconsistentes con respecto a la imagen asociada y las instrucciones humanas. Este artículo aborda este problema introduciendo el primer conjunto de datos grande y diverso para el ajuste de instrucciones visuales, denominado Large-scale Robust Visual (LRV)-Instruction. Nuestro conjunto de datos consta de 120k instrucciones visuales generadas por GPT4, que cubren 16 tareas de visión y lenguaje con instrucciones y respuestas de formato abierto. A diferencia de los estudios existentes que se centran principalmente en muestras de instrucciones positivas, diseñamos LRV-Instruction para incluir tanto instrucciones positivas como negativas, con el fin de lograr un ajuste de instrucciones visuales más robusto. Nuestras instrucciones negativas están diseñadas en dos niveles semánticos: (i) Manipulación de Elementos Inexistentes y (ii) Manipulación de Elementos Existentes. Para medir eficientemente la alucinación generada por los LMMs, proponemos GPT4-Assisted Visual Instruction Evaluation (GAVIE), un enfoque novedoso para evaluar el ajuste de instrucciones visuales sin necesidad de respuestas de referencia anotadas por humanos y que puede adaptarse a diversos formatos de instrucción. Realizamos experimentos exhaustivos para investigar la alucinación en los LMMs. Nuestros resultados demuestran que los LMMs existentes exhiben una alucinación significativa cuando se les presentan nuestras instrucciones negativas, particularmente con las instrucciones de Manipulación de Elementos Existentes. Además, al ajustar MiniGPT4 en LRV-Instruction, logramos mitigar la alucinación mientras mejoramos el rendimiento en conjuntos de datos públicos utilizando menos datos de entrenamiento en comparación con los métodos más avanzados. Adicionalmente, observamos que una proporción equilibrada de instancias positivas y negativas en los datos de entrenamiento conduce a un modelo más robusto. El enlace de nuestro proyecto está disponible en https://fuxiaoliu.github.io/LRV/.
Los humanos sobresalen en tareas complejas de manipulación de cuerpos blandos a largo plazo mediante el uso flexible de herramientas: hornear pan requiere un cuchillo para cortar la masa y un rodillo para aplanarla. A menudo considerado como un sello distintivo de la cognición humana, el uso de herramientas en robots autónomos sigue siendo limitado debido a los desafíos en la comprensión de las interacciones entre herramientas y objetos. Aquí desarrollamos un sistema robótico inteligente, RoboCook, que percibe, modela y manipula objetos elasto-plásticos con diversas herramientas. RoboCook utiliza representaciones de escenas mediante nubes de puntos, modela las interacciones herramienta-objeto con Redes Neuronales de Grafos (GNNs) y combina la clasificación de herramientas con el aprendizaje de políticas auto-supervisado para diseñar planes de manipulación. Demostramos que, con solo 20 minutos de datos de interacción en el mundo real por herramienta, un brazo robótico de propósito general puede aprender tareas complejas de manipulación de objetos blandos a largo plazo, como hacer dumplings y galletas con letras del alfabeto. Evaluaciones exhaustivas muestran que RoboCook supera sustancialmente a los enfoques más avanzados, exhibe robustez frente a perturbaciones externas severas y demuestra adaptabilidad a diferentes materiales.
Los modelos probabilísticos de difusión para eliminación de ruido (DDPMs, por sus siglas en inglés) han demostrado ser capaces de sintetizar imágenes de alta calidad con una diversidad notable cuando se entrenan con grandes volúmenes de datos. Los modelos de difusión típicos y los modelos generativos condicionales modernos a gran escala, como los modelos generativos de texto a imagen, son vulnerables al sobreajuste cuando se ajustan con datos extremadamente limitados. Trabajos existentes han explorado la generación guiada por sujetos utilizando un conjunto de referencia que contiene unas pocas imágenes. Sin embargo, pocos estudios previos exploran la generación guiada por dominios basada en DDPMs, cuyo objetivo es aprender las características comunes de los dominios objetivo mientras se mantiene la diversidad. Este artículo propone un enfoque novedoso llamado DomainStudio para adaptar DDPMs preentrenados en conjuntos de datos fuente a gran escala a dominios objetivo utilizando datos limitados. Está diseñado para preservar la diversidad de sujetos proporcionada por los dominios fuente y obtener muestras adaptadas de alta calidad y diversidad en los dominios objetivo. Proponemos mantener las distancias relativas entre las muestras adaptadas para lograr una diversidad generativa considerable. Además, mejoramos aún más el aprendizaje de detalles de alta frecuencia para una mejor calidad de generación. Nuestro enfoque es compatible tanto con modelos de difusión no condicionales como condicionales. Este trabajo realiza el primer intento de lograr generación de imágenes no condicional con pocos ejemplos utilizando modelos de difusión, alcanzando una calidad superior y una mayor diversidad que los enfoques actuales basados en GAN. Además, este trabajo también alivia significativamente el sobreajuste en la generación condicional y logra una generación guiada por dominios de alta calidad, ampliando aún más los escenarios aplicables de los modelos modernos de texto a imagen a gran escala.
Los modelos de difusión de texto a imagen a gran escala han mejorado significativamente el estado del arte en la modelización generativa de imágenes y permiten una interfaz de usuario intuitiva y potente para guiar el proceso de generación de imágenes. Expresar restricciones espaciales, por ejemplo, para posicionar objetos específicos en ubicaciones particulares, resulta engorroso utilizando texto; y los modelos actuales de generación de imágenes basados en texto no son capaces de seguir con precisión tales instrucciones. En este artículo consideramos la generación de imágenes a partir de texto asociado con segmentos en el lienzo de la imagen, lo que combina una interfaz de lenguaje natural intuitiva con un control espacial preciso sobre el contenido generado. Proponemos ZestGuide, un enfoque de guía de segmentación zero-shot que puede integrarse en modelos de difusión de texto a imagen preentrenados y no requiere ningún entrenamiento adicional. Aprovecha mapas de segmentación implícitos que pueden extraerse de las capas de atención cruzada y los utiliza para alinear la generación con las máscaras de entrada. Nuestros resultados experimentales combinan una alta calidad de imagen con una alineación precisa del contenido generado con las segmentaciones de entrada, y mejoran el trabajo previo tanto cuantitativa como cualitativamente, incluyendo métodos que requieren entrenamiento en imágenes con segmentaciones correspondientes. En comparación con Paint with Words, el estado del arte anterior en la generación de imágenes con condicionamiento de segmentación zero-shot, mejoramos entre 5 y 10 puntos mIoU en el conjunto de datos COCO con puntuaciones FID similares.
Los procesos generativos que implican resolver ecuaciones diferenciales, como los modelos de difusión, frecuentemente requieren equilibrar velocidad y calidad. Los muestreadores basados en EDO son rápidos pero alcanzan un límite en su rendimiento, mientras que los muestreadores basados en EDE ofrecen una mayor calidad de muestreo a costa de un tiempo de muestreo más prolongado. Atribuimos esta diferencia a los errores de muestreo: los muestreadores de EDO involucran errores de discretización más pequeños, mientras que la estocasticidad en las EDE contrae los errores acumulados. Basándonos en estos hallazgos, proponemos un nuevo algoritmo de muestreo llamado Restart para equilibrar mejor los errores de discretización y la contracción. Este método de muestreo alterna entre agregar ruido significativo en pasos adicionales hacia adelante y seguir estrictamente una EDO hacia atrás. Empíricamente, el muestreador Restart supera a los muestreadores anteriores de EDE y EDO tanto en velocidad como en precisión. Restart no solo supera los mejores resultados anteriores de EDE, sino que también acelera la velocidad de muestreo en 10 veces / 2 veces en CIFAR-10 / ImageNet 64x64. Además, logra una calidad de muestreo significativamente mejor que los muestreadores de EDO dentro de tiempos de muestreo comparables. Más aún, Restart equilibra mejor la alineación texto-imagen/calidad visual versus diversidad que los muestreadores anteriores en el modelo de difusión estable de texto a imagen a gran escala preentrenado en LAION 512x512. El código está disponible en https://github.com/Newbeeer/diffusion_restart_sampling.
Los modelos Transformer han demostrado un gran potencial en visión por computadora, tras su éxito en tareas de lenguaje. Swin Transformer es uno de ellos que supera a las arquitecturas basadas en convoluciones en términos de precisión, al mismo tiempo que mejora la eficiencia en comparación con Vision Transformer (ViT) y sus variantes, que tienen una complejidad cuadrática con respecto al tamaño de la entrada. Swin Transformer utiliza ventanas desplazables que permiten la conexión entre ventanas mientras limitan el cálculo de auto-atención a ventanas locales no superpuestas. Sin embargo, el desplazamiento de ventanas introduce operaciones de copia de memoria, que representan una parte significativa de su tiempo de ejecución. Para mitigar este problema, proponemos Swin-Free, en el que aplicamos ventanas de tamaño variable a lo largo de las etapas, en lugar de ventanas desplazables, para lograr la conexión cruzada entre ventanas locales. Con este simple cambio de diseño, Swin-Free funciona más rápido que Swin Transformer en la inferencia con una mejor precisión. Además, también proponemos algunas variantes de Swin-Free que son más rápidas que sus contrapartes de Swin Transformer.
Para la manipulación de objetos 3D, los métodos que construyen una representación 3D explícita obtienen mejores resultados que aquellos que dependen únicamente de imágenes de cámara. Sin embargo, el uso de representaciones 3D explícitas, como los vóxeles, implica un alto costo computacional, lo que afecta negativamente la escalabilidad. En este trabajo, proponemos RVT, un transformador de múltiples vistas para la manipulación 3D que es tanto escalable como preciso. Algunas características clave de RVT incluyen un mecanismo de atención para agregar información entre vistas y la re-renderización de la entrada de la cámara desde vistas virtuales alrededor del espacio de trabajo del robot. En simulaciones, encontramos que un único modelo RVT funciona bien en 18 tareas de RLBench con 249 variaciones de tareas, logrando un 26% más de éxito relativo que el método actual más avanzado (PerAct). Además, entrena 36 veces más rápido que PerAct para alcanzar el mismo rendimiento y logra una velocidad de inferencia 2.3 veces mayor que PerAct. Además, RVT puede realizar una variedad de tareas de manipulación en el mundo real con solo unas pocas (sim10) demostraciones por tarea. Los resultados visuales, el código y el modelo entrenado se proporcionan en https://robotic-view-transformer.github.io/.
La predicción probabilística es crucial para la toma de decisiones bajo incertidumbre sobre el clima futuro. El enfoque predominante es utilizar un conjunto de pronósticos para representar y cuantificar la incertidumbre en la predicción numérica del tiempo operativa. Sin embargo, generar estos conjuntos es computacionalmente costoso. En este artículo, proponemos generar pronósticos de conjunto a gran escala aprovechando los avances recientes en inteligencia artificial generativa. Nuestro enfoque aprende un modelo probabilístico de difusión basado en datos a partir del conjunto de datos de reanálisis GEFS de 5 miembros. Luego, el modelo puede ser muestreado eficientemente para producir pronósticos meteorológicos realistas, condicionados por unos pocos miembros del sistema operativo de pronóstico GEFS. Los conjuntos generados tienen una habilidad predictiva similar al conjunto completo de 31 miembros de GEFS, evaluado frente al reanálisis ERA5, y emulan bien las estadísticas de los grandes conjuntos basados en física. También aplicamos la misma metodología para desarrollar un modelo de difusión para posprocesamiento generativo: el modelo aprende directamente a corregir los sesgos presentes en el sistema de pronóstico emulado utilizando datos de reanálisis como etiquetas durante el entrenamiento. Los conjuntos generados por este modelo de posprocesamiento muestran mayor confiabilidad y precisión, particularmente en la clasificación de eventos extremos. En general, son más confiables y pronostican la probabilidad de clima extremo con mayor precisión que el conjunto operativo de GEFS. Nuestros modelos logran estos resultados con menos de 1/10 del costo computacional incurrido por el sistema operativo GEFS.