Artículos de investigación en IA seleccionados diariamente con traducciones
Se han logrado avances significativos utilizando modelos grandes de visión y lenguaje, como Stable Diffusion (SD), para una variedad de tareas posteriores, incluyendo la edición de imágenes, la correspondencia de imágenes y la generación de formas 3D. Inspirados por estos avances, exploramos el aprovechamiento de estos extensos modelos de visión y lenguaje para segmentar imágenes con cualquier nivel de granularidad deseado utilizando tan solo una muestra anotada, proponiendo SLiMe. SLiMe enmarca este problema como una tarea de optimización. Específicamente, dada una única imagen de entrenamiento y su máscara de segmentación, primero extraemos mapas de atención, incluyendo nuestro novedoso "mapa de autoatención acumulada ponderada" a partir del conocimiento previo de SD. Luego, utilizando los mapas de atención extraídos, se optimizan los embeddings de texto de Stable Diffusion de manera que cada uno de ellos aprenda sobre una única región segmentada de la imagen de entrenamiento. Estos embeddings aprendidos resaltan la región segmentada en los mapas de atención, lo que a su vez puede utilizarse para derivar el mapa de segmentación. Esto permite que SLiMe segmenté cualquier imagen del mundo real durante la inferencia con la granularidad de la región segmentada en la imagen de entrenamiento, utilizando solo un ejemplo. Además, aprovechar datos de entrenamiento adicionales cuando están disponibles, es decir, en un enfoque de pocos ejemplos, mejora el rendimiento de SLiMe. Realizamos un conjunto de experimentos ricos en conocimiento que examinaron varios factores de diseño y demostramos que SLiMe supera a otros métodos existentes de segmentación con un solo ejemplo y pocos ejemplos.
Estudios previos generalmente han asumido que los modelos de lenguaje de gran escala no pueden realizar operaciones aritméticas con precisión, particularmente multiplicaciones de más de 8 dígitos y operaciones que involucran decimales y fracciones, sin el uso de herramientas de calculadora. Este artículo busca desafiar esta concepción errónea. Con datos de entrenamiento suficientes, un modelo de lenguaje de 2 mil millones de parámetros puede realizar operaciones aritméticas de múltiples dígitos con casi un 100% de precisión sin fugas de datos, superando significativamente a GPT-4 (cuya precisión en multiplicaciones de múltiples dígitos es solo del 4,3%). También demostramos que nuestro MathGLM, ajustado a partir de GLM-10B en un conjunto de datos con operaciones aritméticas de múltiples pasos adicionales y problemas matemáticos descritos en texto, logra un rendimiento similar al de GPT-4 en un conjunto de pruebas de 5,000 muestras de problemas matemáticos en chino.
Presentamos CM3Leon (pronunciado "Camaleón"), un modelo de lenguaje multimodal basado en tokens, solo de decodificación y aumentado con recuperación, capaz de generar y rellenar tanto texto como imágenes. CM3Leon utiliza la arquitectura multimodal CM3, pero además demuestra los beneficios extremos de escalar y ajustar con datos más diversos de estilo instruccional. Es el primer modelo multimodal entrenado con una receta adaptada de modelos de lenguaje exclusivamente de texto, que incluye una etapa de preentrenamiento a gran escala aumentada con recuperación y una segunda etapa de ajuste fino supervisado (SFT) multitarea. También es un modelo de propósito general que puede realizar tanto generación de texto a imagen como de imagen a texto, lo que nos permite introducir métodos de decodificación contrastiva autocontenidos que producen resultados de alta calidad. Experimentos extensivos demuestran que esta receta es altamente efectiva para modelos multimodales. CM3Leon alcanza un rendimiento de vanguardia en generación de texto a imagen con 5 veces menos cómputo de entrenamiento que métodos comparables (FID cero-shot en MS-COCO de 4.88). Después del SFT, CM3Leon también puede demostrar niveles sin precedentes de controlabilidad en tareas que van desde la edición de imágenes guiada por lenguaje hasta la generación y segmentación controlada por imágenes.
Presentamos Matcha-TTS, una nueva arquitectura codificador-decodificador para el modelado acústico rápido de TTS, entrenada utilizando emparejamiento de flujo condicional con transporte óptimo (OT-CFM). Esto resulta en un decodificador basado en EDO capaz de generar una salida de alta calidad en menos pasos de síntesis que los modelos entrenados con emparejamiento de puntuación. Decisiones de diseño cuidadosas aseguran además que cada paso de síntesis sea rápido de ejecutar. El método es probabilístico, no autoregresivo y aprende a hablar desde cero sin alineaciones externas. En comparación con modelos de referencia preentrenados sólidos, el sistema Matcha-TTS tiene la huella de memoria más pequeña, rivaliza con la velocidad de los modelos más rápidos en enunciados largos y alcanza el puntaje de opinión media más alto en una prueba de escucha. Por favor, visite https://shivammehta25.github.io/Matcha-TTS/ para ejemplos de audio, código y modelos preentrenados.
Los recientes avances en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han llevado a mejoras en el rendimiento de tareas como la respuesta a preguntas visuales y la generación de descripciones de imágenes. Como resultado, estos modelos están ahora bien posicionados para razonar sobre el mundo físico, particularmente en dominios como la manipulación robótica. Sin embargo, los VLMs actuales tienen limitaciones en su comprensión de conceptos físicos (por ejemplo, material, fragilidad) de objetos comunes, lo que restringe su utilidad para tareas de manipulación robótica que implican interacción y razonamiento físico sobre dichos objetos. Para abordar esta limitación, proponemos PhysObjects, un conjunto de datos centrado en objetos que incluye 36.9K anotaciones de conceptos físicos obtenidas mediante crowdsourcing y 417K anotaciones automatizadas de objetos domésticos comunes. Demostramos que el ajuste fino de un VLM en PhysObjects mejora su comprensión de los conceptos físicos de los objetos, capturando los conocimientos previos humanos sobre estos conceptos a partir de la apariencia visual. Incorporamos este VLM fundamentado físicamente en un marco interactivo con un planificador robótico basado en un modelo de lenguaje grande, y mostramos un mejor rendimiento en la planificación de tareas que requieren razonamiento sobre conceptos físicos de objetos, en comparación con líneas base que no utilizan VLMs fundamentados físicamente. Además, ilustramos los beneficios de nuestro VLM fundamentado físicamente en un robot real, donde mejora las tasas de éxito en las tareas. Publicamos nuestro conjunto de datos y proporcionamos más detalles y visualizaciones de nuestros resultados en https://iliad.stanford.edu/pg-vlm/.
Los campos neuronales, una categoría de redes neuronales entrenadas para representar señales de alta frecuencia, han ganado una atención significativa en los últimos años debido a su impresionante rendimiento en el modelado de datos 3D complejos, especialmente grandes campos de distancia con signo neuronal (SDFs) o campos de radiancia (NeRFs) mediante un perceptrón multicapa (MLP) único. Sin embargo, a pesar de la potencia y simplicidad de representar señales con un MLP, estos métodos aún enfrentan desafíos al modelar señales temporales grandes y complejas debido a la capacidad limitada de los MLPs. En este artículo, proponemos un enfoque efectivo para abordar esta limitación mediante la incorporación de capas residuales temporales en los campos neuronales, denominadas ResFields, una nueva clase de redes diseñadas específicamente para representar eficazmente señales temporales complejas. Realizamos un análisis exhaustivo de las propiedades de los ResFields y proponemos una técnica de factorización de matrices para reducir el número de parámetros entrenables y mejorar las capacidades de generalización. Es importante destacar que nuestra formulación se integra perfectamente con técnicas existentes y mejora consistentemente los resultados en diversas tareas desafiantes: aproximación de video 2D, modelado de formas dinámicas mediante SDFs temporales y reconstrucción dinámica de NeRFs. Por último, demostramos la utilidad práctica de los ResFields al mostrar su eficacia en la captura de escenas 3D dinámicas a partir de entradas sensoriales escasas de un sistema de captura ligero.
Los Campos de Radiancia Neural (NeRFs, por sus siglas en inglés) han demostrado potencial en aplicaciones como la síntesis de vistas y la estimación de profundidad, pero el aprendizaje a partir de imágenes multivista enfrenta incertidumbres inherentes. Los métodos actuales para cuantificarlas son heurísticos o computacionalmente costosos. Presentamos BayesRays, un marco post-hoc para evaluar la incertidumbre en cualquier NeRF preentrenado sin modificar el proceso de entrenamiento. Nuestro método establece un campo volumétrico de incertidumbre utilizando perturbaciones espaciales y una aproximación bayesiana de Laplace. Derivamos nuestro algoritmo estadísticamente y demostramos su rendimiento superior en métricas clave y aplicaciones. Resultados adicionales disponibles en: https://bayesrays.github.io.
La destreza humana es un sello distintivo del control motor. Nuestras manos pueden sintetizar rápidamente nuevos comportamientos a pesar de la complejidad (multiarticular y con múltiples articulaciones, con 23 articulaciones controladas por más de 40 músculos) de los circuitos sensoriomotores musculoesqueléticos. En este trabajo, nos inspiramos en cómo la destreza humana se basa en una diversidad de experiencias previas, en lugar de adquirirse a través de una única tarea. Motivados por esta observación, nos propusimos desarrollar agentes que puedan aprovechar su experiencia previa para adquirir rápidamente nuevos comportamientos (anteriormente inalcanzables). Específicamente, nuestro enfoque aprovecha el aprendizaje multitarea para capturar implícitamente priors comportamentales independientes de la tarea (MyoDex) para una destreza similar a la humana, utilizando un modelo de mano humana fisiológicamente realista: MyoHand. Demostramos la efectividad de MyoDex en la generalización con pocos ejemplos, así como en la transferencia positiva a un amplio repertorio de tareas de manipulación diestra no vistas. Los agentes que aprovechan MyoDex pueden resolver aproximadamente 3 veces más tareas y 4 veces más rápido en comparación con una línea base de destilación. Si bien trabajos previos han sintetizado comportamientos individuales de control musculoesquelético, MyoDex es el primer prior de manipulación generalizable que cataliza el aprendizaje del control fisiológico diestro en una gran variedad de comportamientos ricos en contacto. También demostramos la efectividad de nuestros paradigmas más allá del control musculoesquelético hacia la adquisición de destreza en la mano Adroit de 24 grados de libertad. Sitio web: https://sites.google.com/view/myodex