Artículos de investigación en IA seleccionados diariamente con traducciones
Proponemos MVDream, un modelo de difusión multi-vista capaz de generar imágenes multi-vista geométricamente consistentes a partir de un texto de entrada. Al aprovechar modelos de difusión de imágenes preentrenados en grandes conjuntos de datos web y un conjunto de datos multi-vista renderizado a partir de activos 3D, el modelo de difusión multi-vista resultante puede lograr tanto la generalización de la difusión 2D como la consistencia de los datos 3D. Dicho modelo puede aplicarse como un prior multi-vista para la generación 3D mediante Score Distillation Sampling, donde mejora significativamente la estabilidad de los métodos existentes de elevación 2D al resolver el problema de consistencia 3D. Finalmente, demostramos que el modelo de difusión multi-vista también puede ajustarse en un entorno de pocas muestras para la generación 3D personalizada, es decir, en la aplicación DreamBooth3D, donde la consistencia se mantiene después de aprender la identidad del sujeto.
Los modelos tipo Transformer para tareas de visión han demostrado recientemente ser efectivos en una amplia gama de aplicaciones posteriores, como segmentación y detección. Trabajos previos han mostrado que las propiedades de segmentación emergen en transformadores de visión (ViTs) entrenados utilizando métodos auto-supervisados como DINO, pero no en aquellos entrenados en tareas de clasificación supervisada. En este estudio, investigamos si la segmentación emerge en modelos basados en transformadores únicamente como resultado de mecanismos intrincados de aprendizaje auto-supervisado, o si la misma emergencia puede lograrse bajo condiciones mucho más amplias mediante un diseño adecuado de la arquitectura del modelo. A través de extensos resultados experimentales, demostramos que al emplear una arquitectura tipo Transformer de caja blanca conocida como CRATE, cuyo diseño modela y persigue explícitamente estructuras de baja dimensión en la distribución de datos, las propiedades de segmentación, tanto a nivel global como de partes, ya emergen con una receta de entrenamiento supervisado minimalista. Un análisis más detallado capa por capa revela que las propiedades emergentes corroboran fuertemente las funciones matemáticas diseñadas de la red de caja blanca. Nuestros resultados sugieren un camino para diseñar modelos fundamentales de caja blanca que sean simultáneamente altamente eficientes y matemáticamente completamente interpretables. El código está disponible en https://github.com/Ma-Lab-Berkeley/CRATE.
Stable Diffusion, un modelo generativo utilizado en la síntesis de texto a imagen, frecuentemente enfrenta problemas de composición inducidos por la resolución al generar imágenes de diversos tamaños. Este problema surge principalmente porque el modelo fue entrenado con pares de imágenes de una sola escala y sus correspondientes descripciones de texto. Además, el entrenamiento directo con imágenes de tamaños ilimitados no es viable, ya que requeriría un número inmenso de pares texto-imagen y conllevaría gastos computacionales sustanciales. Para superar estos desafíos, proponemos un pipeline de dos etapas llamado Any-Size-Diffusion (ASD), diseñado para generar eficientemente imágenes bien compuestas de cualquier tamaño, minimizando la necesidad de recursos de GPU de alta memoria. Específicamente, la etapa inicial, denominada Any Ratio Adaptability Diffusion (ARAD), aprovecha un conjunto seleccionado de imágenes con un rango restringido de proporciones para optimizar el modelo de difusión condicionado por texto, mejorando así su capacidad para ajustar la composición y adaptarse a diversos tamaños de imagen. Para respaldar la creación de imágenes en cualquier tamaño deseado, introducimos además una técnica llamada Fast Seamless Tiled Diffusion (FSTD) en la etapa subsiguiente. Este método permite la ampliación rápida de la salida de ASD a cualquier tamaño de alta resolución, evitando artefactos de unión o sobrecargas de memoria. Los resultados experimentales en los benchmarks LAION-COCO y MM-CelebA-HQ demuestran que ASD puede producir imágenes bien estructuradas de tamaños arbitrarios, reduciendo el tiempo de inferencia en 2x en comparación con el algoritmo tradicional de mosaicos.
Los modelos de lenguaje preentrenados como ChatGPT han mejorado significativamente la generación de código. A medida que estos modelos escalan, existe una creciente necesidad de que las salidas manejen tareas más complejas. Además, en bioinformática, la generación de programas funcionales presenta desafíos adicionales notables debido a la cantidad de conocimiento del dominio, la necesidad de operaciones de datos complicadas y las intrincadas dependencias funcionales entre las operaciones. Aquí presentamos BioCoder, un punto de referencia desarrollado para evaluar los modelos preentrenados existentes en la generación de código bioinformático. En relación con la generación de código-función, BioCoder cubre dependencias potenciales de paquetes, declaraciones de clases y variables globales. Incorpora 1026 funciones y 1243 métodos en Python y Java de GitHub y 253 ejemplos del Proyecto Rosalind. BioCoder incorpora un marco de pruebas de fuzzing para la evaluación, y lo hemos aplicado para evaluar muchos modelos, incluyendo InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ y ChatGPT. Nuestro análisis detallado de estos modelos enfatiza la importancia del conocimiento del dominio, la generación de código pragmático y la comprensión contextual. Nuestro conjunto de datos, punto de referencia, imágenes de Docker y scripts necesarios para las pruebas están disponibles en https://github.com/gersteinlab/biocoder.
Cuando los programadores humanos dominan un lenguaje de programación, les resulta más fácil aprender un nuevo lenguaje de programación. En este informe, nos centramos en explorar si los lenguajes de programación pueden potenciarse mutuamente durante la fase de ajuste fino por instrucción de los modelos de lenguaje de gran escala para código. Realizamos experimentos exhaustivos con 8 lenguajes de programación populares (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) en StarCoder. Los resultados demuestran que los lenguajes de programación pueden mejorarse significativamente entre sí. Por ejemplo, CodeM-Python 15B, entrenado en Python, es capaz de aumentar el rendimiento de Java en un 17.95% absoluto en pass@1 en HumanEval-X. Más sorprendentemente, descubrimos que CodeM-HTML 7B, entrenado en el corpus de HTML, puede mejorar Java en un 15.24% absoluto en pass@1. Nuestros datos de entrenamiento están disponibles en https://github.com/NL2Code/CodeM.
Abordamos el problema de mapeo activo con una representación neural de escena aprendida continuamente, denominada Mapeo Neural Activo. La clave radica en encontrar activamente el espacio objetivo que debe explorarse con movimientos eficientes del agente, minimizando así la incertidumbre del mapa sobre la marcha dentro de un entorno previamente desconocido. En este artículo, examinamos el espacio de pesos del campo neural aprendido continuamente y demostramos empíricamente que la variabilidad neural, es decir, la robustez de la predicción frente a perturbaciones aleatorias de los pesos, puede utilizarse directamente para medir la incertidumbre instantánea del mapa neural. Junto con la información geométrica continua heredada en el mapa neural, el agente puede ser guiado para encontrar una ruta transitable y adquirir gradualmente conocimiento del entorno. Presentamos por primera vez un sistema de mapeo activo con una representación neural implícita basada en coordenadas para la reconstrucción de escenas en línea. Los experimentos en los entornos visualmente realistas de Gibson y Matterport3D demuestran la eficacia del método propuesto.
Es un problema de larga data en robótica desarrollar agentes capaces de ejecutar diversas tareas de manipulación a partir de observaciones visuales en entornos reales no estructurados. Para lograr este objetivo, el robot necesita tener una comprensión integral de la estructura 3D y la semántica de la escena. En este trabajo, presentamos GNFactor, un agente de clonación de comportamiento visual para la manipulación robótica multitarea con Campos de Características Neuronales Generalizables (GNF). GNFactor optimiza conjuntamente un campo neuronal generalizable (GNF) como módulo de reconstrucción y un Transformer Perceiver como módulo de toma de decisiones, aprovechando una representación profunda de vóxeles 3D compartida. Para incorporar semántica en 3D, el módulo de reconstrucción utiliza un modelo fundacional de visión y lenguaje (por ejemplo, Stable Diffusion) para destilar información semántica rica en el vóxel 3D profundo. Evaluamos GNFactor en 3 tareas de robot real y realizamos ablaciones detalladas en 10 tareas de RLBench con un número limitado de demostraciones. Observamos una mejora sustancial de GNFactor sobre los métodos actuales más avanzados en tareas vistas y no vistas, demostrando la fuerte capacidad de generalización de GNFactor. Nuestro sitio web del proyecto es https://yanjieze.com/GNFactor/.
Presentamos Belebele, un conjunto de datos de comprensión lectora automatizada (MRC, por sus siglas en inglés) de opción múltiple que abarca 122 variantes lingüísticas. Al expandir significativamente la cobertura lingüística de los puntos de referencia para la comprensión del lenguaje natural (NLU, por sus siglas en inglés), este conjunto de datos permite evaluar modelos de texto en idiomas de recursos altos, medios y bajos. Cada pregunta se basa en un pasaje corto del conjunto de datos Flores-200 y cuenta con cuatro opciones de respuesta. Las preguntas fueron cuidadosamente seleccionadas para discriminar entre modelos con diferentes niveles de comprensión general del lenguaje. El conjunto de datos en inglés por sí solo resulta lo suficientemente desafiante para poner a prueba los modelos de lenguaje más avanzados. Al ser completamente paralelo, este conjunto de datos permite la comparación directa del rendimiento de los modelos en todos los idiomas. Utilizamos este conjunto de datos para evaluar las capacidades de los modelos de lenguaje enmascarados multilingües (MLMs, por sus siglas en inglés) y los modelos de lenguaje grandes (LLMs, por sus siglas en inglés). Presentamos resultados extensos y encontramos que, a pesar de la transferencia lingüística cruzada significativa en los LLMs centrados en inglés, los MLMs mucho más pequeños preentrenados con datos multilingües equilibrados aún comprenden muchos más idiomas. También observamos que un tamaño de vocabulario más grande y una construcción consciente del vocabulario se correlacionan con un mejor rendimiento en idiomas de bajos recursos. En general, Belebele abre nuevas vías para evaluar y analizar las capacidades multilingües de los sistemas de procesamiento del lenguaje natural (NLP, por sus siglas en inglés).
La interpolación de fotogramas de video centrada en el ser humano tiene un gran potencial para mejorar las experiencias de entretenimiento de las personas y encontrar aplicaciones comerciales en la industria de análisis deportivo, por ejemplo, en la síntesis de videos en cámara lenta. Aunque existen múltiples conjuntos de datos de referencia disponibles en la comunidad, ninguno está dedicado específicamente a escenarios centrados en humanos. Para cerrar esta brecha, presentamos SportsSloMo, un conjunto de referencia que consta de más de 130K clips de video y 1M fotogramas de videos deportivos en cámara lenta de alta resolución (≥720p) extraídos de YouTube. Reentrenamos varios métodos de última generación en nuestro conjunto de datos, y los resultados muestran una disminución en su precisión en comparación con otros conjuntos de datos. Esto resalta la dificultad de nuestro conjunto de datos y sugiere que plantea desafíos significativos incluso para los métodos de mejor rendimiento, ya que los cuerpos humanos son altamente deformables y las oclusiones son frecuentes en los videos deportivos. Para mejorar la precisión, introducimos dos términos de pérdida que consideran conocimientos previos centrados en humanos, donde agregamos supervisión auxiliar a la segmentación panóptica y la detección de puntos clave humanos, respectivamente. Los términos de pérdida son independientes del modelo y pueden integrarse fácilmente en cualquier enfoque de interpolación de fotogramas de video. Los resultados experimentales validan la efectividad de nuestros términos de pérdida propuestos, lo que conduce a una mejora consistente en el rendimiento en más de 5 modelos existentes, estableciendo así modelos de referencia sólidos en nuestro conjunto de datos. El conjunto de datos y el código se pueden encontrar en: https://neu-vi.github.io/SportsSlomo/.