Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos fundacionales, que ahora impulsan la mayoría de las aplicaciones más destacadas en el aprendizaje profundo, se basan casi universalmente en la arquitectura Transformer y su módulo central de atención. Se han desarrollado muchas arquitecturas de tiempo subcuadrático, como la atención lineal, las convoluciones con compuertas, los modelos recurrentes y los modelos de espacio de estados estructurados (SSM, por sus siglas en inglés), para abordar la ineficiencia computacional de los Transformers en secuencias largas. Sin embargo, no han tenido un rendimiento tan bueno como la atención en modalidades importantes como el lenguaje. Identificamos que una debilidad clave de estos modelos es su incapacidad para realizar razonamientos basados en contenido, y proponemos varias mejoras. En primer lugar, simplemente permitir que los parámetros del SSM sean funciones de la entrada aborda su debilidad con modalidades discretas, lo que permite al modelo propagar o descartar información selectivamente a lo largo de la dimensión de longitud de la secuencia según el token actual. En segundo lugar, aunque este cambio impide el uso de convoluciones eficientes, diseñamos un algoritmo paralelo consciente del hardware en modo recurrente. Integramos estos SSM selectivos en una arquitectura de red neuronal simplificada de extremo a extremo, sin atención ni bloques MLP (Mamba). Mamba disfruta de una inferencia rápida (5 veces mayor rendimiento que los Transformers) y una escalabilidad lineal en la longitud de la secuencia, y su rendimiento mejora en datos reales hasta secuencias de millones de elementos. Como columna vertebral general para modelos de secuencias, Mamba logra un rendimiento de vanguardia en varias modalidades, como lenguaje, audio y genómica. En modelado de lenguaje, nuestro modelo Mamba-3B supera a Transformers del mismo tamaño y se iguala a Transformers del doble de su tamaño, tanto en preentrenamiento como en evaluación en tareas posteriores.
Presentamos MoMask, un novedoso marco de modelado enmascarado para la generación de movimiento humano 3D guiado por texto. En MoMask, se emplea un esquema de cuantización jerárquica para representar el movimiento humano como tokens de movimiento multicapa con detalles de alta fidelidad. Comenzando en la capa base, con una secuencia de tokens de movimiento obtenidos mediante cuantización vectorial, se derivan y almacenan los tokens residuales de órdenes crecientes en las capas subsiguientes de la jerarquía. Esto es seguido por dos transformadores bidireccionales distintos. Para los tokens de movimiento de la capa base, se designa un Transformer Enmascarado para predecir tokens de movimiento enmascarados aleatoriamente condicionados por la entrada de texto durante la etapa de entrenamiento. Durante la etapa de generación (es decir, inferencia), comenzando desde una secuencia vacía, nuestro Transformer Enmascarado llena iterativamente los tokens faltantes; posteriormente, un Transformer Residual aprende a predecir progresivamente los tokens de la siguiente capa basándose en los resultados de la capa actual. Experimentos extensivos demuestran que MoMask supera a los métodos más avanzados en la tarea de generación de movimiento a partir de texto, con un FID de 0.045 (frente a, por ejemplo, 0.141 de T2M-GPT) en el conjunto de datos HumanML3D, y 0.228 (frente a 0.514) en KIT-ML, respectivamente. MoMask también puede aplicarse sin problemas en tareas relacionadas sin necesidad de ajuste adicional del modelo, como la restauración temporal guiada por texto.
Presentamos DREAM, un novedoso marco de entrenamiento que representa Modelos de Rectificación de Difusión y Estimación Adaptativa, el cual requiere cambios mínimos en el código (solo tres líneas) y mejora significativamente la alineación entre el entrenamiento y el muestreo en modelos de difusión. DREAM cuenta con dos componentes: la rectificación de difusión, que ajusta el entrenamiento para reflejar el proceso de muestreo, y la adaptación de estimación, que equilibra la percepción frente a la distorsión. Cuando se aplica a la superresolución de imágenes (SR), DREAM navega hábilmente el equilibrio entre minimizar la distorsión y preservar una alta calidad de imagen. Los experimentos demuestran la superioridad de DREAM sobre los métodos estándar de SR basados en difusión, mostrando una convergencia de entrenamiento de 2 a 3 veces más rápida y una reducción de 10 a 20 veces en los pasos de muestreo necesarios para lograr resultados comparables o superiores. Esperamos que DREAM inspire una reconsideración de los paradigmas de entrenamiento en modelos de difusión.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado recientemente capacidades impresionantes en comprensión, razonamiento e interacción multimodal. Sin embargo, los MLLMs existentes padecen predominantemente de serios problemas de alucinación, generando texto que no está fundamentado en las imágenes asociadas. Este problema hace que los MLLMs actuales sean poco confiables y, por lo tanto, poco prácticos en aplicaciones del mundo real (especialmente en situaciones de alto riesgo). Para abordar este desafío, presentamos RLHF-V, que mejora la confiabilidad de los MLLMs mediante la alineación de comportamientos a partir de retroalimentación humana correctiva de gran detalle. Específicamente, RLHF-V recopila preferencias humanas en forma de correcciones a nivel de segmento sobre alucinaciones, y realiza una optimización directa y densa de preferencias sobre la retroalimentación humana. Experimentos exhaustivos en cinco benchmarks, tanto en evaluación automática como humana, muestran que RLHF-V puede permitir comportamientos de MLLMs sustancialmente más confiables con una eficiencia prometedora en datos y cómputo. Notablemente, utilizando 1.4k muestras de datos anotadas, RLHF-V reduce significativamente la tasa de alucinación del MLLM base en un 34.8%, superando al concurrente LLaVA-RLHF entrenado con 10k muestras de datos anotadas. El modelo final logra un rendimiento de vanguardia en confiabilidad entre los MLLMs de código abierto, y muestra una mejor robustez que GPT-4V en la prevención de alucinaciones provocadas por sobre-generalización. Hemos liberado nuestro código, modelo y datos en https://github.com/RLHF-V/RLHF-V.
La síntesis de nuevas vistas a partir de observaciones limitadas sigue siendo una tarea importante y persistente. Sin embargo, la alta eficiencia en la síntesis de vistas con pocas muestras basada en NeRF a menudo se ve comprometida para obtener una representación 3D precisa. Para abordar este desafío, proponemos un marco de síntesis de vistas con pocas muestras basado en 3D Gaussian Splatting que permite la síntesis de vistas en tiempo real y fotorrealista con tan solo tres vistas de entrenamiento. El método propuesto, denominado FSGS, maneja los puntos SfM inicializados extremadamente dispersos con un proceso de Gaussian Unpooling cuidadosamente diseñado. Nuestro método distribuye iterativamente nuevos Gaussianos alrededor de las ubicaciones más representativas, rellenando posteriormente los detalles locales en áreas vacías. También integramos un estimador de profundidad monocular preentrenado a gran escala dentro del proceso de optimización de Gaussianos, aprovechando vistas aumentadas en línea para guiar la optimización geométrica hacia una solución óptima. Partiendo de puntos dispersos observados desde vistas de entrada limitadas, nuestro FSGS puede crecer con precisión en regiones no vistas, cubriendo completamente la escena y mejorando la calidad de renderizado de nuevas vistas. En general, FSGS logra un rendimiento de vanguardia tanto en precisión como en eficiencia de renderizado en diversos conjuntos de datos, incluyendo LLFF, Mip-NeRF360 y Blender. Sitio web del proyecto: https://zehaozhu.github.io/FSGS/.
Los métodos de renderizado neuronal han avanzado significativamente en la representación fotorrealista de escenas 3D en diversas aplicaciones académicas e industriales. El reciente método de *3D Gaussian Splatting* ha logrado un rendimiento de calidad y velocidad de vanguardia, combinando los beneficios de las representaciones basadas en primitivas y las representaciones volumétricas. Sin embargo, a menudo resulta en una gran redundancia de gaussianos que intentan ajustarse a cada vista de entrenamiento, descuidando la geometría subyacente de la escena. Como consecuencia, el modelo resultante se vuelve menos robusto ante cambios significativos de vista, áreas sin textura y efectos de iluminación. Presentamos *Scaffold-GS*, que utiliza puntos de anclaje para distribuir gaussianos 3D locales y predice sus atributos sobre la marcha en función de la dirección de visión y la distancia dentro del *frustum* de vista. Se desarrollan estrategias de crecimiento y poda de anclajes basadas en la importancia de los gaussianos neuronales para mejorar de manera confiable la cobertura de la escena. Demostramos que nuestro método reduce eficazmente los gaussianos redundantes mientras ofrece un renderizado de alta calidad. También mostramos una capacidad mejorada para adaptarse a escenas con distintos niveles de detalle y observaciones dependientes de la vista, sin sacrificar la velocidad de renderizado.
La síntesis de caras 3D guiada por texto ha logrado resultados notables al aprovechar los modelos de difusión de texto a imagen (T2I). Sin embargo, la mayoría de los trabajos existentes se centran únicamente en la generación directa, ignorando la edición, lo que les impide sintetizar caras 3D personalizadas mediante ajustes iterativos. En este artículo, proponemos un marco unificado guiado por texto que abarca desde la generación hasta la edición de caras. En la etapa de generación, proponemos una generación desacoplada de geometría-textura para mitigar la pérdida de detalles geométricos causada por el acoplamiento. Además, el desacoplamiento nos permite utilizar la geometría generada como condición para la generación de texturas, obteniendo resultados altamente alineados entre geometría y textura. También empleamos un modelo de difusión de texturas ajustado para mejorar la calidad de las texturas tanto en el espacio RGB como en el YUV. En la etapa de edición, primero utilizamos un modelo de difusión preentrenado para actualizar la geometría o la textura facial basándonos en los textos. Para habilitar la edición secuencial, introducimos una regularización de preservación de consistencia en el dominio UV, evitando cambios no deseados en atributos faciales irrelevantes. Además, proponemos una estrategia de peso de consistencia autoguiada para mejorar la eficacia de la edición mientras se preserva la consistencia. A través de experimentos exhaustivos, demostramos la superioridad de nuestro método en la síntesis de caras. Página del proyecto: https://faceg2e.github.io/.
Los Campos de Radiancia Neural (NeRFs) pueden acelerarse drásticamente mediante representaciones de mallas espaciales. Sin embargo, estos no razonan explícitamente sobre la escala, lo que introduce artefactos de aliasing al reconstruir escenas capturadas a diferentes distancias de cámara. Mip-NeRF y sus extensiones proponen renderizadores conscientes de la escala que proyectan frustums volumétricos en lugar de muestras puntuales, pero tales enfoques dependen de codificaciones posicionales que no son fácilmente compatibles con métodos basados en mallas. Proponemos una modificación simple a los modelos basados en mallas entrenando cabezas de modelo a diferentes resoluciones de malla espacial. Al renderizar, simplemente usamos mallas más gruesas para renderizar muestras que cubren volúmenes más grandes. Nuestro método puede aplicarse fácilmente a los métodos NeRF acelerados existentes y mejora significativamente la calidad de renderizado (reduciendo las tasas de error entre un 20-90% en escenas sintéticas y del mundo real sin límites) mientras incurre en un sobrecosto de rendimiento mínimo (ya que cada cabeza de modelo es rápida de evaluar). En comparación con Mip-NeRF, reducimos las tasas de error en un 20% mientras entrenamos más de 60 veces más rápido.
En los últimos tiempos, la creación automática de contenido de texto a 3D ha experimentado avances significativos, impulsada por el desarrollo de modelos de difusión 2D preentrenados. Los métodos existentes de texto a 3D suelen optimizar la representación 3D para garantizar que la imagen renderizada se alinee bien con el texto proporcionado, según lo evaluado por el modelo de difusión 2D preentrenado. Sin embargo, existe una brecha sustancial entre las imágenes 2D y los activos 3D, atribuida principalmente a variaciones en los atributos relacionados con la cámara y la presencia exclusiva de objetos en primer plano. En consecuencia, el uso directo de modelos de difusión 2D para optimizar representaciones 3D puede dar lugar a resultados subóptimos. Para abordar este problema, presentamos X-Dreamer, un enfoque novedoso para la creación de contenido de texto a 3D de alta calidad que efectivamente cierra la brecha entre la síntesis de texto a 2D y texto a 3D. Los componentes clave de X-Dreamer son dos diseños innovadores: la Adaptación de Bajo Rango Guiada por Cámara (CG-LoRA) y la Pérdida de Alineación de Máscara de Atención (AMA). CG-LoRA incorpora dinámicamente información de la cámara en los modelos de difusión preentrenados mediante la generación dependiente de la cámara para parámetros entrenables. Esta integración mejora la alineación entre los activos 3D generados y la perspectiva de la cámara. La pérdida AMA guía el mapa de atención del modelo de difusión preentrenado utilizando la máscara binaria del objeto 3D, priorizando la creación del objeto en primer plano. Este módulo asegura que el modelo se enfoque en generar objetos en primer plano precisos y detallados. Evaluaciones exhaustivas demuestran la efectividad de nuestro método propuesto en comparación con los enfoques existentes de texto a 3D. Nuestra página del proyecto: https://xmuxiaoma666.github.io/Projects/X-Dreamer.