Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión son el principal motor de progreso en la síntesis de imágenes y videos, pero sufren de una velocidad de inferencia lenta. Los métodos de destilación, como el recientemente introducido Adversarial Diffusion Distillation (ADD), buscan transformar el modelo de una inferencia de múltiples pasos a un solo paso, aunque a costa de una optimización costosa y difícil debido a su dependencia de un discriminador DINOv2 preentrenado y fijo. Introducimos Latent Adversarial Diffusion Distillation (LADD), un enfoque novedoso de destilación que supera las limitaciones de ADD. A diferencia de ADD basado en píxeles, LADD utiliza características generativas de modelos de difusión latente preentrenados. Este enfoque simplifica el entrenamiento y mejora el rendimiento, permitiendo la síntesis de imágenes de alta resolución con múltiples relaciones de aspecto. Aplicamos LADD a Stable Diffusion 3 (8B) para obtener SD3-Turbo, un modelo rápido que iguala el rendimiento de los generadores de texto a imagen más avanzados utilizando solo cuatro pasos de muestreo no guiados. Además, investigamos sistemáticamente su comportamiento de escalado y demostramos la efectividad de LADD en diversas aplicaciones, como la edición de imágenes y la restauración.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) ha demostrado ser un método eficaz para alinear Modelos de Lenguaje Preentrenados de Gran Escala (LLMs) con las preferencias humanas. Sin embargo, entrenar modelos con RLHF es computacionalmente costoso y un proceso complejo en general. En este trabajo, estudiamos RLHF donde los modelos subyacentes se entrenan utilizando el método eficiente en parámetros de Adaptación de Bajo Rango (LoRA), introducido por Hu et al. [2021]. Investigamos la configuración de "Aprendizaje por Refuerzo Eficiente en Parámetros" (PERL), en el cual realizamos el entrenamiento del modelo de recompensa y el aprendizaje por refuerzo utilizando LoRA. Comparamos PERL con el ajuste fino convencional (ajuste completo) en varias configuraciones para 7 puntos de referencia, incluyendo 2 nuevos conjuntos de datos, de modelado de recompensas y aprendizaje por refuerzo. Encontramos que PERL tiene un rendimiento comparable al ajuste convencional de RLHF, mientras que entrena más rápido y con menos memoria. Esto permite el alto rendimiento de RLHF, al mismo tiempo que reduce la carga computacional que limita su adopción como técnica de alineación para Modelos de Lenguaje de Gran Escala. También publicamos 2 nuevos conjuntos de datos de preferencias de pulgar arriba/abajo: "Taskmaster Coffee" y "Taskmaster Ticketing" para fomentar la investigación en torno a RLHF.
La actualización eficiente y precisa del conocimiento almacenado en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es uno de los desafíos de investigación más urgentes en la actualidad. Este artículo presenta Larimar, una arquitectura novedosa inspirada en el cerebro humano para mejorar los LLMs con una memoria episódica distribuida. La memoria de Larimar permite actualizaciones dinámicas y de un solo paso del conocimiento sin necesidad de un costoso reentrenamiento o ajuste fino computacionalmente. Los resultados experimentales en múltiples benchmarks de edición de hechos demuestran que Larimar alcanza una precisión comparable a las líneas base más competitivas, incluso en el escenario desafiante de edición secuencial, pero también destaca en velocidad, logrando aceleraciones de 4 a 10 veces dependiendo del LLM base, así como en flexibilidad debido a que la arquitectura propuesta es simple, independiente del LLM y, por lo tanto, general. Además, proporcionamos mecanismos para el olvido selectivo de hechos y la generalización de la longitud del contexto de entrada con Larimar, y demostramos su efectividad.
Presentamos Stable Video 3D (SV3D), un modelo de difusión de video latente para la generación de alta resolución de imágenes a múltiples vistas de videos orbitales alrededor de un objeto 3D. Trabajos recientes en generación 3D proponen técnicas para adaptar modelos generativos 2D para la síntesis de vistas novedosas (NVS) y la optimización 3D. Sin embargo, estos métodos presentan varias desventajas debido a vistas limitadas o inconsistencias en la NVS, lo que afecta el rendimiento de la generación de objetos 3D. En este trabajo, proponemos SV3D, que adapta un modelo de difusión de imagen a video para la síntesis de múltiples vistas novedosas y la generación 3D, aprovechando así la generalización y la consistencia de múltiples vistas de los modelos de video, mientras se añade un control explícito de la cámara para la NVS. También proponemos técnicas mejoradas de optimización 3D para utilizar SV3D y sus salidas de NVS en la generación de imagen a 3D. Resultados experimentales extensivos en múltiples conjuntos de datos con métricas 2D y 3D, así como un estudio de usuario, demuestran que SV3D alcanza un rendimiento de vanguardia en NVS y reconstrucción 3D en comparación con trabajos anteriores.
Basándose en los recientes avances en modelos de difusión para la generación de imágenes a partir de texto, la personalización con preservación de identidad ha logrado un progreso significativo al capturar con precisión identidades específicas utilizando solo una imagen de referencia. Sin embargo, los métodos existentes integran principalmente las imágenes de referencia dentro del espacio de incrustación de texto, lo que genera un entrelazamiento complejo entre la información de imagen y texto, lo que plantea desafíos para preservar tanto la fidelidad de la identidad como la consistencia semántica. Para abordar este desafío, proponemos Infinite-ID, un paradigma de desacoplamiento ID-semántica para la personalización con preservación de identidad. Específicamente, introducimos un entrenamiento mejorado de identidad, incorporando un módulo adicional de atención cruzada de imágenes para capturar suficiente información de ID mientras desactivamos el módulo original de atención cruzada de texto del modelo de difusión. Esto asegura que el flujo de imágenes represente fielmente la identidad proporcionada por la imagen de referencia, mitigando la interferencia de la entrada textual. Además, introducimos un mecanismo de interacción de características que combina un módulo de atención mixta con una operación AdaIN-mean para fusionar de manera fluida los dos flujos. Este mecanismo no solo mejora la fidelidad de la identidad y la consistencia semántica, sino que también permite un control conveniente sobre los estilos de las imágenes generadas. Los resultados experimentales extensivos en la generación de fotos crudas y la generación de imágenes con estilo demuestran el rendimiento superior de nuestro método propuesto.
La codificación visual constituye la base de los modelos multimodales grandes (LMMs) para comprender el mundo visual. Los LMMs convencionales procesan imágenes en tamaños fijos y resoluciones limitadas, mientras que las exploraciones recientes en esta dirección presentan limitaciones en adaptabilidad, eficiencia e incluso corrección. En este trabajo, primero tomamos GPT-4V y LLaVA-1.5 como ejemplos representativos y exponemos fallos sistemáticos arraigados en su estrategia de codificación visual. Para abordar estos desafíos, presentamos LLaVA-UHD, un modelo multimodal grande que puede percibir eficientemente imágenes en cualquier relación de aspecto y alta resolución. LLaVA-UHD incluye tres componentes clave: (1) Una estrategia de modularización de imágenes que divide las imágenes en resolución nativa en segmentos más pequeños de tamaño variable para una codificación eficiente y extensible, (2) un módulo de compresión que condensa aún más los tokens de imagen de los codificadores visuales, y (3) un esquema espacial para organizar los tokens de segmentos para los LLMs. Experimentos exhaustivos muestran que LLaVA-UHD supera a los LMMs establecidos entrenados con 2-3 órdenes de magnitud más de datos en 9 benchmarks. Notablemente, nuestro modelo basado en LLaVA-1.5 336x336 soporta imágenes con una resolución 6 veces mayor (es decir, 672x1088) utilizando solo el 94% del cómputo de inferencia, y logra una mejora de 6.4 puntos en precisión en TextVQA. Además, el modelo puede ser entrenado eficientemente en entornos académicos, en menos de 23 horas con 8 GPUs A100 (frente a las 26 horas de LLaVA-1.5). Hacemos los datos y el código disponibles públicamente en https://github.com/thunlp/LLaVA-UHD.
Presentamos LightIt, un método para el control explícito de la iluminación en la generación de imágenes. Los métodos generativos recientes carecen de control sobre la iluminación, un aspecto crucial para numerosos elementos artísticos en la generación de imágenes, como establecer el ambiente general o la apariencia cinematográfica. Para superar estas limitaciones, proponemos condicionar la generación mediante mapas de sombreado y normales. Modelamos la iluminación con sombreado de un solo rebote, que incluye sombras proyectadas. Primero entrenamos un módulo de estimación de sombreado para generar un conjunto de datos de pares de imágenes del mundo real y sus sombreados correspondientes. Luego, entrenamos una red de control utilizando el sombreado y las normales estimadas como entrada. Nuestro método demuestra una generación de imágenes de alta calidad y un control preciso de la iluminación en numerosas escenas. Además, utilizamos nuestro conjunto de datos generado para entrenar un modelo de reiluminación que preserva la identidad, condicionado por una imagen y un sombreado objetivo. Nuestro método es el primero que permite la generación de imágenes con iluminación controlable y consistente, y su rendimiento es comparable con los métodos más avanzados especializados en reiluminación.
La síntesis de objetos 3D de dominio abierto ha estado rezagada en comparación con la síntesis de imágenes debido a la limitación de datos y a una mayor complejidad computacional. Para cerrar esta brecha, trabajos recientes han investigado la difusión multi-vista, pero a menudo presentan deficiencias en la consistencia 3D, la calidad visual o la eficiencia. Este artículo propone MVEdit, que funciona como una contraparte 3D de SDEdit, empleando muestreo ancestral para desruir conjuntamente imágenes multi-vista y generar mallas texturizadas de alta calidad. Basado en modelos de difusión 2D preexistentes, MVEdit logra consistencia 3D mediante un Adaptador 3D que no requiere entrenamiento, el cual eleva las vistas 2D del último paso temporal a una representación 3D coherente, y luego condiciona las vistas 2D del siguiente paso temporal utilizando vistas renderizadas, sin comprometer la calidad visual. Con un tiempo de inferencia de solo 2-5 minutos, este marco logra un mejor equilibrio entre calidad y velocidad que la destilación de puntuaciones. MVEdit es altamente versátil y extensible, con una amplia gama de aplicaciones que incluyen la generación de texto/imagen-a-3D, edición 3D-a-3D y síntesis de texturas de alta calidad. En particular, las evaluaciones demuestran un rendimiento de vanguardia tanto en tareas de imagen-a-3D como en la generación de texturas guiada por texto. Además, introducimos un método para ajustar modelos de difusión latente 2D en pequeños conjuntos de datos 3D con recursos limitados, permitiendo una inicialización rápida de texto-a-3D en baja resolución.
Las reconstrucciones de la percepción visual a partir de la actividad cerebral han mejorado enormemente, pero la utilidad práctica de estos métodos ha sido limitada. Esto se debe a que tales modelos se entrenan de forma independiente por sujeto, donde cada sujeto requiere docenas de horas de datos costosos de resonancia magnética funcional (fMRI) para alcanzar resultados de alta calidad. El presente trabajo muestra reconstrucciones de alta calidad utilizando solo 1 hora de datos de entrenamiento de fMRI. Preentrenamos nuestro modelo en 7 sujetos y luego ajustamos con datos mínimos de un nuevo sujeto. Nuestro novedoso procedimiento de alineación funcional mapea linealmente todos los datos cerebrales a un espacio latente compartido entre sujetos, seguido de un mapeo no lineal compartido al espacio de imágenes CLIP. Luego, mapeamos desde el espacio CLIP al espacio de píxeles ajustando Stable Diffusion XL para que acepte latentes CLIP como entradas en lugar de texto. Este enfoque mejora la generalización fuera del sujeto con datos de entrenamiento limitados y también alcanza métricas de recuperación y reconstrucción de imágenes de vanguardia en comparación con enfoques de un solo sujeto. MindEye2 demuestra que es posible obtener reconstrucciones precisas de la percepción con una sola visita a la instalación de resonancia magnética. Todo el código está disponible en GitHub.
Exploramos cómo la reconciliación de varios modelos fundamentales (modelos de lenguaje extenso y modelos de visión-lenguaje) con un novedoso mecanismo de memoria unificada podría abordar el desafiante problema de comprensión de videos, especialmente capturando las relaciones temporales a largo plazo en videos extensos. En particular, el agente multimodal propuesto, VideoAgent: 1) construye una memoria estructurada para almacenar tanto las descripciones genéricas de eventos temporales como los estados de seguimiento centrados en objetos del video; 2) dada una consulta de tarea de entrada, emplea herramientas que incluyen la localización de segmentos de video y la consulta de memoria de objetos junto con otros modelos fundamentales visuales para resolver la tarea de manera interactiva, utilizando la capacidad de uso de herramientas en modo zero-shot de los LLMs. VideoAgent demuestra un rendimiento impresionante en varios puntos de referencia de comprensión de videos a largo plazo, con un aumento promedio del 6.6% en NExT-QA y del 26.0% en EgoSchema sobre las líneas base, cerrando la brecha entre los modelos de código abierto y sus contrapartes privadas, incluyendo Gemini 1.5 Pro.
Los avances en el aprendizaje automático (ML) han sido impulsados por el escalamiento de modelos de redes neuronales. Este escalamiento ha sido posible gracias a hazañas de ingeniería cada vez más ambiciosas, necesarias para acomodar enfoques de ML que requieren una comunicación de alto ancho de banda entre dispositivos que trabajan en paralelo. En este trabajo, proponemos una arquitectura modular y un enfoque de entrenamiento co-diseñados para modelos de ML, denominados Composición de Rutas Distribuidas (DiPaCo). Durante el entrenamiento, DiPaCo distribuye el cálculo mediante rutas a través de un conjunto de módulos compartidos. Junto con una optimización inspirada en SGD Local (DiLoCo) que mantiene los módulos sincronizados con una comunicación drásticamente reducida, nuestro enfoque facilita el entrenamiento en trabajadores heterogéneos y con conexiones deficientes, con un diseño que garantiza robustez frente a fallos e interrupciones de los trabajadores. En el momento de la inferencia, solo es necesario ejecutar una única ruta para cada entrada, sin necesidad de compresión del modelo. Consideramos este enfoque como un primer prototipo hacia un nuevo paradigma de aprendizaje a gran escala, uno que es menos sincrónico y más modular. Nuestros experimentos en el ampliamente utilizado benchmark C4 muestran que, para la misma cantidad de pasos de entrenamiento pero en menos tiempo de reloj, DiPaCo supera el rendimiento de un modelo de lenguaje denso de transformadores con 1.000 millones de parámetros al elegir una de las 256 rutas posibles, cada una con un tamaño de 150 millones de parámetros.
El campo del renderizado neuronal ha experimentado avances significativos con los progresos en modelos generativos y técnicas de renderizado diferenciable. Aunque la difusión 2D ha logrado éxito, una pipeline unificada de difusión 3D sigue sin estar resuelta. Este artículo introduce un marco novedoso llamado LN3Diff para abordar esta brecha y permitir una generación 3D condicional rápida, de alta calidad y genérica. Nuestro enfoque aprovecha una arquitectura 3D-aware y un autoencoder variacional (VAE) para codificar la imagen de entrada en un espacio latente estructurado, compacto y 3D. El latente es decodificado por un decodificador basado en transformadores en un campo neuronal 3D de alta capacidad. Al entrenar un modelo de difusión en este espacio latente 3D-aware, nuestro método logra un rendimiento de vanguardia en ShapeNet para la generación 3D y demuestra un desempeño superior en la reconstrucción 3D monocular y la generación 3D condicional en varios conjuntos de datos. Además, supera a los métodos existentes de difusión 3D en términos de velocidad de inferencia, sin requerir optimización por instancia. Nuestro LN3Diff propuesto representa un avance significativo en el modelado generativo 3D y promete diversas aplicaciones en tareas de visión y gráficos 3D.
Este artículo presenta un nuevo paradigma para construir modelos generativos 3D escalables utilizando modelos de difusión de video preentrenados. El principal obstáculo en el desarrollo de modelos generativos 3D de base es la disponibilidad limitada de datos 3D. A diferencia de las imágenes, los textos o los videos, los datos 3D no son fácilmente accesibles y son difíciles de adquirir. Esto resulta en una disparidad significativa en escala en comparación con las vastas cantidades de otros tipos de datos. Para abordar este problema, proponemos utilizar un modelo de difusión de video, entrenado con grandes volúmenes de texto, imágenes y videos, como una fuente de conocimiento para datos 3D. Al desbloquear sus capacidades generativas multi-vista mediante ajuste fino, generamos un conjunto de datos sintéticos multi-vista a gran escala para entrenar un modelo generativo 3D de avance directo. El modelo propuesto, VFusion3D, entrenado con casi 3 millones de datos sintéticos multi-vista, puede generar un activo 3D a partir de una sola imagen en segundos y logra un rendimiento superior en comparación con los modelos generativos 3D de avance directo actuales más avanzados (SOTA), con los usuarios prefiriendo nuestros resultados más del 70% de las veces.