Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que avanza el desarrollo de los modelos de lenguaje de gran escala (LLM), alinearlos con las preferencias humanas se ha vuelto cada vez más importante. Proponemos el DPO por pasos (sDPO), una extensión de la optimización directa de preferencias (DPO), recientemente popularizada, para el ajuste de alineación. Este enfoque implica dividir los conjuntos de datos de preferencias disponibles y utilizarlos de manera gradual, en lugar de emplearlos todos a la vez. Demostramos que este método facilita el uso de modelos de referencia más precisamente alineados dentro del marco de entrenamiento DPO. Además, sDPO entrena al modelo final para que sea más eficiente, superando incluso a otros LLM populares con más parámetros.
El método de 3D Gaussian Splatting (GS) ha logrado una mejora considerable en comparación con los Campos de Radiancia Neural en términos de fidelidad de ajuste 3D y velocidad de renderizado. Sin embargo, esta representación no estructurada con gaussianos dispersos presenta un desafío significativo para el modelado generativo. Para abordar este problema, presentamos GaussianCube, una representación estructurada de GS que es tanto potente como eficiente para el modelado generativo. Lo logramos primero proponiendo un algoritmo de ajuste de GS con restricción de densificación modificado, que puede producir resultados de ajuste de alta calidad utilizando un número fijo de gaussianos libres, y luego reorganizando los gaussianos en una cuadrícula de vóxeles predefinida mediante Transporte Óptimo. La representación estructurada en cuadrícula nos permite utilizar una red 3D U-Net estándar como columna vertebral en el modelado generativo de difusión sin diseños elaborados. Experimentos exhaustivos realizados en ShapeNet y OmniObject3D muestran que nuestro modelo alcanza resultados de generación de vanguardia tanto cualitativa como cuantitativamente, destacando el potencial de GaussianCube como una representación 3D potente y versátil.
Ha habido un progreso tremendo en los modelos de lenguaje multimodal de gran escala (LLMs). Trabajos recientes han extendido estos modelos para manejar entradas de video con capacidades prometedoras de seguimiento de instrucciones. Sin embargo, un aspecto importante que falta es la localización temporal. Estos modelos no pueden responder con precisión a las preguntas de "¿Cuándo?". Identificamos tres aspectos clave que limitan sus capacidades de localización temporal: (i) representación del tiempo, (ii) arquitectura, y (iii) datos. Abordamos estas limitaciones proponiendo el Asistente de Localización Temporal con Instrucciones de Lenguaje (LITA) con las siguientes características: (1) Introducimos tokens de tiempo que codifican marcas temporales relativas a la duración del video para representar mejor el tiempo en los videos. (2) Introducimos tokens SlowFast en la arquitectura para capturar información temporal con una resolución temporal fina. (3) Hacemos hincapié en los datos de localización temporal para LITA. Además de aprovechar los conjuntos de datos de video existentes con marcas temporales, proponemos una nueva tarea, Localización Temporal de Razonamiento (RTL), junto con el conjunto de datos, ActivityNet-RTL, para aprender y evaluar esta tarea. La localización temporal de razonamiento requiere tanto el razonamiento como la localización temporal de los LLMs de video. LITA demuestra un rendimiento sólido en esta tarea desafiante, casi duplicando la intersección sobre unión media temporal (mIoU) de las líneas base. Además, mostramos que nuestro énfasis en la localización temporal también mejora sustancialmente la generación de texto basada en video en comparación con los LLMs de video existentes, incluyendo una mejora relativa del 36% en la Comprensión Temporal. El código está disponible en: https://github.com/NVlabs/LITA
Los modelos generativos de texto a imagen basados en difusión, como Stable Diffusion, han revolucionado el campo de la generación de contenido, permitiendo avances significativos en áreas como la edición de imágenes y la síntesis de video. A pesar de sus formidables capacidades, estos modelos no están exentos de limitaciones. Todavía es un desafío sintetizar una imagen que se alinee bien con el texto de entrada, y se requieren múltiples ejecuciones con indicaciones cuidadosamente elaboradas para obtener resultados satisfactorios. Para mitigar estas limitaciones, numerosos estudios han intentado ajustar los modelos de difusión preentrenados, como UNet, utilizando diversas tecnologías. Sin embargo, en medio de estos esfuerzos, una pregunta fundamental sobre el entrenamiento de modelos de difusión de texto a imagen ha permanecido en gran parte inexplorada: ¿Es posible y factible ajustar el codificador de texto para mejorar el rendimiento de los modelos de difusión de texto a imagen? Nuestros hallazgos revelan que, en lugar de reemplazar el codificador de texto CLIP utilizado en Stable Diffusion con otros modelos de lenguaje grandes, podemos mejorarlo mediante nuestro enfoque propuesto de ajuste fino, TextCraftor, lo que conduce a mejoras sustanciales en evaluaciones cuantitativas y humanas. Curiosamente, nuestra técnica también permite la generación controlada de imágenes mediante la interpolación de diferentes codificadores de texto ajustados con diversas recompensas. También demostramos que TextCraftor es ortogonal al ajuste fino de UNet y puede combinarse para mejorar aún más la calidad generativa.
Presentamos Mesh2NeRF, un enfoque para derivar campos de radiancia de referencia a partir de mallas texturizadas para tareas de generación 3D. Muchos enfoques generativos 3D representan escenas 3D como campos de radiancia para el entrenamiento. Sus campos de radiancia de referencia suelen ajustarse a partir de renderizaciones multivista de un conjunto de datos sintéticos 3D a gran escala, lo que a menudo resulta en artefactos debido a oclusiones o problemas de subajuste. En Mesh2NeRF, proponemos una solución analítica para obtener directamente campos de radiancia de referencia a partir de mallas 3D, caracterizando el campo de densidad con una función de ocupación que presenta un grosor de superficie definido, y determinando el color dependiente de la vista a través de una función de reflexión que considera tanto la malla como la iluminación del entorno. Mesh2NeRF extrae campos de radiancia precisos que proporcionan supervisión directa para entrenar NeRFs generativos y la representación de escenas individuales. Validamos la efectividad de Mesh2NeRF en diversas tareas, logrando una mejora notable de 3.12 dB en PSNR para la síntesis de vistas en la representación de escenas individuales en el conjunto de datos ABO, una mejora de 0.69 PSNR en la generación condicional de una sola vista de ShapeNet Cars, y una extracción de mallas notablemente mejorada a partir de NeRF en la generación incondicional de Objaverse Mugs.