Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) ha surgido como un enfoque crítico para alinear grandes modelos de lenguaje con las preferencias humanas, presenciando una rápida evolución algorítmica a través de métodos como la Optimización de Política Proximal (PPO), la Optimización Directa de Preferencias (DPO), REINFORCE Leave One-Out (RLOO), ReMax y la Optimización de Política Relativa de Grupo (GRPO). Presentamos REINFORCE++, una variante mejorada del algoritmo clásico REINFORCE que incorpora técnicas clave de optimización de PPO mientras elimina la necesidad de una red crítica. REINFORCE++ logra tres objetivos principales: (1) simplicidad, (2) estabilidad de entrenamiento mejorada y (3) reducción de la carga computacional. A través de una extensa evaluación empírica, demostramos que REINFORCE++ exhibe una estabilidad superior en comparación con GRPO y logra una mayor eficiencia computacional que PPO manteniendo un rendimiento comparable. La implementación está disponible en https://github.com/OpenRLHF/OpenRLHF.
El AI físico necesita ser entrenado digitalmente primero. Requiere un gemelo digital de sí mismo, el modelo de política, y un gemelo digital del mundo, el modelo del mundo. En este documento, presentamos la Plataforma del Modelo de Fundación del Mundo Cosmos para ayudar a los desarrolladores a construir modelos de mundo personalizados para sus configuraciones de AI física. Posicionamos un modelo de fundación del mundo como un modelo de mundo de propósito general que puede ser ajustado para convertirse en modelos de mundo personalizados para aplicaciones posteriores. Nuestra plataforma abarca un proceso de curación de video, modelos de fundación del mundo pre-entrenados, ejemplos de post-entrenamiento de modelos de fundación del mundo pre-entrenados, y tokenizadores de video. Para ayudar a los constructores de AI física a resolver los problemas más críticos de nuestra sociedad, hacemos nuestra plataforma de código abierto y nuestros modelos de peso abierto con licencias permisivas disponibles a través de https://github.com/NVIDIA/Cosmos.
El surgimiento de modelos grandes multimodales en tiempo real (LMMs) como GPT-4o ha generado un considerable interés en LMMs eficientes. Los marcos de LMM típicamente codifican entradas visuales en tokens de visión (representaciones continuas) e integran estos con instrucciones textuales en el contexto de modelos de lenguaje grandes (LLMs), donde los parámetros a gran escala y numerosos tokens de contexto (predominantemente tokens de visión) resultan en una considerable carga computacional. Los esfuerzos previos hacia LMMs eficientes siempre se centran en reemplazar la estructura principal del LLM con modelos más pequeños, descuidando el tema crucial de la cantidad de tokens. En este artículo, presentamos LLaVA-Mini, un LMM eficiente con un mínimo de tokens de visión. Para lograr una alta relación de compresión de tokens de visión mientras se preserva la información visual, primero analizamos cómo los LMMs comprenden los tokens de visión y encontramos que la mayoría de los tokens de visión solo desempeñan un papel crucial en las capas iniciales de la estructura principal del LLM, donde principalmente fusionan información visual en tokens de texto. Basándonos en este hallazgo, LLaVA-Mini introduce la pre-fusión modalidad para fusionar la información visual en los tokens de texto de antemano, facilitando así la compresión extrema de los tokens de visión alimentados a la estructura principal del LLM en un solo token. LLaVA-Mini es un modelo multimodal grande unificado que puede soportar la comprensión de imágenes, imágenes de alta resolución y videos de manera eficiente. Experimentos en 11 evaluaciones basadas en imágenes y 7 basadas en videos demuestran que LLaVA-Mini supera a LLaVA-v1.5 con solo 1 token de visión en lugar de 576. Los análisis de eficiencia revelan que LLaVA-Mini puede reducir los FLOPs en un 77%, ofrecer respuestas de baja latencia en menos de 40 milisegundos y procesar más de 10,000 fotogramas de video en hardware GPU con 24GB de memoria.
Este trabajo presenta Sa2VA, el primer modelo unificado para la comprensión densa fundamentada de imágenes y videos. A diferencia de los modelos de lenguaje grandes multi-modales existentes, que a menudo están limitados a modalidades y tareas específicas, Sa2VA soporta una amplia gama de tareas de imagen y video, incluyendo segmentación referencial y conversación, con ajuste mínimo de instrucción de una sola vez. Sa2VA combina SAM-2, un modelo base de segmentación de video, con LLaVA, un modelo avanzado de visión y lenguaje, y unifica texto, imagen y video en un espacio compartido de tokens de LLM. Utilizando el LLM, Sa2VA genera tokens de instrucción que guían a SAM-2 para producir máscaras precisas, permitiendo una comprensión fundamentada y multi-modal de contenido visual estático y dinámico. Además, presentamos Ref-SAV, un conjunto de datos autoetiquetado que contiene más de 72k expresiones de objetos en escenas de video complejas, diseñado para mejorar el rendimiento del modelo. También validamos manualmente 2k objetos de video en los conjuntos de datos de Ref-SAV para evaluar la segmentación de objetos de video referencial en entornos complejos. Los experimentos muestran que Sa2VA logra el estado del arte en múltiples tareas, especialmente en la segmentación de objetos de video referencial, resaltando su potencial para aplicaciones complejas del mundo real.
En los últimos años, los modelos de visión y lenguaje (VLMs) han logrado avances significativos en la comprensión de videos. Sin embargo, una capacidad crucial, la comprensión detallada del movimiento, sigue siendo poco explorada en los benchmarks actuales. Para abordar esta brecha, proponemos MotionBench, un benchmark de evaluación integral diseñado para evaluar la comprensión detallada del movimiento en modelos de comprensión de video. MotionBench evalúa la percepción a nivel de movimiento de los modelos a través de seis categorías principales de tipos de preguntas orientadas al movimiento e incluye datos recopilados de diversas fuentes, asegurando una representación amplia de contenido de video del mundo real. Los resultados experimentales revelan que los VLMs existentes tienen un bajo rendimiento en la comprensión de movimientos detallados. Para mejorar la capacidad de los VLMs para percibir el movimiento detallado dentro de una longitud de secuencia limitada de LLM, realizamos experimentos exhaustivos revisando arquitecturas de VLM optimizadas para la compresión de características de video y proponemos un método de Fusión a través del Codificador (TE) novedoso y eficiente. Los experimentos muestran que entradas con una velocidad de cuadro más alta y la Fusión TE proporcionan mejoras en la comprensión del movimiento, aunque aún hay un amplio margen para la mejora. Nuestro benchmark tiene como objetivo guiar y motivar el desarrollo de modelos de comprensión de video más capaces, enfatizando la importancia de la comprensión detallada del movimiento. Página del proyecto: https://motion-bench.github.io.
Los modelos de difusión han demostrado un rendimiento impresionante en la generación de videos de alta calidad a partir de indicaciones de texto o imágenes. Sin embargo, el control preciso sobre el proceso de generación de video, como la manipulación de la cámara o la edición de contenido, sigue siendo un desafío significativo. Los métodos existentes para la generación de video controlada suelen estar limitados a un solo tipo de control, careciendo de la flexibilidad para manejar diversas demandas de control. En este documento, presentamos Difusión como Shader (DaS), un enfoque novedoso que soporta múltiples tareas de control de video dentro de una arquitectura unificada. Nuestra idea clave es que lograr un control versátil de video requiere aprovechar las señales de control 3D, ya que los videos son fundamentalmente representaciones 2D de contenido 3D dinámico. A diferencia de los métodos anteriores limitados a señales de control 2D, DaS aprovecha videos de seguimiento 3D como entradas de control, haciendo que el proceso de difusión de video sea inherentemente consciente de 3D. Esta innovación permite que DaS logre una amplia gama de controles de video simplemente manipulando los videos de seguimiento 3D. Una ventaja adicional de usar videos de seguimiento 3D es su capacidad para vincular efectivamente fotogramas, mejorando significativamente la consistencia temporal de los videos generados. Con solo 3 días de ajuste fino en 8 GPUs H800 utilizando menos de 10k videos, DaS demuestra fuertes capacidades de control en diversas tareas, incluida la generación de video a partir de mallas, control de cámara, transferencia de movimiento y manipulación de objetos.
Generar presentaciones automáticamente a partir de documentos es una tarea desafiante que requiere equilibrar la calidad del contenido, el diseño visual y la coherencia estructural. Los métodos existentes se centran principalmente en mejorar y evaluar la calidad del contenido de forma aislada, a menudo pasando por alto el diseño visual y la coherencia estructural, lo que limita su aplicabilidad práctica. Para abordar estas limitaciones, proponemos PPTAgent, que mejora de manera integral la generación de presentaciones a través de un enfoque basado en edición de dos etapas inspirado en flujos de trabajo humanos. PPTAgent primero analiza presentaciones de referencia para comprender sus patrones estructurales y esquemas de contenido, luego elabora esquemas y genera diapositivas a través de acciones de código para garantizar consistencia y alineación. Para evaluar de manera integral la calidad de las presentaciones generadas, introducimos además PPTEval, un marco de evaluación que evalúa las presentaciones en tres dimensiones: Contenido, Diseño y Coherencia. Los experimentos muestran que PPTAgent supera significativamente a los métodos tradicionales de generación automática de presentaciones en las tres dimensiones. El código y los datos están disponibles en https://github.com/icip-cas/PPTAgent.
Se han logrado avances recientes en el aprendizaje omnimodal en la comprensión y generación a través de imágenes, texto y habla, aunque principalmente dentro de modelos propietarios. Conjuntos de datos omnimodales limitados y los desafíos inherentes asociados con la generación de habla emocional en tiempo real han obstaculizado el progreso de código abierto. Para abordar estos problemas, proponemos openomni, un método de entrenamiento de dos etapas que combina el alineamiento omnimodal y la generación de habla para desarrollar un modelo de lenguaje grande omnimodal de última generación. En la fase de alineamiento, un modelo de habla pre-entrenado se entrena aún más en tareas de texto-imagen para generalizar de la visión al habla de manera (casi) sin necesidad de ajustes, superando a los modelos entrenados en conjuntos de datos tri-modales. En la fase de generación de habla, un decodificador ligero facilita la generación de habla emocional en tiempo real a través del entrenamiento en tareas de habla y aprendizaje de preferencias. Los experimentos demuestran que openomni mejora consistentemente en evaluaciones omnimodales, visión-lenguaje y habla-lenguaje, permitiendo diálogos naturales y ricos en emociones y generación de habla emocional en tiempo real.
El paradigma de la investigación científica está experimentando una profunda transformación debido al desarrollo de la Inteligencia Artificial (IA). Trabajos recientes demuestran que varios métodos de investigación asistidos por IA pueden mejorar en gran medida la eficiencia de la investigación al mejorar el análisis de datos, acelerar la computación y fomentar la generación de nuevas ideas. Para avanzar hacia el objetivo último (es decir, la investigación científica automática), en este artículo proponemos Dolphin, el primer marco de autoinvestigación de bucle cerrado y abierto para construir aún más todo el proceso de investigación científica humana. Dolphin puede generar ideas de investigación, realizar experimentos y obtener retroalimentación de los resultados experimentales para generar ideas de mayor calidad. Específicamente, Dolphin primero genera ideas novedosas basadas en documentos relevantes que están clasificados por los atributos de tema y tarea. Luego, los códigos se generan automáticamente y se depuran con la estructura de código local guiada por excepciones y seguimiento. Finalmente, Dolphin analiza automáticamente los resultados de cada idea y retroalimenta los resultados para la siguiente ronda de generación de ideas. Se realizan experimentos en conjuntos de datos de referencia de diferentes temas y los resultados muestran que Dolphin puede generar ideas novedosas de forma continua y completar el experimento en un ciclo. Destacamos que Dolphin puede proponer automáticamente métodos comparables al estado del arte en algunas tareas como la clasificación de imágenes 2D y la clasificación de puntos 3D.
Presentamos Magic Mirror, un marco para generar videos preservando la identidad con calidad a nivel cinematográfico y movimiento dinámico. Si bien los avances recientes en modelos de difusión de video han demostrado capacidades impresionantes en la generación de texto a video, mantener una identidad consistente al producir un movimiento natural sigue siendo un desafío. Los métodos anteriores requieren ajustes específicos de la persona o luchan por equilibrar la preservación de la identidad con la diversidad de movimiento. Basado en los Transformadores de Difusión de Video, nuestro método introduce tres componentes clave: (1) un extractor de rasgos faciales de doble rama que captura tanto la identidad como los rasgos estructurales, (2) un adaptador cruzado ligero con Normalización Adaptativa Condicionada para una integración eficiente de la identidad, y (3) una estrategia de entrenamiento en dos etapas que combina pares de identidades sintéticas con datos de video. Experimentos extensos demuestran que Magic Mirror equilibra efectivamente la consistencia de la identidad con el movimiento natural, superando a los métodos existentes en múltiples métricas y requiriendo un mínimo de parámetros adicionales. El código y el modelo estarán disponibles públicamente en: https://github.com/dvlab-research/MagicMirror/
La técnica de Splatting Gaussiano 3D (3DGS) ha logrado avances significativos en la representación de escenas y el renderizado neuronal, con esfuerzos intensos centrados en adaptarlo a escenas dinámicas. A pesar de ofrecer una calidad de renderizado y velocidad notables, los métodos existentes tienen dificultades con las demandas de almacenamiento y la representación de movimientos complejos del mundo real. Para abordar estos problemas, proponemos MoDecGS, un marco de trabajo de Splatting Gaussiano eficiente en memoria diseñado para reconstruir vistas novedosas en escenarios desafiantes con movimientos complejos. Introducimos la Descomposición de Movimiento de Global a Local (GLMD) para capturar de manera efectiva los movimientos dinámicos de manera de gruesa a fina. Este enfoque aprovecha los Andamios Canónicos Globales (Global CS) y los Andamios Canónicos Locales (Local CS), extendiendo la representación de Andamios estáticos a la reconstrucción de videos dinámicos. Para Global CS, proponemos la Deformación de Anclaje Global (GAD) para representar eficientemente dinámicas globales a lo largo de movimientos complejos, deformando directamente los atributos implícitos del Andamio que son la posición del anclaje, el desplazamiento y las características de contexto local. A continuación, ajustamos finamente los movimientos locales a través de la Deformación Gaussiana Local (LGD) de Local CS de manera explícita. Además, introducimos el Ajuste de Intervalo Temporal (TIA) para controlar automáticamente la cobertura temporal de cada Local CS durante el entrenamiento, permitiendo a MoDecGS encontrar asignaciones óptimas de intervalos basadas en el número especificado de segmentos temporales. Evaluaciones extensas demuestran que MoDecGS logra una reducción promedio del 70% en el tamaño del modelo en comparación con los métodos de vanguardia para Gaussiano 3D dinámico de videos dinámicos del mundo real, manteniendo o incluso mejorando la calidad de renderizado.
El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF, por sus siglas en inglés) ha sido ampliamente adoptado para alinear los modelos de lenguaje (LMs) con las preferencias humanas. Los trabajos previos de RLHF suelen adoptar una formulación de bandit, que, aunque intuitiva, ignora la naturaleza secuencial de la generación de LM y puede verse afectada por el problema de la recompensa escasa. Mientras que trabajos recientes proponen RLHF a nivel de token denso, tratando cada token como una acción puede ser demasiado sutil para la asignación adecuada de recompensas. En este documento, buscamos combinar lo mejor de ambos en el entrenamiento y la utilización de un modelo de recompensa a nivel de segmento, que asigna una recompensa a cada segmento de texto semánticamente completo que abarca una secuencia corta de tokens. Para el aprendizaje de recompensas, nuestro método permite la segmentación dinámica de texto y es compatible con conjuntos de datos estándar de preferencias de secuencia. Para el entrenamiento efectivo de LM basado en RL con recompensa de segmento, generalizamos los normalizadores de recompensa de bandit escalares clásicos en funciones normalizadoras con conciencia de ubicación e interpolamos la recompensa de segmento para una mayor densificación. Con estos diseños, nuestro método tiene un rendimiento competitivo en tres benchmarks populares de RLHF para políticas de LM: AlpacaEval 2.0, Arena-Hard y MT-Bench. Se realizaron estudios de ablación para demostrar aún más nuestro método.
Presentamos un enfoque para modificar las arquitecturas Transformer integrando el razonamiento relacional consciente de grafos en el mecanismo de atención, fusionando conceptos de redes neuronales de grafos y modelado de lenguaje. Basándonos en la conexión inherente entre la atención y la teoría de grafos, reformulamos el mecanismo de atención del Transformer como una operación de grafo y proponemos la Atención Isomórfica Consciente de Grafos. Este método aprovecha estrategias avanzadas de modelado de grafos, incluidas las Redes de Isomorfismo de Grafos (GIN) y la Agregación de Vecindario Principal (PNA), para enriquecer la representación de estructuras relacionales. Nuestro enfoque captura dependencias complejas y generaliza a través de tareas, como se evidencia por una brecha de generalización reducida y un rendimiento de aprendizaje mejorado. Además, expandimos el concepto de atención consciente de grafos para introducir la Atención GIN-Esparcida, un enfoque de ajuste fino que emplea GINs dispersos. Al interpretar las matrices de atención como grafos de adyacencia dispersos, esta técnica mejora la adaptabilidad de los modelos fundamentales preentrenados con un mínimo costo computacional, dotándolos de capacidades conscientes de grafos. El ajuste fino de la Atención GIN-Esparcida logra una dinámica de entrenamiento mejorada y una mejor generalización en comparación con métodos alternativos como la adaptación de bajo rango (LoRA). Discutimos estructuras latentes similares a grafos dentro de los mecanismos de atención tradicionales, ofreciendo una nueva perspectiva a través de la cual los Transformers pueden ser comprendidos. Al evolucionar los Transformers como modelos jerárquicos GIN para el razonamiento relacional. Esta perspectiva sugiere implicaciones profundas para el desarrollo de modelos fundamentales, permitiendo el diseño de arquitecturas que se adaptan dinámicamente a dependencias locales y globales. Aplicaciones en bioinformática, ciencia de materiales, modelado de lenguaje y más podrían beneficiarse de esta síntesis de modelado de datos relacionales y secuenciales, sentando las bases para estrategias de modelado interpretables y generalizables.
Abordamos el problema de la edición de expresiones faciales controlando la variación relativa de unidades de acción facial (AU) de la misma persona. Esto nos permite editar la expresión de esta persona de manera detallada, continua e interpretable, preservando su identidad, postura, fondo y atributos faciales detallados. Clave en nuestro modelo, al que llamamos MagicFace, es un modelo de difusión condicionado a variaciones de AU y un codificador de identidad para preservar detalles faciales de alta consistencia. Específicamente, para preservar los detalles faciales con la identidad de entrada, aprovechamos el poder de los modelos preentrenados de Difusión Estable y diseñamos un codificador de identidad para fusionar características de apariencia a través de autoatención. Para mantener la consistencia de fondo y postura, introducimos un Controlador de Atributos eficiente informando explícitamente al modelo del fondo y la postura actuales del objetivo. Al inyectar variaciones de AU en un UNet de eliminación de ruido, nuestro modelo puede animar identidades arbitrarias con diversas combinaciones de AU, produciendo resultados superiores en la edición de expresiones de alta fidelidad en comparación con otros trabajos de edición de expresiones faciales. El código está disponible públicamente en https://github.com/weimengting/MagicFace.
Los modelos de difusión de imagen a imagen guiados por texto destacan en la traducción de imágenes basadas en indicaciones textuales, permitiendo modificaciones visuales precisas y creativas. Sin embargo, esta técnica tan potente puede ser mal utilizada para difundir información errónea, infringir derechos de autor y evadir el rastreo de contenido. Esto nos motiva a presentar la tarea de Identificación de Origen para modelos de Difusión de Imagen a Imagen guiados por texto (ID^2), con el objetivo de recuperar la imagen original de una consulta traducida dada. Una solución directa para ID^2 implica entrenar un modelo de incrustación profunda especializado para extraer y comparar características tanto de la consulta como de las imágenes de referencia. Sin embargo, debido a las discrepancias visuales entre generaciones producidas por diferentes modelos de difusión, este enfoque basado en similitud falla al entrenar con imágenes de un modelo y probar con imágenes de otro, limitando su efectividad en aplicaciones del mundo real. Para resolver este desafío de la tarea propuesta ID^2, presentamos el primer conjunto de datos y un método teóricamente garantizado, ambos enfatizando la generalización. El conjunto de datos curado, OriPID, contiene abundantes Orígenes e Indicaciones guiadas, que pueden ser utilizados para entrenar y probar posibles modelos de Identificación a través de varios modelos de difusión. En la sección de método, primero demostramos la existencia de una transformación lineal que minimiza la distancia entre las incrustaciones pre-entrenadas del Autoencoder Variacional (VAE) de las muestras generadas y sus orígenes. Posteriormente, se demuestra que tal transformación lineal simple puede generalizarse a través de diferentes modelos de difusión. Los resultados experimentales muestran que el método propuesto logra un rendimiento de generalización satisfactorio, superando significativamente a los métodos basados en similitud (+31.6% mAP), incluso aquellos con diseños de generalización.