Artículos de investigación en IA seleccionados diariamente con traducciones
PaliGemma 2 es una actualización del Modelo de Lenguaje de Visión (VLM, por sus siglas en inglés) abierto PaliGemma basado en la familia de modelos de lenguaje Gemma 2. Combinamos el codificador de visión SigLIP-So400m que también fue utilizado por PaliGemma con toda la gama de modelos Gemma 2, desde el modelo 2B hasta el modelo 27B. Entrenamos estos modelos en tres resoluciones (224px, 448px y 896px) en múltiples etapas para dotarlos de un amplio conocimiento para la transferencia a través del ajuste fino. La familia resultante de modelos base que cubren diferentes tamaños y resoluciones nos permite investigar factores que impactan en el rendimiento de la transferencia (como la tasa de aprendizaje) y analizar la interacción entre el tipo de tarea, el tamaño del modelo y la resolución. Además, aumentamos el número y la amplitud de tareas de transferencia más allá del alcance de PaliGemma, incluyendo diferentes tareas relacionadas con OCR, como el reconocimiento de estructuras de tablas, reconocimiento de estructuras moleculares, reconocimiento de partituras musicales, así como subtítulos detallados y generación de informes de radiografías, en los cuales PaliGemma 2 obtiene resultados de vanguardia.
Enfoques recientes han dado resultados prometedores en destilar modelos de difusión de texto a imagen de múltiples pasos en modelos de un solo paso. La técnica de destilación eficiente de vanguardia, es decir, SwiftBrushv2 (SBv2), incluso supera el rendimiento del modelo maestro con recursos limitados. Sin embargo, nuestro estudio revela su inestabilidad al manejar diferentes estructuras de modelos de difusión debido al uso de una escala de guía fija dentro de la pérdida de Destilación de Puntuación Variacional (VSD). Otra debilidad de los modelos de difusión de un solo paso existentes es la falta de soporte para la guía de indicaciones negativas, lo cual es crucial en la generación práctica de imágenes. Este artículo presenta SNOOPI, un nuevo marco diseñado para abordar estas limitaciones al mejorar la guía en modelos de difusión de un solo paso durante el entrenamiento y la inferencia. En primer lugar, mejoramos efectivamente la estabilidad del entrenamiento a través de Proper Guidance-SwiftBrush (PG-SB), que emplea un enfoque de guía sin clasificador de escala aleatoria. Al variar la escala de guía de ambos modelos maestros, ampliamos sus distribuciones de salida, lo que resulta en una pérdida de VSD más robusta que permite que SB funcione eficazmente en diferentes estructuras mientras mantiene un rendimiento competitivo. En segundo lugar, proponemos un método sin entrenamiento llamado Negative-Away Steer Attention (NASA), que integra indicaciones negativas en modelos de difusión de un solo paso a través de una atención cruzada para suprimir elementos no deseados en las imágenes generadas. Nuestros resultados experimentales muestran que nuestros métodos propuestos mejoran significativamente los modelos de referencia en diversas métricas. Notablemente, logramos una puntuación HPSv2 de 31.08, estableciendo un nuevo punto de referencia de vanguardia para modelos de difusión de un solo paso.
Presentamos TokenFlow, un novedoso tokenizador de imágenes unificado que aborda la brecha de larga data entre la comprensión y generación multimodal. Investigaciones previas intentaron emplear un codificador de Cuantificación Vectorial (VQ) dirigido a la reconstrucción para unificar estas dos tareas. Observamos que la comprensión y generación requieren granularidades de información visual fundamentalmente diferentes. Esto conlleva a un compromiso crítico, especialmente comprometiendo el rendimiento en tareas de comprensión multimodal. TokenFlow aborda este desafío a través de una innovadora arquitectura de doble libro de códigos que desacopla el aprendizaje de características semánticas y a nivel de píxeles mientras mantiene su alineación mediante un mecanismo de mapeo compartido. Este diseño permite acceso directo tanto a representaciones semánticas de alto nivel cruciales para tareas de comprensión como a características visuales detalladas esenciales para la generación a través de índices compartidos. Nuestros extensos experimentos demuestran la superioridad de TokenFlow en múltiples dimensiones. Aprovechando TokenFlow, demostramos por primera vez que la entrada visual discreta puede superar a LLaVA-1.5 13B en rendimiento de comprensión, logrando una mejora promedio del 7.2\%. Para la reconstrucción de imágenes, alcanzamos un sólido puntaje FID de 0.63 en una resolución de 384*384. Además, TokenFlow establece un rendimiento de vanguardia en generación de imágenes autoregresivas con un puntaje GenEval de 0.55 en una resolución de 256*256, logrando resultados comparables a SDXL.
Los videos de 360 grados ofrecen una experiencia hiperinmersiva que permite a los espectadores explorar una escena dinámica desde todos los ángulos. Para lograr una creación de contenido más amigable y personalizada en formato de video de 360 grados, buscamos transformar videos estándar de perspectiva en videos equirectangulares de 360 grados. Con este fin, presentamos Imagine360, el primer marco de generación de videos de perspectiva a 360 grados que crea videos de alta calidad con patrones de movimiento ricos y diversos a partir de anclajes de video. Imagine360 aprende patrones visuales y de movimiento esféricos detallados a partir de datos limitados de videos de 360 grados con varios diseños clave. 1) En primer lugar, adoptamos el diseño de doble rama, que incluye una rama de eliminación de ruido de video de perspectiva y una de panorámica para proporcionar restricciones locales y globales para la generación de videos de 360 grados, con un módulo de movimiento y capas espaciales LoRA ajustadas finamente en videos web de 360 grados extendidos. 2) Además, se ha ideado una máscara antipodal para capturar dependencias de movimiento a larga distancia, mejorando el movimiento de la cámara invertida entre píxeles antipodales a través de hemisferios. 3) Para manejar diversas entradas de video de perspectiva, proponemos diseños conscientes de la elevación que se adaptan a enmascaramientos de video variables debido a cambios de elevación en los fotogramas. Experimentos extensos muestran que Imagine360 logra una calidad gráfica superior y coherencia de movimiento entre los métodos de generación de videos de 360 grados más avanzados. Creemos que Imagine360 promete avanzar en la creación de videos de 360 grados personalizados e inmersivos.
Los modelos de difusión se han aplicado a la completación de escenas LiDAR 3D debido a su sólida estabilidad de entrenamiento y alta calidad de completación. Sin embargo, la lenta velocidad de muestreo limita la aplicación práctica de los modelos de completación de escenas basados en difusión, ya que los vehículos autónomos requieren una percepción eficiente de los entornos circundantes. En este documento se propone un novedoso método de destilación diseñado para modelos de completación de escenas LiDAR 3D, denominado ScoreLiDAR, que logra una completación de escenas eficiente pero de alta calidad. ScoreLiDAR permite que el modelo destilado realice muestreos en significativamente menos pasos después de la destilación. Para mejorar la calidad de la completación, también introducimos una nueva Pérdida Estructural, que anima al modelo destilado a capturar la estructura geométrica de la escena LiDAR 3D. La pérdida contiene un término a nivel de escena que restringe la estructura holística y un término a nivel de punto que restringe los puntos de referencia clave y su configuración relativa. Experimentos extensos demuestran que ScoreLiDAR acelera significativamente el tiempo de completación de 30.55 a 5.37 segundos por cuadro (>5 veces) en SemanticKITTI y logra un rendimiento superior en comparación con los modelos de completación de escenas LiDAR 3D de última generación. Nuestro código está disponible públicamente en https://github.com/happyw1nd/ScoreLiDAR.
Los recientes avances en modelos multimodales grandes de video (LMMs, por sus siglas en inglés) han mejorado significativamente sus capacidades de comprensión y razonamiento de video. Sin embargo, su rendimiento disminuye en tareas fuera de distribución (OOD) que están subrepresentadas en los datos de entrenamiento. Métodos tradicionales como el ajuste fino en conjuntos de datos OOD son imprácticos debido a los altos costos computacionales. Mientras que el aprendizaje en contexto (ICL) con ejemplos de demostración ha mostrado un rendimiento de generalización prometedor en tareas de lenguaje y tareas de imagen-lenguaje sin ajuste fino, aplicar ICL a tareas de video-lenguaje enfrenta desafíos debido a la longitud limitada del contexto en los LMMs de video, ya que los videos requieren longitudes de token más largas. Para abordar estos problemas, proponemos VideoICL, un nuevo marco de aprendizaje en contexto de video para tareas OOD que introduce una estrategia de selección de ejemplos relevantes basada en similitud y un enfoque de inferencia iterativo basado en la confianza. Esto permite seleccionar los ejemplos más relevantes y clasificarlos según su similitud, para ser utilizados en la inferencia. Si la respuesta generada tiene una baja confianza, nuestro marco selecciona nuevos ejemplos y realiza nuevamente la inferencia, refinando iterativamente los resultados hasta obtener una respuesta de alta confianza. Este enfoque mejora el rendimiento de comprensión de video OOD al extender la longitud efectiva del contexto sin incurrir en altos costos. Los resultados experimentales en múltiples benchmarks demuestran ganancias de rendimiento significativas, especialmente en escenarios específicos de dominio, sentando las bases para aplicaciones de comprensión de video más amplias. El código será publicado en https://github.com/KangsanKim07/VideoICL
La creación de avatares realistas y animables todavía requiere minutos de videos de auto-rotación multicámara o monocular, y la mayoría de los métodos carecen de control preciso sobre gestos y expresiones. Para empujar este límite, abordamos el desafío de construir un avatar hablante de cuerpo completo a partir de una sola imagen. Proponemos un nuevo proceso que aborda dos problemas críticos: 1) modelado dinámico complejo y 2) generalización a gestos y expresiones novedosos. Para lograr una generalización perfecta, aprovechamos los modelos de difusión de imagen a video guiados por poses recientes para generar cuadros de video imperfectos como pseudoetiquetas. Para superar el desafío de modelado dinámico planteado por los pseudo-videos inconsistentes y ruidosos, introducimos una representación de avatar híbrida 3DGS-mesh estrechamente acoplada y aplicamos varias regularizaciones clave para mitigar las inconsistencias causadas por etiquetas imperfectas. Experimentos extensos en sujetos diversos demuestran que nuestro método permite la creación de un avatar hablante de cuerpo completo, fotorrealista, precisamente animable y expresivo a partir de una sola imagen.
En este documento, presentamos un modelo de visión-lenguaje (VLM) coreano-inglés de código abierto, VARCO-VISION. Incorporamos una estrategia de entrenamiento paso a paso que permite que un modelo aprenda tanto información lingüística como visual mientras preserva el conocimiento del modelo base. Nuestro modelo demuestra un rendimiento excepcional en diversos entornos que requieren habilidades de comprensión y generación de imágenes y texto bilingües en comparación con modelos de tamaño similar. VARCO-VISION también es capaz de anclaje, referencia y OCR, ampliando su uso y posibles aplicaciones para escenarios del mundo real. Además del modelo, lanzamos cinco conjuntos de datos de evaluación en coreano, que incluyen cuatro conjuntos cerrados y uno abierto. Anticipamos que nuestro hito ampliará las oportunidades para los investigadores de IA que buscan entrenar VLMs. VARCO-VISION está disponible en https://huggingface.co/NCSOFT/VARCO-VISION-14B.
Este artículo presenta MIDI, un nuevo paradigma para la generación composicional de escenas 3D a partir de una sola imagen. A diferencia de los métodos existentes que se basan en técnicas de reconstrucción o recuperación, o en enfoques recientes que emplean generación objeto por objeto en múltiples etapas, MIDI extiende modelos pre-entrenados de generación de objetos 3D a modelos de difusión multi-instancia, permitiendo la generación simultánea de múltiples instancias 3D con relaciones espaciales precisas y alta generalización. En su núcleo, MIDI incorpora un mecanismo de atención multi-instancia novedoso, que captura de manera efectiva las interacciones entre objetos y la coherencia espacial directamente dentro del proceso de generación, sin necesidad de procesos multi-paso complejos. El método utiliza imágenes parciales de objetos y contexto global de escena como entradas, modelando directamente la completitud del objeto durante la generación 3D. Durante el entrenamiento, supervisamos de manera efectiva las interacciones entre instancias 3D utilizando una cantidad limitada de datos a nivel de escena, al mismo tiempo que incorporamos datos de un solo objeto para regularización, manteniendo así la capacidad de generalización pre-entrenada. MIDI demuestra un rendimiento de vanguardia en la generación de escenas a partir de imágenes, validado a través de evaluaciones en datos sintéticos, datos de escenas del mundo real e imágenes de escenas estilizadas generadas por modelos de difusión de texto a imagen.
Los avances recientes en modelos generativos han mejorado significativamente la síntesis de vistas novedosas (NVS) a partir de datos de múltiples vistas. Sin embargo, los métodos existentes dependen de procesos externos de alineación de múltiples vistas, como la estimación explícita de poses o la pre-reconstrucción, lo que limita su flexibilidad y accesibilidad, especialmente cuando la alineación es inestable debido a una superposición insuficiente u obstrucciones entre las vistas. En este artículo, proponemos NVComposer, un enfoque novedoso que elimina la necesidad de alineación externa explícita. NVComposer permite que el modelo generativo infiera implícitamente las relaciones espaciales y geométricas entre múltiples vistas condicionales al introducir dos componentes clave: 1) un modelo de difusión de doble flujo de imagen-pose que genera simultáneamente vistas novedosas objetivo y poses de cámara condicionales, y 2) un módulo de alineación de características consciente de la geometría que destila prioridades geométricas de modelos estéreo densos durante el entrenamiento. Experimentos extensos demuestran que NVComposer logra un rendimiento de vanguardia en tareas generativas de NVS de múltiples vistas, eliminando la dependencia de la alineación externa y mejorando así la accesibilidad del modelo. Nuestro enfoque muestra mejoras sustanciales en la calidad de síntesis a medida que aumenta el número de vistas de entrada sin poses, destacando su potencial para sistemas generativos de NVS más flexibles y accesibles.
Presentamos NitroFusion, un enfoque fundamentalmente diferente para la difusión en un solo paso que logra una generación de alta calidad a través de un marco adversarial dinámico. Mientras que los métodos de un solo paso ofrecen ventajas de velocidad dramáticas, típicamente sufren de degradación de calidad en comparación con sus contrapartes de múltiples pasos. Así como un panel de críticos de arte proporciona retroalimentación integral al especializarse en diferentes aspectos como composición, color y técnica, nuestro enfoque mantiene un amplio conjunto de cabezas de discriminador especializadas que guían colectivamente el proceso de generación. Cada grupo de discriminadores desarrolla experiencia en aspectos específicos de calidad en diferentes niveles de ruido, proporcionando retroalimentación diversa que permite una generación de un solo paso de alta fidelidad. Nuestro marco combina: (i) un conjunto de discriminadores dinámico con grupos de discriminadores especializados para mejorar la calidad de generación, (ii) mecanismos de actualización estratégicos para evitar el sobreajuste del discriminador, y (iii) cabezas de discriminador global-local para evaluación de calidad a múltiples escalas, y entrenamiento incondicional/condicional para generación equilibrada. Además, nuestro marco admite de manera única un despliegue flexible a través de un refinamiento ascendente, lo que permite a los usuarios elegir dinámicamente entre 1-4 pasos de eliminación de ruido con el mismo modelo para compensar directamente entre calidad y velocidad. A través de experimentos exhaustivos, demostramos que NitroFusion supera significativamente a los métodos de un solo paso existentes en múltiples métricas de evaluación, destacándose especialmente en la preservación de detalles finos y consistencia global.
El rápido avance de los Modelos de Lenguaje Multimodal Grande (MLLMs) ha impactado significativamente diversas tareas multimodales. Sin embargo, estos modelos enfrentan desafíos en tareas que requieren comprensión espacial dentro de entornos 3D. Se han realizado esfuerzos para mejorar los MLLMs, como la incorporación de características de nube de puntos, sin embargo, existe una brecha considerable entre las representaciones aprendidas por los modelos y la complejidad inherente de las escenas 3D. Esta discrepancia se debe en gran medida al entrenamiento de los MLLMs en su mayoría con datos 2D, lo que limita su efectividad para comprender espacios 3D. Para abordar este problema, en este documento, proponemos un modelo generalista novedoso, es decir, Video-3D LLM, para la comprensión de escenas 3D. Al tratar las escenas 3D como videos dinámicos e incorporar codificación de posición 3D en estas representaciones, nuestro Video-3D LLM alinea las representaciones de video con contextos espaciales del mundo real de manera más precisa. Además, hemos implementado una técnica de muestreo de cobertura máxima para optimizar el equilibrio entre costos computacionales y eficiencia de rendimiento. Experimentos extensos demuestran que nuestro modelo logra un rendimiento de vanguardia en varios puntos de referencia de comprensión de escenas 3D, incluidos ScanRefer, Multi3DRefer, Scan2Cap, ScanQA y SQA3D.
La evaluación actual de habilidades matemáticas en LLMs es limitada, ya que los puntos de referencia existentes son relativamente pequeños, se centran principalmente en problemas de escuela primaria y secundaria, o carecen de diversidad en temas. Además, la inclusión de elementos visuales en las tareas sigue siendo en gran medida poco explorada. Para abordar estas brechas, presentamos U-MATH, un nuevo punto de referencia de 1,100 problemas inéditos de nivel universitario obtenidos de materiales de enseñanza. Está equilibrado en seis materias principales, con un 20% de problemas multimodales. Dada la naturaleza abierta de los problemas de U-MATH, empleamos un LLM para juzgar la corrección de las soluciones generadas. Con este fin, lanzamos mu-MATH, un conjunto de datos para evaluar las capacidades de los LLMs para juzgar soluciones. La evaluación de LLMs de dominio general, específicos de matemáticas y multimodales destaca los desafíos presentados por U-MATH. Nuestros hallazgos revelan que los LLMs alcanzan una precisión máxima de solo el 63% en tareas basadas en texto, con un aún menor 45% en problemas visuales. La evaluación de soluciones resulta desafiante para los LLMs, siendo el mejor juez LLM con un puntaje F1 del 80% en mu-MATH.
La generación de datos sintéticos con Modelos de Lenguaje Grandes es un paradigma prometedor para aumentar datos naturales en una amplia gama de tareas casi infinita. Dada esta variedad, las comparaciones directas entre algoritmos de generación de datos sintéticos son escasas, lo que dificulta comprender de dónde provienen las mejoras y qué cuellos de botella existen. Proponemos evaluar los algoritmos a través de la composición de los datos sintéticos generados por cada algoritmo en términos de calidad de datos, diversidad y complejidad. Elegimos estas tres características por su importancia en procesos abiertos y el impacto que cada una tiene en las capacidades de los modelos posteriores. Encontramos que la calidad es esencial para la generalización del modelo en distribución, la diversidad es esencial para la generalización fuera de distribución, y la complejidad es beneficiosa para ambos casos. Además, enfatizamos la existencia de compensaciones entre calidad y diversidad en los datos de entrenamiento y los efectos posteriores en el rendimiento del modelo. Luego examinamos el efecto de varios componentes en el proceso de datos sintéticos en cada característica de los datos. Esta evaluación nos permite clasificar y comparar los algoritmos de generación de datos sintéticos a través de los componentes que utilizan y los efectos resultantes en la composición de datos QDC. Este análisis se extiende a una discusión sobre la importancia de equilibrar QDC en datos sintéticos para algoritmos eficientes de aprendizaje por refuerzo y auto-mejora. De manera análoga a las compensaciones QD en los datos de entrenamiento, a menudo existen compensaciones entre la calidad de la salida del modelo y la diversidad de la salida que impactan la composición de los datos sintéticos. Observamos que muchos modelos actualmente se evalúan y optimizan solo para la calidad de la salida, limitando así la diversidad de la salida y el potencial de auto-mejora. Sostenemos que equilibrar estas compensaciones es esencial para el desarrollo de futuros algoritmos de auto-mejora y destacamos varios trabajos que avanzan en esta dirección.
Recientemente, se han establecido las características internas de los modelos de difusión pre-entrenados a gran escala como descriptores semánticos potentes para una amplia gama de tareas secundarias. Los trabajos que utilizan estas características generalmente necesitan agregar ruido a las imágenes antes de pasarlas a través del modelo para obtener las características semánticas, ya que los modelos no ofrecen las características más útiles cuando se les dan imágenes con poco o ningún ruido. Mostramos que este ruido tiene un impacto crítico en la utilidad de estas características que no puede ser remediado mediante la combinación con diferentes ruidos aleatorios. Abordamos este problema introduciendo un método de ajuste fino no supervisado y ligero que permite a las espinas dorsales de difusión proporcionar características semánticas de alta calidad y libres de ruido. Demostramos que estas características superan fácilmente a las características de difusión anteriores por un amplio margen en una amplia variedad de configuraciones de extracción y tareas secundarias, ofreciendo un mejor rendimiento que incluso los métodos basados en ensamblaje a una fracción del costo.
Al fusionar LLMs heterogéneos de código abierto con arquitecturas y tamaños variables, se puede integrar potencialmente las fortalezas de diferentes modelos, sin embargo, los métodos de fusión existentes enfrentan desafíos significativos, como la alineación de vocabulario y la fusión de matrices de distribución. Estos procedimientos no solo son complejos, sino que también son propensos a introducir ruido y errores. En este documento, proponemos un método de fusión implícito, Optimización de Preferencia de Recompensa Ponderada (WRPO), que aprovecha la optimización de preferencias entre los LLMs fuente y el LLM objetivo para transferir sus capacidades de manera efectiva. WRPO elimina la necesidad de alineación de vocabulario y fusión de matrices, y puede escalarse eficientemente para acomodar varios LLMs. Para abordar las desviaciones de distribución entre los LLMs fuente y objetivo, WRPO introduce una estrategia de adaptación progresiva que desplaza gradualmente la dependencia en ejemplos preferidos del LLM objetivo a los LLMs fuente. Experimentos extensos en los bancos de pruebas MT-Bench, AlpacaEval-2 y Arena-Hard demuestran que WRPO supera consistentemente a los métodos existentes de fusión de conocimientos y varias líneas de base de ajuste fino. Cuando se aplica al modelo objetivo LLaMA3-8B-Instruct, WRPO logra una tasa de victoria controlada por longitud del 55.9% contra GPT-4-Preview-1106 en AlpacaEval-2 y una tasa de victoria del 46.2% contra GPT-4-0314 en Arena-Hard. Nuestro código está disponible en https://github.com/SLIT-AI/WRPO.
El texto sirve como la señal de control clave en la generación de video debido a su naturaleza narrativa. Para convertir descripciones de texto en videoclips, los modelos actuales de difusión de video adoptan características de los codificadores de texto pero luchan con la comprensión limitada del texto. El reciente éxito de los grandes modelos de lenguaje (LLMs) muestra el poder de los transformadores de solo decodificador, que ofrece tres claros beneficios para la generación de texto a video (T2V), a saber, una comprensión precisa del texto resultante de la escalabilidad superior, la imaginación más allá del texto de entrada habilitada por la predicción del siguiente token, y la flexibilidad para priorizar los intereses del usuario a través de la sintonización de instrucciones. Sin embargo, la brecha de distribución de características que surge de los dos paradigmas de modelado de texto diferentes obstaculiza el uso directo de LLMs en los modelos T2V establecidos. Este trabajo aborda este desafío con Mimir, un marco de entrenamiento de extremo a extremo que presenta un fusor de tokens cuidadosamente diseñado para armonizar las salidas de los codificadores de texto y LLMs. Este diseño permite que el modelo T2V aproveche completamente los conocimientos previos de video aprendidos mientras capitaliza la capacidad relacionada con el texto de LLMs. Resultados extensos cuantitativos y cualitativos demuestran la efectividad de Mimir en la generación de videos de alta calidad con una excelente comprensión del texto, especialmente al procesar subtítulos cortos y gestionar movimientos cambiantes. Página del proyecto: https://lucaria-academy.github.io/Mimir/
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han logrado avances significativos con el desarrollo del ajuste de instrucciones. Sin embargo, mientras los modelos existentes pueden comprender imágenes y videos a un nivel holístico, todavía tienen dificultades con la comprensión a nivel de instancia que requiere una comprensión y alineación más matizada. La comprensión a nivel de instancia es crucial, ya que se centra en los elementos específicos en los que estamos más interesados. De manera emocionante, investigaciones previas encuentran que los LMMs de vanguardia exhiben sólidas capacidades de comprensión a nivel de instancia cuando se les proporcionan indicaciones visuales explícitas. Motivados por esto, presentamos un proceso de anotación automatizado asistido por GPT-4o para extraer información a nivel de instancia de imágenes y videos a través de indicaciones visuales explícitas para orientación a nivel de instancia. Basándonos en este proceso, proponemos Inst-IT, una solución para mejorar los LMMs en la comprensión a nivel de instancia mediante el Ajuste de Instrucciones con Indicaciones Visuales Explícitas. Inst-IT consta de un punto de referencia para diagnosticar la comprensión a nivel de instancia multimodal, un conjunto de datos de ajuste de instrucciones a gran escala y un paradigma de entrenamiento continuo de ajuste de instrucciones para mejorar de manera efectiva las capacidades de comprensión a nivel de instancia espacial-temporal de los LMMs existentes. Los resultados experimentales muestran que, con el impulso de Inst-IT, nuestros modelos no solo logran un rendimiento sobresaliente en el Banco de Pruebas de Inst-IT, sino que también demuestran mejoras significativas en varios bancos de pruebas de comprensión de imágenes y videos genéricos. Esto destaca que nuestro conjunto de datos no solo impulsa la comprensión a nivel de instancia, sino que también fortalece las capacidades generales de comprensión de imágenes y videos genéricos.
Presentamos LumiNet, una arquitectura novedosa que aprovecha modelos generativos y representaciones intrínsecas latentes para una transferencia de iluminación efectiva. Dada una imagen fuente y una imagen de iluminación objetivo, LumiNet sintetiza una versión iluminada de la escena fuente que captura la iluminación objetivo. Nuestro enfoque aporta dos contribuciones clave: una estrategia de curación de datos del modelo de iluminación basado en StyleGAN para nuestro entrenamiento, y un ControlNet basado en difusión modificado que procesa tanto propiedades intrínsecas latentes de la imagen fuente como propiedades extrínsecas latentes de la imagen objetivo. Mejoramos aún más la transferencia de iluminación a través de un adaptador aprendido (MLP) que inyecta las propiedades extrínsecas latentes del objetivo mediante atención cruzada y ajuste fino. A diferencia del ControlNet tradicional, que genera imágenes con mapas condicionales de una sola escena, LumiNet procesa representaciones latentes de dos imágenes diferentes, preservando la geometría y el albedo de la fuente mientras transfiere las características de iluminación del objetivo. Los experimentos demuestran que nuestro método transfiere con éxito fenómenos de iluminación complejos, incluidos reflejos especulares e iluminación indirecta, entre escenas con diseños espaciales y materiales variables, superando en rendimiento a enfoques existentes en escenas interiores desafiantes utilizando solo imágenes como entrada.