Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en modelos de difusión de video han demostrado habilidades excepcionales para simular dinámicas del mundo real y mantener consistencia en 3D. Este progreso nos inspira a investigar el potencial de estos modelos para garantizar consistencia dinámica en varios puntos de vista, una característica altamente deseable para aplicaciones como la filmación virtual. A diferencia de los métodos existentes centrados en la generación de múltiples vistas de objetos individuales para la reconstrucción 4D, nuestro interés radica en generar videos de mundo abierto desde puntos de vista arbitrarios, incorporando poses de cámara de 6 grados de libertad. Para lograr esto, proponemos un módulo plug-and-play que mejora un modelo pre-entrenado de texto a video para la generación de videos de múltiples cámaras, asegurando un contenido consistente en diferentes puntos de vista. Específicamente, introducimos un módulo de sincronización de múltiples vistas para mantener la consistencia de apariencia y geometría en estos puntos de vista. Dada la escasez de datos de entrenamiento de alta calidad, diseñamos un esquema de entrenamiento híbrido que aprovecha imágenes de múltiples cámaras y videos monoculares para complementar videos de múltiples cámaras renderizados por Unreal Engine. Además, nuestro método permite extensiones interesantes, como volver a renderizar un video desde puntos de vista novedosos. También lanzamos un conjunto de datos de videos sincronizados de múltiples vistas, llamado SynCamVideo-Dataset. Página del proyecto: https://jianhongbai.github.io/SynCamMaster/.
Los avances recientes en la generación de texto a imagen (T2I) han demostrado un éxito notable en la producción de imágenes de alta calidad a partir de texto. Sin embargo, los modelos T2I existentes muestran un rendimiento degradado en la generación de imágenes compuestas que involucran múltiples objetos y relaciones intrincadas. Atribuimos este problema a las limitaciones en los conjuntos de datos existentes de pares imagen-texto, que carecen de anotaciones precisas de las relaciones entre objetos con solo indicaciones. Para abordar este problema, construimos LAION-SG, un conjunto de datos a gran escala con anotaciones estructurales de grafos de escena (SG), que describen con precisión atributos y relaciones de múltiples objetos, representando efectivamente la estructura semántica en escenas complejas. Basándonos en LAION-SG, entrenamos un nuevo modelo base, SDXL-SG, para incorporar información de anotación estructural en el proceso de generación. Experimentos extensos muestran que los modelos avanzados entrenados en nuestro conjunto de datos LAION-SG presentan mejoras significativas en el rendimiento en la generación de escenas complejas en comparación con los modelos en conjuntos de datos existentes. También presentamos CompSG-Bench, un banco de pruebas que evalúa modelos en la generación de imágenes compuestas, estableciendo un nuevo estándar para este dominio.
Los modelos de visión y lenguaje han avanzado significativamente recientemente, demostrando un rendimiento superior en una variedad de tareas, como el reconocimiento óptico de caracteres y el análisis de diagramas complejos. Continuando con esta tendencia, presentamos un nuevo modelo de visión y lenguaje, POINTS1.5, diseñado para destacar en diversas aplicaciones del mundo real. POINTS1.5 es una mejora de POINTS1.0 e incorpora varias innovaciones clave: i) Reemplazamos el codificador de visión CLIP original, que tenía una resolución de imagen fija, con un codificador de visión al estilo de NaViT que admite una alta resolución dinámica nativa. Esto permite que POINTS1.5 procese imágenes de cualquier resolución sin necesidad de dividirlas en mosaicos. ii) Agregamos soporte bilingüe a POINTS1.5, mejorando significativamente su capacidad en chino. Debido a la escasez de conjuntos de datos chinos de código abierto para modelos de visión y lenguaje, recopilamos numerosas imágenes de Internet y las anotamos utilizando una combinación de métodos manuales y automáticos. iii) Proponemos un conjunto de métodos de filtrado rigurosos para conjuntos de ajuste de instrucciones visuales. Evaluamos exhaustivamente todos estos métodos de filtrado y elegimos los más efectivos para obtener el conjunto final de ajuste de instrucciones visuales. Gracias a estas innovaciones, POINTS1.5 supera significativamente a POINTS1.0 y demuestra un sólido rendimiento en una variedad de aplicaciones del mundo real. Es notable que POINTS1.5-7B se entrena con menos de 4 mil millones de tokens y ocupa el primer lugar en la tabla de clasificación de OpenCompass entre los modelos con menos de 10 mil millones de parámetros.
La generación de imágenes de personas controlables tiene como objetivo generar una imagen de persona condicionada a imágenes de referencia, permitiendo un control preciso sobre la apariencia o pose de la persona. Sin embargo, los métodos previos a menudo distorsionan detalles texturales detallados de la imagen de referencia, a pesar de lograr una alta calidad de imagen en general. Atribuimos estas distorsiones a una atención inadecuada a regiones correspondientes en la imagen de referencia. Para abordar esto, proponemos aprender campos de flujo en atención (Leffa), que guían explícitamente a la consulta objetivo para que preste atención a la clave de referencia correcta en la capa de atención durante el entrenamiento. Específicamente, se logra a través de una pérdida de regularización sobre el mapa de atención dentro de una línea base basada en difusión. Nuestros extensos experimentos muestran que Leffa logra un rendimiento de vanguardia en el control de la apariencia (prueba virtual de ropa) y la pose (transferencia de pose), reduciendo significativamente la distorsión de detalles detallados mientras mantiene una alta calidad de imagen. Además, demostramos que nuestra pérdida es independiente del modelo y puede utilizarse para mejorar el rendimiento de otros modelos de difusión.
El ecosistema BrowserGym aborda la creciente necesidad de evaluación y comparación eficientes de agentes web, especialmente aquellos que aprovechan la automatización y los Modelos de Lenguaje Grande (LLMs) para tareas de interacción web. Muchos benchmarks existentes sufren de fragmentación y metodologías de evaluación inconsistentes, lo que dificulta lograr comparaciones confiables y resultados reproducibles. BrowserGym tiene como objetivo resolver esto al proporcionar un entorno unificado, similar a un gimnasio, con espacios de observación y acción bien definidos, facilitando la evaluación estandarizada en diversos benchmarks. Combinado con AgentLab, un marco complementario que ayuda en la creación, prueba y análisis de agentes, BrowserGym ofrece flexibilidad para integrar nuevos benchmarks mientras garantiza una evaluación consistente y una gestión de experimentos integral. Este enfoque estandarizado busca reducir el tiempo y la complejidad en el desarrollo de agentes web, respaldando comparaciones más confiables y facilitando el análisis profundo de los comportamientos de los agentes, lo que podría resultar en agentes más adaptables y capaces, acelerando en última instancia la innovación en la automatización impulsada por LLM. Como evidencia de apoyo, realizamos el primer experimento de agentes web a gran escala y multi-benchmark, comparando el rendimiento de 6 LLMs de última generación en todos los benchmarks actualmente disponibles en BrowserGym. Entre otros hallazgos, nuestros resultados resaltan una gran discrepancia entre los modelos más recientes de OpenAI y Anthropic, siendo Claude-3.5-Sonnet el líder en casi todos los benchmarks, excepto en tareas relacionadas con la visión donde GPT-4o es superior. A pesar de estos avances, nuestros resultados enfatizan que construir agentes web robustos y eficientes sigue siendo un desafío significativo, debido a la complejidad inherente de los entornos web del mundo real y las limitaciones de los modelos actuales.
Si bien los generadores de video fundamentales recientes producen resultados visualmente ricos, todavía luchan con la deriva de apariencia, donde los objetos degradan gradualmente o cambian de manera inconsistente a lo largo de los fotogramas, rompiendo la coherencia visual. Hipotetizamos que esto se debe a la falta de supervisión explícita en términos de seguimiento espacial a nivel de características. Proponemos Track4Gen, un generador de video con conciencia espacial que combina la pérdida de difusión de video con el seguimiento de puntos a lo largo de los fotogramas, proporcionando una supervisión espacial mejorada en las características de difusión. Track4Gen fusiona las tareas de generación de video y seguimiento de puntos en una sola red al realizar cambios mínimos en las arquitecturas existentes de generación de video. Utilizando la Difusión de Video Estable como base, Track4Gen demuestra que es posible unificar la generación de video y el seguimiento de puntos, que típicamente se manejan como tareas separadas. Nuestras extensas evaluaciones muestran que Track4Gen reduce efectivamente la deriva de apariencia, lo que resulta en una generación de video temporalmente estable y visualmente coherente. Página del proyecto: hyeonho99.github.io/track4gen
El control de estilo ha sido popular en modelos de generación de video. Los métodos existentes a menudo generan videos lejos del estilo dado, causan fugas de contenido y luchan por transferir un video a un estilo deseado. Nuestra primera observación es que la etapa de extracción de estilo es importante, mientras que los métodos existentes enfatizan el estilo global pero ignoran las texturas locales. Para incorporar características de textura y evitar fugas de contenido, filtramos parches relacionados con el contenido mientras mantenemos los de estilo basados en la similitud de parches; para la extracción de estilo global, generamos un conjunto de datos de estilo emparejado a través de la ilusión del modelo para facilitar el aprendizaje contrastivo, lo que mejora significativamente la consistencia absoluta del estilo. Además, para cerrar la brecha entre imagen y video, entrenamos un adaptador de movimiento ligero en videos estáticos, lo que mejora implícitamente el alcance de la estilización y permite que nuestro modelo entrenado en imágenes se aplique sin problemas a videos. Gracias a estos esfuerzos, nuestro enfoque, StyleMaster, no solo logra una mejora significativa tanto en la similitud de estilo como en la coherencia temporal, sino que también puede generalizarse fácilmente a la transferencia de estilo de video con un ControlNet en escala de grises. Experimentos extensos y visualizaciones demuestran que StyleMaster supera significativamente a sus competidores, generando efectivamente videos estilizados de alta calidad que se alinean con el contenido textual y se asemejan estrechamente al estilo de las imágenes de referencia. Nuestra página del proyecto se encuentra en https://zixuan-ye.github.io/stylemaster.
Los modelos gaussianos de avance de alimentación generalizados han logrado un progreso significativo en la reconstrucción 3D de vista escasa al aprovechar el conocimiento previo de grandes conjuntos de datos multivista. Sin embargo, estos modelos a menudo tienen dificultades para representar detalles de alta frecuencia debido al número limitado de gaussianas. Mientras que la estrategia de densificación utilizada en la optimización de salpicaduras gaussianas 3D por escena (3D-GS) puede adaptarse a los modelos de avance de alimentación, puede que no sea ideal para escenarios generalizados. En este documento, proponemos la Densificación Generativa, un método eficiente y generalizable para densificar las gaussianas generadas por modelos de avance de alimentación. A diferencia de la estrategia de densificación 3D-GS, que divide y clona de forma iterativa los parámetros gaussianos crudos, nuestro método aumenta la representación de características de los modelos de avance de alimentación y genera sus correspondientes gaussianas finas en un solo pase hacia adelante, aprovechando el conocimiento previo incrustado para una generalización mejorada. Los resultados experimentales en tareas de reconstrucción a nivel de objeto y escena demuestran que nuestro método supera a enfoques de vanguardia con tamaños de modelo comparables o más pequeños, logrando mejoras notables en la representación de detalles finos.
Este documento presenta StreamChat, un enfoque novedoso que mejora las capacidades de interacción de los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) con contenido de video en streaming. En escenarios de interacción en tiempo real, los métodos existentes se basan únicamente en la información visual disponible en el momento en que se plantea una pregunta, lo que resulta en retrasos significativos ya que el modelo no está al tanto de los cambios posteriores en el video en streaming. StreamChat aborda esta limitación actualizando de manera innovadora el contexto visual en cada paso de decodificación, asegurando que el modelo utilice contenido de video actualizado a lo largo del proceso de decodificación. Además, introducimos una arquitectura flexible y eficiente basada en atención cruzada para procesar entradas de video en streaming dinámicas manteniendo la eficiencia de inferencia para interacciones en tiempo real. Además, construimos un nuevo conjunto de datos de instrucciones densas para facilitar el entrenamiento de modelos de interacción en tiempo real, complementado con un mecanismo paralelo 3D-RoPE que codifica la información temporal relativa de los tokens visuales y de texto. Los resultados experimentales demuestran que StreamChat logra un rendimiento competitivo en benchmarks establecidos de imágenes y videos, y muestra capacidades superiores en escenarios de interacción en tiempo real en comparación con los LMM de video de última generación.
La edición de imágenes reales utilizando un modelo de difusión/flujos pre-entrenado de texto a imagen (T2I) a menudo implica invertir la imagen en su mapa de ruido correspondiente. Sin embargo, la inversión por sí sola suele ser insuficiente para obtener resultados satisfactorios, por lo que muchos métodos intervienen adicionalmente en el proceso de muestreo. Estos métodos logran resultados mejorados, pero no son fácilmente transferibles entre arquitecturas de modelos. Aquí presentamos FlowEdit, un método de edición basado en texto para modelos de flujo T2I pre-entrenados, que no requiere inversión, optimización ni está ligado a un modelo específico. Nuestro método construye una Ecuación Diferencial Ordinaria (ODE) que mapea directamente entre las distribuciones de origen y destino (correspondientes a las indicaciones de texto de origen y destino) y logra un costo de transporte más bajo que el enfoque de inversión. Esto conduce a resultados de vanguardia, como ilustramos con Stable Diffusion 3 y FLUX. El código y ejemplos están disponibles en la página web del proyecto.
El razonamiento espacial en 3D es la capacidad de analizar e interpretar las posiciones, orientaciones y relaciones espaciales de objetos dentro del espacio tridimensional. Esto permite que los modelos desarrollen una comprensión integral de la escena en 3D, lo que habilita su aplicabilidad en una amplia gama de áreas, como la navegación autónoma, la robótica y la RA/RV. Si bien los grandes modelos multimodales (LMMs, por sus siglas en inglés) han logrado un progreso notable en una amplia variedad de tareas de comprensión de imágenes y videos, se ha estudiado menos su capacidad para realizar razonamiento espacial en 3D en imágenes naturales diversas. En este trabajo presentamos el primer banco de pruebas exhaustivo de razonamiento espacial en 3D, 3DSRBench, con 2,772 pares de preguntas y respuestas visuales anotadas manualmente en 12 tipos de preguntas. Realizamos una evaluación sólida y exhaustiva de las capacidades de razonamiento espacial en 3D equilibrando la distribución de datos y adoptando una estrategia novedosa de FlipEval. Para estudiar aún más la robustez del razonamiento espacial en 3D con respecto a los puntos de vista en 3D de la cámara, nuestro 3DSRBench incluye dos subconjuntos con preguntas de razonamiento espacial en 3D sobre imágenes emparejadas con puntos de vista comunes e inusuales. Evaluamos una amplia gama de LMMs de código abierto y propietarios, descubriendo sus limitaciones en varios aspectos de la conciencia en 3D, como altura, orientación, ubicación y razonamiento multiobjeto, así como su rendimiento degradado en imágenes con puntos de vista de cámara inusuales. Nuestro 3DSRBench proporciona hallazgos e ideas valiosas sobre el futuro desarrollo de LMMs con sólidas capacidades de razonamiento en 3D. Nuestra página de proyecto y conjunto de datos están disponibles en https://3dsrbench.github.io.
En el campo de la generación de texto a movimiento, los Modelos Enmascarados tipo Bert (MoMask, MMM) actualmente producen salidas de mayor calidad en comparación con los modelos autoregresivos tipo GPT (T2M-GPT). Sin embargo, estos modelos tipo Bert a menudo carecen de la capacidad de salida en tiempo real requerida para aplicaciones en videojuegos y entornos multimedia, una característica inherente a los modelos tipo GPT. Además, demuestran un rendimiento más débil en la generación fuera de distribución. Para superar la calidad de los modelos tipo BERT aprovechando una estructura tipo GPT, sin agregar modelos de refinamiento adicionales que compliquen la escalabilidad de los datos, proponemos una arquitectura novedosa, Mogo (Generar Movimiento Solo una Vez), que genera movimientos humanos 3D realistas de alta calidad entrenando un único modelo transformador. Mogo consta de solo dos componentes principales: 1) RVQ-VAE, un autoencoder variacional de cuantificación vectorial residual jerárquico, que discretiza secuencias de movimiento continuas con alta precisión; 2) Transformador Causal Jerárquico, responsable de generar las secuencias de movimiento base de manera autoregresiva mientras infiere simultáneamente residuos en diferentes capas. Los resultados experimentales demuestran que Mogo puede generar secuencias de movimiento continuas y cíclicas de hasta 260 fotogramas (13 segundos), superando la limitación de longitud de 196 fotogramas (10 segundos) de conjuntos de datos existentes como HumanML3D. En el conjunto de prueba de HumanML3D, Mogo logra una puntuación FID de 0.079, superando tanto al modelo tipo GPT T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) como al modelo tipo BERT MMM (FID = 0.080). Además, nuestro modelo logra el mejor rendimiento cuantitativo en la generación fuera de distribución.
Exploramos una experiencia novedosa de creación de videos, denominada Creación de Video por Demostración. Dado un video de demostración y una imagen de contexto de una escena diferente, generamos un video físicamente plausible que continúa de forma natural a partir de la imagen de contexto y lleva a cabo los conceptos de acción de la demostración. Para habilitar esta capacidad, presentamos Delta-Diffusion, un enfoque de entrenamiento auto-supervisado que aprende de videos no etiquetados mediante la predicción condicional de fotogramas futuros. A diferencia de la mayoría de los controles de generación de video existentes que se basan en señales explícitas, adoptamos la forma de control latente implícito para una flexibilidad y expresividad máximas requeridas por videos generales. Al aprovechar un modelo de base de video con un diseño de cuello de botella de apariencia en la parte superior, extraemos latentes de acción de videos de demostración para condicionar el proceso de generación con una filtración de apariencia mínima. Empíricamente, Delta-Diffusion supera a los baselines relacionados en términos de preferencia humana y evaluaciones a gran escala de máquinas, y demuestra potencial hacia la simulación interactiva del mundo. Los resultados de generación de video muestreados están disponibles en https://delta-diffusion.github.io/.
Se sabe que los Modelos de Lenguaje Grandes capturan conocimiento del mundo real, lo que les permite destacarse en muchas tareas secundarias. A pesar de los avances recientes, estos modelos aún son propensos a lo que comúnmente se conoce como alucinaciones, lo que les hace emitir texto no deseado e incorrecto desde el punto de vista factual. En este trabajo, proponemos un método de calibración novedoso que puede utilizarse para combatir las alucinaciones. Añadimos un token especial de "[IDK]" ("No lo sé") al vocabulario del modelo e introducimos una función objetivo que desplaza la masa de probabilidad hacia el token [IDK] para predicciones incorrectas. Este enfoque permite al modelo expresar su incertidumbre explícitamente en su salida. Evaluamos nuestro método propuesto en múltiples arquitecturas de modelos y tareas secundarias factuales. Descubrimos que los modelos entrenados con nuestro método pueden expresar incertidumbre en lugares donde previamente cometían errores, sufriendo solo una pequeña pérdida de conocimiento codificado. Además, realizamos extensos estudios de ablación de múltiples variaciones de nuestro enfoque y proporcionamos un análisis detallado del equilibrio precisión-recuperación de nuestro método.
El aumento en el tamaño de los modelos de lenguaje grandes (LLMs) conlleva una sobrecarga computacional significativa y un uso elevado de memoria al adaptar estos modelos a tareas o dominios específicos. Se han ideado varios métodos de ajuste fino eficientes en parámetros (PEFT) para mitigar estos desafíos mediante el entrenamiento de un pequeño conjunto de parámetros para las actualizaciones específicas de la tarea de los pesos del modelo. Entre los métodos PEFT, LoRA destaca por su simplicidad y eficiencia, inspirando el desarrollo de una serie de variantes. Sin embargo, LoRA y sus sucesores ignoran el conocimiento que es ruidoso o irrelevante para la tarea objetivo, lo que impacta negativamente en el rendimiento del modelo y conduce a la suboptimalidad. Para abordar esta limitación, presentamos Adaptación de Valor Singular Consciente del Conocimiento (KaSA), un método PEFT que aprovecha la descomposición en valores singulares (SVD) con valores singulares conscientes del conocimiento para activar dinámicamente el conocimiento en función de su relevancia para la tarea en cuestión. Realizamos experimentos extensos en una variedad de LLMs en tareas que abarcan comprensión del lenguaje natural (NLU), generación de texto (NLG), seguimiento de instrucciones y razonamiento del sentido común. Los resultados experimentales demuestran que KaSA supera consistentemente a FFT y 14 baselines populares de PEFT en 16 pruebas y 4 conjuntos de datos sintéticos, destacando la eficacia y adaptabilidad de nuestro método. El código fuente de nuestro método está disponible en https://github.com/juyongjiang/KaSA.
La transferencia de estilo impulsada por texto tiene como objetivo combinar el estilo de una imagen de referencia con el contenido descrito por una indicación de texto. Los avances recientes en modelos de texto a imagen han mejorado la sutileza de las transformaciones de estilo, sin embargo, siguen existiendo desafíos significativos, especialmente con el sobreajuste a estilos de referencia, limitando el control estilístico y desalineándose con el contenido textual. En este documento, proponemos tres estrategias complementarias para abordar estos problemas. En primer lugar, presentamos un mecanismo de Normalización de Instancia Adaptativa (AdaIN) cruzada-modal para una mejor integración de las características de estilo y texto, mejorando la alineación. En segundo lugar, desarrollamos un enfoque de Guía sin Clasificador basado en Estilo (SCFG) que permite un control selectivo sobre elementos estilísticos, reduciendo influencias irrelevantes. Finalmente, incorporamos un modelo docente durante las primeras etapas de generación para estabilizar los diseños espaciales y mitigar artefactos. Nuestras extensas evaluaciones demuestran mejoras significativas en la calidad de la transferencia de estilo y la alineación con las indicaciones textuales. Además, nuestro enfoque puede integrarse en marcos de transferencia de estilo existentes sin necesidad de ajustes finos.
Crear datos de alta calidad para entrenar agentes de lenguaje robustos en el ámbito de la IA incorporada es un desafío de larga data. En este documento, presentamos un Ciclo de Datos Autorrefinante (SRDF, por sus siglas en inglés) que genera pares de instrucciones de navegación y trayectorias de alta calidad y a gran escala mediante la refinación iterativa del conjunto de datos a través de la colaboración entre dos modelos, el generador de instrucciones y el navegador, sin ninguna anotación humana en el proceso. Específicamente, SRDF comienza utilizando un generador base para crear un conjunto de datos inicial para entrenar un navegador base, seguido por la aplicación del navegador entrenado para filtrar el conjunto de datos. Esto conduce a datos de mayor fidelidad para entrenar un generador mejor, que a su vez puede producir datos de mayor calidad para entrenar al navegador de la siguiente ronda. Este ciclo establece un proceso de autorrefinamiento de datos, generando un conjunto de datos continuamente mejorado y altamente efectivo para el aprendizaje de navegación guiado por lenguaje a gran escala. Nuestros experimentos demuestran que después de varias rondas del ciclo, el navegador eleva el límite de rendimiento del 70% al 78% SPL en el clásico conjunto de pruebas R2R, superando el rendimiento humano (76%) por primera vez. Mientras tanto, este proceso resulta en un generador superior, evidenciado por un aumento de SPICE de 23.5 a 26.2, mejor que todos los métodos anteriores de generación de instrucciones de VLN. Finalmente, demostramos la escalabilidad de nuestro método aumentando la diversidad del entorno e instrucciones, y la capacidad de generalización de nuestro navegador preentrenado en diversas tareas de navegación, superando con creces los métodos de vanguardia en todos los casos.
La Traducción de Imágenes (TI) tiene un inmenso potencial en diversos ámbitos, permitiendo la traducción del contenido textual dentro de las imágenes a varios idiomas. Sin embargo, los conjuntos de datos existentes a menudo sufren limitaciones en escala, diversidad y calidad, lo que dificulta el desarrollo y la evaluación de los modelos de TI. Para abordar este problema, presentamos MIT-10M, un corpus paralelo a gran escala de traducción de imágenes multilingüe con más de 10 millones de pares de imágenes-texto derivados de datos del mundo real, que ha sido sometido a una extensa limpieza de datos y validación de traducción multilingüe. Contiene 840 000 imágenes en tres tamaños, 28 categorías, tareas con tres niveles de dificultad y 14 pares de idiomas de imágenes-texto, lo cual representa una mejora considerable en comparación con los conjuntos de datos existentes. Realizamos experimentos exhaustivos para evaluar y entrenar modelos en MIT-10M. Los resultados experimentales indican claramente que nuestro conjunto de datos tiene una mayor adaptabilidad para evaluar el rendimiento de los modelos en abordar tareas de traducción de imágenes desafiantes y complejas en el mundo real. Además, el rendimiento del modelo ajustado con MIT-10M se ha triplicado en comparación con el modelo base, confirmando aún más su superioridad.