Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para código se han vuelto indispensables en diversos dominios, incluyendo la generación de código, tareas de razonamiento y sistemas de agentes. Si bien los LLMs de código de acceso abierto están acercándose cada vez más a los niveles de rendimiento de los modelos propietarios, los LLMs de código de alta calidad adecuados para investigaciones científicas rigurosas, particularmente aquellos con pipelines de procesamiento de datos reproducibles y protocolos de entrenamiento transparentes, siguen siendo limitados. Esta escasez se debe a diversos desafíos, incluyendo limitaciones de recursos, consideraciones éticas y las ventajas competitivas de mantener los modelos avanzados. Para abordar esta brecha, presentamos OpenCoder, un LLM de código de primer nivel que no solo alcanza un rendimiento comparable a los modelos líderes, sino que también sirve como un "libro de cocina abierto" para la comunidad de investigación. A diferencia de la mayoría de los esfuerzos previos, no solo liberamos los pesos del modelo y el código de inferencia, sino también los datos de entrenamiento reproducibles, el pipeline completo de procesamiento de datos, los resultados rigurosos de ablación experimental y los protocolos de entrenamiento detallados para la investigación científica abierta. A través de esta publicación integral, identificamos los ingredientes clave para construir un LLM de código de primer nivel: (1) reglas heurísticas optimizadas para la limpieza de datos y métodos para la deduplicación de datos, (2) recuperación de corpus de texto relacionados con el código y (3) datos sintéticos de alta calidad en las etapas de ajuste fino supervisado y de recocido. Al ofrecer este nivel de apertura, nuestro objetivo es ampliar el acceso a todos los aspectos de un LLM de código de primer nivel, con OpenCoder sirviendo tanto como un modelo potente como una base abierta para acelerar la investigación y permitir avances reproducibles en la IA de código.
Las investigaciones recientes sobre Modelos de Lenguaje a Gran Escala (LLMs) de 1 bit, como BitNet b1.58, presentan una dirección prometedora para reducir el coste de inferencia de los LLMs manteniendo su rendimiento. En este trabajo, presentamos BitNet a4.8, que permite activaciones de 4 bits para LLMs de 1 bit. BitNet a4.8 emplea una estrategia híbrida de cuantización y esparcificación para mitigar los errores de cuantización introducidos por los canales atípicos. Específicamente, utilizamos activaciones de 4 bits para las entradas a las capas de atención y de red de alimentación hacia adelante, mientras que esparcificamos los estados intermedios seguidos de una cuantización de 8 bits. Experimentos exhaustivos demuestran que BitNet a4.8 alcanza un rendimiento comparable al de BitNet b1.58 con costes de entrenamiento equivalentes, siendo más rápido en inferencia al permitir núcleos de 4 bits (INT4/FP4). Adicionalmente, BitNet a4.8 activa solo el 55% de los parámetros y admite una caché KV de 3 bits, mejorando aún más la eficiencia del despliegue y la inferencia de LLMs a gran escala.
En este artículo presentamos DimensionX, un marco diseñado para generar escenas 3D y 4D fotorrealistas a partir de una sola imagen mediante difusión de video. Nuestro enfoque parte de la idea de que tanto la estructura espacial de una escena 3D como la evolución temporal de una escena 4D pueden representarse eficazmente mediante secuencias de fotogramas de video. Si bien los modelos recientes de difusión de video han demostrado un éxito notable en la producción de imágenes vívidas, presentan limitaciones para reconstruir directamente escenas 3D/4D debido a una controlabilidad espacial y temporal limitada durante la generación. Para superar esto, proponemos ST-Director, que desacopla los factores espaciales y temporales en la difusión de video mediante el aprendizaje de LoRAs conscientes de la dimensión a partir de datos variantes en dimensión. Este enfoque de difusión de video controlable permite una manipulación precisa de la estructura espacial y la dinámica temporal, lo que nos permite reconstruir representaciones tanto 3D como 4D a partir de fotogramas secuenciales con la combinación de dimensiones espaciales y temporales. Adicionalmente, para salvar la brecha entre los videos generados y las escenas del mundo real, introducimos un mecanismo consciente de la trayectoria para la generación 3D y una estrategia de eliminación de ruido que preserva la identidad para la generación 4D. Experimentos exhaustivos en varios conjuntos de datos del mundo real y sintéticos demuestran que DimensionX logra resultados superiores en generación de video controlable, así como en generación de escenas 3D y 4D, en comparación con métodos anteriores.
El desarrollo de los grandes modelos de lenguaje (LLM) se ha expandido hacia sistemas multimodales capaces de procesar texto, imágenes y voz dentro de un marco unificado. El entrenamiento de estos modelos requiere conjuntos de datos y recursos computacionales significativamente mayores en comparación con los LLM que solo procesan texto. Para abordar los desafíos de escalabilidad, presentamos Mixture-of-Transformers (MoT), una arquitectura de transformador multimodal dispersa que reduce significativamente los costos computacionales del preentrenamiento. MoT desacopla los parámetros no de incrustación del modelo por modalidad —incluyendo redes neuronales feed-forward, matrices de atención y normalización de capa— permitiendo un procesamiento específico por modalidad con autoatención global sobre la secuencia de entrada completa. Evaluamos MoT en múltiples configuraciones y escalas de modelo. En la configuración Chameleon 7B (generación autoregresiva de texto e imágenes), MoT iguala el rendimiento de la línea de base densa utilizando solo el 55.8% de los FLOPS. Cuando se extiende para incluir voz, MoT alcanza un rendimiento en voz comparable al de la línea de base densa con solo el 37.2% de los FLOPS. En la configuración Transfusion, donde el texto y la imagen se entrenan con objetivos diferentes, un modelo MoT de 7B iguala el rendimiento de la modalidad de imagen de la línea de base densa con un tercio de los FLOPS, y un modelo MoT de 760M supera a una línea de base densa de 1.4B en métricas clave de generación de imágenes. La evaluación del sistema resalta además los beneficios prácticos de MoT, logrando la calidad de imagen de la línea de base densa en el 47.2% del tiempo de reloj de pared y la calidad de texto en el 75.6% del tiempo de reloj de pared (medido en instancias AWS p4de.24xlarge con GPUs NVIDIA A100).
Los sistemas de respuesta visual a preguntas sobre documentos (DocVQA), que responden preguntas basadas en documentos, tienen amplias aplicaciones. Los métodos existentes se centran en procesar documentos de una sola página con modelos de lenguaje multimodal (MLM), o dependen de generación aumentada por recuperación (RAG) basada en texto que utiliza herramientas de extracción de texto como el reconocimiento óptico de caracteres (OCR). Sin embargo, existen dificultades para aplicar estos métodos en escenarios del mundo real: (a) las preguntas a menudo requieren información de diferentes páginas o documentos, donde los MLM no pueden manejar muchos documentos largos; (b) los documentos suelen contener información importante en elementos visuales como figuras, pero las herramientas de extracción de texto los ignoran. Presentamos M3DocRAG, un novedoso marco de trabajo RAG multimodal que se adapta flexiblemente a varios contextos de documentos (dominio cerrado y abierto), niveles de complejidad de las preguntas (salto único y saltos múltiples) y modalidades de evidencia (texto, gráficos, figuras, etc.). M3DocRAG encuentra documentos relevantes y responde preguntas utilizando un recuperador multimodal y un MLM, lo que le permite manejar de manera eficiente uno o muchos documentos preservando la información visual. Dado que los conjuntos de datos anteriores de DocVQA plantean preguntas en el contexto de un documento específico, también presentamos M3DocVQA, un nuevo punto de referencia para evaluar DocVQA de dominio abierto con más de 3,000 documentos PDF que suman más de 40,000 páginas. En tres benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA), los resultados empíricos muestran que M3DocRAG con ColPali y Qwen2-VL 7B logra un rendimiento superior al de muchas líneas base sólidas, incluyendo un rendimiento de vanguardia en MP-DocVQA. Proporcionamos análisis exhaustivos de diferentes modelos de indexación, MLM y recuperación. Por último, mostramos cualitativamente que M3DocRAG puede manejar con éxito varios escenarios, como cuando la información relevante existe en múltiples páginas y cuando la evidencia para la respuesta solo existe en imágenes.
La alineación detallada entre videos y texto es un desafío debido a la compleja dinámica espacial y temporal en los videos. Los Modelos Multimodales Grandes (LMMs) existentes basados en video manejan conversaciones básicas, pero luchan con la localización precisa a nivel de píxel en videos. Para abordar esto, presentamos VideoGLaMM, un LMM diseñado para una localización detallada a nivel de píxel en videos basada en entradas textuales proporcionadas por el usuario. Nuestro diseño conecta perfectamente tres componentes clave: un Modelo de Lenguaje Grande, un codificador de visión dual que enfatiza tanto los detalles espaciales como temporales, y un decodificador espacio-temporal para la generación precisa de máscaras. Esta conexión se facilita mediante adaptadores sintonizables V-L y L-V que permiten una estrecha alineación Visión-Lenguaje (VL). La arquitectura está entrenada para sincronizar tanto los elementos espaciales como temporales del contenido del video con las instrucciones textuales. Para permitir la localización detallada, hemos creado un conjunto de datos multimodal que presenta conversaciones detalladas visualmente ancladas utilizando una pipeline de anotación semiautomática, resultando en un conjunto diverso de 38k tripletas video-pregunta-respuesta junto con 83k objetos y 671k máscaras. Evaluamos VideoGLaMM en tres tareas desafiantes: Generación de Conversaciones Ancladas, Localización Visual y Segmentación de Video por Referencia. Los resultados experimentales muestran que nuestro modelo supera consistentemente a los enfoques existentes en las tres tareas.
Con la introducción de modelos basados en transformadores para tareas de visión y lenguaje, como LLaVA y Chameleon, ha resurgido el interés en la representación tokenizada discreta de las imágenes. Estos modelos a menudo tratan los parches de imagen como tokens discretos, análogos a las palabras en el lenguaje natural, aprendiendo alineaciones conjuntas entre los lenguajes visual y humano. Sin embargo, se sabe poco sobre el comportamiento estadístico de estos lenguajes visuales: si siguen distribuciones de frecuencia, estructuras gramaticales o topologías similares a las de los lenguajes naturales. En este artículo, adoptamos un enfoque centrado en el lenguaje natural para analizar los lenguajes visuales discretos y descubrimos similitudes sorprendentes y diferencias fundamentales. Demostramos que, aunque los lenguajes visuales se adhieren a distribuciones zipfianas, una mayor innovación en los tokens conduce a una mayor entropía y una menor compresión, representando los tokens predominantemente partes de objetos, lo que indica una granularidad intermedia. También mostramos que los lenguajes visuales carecen de estructuras gramaticales cohesivas, lo que resulta en una mayor perplejidad y una organización jerárquica más débil en comparación con los lenguajes naturales. Finalmente, demostramos que, aunque los modelos de visión se alinean más estrechamente con los lenguajes naturales que otros modelos, esta alineación sigue siendo significativamente más débil que la cohesión encontrada dentro de los lenguajes naturales. A través de estos experimentos, demostramos cómo comprender las propiedades estadísticas de los lenguajes visuales discretos puede informar el diseño de modelos de visión por computadora más efectivos.
Para fortalecer los vínculos sociales con los interlocutores, los seres humanos adquieren naturalmente la capacidad de responder adecuadamente en una situación determinada, evaluando qué habilidad conversacional es la más apropiada para la respuesta, un proceso que denominamos *skill-of-mind* (habilidad mental). Para los agentes conversacionales basados en modelos de lenguaje grandes (LLM), planificar habilidades conversacionales apropiadas, como lo hacen los humanos, es un desafío debido a la complejidad del diálogo social, especialmente en escenarios interactivos. Para abordar esto, proponemos un conjunto de datos de conversaciones anotadas con *skill-of-mind*, denominado **Multifaceted Skill-of-Mind** (Habilidad Mental Multifacética), que incluye habilidades conversacionales multiturno y multifacéticas en diversos escenarios interactivos (por ejemplo, a largo plazo, de asesoramiento, orientados a tareas), fundamentadas en contextos sociales variados (por ejemplo, datos demográficos, personajes, reglas prácticas). Este conjunto de datos consta de aproximadamente 100.000 conversaciones. Utilizando este conjunto de datos, presentamos una nueva familia de LLM infundidos con *skill-of-mind*, llamada **Thanos**, con tamaños de modelo de 1B, 3B y 8B de parámetros. Mediante experimentos exhaustivos, estos modelos demuestran exitosamente el proceso de *skill-of-mind* y exhiben una fuerte capacidad de generalización para inferir habilidades multifacéticas en una variedad de dominios. Además, mostramos que Thanos mejora significativamente la calidad de las respuestas generadas por los agentes conversacionales basados en LLM y fomenta comportamientos prosociales en evaluaciones humanas.
Se ha demostrado que los modelos de difusión son altamente efectivos para generar imágenes de alta calidad. Sin embargo, a medida que estos modelos aumentan de tamaño, requieren significativamente más memoria y sufren una mayor latencia, lo que plantea desafíos sustanciales para su implementación. En este trabajo, nuestro objetivo es acelerar los modelos de difusión mediante la cuantización de sus pesos y activaciones a 4 bits. A un nivel tan agresivo, tanto los pesos como las activaciones son altamente sensibles, por lo que los métodos convencionales de cuantización posterior al entrenamiento para modelos de lenguaje grandes, como el suavizado, resultan insuficientes. Para superar esta limitación, proponemos SVDQuant, un nuevo paradigma de cuantización a 4 bits. A diferencia del suavizado, que redistribuye los valores atípicos entre pesos y activaciones, nuestro enfoque absorbe estos valores atípicos utilizando una rama de bajo rango. Primero consolidamos los valores atípicos desplazándolos de las activaciones a los pesos, y luego empleamos una rama de bajo rango de alta precisión para absorber los valores atípicos de los pesos mediante la Descomposición en Valores Singulares (SVD). Este proceso facilita la cuantización en ambos lados. Sin embargo, ejecutar la rama de bajo rango de forma independiente y naive incurre en una sobrecarga significativa debido al movimiento de datos adicional de las activaciones, anulando la aceleración obtenida por la cuantización. Para abordar esto, co-diseñamos un motor de inferencia, Nunchaku, que fusiona los núcleos de la rama de bajo rango con los de la rama de bajo número de bits para eliminar el acceso redundante a la memoria. También puede admitir perfectamente adaptadores de bajo rango (LoRAs) estándar sin necesidad de recuantización. Experimentos exhaustivos en SDXL, PixArt-Sigma y FLUX.1 validan la efectividad de SVDQuant para preservar la calidad de la imagen. Reducimos el uso de memoria para los modelos FLUX.1 de 12B en 3.5 veces, logrando una aceleración de 3.0 veces sobre la línea base cuantizada solo en pesos a 4 bits en una GPU laptop 4090 de 16 GB, allanando el camino para aplicaciones más interactivas en PCs. Nuestra biblioteca de cuantización y nuestro motor de inferencia son de código abierto.
A medida que aumentan los límites de contexto de los Modelos de Lenguaje a Gran Escala (LLM), se amplía el rango de aplicaciones posibles y funciones derivadas. En muchas tareas del mundo real, las decisiones dependen de detalles dispersos en colecciones de documentos, a menudo dispares, que contienen mayoritariamente información irrelevante. Los LLM de contexto largo parecen estar bien adaptados a esta forma de recuperación y razonamiento de información compleja, que tradicionalmente ha demostrado ser costosa y requiere mucho tiempo. Sin embargo, aunque el desarrollo de modelos de contexto más largo ha experimentado avances rápidos en los últimos años, nuestra comprensión de cuán efectivamente los LLM utilizan su contexto no ha avanzado al mismo ritmo. Para abordar esto, realizamos una serie de experimentos de recuperación diseñados para evaluar las capacidades de 17 LLM líderes, como su capacidad para seguir hilos de información a través de la ventana de contexto. Sorprendentemente, encontramos que muchos modelos son notablemente robustos para seguir hilos: capaces de seguir múltiples hilos simultáneamente sin una pérdida significativa de rendimiento. No obstante, para muchos modelos, encontramos que el límite efectivo de contexto es significativamente más corto que la longitud de contexto admitida, disminuyendo la precisión a medida que crece la ventana de contexto. Nuestro estudio también destaca el punto importante de que los recuentos de tokens de diferentes tokenizadores no deben compararse directamente, ya que a menudo corresponden a números sustancialmente diferentes de caracteres escritos. Publicamos nuestro código y los datos experimentales de contexto largo.
Se ha logrado un progreso significativo en la manipulación móvil de vocabulario abierto, cuyo objetivo es que un robot realice tareas en cualquier entorno dada una descripción en lenguaje natural. Sin embargo, la mayoría de los sistemas actuales asumen un entorno estático, lo que limita la aplicabilidad del sistema en escenarios del mundo real, donde los entornos cambian con frecuencia debido a la intervención humana o a las acciones propias del robot. En este trabajo, presentamos DynaMem, un nuevo enfoque para la manipulación móvil en mundo abierto que utiliza una memoria espacioso-semántica dinámica para representar el entorno de un robot. DynaMem construye una estructura de datos 3D para mantener una memoria dinámica de nubes de puntos, y responde a consultas de localización de objetos de vocabulario abierto utilizando LLM multimodales o características de vocabulario abierto generadas por modelos visión-lenguaje de vanguardia. Impulsados por DynaMem, nuestros robots pueden explorar entornos novedosos, buscar objetos no encontrados en la memoria y actualizar continuamente la memoria a medida que los objetos se mueven, aparecen o desaparecen en la escena. Realizamos extensos experimentos en robots Stretch SE3 en tres escenarios reales y nueve fuera de línea, y logramos una tasa promedio de éxito de recoger y soltar del 70% en objetos no estacionarios, lo que representa una mejora de más del doble respecto a los sistemas estáticos de vanguardia. Nuestro código, así como nuestros videos de experimentos e implementación, son de código abierto y pueden encontrarse en el sitio web de nuestro proyecto: https://dynamem.github.io/
La mezcla de códigos, la integración de elementos léxicos y gramatales de múltiples idiomas dentro de una sola oración, es un fenómeno lingüístico generalizado, particularmente prevalente en sociedades multilingües. En India, los usuarios de redes sociales participan frecuentemente en conversaciones con mezcla de códigos utilizando el alfabeto romano, especialmente entre comunidades de migrantes que forman grupos en línea para compartir información local relevante. Este artículo se centra en los desafíos de extraer información relevante de conversaciones con mezcla de códigos, específicamente dentro del bengalí transliterado al romano mezclado con inglés. Este estudio presenta un enfoque novedoso para abordar estos desafíos mediante el desarrollo de un mecanismo para identificar automáticamente las respuestas más relevantes de conversaciones con mezcla de códigos. Hemos experimentado con un conjunto de datos que comprende consultas y documentos de Facebook, y archivos de Relevancia de Consultas (QRels) para ayudar en esta tarea. Nuestros resultados demuestran la efectividad de nuestro enfoque para extraer información pertinente de conversaciones digitales complejas con mezcla de códigos, contribuyendo al campo más amplio del procesamiento del lenguaje natural en entornos de texto multilingües e informales. Utilizamos GPT-3.5 Turbo mediante *prompting*, junto con la naturaleza secuencial de los documentos relevantes, para formular un modelo matemático que ayuda a detectar documentos relevantes correspondientes a una consulta.
Los puntos de referencia existentes para evaluar modelos fundacionales se centran principalmente en tareas de un solo documento y solo texto. Sin embargo, a menudo no logran capturar plenamente la complejidad de los flujos de trabajo de investigación, que normalmente implican interpretar datos no textuales y recopilar información a través de múltiples documentos. Para abordar esta brecha, presentamos M3SciQA, un punto de referencia de respuesta a preguntas científicas multimodal y multidocumento, diseñado para una evaluación más integral de los modelos fundacionales. M3SciQA consta de 1.452 preguntas anotadas por expertos que abarcan 70 grupos de artículos de procesamiento del lenguaje natural, donde cada grupo representa un artículo principal junto con todos sus documentos citados, reflejando así el flujo de trabajo de comprensión de un solo artículo al requerir datos multimodales y multidocumento. Utilizando M3SciQA, realizamos una evaluación exhaustiva de 18 modelos fundacionales. Nuestros resultados indican que los modelos fundacionales actuales aún tienen un rendimiento significativamente inferior al de los expertos humanos tanto en la recuperación de información multimodal como en el razonamiento a través de múltiples documentos científicos. Además, exploramos las implicaciones de estos hallazgos para el avance futuro de la aplicación de modelos fundacionales en el análisis de literatura científica multimodal.
Presentamos GazeGen, un sistema de interacción de usuario que genera contenido visual (imágenes y videos) para las ubicaciones indicadas por la mirada del usuario. GazeGen permite la manipulación intuitiva del contenido visual al dirigirse a las regiones de interés con la mirada. Utilizando técnicas avanzadas de detección de objetos e IA generativa, GazeGen realiza la adición/eliminación, reposicionamiento y cambios de material superficial de objetos en imágenes controlados por la mirada, y convierte imágenes estáticas en videos. El núcleo de GazeGen es el agente DFT Gaze (Mirada Destilada y Ajustada), un modelo ultraligero con solo 281K parámetros, que realiza predicciones de mirada precisas en tiempo real adaptadas a los ojos de usuarios individuales en pequeños dispositivos de borde. GazeGen es el primer sistema que combina la generación de contenido visual con la estimación de la mirada en tiempo real, hecho posible exclusivamente por DFT Gaze. Esta estimación de mirada en tiempo real permite varias tareas de generación de contenido visual, todas controladas por la mirada del usuario. La entrada para DFT Gaze son las imágenes oculares del usuario, mientras que las entradas para la generación de contenido visual son la vista del usuario y el punto de mirada predicho por DFT Gaze. Para lograr predicciones de mirada eficientes, derivamos el modelo pequeño de un modelo grande (10 veces más grande) mediante novedosas técnicas de destilación de conocimiento y adaptación personal. Integramos la destilación de conocimiento con un autoencoder enmascarado, desarrollando un modelo de estimación de mirada compacto pero potente. Este modelo se ajusta aún más con Adaptadores, permitiendo predicciones de mirada altamente precisas y personalizadas con una mínima entrada del usuario. DFT Gaze garantiza un seguimiento de la mirada de baja latencia y preciso, apoyando una amplia gama de tareas impulsadas por la mirada. Validamos el rendimiento de DFT Gaze en los benchmarks AEA y OpenEDS2020, demostrando un bajo error angular de mirada y baja latencia en el dispositivo de borde (Raspberry Pi 4). Además, describimos aplicaciones de GazeGen, ilustrando su versatilidad y efectividad en varios escenarios de uso.
Los métodos de generación de vídeo a partir de imágenes han logrado una calidad impresionante y fotorrealista. Sin embargo, ajustar elementos específicos en los vídeos generados, como el movimiento de objetos o el desplazamiento de la cámara, suele ser un proceso tedioso de prueba y error que, por ejemplo, implica regenerar vídeos con diferentes semillas aleatorias. Técnicas recientes abordan este problema mediante el ajuste fino de un modelo preentrenado para seguir señales de condicionamiento, como cuadros delimitadores o trayectorias de puntos. No obstante, este procedimiento de ajuste fino puede ser computacionalmente costoso y requiere conjuntos de datos con movimiento de objetos anotado, que pueden ser difíciles de obtener. En este trabajo, presentamos SG-I2V, un marco para la generación controlada de vídeo a partir de imágenes que es autoguiado, ofreciendo control de tipo *zero-shot* al basarse únicamente en el conocimiento presente en un modelo de difusión preentrenado sin necesidad de ajuste fino o conocimiento externo. Nuestro método *zero-shot* supera a los métodos de referencia no supervisados y es competitivo con los modelos supervisados en términos de calidad visual y fidelidad del movimiento.
Más allá de la síntesis de imágenes de alta fidelidad, los modelos de difusión han exhibido recientemente resultados prometedores en tareas de percepción visual densa. Sin embargo, la mayoría del trabajo existente trata a los modelos de difusión como un componente independiente para tareas de percepción, empleándolos únicamente para aumentar datos predefinidos o como meros extractores de características. En contraste con estos esfuerzos aislados y por tanto subóptimos, presentamos un marco unificado y versátil basado en difusión, Diff-2-in-1, que puede manejar simultáneamente tanto la generación de datos multimodales como la percepción visual densa, mediante una explotación única del proceso de difusión-denoising. Dentro de este marco, mejoramos aún más la percepción visual discriminativa mediante la generación multimodal, utilizando la red de denoising para crear datos multimodales que reflejan la distribución del conjunto de entrenamiento original. Es importante destacar que Diff-2-in-1 optimiza la utilización de los datos diversos y fieles creados aprovechando un novedoso mecanismo de aprendizaje de auto-mejora. Evaluaciones experimentales exhaustivas validan la efectividad de nuestro marco, mostrando mejoras consistentes en el rendimiento a través de varios backbones discriminativos y una generación de datos multimodales de alta calidad caracterizada tanto por su realismo como por su utilidad.