Artículos de investigación en IA seleccionados diariamente con traducciones
El campo de la generación de video ha experimentado avances notables, sin embargo, persiste una necesidad apremiante de una receta clara y sistemática que pueda guiar el desarrollo de modelos robustos y escalables. En este trabajo, presentamos un estudio exhaustivo que explora sistemáticamente la interacción de arquitecturas de modelos, recetas de entrenamiento y estrategias de curación de datos, culminando en un método simple y escalable de generación de video condicionado por texto e imagen, denominado STIV. Nuestro marco integra la condición de imagen en un Transformador de Difusión (DiT) a través de la sustitución de fotogramas, al mismo tiempo que incorpora la condición de texto a través de una guía conjunta condicionada por imagen-texto sin clasificador. Este diseño permite que STIV realice tareas tanto de texto a video (T2V) como de texto-imagen a video (TI2V) simultáneamente. Además, STIV puede ser fácilmente ampliado a diversas aplicaciones, como predicción de video, interpolación de fotogramas, generación de múltiples vistas y generación de videos largos, entre otros. Con estudios de ablación exhaustivos en T2I, T2V y TI2V, STIV demuestra un rendimiento sólido, a pesar de su diseño simple. Un modelo de 8.7B con resolución de 512 logra 83.1 en VBench T2V, superando a modelos líderes de código abierto y cerrado como CogVideoX-5B, Pika, Kling y Gen-3. El modelo del mismo tamaño también logra un resultado de vanguardia de 90.1 en la tarea I2V de VBench a 512 de resolución. Al proporcionar una receta transparente y extensible para construir modelos de generación de video de vanguardia, nuestro objetivo es potenciar la investigación futura y acelerar el progreso hacia soluciones de generación de video más versátiles y confiables.
Los modelos de lenguaje de código extenso (codeLLMs) han avanzado significativamente en la generación de código. La mayoría de los benchmarks previos relacionados con el código, que consisten en varios ejercicios de programación junto con los casos de prueba correspondientes, se utilizan como una medida común para evaluar el rendimiento y las capacidades de los codeLLMs. Sin embargo, los actuales codeLLMs se centran en sintetizar el fragmento de código correcto, ignorando la alineación con las preferencias humanas, donde la consulta debería ser muestreada de los escenarios de aplicación práctica y las respuestas generadas por el modelo deberían satisfacer la preferencia humana. Para cerrar la brecha entre la respuesta generada por el modelo y la preferencia humana, presentamos un riguroso benchmark curado por humanos, CodeArena, para emular la complejidad y diversidad de tareas de codificación del mundo real, donde se incluyen 397 muestras de alta calidad que abarcan 40 categorías y 44 lenguajes de programación, cuidadosamente seleccionadas a partir de consultas de usuarios. Además, proponemos un corpus de instrucciones sintéticas diversas, SynCode-Instruct (casi 20 mil millones de tokens), escalando instrucciones del sitio web para verificar la efectividad del ajuste fino de instrucciones sintéticas a gran escala, donde Qwen2.5-SynCoder, totalmente entrenado en datos de instrucciones sintéticas, puede lograr un rendimiento de primer nivel en codeLLMs de código abierto. Los resultados revelan diferencias de rendimiento entre los benchmarks basados en la ejecución y CodeArena. Nuestros experimentos sistemáticos en CodeArena con más de 40 LLMs muestran una notable brecha de rendimiento entre los codeLLMs de código abierto de última generación (por ejemplo, Qwen2.5-Coder) y los codeLLMs propietarios (por ejemplo, OpenAI o1), subrayando la importancia de la alineación con las preferencias humanas.
La visualización de historias, la tarea de crear narrativas visuales a partir de descripciones textuales, ha avanzado con modelos de generación de texto a imagen. Sin embargo, estos modelos a menudo carecen de un control efectivo sobre la apariencia y las interacciones de los personajes, especialmente en escenas con varios personajes. Para abordar estas limitaciones, proponemos una nueva tarea: la generación personalizada de manga e introducimos DiffSensei, un marco innovador diseñado específicamente para generar manga con un control dinámico de múltiples personajes. DiffSensei integra un generador de imágenes basado en difusión con un modelo de lenguaje multimodal grande (MLLM) que actúa como un adaptador de identidad compatible con el texto. Nuestro enfoque emplea atención cruzada enmascarada para incorporar de manera fluida las características de los personajes, lo que permite un control preciso del diseño sin transferencia directa de píxeles. Además, el adaptador basado en MLLM ajusta las características de los personajes para alinearse con las pistas de texto específicas del panel, lo que permite ajustes flexibles en las expresiones, poses y acciones de los personajes. También presentamos MangaZero, un conjunto de datos a gran escala adaptado a esta tarea, que contiene 43,264 páginas de manga y 427,147 paneles anotados, que respaldan la visualización de diversas interacciones y movimientos de personajes a lo largo de cuadros secuenciales. Experimentos extensos demuestran que DiffSensei supera a los modelos existentes, marcando un avance significativo en la generación de manga al permitir la personalización de personajes adaptable al texto. La página del proyecto es https://jianzongwu.github.io/projects/diffsensei/.
El reciente aumento del interés en modelos multimodales integrales ha hecho necesario unificar modalidades diversas. Sin embargo, la unificación adolece de metodologías dispares. La generación visual continua requiere el enfoque de difusión de secuencia completa, a pesar de su divergencia del modelado autoregresivo en el dominio del texto. Sostenemos que el modelado autoregresivo, es decir, predecir el futuro basándose en experiencias pasadas determinísticas, sigue siendo crucial para desarrollar tanto un modelo de generación visual como un modelo multimodal unificado potencial. En este documento, exploramos una interpolación entre el modelado autoregresivo y la difusión de parámetros completos para modelar información visual. En su núcleo, presentamos ACDiT, un Transformador de Difusión Condicional Autoregresivo por Bloques, donde el tamaño del bloque de difusión, es decir, el tamaño de las unidades autoregresivas, se puede ajustar de forma flexible para interpolar entre la autoregresión a nivel de token y la difusión de secuencia completa. ACDiT es fácil de implementar, tan simple como crear una Máscara de Atención Causal Saltada (SCAM) durante el entrenamiento. Durante la inferencia, el proceso itera entre la eliminación de ruido por difusión y la decodificación autoregresiva que puede aprovechar al máximo la Memoria KV-Cache. Verificamos la efectividad de ACDiT en tareas de generación de imágenes y videos. También demostramos que, beneficiándose del modelado autoregresivo, ACDiT puede usarse sin problemas en tareas de comprensión visual a pesar de haber sido entrenado en el objetivo de difusión. El análisis del equilibrio entre el modelado autoregresivo y la difusión demuestra el potencial de ACDiT para ser utilizado en tareas de generación visual a largo plazo. Estas fortalezas lo hacen prometedor como la columna vertebral de futuros modelos unificados.
Presentamos UniReal, un marco unificado diseñado para abordar diversas tareas de generación y edición de imágenes. Las soluciones existentes a menudo varían según las tareas, pero comparten principios fundamentales: preservar la consistencia entre las entradas y salidas al mismo tiempo que capturan variaciones visuales. Inspirados por modelos recientes de generación de video que equilibran eficazmente la consistencia y la variación entre fotogramas, proponemos un enfoque unificador que trata las tareas a nivel de imagen como generación de video discontinuo. Específicamente, tratamos números variables de imágenes de entrada y salida como fotogramas, lo que permite un soporte fluido para tareas como generación de imágenes, edición, personalización, composición, etc. Aunque diseñado para tareas a nivel de imagen, aprovechamos los videos como una fuente escalable para supervisión universal. UniReal aprende dinámicas del mundo a partir de videos a gran escala, demostrando una capacidad avanzada para manejar sombras, reflejos, variaciones de postura e interacción de objetos, al mismo tiempo que exhibe una capacidad emergente para aplicaciones novedosas.
A medida que la calidad de los generadores de imágenes sigue mejorando, los deepfakes se convierten en un tema de considerable debate social. El marcado de agua en imágenes permite a los propietarios responsables de modelos detectar y etiquetar su contenido generado por IA, lo que puede mitigar el daño. Sin embargo, los métodos actuales de vanguardia en el marcado de agua en imágenes siguen siendo vulnerables a ataques de falsificación y eliminación. Esta vulnerabilidad ocurre en parte porque los marcas de agua distorsionan la distribución de las imágenes generadas, revelando involuntariamente información sobre las técnicas de marcado de agua. En este trabajo, primero demostramos un método de marcado de agua sin distorsiones para imágenes, basado en el ruido inicial de un modelo de difusión. Sin embargo, detectar la marca de agua requiere comparar el ruido inicial reconstruido para una imagen con todos los ruidos iniciales utilizados previamente. Para mitigar estos problemas, proponemos un marco de trabajo de marcado de agua de dos etapas para una detección eficiente. Durante la generación, aumentamos el ruido inicial con patrones de Fourier generados para incrustar información sobre el grupo de ruidos iniciales que utilizamos. Para la detección, (i) recuperamos el grupo relevante de ruidos, y (ii) buscamos dentro del grupo dado un ruido inicial que pueda coincidir con nuestra imagen. Este enfoque de marcado de agua logra una robustez de vanguardia contra la falsificación y eliminación frente a una amplia gama de ataques.
Los avances recientes en la generación de texto a imagen han permitido la creación de imágenes de alta calidad con diversas aplicaciones. Sin embargo, describir con precisión atributos visuales deseados puede resultar desafiante, especialmente para no expertos en arte y fotografía. Una solución intuitiva implica adoptar atributos favorables de las imágenes fuente. Los métodos actuales intentan destilar la identidad y el estilo de las imágenes fuente. Sin embargo, "estilo" es un concepto amplio que incluye textura, color y elementos artísticos, pero no abarca otros atributos importantes como iluminación y dinámica. Además, una adaptación simplificada de "estilo" impide combinar múltiples atributos de diferentes fuentes en una imagen generada. En este trabajo, formulamos un enfoque más efectivo para descomponer la estética de una imagen en atributos visuales específicos, permitiendo a los usuarios aplicar características como iluminación, textura y dinámica de diferentes imágenes. Para lograr este objetivo, construimos el primer conjunto de datos de atributos visuales detallados (FiVA) que tenemos conocimiento. Este conjunto de datos FiVA presenta una taxonomía bien organizada para los atributos visuales e incluye alrededor de 1 millón de imágenes generadas de alta calidad con anotaciones de atributos visuales. Aprovechando este conjunto de datos, proponemos un marco de adaptación de atributos visuales detallados (FiVA-Adapter), que desacopla y adapta los atributos visuales de una o más imágenes fuente en una generada. Este enfoque mejora la personalización amigable para el usuario, permitiendo a los usuarios aplicar selectivamente atributos deseados para crear imágenes que satisfagan sus preferencias únicas y requisitos de contenido específicos.
Los modelos de difusión de video han logrado un realismo y control impresionantes, pero están limitados por altas demandas computacionales, lo que restringe su uso en dispositivos móviles. Este documento presenta el primer modelo de difusión de video optimizado para dispositivos móviles. Partiendo de un UNet espacio-temporal de Difusión de Video Estable (SVD), reducimos la memoria y el costo computacional al disminuir la resolución de los fotogramas, incorporar representaciones temporales multi-escala e introducir dos nuevos esquemas de poda para reducir el número de canales y bloques temporales. Además, empleamos un ajuste adversarial para reducir el proceso de eliminación de ruido a un solo paso. Nuestro modelo, denominado MobileVD, es 523 veces más eficiente (1817.2 vs. 4.34 TFLOPs) con una ligera disminución en la calidad (FVD 149 vs. 171), generando latentes para un clip de 14x512x256 px en 1.7 segundos en un Xiaomi-14 Pro. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/mobile-video-diffusion/
Este documento tiene como objetivo manipular movimientos 3D de múltiples entidades en la generación de videos. Los métodos previos en generación de videos controlables principalmente aprovechan señales de control 2D para manipular los movimientos de objetos y han logrado resultados de síntesis notables. Sin embargo, las señales de control 2D son inherentemente limitadas en la expresión de la naturaleza 3D de los movimientos de objetos. Para superar este problema, presentamos 3DTrajMaster, un controlador robusto que regula la dinámica de múltiples entidades en el espacio 3D, dadas secuencias de pose de 6 grados de libertad (ubicación y rotación) deseadas por el usuario. En el núcleo de nuestro enfoque se encuentra un inyector de objetos fundamentado en movimientos 3D que fusiona múltiples entidades de entrada con sus respectivas trayectorias 3D a través de un mecanismo de autoatención con compuertas. Además, explotamos una arquitectura de inyector para preservar la difusión previa del video, lo cual es crucial para la capacidad de generalización. Para mitigar la degradación de la calidad del video, introducimos un adaptador de dominio durante el entrenamiento y empleamos una estrategia de muestreo templado durante la inferencia. Para abordar la falta de datos de entrenamiento adecuados, construimos un Conjunto de Datos de Movimiento 360, que primero correlaciona activos 3D humanos y animales recopilados con trayectorias generadas por GPT y luego captura su movimiento con 12 cámaras equidistantes en diversas plataformas 3D UE. Experimentos extensos muestran que 3DTrajMaster establece un nuevo estado del arte tanto en precisión como en generalización para controlar movimientos 3D de múltiples entidades. Página del proyecto: http://fuxiao0719.github.io/projects/3dtrajmaster
Presentamos los modelos Guardian de Granito, un conjunto de salvaguardias diseñadas para proporcionar detección de riesgos para estímulos y respuestas, permitiendo un uso seguro y responsable en combinación con cualquier modelo de lenguaje grande (LLM, por sus siglas en inglés). Estos modelos ofrecen una cobertura integral en múltiples dimensiones de riesgo, incluyendo sesgo social, lenguaje soez, violencia, contenido sexual, comportamiento no ético, jailbreaking y riesgos relacionados con alucinaciones como relevancia de contexto, fundamentación y relevancia de respuesta para la generación aumentada por recuperación (RAG, por sus siglas en inglés). Entrenados en un conjunto de datos único que combina anotaciones humanas de diversas fuentes y datos sintéticos, los modelos Guardian de Granito abordan riesgos generalmente pasados por alto por modelos tradicionales de detección de riesgos, como jailbreaks y problemas específicos de RAG. Con puntuaciones de AUC de 0.871 y 0.854 en contenido dañino y puntos de referencia relacionados con alucinaciones de RAG respectivamente, Guardian de Granito es el modelo más generalizable y competitivo disponible en el espacio. Publicado como código abierto, Guardian de Granito tiene como objetivo promover el desarrollo de IA responsable en toda la comunidad.
Los avances recientes en la edición de video basada en difusión han mostrado un notable potencial para aplicaciones prácticas. Sin embargo, estos métodos siguen siendo prohibitivamente costosos y desafiantes de implementar en dispositivos móviles. En este estudio, presentamos una serie de optimizaciones que hacen posible la edición de video en dispositivos móviles. Basándonos en el modelo existente de edición de imágenes, primero optimizamos su arquitectura e incorporamos un autoencoder ligero. Posteriormente, extendemos la destilación de guía sin clasificador a múltiples modalidades, lo que resulta en una aceleración en el dispositivo de tres veces. Finalmente, reducimos el número de pasos de muestreo a uno mediante la introducción de un novedoso esquema de destilación adversarial que preserva la controlabilidad del proceso de edición. En conjunto, estas optimizaciones permiten la edición de video a 12 cuadros por segundo en dispositivos móviles, manteniendo una alta calidad. Nuestros resultados están disponibles en https://qualcomm-ai-research.github.io/mobile-video-editing/
Proponemos DiTFlow, un método para transferir el movimiento de un video de referencia a uno recién sintetizado, diseñado específicamente para Transformadores de Difusión (DiT). Primero procesamos el video de referencia con un DiT pre-entrenado para analizar mapas de atención entre fotogramas y extraer una señal de movimiento por parches llamada Flujo de Movimiento de Atención (FMA). Guiamos el proceso de eliminación de ruido latente de manera basada en optimización, sin necesidad de entrenamiento, optimizando latentes con nuestra pérdida de FMA para generar videos que reproducen el movimiento del video de referencia. También aplicamos nuestra estrategia de optimización a incrustaciones posicionales del transformador, lo que nos otorga un impulso en las capacidades de transferencia de movimiento sin necesidad de entrenamiento. Evaluamos DiTFlow frente a métodos recientemente publicados, superando a todos en múltiples métricas y evaluación humana.
Los modelos de lenguaje multimodal (MLMs) todavía enfrentan desafíos en tareas fundamentales de percepción visual donde destacan los modelos especializados. Las tareas que requieren razonamiento sobre estructuras 3D se benefician de la estimación de profundidad, y el razonamiento sobre instancias de objetos 2D se beneficia de la detección de objetos. Sin embargo, los MLMs no pueden producir profundidad o cajas intermedias para razonar. El ajuste fino de los MLMs en datos relevantes no generaliza bien y externalizar la computación a herramientas de visión especializadas es demasiado intensivo en cómputo e ineficiente en memoria. Para abordar esto, presentamos Tokens de Percepción, representaciones intrínsecas de imágenes diseñadas para ayudar en tareas de razonamiento donde el lenguaje es insuficiente. Los tokens de percepción actúan como tokens de razonamiento auxiliares, similares a los indicadores de cadena de pensamiento en modelos de lenguaje. Por ejemplo, en una tarea relacionada con la profundidad, un MLM aumentado con tokens de percepción puede razonar generando un mapa de profundidad como tokens, lo que le permite resolver el problema de manera efectiva. Proponemos AURORA, un método de entrenamiento que aumenta los MLMs con tokens de percepción para mejorar el razonamiento sobre entradas visuales. AURORA aprovecha un VQVAE para transformar representaciones de imágenes intermedias, como mapas de profundidad, en un formato tokenizado y tokens de caja delimitadora, que luego se utilizan en un marco de entrenamiento multitarea. AURORA logra mejoras notables en los puntos de referencia de conteo: +10.8% en BLINK, +11.3% en CVBench y +8.3% en SEED-Bench, superando en generalización a los enfoques de ajuste fino en diferentes conjuntos de datos. También mejora en la profundidad relativa: más de +6% en BLINK. Con tokens de percepción, AURORA amplía el alcance de los MLMs más allá del razonamiento basado en el lenguaje, allanando el camino para capacidades de razonamiento visual más efectivas.
La interpretabilidad es un desafío clave para fomentar la confianza en los Modelos de Lenguaje Grandes (LLMs), que surge de la complejidad de extraer el razonamiento de los parámetros del modelo. Presentamos la Hipótesis de Representación de Marcos, un marco teóricamente sólido fundamentado en la Hipótesis de Representación Lineal (LRH) para interpretar y controlar LLMs mediante la modelización de palabras multi-token. Investigaciones previas exploraron LRH para conectar las representaciones de LLM con conceptos lingüísticos, pero se limitaron al análisis de un solo token. Dado que la mayoría de las palabras están compuestas por varios tokens, ampliamos LRH a palabras multi-token, lo que permite su uso en cualquier dato textual con miles de conceptos. Con este fin, proponemos que las palabras pueden ser interpretadas como marcos, secuencias ordenadas de vectores que capturan mejor las relaciones entre tokens y palabras. Luego, los conceptos pueden ser representados como el promedio de los marcos de palabras que comparten un concepto común. Mostramos estas herramientas a través de la Decodificación Guiada por Conceptos Top-k, que puede dirigir intuitivamente la generación de texto utilizando conceptos elegidos. Verificamos estas ideas en las familias Llama 3.1, Gemma 2 y Phi 3, demostrando sesgos de género y de lenguaje, exponiendo contenido perjudicial, pero también el potencial para remediarlos, lo que conduce a LLMs más seguros y transparentes. El código está disponible en https://github.com/phvv-me/frame-representation-hypothesis.git
Este trabajo se enfoca en desarrollar modelos ligeros y eficientes en parámetros para predicciones densas, considerando el equilibrio entre parámetros, FLOPs y rendimiento. Nuestro objetivo es establecer la nueva frontera del modelo ligero de magnitud 5M en diversas tareas posteriores. El Bloque Invertido Residual (IRB) sirve como infraestructura para CNNs ligeros, pero no se han reconocido contrapartes mediante diseño basado en atención. Nuestro trabajo reconsidera la infraestructura ligera del eficiente IRB y componentes prácticos en el Transformer desde una perspectiva unificada, extendiendo el IRB basado en CNN a modelos basados en atención y abstrayendo un Bloque Móvil Meta de una sola residual (MMBlock) para el diseño de modelos ligeros. Siguiendo un criterio de diseño limpio pero efectivo, deducimos un moderno Bloque Móvil Invertido Mejorado (i2RMB) y mejoramos un Modelo Eficiente Jerárquico (EMOv2) sin estructuras complejas elaboradas. Considerando la latencia imperceptible para usuarios móviles al descargar modelos bajo ancho de banda 4G/5G y garantizando el rendimiento del modelo, investigamos el límite superior de rendimiento de modelos ligeros con una magnitud de 5M. Experimentos extensos en diversas tareas de reconocimiento visual, predicción densa y generación de imágenes demuestran la superioridad de nuestro EMOv2 sobre los métodos de vanguardia, por ejemplo, EMOv2-1M/2M/5M logran 72.3, 75.8 y 79.4 Top-1 que superan significativamente a modelos de igual orden basados en CNN/Atención. Al mismo tiempo, EMOv2-5M equipado con RetinaNet logra 41.5 mAP para tareas de detección de objetos que supera al anterior EMO-5M en +2.6. Al emplear una receta de entrenamiento más robusta, nuestro EMOv2-5M finalmente logra una precisión Top-1 del 82.9, elevando el rendimiento de los modelos de magnitud 5M a un nuevo nivel. El código está disponible en https://github.com/zhangzjn/EMOv2.
Los avances recientes en modelos de generación de imágenes han permitido la creación de imágenes personalizadas con sujetos (contenido) y estilos definidos por el usuario. Trabajos anteriores lograron la personalización mediante la fusión de parámetros de adaptación de baja jerarquía (LoRAs) correspondientes a través de métodos basados en optimización, que son computacionalmente exigentes y no adecuados para su uso en tiempo real en dispositivos con recursos limitados como teléfonos inteligentes. Para abordar esto, presentamos LoRA.rar, un método que no solo mejora la calidad de la imagen, sino que también logra una aceleración notable de más de 4000 veces en el proceso de fusión. LoRA.rar preentrena un hiperred en un conjunto diverso de pares LoRA de contenido-estilo, aprendiendo una estrategia de fusión eficiente que generaliza a nuevos pares de contenido-estilo no vistos, permitiendo una personalización rápida y de alta calidad. Además, identificamos limitaciones en las métricas de evaluación existentes para la calidad de contenido-estilo y proponemos un nuevo protocolo que utiliza modelos de lenguaje multimodales grandes (MLLM) para una evaluación más precisa. Nuestro método supera significativamente el estado del arte actual tanto en fidelidad de contenido como de estilo, como lo validan las evaluaciones de MLLM y las evaluaciones humanas.
En este documento, presentamos ILLUME, un modelo de lenguaje grande multimodal unificado (MLLM) que integra de manera fluida capacidades de comprensión y generación multimodal dentro de un solo modelo de lenguaje grande a través de una formulación unificada de predicción del siguiente token. Para abordar el gran tamaño del conjunto de datos típicamente requerido para la alineación imagen-texto, proponemos mejorar la eficiencia de los datos a través del diseño de un tokenizador de visión que incorpora información semántica y un procedimiento de entrenamiento progresivo de múltiples etapas. Este enfoque reduce el tamaño del conjunto de datos a solo 15M para el preentrenamiento, más de cuatro veces menos de lo que se necesita típicamente, logrando un rendimiento competitivo o incluso superior con respecto a los MLLMs unificados existentes, como Janus. Además, para promover la mejora sinérgica entre las capacidades de comprensión y generación, que ha sido poco explorada en trabajos anteriores, presentamos un novedoso esquema de alineación multimodal auto-mejorante. Este esquema supervisa al MLLM para autoevaluar la consistencia entre las descripciones de texto y las imágenes auto-generadas, facilitando que el modelo interprete las imágenes de manera más precisa y evite predicciones irreales e incorrectas causadas por desalineaciones en la generación de imágenes. Basándonos en experimentos extensos, nuestro ILLUME propuesto destaca y compite con los MLLMs unificados de última generación y modelos especializados en diversos puntos de referencia para la comprensión, generación y edición multimodal.
Recientemente, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han experimentado una transformación significativa, marcada por un rápido aumento tanto en su popularidad como en sus capacidades. Liderando esta evolución se encuentran LLMs propietarios como GPT-4 y GPT-o1, que han captado una atención generalizada en la comunidad de IA debido a su notable rendimiento y versatilidad. Simultáneamente, LLMs de código abierto, como LLaMA y Mistral, han realizado grandes contribuciones a la creciente popularidad de los LLMs debido a la facilidad para personalizar e implementar los modelos en diversas aplicaciones. Aunque los LLMs de código abierto presentan oportunidades sin precedentes para la innovación y la investigación, la comercialización de los LLMs ha suscitado preocupaciones sobre la transparencia, la reproducibilidad y la seguridad. Muchos LLMs de código abierto no cumplen con los requisitos fundamentales de transparencia al retener componentes esenciales como el código de entrenamiento y los datos, y algunos utilizan licencias restrictivas mientras afirman ser "de código abierto", lo que puede obstaculizar futuras innovaciones en los LLMs. Para mitigar este problema, presentamos Moxin 7B, un LLM totalmente de código abierto desarrollado de acuerdo con el Marco de Apertura del Modelo (MOF), un sistema de clasificación jerarquizado que evalúa los modelos de IA en función de su completitud y apertura, siguiendo los principios de ciencia abierta, código abierto, datos abiertos y acceso abierto. Nuestro modelo alcanza el nivel de clasificación más alto del MOF de "ciencia abierta" a través de la liberación integral del código y configuraciones de pre-entrenamiento, conjuntos de datos de entrenamiento y ajuste fino, así como puntos de control intermedios y finales. Los experimentos muestran que nuestro modelo logra un rendimiento superior en la evaluación de cero disparos en comparación con modelos 7B populares y se desempeña de manera competitiva en la evaluación de pocos disparos.
Los avances recientes en Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) subrayan la importancia de la escalabilidad al aumentar los datos emparejados de imágenes y texto, logrando un rendimiento impresionante en tareas generales. A pesar de su efectividad en aplicaciones amplias, los modelos generalistas se entrenan principalmente en conjuntos de datos a escala web dominados por imágenes naturales, lo que resulta en el sacrificio de capacidades especializadas para tareas específicas de dominio que requieren un extenso conocimiento previo del dominio. Además, la integración directa de modelos expertos adaptados para dominios específicos es un desafío debido a la brecha representacional y la optimización desequilibrada entre el modelo generalista y los expertos. Para abordar estos desafíos, presentamos Chimera, un conducto multimodal escalable y económico diseñado para potenciar la capacidad de los LMMs existentes con expertos específicos del dominio. Específicamente, diseñamos una estrategia de entrenamiento progresiva para integrar características de modelos expertos en la entrada de un LMM generalista. Para abordar la optimización desequilibrada causada por el codificador visual general bien alineado, introducimos un mecanismo de Máscara de Colaboración Generalista-Especialista (GSCM, por sus siglas en inglés) novedoso. Esto resulta en un modelo versátil que sobresale en los dominios de gráficos, tablas, matemáticas y documentos, logrando un rendimiento de vanguardia en tareas de razonamiento multimodal y extracción de contenido visual, ambas tareas desafiantes para evaluar los LMMs existentes.
Este estudio tiene como objetivo lograr un control de objetos más preciso y versátil en la generación de imágenes a video (I2V). Los métodos actuales suelen representar el movimiento espacial de los objetos objetivo con trayectorias 2D, lo cual a menudo no logra capturar la intención del usuario y produce resultados poco naturales con frecuencia. Para mejorar el control, presentamos ObjCtrl-2.5D, un enfoque de control de objetos sin entrenamiento que utiliza una trayectoria 3D, extendida desde una trayectoria 2D con información de profundidad, como señal de control. Al modelar el movimiento del objeto como movimiento de cámara, ObjCtrl-2.5D representa la trayectoria 3D como una secuencia de poses de cámara, permitiendo el control del movimiento del objeto utilizando un modelo de generación de I2V de control de movimiento de cámara existente (CMC-I2V) sin necesidad de entrenamiento. Para adaptar el modelo CMC-I2V originalmente diseñado para control de movimiento global y manejar el movimiento local del objeto, introducimos un módulo para aislar el objeto objetivo del fondo, permitiendo un control local independiente. Además, ideamos una forma efectiva de lograr un control de objetos más preciso al compartir un latente deformado de baja frecuencia dentro de la región del objeto a lo largo de los fotogramas. Experimentos extensos demuestran que ObjCtrl-2.5D mejora significativamente la precisión del control de objetos en comparación con métodos sin entrenamiento y ofrece capacidades de control más diversas que los enfoques basados en entrenamiento que utilizan trayectorias 2D, permitiendo efectos complejos como la rotación de objetos. El código y los resultados están disponibles en https://wzhouxiff.github.io/projects/ObjCtrl-2.5D/.
Este artículo tiene como objetivo mejorar el rendimiento de los grandes modelos de lenguaje abordando las demandas computacionales variables en los pasos de inferencia, donde algunos tokens requieren más recursos computacionales que otros. Presentamos HARP, una modificación simple al pase hacia adelante del Transformer "listo para usar". Inspirado en la vacilación y el efecto de enmarcado en la toma de decisiones, HARP aplica selectivamente cálculos adicionales cuando el modelo se enfrenta a la incertidumbre durante la generación de tokens. Nuestro método imita los procesos cognitivos humanos al pausar en puntos de decisión difíciles y reformular las entradas desde una perspectiva diferente. A diferencia de otros enfoques, HARP es agnóstico al modelo, no requiere entrenamiento y es fácil de implementar. Evaluamos exhaustivamente nuestro método en diversas tareas secundarias y tamaños de modelo, demostrando mejoras de rendimiento de hasta +5.16%. Es destacable que HARP logra estos avances manteniendo tiempos de inferencia dos veces más rápidos que la búsqueda en haz. Simple pero con ganancias significativas, HARP ofrece una solución práctica para mejorar el rendimiento de los modelos de lenguaje basados en Transformer con un impacto computacional mínimo.
La generación de texto a imagen (T2I) ha experimentado un progreso significativo con modelos de difusión, lo que permite la generación de imágenes fotorrealistas a partir de indicaciones de texto. A pesar de este avance, los métodos existentes aún enfrentan desafíos al seguir indicaciones de texto complejas, especialmente aquellas que requieren razonamiento compositivo y de múltiples pasos. Ante instrucciones tan complejas, los modelos de última generación a menudo cometen errores al modelar fielmente los atributos de los objetos y las relaciones entre ellos. En este trabajo, presentamos un paradigma alternativo para la síntesis T2I, descomponiendo la tarea de generación compleja de múltiples pasos en tres etapas: (a) Generar: primero generamos una imagen utilizando modelos de difusión existentes, (b) Planificar: hacemos uso de Modelos de Lenguaje Multimodal (MLLMs) para identificar los errores en la imagen generada expresados en términos de objetos individuales y sus propiedades, y producimos una secuencia de pasos correctivos requeridos en forma de un plan de edición, (c) Editar: utilizamos modelos de edición de imagen guiados por texto existentes para ejecutar secuencialmente nuestro plan de edición sobre la imagen generada para obtener la imagen deseada que sea fiel a la instrucción original. Nuestro enfoque deriva su fortaleza del hecho de que es modular por naturaleza, no requiere entrenamiento y puede aplicarse a cualquier combinación de modelos de generación y edición de imágenes. Como contribución adicional, también desarrollamos un modelo capaz de edición compositiva, lo que ayuda a mejorar aún más la precisión general de nuestro enfoque propuesto. Nuestro método intercambia de manera flexible el tiempo de inferencia computacional con el rendimiento en indicaciones de texto compositivas. Realizamos una extensa evaluación experimental en 3 benchmarks y 10 modelos T2I, incluidos DALLE-3 y el último, SD-3.5-Large. Nuestro enfoque no solo mejora el rendimiento de los modelos de última generación, hasta 3 puntos, sino que también reduce la brecha de rendimiento entre modelos más débiles y más fuertes.
El Aprendizaje Federado (FL) tiene como objetivo proteger la privacidad de los datos al permitir que los clientes entrenen colectivamente modelos de aprendizaje automático sin compartir sus datos brutos. Sin embargo, estudios recientes demuestran que la información intercambiada durante el FL está sujeta a Ataques de Inversión de Gradiente (GIA) y, en consecuencia, se han integrado una variedad de métodos de preservación de la privacidad en el FL para contrarrestar tales ataques, como la Computación Segura entre Varios Participantes (SMC), la Encriptación Homomórfica (HE) y la Privacidad Diferencial (DP). A pesar de su capacidad para proteger la privacidad de los datos, estos enfoques implican inherentemente importantes compensaciones entre privacidad y utilidad. Al revisar la clave de la exposición de privacidad en el FL bajo GIA, que radica en el intercambio frecuente de gradientes de modelo que contienen datos privados, adoptamos una nueva perspectiva al diseñar un novedoso marco de FL para preservar la privacidad que efectivamente "rompe la conexión directa" entre los parámetros compartidos y los datos privados locales para defenderse contra GIA. Específicamente, proponemos un marco de Aprendizaje Federado de Hiperred (HyperFL) que utiliza hiperredes para generar los parámetros del modelo local y solo los parámetros de la hiperred se cargan en el servidor para su agregación. Los análisis teóricos demuestran la tasa de convergencia del HyperFL propuesto, mientras que los extensos resultados experimentales muestran la capacidad de preservación de la privacidad y el rendimiento comparable de HyperFL. El código está disponible en https://github.com/Pengxin-Guo/HyperFL.
El contraataque generado por IA ofrece una estrategia prometedora y escalable para frenar la toxicidad en línea a través de respuestas directas que promueven el discurso civil. Sin embargo, el contraataque actual es genérico, careciendo de adaptación al contexto de moderación y a los usuarios involucrados. Proponemos y evaluamos múltiples estrategias para generar un contraataque personalizado que se adapte al contexto de moderación y sea personalizado para el usuario moderado. Instruimos a un modelo LLaMA2-13B para generar contraataques, experimentando con diversas configuraciones basadas en diferente información contextual y estrategias de ajuste fino. Identificamos las configuraciones que generan un contraataque persuasivo a través de una combinación de indicadores cuantitativos y evaluaciones humanas recopiladas a través de un experimento de crowdsourcing de diseño mixto pre-registrado. Los resultados muestran que el contraataque contextualizado puede superar significativamente al contraataque genérico de vanguardia en adecuación y persuasión, sin comprometer otras características. Nuestros hallazgos también revelan una débil correlación entre los indicadores cuantitativos y las evaluaciones humanas, sugiriendo que estos métodos evalúan diferentes aspectos y resaltando la necesidad de metodologías de evaluación matizadas. La efectividad del contraataque generado por IA contextualizado y la divergencia entre las evaluaciones humanas y algorítmicas subrayan la importancia de una mayor colaboración humano-IA en la moderación de contenido.
Las políticas de robots visuomotores, cada vez más pre-entrenadas en conjuntos de datos a gran escala, prometen avances significativos en diversos dominios de la robótica. Sin embargo, alinear estas políticas con las preferencias de los usuarios finales sigue siendo un desafío, especialmente cuando las preferencias son difíciles de especificar. Aunque el aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en el mecanismo predominante para la alineación en dominios no incorporados como los modelos de lenguaje a gran escala, no ha tenido el mismo éxito en la alineación de políticas visuomotoras debido a la cantidad prohibitiva de retroalimentación humana necesaria para aprender funciones de recompensa visuales. Para abordar esta limitación, proponemos Aprendizaje basado en Preferencias Alineadas con la Representación (RAPL, por sus siglas en inglés), un método basado únicamente en la observación para aprender recompensas visuales a partir de una cantidad significativamente menor de retroalimentación de preferencias humanas. A diferencia del RLHF tradicional, RAPL enfoca la retroalimentación humana en el ajuste fino de los codificadores de visión pre-entrenados para alinearse con la representación visual del usuario final y luego construye una recompensa visual densa mediante el emparejamiento de características en este espacio de representación alineado. Primero validamos RAPL a través de experimentos de simulación en el banco de pruebas X-Magical y en la manipulación robótica de Franka Panda, demostrando que puede aprender recompensas alineadas con las preferencias humanas, utilizar de manera más eficiente los datos de preferencia y generalizar a través de las encarnaciones de robots. Finalmente, nuestros experimentos de hardware alinean Políticas de Difusión pre-entrenadas para tres tareas de manipulación de objetos. Descubrimos que RAPL puede ajustar finamente estas políticas con un 5 veces menos de datos reales de preferencia humana, dando el primer paso hacia la minimización de la retroalimentación humana al mismo tiempo que se maximiza la alineación de las políticas de robots visuomotores.