Artículos de investigación en IA seleccionados diariamente con traducciones
Los avances recientes en modelos de visión y lenguaje han mejorado el rendimiento al aumentar la longitud de los tokens visuales, haciéndolos mucho más largos que los tokens de texto y aumentando significativamente los costos computacionales. Sin embargo, observamos que los tokens visuales generados por codificadores de visión populares, como CLIP y SigLIP, contienen una redundancia significativa. Para abordar esto, presentamos VisionZip, un método simple pero efectivo que selecciona un conjunto de tokens informativos para la entrada al modelo de lenguaje, reduciendo la redundancia de los tokens visuales y mejorando la eficiencia sin comprometer el rendimiento del modelo. El VisionZip propuesto puede aplicarse ampliamente a tareas de comprensión de imágenes y videos, y es adecuado para diálogos de múltiples turnos en escenarios del mundo real, donde los métodos anteriores tienden a tener un rendimiento inferior. Los resultados experimentales muestran que VisionZip supera al método anterior de vanguardia en al menos un 5% de ganancias de rendimiento en casi todas las configuraciones. Además, nuestro método mejora significativamente la velocidad de inferencia del modelo, mejorando el tiempo de precarga en 8 veces y permitiendo que el modelo LLaVA-Next 13B infiera más rápido que el modelo LLaVA-Next 7B mientras logra mejores resultados. Además, analizamos las causas de esta redundancia y alentamos a la comunidad a centrarse en extraer mejores características visuales en lugar de simplemente aumentar la longitud de los tokens. Nuestro código está disponible en https://github.com/dvlab-research/VisionZip.
Presentamos un novedoso método de generación 3D para la creación versátil y de alta calidad de activos 3D. La piedra angular es una representación unificada de Latente Estructurado (SLAT) que permite la decodificación a diferentes formatos de salida, como Campos de Radiación, Gaussianas 3D y mallas. Esto se logra mediante la integración de una rejilla 3D escasamente poblada con características visuales multivista densas extraídas de un potente modelo de base de visión, capturando de manera integral tanto la información estructural (geometría) como la textural (apariencia) manteniendo la flexibilidad durante la decodificación. Empleamos transformadores de flujo rectificados adaptados para SLAT como nuestros modelos de generación 3D y entrenamos modelos con hasta 2 mil millones de parámetros en un extenso conjunto de datos de activos 3D de 500K objetos diversos. Nuestro modelo genera resultados de alta calidad con condiciones de texto o imagen, superando significativamente a los métodos existentes, incluidos los más recientes en escalas similares. Mostramos la selección flexible de formatos de salida y capacidades de edición 3D locales que no ofrecían los modelos anteriores. El código, modelo y datos serán publicados.
Las Interfaces Gráficas de Usuario (GUIs) son fundamentales para la interacción humano-computadora, sin embargo, la automatización de tareas GUI sigue siendo un desafío debido a la complejidad y variabilidad de los entornos visuales. Los enfoques existentes a menudo se basan en representaciones textuales de las GUIs, lo que introduce limitaciones en generalización, eficiencia y escalabilidad. En este documento, presentamos Aguvis, un marco unificado basado puramente en visión para agentes GUI autónomos que operan en diversas plataformas. Nuestro enfoque aprovecha observaciones basadas en imágenes, y vincula instrucciones en lenguaje natural a elementos visuales, y emplea un espacio de acción consistente para garantizar la generalización entre plataformas. Para abordar las limitaciones de trabajos anteriores, integramos planificación y razonamiento explícitos dentro del modelo, mejorando su capacidad para navegar e interactuar autónomamente con entornos digitales complejos. Construimos un conjunto de datos a gran escala de trayectorias de agentes GUI, incorporando razonamiento y vinculación multimodal, y empleamos un proceso de entrenamiento de dos etapas que primero se centra en la vinculación GUI general, seguido de planificación y razonamiento. A través de experimentos exhaustivos, demostramos que Aguvis supera a los métodos anteriores de vanguardia tanto en escenarios fuera de línea como en tiempo real, logrando, hasta donde sabemos, el primer agente GUI autónomo basado únicamente en visión capaz de realizar tareas de forma independiente sin colaboración con modelos externos de código cerrado. Hemos hecho públicos todos los conjuntos de datos, modelos y recetas de entrenamiento para facilitar la investigación futura en https://aguvis-project.github.io/.
Presentamos Florence-VL, una nueva familia de grandes modelos de lenguaje multimodales (MLLMs) con representaciones visuales enriquecidas producidas por Florence-2, un modelo generativo de visión fundamental. A diferencia del ampliamente utilizado transformador de visión de estilo CLIP entrenado mediante aprendizaje por contraste, Florence-2 puede capturar diferentes niveles y aspectos de características visuales, que son más versátiles para adaptarse a diversas tareas posteriores. Proponemos una arquitectura de fusión de características novedosa y una receta de entrenamiento innovadora que integra de manera efectiva las características visuales de Florence-2 en MLLMs preentrenados, como Phi 3.5 y LLama 3. En particular, proponemos "fusión de profundidad-amplitud (DBFusion)" para fusionar las características visuales extraídas de diferentes profundidades y bajo múltiples indicaciones. Nuestro entrenamiento de modelo se compone de preentrenamiento de extremo a extremo de todo el modelo seguido de ajuste fino de la capa de proyección y el MLLM, en una receta cuidadosamente diseñada de diversos conjuntos de datos de código abierto que incluyen subtítulos de imágenes de alta calidad y pares de ajuste de instrucciones. Nuestro análisis cuantitativo y visualización de las características visuales de Florence-VL muestran sus ventajas sobre los codificadores de visión populares en el alineamiento visión-lenguaje, donde la profundidad y amplitud enriquecidas juegan roles importantes. Florence-VL logra mejoras significativas sobre los actuales MLLMs de última generación en diversos puntos de referencia multimodales y centrados en la visión que abarcan VQA general, percepción, alucinación, OCR, gráficos, comprensión intensiva del conocimiento, etc. Para facilitar la investigación futura, nuestros modelos y la receta completa de entrenamiento están disponibles en código abierto. https://github.com/JiuhaiChen/Florence-VL
Los modelos de lenguaje visual (VLMs) han logrado avances significativos en precisión en los últimos años. Sin embargo, su eficiencia ha recibido mucha menos atención. Este artículo presenta NVILA, una familia de VLMs abiertos diseñados para optimizar tanto la eficiencia como la precisión. Basándonos en VILA, mejoramos su arquitectura de modelo escalando primero las resoluciones espaciales y temporales, y luego comprimiendo los tokens visuales. Este enfoque de "escalar y luego comprimir" permite a NVILA procesar eficientemente imágenes de alta resolución y videos largos. También realizamos una investigación sistemática para mejorar la eficiencia de NVILA a lo largo de todo su ciclo de vida, desde el entrenamiento y ajuste fino hasta la implementación. NVILA iguala o supera la precisión de muchos de los principales VLMs abiertos y propietarios en una amplia gama de pruebas de imágenes y videos. Al mismo tiempo, reduce los costos de entrenamiento en 4.5 veces, el uso de memoria para ajuste fino en 3.4 veces, la latencia de pre-llenado en 1.6-2.2 veces, y la latencia de decodificación en 1.2-2.8 veces. Pronto pondremos nuestro código y modelos a disposición para facilitar la reproducibilidad.
Dado el creciente uso de datos sintéticos en el post-entrenamiento de modelos de lenguaje (LM), la capacidad de un LM para generar datos de alta calidad se ha vuelto casi tan crucial como su capacidad para resolver problemas directamente. Mientras que trabajos anteriores se han centrado en el desarrollo de métodos efectivos de generación de datos, carecen de una comparación sistemática de diferentes LMs como generadores de datos en un entorno unificado. Para abordar esta brecha, proponemos AgoraBench, un banco de pruebas que proporciona configuraciones y métricas estandarizadas para evaluar las capacidades de generación de datos de los LMs. A través de la síntesis de 1.26 millones de instancias de entrenamiento utilizando 6 LMs y el entrenamiento de 99 modelos estudiantiles, descubrimos ideas clave sobre las capacidades de generación de datos de los LMs. En primer lugar, observamos que los LMs exhiben fortalezas distintas. Por ejemplo, GPT-4o sobresale en la generación de nuevos problemas, mientras que Claude-3.5-Sonnet se desempeña mejor en mejorar los existentes. Además, nuestro análisis revela que la capacidad de generación de datos de un LM no necesariamente se correlaciona con su capacidad para resolver problemas. En su lugar, múltiples características intrínsecas de la calidad de los datos, incluida la calidad de la respuesta, la perplejidad y la dificultad de la instrucción, sirven colectivamente como mejores indicadores. Finalmente, demostramos que las elecciones estratégicas en el formato de salida y la selección de modelos conscientes del costo impactan significativamente en la efectividad de la generación de datos.
La detección automática y prevención de fallos de tipo abierto son cruciales en sistemas robóticos de lazo cerrado. Estudios recientes a menudo tienen dificultades para identificar simultáneamente de manera reactiva los fallos inesperados después de que ocurren y prevenir proactivamente los previsibles. Con este fin, proponemos Código como Monitor (CaM), un paradigma novedoso que aprovecha el modelo visión-lenguaje (VLM) para la detección de fallos reactiva y proactiva de tipo abierto. El núcleo de nuestro método es formular ambas tareas como un conjunto unificado de problemas de satisfacción de restricciones espacio-temporales y utilizar código generado por VLM para evaluarlos en tiempo real para monitoreo. Para mejorar la precisión y eficiencia del monitoreo, introducimos elementos de restricción que abstraen entidades relacionadas con restricciones o sus partes en elementos geométricos compactos. Este enfoque ofrece mayor generalidad, simplifica el seguimiento y facilita la programación visual consciente de restricciones al aprovechar estos elementos como indicadores visuales. Los experimentos muestran que CaM logra una tasa de éxito un 28,7% mayor y reduce el tiempo de ejecución en un 31,8% bajo perturbaciones severas en comparación con los baselines en tres simuladores y un entorno real. Además, CaM puede integrarse con políticas de control de lazo abierto para formar sistemas de lazo cerrado, lo que permite tareas de largo horizonte en escenarios con entornos dinámicos y desordenados.
Los modelos de difusión destacan en la generación de imágenes de alta calidad. Sin embargo, los modelos de difusión actuales tienen dificultades para producir imágenes confiables sin métodos de guía, como la guía sin clasificador (CFG). ¿Son realmente necesarios los métodos de guía? Observando que el ruido obtenido a través de la inversión de la difusión puede reconstruir imágenes de alta calidad sin guía, nos enfocamos en el ruido inicial del proceso de eliminación de ruido. Al mapear el ruido gaussiano a 'ruido sin guía', descubrimos que los pequeños componentes de baja magnitud y baja frecuencia mejoran significativamente el proceso de eliminación de ruido, eliminando la necesidad de guía y mejorando tanto el rendimiento de inferencia como la memoria. Ampliando esto, proponemos \ours, un método novedoso que reemplaza los métodos de guía con un solo refinamiento del ruido inicial. Este ruido refinado permite la generación de imágenes de alta calidad sin guía, dentro del mismo proceso de difusión. Nuestro modelo de refinamiento de ruido aprovecha el aprendizaje eficiente en el espacio de ruido, logrando una convergencia rápida y un rendimiento sólido con solo 50K pares de texto e imagen. Validamos su efectividad a través de diversas métricas y analizamos cómo el ruido refinado puede eliminar la necesidad de guía. Consulte nuestra página del proyecto: https://cvlab-kaist.github.io/NoiseRefine/.
Los métodos existentes de generación de imágenes multi-vista a menudo realizan modificaciones invasivas en modelos pre-entrenados de texto a imagen (T2I) y requieren un ajuste fino completo, lo que conlleva (1) altos costos computacionales, especialmente con modelos base grandes e imágenes de alta resolución, y (2) degradación en la calidad de la imagen debido a dificultades de optimización y escasez de datos 3D de alta calidad. En este artículo, proponemos la primera solución basada en adaptadores para la generación de imágenes multi-vista, e introducimos MV-Adapter, un adaptador versátil plug-and-play que mejora los modelos T2I y sus derivados sin alterar la estructura de red original o el espacio de características. Al actualizar menos parámetros, MV-Adapter permite un entrenamiento eficiente y preserva el conocimiento previo incrustado en los modelos pre-entrenados, mitigando los riesgos de sobreajuste. Para modelar eficientemente el conocimiento geométrico 3D dentro del adaptador, introducimos diseños innovadores que incluyen capas de auto-atención duplicadas y una arquitectura de atención paralela, lo que permite que el adaptador herede los potentes conocimientos previos de los modelos pre-entrenados para modelar el nuevo conocimiento 3D. Además, presentamos un codificador de condiciones unificado que integra de manera transparente los parámetros de la cámara y la información geométrica, facilitando aplicaciones como la generación 3D basada en texto e imagen y el texturizado. MV-Adapter logra la generación multi-vista a 768 de resolución en Stable Diffusion XL (SDXL), y demuestra adaptabilidad y versatilidad. También puede extenderse a la generación de vistas arbitrarias, lo que permite aplicaciones más amplias. Demostramos que MV-Adapter establece un nuevo estándar de calidad para la generación de imágenes multi-vista, y abre nuevas posibilidades debido a su eficiencia, adaptabilidad y versatilidad.
Los recientes avances en la generación de imágenes centradas en prendas a partir de texto y estímulos visuales basados en modelos de difusión son impresionantes. Sin embargo, los métodos existentes carecen de soporte para diversas combinaciones de atuendos y tienen dificultades para preservar los detalles de la prenda al mismo tiempo que mantienen fidelidad a los estímulos de texto, lo que limita su rendimiento en escenarios diversos. En este documento, nos enfocamos en una nueva tarea, es decir, el Vestuario Virtual Multi-Prenda, y proponemos un nuevo método llamado AnyDressing para personalizar personajes condicionados a cualquier combinación de prendas y a cualquier estímulo de texto personalizado. AnyDressing consta de dos redes principales llamadas GarmentsNet y DressingNet, que se dedican respectivamente a extraer características detalladas de la ropa y generar imágenes personalizadas. Específicamente, proponemos un módulo eficiente y escalable llamado Extractor de Características Específicas de Prenda en GarmentsNet para codificar individualmente las texturas de las prendas en paralelo. Este diseño evita la confusión de prendas al tiempo que asegura la eficiencia de la red. Mientras tanto, diseñamos un mecanismo de Atención al Vestir adaptativo y una estrategia novedosa de Aprendizaje de Localización de Prenda a Nivel de Instancia en DressingNet para inyectar con precisión características de múltiples prendas en sus regiones correspondientes. Este enfoque integra eficientemente señales de textura de múltiples prendas en las imágenes generadas y mejora aún más la consistencia texto-imagen. Además, introducimos una estrategia de Aprendizaje de Textura Mejorada por Prenda para mejorar los detalles de textura detallados de las prendas. Gracias a nuestro diseño cuidadoso, AnyDressing puede funcionar como un módulo complementario para integrarse fácilmente con cualquier extensión de control comunitario para modelos de difusión, mejorando la diversidad y controlabilidad de las imágenes sintetizadas. Experimentos extensos demuestran que AnyDressing logra resultados de vanguardia.
La orientación adversarial basada en texto utilizando una indicación negativa ha surgido como un enfoque ampliamente adoptado para alejar las características de salida de conceptos no deseados. Si bien es útil, realizar orientación adversarial solo con texto puede ser insuficiente para capturar conceptos visuales complejos y evitar elementos visuales no deseados como personajes con derechos de autor. En este documento, exploramos por primera vez una modalidad alternativa en esta dirección al realizar orientación adversarial directamente utilizando características visuales de una imagen de referencia u otras imágenes en un lote. En particular, presentamos la fusión de tokens negativos (NegToMe), un enfoque simple pero efectivo que, sin necesidad de entrenamiento, realiza orientación adversarial al separar selectivamente las características semánticas coincidentes (entre la referencia y la generación de salida) durante el proceso de difusión inversa. Cuando se utiliza con otras imágenes en el mismo lote, observamos que NegToMe aumenta significativamente la diversidad de salida (racial, de género, visual) sin sacrificar la calidad de la imagen de salida. De manera similar, al utilizarse con un activo con derechos de autor de referencia, NegToMe ayuda a reducir la similitud visual con contenido con derechos de autor en un 34.57%. NegToMe es fácil de implementar con solo unas pocas líneas de código, utiliza solo tiempos de inferencia ligeramente más altos (<4%) y se generaliza a diferentes arquitecturas de difusión como Flux, que no admiten nativamente el uso de una indicación negativa separada. El código está disponible en https://negtome.github.io
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han surgido como un hito en la inteligencia artificial, y su rendimiento puede mejorar a medida que aumenta el tamaño del modelo. Sin embargo, este escalado plantea grandes desafíos para la eficiencia de entrenamiento e inferencia, especialmente al implementar LLMs en entornos con recursos limitados, y la tendencia de escalado se está volviendo cada vez más insostenible. Este artículo introduce el concepto de "densidad de capacidad" como una nueva métrica para evaluar la calidad de los LLMs en diferentes escalas y describe la tendencia de los LLMs en términos de efectividad y eficiencia. Para calcular la densidad de capacidad de un LLM objetivo dado, primero presentamos un conjunto de modelos de referencia y desarrollamos una ley de escalado para predecir el rendimiento posterior de estos modelos de referencia en función de sus tamaños de parámetros. Luego definimos el tamaño efectivo de parámetros del LLM objetivo como el tamaño de parámetros requerido por un modelo de referencia para lograr un rendimiento equivalente, y formalizamos la densidad de capacidad como la relación entre el tamaño efectivo de parámetros y el tamaño real de parámetros del LLM objetivo. La densidad de capacidad proporciona un marco unificado para evaluar tanto la efectividad como la eficiencia del modelo. Nuestro análisis adicional de los recientes LLMs base de código abierto revela una ley empírica (la ley de densificación) que la densidad de capacidad de los LLMs crece de forma exponencial con el tiempo. Específicamente, utilizando algunos benchmarks ampliamente utilizados para la evaluación, la densidad de capacidad de los LLMs se duplica aproximadamente cada tres meses. Esta ley proporciona nuevas perspectivas para guiar el desarrollo futuro de LLMs, enfatizando la importancia de mejorar la densidad de capacidad para lograr resultados óptimos con un mínimo gasto computacional.
Los sesgos culturales en conjuntos de datos multilingües plantean desafíos significativos para su efectividad como puntos de referencia globales. Estos sesgos no solo provienen del idioma, sino también del conocimiento cultural necesario para interpretar preguntas, lo que reduce la utilidad práctica de conjuntos de datos traducidos como MMLU. Además, la traducción a menudo introduce artefactos que pueden distorsionar el significado o la claridad de las preguntas en el idioma de destino. Una práctica común en la evaluación multilingüe es depender de conjuntos de evaluación traducidos por máquina, pero simplemente traducir un conjunto de datos no es suficiente para abordar estos desafíos. En este trabajo, rastreamos el impacto de ambos problemas en las evaluaciones multilingües y en el rendimiento de los modelos resultantes. Nuestra evaluación a gran escala de modelos abiertos y propietarios de última generación ilustra que el progreso en MMLU depende en gran medida de aprender conceptos centrados en Occidente, con un 28% de todas las preguntas que requieren conocimiento culturalmente sensible. Además, para las preguntas que requieren conocimiento geográfico, un asombroso 84.9% se centra en regiones de América del Norte o Europa. Las clasificaciones de las evaluaciones de modelos cambian dependiendo de si se evalúan en la parte completa o en el subconjunto de preguntas anotadas como culturalmente sensibles, mostrando la distorsión en las clasificaciones de modelos al depender ciegamente de MMLU traducido. Lanzamos Global-MMLU, una versión mejorada de MMLU con cobertura de evaluación en 42 idiomas, con una calidad general mejorada al involucrar a anotadores profesionales y de la comunidad compensados para verificar la calidad de la traducción, al mismo tiempo que se evalúan rigurosamente los sesgos culturales presentes en el conjunto de datos original. Este completo conjunto Global-MMLU también incluye subconjuntos designados como culturalmente sensibles y culturalmente agnósticos para permitir una evaluación más holística y completa.
Presentamos Infinity, un Modelo AutoRegresivo Visual Bitwise capaz de generar imágenes de alta resolución y fotorrealistas siguiendo instrucciones en lenguaje natural. Infinity redefine el modelo auto-regresivo visual bajo un marco de predicción de tokens bitwise con un tokenizador y clasificador de vocabulario infinito y un mecanismo de autocorrección bitwise, mejorando notablemente la capacidad de generación y los detalles. Al escalar teóricamente el tamaño del vocabulario del tokenizador a infinito y al mismo tiempo escalar el tamaño del transformador, nuestro método libera significativamente capacidades de escalado potentes en comparación con VAR convencionales. Infinity establece un nuevo récord para modelos texto-imagen auto-regresivos, superando a modelos de difusión de primer nivel como SD3-Medium y SDXL. Destacadamente, Infinity supera a SD3-Medium al mejorar la puntuación del benchmark GenEval de 0.62 a 0.73 y la puntuación del benchmark ImageReward de 0.87 a 0.96, logrando una tasa de éxito del 66%. Sin optimizaciones adicionales, Infinity genera una imagen de 1024x1024 de alta calidad en 0.8 segundos, siendo 2.6 veces más rápido que SD3-Medium y estableciéndose como el modelo texto-imagen más rápido. Los modelos y códigos serán publicados para fomentar una mayor exploración de Infinity para generación visual y modelado de tokenizador unificado.
Presentamos HumanEdit, un conjunto de datos de alta calidad recompensado por humanos diseñado específicamente para la edición de imágenes guiada por instrucciones, que permite manipulaciones precisas y diversas de imágenes a través de instrucciones en lenguaje de forma abierta. Los conjuntos de datos de edición a gran escala anteriores a menudo incorporan un mínimo de retroalimentación humana, lo que conlleva desafíos para alinear los conjuntos de datos con las preferencias humanas. HumanEdit cubre esta brecha al emplear anotadores humanos para construir pares de datos y administradores para proporcionar retroalimentación. Con una curación meticulosa, HumanEdit consta de 5,751 imágenes y requiere más de 2,500 horas de esfuerzo humano a lo largo de cuatro etapas, garantizando tanto la precisión como la confiabilidad para una amplia gama de tareas de edición de imágenes. El conjunto de datos incluye seis tipos distintos de instrucciones de edición: Acción, Agregar, Conteo, Relación, Eliminar y Reemplazar, abarcando un amplio espectro de escenarios del mundo real. Todas las imágenes en el conjunto de datos están acompañadas de máscaras, y para un subconjunto de los datos, nos aseguramos de que las instrucciones sean lo suficientemente detalladas para admitir la edición sin máscara. Además, HumanEdit ofrece diversidad integral y contenido de alta resolución de 1024 por 1024 extraído de varios dominios, estableciendo un nuevo referente versátil para conjuntos de datos de edición de imágenes instructivas. Con el objetivo de avanzar en la investigación futura y establecer puntos de referencia de evaluación en el campo de la edición de imágenes, lanzamos HumanEdit en https://huggingface.co/datasets/BryanW/HumanEdit.
Los Modelos de Lenguaje Multimodales a Gran Escala (MLLMs) han cobrado una importancia creciente debido a su rendimiento de vanguardia y su capacidad para integrar múltiples modalidades de datos, como texto, imágenes y audio, para llevar a cabo tareas complejas con alta precisión. Este artículo presenta un estudio exhaustivo sobre modelos de lenguaje multimodales a gran escala personalizados, centrándose en su arquitectura, métodos de entrenamiento y aplicaciones. Proponemos una taxonomía intuitiva para categorizar las técnicas utilizadas para personalizar MLLMs para usuarios individuales, y discutimos las técnicas correspondientemente. Además, analizamos cómo dichas técnicas pueden combinarse o adaptarse cuando sea apropiado, resaltando sus ventajas y fundamentos subyacentes. También proporcionamos un resumen conciso de las tareas de personalización investigadas en la investigación existente, junto con las métricas de evaluación comúnmente utilizadas. Adicionalmente, resumimos los conjuntos de datos que son útiles para evaluar MLLMs personalizados. Por último, esbozamos desafíos abiertos críticos. Este estudio tiene como objetivo servir como un recurso valioso para investigadores y profesionales que buscan comprender y avanzar en el desarrollo de modelos de lenguaje multimodales a gran escala personalizados.
Comprender las computaciones internas de los grandes modelos de lenguaje (LLMs) es crucial para alinearlos con los valores humanos y prevenir comportamientos no deseados como la generación de contenido tóxico. Sin embargo, la interpretabilidad mecanicista se ve obstaculizada por la polisemanticidad, donde neuronas individuales responden a múltiples conceptos no relacionados. Si bien los Autoencoders Escasos (SAEs) han intentado desentrañar estas características a través del aprendizaje de diccionarios escasos, han comprometido el rendimiento de los LLM debido a la dependencia de la pérdida de reconstrucción post-hoc. Para abordar este problema, presentamos la arquitectura Mixture of Monosemantic Experts for Transformers (Monet), que incorpora el aprendizaje de diccionarios escasos directamente en el preentrenamiento end-to-end de Mixture-of-Experts. Nuestro novedoso método de descomposición de expertos permite escalar el número de expertos a 262,144 por capa, mientras que los parámetros totales escalan proporcionalmente a la raíz cuadrada del número de expertos. Nuestros análisis demuestran la exclusividad mutua del conocimiento entre expertos y muestran el conocimiento paramétrico encapsulado dentro de cada experto. Además, Monet permite la manipulación del conocimiento sobre dominios, idiomas y mitigación de toxicidad sin degradar el rendimiento general. Nuestra búsqueda de LLMs transparentes destaca el potencial de escalar el número de expertos para mejorar la interpretabilidad mecanicista y resecar directamente el conocimiento interno para ajustar fundamentalmente el comportamiento del modelo. El código fuente y los puntos de control preentrenados están disponibles en https://github.com/dmis-lab/Monet.
Presentamos OmniFlow, un modelo generativo novedoso diseñado para tareas de generación de cualquier-a-cualquier, como texto-a-imagen, texto-a-audio y síntesis de audio-a-imagen. OmniFlow avanza el marco de flujo rectificado (RF) utilizado en modelos de texto-a-imagen para manejar la distribución conjunta de múltiples modalidades. Supera a modelos previos de cualquier-a-cualquier en una amplia gama de tareas, como síntesis de texto-a-imagen y texto-a-audio. Nuestro trabajo ofrece tres contribuciones clave: Primero, extendemos RF a un entorno multi-modal e introducimos un mecanismo de guía novedoso, que permite a los usuarios controlar de forma flexible la alineación entre diferentes modalidades en las salidas generadas. Segundo, proponemos una arquitectura novedosa que extiende la arquitectura MMDiT de texto-a-imagen de Stable Diffusion 3 y permite la generación de audio y texto. Los módulos extendidos pueden ser preentrenados de manera eficiente de forma individual y fusionados con el MMDiT de texto-a-imagen estándar para ajustes finos. Por último, realizamos un estudio exhaustivo sobre las elecciones de diseño de transformadores de flujo rectificado para generación de audio y texto a gran escala, proporcionando ideas valiosas para optimizar el rendimiento en diversas modalidades. El código estará disponible en https://github.com/jacklishufan/OmniFlows.
Como un deporte celebrado a nivel mundial, el fútbol ha atraído un gran interés de los aficionados de todo el mundo. Este documento tiene como objetivo desarrollar un marco multi-modal integral para la comprensión de videos de fútbol. Específicamente, realizamos las siguientes contribuciones en este documento: (i) presentamos SoccerReplay-1988, el conjunto de datos multi-modal de fútbol más grande hasta la fecha, que incluye videos y anotaciones detalladas de 1,988 partidos completos, con un pipeline de anotación automatizado; (ii) presentamos el primer modelo base visual-lenguaje en el dominio del fútbol, MatchVision, que aprovecha la información espacio-temporal en videos de fútbol y destaca en varias tareas posteriores; (iii) realizamos experimentos extensos y estudios de ablación sobre clasificación de eventos, generación de comentarios y reconocimiento de faltas desde múltiples vistas. MatchVision demuestra un rendimiento de vanguardia en todos ellos, superando sustancialmente a los modelos existentes, lo que resalta la superioridad de nuestros datos y modelo propuestos. Creemos que este trabajo ofrecerá un paradigma estándar para la investigación en comprensión de deportes.
Los Modelos de Visión-Lenguaje Entrenados de Forma Contrastiva (VLMs) como CLIP se han convertido en el enfoque por defecto para el aprendizaje de representaciones visión-lenguaje de forma discriminativa. Sin embargo, estos modelos tienen una comprensión limitada del lenguaje, mostrando a menudo un comportamiento de "saco de palabras". Al mismo tiempo, los Modelos de Visión-Lenguaje Grandes (LVLMs), que combinan codificadores de visión con LLMs, han demostrado ser capaces de razonamiento detallado visión-lenguaje, aunque su naturaleza autoregresiva los hace menos adecuados para tareas discriminativas. En este trabajo, proponemos combinar "lo mejor de ambos mundos": un nuevo enfoque de entrenamiento para el ajuste fino discriminativo de LVLMs que resulta en fuertes capacidades discriminativas y de composición. Esencialmente, nuestro enfoque convierte un LVLM generativo en uno discriminativo, desbloqueando su capacidad para una potente discriminación imagen-texto combinada con una comprensión del lenguaje mejorada. Nuestras contribuciones incluyen: (1) Un marco de entrenamiento/optimización cuidadosamente diseñado que utiliza pares imagen-texto de longitud y granularidad variables para entrenar el modelo con pérdidas de predicción contrastiva y de siguiente token. Esto va acompañado de estudios de ablación que justifican la necesidad de los componentes de nuestro marco. (2) Un método de adaptación eficiente en parámetros que utiliza una combinación de indicaciones suaves y adaptadores LoRA. (3) Mejoras significativas sobre los modelos CLIP similares de última generación en tamaño, incluyendo pruebas estándar de recuperación imagen-texto y ganancias notables en composicionalidad.
Los Modelos de Lenguaje de Gran Tamaño (LLMs) han logrado un progreso notable en los últimos años; sin embargo, su excelente rendimiento sigue estando principalmente limitado a los principales idiomas del mundo, principalmente el inglés. Muchos LLMs siguen enfrentando desafíos con tareas multilingües, especialmente cuando se trata de idiomas con pocos recursos. Para abordar este problema, presentamos Marco-LLM: Entrenamiento masivo multilingüe para la mejora cruzada de LLM. Hemos recopilado una cantidad sustancial de datos multilingües para varios idiomas con pocos recursos y hemos llevado a cabo una extensa preformación continua utilizando los modelos Qwen2. Este esfuerzo ha dado como resultado un LLM multilingüe llamado Marco-LLM. A través de evaluaciones exhaustivas en varios puntos de referencia multilingües, incluidos MMMLU, AGIEval, Belebele, Flores-200, XCOPA y muchos otros, Marco-LLM ha demostrado mejoras sustanciales sobre los LLMs de vanguardia. Además, Marco-LLM logró mejoras sustanciales en tareas de traducción automática de cualquier idioma a cualquier idioma, mostrando la efectividad de nuestro LLM multilingüe. Marco-LLM es un LLM multilingüe pionero diseñado no solo para desempeñarse excepcionalmente bien en tareas multilingües, incluidos los idiomas con pocos recursos, sino también para mantener un rendimiento sólido en inglés y otros idiomas principales, cerrando la brecha de rendimiento entre las capacidades de idiomas con muchos recursos y con pocos recursos. Al unir los idiomas, este esfuerzo demuestra nuestra dedicación para garantizar que los LLMs funcionen con precisión en varios idiomas.
Los recientes avances en modelos de difusión de video han desbloqueado un nuevo potencial para la generación realista de videos hablados impulsados por audio. Sin embargo, lograr una sincronización audio-labial fluida, mantener una consistencia de identidad a largo plazo y producir expresiones naturales y alineadas con el audio en videos hablados generados siguen siendo desafíos significativos. Para abordar estos desafíos, proponemos MEMO (Memoria guiada Difusión Consciente de Emociones), un enfoque de animación de retratos impulsado por audio de extremo a extremo para generar videos hablados consistentes en identidad y expresivos. Nuestro enfoque se basa en dos módulos clave: (1) un módulo temporal guiado por memoria, que mejora la consistencia de identidad a largo plazo y la suavidad del movimiento mediante el desarrollo de estados de memoria para almacenar información de un contexto pasado más largo para guiar la modelización temporal a través de atención lineal; y (2) un módulo de audio consciente de emociones, que reemplaza la atención cruzada tradicional con atención multimodal para mejorar la interacción audio-video, al tiempo que detecta emociones del audio para refinar las expresiones faciales a través de una capa de normalización adaptativa a las emociones. Resultados extensos cuantitativos y cualitativos demuestran que MEMO genera videos hablados más realistas en diversos tipos de imágenes y audio, superando a los métodos de vanguardia en calidad general, sincronización audio-labial, consistencia de identidad y alineación de expresión-emoción.
En este artículo, proponemos ZipAR, un marco de decodificación paralela sin entrenamiento, listo para usar, para acelerar la generación visual auto-regresiva (AR). La motivación surge de la observación de que las imágenes exhiben estructuras locales y las regiones espacialmente distantes tienden a tener una interdependencia mínima. Dado un conjunto parcialmente decodificado de tokens visuales, además del esquema original de predicción del siguiente token en la dimensión de fila, los tokens correspondientes a regiones espacialmente adyacentes en la dimensión de columna pueden decodificarse en paralelo, permitiendo el paradigma de "predicción del siguiente conjunto". Al decodificar múltiples tokens simultáneamente en un solo pase hacia adelante, se reduce significativamente el número de pases hacia adelante necesarios para generar una imagen, lo que resulta en una mejora sustancial en la eficiencia de generación. Los experimentos demuestran que ZipAR puede reducir el número de pases hacia adelante del modelo hasta en un 91% en el modelo Emu3-Gen sin necesidad de ningún reentrenamiento adicional.
Los actuales modelos de lenguaje de gran tamaño se basan principalmente en transformadores de estructura de solo decodificación, que poseen grandes capacidades de aprendizaje en contexto (ICL). Se cree generalmente que la base importante de su capacidad de ICL es el mecanismo de cabezales de inducción, que requiere al menos dos capas de atención. Con el fin de implementar de manera más eficiente la capacidad de inducción del modelo, revisamos el mecanismo de cabezales de inducción y propusimos una atención de cambio de KV. Teóricamente demostramos que la atención de cambio de KV reduce los requisitos del modelo para la profundidad y amplitud del mecanismo de cabezales de inducción. Nuestros resultados experimentales demuestran que la atención de cambio de KV es beneficiosa para el aprendizaje de cabezales de inducción y modelado de lenguaje, lo que conduce a un mejor rendimiento o una convergencia más rápida desde modelos básicos hasta los modelos de pre-entrenamiento con más de 10 mil millones de parámetros.
Proponemos 4Real-Video, un marco novedoso para generar videos 4D, organizados como una cuadrícula de fotogramas de video con ejes de tiempo y punto de vista. En esta cuadrícula, cada fila contiene fotogramas que comparten el mismo intervalo de tiempo, mientras que cada columna contiene fotogramas desde el mismo punto de vista. Proponemos una arquitectura novedosa de dos flujos. Un flujo realiza actualizaciones de punto de vista en las columnas, y el otro flujo realiza actualizaciones temporales en las filas. Después de cada capa de transformador de difusión, una capa de sincronización intercambia información entre los dos flujos de tokens. Proponemos dos implementaciones de la capa de sincronización, utilizando sincronización dura o suave. Esta arquitectura feedforward mejora el trabajo previo de tres maneras: mayor velocidad de inferencia, calidad visual mejorada (medida por FVD, CLIP y VideoScore), y mejor consistencia temporal y de punto de vista (medida por VideoScore y Dust3R-Confidence).
A pesar del notable rendimiento de los modelos de lenguaje multimodales grandes (MLLMs) en diversas tareas, los significativos costos de entrenamiento e inferencia obstaculizan su avance. La mayoría de la computación proviene del abrumador volumen de tokens visuales procesados por el decodificador del transformador. En este artículo, proponemos construir MLLMs eficientes aprovechando el mecanismo de Mezcla de Profundidades (MoD), donde cada capa del decodificador del transformador selecciona tokens visuales esenciales para procesar mientras omite los redundantes. Sin embargo, integrar MoD en MLLMs es complejo. Para abordar los desafíos de estabilidad en el entrenamiento e inferencia, así como la limitada cantidad de datos de entrenamiento, adaptamos el módulo MoD con dos diseños novedosos: normalización de pesos con compuerta tanh (TanhNorm) y reponderación simétrica de tokens (STRing). Además, observamos que los tokens visuales muestran una mayor redundancia en capas más profundas y, por lo tanto, diseñamos una estrategia de decaimiento progresivo de ratio (PRD), que reduce gradualmente la proporción de retención de tokens capa por capa, utilizando un horario de coseno desplazado. Este diseño crucial libera completamente el potencial de MoD, mejorando significativamente la eficiencia y el rendimiento de nuestros modelos. Para validar la efectividad de nuestro enfoque, realizamos experimentos extensos con dos modelos de referencia en 14 pruebas. Nuestro modelo, p-MoD, iguala o incluso supera el rendimiento de los modelos de referencia, con solo un 55.6% de TFLOPs y un 53.8% de almacenamiento de caché KV durante la inferencia, y un 77.7% de horas de GPU durante el entrenamiento.
A pesar de los avances significativos en los modelos visión-lenguaje (VLMs), aún faltan enfoques efectivos para mejorar la calidad de respuesta escalando la computación en tiempo de inferencia. Esta capacidad se reconoce como un paso fundamental hacia los modelos auto-mejorantes en los recientes estudios de grandes modelos de lenguaje. En este artículo, presentamos el Modelo de Valor de Visión (VisVM) que puede guiar la búsqueda en tiempo de inferencia de VLM para generar respuestas con una mejor comprensión visual. Específicamente, VisVM no solo evalúa la calidad de la oración generada en el paso de búsqueda actual, sino que también anticipa la calidad de las oraciones subsecuentes que pueden resultar de dicho paso, proporcionando así un valor a largo plazo. De esta manera, VisVM dirige a los VLMs lejos de generar oraciones propensas a alucinaciones o con detalles insuficientes, produciendo así respuestas de mayor calidad. Los resultados experimentales demuestran que la búsqueda guiada por VisVM mejora significativamente la capacidad de los VLMs para generar subtítulos descriptivos con detalles visuales más ricos y menos alucinaciones, en comparación con la decodificación codiciosa y los métodos de búsqueda con otras señales de recompensa visual. Además, encontramos que el auto-entrenamiento del modelo con los subtítulos guiados por VisVM mejora el rendimiento de los VLMs en una amplia gama de benchmarks multimodales, lo que indica el potencial para desarrollar VLMs auto-mejorantes. Nuestro modelo de valor y código están disponibles en https://github.com/si0wang/VisVM.
La segmentación de imágenes médicas ha demostrado recientemente un progreso impresionante con redes neuronales profundas, sin embargo, las modalidades heterogéneas y la escasez de anotaciones de máscaras limitan el desarrollo de modelos de segmentación en modalidades no anotadas. Este artículo investiga un nuevo paradigma para aprovechar los modelos generativos en aplicaciones médicas: sintetizar datos de manera controlada para modalidades no anotadas, sin necesidad de datos registrados emparejados. Específicamente, realizamos las siguientes contribuciones en este artículo: (i) recopilamos y curamos un conjunto de datos de imágenes y texto de radiología a gran escala, MedGen-1M, que incluye etiquetas de modalidad, atributos, información de región y órganos, junto con un subconjunto de anotaciones de máscaras de órganos, para respaldar la investigación en generación de imágenes médicas controlables; (ii) proponemos un motor de datos basado en difusión, denominado MRGen, que permite la generación condicionada a través de indicaciones de texto y máscaras, sintetizando imágenes de resonancia magnética para diversas modalidades que carecen de anotaciones de máscaras, para entrenar modelos de segmentación en modalidades no anotadas; (iii) realizamos experimentos extensos en varias modalidades, demostrando que nuestro motor de datos puede sintetizar de manera efectiva muestras de entrenamiento y extender la segmentación de resonancia magnética hacia modalidades no anotadas.
La extracción de tablas de imágenes de documentos es un desafiante problema de IA, y obtener datos etiquetados para muchos dominios de contenido resulta complicado. Los conjuntos de datos existentes para la extracción de tablas suelen centrarse en tablas científicas debido a la gran cantidad de artículos académicos disponibles, junto con su código fuente. Sin embargo, existen diferencias significativas en el diseño y la tipografía entre las tablas de ámbitos científicos, financieros y otros. Los conjuntos de datos actuales a menudo carecen de las palabras y sus posiciones contenidas en las tablas, en su lugar, dependen de OCR poco confiable para extraer estas características y entrenar modelos modernos de aprendizaje automático en tareas de procesamiento del lenguaje natural. Por lo tanto, se requiere un método más general para obtener datos etiquetados. Presentamos SynFinTabs, un conjunto de datos etiquetado a gran escala de tablas financieras sintéticas. Esperamos que nuestro método de generación de estas tablas sintéticas sea transferible a otros dominios. Para demostrar la efectividad de nuestro conjunto de datos en el entrenamiento de modelos para extraer información de imágenes de tablas, creamos FinTabQA, un gran modelo de lenguaje de diseño entrenado en una tarea extractiva de pregunta-respuesta. Probamos nuestro modelo utilizando tablas financieras del mundo real y lo comparamos con un modelo generativo de última generación, discutiendo los resultados. Ponemos a disposición públicamente el conjunto de datos, el modelo y el código de generación del conjunto de datos.
Plataformas abiertas impulsadas por la comunidad, como Chatbot Arena, que recopilan datos de preferencia de los visitantes del sitio, han adquirido una reputación como uno de los benchmarks públicamente disponibles más confiables para el rendimiento de Modelos de Lenguaje con Grandes Dimensiones (LLM, por sus siglas en inglés). Aunque ahora es estándar, resulta complicado implementar salvaguardias efectivas para recopilar anotaciones de alta calidad de los seres humanos. En este documento, demostramos que tres fuentes de anotaciones deficientes, ya sean maliciosas u otras, pueden corromper la confiabilidad de las clasificaciones en los tableros de líderes abiertos. En particular, mostramos que solo el 10\% de votos de baja calidad por parte de anotadores apáticos (visitantes del sitio no incentivados adecuadamente para dar votos correctos) o adversarios (actores malintencionados que buscan inflar la clasificación de un modelo específico) pueden cambiar las posiciones de los modelos hasta en 5 lugares en el tablero de líderes. Por último, discutimos los desafíos abiertos para garantizar anotaciones humanas de alta calidad.
Desarrollamos leyes de escalado de tareas y modelos de escalera para predecir el rendimiento de tareas individuales de modelos de lenguaje preentrenados (LMs) en el entorno de sobreentrenamiento. Las leyes de potencia estándar para la pérdida de modelado de lenguaje no pueden modelar con precisión el rendimiento de la tarea. Por lo tanto, aprovechamos un enfoque de predicción de dos pasos: primero usamos el tamaño del modelo y de los datos para predecir una pérdida específica de la tarea, y luego usamos esta pérdida de tarea para predecir el rendimiento de la tarea. Entrenamos un conjunto de modelos de "escalera" a pequeña escala, recopilamos puntos de datos para ajustar las funciones parametrizadas de los dos pasos de predicción, y realizamos predicciones para dos modelos objetivo: un modelo de 7B entrenado con 4T tokens y un modelo de 13B entrenado con 5T tokens. Entrenar los modelos de escalera solo cuesta el 1% de la computación utilizada para los modelos objetivo. En cuatro tareas de opción múltiple escritas en formato de clasificación clasificada, podemos predecir la precisión de ambos modelos objetivo dentro de 2 puntos de error absoluto. Tenemos un error de predicción más alto en otras cuatro tareas (error absoluto promedio 6.9) y encontramos que estas son a menudo tareas con una mayor variabilidad en las métricas de la tarea. También observamos que usar menos computación para entrenar menos modelos de escalera tiende a deteriorar las predicciones. Finalmente, demostramos empíricamente que nuestras elecciones de diseño y el enfoque de dos pasos conducen a un rendimiento superior en el establecimiento de leyes de escalado.