Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Movie Gen, un elenco de modelos base que genera videos de alta calidad en HD de 1080p con diferentes relaciones de aspecto y audio sincronizado. También mostramos capacidades adicionales como la edición de video basada en instrucciones precisas y la generación de videos personalizados basados en la imagen de un usuario. Nuestros modelos establecen un nuevo estado del arte en múltiples tareas: síntesis de texto a video, personalización de video, edición de video, generación de audio a partir de video y generación de audio a partir de texto. Nuestro modelo de generación de video más grande es un transformador de 30 mil millones de parámetros entrenado con una longitud de contexto máxima de 73 mil tokens de video, lo que corresponde a un video generado de 16 segundos a 16 cuadros por segundo. Mostramos múltiples innovaciones técnicas y simplificaciones en la arquitectura, espacios latentes, objetivos y recetas de entrenamiento, curación de datos, protocolos de evaluación, técnicas de paralelización y optimizaciones de inferencia que nos permiten cosechar los beneficios de escalar datos de pre-entrenamiento, tamaño del modelo y cómputo de entrenamiento para entrenar modelos de generación de medios a gran escala. Esperamos que este documento ayude a la comunidad de investigación a acelerar el progreso y la innovación en modelos de generación de medios. Todos los videos de este documento están disponibles en https://go.fb.me/MovieGenResearchVideos.
Percepción y generación de diversas modalidades son cruciales para que los modelos de IA aprendan y se relacionen efectivamente con señales del mundo real, lo que requiere evaluaciones confiables para su desarrollo. Identificamos dos problemas principales en las evaluaciones actuales: (1) estándares inconsistentes, formados por diferentes comunidades con protocolos y niveles de madurez variables; y (2) sesgos significativos en consultas, calificaciones y generalización. Para abordar estos problemas, presentamos MixEval-X, el primer banco de pruebas del mundo real de cualquier a cualquier diseñado para optimizar y estandarizar evaluaciones entre modalidades de entrada y salida. Proponemos mezclas de bancos de pruebas multimodales y tuberías de adaptación-rectificación para reconstruir distribuciones de tareas del mundo real, asegurando que las evaluaciones se generalicen efectivamente a casos de uso reales. Evaluaciones meta extensas muestran que nuestro enfoque alinea efectivamente muestras de bancos de pruebas con distribuciones de tareas del mundo real y que las clasificaciones de modelos se correlacionan fuertemente con las evaluaciones del mundo real realizadas por la multitud (hasta 0.98). Proporcionamos tablas de clasificación completas para reordenar modelos y organizaciones existentes y ofrecemos ideas para mejorar la comprensión de las evaluaciones multimodales e informar futuras investigaciones.
Los jueces basados en LLM han surgido como una alternativa escalable a la evaluación humana y se utilizan cada vez más para evaluar, comparar y mejorar modelos. Sin embargo, la fiabilidad de los propios jueces basados en LLM rara vez se examina. A medida que los LLM se vuelven más avanzados, sus respuestas se vuelven más sofisticadas, lo que requiere jueces más sólidos para evaluarlos. Los benchmarks existentes se centran principalmente en la alineación de un juez con las preferencias humanas, pero a menudo no tienen en cuenta tareas más desafiantes donde las preferencias humanas obtenidas mediante crowdsourcing son un indicador pobre de la corrección factual y lógica. Para abordar esto, proponemos un nuevo marco de evaluación para evaluar objetivamente a los jueces basados en LLM. Basándonos en este marco, proponemos JudgeBench, un benchmark para evaluar a los jueces basados en LLM en pares de respuestas desafiantes que abarcan conocimiento, razonamiento, matemáticas y codificación. JudgeBench aprovecha un nuevo proceso para convertir conjuntos de datos difíciles existentes en pares de respuestas desafiantes con etiquetas de preferencia que reflejan la corrección objetiva. Nuestra evaluación exhaustiva en una colección de jueces solicitados, jueces ajustados y modelos de recompensa muestra que JudgeBench plantea un desafío significativamente mayor que los benchmarks anteriores, con muchos modelos sólidos (por ejemplo, GPT-4o) que tienen un rendimiento apenas mejor que una suposición aleatoria. En general, JudgeBench ofrece una plataforma fiable para evaluar a los jueces basados en LLM cada vez más avanzados. Los datos y el código están disponibles en https://github.com/ScalerLab/JudgeBench.
La ampliación de modelos autoregresivos en visión no ha demostrado ser tan beneficiosa como en los grandes modelos de lenguaje. En este trabajo, investigamos este problema de escalado en el contexto de la generación de texto a imagen, centrándonos en dos factores críticos: si los modelos utilizan tokens discretos o continuos, y si los tokens se generan en un orden de trama aleatorio o fijo utilizando arquitecturas de transformadores tipo BERT o GPT. Nuestros resultados empíricos muestran que, si bien todos los modelos escalan de manera efectiva en términos de pérdida de validación, su rendimiento de evaluación, medido por FID, puntuación GenEval y calidad visual, sigue tendencias diferentes. Los modelos basados en tokens continuos logran una calidad visual significativamente mejor que aquellos que utilizan tokens discretos. Además, el orden de generación y los mecanismos de atención afectan significativamente la puntuación GenEval: los modelos de orden aleatorio obtienen puntuaciones GenEval notablemente mejores en comparación con los modelos de orden de trama. Inspirados por estos hallazgos, entrenamos Fluid, un modelo autoregresivo de orden aleatorio en tokens continuos. El modelo Fluid 10.5B logra un nuevo FID de cero disparos de vanguardia de 6.16 en MS-COCO 30K, y una puntuación general de 0.69 en el banco de pruebas GenEval. Esperamos que nuestros hallazgos y resultados alienten futuros esfuerzos para cerrar aún más la brecha de escalado entre los modelos de visión y lenguaje.
En este artículo, presentamos Janus, un marco autoregresivo que unifica la comprensión y generación multimodal. La investigación previa a menudo se basa en un único codificador visual para ambas tareas, como Chameleon. Sin embargo, debido a los diferentes niveles de granularidad de la información requeridos por la comprensión y generación multimodal, este enfoque puede llevar a un rendimiento subóptimo, especialmente en la comprensión multimodal. Para abordar este problema, desacoplamos la codificación visual en vías separadas, mientras seguimos aprovechando una arquitectura de transformer unificada para el procesamiento. El desacoplamiento no solo alivia el conflicto entre los roles del codificador visual en la comprensión y generación, sino que también mejora la flexibilidad del marco. Por ejemplo, tanto los componentes de comprensión multimodal como de generación pueden seleccionar de forma independiente sus métodos de codificación más adecuados. Los experimentos muestran que Janus supera al modelo unificado anterior y iguala o supera el rendimiento de los modelos específicos de tarea. La simplicidad, alta flexibilidad y efectividad de Janus lo convierten en un fuerte candidato para modelos multimodales unificados de próxima generación.
El éxito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) ha motivado esfuerzos para integrar datos de habla y audio, con el objetivo de crear modelos base generales capaces de procesar tanto entradas textuales como no textuales. Avances recientes, como GPT-4o, resaltan el potencial de los LLMs de habla de extremo a extremo, que preservan información no semántica y conocimiento del mundo para una comprensión más profunda del habla. Para guiar el desarrollo de LLMs de habla, proponemos una hoja de ruta de cinco niveles, que va desde el reconocimiento automático de habla (ASR, por sus siglas en inglés) básico hasta modelos superhumanos avanzados capaces de integrar información no semántica con conocimiento acústico abstracto para tareas complejas. Además, diseñamos un punto de referencia, el Benchmark SAGI, que estandariza aspectos críticos en varias tareas en estos cinco niveles, revelando desafíos en el uso de conocimiento acústico abstracto y la completitud de la capacidad. Nuestros hallazgos revelan brechas en el manejo de señales paralingüísticas y conocimiento acústico abstracto, y ofrecemos direcciones futuras. Este artículo esboza una hoja de ruta para avanzar en los LLMs de habla, presenta un punto de referencia para evaluación y proporciona ideas clave sobre sus limitaciones actuales y potencialidades.
Los asistentes móviles actuales se ven limitados por su dependencia de las API del sistema o tienen dificultades con instrucciones de usuario complejas y diversas interfaces debido a capacidades restringidas de comprensión y toma de decisiones. Para abordar estos desafíos, proponemos MobA, un novedoso Agente de Teléfono Móvil impulsado por modelos de lenguaje multimodales que mejora las capacidades de comprensión y planificación a través de una sofisticada arquitectura de agente de dos niveles. El Agente Global (GA) de alto nivel es responsable de entender los comandos del usuario, rastrear memorias históricas y planificar tareas. El Agente Local (LA) de bajo nivel predice acciones detalladas en forma de llamadas a funciones, guiado por subtareas y memoria del GA. La integración de un Módulo de Reflexión permite una finalización eficiente de tareas y capacita al sistema para manejar tareas complejas no vistas previamente. MobA demuestra mejoras significativas en la eficiencia de ejecución de tareas y la tasa de finalización en evaluaciones de la vida real, subrayando el potencial de los asistentes móviles potenciados por MLLM.
Los Modelos de Lenguaje Visual (VLMs) a menudo tienen dificultades con el conocimiento específico de la cultura, especialmente en idiomas distintos al inglés y en contextos culturales subrepresentados. Para evaluar su comprensión de dicho conocimiento, presentamos WorldCuisines, un banco de pruebas a gran escala para la comprensión del lenguaje multilingüe y multicultural, fundamentado visualmente. Este banco de pruebas incluye un conjunto de datos de preguntas y respuestas visuales (VQA) con pares de texto e imagen en 30 idiomas y dialectos, abarcando 9 familias lingüísticas y con más de 1 millón de puntos de datos, convirtiéndolo en el banco de pruebas VQA multicultural más grande hasta la fecha. Incluye tareas para identificar nombres de platos y sus orígenes. Proporcionamos conjuntos de datos de evaluación en dos tamaños (12k y 60k instancias) junto con un conjunto de datos de entrenamiento (1 millón de instancias). Nuestros hallazgos muestran que, si bien los VLMs tienen un mejor rendimiento con el contexto de ubicación correcto, tienen dificultades con contextos adversos y la predicción de cocinas regionales y idiomas específicos. Para apoyar la investigación futura, publicamos una base de conocimiento con entradas de alimentos anotadas e imágenes junto con los datos VQA.
La comprensión visual rica en texto, la capacidad de procesar entornos donde se integra contenido textual denso con elementos visuales, es crucial para que los modelos de lenguaje grandes multimodales (MLLMs) interactúen de manera efectiva con entornos estructurados. Para mejorar esta capacidad, proponemos sintetizar instrucciones multimodales generales a partir de interfaces de usuario (UI) de páginas web utilizando modelos de lenguaje grandes basados en texto (LLMs). A pesar de carecer de entrada visual directa, los LLMs basados en texto pueden procesar representaciones de texto estructurado de los árboles de accesibilidad de las páginas web. Estas instrucciones se emparejan luego con capturas de pantalla de la UI para entrenar modelos multimodales. Presentamos MultiUI, un conjunto de datos que contiene 7.3 millones de ejemplos de 1 millón de sitios web, que abarcan diversas tareas multimodales y diseños de UI. Los modelos entrenados en MultiUI no solo sobresalen en tareas de UI web, logrando hasta un 48\% de mejora en VisualWebBench y un aumento del 19.1\% en la precisión de acciones en un conjunto de datos de agente web Mind2Web, sino que también generalizan sorprendentemente bien a tareas no relacionadas con UI web e incluso a dominios no relacionados con UI, como comprensión de documentos, OCR e interpretación de gráficos. Estos resultados resaltan la amplia aplicabilidad de los datos de UI web para avanzar en la comprensión visual rica en texto en diversos escenarios.
Los avances recientes en la generación personalizada de videos han permitido a los usuarios crear videos adaptados tanto a sujetos específicos como a trayectorias de movimiento. Sin embargo, los métodos existentes a menudo requieren un ajuste fino complicado en tiempo de prueba y tienen dificultades para equilibrar el aprendizaje del sujeto y el control del movimiento, lo que limita sus aplicaciones en el mundo real. En este documento, presentamos DreamVideo-2, un marco de personalización de video de cero disparos capaz de generar videos con un sujeto específico y una trayectoria de movimiento, guiado por una sola imagen y una secuencia de cuadros delimitadores, respectivamente, y sin necesidad de ajuste fino en tiempo de prueba. Específicamente, introducimos la atención de referencia, que aprovecha las capacidades inherentes del modelo para el aprendizaje del sujeto, y diseñamos un módulo de movimiento guiado por máscara para lograr un control preciso del movimiento utilizando completamente la señal de movimiento robusta de las máscaras de cuadro derivadas de los cuadros delimitadores. Mientras que estos dos componentes logran sus funciones previstas, observamos empíricamente que el control del movimiento tiende a dominar sobre el aprendizaje del sujeto. Para abordar esto, proponemos dos diseños clave: 1) la atención de referencia enmascarada, que integra un esquema de modelado de máscara latente mezclada en la atención de referencia para mejorar las representaciones del sujeto en las posiciones deseadas, y 2) una pérdida de difusión reponderada, que diferencia las contribuciones de las regiones dentro y fuera de los cuadros delimitadores para garantizar un equilibrio entre el sujeto y el control del movimiento. Los extensos resultados experimentales en un conjunto de datos recién recopilado demuestran que DreamVideo-2 supera a los métodos de vanguardia tanto en la personalización del sujeto como en el control del movimiento. El conjunto de datos, el código y los modelos estarán disponibles públicamente.
La Inteligencia Artificial (IA) ha demostrado un potencial significativo en el campo de la salud, especialmente en el diagnóstico de enfermedades y la planificación del tratamiento. El reciente avance en Modelos Médicos de Gran Visión-Lenguaje (Med-LVLMs) ha abierto nuevas posibilidades para herramientas de diagnóstico interactivas. Sin embargo, estos modelos a menudo sufren de alucinaciones factuales, lo que puede llevar a diagnósticos incorrectos. El ajuste fino y la generación aumentada mediante recuperación (RAG) han surgido como métodos para abordar estos problemas. Sin embargo, la cantidad de datos de alta calidad y los cambios de distribución entre los datos de entrenamiento y los datos de implementación limitan la aplicación de métodos de ajuste fino. Aunque RAG es ligero y efectivo, los enfoques existentes basados en RAG no son lo suficientemente generales para diferentes dominios médicos y pueden causar problemas de desalineación, tanto entre modalidades como entre el modelo y la verdad fundamental. En este documento, proponemos un sistema RAG multimodal versátil, MMed-RAG, diseñado para mejorar la factualidad de los Med-LVLMs. Nuestro enfoque introduce un mecanismo de recuperación consciente del dominio, un método adaptativo de selección de contextos recuperados y una estrategia de ajuste fino basada en RAG demostrable. Estas innovaciones hacen que el proceso de RAG sea lo suficientemente general y confiable, mejorando significativamente la alineación al introducir contextos recuperados. Los resultados experimentales en cinco conjuntos de datos médicos (radiología, oftalmología, patología) sobre VQA médico y generación de informes demuestran que MMed-RAG puede lograr una mejora promedio del 43.8% en la precisión factual de los Med-LVLMs. Nuestros datos y código están disponibles en https://github.com/richard-peng-xia/MMed-RAG.
En este trabajo, mejoramos el mecanismo de atención multi-cabeza, el núcleo del modelo Transformer, para aumentar la eficiencia manteniendo o superando el nivel de precisión previo. Mostramos que la atención multi-cabeza puede ser expresada en forma de suma. Basándonos en la idea de que no todas las cabezas de atención tienen la misma importancia, proponemos la atención de Mezcla de Cabezas (MoH), una nueva arquitectura que trata las cabezas de atención como expertos en el mecanismo de Mezcla de Expertos (MoE). MoH tiene dos ventajas significativas: Primero, MoH permite que cada token seleccione las cabezas de atención apropiadas, mejorando la eficiencia de inferencia sin comprometer la precisión o aumentar el número de parámetros. Segundo, MoH reemplaza la suma estándar en la atención multi-cabeza con una suma ponderada, introduciendo flexibilidad al mecanismo de atención y desbloqueando un potencial de rendimiento adicional. Experimentos exhaustivos en ViT, DiT y LLMs demuestran que MoH supera a la atención multi-cabeza utilizando solo el 50%-90% de las cabezas de atención. Además, demostramos que los modelos pre-entrenados de atención multi-cabeza, como LLaMA3-8B, pueden ser afinados aún más en nuestros modelos MoH. Notablemente, MoH-LLaMA3-8B logra una precisión promedio del 64.0% en 14 pruebas, superando a LLaMA3-8B en un 2.4% al utilizar solo el 75% de las cabezas de atención. Creemos que el MoH propuesto es una alternativa prometedora a la atención multi-cabeza y proporciona una base sólida para el desarrollo de modelos avanzados y eficientes basados en atención.
La evaluación de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es costosa: requiere la generación y examen de salidas de LLM en un conjunto de pruebas a gran escala de diversas tareas. Este documento investiga cómo reducir eficientemente las tareas utilizadas para evaluar LLMs sin afectar la calidad de la evaluación. Nuestro estudio revela que la transferibilidad y relevancia de las tareas proporcionan información crítica para identificar el subconjunto más representativo de tareas mediante la optimización de una función de ubicación de instalaciones. Proponemos una métrica prácticamente eficiente para estimar la transferibilidad entre dos tareas a través del aprendizaje en contexto (ICL, por sus siglas en inglés). Al analizar la transferibilidad por pares, podemos reducir las tareas en un conjunto de pruebas de LLM moderno (por ejemplo, MMLU o FLAN) al 5%, con solo una diferencia <4% en la evaluación en el conjunto de pruebas original. En comparación con trabajos anteriores, nuestro método no requiere entrenamiento, no utiliza gradientes y es altamente eficiente, ya que solo requiere ICL.
La alineación de modelos de lenguaje grandes (LLMs) implica entrenar modelos en pares de salida preferencia-contrastivos para ajustar sus respuestas de acuerdo a las preferencias humanas. Para obtener tales pares contrastivos, métodos tradicionales como RLHF y RLAIF se basan en patrones de contraste limitados, como variar variantes del modelo o temperaturas de decodificación. Esta singularidad conlleva a dos problemas: (1) la alineación no es exhaustiva; y por lo tanto (2) los modelos son susceptibles a ataques de jailbreaking. Para abordar estos problemas, investigamos cómo construir patrones de contraste más completos y diversificados para mejorar los datos de preferencia (RQ1) y verificar el impacto de la diversificación de patrones de contraste en la alineación del modelo (RQ2). Para RQ1, proponemos PopAlign, un marco que integra patrones de contraste diversificados a través del nivel de la consigna, del modelo y del pipeline, introduciendo seis estrategias de contraste que no requieren procedimientos adicionales de etiquetado de retroalimentación. En cuanto a RQ2, realizamos experimentos exhaustivos que demuestran que PopAlign supera significativamente a los métodos existentes, lo que conduce a una alineación más completa.
Permitir que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) manejen una gama más amplia de tareas complejas (por ejemplo, codificación, matemáticas) ha atraído gran atención de muchos investigadores. A medida que los LLMs continúan evolucionando, simplemente aumentar el número de parámetros del modelo conlleva mejoras de rendimiento decrecientes y altos costos computacionales. Recientemente, el modelo o1 de OpenAI ha demostrado que las estrategias de inferencia (es decir, métodos de Cómputo en Tiempo de Prueba) también pueden mejorar significativamente las capacidades de razonamiento de los LLMs. Sin embargo, los mecanismos detrás de estos métodos aún no han sido explorados. En nuestro trabajo, para investigar los patrones de razonamiento de o1, comparamos o1 con los métodos existentes de Cómputo en Tiempo de Prueba (BoN, BoN Paso a Paso, Flujo de Trabajo del Agente y Auto-Refinamiento) utilizando el GPT-4o de OpenAI como base en bancos de pruebas de razonamiento general en tres dominios (es decir, matemáticas, codificación, razonamiento del sentido común). Específicamente, primero, nuestros experimentos muestran que el modelo o1 ha logrado el mejor rendimiento en la mayoría de los conjuntos de datos. Segundo, en cuanto a los métodos de búsqueda de respuestas diversas (por ejemplo, BoN), encontramos que la capacidad de los modelos de recompensa y el espacio de búsqueda limitan el límite superior de estos métodos. Tercero, en cuanto a los métodos que dividen el problema en muchos subproblemas, el Flujo de Trabajo del Agente ha logrado un mejor rendimiento que BoN Paso a Paso debido al sistema específico del dominio para planificar mejores procesos de razonamiento. Cuarto, cabe mencionar que hemos resumido seis patrones de razonamiento de o1 y proporcionado un análisis detallado en varios bancos de pruebas de razonamiento.
El post-entrenamiento ha surgido como un paradigma crucial para adaptar modelos pre-entrenados a gran escala a diversas tareas, cuyos efectos se reflejan completamente en los parámetros delta (es decir, la disparidad entre los parámetros post-entrenados y pre-entrenados). Si bien numerosos estudios han explorado las propiedades de los parámetros delta a través de operaciones como poda, cuantificación, aproximación de rango bajo y extrapolación, ha faltado un marco unificado para examinar sistemáticamente estas características. En este documento, proponemos una nueva perspectiva basada en la aproximación de la suma de Riemann de la función de pérdida para elucidar las operaciones de edición de parámetros delta. Nuestro análisis categoriza los métodos existentes en tres clases según su rendimiento post-edición: competitivo, disminuido y mejorado, explicando cómo se expresan mediante el término de aproximación de la suma de Riemann y cómo alteran el rendimiento del modelo. Experimentos extensos en modelos visuales y de lenguaje, incluidos ViT, LLaMA 3, Qwen 2 y Mistral, corroboran nuestros hallazgos teóricos. Además, presentamos extensiones a técnicas existentes como DARE y BitDelta, resaltando sus limitaciones para aprovechar las propiedades de los parámetros delta y reorganizándolos en expresiones generales para mejorar la aplicabilidad y efectividad de la edición de parámetros delta en modelos post-entrenados.
Recientemente, la cuantización ha sido ampliamente utilizada para la compresión y aceleración de grandes modelos de lenguaje (LLMs). Debido a los valores atípicos en los LLMs, es crucial aplanar los pesos y activaciones para minimizar el error de cuantización con puntos de cuantización equidistantes. Investigaciones previas exploran diversas transformaciones previas a la cuantización para suprimir los valores atípicos, como el escalado por canal y la transformación de Hadamard. Sin embargo, observamos que estos pesos y activaciones transformados aún pueden permanecer pronunciados y dispersos. En este documento, proponemos FlatQuant (Transformación Afín Rápida y Aprendible), un nuevo enfoque de cuantización posterior al entrenamiento para mejorar la planitud de los pesos y activaciones. Nuestro enfoque identifica transformaciones afines óptimas adaptadas a cada capa lineal, calibradas en horas a través de un objetivo ligero. Para reducir la sobrecarga de tiempo de ejecución, aplicamos la descomposición de Kronecker a las matrices de transformación y fusionamos todas las operaciones en FlatQuant en un solo núcleo. Experimentos extensos muestran que FlatQuant establece un nuevo referente de cuantización de vanguardia. Por ejemplo, logra una disminución de precisión de menos del 1% para la cuantización W4A4 en el modelo LLaMA-3-70B, superando a SpinQuant en un 7.5%. En cuanto a la latencia de inferencia, FlatQuant reduce la desaceleración inducida por la transformación previa a la cuantización de 0.26x de QuaRot a apenas 0.07x, logrando hasta 2.3x de aceleración para el prellenado y 1.7x de aceleración para la decodificación, respectivamente. El código está disponible en: https://github.com/ruikangliu/FlatQuant.
La unión de imágenes panorámicas proporciona una vista unificada y de gran angular de una escena que se extiende más allá del campo de visión de la cámara. Unir fotogramas de un video panorámico en una fotografía panorámica es un problema bien entendido para escenas estáticas, pero cuando los objetos están en movimiento, una panorámica estática no puede capturar la escena. Presentamos un método para sintetizar un video panorámico a partir de un video panorámico capturado de manera casual, como si el video original hubiera sido capturado con una cámara de gran angular. Planteamos la síntesis de panoramas como un problema de relleno espacio-temporal, donde nuestro objetivo es crear un video panorámico completo de la misma duración que el video de entrada. La finalización consistente del volumen espacio-temporal requiere un fuerte y realista conocimiento previo sobre el contenido del video y el movimiento, para lo cual adaptamos modelos generativos de video. Sin embargo, como mostramos, los modelos generativos existentes no se extienden inmediatamente a la finalización de panoramas. En su lugar, aplicamos la generación de video como un componente de nuestro sistema de síntesis de panoramas, y demostramos cómo explotar las fortalezas de los modelos mientras minimizamos sus limitaciones. Nuestro sistema puede crear panoramas de video para una variedad de escenas en entornos naturales, incluyendo personas, vehículos y agua en movimiento, así como características de fondo estáticas.
Aunque los modelos de lenguaje grandes (LLMs) demuestran una impresionante competencia en diversas tareas, presentan posibles riesgos de seguridad, como los 'jailbreaks', donde entradas maliciosas pueden obligar a los LLMs a generar contenido dañino. Para abordar estos problemas, muchos desarrolladores de LLM han implementado diversas medidas de seguridad para alinear estos modelos. Esta alineación implica varias técnicas, incluyendo filtrado de datos durante el pre-entrenamiento, ajuste fino supervisado, aprendizaje por refuerzo a partir de retroalimentación humana y ejercicios de red teaming. Estos métodos a menudo introducen sesgos deliberados e intencionales similares a la Corrección Política (PC) para garantizar el comportamiento ético de los LLMs. En este documento, profundizamos en los sesgos intencionales inyectados en los LLMs con fines de seguridad y examinamos métodos para eludir estas técnicas de alineación de seguridad. Especialmente, estos sesgos intencionales resultan en una tasa de éxito de jailbreaking en los modelos GPT-4o que difiere en un 20% entre palabras clave no binarias y cisgénero y en un 16% entre palabras clave blancas y negras, incluso cuando otras partes de las indicaciones son idénticas. Introducimos el concepto de PCJailbreak, resaltando los riesgos inherentes que plantean estos sesgos inducidos por la seguridad. Además, proponemos un método de defensa eficiente, PCDefense, que previene intentos de jailbreak inyectando indicaciones de defensa antes de la generación. PCDefense se presenta como una alternativa atractiva a los Modelos de Guardia, como Llama-Guard, que requieren un costo adicional de inferencia después de la generación de texto. Nuestros hallazgos enfatizan la necesidad urgente de que los desarrolladores de LLM adopten un enfoque más responsable al diseñar e implementar medidas de seguridad.
A medida que las capacidades de los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs) continúan mejorando, la necesidad de evaluar las capacidades de orden superior de los MLLMs está aumentando. Sin embargo, existe una falta de trabajos que evalúen los MLLM para la percepción y comprensión de contenido visual chino de orden superior. Para cubrir esta brecha, presentamos el **Banco de Pruebas de Comprensión de Imágenes Chinas**, **CII-Bench**, que tiene como objetivo evaluar las capacidades de percepción y comprensión de orden superior de los MLLMs para imágenes chinas. CII-Bench se destaca de varias maneras en comparación con los bancos de pruebas existentes. En primer lugar, para garantizar la autenticidad del contexto chino, las imágenes en CII-Bench se obtienen de Internet chino y se revisan manualmente, con respuestas correspondientes también elaboradas manualmente. Además, CII-Bench incorpora imágenes que representan la cultura tradicional china, como famosas pinturas tradicionales chinas, que pueden reflejar profundamente la comprensión del modelo sobre la cultura tradicional china. A través de extensos experimentos en CII-Bench con varios MLLMs, hemos realizado hallazgos significativos. Inicialmente, se observa una brecha sustancial entre el rendimiento de los MLLMs y los humanos en CII-Bench. La precisión más alta de los MLLMs alcanza el 64.4%, mientras que la precisión humana promedia el 78.2%, alcanzando un impresionante 81.0%. Posteriormente, los MLLMs tienen un rendimiento inferior en imágenes de cultura tradicional china, lo que sugiere limitaciones en su capacidad para entender semántica de alto nivel y carecer de una base de conocimientos profunda sobre la cultura tradicional china. Finalmente, se observa que la mayoría de los modelos muestran una precisión mejorada cuando se incorporan pistas emocionales de las imágenes en las indicaciones. Creemos que CII-Bench permitirá a los MLLMs obtener una mejor comprensión de la semántica china e imágenes específicas chinas, avanzando en el camino hacia una inteligencia artificial general experta (AGI). Nuestro proyecto está disponible públicamente en https://cii-bench.github.io/.
La Corrección de Errores Generativa (GEC) ha surgido como un método potente de postprocesamiento para mejorar el rendimiento de los sistemas de Reconocimiento Automático del Habla (ASR). Sin embargo, demostramos que los modelos de GEC tienen dificultades para generalizar más allá de los tipos específicos de errores encontrados durante el entrenamiento, lo que limita su capacidad para corregir nuevos errores no vistos en el momento de la prueba, especialmente en escenarios fuera del dominio (OOD). Este fenómeno se amplifica con las entidades nombradas (NEs), donde, además de la información contextual insuficiente o el conocimiento sobre las NEs, siguen surgiendo nuevas NEs. Para abordar estos problemas, proponemos DARAG (Corrección de Errores Generativa Aumentada con Datos y Recuperación), un enfoque novedoso diseñado para mejorar la GEC para ASR en escenarios dentro del dominio (ID) y fuera del dominio (OOD). Aumentamos el conjunto de datos de entrenamiento de GEC con datos sintéticos generados mediante la solicitud de modelos de LLM y de texto a voz, simulando así errores adicionales a partir de los cuales el modelo puede aprender. Para escenarios OOD, simulamos errores en el momento de la prueba de nuevos dominios de manera similar y de forma no supervisada. Además, para manejar mejor las entidades nombradas, introducimos la corrección aumentada con recuperación al agregar al input entidades recuperadas de una base de datos. Nuestro enfoque es simple, escalable y tanto agnóstico al dominio como al idioma. Experimentamos en múltiples conjuntos de datos y configuraciones, demostrando que DARAG supera a todos nuestros puntos de referencia, logrando mejoras de 8\% a 30\% en WER relativo en entornos ID y mejoras de 10\% a 33\% en entornos OOD.
Las interacciones de múltiples turnos entre modelos de lenguaje grandes (LLMs) y usuarios incluyen naturalmente señales de retroalimentación implícitas. Si un LLM responde de manera inesperada a una instrucción, es probable que el usuario lo señale reformulando la solicitud, expresando frustración o cambiando a una tarea alternativa. Estas señales son independientes de la tarea y ocupan un subespacio relativamente restringido del lenguaje, lo que permite al LLM identificarlas incluso si falla en la tarea real. Esto crea una vía para aprender continuamente de las interacciones sin anotaciones adicionales. Presentamos ReSpect, un método para aprender de tales señales en interacciones pasadas a través de la retrospección. Implementamos ReSpect en un nuevo escenario de interacción multimodal, donde los humanos instruyen a un LLM para resolver una tarea de razonamiento abstracto con un espacio de soluciones combinatorias. A través de miles de interacciones con humanos, mostramos cómo ReSpect mejora gradualmente la tasa de finalización de la tarea del 31% al 82%, todo sin ninguna anotación externa.
El desarrollo de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) ha mejorado significativamente las capacidades de los modelos de lenguaje multimodales (MLLMs) como asistentes generales. Sin embargo, la falta de conocimiento específico del usuario aún restringe su aplicación en la vida diaria de las personas. En este artículo, presentamos el marco de Personalización Aumentada por Recuperación (RAP, por sus siglas en inglés) para la personalización de MLLMs. Partiendo de un MLLM general, lo convertimos en un asistente personalizado en tres pasos. (a) Recordar: Diseñamos una base de datos clave-valor para almacenar información relacionada con el usuario, como el nombre del usuario, avatar y otros atributos. (b) Recuperar: Cuando el usuario inicia una conversación, RAP recuperará información relevante de la base de datos utilizando un recuperador multimodal. (c) Generar: La consulta de entrada y la información de los conceptos recuperados se introducen en los MLLMs para generar respuestas personalizadas, enriquecidas con conocimiento. A diferencia de los métodos anteriores, RAP permite la edición de conceptos en tiempo real mediante la actualización de la base de datos externa. Para mejorar aún más la calidad de generación y la alineación con la información específica del usuario, diseñamos un proceso de recopilación de datos y creamos un conjunto de datos especializado para el entrenamiento personalizado de MLLMs. Basándonos en el conjunto de datos, entrenamos una serie de MLLMs como asistentes multimodales personalizados. Al preentrenar en un conjunto de datos a gran escala, los RAP-MLLMs pueden generalizar a conceptos visuales infinitos sin necesidad de ajustes adicionales. Nuestros modelos demuestran una flexibilidad excepcional y una calidad de generación destacada en una variedad de tareas, como la descripción personalizada de imágenes, la respuesta a preguntas y el reconocimiento visual. El código, los datos y los modelos están disponibles en https://github.com/Hoar012/RAP-MLLM.
Generar música que se alinee con el contenido visual de un video ha sido una tarea desafiante, ya que requiere una comprensión profunda de la semántica visual e implica generar música cuya melodía, ritmo y dinámica armonicen con las narrativas visuales. Este documento presenta MuVi, un marco novedoso que aborda de manera efectiva estos desafíos para mejorar la cohesión y la experiencia inmersiva del contenido audiovisual. MuVi analiza el contenido del video a través de un adaptador visual especialmente diseñado para extraer características relevantes contextual y temporalmente. Estas características se utilizan para generar música que no solo se ajusta al estado de ánimo y tema del video, sino también a su ritmo y tempo. También introducimos un esquema de pre-entrenamiento contrastivo música-visual para garantizar la sincronización, basado en la naturaleza periódica de las frases musicales. Además, demostramos que nuestro generador de música basado en el emparejamiento de flujos tiene la capacidad de aprendizaje en contexto, lo que nos permite controlar el estilo y género de la música generada. Los resultados experimentales muestran que MuVi demuestra un rendimiento superior tanto en calidad de audio como en sincronización temporal. Las muestras de videos musicales generados están disponibles en https://muvi-v2m.github.io.
Los modelos de lenguaje (LMs) han demostrado habilidades de razonamiento y recuerdo a nivel experto en medicina. Sin embargo, los costos computacionales y las preocupaciones sobre la privacidad están aumentando como barreras para una implementación a gran escala. Presentamos una adaptación parsimoniosa de phi-3-mini, MedMobile, un LM de 3.8 mil millones de parámetros capaz de ejecutarse en un dispositivo móvil, para aplicaciones médicas. Demostramos que MedMobile obtiene un puntaje del 75.7% en el MedQA (USMLE), superando la marca de aprobación para médicos (~60%), y acercándose a los puntajes de modelos 100 veces más grandes. Posteriormente realizamos un conjunto cuidadoso de ablaciones, y demostramos que la cadena de pensamiento, el ensamblaje y el ajuste fino conducen a los mayores aumentos de rendimiento, mientras que inesperadamente la generación aumentada por recuperación no logra demostrar mejoras significativas.
A pesar del significativo progreso en los modelos de lenguaje multimodales grandes (MLLMs), su alto costo computacional sigue siendo una barrera para su implementación en el mundo real. Inspirados por la mezcla de profundidades (MoDs) en el procesamiento de lenguaje natural, nuestro objetivo es abordar esta limitación desde la perspectiva de los "tokens activados". Nuestra idea clave es que si la mayoría de los tokens son redundantes para el cálculo de capas, entonces pueden omitirse directamente a través de la capa MoD. Sin embargo, convertir directamente las capas densas de los MLLMs en capas MoD conlleva una degradación sustancial del rendimiento. Para abordar este problema, proponemos una estrategia de adaptación MoD innovadora para los MLLMs existentes llamada gamma-MoD. En gamma-MoD, se propone una nueva métrica para guiar la implementación de MoDs en el MLLM, a saber, el rango de mapas de atención (ARank). A través de ARank, podemos identificar de manera efectiva qué capa es redundante y debería ser reemplazada por la capa MoD. Basándonos en ARank, proponemos además dos diseños novedosos para maximizar la dispersión computacional de MLLM manteniendo su rendimiento, a saber, enrutador compartido visión-lenguaje y aprendizaje de enrutamiento enmascarado. Con estos diseños, más del 90% de las capas densas del MLLM pueden convertirse efectivamente en capas MoD. Para validar nuestro método, lo aplicamos a tres MLLMs populares y realizamos experimentos extensos en 9 conjuntos de datos de referencia. Los resultados experimentales no solo validan el beneficio significativo de eficiencia de gamma-MoD para los MLLMs existentes, sino que también confirman su capacidad de generalización en varios MLLMs. Por ejemplo, con una ligera disminución en el rendimiento, es decir, -1.5%, gamma-MoD puede reducir el tiempo de entrenamiento e inferencia de LLaVA-HR en un 31.0% y 53.2%, respectivamente.
El rápido crecimiento de la escala de los modelos ha requerido recursos computacionales sustanciales para el ajuste fino. Enfoques existentes como la Adaptación de Bajo Rango (LoRA) han buscado abordar el problema de manejar los grandes parámetros actualizados en el ajuste fino completo. Sin embargo, LoRA utiliza inicialización aleatoria y optimización de matrices de bajo rango para aproximar los pesos actualizados, lo que puede resultar en una convergencia subóptima y una brecha de precisión en comparación con el ajuste fino completo. Para abordar estos problemas, proponemos LoLDU, un enfoque de Ajuste Fino Eficiente de Parámetros (PEFT) que reduce significativamente los parámetros entrenables en 2600 veces en comparación con los métodos de PEFT regulares mientras mantiene un rendimiento comparable. LoLDU aprovecha la Descomposición en Bajo-Diag-Superior (LDU) para inicializar matrices de bajo rango para una convergencia más rápida y ortogonalidad. Nos centramos en optimizar la matriz diagonal para transformaciones de escala. Hasta donde sabemos, LoLDU tiene la menor cantidad de parámetros entre todos los enfoques de PEFT. Realizamos experimentos extensos en 4 conjuntos de datos de seguimiento de instrucciones, 6 conjuntos de datos de comprensión del lenguaje natural (NLU), 8 conjuntos de datos de clasificación de imágenes y conjuntos de datos de generación de imágenes con múltiples tipos de modelos (LLaMA2, RoBERTa, ViT y Difusión Estable), proporcionando un análisis completo y detallado. Nuestro código de código abierto está disponible en https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.
La capacidad de descubrir nuevos materiales con propiedades deseables es fundamental para numerosas aplicaciones, desde ayudar a mitigar el cambio climático hasta avances en hardware de computación de próxima generación. La inteligencia artificial tiene el potencial de acelerar el descubrimiento y diseño de materiales al explorar de manera más efectiva el espacio químico en comparación con otros métodos computacionales o por ensayo y error. Aunque se ha logrado un progreso significativo en IA para datos, puntos de referencia y modelos de materiales, una barrera que ha surgido es la falta de datos de entrenamiento públicamente disponibles y modelos pre-entrenados abiertos. Para abordar esto, presentamos una versión Meta FAIR del conjunto de datos abierto a gran escala Open Materials 2024 (OMat24) y un conjunto de modelos pre-entrenados correspondientes. OMat24 contiene más de 110 millones de cálculos de teoría funcional de la densidad (DFT) centrados en la diversidad estructural y composicional. Nuestros modelos EquiformerV2 logran un rendimiento de vanguardia en el Matbench Discovery leaderboard y son capaces de predecir la estabilidad del estado fundamental y las energías de formación a una puntuación F1 superior a 0.9 y una precisión de 20 meV/átomo, respectivamente. Exploramos el impacto del tamaño del modelo, objetivos auxiliares de eliminación de ruido y ajuste fino en el rendimiento en una variedad de conjuntos de datos, incluidos OMat24, MPtraj y Alexandria. La liberación abierta del conjunto de datos y modelos OMat24 permite a la comunidad investigadora construir sobre nuestros esfuerzos y promover nuevos avances en la ciencia de materiales asistida por IA.
Proponemos Long-LRM, un modelo de reconstrucción gaussiano 3D generalizable capaz de reconstruir una escena grande a partir de una larga secuencia de imágenes de entrada. Específicamente, nuestro modelo puede procesar 32 imágenes fuente a una resolución de 960x540 en tan solo 1.3 segundos en una sola GPU A100 80G. Nuestra arquitectura presenta una combinación de los bloques Mamba2 recientes y los bloques transformadores clásicos, lo que permitió procesar muchos más tokens que trabajos anteriores, mejorado por fusiones eficientes de tokens y pasos de poda gaussiana que equilibran entre calidad y eficiencia. A diferencia de modelos anteriores de avance directo limitados a procesar 1-4 imágenes de entrada y solo pueden reconstruir una pequeña parte de una escena grande, Long-LRM reconstruye toda la escena en un solo paso de avance directo. En conjuntos de datos de escenas a gran escala como DL3DV-140 y Tanks and Temples, nuestro método logra un rendimiento comparable a enfoques basados en optimización siendo dos órdenes de magnitud más eficiente. Página del proyecto: https://arthurhero.github.io/projects/llrm
A medida que los modelos de lenguaje grandes evolucionan rápidamente para admitir un contexto más extenso, existe una notable disparidad en su capacidad para generar resultados de mayor longitud. Un estudio reciente sugiere que la causa principal de este desequilibrio puede surgir de la falta de datos con salidas largas durante el entrenamiento de alineación. A la luz de esta observación, se realizan intentos para reajustar los modelos base con datos que cubran la brecha, lo que resulta en modelos capaces de generar resultados extensos cuando se les instruye. En este documento, exploramos el impacto de la calidad de los datos en la sintonización de un modelo para producir resultados extensos, y la posibilidad de hacerlo desde los puntos de partida de modelos alineados con humanos (instrucción o chat). Con una cuidadosa curación de datos, demostramos que es posible lograr una mejora de rendimiento similar en nuestros modelos ajustados, con solo una pequeña fracción de instancias de datos de entrenamiento y cómputo. Además, evaluamos la generalizabilidad de tales enfoques aplicando nuestras recetas de sintonización a varios modelos. Nuestros hallazgos sugieren que, si bien las capacidades para generar resultados extensos varían entre diferentes modelos tal como vienen, nuestro enfoque para ajustarlos con datos de alta calidad utilizando cómputo ligero produce consistentemente una notable mejora en todos los modelos en los que experimentamos. Hemos hecho público nuestro conjunto de datos curado para la sintonización de la capacidad de redacción extensa, las implementaciones de sintonización y evaluación del modelo, así como los modelos ajustados, todos los cuales pueden ser accesibles abiertamente.
La Orientación sin Clasificador (CFG, por sus siglas en inglés) es una técnica crítica para mejorar la calidad de muestra de los modelos generativos visuales. Sin embargo, en la generación multimodal autoregresiva (AR), CFG introduce inconsistencias de diseño entre el lenguaje y el contenido visual, contradiciendo la filosofía de diseño de unificar diferentes modalidades para AR visual. Motivados por los métodos de alineación de modelos de lenguaje, proponemos el Alineamiento Contrastivo Condicional (CCA) para facilitar la generación visual AR sin orientación con un alto rendimiento y analizar su conexión teórica con los métodos de muestreo guiado. A diferencia de los métodos de orientación que modifican el proceso de muestreo para lograr la distribución de muestreo ideal, CCA ajusta directamente los modelos preentrenados para adaptarse al mismo objetivo de distribución. Los resultados experimentales muestran que CCA puede mejorar significativamente el rendimiento sin orientación de todos los modelos probados con solo una época de ajuste fino (aprox. 1\% de las épocas de preentrenamiento) en el conjunto de datos de preentrenamiento, al nivel de los métodos de muestreo guiado. Esto elimina en gran medida la necesidad de muestreo guiado en la generación visual AR y reduce el costo de muestreo a la mitad. Además, ajustando los parámetros de entrenamiento, CCA puede lograr compensaciones entre la diversidad de muestras y la fidelidad similar a CFG. Esto confirma experimentalmente la sólida conexión teórica entre la alineación dirigida al lenguaje y los métodos de orientación visual, unificando dos campos de investigación previamente independientes. Código y pesos del modelo: https://github.com/thu-ml/CCA.
La omnipresencia de los modelos de lenguaje propietarios ha suscitado preocupaciones sobre la privacidad de los datos sensibles de los usuarios, enfatizando la necesidad de inferencia privada (PI), donde la inferencia se realiza directamente en entradas encriptadas. Sin embargo, los métodos actuales de PI enfrentan sobrecargas de comunicación y latencia prohibitivamente altas, principalmente debido a operaciones no lineales. En este documento, presentamos un análisis exhaustivo para comprender el papel de las no linealidades en los modelos de lenguaje basados en decodificadores de tipo transformador. Introducimos AERO, un marco de optimización arquitectónica de cuatro pasos que perfecciona la arquitectura existente de LLM para una PI eficiente al eliminar sistemáticamente no linealidades como LayerNorm y GELU y reducir el recuento de FLOPs. Por primera vez, proponemos una arquitectura solo con Softmax con muchos menos FLOPs diseñada para una PI eficiente. Además, ideamos una novedosa técnica de regularización de entropía para mejorar el rendimiento de los modelos solo con Softmax. AERO logra reducciones de hasta 4.23 veces en comunicación y 1.94 veces en latencia. Validamos la efectividad de AERO comparándola con el estado del arte.
Los modelos fundamentales de visión y lenguaje (como CLIP) han demostrado recientemente su poder en el aprendizaje por transferencia, gracias al preentrenamiento a gran escala de imágenes y texto. Sin embargo, los datos del dominio objetivo en las tareas posteriores pueden ser muy diferentes de la fase de preentrenamiento, lo que dificulta que un solo modelo generalice bien. Alternativamente, existe una amplia gama de modelos expertos que contienen conocimientos de visión y/o lenguaje diversificados preentrenados en diferentes modalidades, tareas, redes y conjuntos de datos. Desafortunadamente, estos modelos son "agentes aislados" con estructuras heterogéneas, y cómo integrar sus conocimientos para generalizar modelos similares a CLIP no ha sido completamente explorado. Para cerrar esta brecha, proponemos un marco general y conciso llamado TransAgent, que transporta el conocimiento de los agentes aislados de manera unificada y guía efectivamente a CLIP para generalizar con destilación de conocimiento de múltiples fuentes. Con este marco distintivo, colaboramos de manera flexible con 11 agentes heterogéneos para potenciar los modelos fundamentales de visión y lenguaje, sin costos adicionales en la fase de inferencia. Finalmente, nuestro TransAgent logra un rendimiento de vanguardia en 11 conjuntos de datos de reconocimiento visual. Bajo la misma configuración de baja cantidad de datos, supera al popular CoOp en promedio alrededor del 10%, y un 20% en EuroSAT que contiene grandes cambios de dominio.
Muchos estudiantes tienen dificultades con los problemas matemáticos verbales (PMVs), a menudo encontrando complicado identificar la información clave y seleccionar las operaciones matemáticas apropiadas. La instrucción basada en esquemas (IBE) es una estrategia respaldada por evidencia que ayuda a los estudiantes a categorizar problemas según su estructura, mejorando la precisión en la resolución de problemas. Basándonos en esto, proponemos un marco de Instrucción Basada en Esquemas con Recuperación y Generación Aumentada (IBE-RAG) que incorpora un gran modelo de lenguaje (GLL). Nuestro enfoque enfatiza el razonamiento paso a paso al aprovechar esquemas para guiar la generación de soluciones. Evaluamos su rendimiento en el conjunto de datos GSM8K, comparándolo con GPT-4 y GPT-3.5 Turbo, e introducimos una métrica de "puntuación de razonamiento" para evaluar la calidad de las soluciones. Nuestros hallazgos sugieren que IBE-RAG mejora la claridad del razonamiento y la precisión en la resolución de problemas, potencialmente brindando beneficios educativos para los estudiantes.