Artículos de investigación en IA seleccionados diariamente con traducciones
A medida que los modelos de lenguaje continúan escalando, los Modelos de Lenguaje Grandes (LLMs) han mostrado capacidades emergentes en Aprendizaje en Contexto (ICL), lo que les permite resolver tareas de lenguaje prefijando algunas demostraciones en contexto (ICDs) como contexto. Inspirados por estos avances, los investigadores han extendido estas técnicas para desarrollar Modelos Multimodales Grandes (LMMs) con capacidades de ICL. Sin embargo, los LMMs existentes enfrentan un problema crítico: a menudo no logran aprovechar de manera efectiva el contexto visual en las demostraciones multimodales y en su lugar simplemente siguen patrones textuales. Esto indica que los LMMs no logran una alineación efectiva entre las demostraciones multimodales y las salidas del modelo. Para abordar este problema, proponemos la Optimización Directa de Preferencia de Demostración de Símbolos (SymDPO). Específicamente, SymDPO tiene como objetivo romper el paradigma tradicional de construir demostraciones multimodales mediante el uso de símbolos aleatorios para reemplazar respuestas de texto dentro de las instancias. Esto obliga al modelo a comprender cuidadosamente las imágenes de la demostración y establecer una relación entre las imágenes y los símbolos para responder correctamente a las preguntas. Validamos la efectividad de este método en múltiples pruebas, demostrando que con SymDPO, los LMMs pueden entender de manera más efectiva el contexto multimodal dentro de los ejemplos y utilizar este conocimiento para responder mejor a las preguntas.
Aunque la cuantificación para capas lineales se ha utilizado ampliamente, su aplicación para acelerar el proceso de atención sigue siendo limitada. SageAttention utiliza multiplicación de matrices de 8 bits, multiplicación de matrices de 16 bits con acumulador de 16 bits y métodos que mejoran la precisión, implementando un núcleo preciso y con una aceleración 2 veces mayor en comparación con FlashAttention2. Para mejorar aún más la eficiencia del cálculo de atención manteniendo la precisión, proponemos SageAttention2, que utiliza una multiplicación de matrices de 4 bits significativamente más rápida junto con técnicas adicionales que mejoran la precisión. En primer lugar, proponemos cuantificar las matrices (Q, K) a INT4 en una granularidad a nivel de warp y cuantificar las matrices (widetilde P, V) a FP8. En segundo lugar, proponemos un método para suavizar Q y V, mejorando la precisión de la atención con INT4 QK y FP8 PV. En tercer lugar, analizamos la precisión de la cuantificación a lo largo de pasos de tiempo y capas, y luego proponemos un método de cuantificación adaptativa para garantizar las métricas de extremo a extremo en diversos modelos. Las operaciones por segundo (OPS) de SageAttention2 superan a FlashAttention2 y xformers en aproximadamente 3 veces y 5 veces en RTX4090, respectivamente. Experimentos exhaustivos confirman que nuestro enfoque incurre en una pérdida de métricas de extremo a extremo negligente en diversos modelos, incluidos los de procesamiento de lenguaje grande, generación de imágenes y generación de video. Los códigos están disponibles en https://github.com/thu-ml/SageAttention.
La generación de videos ha experimentado avances significativos, sin embargo, evaluar estos modelos sigue siendo un desafío. Un banco de pruebas de evaluación integral para la generación de videos es indispensable por dos razones: 1) Las métricas existentes no se alinean completamente con las percepciones humanas; 2) Un sistema de evaluación ideal debería proporcionar información para orientar los futuros desarrollos en la generación de videos. Con este fin, presentamos VBench, un conjunto de bancos de pruebas exhaustivo que descompone la "calidad de generación de videos" en dimensiones específicas, jerárquicas y desentrañadas, cada una con indicaciones y métodos de evaluación adaptados. VBench tiene varias propiedades atractivas: 1) Dimensiones Comprensivas: VBench consta de 16 dimensiones en la generación de videos (por ejemplo, inconsistencia en la identidad del sujeto, suavidad del movimiento, parpadeo temporal y relación espacial, etc.). Las métricas de evaluación con niveles detallados revelan las fortalezas y debilidades de los modelos individuales. 2) Alineación Humana: También proporcionamos un conjunto de datos de anotaciones de preferencia humana para validar la alineación de nuestras pruebas con la percepción humana, para cada dimensión de evaluación respectivamente. 3) Información Valiosa: Analizamos la capacidad de los modelos actuales en diversas dimensiones de evaluación y tipos de contenido. También investigamos las brechas entre los modelos de generación de videos e imágenes. 4) Evaluación Versátil: VBench++ admite la evaluación de texto a video e imagen a video. Presentamos un Conjunto de Imágenes de alta calidad con una relación de aspecto adaptable para permitir evaluaciones justas en diferentes configuraciones de generación de imágenes a video. Más allá de evaluar la calidad técnica, VBench++ evalúa la confiabilidad de los modelos generativos de video, proporcionando una visión más holística del rendimiento del modelo. 5) Total Código Abierto: Abrimos completamente el código fuente de VBench++ y continuamente agregamos nuevos modelos de generación de videos a nuestra tabla de clasificación para impulsar el campo de la generación de videos.
Los modelos multimodales grandes (LMMs) con capacidades avanzadas de análisis de video han captado recientemente una atención significativa. Sin embargo, la mayoría de las evaluaciones se basan en métodos tradicionales como preguntas de opción múltiple en bancos de pruebas como VideoMME y LongVideoBench, que tienden a carecer de la profundidad necesaria para capturar las demandas complejas de los usuarios del mundo real. Para abordar esta limitación, y debido al costo prohibitivo y al ritmo lento de la anotación humana para tareas de video, presentamos VideoAutoArena, un banco de pruebas de estilo arena inspirado en el marco de LMSYS Chatbot Arena, diseñado para evaluar automáticamente las capacidades de análisis de video de los LMMs. VideoAutoArena utiliza simulación de usuario para generar preguntas abiertas y adaptativas que evalúan rigurosamente el rendimiento del modelo en la comprensión de video. El banco de pruebas cuenta con un marco de evaluación automatizado y escalable, que incorpora un Sistema de Puntuación ELO modificado para comparaciones justas y continuas entre varios LMMs. Para validar nuestro sistema de evaluación automatizado, construimos un 'estándar de oro' utilizando un subconjunto cuidadosamente seleccionado de anotaciones humanas, demostrando que nuestra arena se alinea fuertemente con el juicio humano manteniendo la escalabilidad. Además, introducimos una estrategia de evolución impulsada por fallos, aumentando progresivamente la complejidad de las preguntas para llevar a los modelos a manejar escenarios de análisis de video más desafiantes. Los resultados experimentales muestran que VideoAutoArena diferencia efectivamente entre los LMMs de vanguardia, proporcionando información sobre las fortalezas del modelo y áreas de mejora. Para agilizar aún más nuestra evaluación, presentamos VideoAutoBench como un banco de pruebas auxiliar, donde los anotadores humanos etiquetan a los ganadores en un subconjunto de batallas de VideoAutoArena. Utilizamos GPT-4o como juez para comparar las respuestas con estas respuestas validadas por humanos. Juntos, VideoAutoArena y VideoAutoBench ofrecen un marco rentable y escalable para evaluar LMMs en análisis de video centrado en el usuario.
El Modelo Segment Anything 2 (SAM 2) ha demostrado un rendimiento sólido en tareas de segmentación de objetos, pero enfrenta desafíos en el seguimiento visual de objetos, especialmente al gestionar escenas concurridas con objetos de movimiento rápido u ocultamiento propio. Además, el enfoque de memoria de ventana fija en el modelo original no considera la calidad de las memorias seleccionadas para condicionar las características de la imagen para el siguiente fotograma, lo que conduce a la propagación de errores en videos. Este artículo presenta SAMURAI, una adaptación mejorada de SAM 2 diseñada específicamente para el seguimiento visual de objetos. Al incorporar señales temporales de movimiento con el mecanismo propuesto de selección de memoria consciente del movimiento, SAMURAI predice eficazmente el movimiento del objeto y perfecciona la selección de máscaras, logrando un seguimiento robusto y preciso sin necesidad de volver a entrenar o ajustar finamente. SAMURAI opera en tiempo real y demuestra un sólido rendimiento de cero disparos en diversos conjuntos de datos de referencia, mostrando su capacidad de generalización sin ajuste fino. En las evaluaciones, SAMURAI logra mejoras significativas en la tasa de éxito y precisión sobre los rastreadores existentes, con un aumento del 7.1% en el AUC en LaSOT_{ext} y un aumento del 3.5% en AO en GOT-10k. Además, logra resultados competitivos en comparación con métodos totalmente supervisados en LaSOT, subrayando su robustez en escenarios de seguimiento complejos y su potencial para aplicaciones del mundo real en entornos dinámicos. El código y los resultados están disponibles en https://github.com/yangchris11/samurai.
Ampliar el tamaño de la ventana de contexto permite a los modelos de lenguaje grandes (LLMs) procesar secuencias más largas y abordar tareas más complejas. La Incrustación Posicional Rotativa (RoPE) se ha convertido en el estándar de facto debido a sus propiedades de codificación posicional relativa que benefician el entrenamiento con un contexto largo. Sin embargo, observamos que al utilizar RoPE con el formato BFloat16 se producen problemas numéricos, lo que provoca que se desvíe de su codificación posicional relativa prevista, especialmente en escenarios de largo contexto. Este problema surge de la precisión limitada de BFloat16 y se acumula a medida que aumenta la longitud del contexto, siendo el primer token el que contribuye significativamente a este problema. Para abordar esto, desarrollamos AnchorAttention, un método de atención plug-and-play que alivia los problemas numéricos causados por BFloat16, mejora las capacidades de largo contexto y acelera el entrenamiento. AnchorAttention reduce cálculos de atención innecesarios, mantiene la coherencia semántica y aumenta la eficiencia computacional al tratar el primer token como un anclaje compartido con un ID de posición consistente, haciéndolo visible para todos los documentos dentro del contexto de entrenamiento. Experimentos con tres tipos de LLMs demuestran que AnchorAttention mejora significativamente el rendimiento en contextos largos y reduce el tiempo de entrenamiento en más del 50\% en comparación con los mecanismos estándar de atención completa, preservando al mismo tiempo las capacidades originales del LLM en tareas generales. Nuestro código está disponible en https://github.com/haonan3/AnchorContext.
Los agentes de lenguaje han demostrado capacidades prometedoras en la automatización de tareas basadas en la web, aunque sus enfoques reactivos actuales aún tienen un rendimiento inferior en gran medida en comparación con los humanos. Al incorporar algoritmos avanzados de planificación, en particular métodos de búsqueda en árboles, se podría mejorar el rendimiento de estos agentes, pero implementar la búsqueda en árboles directamente en sitios web en vivo plantea riesgos significativos de seguridad y limitaciones prácticas debido a acciones irreversibles como confirmar una compra. En este documento, presentamos un nuevo paradigma que potencia a los agentes de lenguaje con planificación basada en modelos, pionera en el uso innovador de grandes modelos de lenguaje (LLMs) como modelos del mundo en entornos web complejos. Nuestro método, WebDreamer, se basa en la idea clave de que los LLMs codifican inherentemente un conocimiento completo sobre las estructuras y funcionalidades de los sitios web. Específicamente, WebDreamer utiliza LLMs para simular resultados para cada acción candidata (por ejemplo, "¿qué sucedería si hago clic en este botón?") utilizando descripciones en lenguaje natural, y luego evalúa estos resultados imaginados para determinar la acción óptima en cada paso. Los resultados empíricos en dos benchmarks representativos de agentes web con interacción en línea -- VisualWebArena y Mind2Web-live -- demuestran que WebDreamer logra mejoras sustanciales sobre líneas de base reactivas. Al establecer la viabilidad de los LLMs como modelos del mundo en entornos web, este trabajo sienta las bases para un cambio de paradigma en la interacción web automatizada. Más ampliamente, nuestros hallazgos abren nuevas y emocionantes vías para futuras investigaciones en 1) optimizar los LLMs específicamente para modelado del mundo en entornos complejos y dinámicos, y 2) planificación especulativa basada en modelos para agentes de lenguaje.
Los modelos de difusión destacan en la generación de imágenes, pero controlarlos sigue siendo un desafío. Nos enfocamos en el problema de la generación de imágenes condicionada por estilo. Aunque las imágenes de ejemplo funcionan, son engorrosas: los códigos de referencia de estilo (srefs, por sus siglas en inglés) de MidJourney resuelven este problema al expresar un estilo de imagen específico en un código numérico corto. Estos han sido ampliamente adoptados en las redes sociales debido a su facilidad de compartir y al hecho de que permiten utilizar una imagen para controlar el estilo, sin necesidad de publicar las imágenes fuente en sí mismas. Sin embargo, los usuarios no pueden generar srefs a partir de sus propias imágenes, ni el procedimiento de entrenamiento subyacente es público. Proponemos StyleCodes: una arquitectura de codificador de estilo y un procedimiento de entrenamiento de código abierto y de investigación abierta para expresar el estilo de una imagen como un código base64 de 20 símbolos. Nuestros experimentos muestran que nuestra codificación resulta en una pérdida mínima en calidad en comparación con las técnicas tradicionales de imagen a estilo.
Los últimos avances en los Modelos Multimodales Grandes (LMMs) han ampliado sus capacidades para incluir la comprensión de videos. Específicamente, los modelos de Texto a Video (T2V) han logrado avances significativos en calidad, comprensión y duración, destacándose en la creación de videos a partir de simples indicaciones textuales. Sin embargo, todavía producen con frecuencia contenido alucinado que claramente indica que el video es generado por IA. Presentamos ViBe: un Banco de Pruebas de Texto a Video a gran escala de videos alucinados de modelos T2V. Identificamos cinco tipos principales de alucinación: Sujeto Desvaneciente, Variabilidad Numérica, Disformia Temporal, Error de Omisión e Incongruencia Física. Utilizando 10 modelos T2V de código abierto, desarrollamos el primer conjunto de datos a gran escala de videos alucinados, que consta de 3,782 videos anotados por humanos en estas cinco categorías. ViBe ofrece un recurso único para evaluar la fiabilidad de los modelos T2V y sienta las bases para mejorar la detección y mitigación de alucinaciones en la generación de videos. Establecemos la clasificación como línea base y presentamos varias configuraciones de clasificadores de conjunto, siendo la combinación TimeSFormer + CNN la que ofrece el mejor rendimiento, logrando una precisión de 0.345 y una puntuación F1 de 0.342. Este banco de pruebas tiene como objetivo impulsar el desarrollo de modelos T2V robustos que produzcan videos más alineados de manera precisa con las indicaciones de entrada.
Si bien las leyes de escala proporcionan una metodología confiable para predecir la pérdida de entrenamiento en diferentes escalas de cómputo para una sola distribución de datos, se sabe menos sobre cómo deberían cambiar estas predicciones al modificar la distribución. En este documento, derivamos una estrategia para predecir una pérdida a partir de otra y la aplicamos para predecir en diferentes conjuntos de datos de pre-entrenamiento y desde los datos de pre-entrenamiento a los datos de tareas posteriores. Nuestras predicciones se extrapolan bien incluso a 20 veces el presupuesto FLOP más grande utilizado para ajustar las curvas. Más precisamente, encontramos que existen relaciones simples de leyes de potencia desplazadas entre (1) las pérdidas de entrenamiento de dos modelos entrenados en dos conjuntos de datos separados cuando los modelos se emparejan por cómputo de entrenamiento (entrenamiento a entrenamiento), (2) la pérdida de entrenamiento y la pérdida de prueba en cualquier distribución posterior para un solo modelo (entrenamiento a prueba), y (3) las pérdidas de prueba de dos modelos entrenados en dos conjuntos de datos de entrenamiento separados (prueba a prueba). Los resultados se mantienen para conjuntos de datos de pre-entrenamiento que difieren sustancialmente (algunos son completamente de código y otros no tienen código en absoluto) y en una variedad de tareas posteriores. Finalmente, encontramos que en algunos escenarios estas relaciones de leyes de potencia desplazadas pueden proporcionar predicciones más precisas que la extrapolación de leyes de escala de un solo conjunto de datos.
Los modelos generativos de difusión texto-a-imagen pueden generar imágenes de alta calidad a costa de un tedioso diseño de indicaciones. La controlabilidad puede mejorarse introduciendo condicionantes de diseño, sin embargo, los métodos existentes carecen de capacidad de edición de diseño y control detallado sobre atributos de objetos. El concepto de generación multi-capa tiene un gran potencial para abordar estas limitaciones, sin embargo, generar instancias de imagen de forma concurrente a la composición de escenas limita el control sobre atributos detallados de objetos, posicionamiento relativo en el espacio 3D y habilidades de manipulación de escenas. En este trabajo, proponemos un novedoso paradigma de generación en múltiples etapas diseñado para un control detallado, flexibilidad e interactividad. Para garantizar el control sobre atributos de instancias, ideamos un novedoso paradigma de entrenamiento para adaptar un modelo de difusión para generar componentes de escena aislados como imágenes RGBA con información de transparencia. Para construir imágenes complejas, empleamos estas instancias pre-generadas e introducimos un proceso de generación compuesta multi-capa que ensambla suavemente componentes en escenas realistas. Nuestros experimentos muestran que nuestro modelo de difusión RGBA es capaz de generar instancias diversas y de alta calidad con control preciso sobre atributos de objetos. A través de la composición multi-capa, demostramos que nuestro enfoque permite construir y manipular imágenes a partir de indicaciones altamente complejas con control detallado sobre la apariencia y ubicación de objetos, otorgando un mayor grado de control que los métodos competidores.
El objetivo de la Generación de Informes de Radiología (GIR) es generar automáticamente análisis textuales coherentes de enfermedades basados en imágenes radiológicas, aliviando así la carga de trabajo de los radiólogos. Los métodos actuales basados en IA para la GIR se centran principalmente en modificaciones a la arquitectura del modelo codificador-decodificador. Para avanzar en estos enfoques, este documento introduce un marco de Información Dirigida por Región de Órganos (ORID) que puede integrar efectivamente información multimodal y reducir la influencia del ruido de órganos no relacionados. Específicamente, basándonos en el LLaVA-Med, primero construimos un conjunto de datos de instrucciones relacionadas con la GIR para mejorar la capacidad de descripción del diagnóstico regional de órganos y obtener el LLaVA-Med-GIR. Posteriormente, proponemos un módulo de fusión cruzada basado en órganos para combinar efectivamente la información de la descripción del diagnóstico regional de órganos y la imagen radiológica. Para reducir aún más la influencia del ruido de órganos no relacionados en la generación de informes de radiología, introducimos un módulo de análisis de coeficientes de importancia de órganos, que aprovecha la Red Neural de Grafos (RNG) para examinar las interconexiones de la información cruzada de cada región de órganos. Experimentos extensos y comparaciones con métodos de última generación en diversas métricas de evaluación demuestran el rendimiento superior de nuestro método propuesto.