Artículos de investigación en IA seleccionados diariamente con traducciones
El Modelado de Imágenes Enmascaradas (MIM) con Cuantización Vectorial (VQ) ha logrado un gran éxito tanto en el preentrenamiento autosupervisado como en la generación de imágenes. Sin embargo, la mayoría de los métodos existentes tienen dificultades para abordar el equilibrio en el espacio latente compartido entre la calidad de generación y el aprendizaje de representaciones, así como la eficiencia. Para superar los límites de este paradigma, proponemos MergeVQ, que incorpora técnicas de fusión de tokens en modelos generativos basados en VQ para cerrar la brecha entre la generación de imágenes y el aprendizaje de representaciones visuales en una arquitectura unificada. Durante el preentrenamiento, MergeVQ desacopla la semántica top-k del espacio latente mediante el módulo de fusión de tokens después de los bloques de auto-atención en el codificador, para realizar posteriormente la Cuantización sin Búsqueda (LFQ) y la alineación global, y recupera los detalles finos a través de la atención cruzada en el decodificador para la reconstrucción. En cuanto a la generación en la segunda etapa, introducimos MergeAR, que realiza la compresión de la caché KV para una predicción eficiente en orden raster. Experimentos extensos en ImageNet verifican que MergeVQ, como modelo generativo AR, logra un rendimiento competitivo tanto en tareas de aprendizaje de representaciones visuales como en generación de imágenes, manteniendo una eficiencia de tokens y velocidad de inferencia favorables. El código y el modelo estarán disponibles en https://apexgen-x.github.io/MergeVQ.
Los recientes avances en la síntesis de imágenes y videos han abierto nuevas posibilidades en los juegos generativos. Una aplicación particularmente intrigante es la transformación de personajes de películas de anime en entidades interactivas y jugables. Esto permite a los jugadores sumergirse en el dinámico mundo del anime como sus personajes favoritos para la simulación de vida a través de instrucciones de lenguaje. Tales juegos se definen como juegos infinitos, ya que eliminan los límites predeterminados y las reglas de juego fijas, donde los jugadores pueden interactuar con el mundo del juego a través de lenguaje abierto y experimentar historias y entornos en constante evolución. Recientemente, un enfoque pionero para la simulación de vida infinita en anime emplea modelos de lenguaje grandes (LLMs) para traducir diálogos de texto de múltiples turnos en instrucciones de lenguaje para la generación de imágenes. Sin embargo, este enfoque ignora el contexto visual histórico, lo que lleva a una inconsistencia en el juego. Además, solo genera imágenes estáticas, sin incorporar la dinámica necesaria para una experiencia de juego atractiva. En este trabajo, proponemos AnimeGamer, que se basa en Modelos de Lenguaje Multimodales Grandes (MLLMs) para generar cada estado del juego, incluyendo tomas de animación dinámica que representan los movimientos de los personajes y actualizaciones de sus estados, como se ilustra en la Figura 1. Introducimos representaciones multimodales novedosas conscientes de la acción para representar las tomas de animación, que pueden decodificarse en clips de video de alta calidad utilizando un modelo de difusión de video. Al tomar las representaciones históricas de las tomas de animación como contexto y predecir las representaciones subsiguientes, AnimeGamer puede generar juegos con consistencia contextual y dinámicas satisfactorias. Evaluaciones extensas utilizando tanto métricas automatizadas como evaluaciones humanas demuestran que AnimeGamer supera a los métodos existentes en varios aspectos de la experiencia de juego. Los códigos y puntos de control están disponibles en https://github.com/TencentARC/AnimeGamer.
Si bien los métodos recientes de animación humana basada en imágenes logran una síntesis realista de movimientos corporales y faciales, persisten brechas críticas en la controlabilidad holística de grano fino, la adaptabilidad a múltiples escalas y la coherencia temporal a largo plazo, lo que resulta en una menor expresividad y robustez. Proponemos un marco basado en un transformador de difusión (DiT), DreamActor-M1, con guía híbrida para superar estas limitaciones. Para la guía de movimiento, nuestras señales de control híbridas que integran representaciones faciales implícitas, esferas de cabeza 3D y esqueletos corporales 3D logran un control robusto de expresiones faciales y movimientos corporales, mientras producen animaciones expresivas y que preservan la identidad. Para la adaptación de escala, con el fin de manejar diversas poses corporales y escalas de imagen que van desde retratos hasta vistas de cuerpo completo, empleamos una estrategia de entrenamiento progresivo utilizando datos con resoluciones y escalas variables. Para la guía de apariencia, integramos patrones de movimiento de marcos secuenciales con referencias visuales complementarias, asegurando coherencia temporal a largo plazo para regiones no vistas durante movimientos complejos. Los experimentos demuestran que nuestro método supera a los trabajos más avanzados, ofreciendo resultados expresivos para la generación de retratos, torso superior y cuerpo completo con una consistencia robusta a largo plazo. Página del proyecto: https://grisoon.github.io/DreamActor-M1/.
Se ha prestado creciente atención a la mejora de las capacidades de razonamiento de los modelos de lenguaje multimodal de gran escala (MLLMs). Como piedra angular para los agentes de IA que operan en el ámbito físico, la inteligencia visual-espacial basada en video (VSI) emerge como una de las capacidades de razonamiento más cruciales de los MLLMs. Este trabajo realiza un primer estudio en profundidad sobre la mejora del razonamiento visual-espacial de los MLLMs mediante un entrenamiento similar a R1-Zero. Técnicamente, primero identificamos que las capacidades de razonamiento visual-espacial de los modelos Qwen2-VL de tamaño pequeño a mediano no pueden activarse mediante indicaciones de Cadena de Pensamiento (CoT). Luego, incorporamos el entrenamiento GRPO para mejorar el razonamiento visual-espacial, utilizando el conjunto de datos VSI-100k cuidadosamente seleccionado, siguiendo el enfoque de DeepSeek-R1-Zero. Durante la investigación, identificamos la necesidad de mantener la penalización KL (incluso con un valor pequeño) en GRPO. Con solo 120 horas de GPU, nuestro modelo vsGRPO-2B, ajustado a partir de Qwen2-VL-2B, supera al modelo base en un 12.1% y supera a GPT-4o. Además, nuestro modelo vsGRPO-7B, ajustado a partir de Qwen2-VL-7B, alcanza un rendimiento comparable al del mejor modelo de código abierto, LLaVA-NeXT-Video-72B. Adicionalmente, comparamos vsGRPO con ajustes supervisados y optimización directa de preferencias, observando una fuerte superioridad en el rendimiento. El código y el conjunto de datos estarán disponibles próximamente.
DeepSeek-R1-Zero ha demostrado que el aprendizaje por refuerzo (RL, por sus siglas en inglés) a gran escala puede mejorar directamente las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs) sin necesidad de ajuste supervisado. En este trabajo, examinamos críticamente el entrenamiento similar a R1-Zero analizando sus dos componentes principales: los modelos base y el RL. Investigamos una amplia gama de modelos base, incluido DeepSeek-V3-Base, para comprender cómo las características del preentrenamiento influyen en el rendimiento del RL. Nuestro análisis revela que DeepSeek-V3-Base ya exhibe un "momento de comprensión" (Aha moment), mientras que los modelos base Qwen2.5 demuestran fuertes capacidades de razonamiento incluso sin plantillas de instrucción, lo que sugiere posibles sesgos en el preentrenamiento. Además, identificamos un sesgo de optimización en la Optimización de Política Relativa de Grupo (GRPO), que aumenta artificialmente la longitud de las respuestas (especialmente para salidas incorrectas) durante el entrenamiento. Para abordar esto, presentamos Dr. GRPO, un método de optimización sin sesgos que mejora la eficiencia de los tokens mientras mantiene el rendimiento en el razonamiento. Aprovechando estas ideas, presentamos una receta minimalista de R1-Zero que logra un 43.3% de precisión en AIME 2024 con un modelo base de 7B, estableciendo un nuevo estado del arte. Nuestro código está disponible en https://github.com/sail-sg/understand-r1-zero.
La escritura académica requiere tanto la generación de texto coherente como la citación precisa de literatura relevante. Aunque los sistemas recientes de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) han mejorado significativamente la precisión factual en la generación de texto de propósito general, su capacidad para apoyar adecuadamente la escritura académica profesional sigue siendo limitada. En este trabajo, presentamos ScholarCopilot, un marco unificado diseñado para mejorar los modelos de lenguaje de gran escala existentes en la generación de artículos académicos profesionales con citas precisas y contextualmente relevantes. ScholarCopilot determina dinámicamente cuándo recuperar referencias académicas generando un token de recuperación [RET], y luego utiliza su representación para buscar citas relevantes en una base de datos. Las referencias recuperadas se incorporan al modelo para aumentar el proceso de generación. Optimizamos conjuntamente tanto la generación como la tarea de citación dentro de un único marco para aumentar la eficiencia. Entrenado en 500,000 artículos de arXiv, nuestro modelo alcanza una precisión de recuperación top-1 del 40.1% en nuestro conjunto de datos de evaluación, superando a líneas base como E5-Mistral-7B-Instruct (15.0%) y BM25 (9.8%). En un conjunto de datos de 1,000 muestras de escritura académica, ScholarCopilot obtiene una puntuación de 16.2/25 en calidad de generación (medida en relevancia, coherencia, rigor académico, completitud e innovación), superando a modelos con 10 veces más parámetros como Qwen-2.5-72B-Instruct (15.8/25). Estudios con humanos también confirman el rendimiento superior de ScholarCopilot en la recuperación de citas, eficiencia en la escritura y experiencia general del usuario, confirmando la efectividad de nuestro enfoque.
Recuperar escenas 3D a partir de vistas dispersas es una tarea desafiante debido a su naturaleza inherentemente mal planteada. Los métodos convencionales han desarrollado soluciones especializadas (por ejemplo, regularización geométrica o modelos determinísticos de avance) para mitigar este problema. Sin embargo, aún sufren de degradación en el rendimiento debido a la superposición mínima entre las vistas de entrada con información visual insuficiente. Afortunadamente, los modelos generativos de video recientes muestran potencial para abordar este desafío, ya que son capaces de generar clips de video con estructuras 3D plausibles. Impulsados por grandes modelos de difusión de video preentrenados, algunas investigaciones pioneras comienzan a explorar el potencial del conocimiento generativo de video y a crear escenas 3D a partir de vistas dispersas. A pesar de mejoras impresionantes, están limitados por un tiempo de inferencia lento y la falta de restricciones 3D, lo que lleva a ineficiencias y artefactos de reconstrucción que no se alinean con la estructura geométrica del mundo real. En este artículo, proponemos VideoScene para destilar el modelo de difusión de video y generar escenas 3D en un solo paso, con el objetivo de construir una herramienta eficiente y efectiva para cerrar la brecha entre el video y el 3D. Específicamente, diseñamos una estrategia de destilación de flujo de salto 3D consciente para saltar sobre información redundante que consume tiempo y entrenamos una red de políticas de eliminación de ruido dinámica para determinar de manera adaptativa el paso de tiempo óptimo durante la inferencia. Experimentos extensos demuestran que nuestro VideoScene logra resultados de generación de escenas 3D más rápidos y superiores que los modelos de difusión de video anteriores, destacando su potencial como una herramienta eficiente para futuras aplicaciones de video a 3D. Página del proyecto: https://hanyang-21.github.io/VideoScene
Los modelos de difusión de video (VDMs, por sus siglas en inglés) han avanzado significativamente en los últimos años, permitiendo la generación de videos altamente realistas y captando la atención de la comunidad por su potencial como simuladores del mundo. Sin embargo, a pesar de sus capacidades, los VDMs a menudo no logran producir videos físicamente plausibles debido a una falta inherente de comprensión de la física, lo que resulta en dinámicas incorrectas y secuencias de eventos erróneas. Para abordar esta limitación, proponemos un novedoso marco de generación de imagen a video en dos etapas que incorpora explícitamente la física. En la primera etapa, empleamos un Modelo de Lenguaje Visual (VLM, por sus siglas en inglés) como un planificador de movimiento de grano grueso, integrando razonamiento en cadena de pensamiento y consciente de la física para predecir trayectorias/cambios de movimiento aproximados que se asemejan a las dinámicas físicas del mundo real, asegurando al mismo tiempo la consistencia entre fotogramas. En la segunda etapa, utilizamos las trayectorias/cambios de movimiento predichos para guiar la generación de video de un VDM. Dado que las trayectorias/cambios de movimiento predichos son aproximados, se añade ruido durante la inferencia para proporcionar libertad al VDM en la generación de movimientos con detalles más finos. Los resultados experimentales extensivos demuestran que nuestro marco puede producir movimientos físicamente plausibles, y las evaluaciones comparativas destacan la notable superioridad de nuestro enfoque sobre los métodos existentes. Más resultados de video están disponibles en nuestra Página del Proyecto: https://madaoer.github.io/projects/physically_plausible_video_generation.
Presentamos PaperBench, un punto de referencia que evalúa la capacidad de los agentes de IA para replicar investigaciones de vanguardia en IA. Los agentes deben replicar desde cero 20 artículos destacados y orales de ICML 2024, incluyendo la comprensión de las contribuciones del artículo, el desarrollo de una base de código y la ejecución exitosa de experimentos. Para una evaluación objetiva, desarrollamos rúbricas que descomponen jerárquicamente cada tarea de replicación en sub-tareas más pequeñas con criterios de calificación claros. En total, PaperBench contiene 8,316 tareas calificables individualmente. Las rúbricas se desarrollan en colaboración con los autores de cada artículo de ICML para garantizar precisión y realismo. Para permitir una evaluación escalable, también desarrollamos un juez basado en LLM para calificar automáticamente los intentos de replicación según las rúbricas, y evaluamos el rendimiento de nuestro juez creando un punto de referencia separado para jueces. Evaluamos varios modelos de vanguardia en PaperBench, encontrando que el agente con mejor rendimiento probado, Claude 3.5 Sonnet (Nuevo) con andamiaje de código abierto, alcanza una puntuación promedio de replicación del 21.0\%. Finalmente, reclutamos a doctorandos destacados en ML para intentar un subconjunto de PaperBench, encontrando que los modelos aún no superan el punto de referencia humano. Hemos https://github.com/openai/preparedness{abierto el código} para facilitar futuras investigaciones en la comprensión de las capacidades de ingeniería de IA de los agentes de IA.
Presentamos Articulated Kinematics Distillation (AKD), un marco para generar animaciones de personajes de alta fidelidad al combinar las fortalezas de la animación basada en esqueletos y los modelos generativos modernos. AKD utiliza una representación basada en esqueletos para activos 3D con rigging, reduciendo drásticamente los Grados de Libertad (DoFs) al enfocarse en el control a nivel de articulaciones, lo que permite una síntesis de movimiento eficiente y consistente. A través de Score Distillation Sampling (SDS) con modelos de difusión de video preentrenados, AKD destila movimientos complejos y articulados mientras mantiene la integridad estructural, superando los desafíos que enfrentan los campos de deformación neural 4D para preservar la consistencia de la forma. Este enfoque es naturalmente compatible con la simulación basada en física, garantizando interacciones físicamente plausibles. Los experimentos muestran que AKD logra una consistencia 3D y una calidad de movimiento superiores en comparación con trabajos existentes en la generación de texto a 4D. Página del proyecto: https://research.nvidia.com/labs/dir/akd/
Presentamos ILLUME+, que aprovecha la tokenización visual dual y un decodificador de difusión para mejorar tanto la comprensión semántica profunda como la generación de imágenes de alta fidelidad. Los modelos unificados existentes han tenido dificultades para manejar simultáneamente las tres capacidades fundamentales en un modelo unificado: comprensión, generación y edición. Modelos como Chameleon y EMU3 utilizan VQGAN para la discretización de imágenes, pero debido a la falta de interacción semántica profunda, se quedan atrás en tareas de comprensión visual en comparación con modelos especializados como LLaVA. Para mitigar esto, LaViT e ILLUME emplean codificadores semánticos para la tokenización, pero tienen dificultades con la edición de imágenes debido a la mala preservación de texturas. Mientras tanto, la serie Janus desacopla la representación de la imagen de entrada y salida, limitando su capacidad para manejar de manera fluida la comprensión y generación intercalada de imágenes y texto. En contraste, ILLUME+ introduce un tokenizador visual dual unificado, DualViTok, que preserva tanto las texturas detalladas como la semántica alineada con el texto, permitiendo una estrategia de representación de imágenes de gruesa a fina para la comprensión y generación multimodal. Además, empleamos un modelo de difusión como detokenizador de imágenes para mejorar la calidad de generación y la super-resolución eficiente. ILLUME+ sigue un esquema de entrada continua y salida discreta dentro del MLLM unificado y adopta un procedimiento de entrenamiento progresivo que soporta resolución dinámica en el tokenizador visual, el MLLM y el decodificador de difusión. Este diseño permite una edición y generación de imágenes eficiente y flexible, consciente del contexto, en diversas tareas. ILLUME+ (3B) muestra un rendimiento competitivo frente a los MLLMs unificados existentes y a modelos especializados en benchmarks de comprensión, generación y edición multimodal. Con su sólido rendimiento, ILLUME+ proporciona una base escalable y versátil para futuras aplicaciones multimodales. Página del proyecto: https://illume-unified-mllm.github.io/.
La generación de imágenes humanas de alta calidad mediante métodos de texto a imagen (T2I) es una tarea significativa pero desafiante. A diferencia de la generación general de imágenes, la síntesis de imágenes humanas debe cumplir criterios estrictos relacionados con la pose, la anatomía y la alineación con las indicaciones textuales, lo que hace especialmente difícil lograr resultados realistas. Los avances recientes en la generación T2I basados en modelos de difusión han mostrado promesas, aunque persisten desafíos para satisfacer las preferencias específicas en imágenes humanas. En este artículo, presentamos un enfoque novedoso diseñado específicamente para la generación de imágenes humanas utilizando Optimización Directa de Preferencias (DPO). En concreto, introducimos un método eficiente para construir un conjunto de datos DPO especializado para entrenar modelos de generación de imágenes humanas sin la necesidad de costosa retroalimentación humana. También proponemos una función de pérdida modificada que mejora el proceso de entrenamiento DPO al minimizar artefactos y mejorar la fidelidad de la imagen. Nuestro método demuestra su versatilidad y efectividad en la generación de imágenes humanas, incluyendo la generación personalizada de texto a imagen. A través de evaluaciones exhaustivas, mostramos que nuestro enfoque avanza significativamente el estado del arte en la generación de imágenes humanas, logrando resultados superiores en términos de anatomías naturales, poses y alineación texto-imagen.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) amplían las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs) al incorporar información visual, pero siguen siendo vulnerables a ataques de jailbreak, especialmente al procesar imágenes ruidosas o corruptas. Aunque los VLMs existentes adoptan medidas de seguridad durante el entrenamiento para mitigar dichos ataques, se pasan por alto las vulnerabilidades asociadas con entradas visuales aumentadas con ruido. En este trabajo, identificamos que la falta de entrenamiento aumentado con ruido genera brechas de seguridad críticas: muchos VLMs son susceptibles incluso a perturbaciones simples como el ruido gaussiano. Para abordar este desafío, proponemos Robust-VLGuard, un conjunto de datos de seguridad multimodal con pares de imagen-texto alineados/desalineados, combinado con un ajuste fino aumentado con ruido que reduce las tasas de éxito de los ataques mientras preserva la funcionalidad del VLM. Para ataques de perturbación visual basados en optimización más fuertes, proponemos DiffPure-VLM, aprovechando modelos de difusión para convertir perturbaciones adversarias en ruido de tipo gaussiano, que puede ser defendido por VLMs con ajuste fino de seguridad aumentado con ruido. Los resultados experimentales demuestran que la propiedad de cambio de distribución del modelo de difusión se alinea bien con nuestros VLMs ajustados, mitigando significativamente las perturbaciones adversarias en diversas intensidades. El conjunto de datos y el código están disponibles en https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Si bien los modelos recientes de texto a voz (TTS) de cero disparos han mejorado significativamente la calidad y expresividad del habla, los sistemas principales aún presentan problemas relacionados con el modelado de alineación entre habla y texto: 1) los modelos sin un modelado explícito de alineación habla-texto muestran menor robustez, especialmente para oraciones complejas en aplicaciones prácticas; 2) los modelos basados en alineaciones predefinidas sufren limitaciones de naturalidad debido a las alineaciones forzadas. Este artículo presenta MegaTTS 3, un sistema TTS que incorpora un innovador algoritmo de alineación dispersa que guía al transformador de difusión latente (DiT). Específicamente, proporcionamos límites de alineación dispersa a MegaTTS 3 para reducir la dificultad de la alineación sin limitar el espacio de búsqueda, logrando así una alta naturalidad. Además, empleamos una estrategia de guía libre de clasificadores multicondicional para ajustar la intensidad del acento y adoptamos la técnica de flujo rectificado por segmentos para acelerar el proceso de generación. Los experimentos demuestran que MegaTTS 3 alcanza la mejor calidad de habla TTS de cero disparos y permite un control altamente flexible sobre la intensidad del acento. Cabe destacar que nuestro sistema puede generar habla de alta calidad de un minuto con solo 8 pasos de muestreo. Las muestras de audio están disponibles en https://sditdemo.github.io/sditdemo/.
Los modelos de visión-lenguaje (VLMs) son propensos a las alucinaciones de objetos, donde indican erróneamente la presencia de ciertos objetos en una imagen. Los benchmarks existentes cuantifican estas alucinaciones utilizando conjuntos de datos etiquetados relativamente pequeños. Sin embargo, este enfoque es i) insuficiente para evaluar las alucinaciones que surgen en entornos de mundo abierto, donde los VLMs se utilizan ampliamente, y ii) inadecuado para detectar errores sistemáticos en los VLMs. Proponemos DASH (Detección y Evaluación de Alucinaciones Sistemáticas), una pipeline automática y a gran escala diseñada para identificar alucinaciones sistemáticas de VLMs en imágenes del mundo real en un entorno de mundo abierto. Un componente clave es DASH-OPT para la recuperación basada en imágenes, donde optimizamos sobre el "manifold de imágenes naturales" para generar imágenes que engañen al VLM. La salida de DASH consiste en clusters de imágenes reales y semánticamente similares para las cuales el VLM alucina un objeto. Aplicamos DASH a PaliGemma y dos modelos LLaVA-NeXT en 380 clases de objetos y, en total, encontramos más de 19k clusters con 950k imágenes. Estudiamos la transferencia de las alucinaciones sistemáticas identificadas a otros VLMs y demostramos que el fine-tuning de PaliGemma con las imágenes específicas del modelo obtenidas con DASH mitiga las alucinaciones de objetos. El código y los datos están disponibles en https://YanNeu.github.io/DASH.
Los diseños de redes de visión, incluyendo las Redes Neuronales Convolucionales y los Transformers de Visión, han avanzado significativamente el campo de la visión por computadora. Sin embargo, sus cálculos complejos plantean desafíos para implementaciones prácticas, particularmente en aplicaciones en tiempo real. Para abordar este problema, los investigadores han explorado diversos diseños de redes ligeras y eficientes. No obstante, los modelos ligeros existentes utilizan predominantemente mecanismos de autoatención y convoluciones para la mezcla de tokens. Esta dependencia trae limitaciones en la efectividad y eficiencia en los procesos de percepción y agregación de las redes ligeras, dificultando el equilibrio entre rendimiento y eficiencia bajo presupuestos computacionales limitados. En este artículo, nos inspiramos en la capacidad dinámica de visión heteroescala inherente al sistema de visión humana eficiente y proponemos una estrategia de "Ver Grande, Enfocar Pequeño" para el diseño de redes de visión ligeras. Introducimos la convolución LS (Large-Small), que combina la percepción de núcleos grandes y la agregación de núcleos pequeños. Puede capturar eficientemente un amplio rango de información perceptual y lograr una agregación precisa de características para representaciones visuales dinámicas y complejas, permitiendo así un procesamiento competente de la información visual. Basándonos en la convolución LS, presentamos LSNet, una nueva familia de modelos ligeros. Experimentos exhaustivos demuestran que LSNet logra un rendimiento y eficiencia superiores a las redes ligeras existentes en diversas tareas de visión. Los códigos y modelos están disponibles en https://github.com/jameslahm/lsnet.
Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) están surgiendo como una alternativa convincente a los Transformers debido a su uso constante de memoria y alto rendimiento. Sin embargo, escalar SSMs en servicios en la nube o dispositivos con recursos limitados es un desafío debido a sus requisitos de almacenamiento y potencia computacional. Para superar esto, la cuantización de SSMs con formatos de datos de bajo ancho de bits puede reducir el tamaño del modelo y beneficiarse de la aceleración por hardware. Dado que los SSMs son propensos a errores inducidos por la cuantización, esfuerzos recientes se han centrado en optimizar un modelo o ancho de bits específico para mejorar la eficiencia sin sacrificar el rendimiento. No obstante, configuraciones de ancho de bits distintas son esenciales para diferentes escenarios, como W4A8 para aumentar la velocidad de decodificación en lotes grandes, y W4A16 para mejorar la velocidad de generación en aplicaciones de prompts cortos para un solo usuario. Con este fin, presentamos Quamba2, compatible con W8A8, W4A8 y W4A16 para las arquitecturas Mamba1 y Mamba2, abordando la creciente demanda de implementación de SSMs en diversas plataformas. Basándonos en la preservación del orden de canales y la persistencia de activaciones de los SSMs, proponemos un enfoque offline para cuantizar las entradas de una recurrencia lineal en 8 bits mediante la clasificación y agrupación de la entrada x, combinado con una cuantización por grupo de estados para los parámetros dependientes de la entrada B y C. Para garantizar la invariancia computacional en la salida del SSM, reorganizamos los pesos offline según la secuencia de agrupación. Los experimentos muestran que Quamba2-8B supera a varios métodos de cuantización de SSMs de última generación y ofrece aceleraciones de 1.3 veces y 3 veces en las etapas de prellenado y generación, respectivamente, mientras reduce la memoria en 4 veces con solo una caída promedio del 1.6% en la precisión. La evaluación en MMLU demuestra la generalización y robustez de nuestro marco. El código y los modelos cuantizados se publicarán en: https://github.com/enyac-group/Quamba.
Los grandes modelos de lenguaje demuestran capacidades de razonamiento notables, pero a menudo producen respuestas poco confiables o incorrectas. Los métodos de verificación existentes suelen ser específicos para cada modelo o están restringidos a dominios particulares, requieren recursos computacionales significativos y carecen de escalabilidad en diversas tareas de razonamiento. Para abordar estas limitaciones, proponemos VerifiAgent, un agente de verificación unificado que integra dos niveles de verificación: meta-verificación, que evalúa la completitud y consistencia en las respuestas del modelo, y verificación adaptativa basada en herramientas, donde VerifiAgent selecciona autónomamente las herramientas de verificación apropiadas según el tipo de razonamiento, incluyendo razonamiento matemático, lógico o de sentido común. Este enfoque adaptativo garantiza tanto eficiencia como robustez en diferentes escenarios de verificación. Los resultados experimentales muestran que VerifiAgent supera a los métodos de verificación de referencia (por ejemplo, verificador deductivo, verificador hacia atrás) en todas las tareas de razonamiento. Además, puede mejorar aún más la precisión del razonamiento al aprovechar la retroalimentación de los resultados de verificación. VerifiAgent también puede aplicarse eficazmente a la escalabilidad de inferencia, logrando mejores resultados con menos muestras generadas y costos reducidos en comparación con los modelos de recompensa de proceso existentes en el dominio del razonamiento matemático. El código está disponible en https://github.com/Jiuzhouh/VerifiAgent.
Se han propuesto varios métodos de salto de capas para acelerar la generación de tokens en modelos de lenguaje grandes (LLMs). Sin embargo, han pasado por alto una pregunta fundamental: ¿Cómo varían las demandas computacionales durante la generación de diferentes tokens? En este trabajo, presentamos FlexiDepth, un método que ajusta dinámicamente el número de capas de Transformer utilizadas en la generación de texto. Al incorporar un enrutador y un adaptador plug-in, FlexiDepth permite el salto adaptativo de capas en LLMs sin modificar sus parámetros originales. La introducción de FlexiDepth en el modelo Llama-3-8B logra un salto de 8 capas de 32, manteniendo al mismo tiempo el 100% del rendimiento en los benchmarks. Los resultados experimentales con FlexiDepth demuestran que las demandas computacionales en los LLMs varían significativamente según el tipo de token. Específicamente, generar tokens repetitivos o frases fijas requiere menos capas, mientras que producir tokens que involucran cálculo o alta incertidumbre requiere más capas. Curiosamente, este patrón de asignación adaptativa se alinea con la intuición humana. Para avanzar en la investigación en esta área, hemos liberado el código de FlexiDepth y un conjunto de datos que documenta los patrones de asignación de capas de FlexiDepth para futuras exploraciones.
Presentamos un modelo de difusión de video consciente del objetivo que genera videos a partir de una imagen de entrada en la que un actor interactúa con un objetivo especificado mientras realiza una acción deseada. El objetivo se define mediante una máscara de segmentación y la acción deseada se describe mediante un texto descriptivo. A diferencia de los modelos existentes de difusión de imagen a video controlable que a menudo dependen de señales estructurales o de movimiento densas para guiar los movimientos del actor hacia el objetivo, nuestro modelo consciente del objetivo requiere solo una máscara simple para indicar el objetivo, aprovechando las capacidades de generalización de modelos preentrenados para producir acciones plausibles. Esto hace que nuestro método sea particularmente efectivo para escenarios de interacción humano-objeto (HOI), donde proporcionar una guía de acción precisa es un desafío, y además permite el uso de modelos de difusión de video para la planificación de acciones de alto nivel en aplicaciones como la robótica. Construimos nuestro modelo consciente del objetivo extendiendo un modelo base para incorporar la máscara del objetivo como una entrada adicional. Para garantizar la conciencia del objetivo, introducimos un token especial que codifica la información espacial del objetivo dentro del texto descriptivo. Luego, ajustamos el modelo con nuestro conjunto de datos curado utilizando una nueva pérdida de atención cruzada que alinea los mapas de atención cruzada asociados con este token con la máscara del objetivo de entrada. Para mejorar aún más el rendimiento, aplicamos selectivamente esta pérdida a los bloques de transformadores y regiones de atención más relevantes semánticamente. Los resultados experimentales muestran que nuestro modelo consciente del objetivo supera a las soluciones existentes en la generación de videos donde los actores interactúan con precisión con los objetivos especificados. Además, demostramos su eficacia en dos aplicaciones posteriores: creación de contenido de video y síntesis de movimiento HOI 3D en modo zero-shot.
Investigaciones previas sobre detección fuera de distribución (OoDD, por sus siglas en inglés) se han centrado principalmente en modelos de una sola modalidad. Recientemente, con el surgimiento de modelos de visión-lenguaje preentrenados a gran escala como CLIP, han emergido métodos de OoDD que utilizan representaciones multimodales a través de estrategias de aprendizaje zero-shot y basado en prompts. Sin embargo, estos métodos generalmente implican congelar los pesos preentrenados o ajustarlos solo parcialmente, lo que puede ser subóptimo para conjuntos de datos específicos. En este artículo, destacamos que el ajuste fino multimodal (MMFT, por sus siglas en inglés) puede lograr un rendimiento notable en OoDD. A pesar de que algunos trabajos recientes han demostrado el impacto de los métodos de ajuste fino en OoDD, aún existe un potencial significativo para mejorar el rendimiento. Investigamos las limitaciones de los métodos de ajuste fino ingenuos, examinando por qué no logran aprovechar completamente el conocimiento preentrenado. Nuestro análisis empírico sugiere que este problema podría originarse en la brecha modal dentro de las incrustaciones de datos en distribución (ID, por sus siglas en inglés). Para abordar esto, proponemos un objetivo de entrenamiento que mejora la alineación multimodal mediante la regularización de las distancias entre las incrustaciones de imágenes y texto de los datos ID. Este ajuste ayuda a utilizar mejor la información textual preentrenada al alinear semánticas similares de diferentes modalidades (es decir, texto e imagen) más estrechamente en el espacio de representación hiperesférico. Teóricamente demostramos que la regularización propuesta corresponde a la estimación de máxima verosimilitud de un modelo basado en energía en una hiperesfera. Utilizando conjuntos de datos de referencia OoD de ImageNet-1k, mostramos que nuestro método, combinado con enfoques OoDD post-hoc que aprovechan el conocimiento preentrenado (por ejemplo, NegLabel), supera significativamente a los métodos existentes, logrando un rendimiento de vanguardia en OoDD y una precisión líder en ID.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen el potencial de transformar la medicina, pero los escenarios clínicos del mundo real contienen información irrelevante que puede afectar su rendimiento. El auge de tecnologías asistenciales como la dictación ambiental, que genera automáticamente borradores de notas a partir de encuentros con pacientes en tiempo real, tiene el potencial de introducir ruido adicional, lo que hace crucial evaluar la capacidad de los LLMs para filtrar datos relevantes. Para investigar esto, desarrollamos MedDistractQA, un punto de referencia que utiliza preguntas al estilo del USMLE (Examen de Licencia Médica de los Estados Unidos) integradas con distracciones simuladas del mundo real. Nuestros hallazgos muestran que las declaraciones distractoras (palabras polisémicas con significados clínicos utilizadas en un contexto no clínico o referencias a condiciones de salud no relacionadas) pueden reducir la precisión de los LLMs hasta en un 17,9%. Soluciones comúnmente propuestas para mejorar el rendimiento del modelo, como la generación aumentada con recuperación (RAG, por sus siglas en inglés) y el ajuste fino médico, no cambiaron este efecto y, en algunos casos, introdujeron sus propios factores de confusión y degradaron aún más el rendimiento. Nuestros hallazgos sugieren que los LLMs carecen de manera nativa de los mecanismos lógicos necesarios para distinguir la información clínica relevante de la irrelevante, lo que plantea desafíos para las aplicaciones en el mundo real. MedDistractQA y nuestros resultados destacan la necesidad de estrategias de mitigación robustas para mejorar la resiliencia de los LLMs frente a la información irrelevante.