Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión para super-resolución (SR) producen resultados visuales de alta calidad, pero requieren costos computacionales elevados. A pesar del desarrollo de varios métodos para acelerar los modelos de SR basados en difusión, algunos (por ejemplo, SinSR) no logran producir detalles perceptivos realistas, mientras que otros (por ejemplo, OSEDiff) pueden generar estructuras inexistentes. Para superar estos problemas, presentamos RSD, un nuevo método de destilación para ResShift, uno de los principales modelos de SR basados en difusión. Nuestro método se basa en entrenar la red estudiante para producir imágenes tales que un nuevo modelo falso de ResShift entrenado con ellas coincida con el modelo maestro. RSD logra una restauración en un solo paso y supera al modelo maestro por un amplio margen. Demostramos que nuestro método de destilación puede superar a otro método de destilación para ResShift, SinSR, situándolo a la par con los métodos de destilación de SR basados en difusión más avanzados. En comparación con los métodos de SR basados en modelos preentrenados de texto a imagen, RSD produce una calidad perceptiva competitiva, ofrece imágenes con mejor alineación respecto a las imágenes de entrada degradadas y requiere menos parámetros y memoria de GPU. Proporcionamos resultados experimentales en varios conjuntos de datos del mundo real y sintéticos, incluyendo RealSR, RealSet65, DRealSR, ImageNet y DIV2K.
El surgimiento de agentes basados en LLM representa un cambio de paradigma en la IA, permitiendo que los sistemas autónomos planifiquen, razonen, utilicen herramientas y mantengan memoria mientras interactúan con entornos dinámicos. Este artículo ofrece la primera encuesta exhaustiva sobre metodologías de evaluación para estos agentes cada vez más capaces. Analizamos sistemáticamente los puntos de referencia y marcos de evaluación en cuatro dimensiones críticas: (1) capacidades fundamentales del agente, incluyendo planificación, uso de herramientas, autorreflexión y memoria; (2) puntos de referencia específicos para aplicaciones en agentes web, ingeniería de software, científicos y conversacionales; (3) puntos de referencia para agentes generalistas; y (4) marcos para evaluar agentes. Nuestro análisis revela tendencias emergentes, incluyendo un cambio hacia evaluaciones más realistas y desafiantes con puntos de referencia actualizados continuamente. También identificamos brechas críticas que la investigación futura debe abordar, particularmente en la evaluación de la rentabilidad, seguridad y robustez, y en el desarrollo de métodos de evaluación detallados y escalables. Esta encuesta mapea el panorama en rápida evolución de la evaluación de agentes, revela las tendencias emergentes en el campo, identifica las limitaciones actuales y propone direcciones para futuras investigaciones.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en tareas complejas. Los avances recientes en Modelos de Razonamiento de Gran Escala (LRMs), como OpenAI o1 y DeepSeek-R1, han mejorado aún más el rendimiento en dominios de razonamiento de Sistema 2, como las matemáticas y la programación, al aprovechar técnicas de ajuste fino supervisado (SFT) y aprendizaje por refuerzo (RL) para mejorar el razonamiento de Cadena de Pensamiento (CoT). Sin embargo, aunque las secuencias de razonamiento CoT más largas mejoran el rendimiento, también introducen una sobrecarga computacional significativa debido a salidas verbosas y redundantes, un fenómeno conocido como "sobrerazonamiento". En este artículo, presentamos la primera encuesta estructurada para investigar y explorar sistemáticamente los avances actuales hacia la obtención de un razonamiento eficiente en los LLMs. En general, basándonos en el mecanismo inherente de los LLMs, categorizamos los trabajos existentes en varias direcciones clave: (1) razonamiento eficiente basado en modelos, que considera la optimización de modelos de razonamiento de longitud completa en modelos de razonamiento más concisos o el entrenamiento directo de modelos de razonamiento eficientes; (2) razonamiento eficiente basado en la salida de razonamiento, que busca reducir dinámicamente los pasos y la longitud del razonamiento durante la inferencia; (3) razonamiento eficiente basado en indicaciones de entrada, que busca mejorar la eficiencia del razonamiento basándose en propiedades de las indicaciones de entrada, como la dificultad o el control de longitud. Además, introducimos el uso de datos eficientes para entrenar modelos de razonamiento, exploramos las capacidades de razonamiento de los modelos de lenguaje pequeños y discutimos métodos de evaluación y benchmarking.
Este trabajo presenta un marco para evaluar si los modelos de lenguaje de gran escala (LLMs) codifican más conocimiento factual en sus parámetros de lo que expresan en sus salidas. Aunque algunos estudios sugieren esta posibilidad, ninguno ha definido o demostrado claramente este fenómeno. Primero proponemos una definición formal de conocimiento, cuantificándolo para una pregunta dada como la fracción de pares de respuestas correctas-incorrectas donde la correcta se clasifica más alta. Esto da lugar a conocimiento externo e interno, dependiendo de la información utilizada para puntuar candidatos individuales de respuesta: ya sean las probabilidades observables a nivel de token del modelo o sus cálculos intermedios. El conocimiento oculto surge cuando el conocimiento interno supera al externo. Luego presentamos un estudio de caso, aplicando este marco a tres LLMs populares de pesos abiertos en una configuración de preguntas y respuestas de libro cerrado. Nuestros resultados indican que: (1) Los LLMs codifican consistentemente más conocimiento factual internamente de lo que expresan externamente, con una brecha promedio del 40%. (2) Sorprendentemente, parte del conocimiento está tan profundamente oculto que un modelo puede conocer internamente una respuesta perfectamente, pero no generarla ni una sola vez, a pesar de un muestreo repetido a gran escala de 1,000 respuestas. Esto revela limitaciones fundamentales en las capacidades de generación de los LLMs, lo que (3) impone una restricción práctica al escalar el cómputo en tiempo de prueba mediante el muestreo repetido de respuestas en preguntas y respuestas de libro cerrado: las mejoras significativas de rendimiento siguen siendo inaccesibles porque algunas respuestas prácticamente nunca se muestrean, aunque si lo fueran, estaríamos garantizados de clasificarlas en primer lugar.
Mejorar las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) generalmente depende de recursos computacionales masivos y conjuntos de datos extensos, lo que limita su accesibilidad en entornos con recursos limitados. Nuestro estudio investiga el potencial del aprendizaje por refuerzo (RL, por sus siglas en inglés) para mejorar el razonamiento en LLMs pequeños, centrándonos en un modelo de 1.500 millones de parámetros, DeepSeek-R1-Distill-Qwen-1.5B, bajo restricciones estrictas: entrenamiento en 4 GPUs NVIDIA A40 (48 GB de VRAM cada una) en un plazo de 24 horas. Adaptando el algoritmo de Optimización de Política Relativa de Grupo (GRPO, por sus siglas en inglés) y seleccionando un conjunto de datos compacto y de alta calidad para el razonamiento matemático, realizamos tres experimentos para explorar el comportamiento y el rendimiento del modelo. Nuestros resultados muestran mejoras rápidas en el razonamiento: por ejemplo, la precisión en AMC23 aumentó del 63% al 80%, y AIME24 alcanzó un 46.7%, superando a o1-preview, utilizando solo 7,000 muestras y un costo de entrenamiento de $42, en comparación con miles de dólares para los modelos de referencia. Sin embargo, surgieron desafíos como la inestabilidad en la optimización y limitaciones de longitud con un entrenamiento prolongado. Estos hallazgos resaltan la eficacia del ajuste fino basado en RL para LLMs pequeños, ofreciendo una alternativa rentable a los enfoques a gran escala. Publicamos nuestro código y conjuntos de datos como recursos de código abierto, proporcionando información sobre los compromisos y sentando las bases para LLMs escalables y capaces de razonar en entornos con recursos limitados. Todo está disponible en https://github.com/knoveleng/open-rs.
Los sistemas de IA física necesitan percibir, comprender y realizar acciones complejas en el mundo físico. En este artículo, presentamos los modelos Cosmos-Reason1, que pueden entender el mundo físico y generar decisiones encarnadas apropiadas (por ejemplo, la siguiente acción) en lenguaje natural a través de procesos de razonamiento de cadena de pensamiento larga. Comenzamos definiendo capacidades clave para el razonamiento de IA física, con un enfoque en el sentido común físico y el razonamiento encarnado. Para representar el sentido común físico, utilizamos una ontología jerárquica que captura conocimientos fundamentales sobre el espacio, el tiempo y la física. Para el razonamiento encarnado, nos basamos en una ontología bidimensional que generaliza a través de diferentes encarnaciones físicas. Sobre estas capacidades, desarrollamos dos modelos de lenguaje multimodal de gran escala, Cosmos-Reason1-8B y Cosmos-Reason1-56B. Curiosamente, preparamos datos y entrenamos nuestros modelos en cuatro etapas: preentrenamiento visual, ajuste fino supervisado general (SFT), SFT de IA física y aprendizaje por refuerzo (RL) de IA física como post-entrenamiento. Para evaluar nuestros modelos, construimos puntos de referencia integrales para el sentido común físico y el razonamiento encarnado según nuestras ontologías. Los resultados de la evaluación muestran que el SFT de IA física y el aprendizaje por refuerzo aportan mejoras significativas. Para facilitar el desarrollo de la IA física, pondremos a disposición nuestro código y modelos preentrenados bajo la Licencia de Modelo Abierto de NVIDIA en https://github.com/nvidia-cosmos/cosmos-reason1.
A pesar del creciente entusiasmo por los Sistemas Multiagente (MAS, por sus siglas en inglés), donde múltiples agentes de LLM colaboran para realizar tareas, sus mejoras en el rendimiento en comparación con los marcos de un solo agente siguen siendo mínimas en los benchmarks populares. Esta brecha subraya la necesidad de analizar los desafíos que obstaculizan la efectividad de los MAS. En este artículo, presentamos el primer estudio exhaustivo sobre los desafíos de los MAS. Analizamos cinco marcos populares de MAS en más de 150 tareas, involucrando a seis anotadores humanos expertos. Identificamos 14 modos de fallo únicos y proponemos una taxonomía integral aplicable a diversos marcos de MAS. Esta taxonomía surge de manera iterativa a partir de acuerdos entre tres anotadores expertos por estudio, alcanzando un puntaje de Kappa de Cohen de 0.88. Estos modos de fallo detallados se organizan en tres categorías: (i) fallos en la especificación y diseño del sistema, (ii) desalineación entre agentes, y (iii) verificación y finalización de tareas. Para apoyar una evaluación escalable, integramos MASFT con LLM-as-a-Judge. También exploramos si los fallos identificados podrían prevenirse fácilmente proponiendo dos intervenciones: una mejor especificación de los roles de los agentes y estrategias de orquestación mejoradas. Nuestros hallazgos revelan que los fallos identificados requieren soluciones más complejas, destacando una hoja de ruta clara para futuras investigaciones. Hemos puesto a disposición nuestro conjunto de datos y el anotador de LLM como código abierto.
La generación de formas 3D ha experimentado un gran avance gracias al desarrollo de la llamada difusión 3D "nativa", particularmente a través del Modelo de Difusión Vecset (VDM). Si bien los avances recientes han mostrado resultados prometedores en la generación de formas 3D de alta resolución, el VDM aún enfrenta dificultades en la generación de alta velocidad. Estos desafíos surgen no solo por las dificultades en acelerar el muestreo de difusión, sino también por la decodificación del VAE en el VDM, áreas poco exploradas en trabajos anteriores. Para abordar estos problemas, presentamos FlashVDM, un marco sistemático para acelerar tanto el VAE como el DiT en el VDM. Para el DiT, FlashVDM permite un muestreo de difusión flexible con tan solo 5 pasos de inferencia y una calidad comparable, lo cual se logra al estabilizar la destilación de consistencia con nuestra nueva técnica de Destilación de Flujo Progresivo. Para el VAE, introducimos un decodificador vecset ultrarrápido equipado con Selección Adaptativa de KV, Decodificación de Volumen Jerárquica y Diseño de Red Eficiente. Al aprovechar la localidad del vecset y la escasez de la superficie de la forma en el volumen, nuestro decodificador reduce drásticamente los FLOPs, minimizando la sobrecarga general de decodificación. Aplicamos FlashVDM a Hunyuan3D-2 para obtener Hunyuan3D-2 Turbo. Mediante una evaluación sistemática, demostramos que nuestro modelo supera significativamente a los métodos existentes de generación 3D rápida, logrando un rendimiento comparable al estado del arte mientras reduce el tiempo de inferencia en más de 45x para la reconstrucción y 32x para la generación. El código y los modelos están disponibles en https://github.com/Tencent/FlashVDM.
Presentamos SwD, un marco de destilación multiescala para modelos de difusión (DMs), que emplea eficazmente ideas de predicción a la siguiente escala para generadores basados en difusión de pocos pasos. En detalle, SwD se inspira en los recientes hallazgos que relacionan los procesos de difusión con la autorregresión espectral implícita. Suponemos que los DMs pueden iniciar la generación en resoluciones de datos más bajas y escalar gradualmente las muestras en cada paso de eliminación de ruido sin pérdida de rendimiento, mientras reducen significativamente los costos computacionales. SwD integra naturalmente esta idea en los métodos existentes de destilación de difusión basados en la coincidencia de distribuciones. Además, enriquecemos la familia de enfoques de coincidencia de distribuciones al introducir una nueva pérdida por parches que refuerza una similitud más granular con la distribución objetivo. Cuando se aplica a modelos de difusión de última generación para generación de texto a imagen, SwD se acerca a los tiempos de inferencia de dos pasos a resolución completa y supera significativamente a las alternativas bajo el mismo presupuesto computacional, como lo demuestran las métricas automatizadas y los estudios de preferencia humana.
Recientemente, la toma de decisiones basada en acciones en entornos de mundo abierto ha ganado una atención significativa. Los modelos de Acción de Lenguaje Visual (VLA), preentrenados en grandes conjuntos de datos web, han mostrado potencial en tareas de toma de decisiones. Sin embargo, trabajos anteriores se han centrado principalmente en la post-entrenamiento de acciones, a menudo descuidando mejoras al modelo base en sí. En respuesta, introducimos un enfoque novedoso, Actuar desde el Post-Entrenamiento de Lenguaje Visual, que refina los Modelos de Lenguaje Visual (VLMs) mediante guía visual y lingüística de manera auto-supervisada. Esta mejora aumenta las capacidades de los modelos en conocimiento del mundo, reconocimiento visual y fundamentación espacial en entornos de mundo abierto. Siguiendo los paradigmas de post-entrenamiento mencionados, obtenemos los primeros modelos VLA en Minecraft que pueden seguir instrucciones humanas en más de 1k tareas atómicas diferentes, incluyendo fabricación, fundición, cocina, minería y combate. Nuestros experimentos demuestran que el post-entrenamiento en tareas no relacionadas con trayectorias conduce a una mejora del 40% sobre el mejor agente de referencia en un conjunto diverso de tareas atómicas. Además, demostramos que nuestro enfoque supera las políticas tradicionales basadas en aprendizaje por imitación en Minecraft, logrando un rendimiento de vanguardia. Hemos liberado el código, modelos y conjuntos de datos para fomentar más investigación. La página del proyecto se puede encontrar en https://craftjarvis.github.io/JarvisVLA.
Lograr una generación de imágenes flexible y de alta fidelidad que preserve la identidad sigue siendo un desafío formidable, especialmente con modelos avanzados de Transformadores de Difusión (DiTs) como FLUX. Presentamos InfiniteYou (InfU), uno de los primeros marcos robustos que aprovecha DiTs para esta tarea. InfU aborda problemas significativos de los métodos existentes, como la similitud de identidad insuficiente, la alineación deficiente entre texto e imagen, y la baja calidad y estética en la generación. El núcleo de InfU es InfuseNet, un componente que inyecta características de identidad en el modelo base DiT mediante conexiones residuales, mejorando la similitud de identidad mientras mantiene las capacidades de generación. Una estrategia de entrenamiento en múltiples etapas, que incluye preentrenamiento y ajuste fino supervisado (SFT) con datos sintéticos de una persona-múltiples muestras (SPMS), mejora aún más la alineación texto-imagen, optimiza la calidad de la imagen y reduce el efecto de copiar y pegar rostros. Experimentos exhaustivos demuestran que InfU alcanza un rendimiento de vanguardia, superando a los métodos baselines existentes. Además, el diseño plug-and-play de InfU garantiza compatibilidad con varios métodos existentes, ofreciendo una contribución valiosa para la comunidad en general.
La reconstrucción animable de humanos en 3D a partir de una sola imagen es un problema desafiante debido a la ambigüedad en la separación de la geometría, la apariencia y la deformación. Los avances recientes en la reconstrucción 3D de humanos se centran principalmente en el modelado estático, y la dependencia del uso de escaneos 3D sintéticos para el entrenamiento limita su capacidad de generalización. Por el contrario, los métodos basados en optimización para vídeo logran una mayor fidelidad, pero requieren condiciones de captura controladas y procesos de refinamiento computacionalmente intensivos. Motivados por el surgimiento de modelos de reconstrucción a gran escala para una reconstrucción estática eficiente, proponemos LHM (Modelo de Reconstrucción Animable de Humanos a Gran Escala) para inferir avatares de alta fidelidad representados como splatting de Gaussianas 3D en un paso de avance. Nuestro modelo aprovecha una arquitectura de transformador multimodal para codificar eficazmente las características posicionales del cuerpo humano y las características de la imagen mediante un mecanismo de atención, permitiendo la preservación detallada de la geometría y la textura de la ropa. Para mejorar aún más la preservación de la identidad facial y la recuperación de detalles finos, proponemos un esquema de codificación de pirámide de características de la cabeza para agregar características multiescala de las regiones de la cabeza. Experimentos exhaustivos demuestran que nuestro LHM genera humanos animables plausibles en segundos sin postprocesamiento para la cara y las manos, superando a los métodos existentes tanto en precisión de reconstrucción como en capacidad de generalización.
Los modelos de lenguaje de razonamiento a gran escala están evolucionando rápidamente en diversos dominios. Sin embargo, sus capacidades para manejar tareas financieras complejas aún requieren una exploración en profundidad. En este artículo, presentamos Fin-R1, un modelo de lenguaje de razonamiento diseñado específicamente para el sector financiero. Fin-R1 se construye utilizando una arquitectura de dos etapas, aprovechando un conjunto de datos de razonamiento financiero destilado y procesado basado en DeepSeek-R1. A través de ajuste fino supervisado (SFT) y entrenamiento con aprendizaje por refuerzo (RL), demuestra un rendimiento cercano a DeepSeek-R1 con un tamaño de parámetros de 7 mil millones en una variedad de tareas de razonamiento financiero. Logra el estado del arte (SOTA) en las tareas FinQA y ConvFinQA entre los modelos de lenguaje evaluados, superando también a modelos más grandes en otras tareas. Fin-R1 muestra fuertes capacidades de razonamiento y toma de decisiones, proporcionando soluciones a diversos problemas encontrados en el ámbito financiero. Nuestro código está disponible en https://github.com/SUFE-AIFLM-Lab/Fin-R1.
Los modelos de difusión han demostrado un éxito notable en diversas tareas de generación de imágenes, pero su rendimiento a menudo se ve limitado por el procesamiento uniforme de las entradas en diferentes condiciones y niveles de ruido. Para abordar esta limitación, proponemos un enfoque novedoso que aprovecha la heterogeneidad inherente del proceso de difusión. Nuestro método, DiffMoE, introduce un grupo global de tokens a nivel de lote que permite a los expertos acceder a distribuciones globales de tokens durante el entrenamiento, fomentando un comportamiento especializado de los expertos. Para liberar todo el potencial del proceso de difusión, DiffMoE incorpora un predictor de capacidad que asigna dinámicamente recursos computacionales en función de los niveles de ruido y la complejidad de las muestras. A través de una evaluación exhaustiva, DiffMoE logra un rendimiento de vanguardia entre los modelos de difusión en el benchmark de ImageNet, superando sustancialmente tanto a las arquitecturas densas con 3x parámetros activados como a los enfoques MoE existentes, mientras mantiene 1x parámetros activados. La efectividad de nuestro enfoque se extiende más allá de la generación condicionada por clases a tareas más desafiantes, como la generación de texto a imagen, demostrando su amplia aplicabilidad en diferentes aplicaciones de modelos de difusión. Página del proyecto: https://shiml20.github.io/DiffMoE/
Abordamos el desafío de generar mundos 3D a partir de descripciones textuales. Proponemos SynCity, un enfoque que no requiere entrenamiento ni optimización, el cual aprovecha la precisión geométrica de modelos generativos 3D preentrenados y la versatilidad artística de generadores de imágenes 2D para crear espacios 3D extensos y de alta calidad. Mientras que la mayoría de los modelos generativos 3D están centrados en objetos y no pueden generar mundos a gran escala, demostramos cómo los generadores 3D y 2D pueden combinarse para crear escenas en constante expansión. Mediante un enfoque basado en teselas, permitimos un control detallado sobre la disposición y la apariencia de las escenas. El mundo se genera tesela por tesela, y cada nueva tesela se genera dentro de su contexto mundial y luego se fusiona con la escena. SynCity genera escenas cautivadoras e inmersivas, ricas en detalle y diversidad.
Los modelos de lenguaje de gran tamaño para video (VideoLLMs) han demostrado la capacidad de procesar entradas de video más largas y permitir un razonamiento y análisis complejos. Sin embargo, debido a los miles de tokens visuales provenientes de los fotogramas del video, la caché clave-valor (KV) puede aumentar significativamente los requisitos de memoria, convirtiéndose en un cuello de botella para la velocidad de inferencia y el uso de memoria. La cuantización de la caché KV es un enfoque ampliamente utilizado para abordar este problema. En este artículo, encontramos que la cuantización de 2 bits de la caché KV en VideoLLMs apenas afecta el rendimiento del modelo, mientras que el límite de la cuantización de la caché KV en bits aún más bajos no ha sido investigado. Para cerrar esta brecha, presentamos VidKV, un método de cuantización de caché KV plug-and-play para comprimir la caché KV a menos de 2 bits. Específicamente, (1) para la clave, proponemos una estrategia de cuantización de precisión mixta en la dimensión del canal, donde realizamos cuantización de 2 bits para canales anómalos y cuantización de 1 bit combinada con FFT para canales normales; (2) para el valor, implementamos cuantización de 1.58 bits mientras filtramos selectivamente tokens visuales semánticamente relevantes para su preservación específica, logrando un mejor equilibrio entre precisión y rendimiento del modelo. Es importante destacar que nuestros hallazgos sugieren que la caché de valor de los VideoLLMs debe cuantizarse de manera por canal en lugar de la manera por token propuesta por trabajos previos de cuantización de caché KV para LLMs. Empíricamente, resultados extensos con LLaVA-OV-7B y Qwen2.5-VL-7B en seis benchmarks muestran que VidKV comprime efectivamente la caché KV a precisiones de 1.5 bits y 1.58 bits con casi ninguna caída en el rendimiento en comparación con las versiones FP16.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han mostrado avances impresionantes en razonamiento matemático. Si bien la ampliación de datos es prometedora para mejorar la capacidad de resolución de problemas matemáticos, los enfoques actuales se limitan predominantemente a modificaciones a nivel de instancia, como reformular o generar variaciones sintácticas, lo que no logra captar ni aprovechar las estructuras relacionales intrínsecas inherentes al conocimiento matemático. Inspirados por los procesos de aprendizaje humano, donde la competencia matemática se desarrolla a través de la exposición sistemática a conceptos interconectados, presentamos MathFusion, un marco novedoso que mejora el razonamiento matemático mediante la síntesis de instrucciones entre problemas. MathFusion implementa esto a través de tres estrategias de fusión: (1) fusión secuencial, que encadena problemas relacionados para modelar dependencias de soluciones; (2) fusión paralela, que combina problemas análogos para reforzar la comprensión conceptual; y (3) fusión condicional, que crea problemas selectivos conscientes del contexto para mejorar la flexibilidad del razonamiento. Al aplicar estas estrategias, generamos un nuevo conjunto de datos, MathFusionQA, seguido del ajuste fino de modelos (DeepSeekMath-7B, Mistral-7B, Llama3-8B) en él. Los resultados experimentales demuestran que MathFusion logra mejoras sustanciales en el razonamiento matemático mientras mantiene una alta eficiencia de datos, aumentando el rendimiento en 18.0 puntos de precisión en diversos benchmarks mientras requiere solo 45K instrucciones sintéticas adicionales, lo que representa una mejora significativa sobre los enfoques tradicionales de instrucción única. Nuestros conjuntos de datos, modelos y código están disponibles públicamente en https://github.com/QizhiPei/mathfusion.
Este artículo propone un paradigma fundamentalmente nuevo para la generación de imágenes mediante la tokenización basada en conjuntos y el modelado de distribuciones. A diferencia de los métodos convencionales que serializan las imágenes en códigos latentes de posición fija con una relación de compresión uniforme, introducimos una representación de conjunto de tokens no ordenada para asignar dinámicamente la capacidad de codificación según la complejidad semántica regional. Este TokenSet mejora la agregación de contexto global y aumenta la robustez frente a perturbaciones locales. Para abordar el desafío crítico de modelar conjuntos discretos, diseñamos un mecanismo de transformación dual que convierte biyectivamente los conjuntos en secuencias de enteros de longitud fija con restricciones de suma. Además, proponemos Fixed-Sum Discrete Diffusion, el primer marco que maneja simultáneamente valores discretos, longitud de secuencia fija e invarianza de suma, permitiendo un modelado efectivo de la distribución de conjuntos. Los experimentos demuestran la superioridad de nuestro método en la representación consciente de la semántica y la calidad de generación. Nuestras innovaciones, que abarcan estrategias novedosas de representación y modelado, avanzan la generación visual más allá de los paradigmas tradicionales de tokens secuenciales. Nuestro código y modelos están disponibles públicamente en https://github.com/Gengzigang/TokenSet.
Presentamos 3D Spatial MultiModal Memory (M3), un sistema de memoria multimodal diseñado para retener información sobre escenas estáticas de tamaño mediano a través de fuentes de video para la percepción visual. Al integrar técnicas de 3D Gaussian Splatting con modelos fundacionales, M3 construye una memoria multimodal capaz de renderizar representaciones de características a través de diferentes niveles de granularidad, abarcando un amplio espectro de conocimiento. En nuestra exploración, identificamos dos desafíos clave en trabajos previos sobre el splatting de características: (1) las limitaciones computacionales al almacenar características de alta dimensión para cada primitiva gaussiana, y (2) la desalineación o pérdida de información entre las características destiladas y las características de los modelos fundacionales. Para abordar estos desafíos, proponemos M3 con componentes clave de elementos principales de la escena y atención de memoria gaussiana, permitiendo un entrenamiento e inferencia eficientes. Para validar M3, realizamos evaluaciones cuantitativas exhaustivas de similitud de características y tareas posteriores, así como visualizaciones cualitativas para resaltar el rastro de píxeles de la atención de memoria gaussiana. Nuestro enfoque abarca una amplia gama de modelos fundacionales, incluyendo modelos de visión y lenguaje (VLMs), modelos de percepción y modelos grandes multimodales y de lenguaje (LMMs/LLMs). Además, para demostrar la aplicabilidad en el mundo real, implementamos el campo de características de M3 en escenas interiores en un robot cuadrúpedo. Cabe destacar que afirmamos que M3 es el primer trabajo en abordar los desafíos centrales de compresión en la destilación de características 3D.
La Edición de Conocimiento (Knowledge Editing, KE) permite la modificación de información obsoleta o incorrecta en modelos de lenguaje de gran escala (LLMs). Si bien los métodos existentes de KE pueden actualizar hechos aislados, tienen dificultades para generalizar estas actualizaciones a tareas de razonamiento de múltiples pasos que dependen del conocimiento modificado. A través de un análisis de los circuitos de razonamiento —las vías neuronales que los LLMs utilizan para la inferencia basada en conocimiento—, observamos que los enfoques actuales de KE localizados en capas, como MEMIT y WISE, que editan solo una o pocas capas del modelo, tienen dificultades para incorporar efectivamente la información actualizada en estos circuitos de razonamiento. Para abordar esta limitación, proponemos CaKE (Circuit-aware Knowledge Editing), un método novedoso que permite una integración más efectiva del conocimiento actualizado en los LLMs. CaKE aprovecha datos estratégicamente seleccionados, guiados por nuestro análisis basado en circuitos, que obligan al modelo a utilizar el conocimiento modificado, estimulando al modelo a desarrollar circuitos de razonamiento apropiados para el conocimiento recién integrado. Los resultados experimentales muestran que CaKE permite un uso más preciso y consistente del conocimiento actualizado en tareas de razonamiento relacionadas, logrando una mejora promedio del 20% en la precisión de razonamiento de múltiples pasos en el conjunto de datos MQuAKE en comparación con los métodos de KE existentes. Publicamos el código y los datos en https://github.com/zjunlp/CaKE.
Este artículo aborda el desafío de la generación de movimiento en flujo condicionado por texto, que requiere predecir la siguiente postura humana basándose en movimientos históricos de longitud variable y textos entrantes. Los métodos existentes tienen dificultades para lograr la generación de movimiento en flujo; por ejemplo, los modelos de difusión están limitados por longitudes de movimiento predefinidas, mientras que los métodos basados en GPT sufren de respuestas retrasadas y problemas de acumulación de errores debido a la tokenización no causal discretizada. Para resolver estos problemas, proponemos MotionStreamer, un marco novedoso que incorpora un espacio latente causal continuo en un modelo autorregresivo probabilístico. Los latentes continuos mitigan la pérdida de información causada por la discretización y reducen efectivamente la acumulación de errores durante la generación autorregresiva a largo plazo. Además, al establecer dependencias causales temporales entre los latentes de movimiento actuales e históricos, nuestro modelo aprovecha al máximo la información disponible para lograr una decodificación precisa de movimiento en línea. Los experimentos muestran que nuestro método supera a los enfoques existentes mientras ofrece más aplicaciones, incluyendo generación en múltiples rondas, generación a largo plazo y composición dinámica de movimiento. Página del proyecto: https://zju3dv.github.io/MotionStreamer/
Los modelos Transformer de contexto largo (LCTMs, por sus siglas en inglés) son fundamentales para aplicaciones del mundo real, pero sufren altos costos computacionales debido a la complejidad cuadrática de la atención. La atención dispersa por bloques mitiga este problema al enfocar el cálculo en regiones críticas, aunque los métodos existentes luchan por equilibrar precisión y eficiencia debido a las costosas mediciones de importancia de los bloques. En este artículo, presentamos XAttention, un marco plug-and-play que acelera drásticamente la inferencia de contexto largo en modelos Transformer utilizando atención dispersa. La innovación clave de XAttention es la idea de que la suma de los valores antidiagonales (es decir, desde la esquina inferior izquierda hasta la superior derecha) en la matriz de atención proporciona un poderoso indicador de la importancia de los bloques. Esto permite una identificación y poda precisa de bloques no esenciales, lo que resulta en una alta dispersión y una inferencia acelerada de manera significativa. En evaluaciones exhaustivas en puntos de referencia exigentes de contexto largo, incluyendo RULER y LongBench para lenguaje, VideoMME para comprensión de video y VBench para generación de video, XAttention logra una precisión comparable a la atención completa mientras ofrece ganancias computacionales sustanciales. Demostramos una aceleración de hasta 13.5x en el cálculo de la atención. Estos resultados subrayan la capacidad de XAttention para desbloquear el potencial práctico de la atención dispersa por bloques, allanando el camino para un despliegue escalable y eficiente de LCTMs en aplicaciones del mundo real. El código está disponible en https://github.com/mit-han-lab/x-attention.
El método 4D Gaussian Splatting (4DGS) ha ganado recientemente una atención considerable como técnica para la reconstrucción de escenas dinámicas. A pesar de lograr una calidad superior, el 4DGS generalmente requiere un almacenamiento sustancial y sufre de una velocidad de renderizado lenta. En este trabajo, profundizamos en estos problemas e identificamos dos fuentes clave de redundancia temporal. (Q1) Gaussianas de Corta Duración: el 4DGS utiliza una gran proporción de Gaussianas con un lapso temporal corto para representar la dinámica de la escena, lo que resulta en un número excesivo de Gaussianas. (Q2) Gaussianas Inactivas: durante el renderizado, solo un pequeño subconjunto de Gaussianas contribuye a cada fotograma. A pesar de esto, todas las Gaussianas se procesan durante la rasterización, generando un sobrecarga computacional redundante. Para abordar estas redundancias, presentamos 4DGS-1K, que funciona a más de 1000 FPS en GPU modernas. Para Q1, introducimos el Puntaje de Variación Espacio-Temporal, un nuevo criterio de poda que elimina eficazmente las Gaussianas de corta duración mientras fomenta que el 4DGS capture la dinámica de la escena utilizando Gaussianas con lapsos temporales más largos. Para Q2, almacenamos una máscara para las Gaussianas activas en fotogramas consecutivos, reduciendo significativamente los cálculos redundantes en el renderizado. En comparación con el 4DGS convencional, nuestro método logra una reducción de 41 veces en el almacenamiento y una velocidad de rasterización 9 veces más rápida en escenas dinámicas complejas, manteniendo una calidad visual comparable. Visite nuestra página del proyecto en https://4DGS-1K.github.io.
Los modelos de difusión se han consolidado como un marco principal en la generación visual. Basándose en este éxito, la integración de métodos de Mezcla de Expertos (MoE) ha mostrado potencial para mejorar la escalabilidad y el rendimiento de los modelos. En este artículo, presentamos Race-DiT, un novedoso modelo MoE para transformadores de difusión con una estrategia de enrutamiento flexible llamada Expert Race. Al permitir que los tokens y los expertos compitan juntos y seleccionen a los mejores candidatos, el modelo aprende a asignar dinámicamente expertos a los tokens críticos. Además, proponemos una regularización por capa para abordar los desafíos en el aprendizaje de capas superficiales, y una pérdida de similitud del enrutador para evitar el colapso de modos, garantizando una mejor utilización de los expertos. Experimentos exhaustivos en ImageNet validan la efectividad de nuestro enfoque, mostrando mejoras significativas en el rendimiento junto con propiedades prometedoras de escalabilidad.
Los modelos de difusión de texto a imagen han logrado avances notables en los últimos años. Sin embargo, entrenar modelos para la generación de imágenes de alta resolución sigue siendo un desafío, especialmente cuando los datos de entrenamiento y los recursos computacionales son limitados. En este artículo, exploramos este problema práctico desde dos perspectivas clave: eficiencia en datos y eficiencia en parámetros, y proponemos un conjunto de directrices fundamentales para la adaptación a ultra resolución, denominado URAE. En cuanto a la eficiencia en datos, demostramos teórica y empíricamente que los datos sintéticos generados por algunos modelos "maestros" pueden promover significativamente la convergencia del entrenamiento. Para la eficiencia en parámetros, encontramos que ajustar componentes menores de las matrices de pesos supera a los adaptadores de bajo rango ampliamente utilizados cuando no hay datos sintéticos disponibles, ofreciendo ganancias sustanciales en el rendimiento mientras se mantiene la eficiencia. Además, para modelos que aprovechan la destilación de guía, como FLUX, demostramos que desactivar la guía libre de clasificador, es decir, establecer la escala de guía en 1 durante la adaptación, es crucial para un rendimiento satisfactorio. Experimentos extensos validan que URAE logra un rendimiento comparable en generación 2K a modelos de última generación de código cerrado como FLUX1.1 [Pro] Ultra con solo 3K muestras y 2K iteraciones, estableciendo nuevos puntos de referencia para la generación en resolución 4K. Los códigos están disponibles {aquí}: https://github.com/Huage001/URAE.
En este artículo, cuestionamos si contamos con un modelo autosupervisado de nubes de puntos confiable que pueda utilizarse para diversas tareas 3D mediante un simple sondeo lineal, incluso con datos limitados y un mínimo de cómputo. Descubrimos que los enfoques existentes de aprendizaje autosupervisado en 3D no cumplen con las expectativas cuando se evalúa la calidad de las representaciones a través del sondeo lineal. Hipótesis que esto se debe a lo que denominamos el "atajo geométrico", que hace que las representaciones colapsen en características espaciales de bajo nivel. Este desafío es único en 3D y surge de la naturaleza dispersa de los datos de nubes de puntos. Lo abordamos mediante dos estrategias clave: oscurecer la información espacial y aumentar la dependencia de las características de entrada, componiendo finalmente una Sonata de 140k nubes de puntos a través de la auto-distilación. Sonata es simple e intuitivo, pero sus representaciones aprendidas son sólidas y confiables: las visualizaciones de cero disparos demuestran agrupación semántica, junto con un razonamiento espacial fuerte a través de relaciones de vecinos más cercanos. Sonata muestra una eficiencia excepcional en parámetros y datos, triplicando la precisión del sondeo lineal (del 21.8% al 72.5%) en ScanNet y casi duplicando el rendimiento con solo el 1% de los datos en comparación con enfoques anteriores. El ajuste fino completo avanza aún más el estado del arte en tareas de percepción 3D tanto en interiores como en exteriores.
Los recientes avances en la generación de vídeo han llevado a mejoras notables en la calidad visual y la coherencia temporal. Sobre esta base, ha surgido la generación de vídeo controlable por trayectorias, que permite un control preciso del movimiento de objetos a través de rutas espaciales definidas explícitamente. Sin embargo, los métodos existentes tienen dificultades con movimientos complejos de objetos y el control de movimiento de múltiples objetos, lo que resulta en una adherencia imprecisa a las trayectorias, una consistencia deficiente de los objetos y una calidad visual comprometida. Además, estos métodos solo admiten el control de trayectorias en un único formato, lo que limita su aplicabilidad en diversos escenarios. Asimismo, no existe un conjunto de datos o un benchmark disponible públicamente específicamente diseñado para la generación de vídeo controlable por trayectorias, lo que dificulta el entrenamiento robusto y la evaluación sistemática. Para abordar estos desafíos, presentamos MagicMotion, un novedoso marco de generación de imagen a vídeo que permite el control de trayectorias a través de tres niveles de condiciones, desde densas hasta dispersas: máscaras, cuadros delimitadores y cuadros dispersos. Dada una imagen de entrada y trayectorias, MagicMotion anima objetos a lo largo de las trayectorias definidas manteniendo la consistencia del objeto y la calidad visual. Además, presentamos MagicData, un conjunto de datos de vídeo controlado por trayectorias a gran escala, junto con una canalización automatizada para la anotación y el filtrado. También introducimos MagicBench, un benchmark integral que evalúa tanto la calidad del vídeo como la precisión del control de trayectorias en diferentes números de objetos. Experimentos extensos demuestran que MagicMotion supera a los métodos anteriores en varias métricas. Nuestra página del proyecto está disponible públicamente en https://quanhaol.github.io/magicmotion-site.
La generación de avatares animados de cabezas generalmente requiere una gran cantidad de datos para el entrenamiento. Para reducir los requisitos de datos, una solución natural es aprovechar los métodos existentes de generación de avatares estáticos sin datos, como los modelos de difusión preentrenados con muestreo de destilación de puntuación (SDS), que alinean los avatares con salidas pseudo verdaderas del modelo de difusión. Sin embargo, destilar directamente avatares 4D a partir de difusión de video a menudo produce resultados demasiado suaves debido a inconsistencias espaciales y temporales en el video generado. Para abordar este problema, proponemos Zero-1-to-A, un método robusto que sintetiza un conjunto de datos de consistencia espacial y temporal para la reconstrucción de avatares 4D utilizando el modelo de difusión de video. Específicamente, Zero-1-to-A construye iterativamente conjuntos de datos de video y optimiza avatares animables de manera progresiva, asegurando que la calidad del avatar aumente de manera suave y consistente durante el proceso de aprendizaje. Este aprendizaje progresivo involucra dos etapas: (1) el Aprendizaje de Consistencia Espacial fija expresiones y aprende desde vistas frontales hasta laterales, y (2) el Aprendizaje de Consistencia Temporal fija vistas y aprende desde expresiones relajadas hasta exageradas, generando avatares 4D de manera simple a compleja. Experimentos extensos demuestran que Zero-1-to-A mejora la fidelidad, la calidad de la animación y la velocidad de renderizado en comparación con los métodos basados en difusión existentes, proporcionando una solución para la creación de avatares realistas. El código está disponible públicamente en: https://github.com/ZhenglinZhou/Zero-1-to-A.
En este artículo, exploramos la tarea de generar escenas exteriores expansivas, que van desde castillos hasta rascacielos. A diferencia de la generación de escenas interiores, que ha sido el foco principal de trabajos previos, la generación de escenas exteriores presenta desafíos únicos, incluyendo amplias variaciones en las alturas de las escenas y la necesidad de un método capaz de producir rápidamente grandes paisajes. Para abordar esto, proponemos un enfoque eficiente que codifica fragmentos de escenas como conjuntos de vectores uniformes, ofreciendo una mejor compresión y rendimiento que los latentes espacialmente estructurados utilizados en métodos anteriores. Además, entrenamos un modelo explícito de "outpainting" para generación ilimitada, que mejora la coherencia en comparación con los esquemas de "inpainting" basados en remuestreo previos, al mismo tiempo que acelera la generación al eliminar pasos adicionales de difusión. Para facilitar esta tarea, hemos creado NuiScene43, un conjunto pequeño pero de alta calidad de escenas, preprocesadas para entrenamiento conjunto. Notablemente, cuando se entrena con escenas de diversos estilos, nuestro modelo puede combinar diferentes entornos, como casas rurales y rascacielos urbanos, dentro de la misma escena, destacando el potencial de nuestro proceso de curación para aprovechar escenas heterogéneas en el entrenamiento conjunto.
La clasificación es una tarea fundamental en el aprendizaje automático. Investigaciones recientes han demostrado que, aunque los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) inicialmente tienen un rendimiento deficiente en la clasificación de imágenes, el ajuste fino con una cantidad adecuada de datos puede mejorar significativamente su desempeño, haciéndolos comparables a los modelos de clasificación de última generación (SOTA). Sin embargo, adquirir grandes cantidades de datos etiquetados es costoso. En este artículo, exploramos el ajuste fino de clasificación en MLLMs con pocos ejemplos. Descubrimos que el ajuste fino supervisado (SFT) puede causar graves problemas de sobreajuste e incluso degradar el rendimiento en comparación con el enfoque de cero ejemplos. Para abordar este desafío, inspirados por los recientes éxitos en el aprendizaje por refuerzo basado en reglas, proponemos CLS-RL, que utiliza señales verificables como recompensa para ajustar los MLLMs. Observamos que CLS-RL supera a SFT en la mayoría de los conjuntos de datos y tiene una precisión promedio mucho mayor tanto en entornos de aprendizaje de base a nuevo como en pocos ejemplos. Además, identificamos un fenómeno de "beneficio gratuito" en CLS-RL; cuando los modelos se ajustan en un conjunto de datos específico, su rendimiento en otros conjuntos de datos distintos también puede mejorar sobre los modelos de cero ejemplos, incluso si esos conjuntos difieren en distribución y nombres de clases. Esto sugiere que los métodos basados en aprendizaje por refuerzo enseñan efectivamente los fundamentos de la clasificación. Por último, inspirados por trabajos recientes en el pensamiento durante la inferencia, reexaminamos el "proceso de pensamiento" durante el ajuste fino, un aspecto crítico de los métodos basados en aprendizaje por refuerzo, en el contexto de la clasificación visual. Cuestionamos si tales tareas requieren un extenso proceso de pensamiento durante el ajuste fino, proponiendo que esto podría perjudicar el rendimiento. Basados en esta premisa, introducimos el método No-Thinking-CLS-RL, que minimiza los procesos de pensamiento durante el entrenamiento al establecer una recompensa de precisión igualitaria. Nuestros hallazgos indican que, con mucho menos tiempo de ajuste fino, el método No-Thinking-CLS-RL logra un rendimiento superior en el dominio y capacidades de generalización en comparación con CLS-RL.
Presentamos BigO(Bench), un nuevo punto de referencia de codificación diseñado para evaluar las capacidades de los modelos de lenguaje generativo en la comprensión y generación de código con complejidades temporales y espaciales especificadas. Este punto de referencia aborda la brecha en las evaluaciones actuales que a menudo pasan por alto la capacidad de los modelos para comprender y producir código restringido por la complejidad computacional. BigO(Bench) incluye herramientas para inferir la complejidad algorítmica de cualquier función en Python a partir de mediciones de perfilado, incluyendo soluciones generadas por humanos o modelos de lenguaje. BigO(Bench) también incluye un conjunto de 3,105 problemas de codificación y 1,190,250 soluciones de concursos de programación anotadas con etiquetas de complejidad temporal y espacial inferidas (sintéticas) del marco de complejidad, así como valores correspondientes de tiempo de ejecución y uso de memoria para un amplio conjunto de tamaños de entrada. Presentamos los resultados de la evaluación de múltiples modelos de lenguaje de última generación en este punto de referencia, destacando sus fortalezas y debilidades en el manejo de los requisitos de complejidad. En particular, los modelos de razonamiento en el espacio de tokens son insuperables en la generación de código, pero no en la comprensión de la complejidad, lo que sugiere que podrían no generalizar bien a tareas para las cuales no se otorgó recompensa durante el entrenamiento.
Presentamos PORTAL, un marco novedoso para desarrollar agentes de inteligencia artificial capaces de jugar miles de videojuegos en 3D mediante la generación de políticas guiadas por lenguaje. Al transformar problemas de toma de decisiones en tareas de modelado de lenguaje, nuestro enfoque aprovecha los modelos de lenguaje de gran escala (LLMs) para generar árboles de comportamiento representados en un lenguaje específico del dominio (DSL). Este método elimina la carga computacional asociada con los enfoques tradicionales de aprendizaje por refuerzo, preservando al mismo tiempo la profundidad estratégica y la rápida adaptabilidad. Nuestro marco introduce una estructura de política híbrida que combina nodos basados en reglas con componentes de redes neuronales, permitiendo tanto el razonamiento estratégico de alto nivel como el control preciso de bajo nivel. Un mecanismo de doble retroalimentación que incorpora métricas cuantitativas del juego y análisis de modelos de visión-lenguaje facilita la mejora iterativa de las políticas tanto a nivel táctico como estratégico. Las políticas resultantes son instantáneamente implementables, interpretables por humanos y capaces de generalizarse en diversos entornos de juego. Los resultados experimentales demuestran la eficacia de PORTAL en miles de juegos de disparos en primera persona (FPS), mostrando mejoras significativas en la eficiencia de desarrollo, la generalización de políticas y la diversidad de comportamientos en comparación con enfoques tradicionales. PORTAL representa un avance significativo en el desarrollo de IA para juegos, ofreciendo una solución práctica para crear agentes sofisticados que pueden operar en miles de videojuegos comerciales con un mínimo esfuerzo de desarrollo. Los resultados de los experimentos en videojuegos 3D se pueden ver mejor en https://zhongwen.one/projects/portal.
Los modelos autorregresivos han demostrado un éxito notable en la generación de imágenes al adaptar técnicas de predicción secuencial provenientes del modelado de lenguaje. Sin embargo, aplicar estos enfoques a imágenes requiere discretizar datos de píxeles continuos mediante métodos de cuantización vectorial como VQ-VAE. Para mitigar los errores de cuantización presentes en VQ-VAE, trabajos recientes tienden a utilizar libros de códigos más grandes. No obstante, esto expande el tamaño del vocabulario, complicando la tarea de modelado autorregresivo. Este artículo busca encontrar una manera de aprovechar los beneficios de los libros de códigos grandes sin dificultar el modelado autorregresivo. A través de una investigación empírica, descubrimos que los tokens con representaciones de palabras código similares producen efectos similares en la imagen generada final, revelando una redundancia significativa en los libros de códigos grandes. Basándonos en esta observación, proponemos predecir tokens de manera gruesa a fina (CTF), implementada asignando la misma etiqueta gruesa a tokens similares. Nuestro marco consta de dos etapas: (1) un modelo autorregresivo que predice secuencialmente etiquetas gruesas para cada token en la secuencia, y (2) un modelo auxiliar que predice simultáneamente etiquetas de grano fino para todos los tokens condicionados en sus etiquetas gruesas. Los experimentos en ImageNet demuestran el rendimiento superior de nuestro método, logrando una mejora promedio de 59 puntos en el Inception Score en comparación con los baselines. Notablemente, a pesar de agregar un paso de inferencia, nuestro enfoque logra velocidades de muestreo más rápidas.
La naturaleza compleja de la segmentación de imágenes médicas requiere modelos diseñados específicamente para capturar características detalladas y específicas del dominio. Los grandes modelos fundacionales ofrecen una flexibilidad considerable, pero el costo de ajustarlos sigue siendo una barrera significativa. Los métodos de Ajuste Eficiente de Parámetros (PEFT, por sus siglas en inglés), como la Adaptación de Bajo Rango (LoRA), actualizan eficientemente los pesos del modelo mediante matrices de bajo rango, pero pueden sufrir de subajuste cuando el rango elegido es insuficiente para capturar los matices específicos del dominio. Por el contrario, los métodos basados en Descomposición en Valores Singulares (SVD) de rango completo proporcionan actualizaciones exhaustivas al modificar todos los valores singulares, aunque a menudo carecen de flexibilidad y muestran un rendimiento variable entre conjuntos de datos. Proponemos SALT (Adaptación de Valores Singulares con Transformación de Bajo Rango), un método que adapta selectivamente los valores singulares más influyentes utilizando parámetros entrenables de escala y desplazamiento, complementando esto con una actualización de bajo rango para el subespacio restante. Este enfoque híbrido aprovecha las ventajas tanto de LoRA como de SVD, permitiendo una adaptación efectiva sin depender del aumento del tamaño o la profundidad del modelo. Evaluado en 5 conjuntos de datos médicos desafiantes, que van desde tan solo 20 muestras hasta 1000, SALT supera a los métodos PEFT más avanzados (LoRA y SVD) en un 2% a 5% en la métrica Dice con solo un 3.9% de parámetros entrenables, demostrando una adaptación robusta incluso en entornos de bajos recursos. El código de SALT está disponible en: https://github.com/BioMedIA-MBZUAI/SALT.
Los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) han demostrado un rendimiento prometedor en tareas de comprensión y razonamiento de lenguaje y visión. Sin embargo, sus comportamientos de comprensión visual siguen siendo poco explorados. Surge una pregunta fundamental: ¿hasta qué punto los LVLMs dependen de la entrada visual y qué regiones de la imagen contribuyen a sus respuestas? No es trivial interpretar la generación de texto libre de los LVLMs debido a su arquitectura visual compleja (por ejemplo, múltiples codificadores y multi-resolución) y salidas de longitud variable. En este artículo, extendemos los métodos existentes de visualización de mapas de calor (por ejemplo, iGOS++) para apoyar a los LVLMs en la respuesta abierta a preguntas visuales. Proponemos un método para seleccionar tokens visualmente relevantes que reflejen la relación entre las respuestas generadas y la imagen de entrada. Además, realizamos un análisis exhaustivo de los LVLMs más avanzados en conjuntos de datos diseñados para requerir información visual para responder. Nuestros hallazgos ofrecen varias perspectivas sobre el comportamiento de los LVLMs, incluyendo la relación entre la región de enfoque y la corrección de la respuesta, las diferencias en la atención visual entre arquitecturas y el impacto de la escala del modelo de lenguaje en la comprensión visual. El código y los datos están disponibles en https://github.com/bytedance/LVLM_Interpretation.
Los recientes avances en los modelos de lenguaje de gran escala y sus extensiones multimodales han demostrado la efectividad de unificar la generación y la comprensión mediante la predicción autoregresiva del siguiente token. Sin embargo, a pesar del papel crítico de la generación y comprensión de estructuras 3D ({3D GU}) en la IA para la ciencia, estas tareas han evolucionado en gran medida de manera independiente, con los métodos autoregresivos aún poco explorados. Para cerrar esta brecha, presentamos Uni-3DAR, un marco unificado que integra de manera fluida las tareas de {3D GU} mediante predicción autoregresiva. En su núcleo, Uni-3DAR emplea una novedosa tokenización jerárquica que comprime el espacio 3D utilizando un octree, aprovechando la inherente dispersión de las estructuras 3D. Luego, aplica una tokenización adicional para capturar detalles estructurales finos, incluyendo atributos clave como tipos de átomos y coordenadas espaciales precisas en estructuras 3D microscópicas. Además, proponemos dos optimizaciones para mejorar la eficiencia y efectividad. La primera es una estrategia de compresión de subárboles de dos niveles, que reduce la secuencia de tokens del octree hasta 8 veces. La segunda es un mecanismo de predicción del siguiente token enmascarado, diseñado para posiciones de tokens que varían dinámicamente, lo que mejora significativamente el rendimiento del modelo. Al combinar estas estrategias, Uni-3DAR logra unificar diversas tareas de {3D GU} dentro de un único marco autoregresivo. Experimentos exhaustivos en múltiples tareas de {3D GU} microscópicas, incluyendo moléculas, proteínas, polímeros y cristales, validan su efectividad y versatilidad. Notablemente, Uni-3DAR supera a los modelos de difusión anteriores de última generación por un margen considerable, logrando una mejora relativa de hasta el 256\% y velocidades de inferencia hasta 21.8 veces más rápidas. El código está disponible públicamente en https://github.com/dptech-corp/Uni-3DAR.
La generación de moléculas 3D es crucial para el descubrimiento de fármacos y la ciencia de materiales, requiriendo que los modelos procesen complejas multi-modalidades, incluyendo tipos de átomos, enlaces químicos y coordenadas 3D. Un desafío clave es integrar estas modalidades de diferentes formas mientras se mantiene la equivariancia SE(3) para las coordenadas 3D. Para lograrlo, los enfoques existentes suelen mantener espacios latentes separados para modalidades invariantes y equivariantes, lo que reduce la eficiencia tanto en el entrenamiento como en el muestreo. En este trabajo, proponemos el Variational Auto-Encoder Unificado para Modelado de Difusión Latente de Moléculas 3D (UAE-3D), un VAE multi-modal que comprime moléculas 3D en secuencias latentes desde un espacio latente unificado, manteniendo un error de reconstrucción cercano a cero. Este espacio latente unificado elimina las complejidades de manejar multi-modalidad y equivariancia al realizar el modelado de difusión latente. Demostramos esto empleando el Transformer de Difusión—un modelo de difusión de propósito general sin ningún sesgo inductivo molecular—para la generación latente. Experimentos extensivos en los conjuntos de datos GEOM-Drugs y QM9 demuestran que nuestro método establece nuevos referentes significativos tanto en la generación de novo como condicional de moléculas 3D, logrando una eficiencia y calidad líderes.
Los métodos populares de entrenamiento de video operan principalmente sobre un número fijo de tokens muestreados de una cuadrícula espacio-temporal predeterminada, lo que resulta en compensaciones subóptimas entre precisión y computación debido a la redundancia inherente del video. Además, carecen de adaptabilidad a diferentes presupuestos computacionales para tareas posteriores, lo que dificulta la aplicación del modelo más competitivo en escenarios del mundo real. Por ello, proponemos un nuevo entorno de prueba, denominado Optimización de Tokens, para maximizar la información de entrada en función de los presupuestos, el cual optimiza el conjunto limitado de tokens de entrada mediante la selección de tokens a partir de videos muestreados de manera más adecuada. Para ello, presentamos una nueva herramienta de aumento llamada Flux. Al hacer que la cuadrícula de muestreo sea flexible y aprovechar la selección de tokens, Flux se integra fácilmente en la mayoría de los marcos de entrenamiento de video populares, mejorando la robustez del modelo con un costo adicional casi nulo. Integramos Flux en el pre-entrenamiento de video a gran escala, y el modelo resultante, FluxViT, establece nuevos resultados de vanguardia en una amplia gama de tareas con costos estándar. Notablemente, con solo 1/4 de los tokens, FluxViT puede igualar el rendimiento de los modelos anteriores de vanguardia con Optimización de Tokens, logrando un ahorro de casi el 90%. Todos los modelos y datos están disponibles en https://github.com/OpenGVLab/FluxViT.
Los modelos de visión-lenguaje (VL) han demostrado un fuerte rendimiento en diversas tareas. Sin embargo, estos modelos suelen depender de una modalidad específica para realizar predicciones, lo que genera un "sesgo de modalidad dominante". Este sesgo afecta significativamente el rendimiento, especialmente cuando una modalidad está comprometida. En este estudio, analizamos el comportamiento del modelo bajo el sesgo de modalidad dominante y demostramos teóricamente que los gradientes no alineados o las diferencias en las magnitudes de los gradientes impiden una convergencia equilibrada de la pérdida. Basándonos en estos hallazgos, proponemos un marco novedoso, BalGrad, para mitigar el sesgo de modalidad dominante. Nuestro enfoque incluye la reponderación de gradientes intermodales, ajustando el gradiente de la divergencia KL según la contribución de cada modalidad, y la proyección de gradientes intertareas para alinear las direcciones de las tareas de manera no conflictiva. Los experimentos en los conjuntos de datos UPMC Food-101, Hateful Memes y MM-IMDb confirman que BalGrad alivia eficazmente la dependencia excesiva en modalidades específicas al realizar predicciones.
La personalización de identidad en video busca producir videos de alta fidelidad que mantengan una identidad consistente y exhiban una dinámica significativa basada en imágenes de referencia proporcionadas por los usuarios. Sin embargo, los enfoques existentes enfrentan dos desafíos principales: la degradación de la identidad en videos de larga duración y la reducción de la dinámica durante el entrenamiento, principalmente debido a su dependencia del entrenamiento tradicional de auto-reconstrucción con imágenes estáticas. Para abordar estos problemas, presentamos MagicID, un marco novedoso diseñado para promover directamente la generación de videos con identidad consistente y dinámica enriquecida, adaptados a las preferencias del usuario. Específicamente, proponemos la construcción de datos de video de preferencias pareadas con recompensas explícitas de identidad y dinámica para el aprendizaje de preferencias, en lugar de limitarse a la auto-reconstrucción tradicional. Para abordar las limitaciones de los datos personalizados de preferencias, introducimos una estrategia de muestreo híbrida. Este enfoque prioriza primero la preservación de la identidad aprovechando videos estáticos derivados de imágenes de referencia, y luego mejora la calidad del movimiento dinámico en los videos generados utilizando un método de muestreo basado en Fronteras. Al utilizar estos pares de preferencias híbridas, optimizamos el modelo para alinearse con las diferencias de recompensa entre pares de preferencias personalizadas. Experimentos exhaustivos muestran que MagicID logra con éxito una identidad consistente y una dinámica natural, superando a los métodos existentes en diversas métricas.
Con el rápido crecimiento de los modelos generativos de video (VGMs, por sus siglas en inglés), es fundamental desarrollar métricas automáticas confiables y exhaustivas para los videos generados por IA (AIGVs, por sus siglas en inglés). Los métodos existentes utilizan modelos preentrenados optimizados para otras tareas o dependen de datos de evaluación humana para entrenar evaluadores especializados. Estos enfoques están limitados a aspectos específicos de evaluación y son difíciles de escalar ante la creciente demanda de evaluaciones más detalladas y completas. Para abordar este problema, este trabajo investiga la viabilidad de utilizar modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) como evaluadores unificados para AIGVs, aprovechando sus fuertes capacidades de percepción visual y comprensión del lenguaje. Para evaluar el rendimiento de las métricas automáticas en la evaluación unificada de AIGVs, presentamos un benchmark llamado UVE-Bench. UVE-Bench recopila videos generados por VGMs de última generación y proporciona anotaciones de preferencias humanas por pares en 15 aspectos de evaluación. Utilizando UVE-Bench, evaluamos extensamente 16 MLLMs. Nuestros resultados empíricos sugieren que, aunque los MLLMs avanzados (por ejemplo, Qwen2VL-72B e InternVL2.5-78B) aún están por detrás de los evaluadores humanos, demuestran una capacidad prometedora en la evaluación unificada de AIGVs, superando significativamente los métodos de evaluación especializados existentes. Además, realizamos un análisis en profundidad de las decisiones clave de diseño que impactan el rendimiento de los evaluadores basados en MLLMs, ofreciendo insights valiosos para futuras investigaciones sobre la evaluación de AIGVs. El código está disponible en https://github.com/bytedance/UVE.
Proponemos VideoRFSplat, un modelo directo de texto a 3D que aprovecha un modelo de generación de videos para producir representaciones realistas de 3D Gaussian Splatting (3DGS) en escenas del mundo real sin límites. Para generar diversas poses de cámara y una extensión espacial ilimitada en escenas del mundo real, al mismo tiempo que se garantiza la generalización para cualquier indicación de texto, los métodos anteriores ajustan modelos generativos 2D para modelar conjuntamente las poses de cámara y las imágenes multivista. Sin embargo, estos métodos sufren de inestabilidad al extender modelos generativos 2D al modelado conjunto debido a la brecha de modalidad, lo que requiere modelos adicionales para estabilizar el entrenamiento y la inferencia. En este trabajo, proponemos una arquitectura y una estrategia de muestreo para modelar conjuntamente imágenes multivista y poses de cámara al ajustar un modelo de generación de videos. Nuestra idea central es una arquitectura de doble flujo que adjunta un modelo dedicado de generación de poses junto con un modelo preentrenado de generación de videos mediante bloques de comunicación, generando imágenes multivista y poses de cámara a través de flujos separados. Este diseño reduce la interferencia entre las modalidades de pose e imagen. Además, proponemos una estrategia de muestreo asíncrono que elimina el ruido de las poses de cámara más rápido que en las imágenes multivista, permitiendo que las poses rápidamente desruidadas condicionen la generación multivista, reduciendo la ambigüedad mutua y mejorando la consistencia multimodal. Entrenado en múltiples conjuntos de datos a gran escala del mundo real (RealEstate10K, MVImgNet, DL3DV-10K, ACID), VideoRFSplat supera a los métodos existentes de generación directa de texto a 3D que dependen en gran medida del refinamiento posterior mediante muestreo de destilación de puntuación, logrando resultados superiores sin dicho refinamiento.
Las herramientas de completado de código basadas en aprendizaje profundo (DL) han transformado el desarrollo de software al permitir la generación avanzada de código. Estas herramientas aprovechan modelos entrenados con grandes cantidades de código provenientes de numerosos repositorios, capturando patrones generales de programación. Sin embargo, el impacto de ajustar finamente estos modelos para organizaciones o desarrolladores específicos con el fin de mejorar su rendimiento en dichos contextos sigue sin explorarse. En este trabajo, abordamos esta brecha presentando evidencia empírica sólida que responde a esta pregunta. Más específicamente, consideramos 136 desarrolladores de dos organizaciones (Apache y Spring), dos arquitecturas de modelos (T5 y Code Llama) y tres tamaños de modelos (60M, 750M y 7B parámetros entrenables). Los modelos T5 (60M, 750M) fueron preentrenados y ajustados finamente en más de 2,000 proyectos de código abierto, excluyendo los datos de las organizaciones estudiadas, y se compararon con versiones ajustadas finamente en conjuntos de datos específicos de la organización y del desarrollador. Para el modelo Code Llama (7B), comparamos el rendimiento del modelo preentrenado disponible públicamente en línea con el mismo modelo ajustado finamente mediante ajuste fino eficiente en parámetros en conjuntos de datos específicos de la organización y del desarrollador. Nuestros resultados muestran que existe una mejora en las capacidades de predicción proporcionada tanto por un ajuste fino adicional específico de la organización como del desarrollador, siendo el primero particularmente eficiente. Este hallazgo se generaliza tanto en (i) las dos organizaciones estudiadas (es decir, Apache y Spring) como en (ii) modelos de magnitudes completamente diferentes (desde 60M hasta 7B parámetros entrenables). Finalmente, demostramos que los modelos DL ajustados finamente en un conjunto de datos específico de la organización logran el mismo rendimiento de completado que los modelos de código preentrenados utilizados sin ajustes y que son aproximadamente 10 veces más grandes, lo que conlleva ahorros en términos de costos de implementación e inferencia (por ejemplo, GPUs más pequeñas necesarias).
La generación de descripciones de imágenes ha sido durante mucho tiempo una tarea fundamental en la comprensión visual, y los avances recientes en los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han mejorado significativamente la capacidad de generar descripciones detalladas de imágenes. Sin embargo, la evaluación de estas descripciones detalladas sigue siendo poco explorada debido a métricas de evaluación obsoletas y anotaciones poco precisas. En este artículo, presentamos DeCapBench junto con una nueva métrica, DCScore, diseñada específicamente para tareas de descripción detallada. DCScore evalúa las alucinaciones y la exhaustividad a nivel de detalle al descomponer las respuestas en las unidades más pequeñas y autosuficientes, denominadas unidades primitivas de información, y evaluarlas individualmente. Nuestra evaluación muestra que DCScore se alinea más estrechamente con el juicio humano que otras métricas basadas en reglas o modelos. Al mismo tiempo, DeCapBench exhibe una alta correlación con los resultados de la arena VLM en tareas descriptivas, superando los puntos de referencia existentes para modelos de visión y lenguaje. Además, presentamos un método automático de recopilación de retroalimentación detallada, FeedQuill, para la optimización de preferencias basado en nuestra métrica avanzada, mostrando capacidades robustas de generalización en datos de preferencia generados automáticamente. Experimentos extensos en múltiples VLMs demuestran que nuestro método no solo reduce significativamente las alucinaciones, sino que también mejora el rendimiento en varios puntos de referencia, logrando un desempeño superior en la generación de descripciones detalladas y superando a GPT-4o.
Este artículo presenta el Conjunto de Datos de Humor Engañoso (Deceptive Humor Dataset, DHD), un recurso novedoso para estudiar el humor derivado de afirmaciones fabricadas y desinformación. En una era de desinformación desenfrenada, comprender cómo el humor se entrelaza con el engaño es esencial. El DHD consiste en comentarios impregnados de humor generados a partir de narrativas falsas, incorporando afirmaciones fabricadas e información manipulada utilizando el modelo ChatGPT-4o. Cada instancia está etiquetada con un Nivel de Sátira, que va desde 1 para sátira sutil hasta 3 para sátira de alto nivel, y se clasifica en cinco categorías de humor distintas: Humor Negro, Ironía, Comentario Social, Juego de Palabras y Absurdo. El conjunto de datos abarca múltiples idiomas, incluidos inglés, telugu, hindi, kannada, tamil y sus variantes de código mixto (Te-En, Hi-En, Ka-En, Ta-En), lo que lo convierte en un valioso punto de referencia multilingüe. Al introducir el DHD, establecemos una base estructurada para analizar el humor en contextos engañosos, allanando el camino para una nueva dirección de investigación que explora cómo el humor no solo interactúa con la desinformación, sino que también influye en su percepción y propagación. Establecemos líneas de base sólidas para el conjunto de datos propuesto, proporcionando una base para que futuras investigaciones establezcan puntos de referencia y avancen en los modelos de detección de humor engañoso.
El preentrenamiento autosupervisado basado en la predicción del siguiente token ha permitido que los modelos de lenguaje a gran escala capturen la estructura subyacente del texto, lo que ha llevado a un rendimiento sin precedentes en una amplia variedad de tareas cuando se aplica a gran escala. De manera similar, la conducción autónoma genera grandes cantidades de datos espacio-temporales, sugiriendo la posibilidad de aprovechar la escala para aprender la estructura geométrica y semántica subyacente del entorno y su evolución en el tiempo. En esta dirección, proponemos un método de preentrenamiento autosupervisado geométrico y semántico, GASP, que aprende una representación unificada al predecir, en cualquier punto futuro consultado en el espacio-tiempo: (1) la ocupación general, capturando la estructura evolutiva de la escena 3D; (2) la ocupación del ego, modelando la trayectoria del vehículo ego a través del entorno; y (3) características de alto nivel destiladas de un modelo fundacional de visión. Al modelar campos de ocupación geométrica y semántica en 4D en lugar de mediciones brutas de sensores, el modelo aprende una representación estructurada y generalizable del entorno y su evolución en el tiempo. Validamos GASP en múltiples benchmarks de conducción autónoma, demostrando mejoras significativas en la predicción de ocupación semántica, mapeo en línea y predicción de la trayectoria del ego. Nuestros resultados muestran que la predicción continua de ocupación geométrica y semántica en 4D proporciona un paradigma de preentrenamiento escalable y efectivo para la conducción autónoma. Para el código y visualizaciones adicionales, consulte \href{https://research.zenseact.com/publications/gasp/.
Con el auge de la IA generativa, la síntesis de figuras a partir de descripciones textuales se convierte en una aplicación atractiva. Sin embargo, lograr una alta precisión geométrica y editabilidad requiere representar las figuras como programas gráficos en lenguajes como TikZ, y los datos de entrenamiento alineados (es decir, programas gráficos con descripciones) siguen siendo escasos. Mientras tanto, grandes cantidades de programas gráficos no alineados e imágenes rasterizadas con descripciones están más fácilmente disponibles. Reconciliamos estas fuentes de datos dispares presentando TikZero, que desacopla la generación de programas gráficos de la comprensión de texto utilizando representaciones de imágenes como un puente intermedio. Esto permite el entrenamiento independiente en programas gráficos e imágenes con descripciones, y posibilita la síntesis de programas gráficos guiada por texto en modo zero-shot durante la inferencia. Demostramos que nuestro método supera sustancialmente a los enfoques basales que solo pueden operar con programas gráficos alineados con descripciones. Además, al aprovechar los programas gráficos alineados con descripciones como una señal de entrenamiento complementaria, TikZero iguala o supera el rendimiento de modelos mucho más grandes, incluyendo sistemas comerciales como GPT-4o. Nuestro código, conjuntos de datos y modelos seleccionados están disponibles públicamente.
El cumplimiento de los tratamientos prescritos es crucial para las personas con condiciones crónicas, ya que ayuda a evitar resultados de salud costosos o adversos. Para ciertos grupos de pacientes, las intervenciones intensivas en el estilo de vida son fundamentales para mejorar la adherencia a la medicación. La predicción precisa de la adherencia al tratamiento puede abrir vías para el desarrollo de una herramienta de intervención bajo demanda, permitiendo un apoyo oportuno y personalizado. Con la creciente popularidad de los teléfonos inteligentes y los dispositivos portátiles, ahora es más fácil que nunca desarrollar e implementar sistemas inteligentes de monitoreo de actividades. Sin embargo, los sistemas efectivos de predicción de adherencia al tratamiento basados en sensores portátiles aún no están ampliamente disponibles. Cerramos esta brecha proponiendo Adherence Forecasting and Intervention with Machine Intelligence (AIMI). AIMI es un sistema de predicción de adherencia guiado por conocimiento que aprovecha los sensores de los teléfonos inteligentes y el historial previo de medicación para estimar la probabilidad de olvidar tomar un medicamento prescrito. Se realizó un estudio de usuario con 27 participantes que tomaban medicamentos diarios para controlar sus enfermedades cardiovasculares. Diseñamos y desarrollamos modelos de predicción basados en CNN y LSTM con varias combinaciones de características de entrada y encontramos que los modelos LSTM pueden predecir la adherencia a la medicación con una precisión de 0.932 y un puntaje F-1 de 0.936. Además, a través de una serie de estudios de ablación que involucran arquitecturas de redes neuronales convolucionales y recurrentes, demostramos que aprovechar el conocimiento conocido sobre el futuro y el entrenamiento personalizado mejora la precisión de la predicción de adherencia a la medicación. Código disponible: https://github.com/ab9mamun/AIMI.