Artículos de investigación en IA seleccionados diariamente con traducciones
El modelado autoregresivo de contexto largo ha avanzado significativamente la generación de lenguaje, pero la generación de videos aún lucha por aprovechar completamente los contextos temporales extendidos. Para investigar el modelado de videos de contexto largo, presentamos Frame AutoRegressive (FAR), una línea base sólida para el modelado autoregresivo de videos. Así como los modelos de lenguaje aprenden dependencias causales entre tokens (es decir, Token AR), FAR modela dependencias causales temporales entre fotogramas continuos, logrando una mejor convergencia que Token AR y los transformadores de difusión de video. Basándonos en FAR, observamos que el modelado visual de contexto largo enfrenta desafíos debido a la redundancia visual. El RoPE existente carece de un decaimiento temporal efectivo para contextos remotos y no extrapola bien a secuencias de video largas. Además, entrenar en videos largos es computacionalmente costoso, ya que los tokens visuales crecen mucho más rápido que los tokens de lenguaje. Para abordar estos problemas, proponemos equilibrar la localidad y la dependencia de largo alcance. Introducimos FlexRoPE, una técnica en tiempo de prueba que añade un decaimiento temporal flexible a RoPE, permitiendo la extrapolación a contextos visuales 16 veces más largos. Además, proponemos el modelado de contexto a corto y largo plazo, donde una ventana de contexto a corto plazo de alta resolución asegura una consistencia temporal detallada, mientras que una ventana de contexto a largo plazo ilimitada codifica información de largo alcance utilizando menos tokens. Con este enfoque, podemos entrenar en secuencias de video largas con una longitud de contexto de tokens manejable. Demostramos que FAR alcanza un rendimiento de vanguardia tanto en la generación de videos cortos como largos, proporcionando una línea base simple pero efectiva para el modelado autoregresivo de videos.
La percepción de alta resolución de detalles visuales es crucial para las tareas diarias. Sin embargo, el pre-entrenamiento visual actual todavía está limitado a bajas resoluciones (por ejemplo, 378 x 378 píxeles) debido al costo cuadrático de procesar imágenes más grandes. Presentamos PS3, que escala el pre-entrenamiento visual al estilo CLIP a una resolución 4K con un costo casi constante. En lugar de aprendizaje contrastivo en la representación global de la imagen, PS3 se pre-entrena procesando selectivamente regiones locales y contrastándolas con descripciones detalladas locales, permitiendo el aprendizaje de representaciones de alta resolución con un costo computacional significativamente reducido. El modelo pre-entrenado PS3 es capaz tanto de codificar la imagen global en baja resolución como de procesar selectivamente regiones locales de alta resolución basándose en su relevancia o prominencia respecto a un texto de entrada. Al aplicar PS3 a un modelo de lenguaje multimodal (MLLM), el modelo resultante, denominado VILA-HD, mejora significativamente la percepción visual de alta resolución en comparación con líneas base sin pre-entrenamiento visual de alta resolución, como AnyRes y S^2, mientras utiliza hasta 4.3 veces menos tokens. PS3 también desbloquea propiedades de escalabilidad atractivas en VILA-HD, incluyendo la escalabilidad gratuita de la resolución y la escalabilidad del cómputo en tiempo de prueba para un mejor rendimiento. En comparación con los modelos más avanzados, VILA-HD supera a MLLMs anteriores como NVILA y Qwen2-VL en múltiples benchmarks y logra una mejor eficiencia que los últimos enfoques de poda de tokens. Finalmente, observamos que los benchmarks actuales no requieren percepción a resolución 4K, lo que nos motiva a proponer 4KPro, un nuevo benchmark de preguntas y respuestas sobre imágenes a resolución 4K, en el cual VILA-HD supera a todos los MLLMs anteriores, incluyendo una mejora del 14.5% sobre GPT-4o y una mejora del 3.2% con una aceleración de 2.96x sobre Qwen2-VL.
Proponemos un enfoque de escalado en tiempo de inferencia para modelos de flujo preentrenados. Recientemente, el escalado en tiempo de inferencia ha ganado una atención significativa en los LLM y modelos de difusión, mejorando la calidad de las muestras o alineando mejor las salidas con las preferencias del usuario al aprovechar cálculos adicionales. Para los modelos de difusión, el muestreo de partículas ha permitido un escalado más eficiente debido a la estocasticidad en los pasos intermedios de eliminación de ruido. Por el contrario, aunque los modelos de flujo han ganado popularidad como una alternativa a los modelos de difusión—ofreciendo una generación más rápida y salidas de alta calidad en modelos generativos de imágenes y videos de última generación—los métodos eficientes de escalado en tiempo de inferencia utilizados para modelos de difusión no pueden aplicarse directamente debido a su proceso generativo determinista. Para habilitar un escalado eficiente en tiempo de inferencia para modelos de flujo, proponemos tres ideas clave: 1) Generación basada en EDE, permitiendo el muestreo de partículas en modelos de flujo, 2) Conversión de interpolantes, ampliando el espacio de búsqueda y mejorando la diversidad de muestras, y 3) Forzado de Presupuesto de Rollover (RBF), una asignación adaptativa de recursos computacionales a lo largo de los pasos de tiempo para maximizar la utilización del presupuesto. Nuestros experimentos muestran que la generación basada en EDE, particularmente la generación basada en interpolantes de preservación de varianza (VP), mejora el rendimiento de los métodos de muestreo de partículas para el escalado en tiempo de inferencia en modelos de flujo. Además, demostramos que RBF con EDE-VP logra el mejor rendimiento, superando a todos los enfoques previos de escalado en tiempo de inferencia.
La alucinación de los modelos multimodales grandes (LMMs, por sus siglas en inglés), que proporcionan respuestas que parecen correctas pero en realidad son incorrectas, limita su confiabilidad y aplicabilidad. Este artículo tiene como objetivo estudiar el problema de la alucinación de los LMMs en la modalidad de video, la cual es dinámica y más desafiante en comparación con modalidades estáticas como imágenes y texto. Motivados por esto, primero presentamos un benchmark integral denominado HAVEN para evaluar las alucinaciones de los LMMs en tareas de comprensión de video. Este se construye sobre tres dimensiones: causas de la alucinación, aspectos de la alucinación y formatos de preguntas, resultando en 6K preguntas. Luego, estudiamos cuantitativamente 7 factores influyentes en las alucinaciones, como la duración de los videos, el tamaño de los modelos y el razonamiento del modelo, mediante experimentos con 16 LMMs en el benchmark presentado. Además, inspirados por modelos de pensamiento recientes como OpenAI o1, proponemos un modelo de pensamiento de video para mitigar las alucinaciones de los LMMs mediante ajuste fino supervisado de razonamiento (SRFT, por sus siglas en inglés) y optimización directa de preferencias (TDPO, por sus siglas en inglés), donde SRFT mejora las capacidades de razonamiento mientras que TDPO reduce las alucinaciones en el proceso de pensamiento. Experimentos y análisis extensos demuestran su efectividad. Notablemente, mejora la línea base en un 7.65% en precisión en la evaluación de alucinaciones y reduce el puntaje de sesgo en un 4.5%. El código y los datos están disponibles públicamente en https://github.com/Hongcheng-Gao/HAVEN.
Los modelos de visión preentrenados (VFMs, por sus siglas en inglés) ofrecen representaciones visuales robustas para una amplia gama de aplicaciones. En este artículo, realizamos un preentrenamiento continuo de los VFMs predominantes de manera multimodal, de modo que puedan procesar sin esfuerzo entradas visuales de diversos tamaños y generar representaciones visuales más alineadas con las representaciones lingüísticas, independientemente de su proceso de preentrenamiento original. Para ello, presentamos CoMP, una pipeline de preentrenamiento multimodal cuidadosamente diseñada. CoMP utiliza una Incrustación de Posición Rotatoria Continua para soportar el preentrenamiento continuo en resolución nativa, y una Pérdida de Alineación entre características visuales y textuales a través de prototipos lingüísticos para alinear las representaciones multimodales. Mediante un entrenamiento en tres etapas, nuestros VFMs logran mejoras notables no solo en la comprensión multimodal, sino también en otras tareas posteriores como la clasificación y la segmentación. Destacablemente, CoMP-SigLIP alcanza puntuaciones de 66.7 en ChartQA y 75.9 en DocVQA con un LLM de 0.5B, manteniendo una precisión del 87.4% en ImageNet-1K y un 49.5 mIoU en ADE20K bajo evaluación de fragmentos congelados.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs), como OpenAI-o1 y DeepSeek-R1, han demostrado la eficacia del escalado en tiempo de prueba, donde los procesos de razonamiento extendido mejoran sustancialmente el rendimiento del modelo. A pesar de esto, los modelos actuales están limitados por dificultades en el manejo de textos largos y la eficiencia del entrenamiento con aprendizaje por refuerzo (RL). Para abordar estos problemas, proponemos un enfoque simple pero efectivo de escalado en tiempo de prueba llamado Pensamiento Multironda. Este método refina iterativamente el razonamiento del modelo aprovechando las respuestas anteriores como indicaciones para rondas posteriores. Experimentos extensos en múltiples modelos, incluyendo QwQ-32B y DeepSeek-R1, muestran consistentemente mejoras en el rendimiento en varios benchmarks como AIME 2024, MATH-500, GPQA-diamond y LiveCodeBench. Por ejemplo, la precisión de QwQ-32B mejoró del 80.3% (Ronda 1) al 82.1% (Ronda 2) en el conjunto de datos AIME 2024, mientras que DeepSeek-R1 mostró un aumento similar del 79.7% al 82.0%. Estos resultados confirman que el Pensamiento Multironda es un enfoque ampliamente aplicable y sencillo para lograr mejoras estables en el rendimiento del modelo, destacando su potencial para futuros desarrollos en técnicas de escalado en tiempo de prueba. La indicación clave: {Indicación original de la pregunta} La respuesta anterior del asistente es: <respuesta> {respuesta de la última ronda} </respuesta>, y por favor responda de nuevo.
Con el rápido avance de las tecnologías de Contenido Generado por Inteligencia Artificial (AIGC), las imágenes sintéticas se han vuelto cada vez más frecuentes en la vida cotidiana, planteando nuevos desafíos para la evaluación y detección de autenticidad. A pesar de la eficacia de los métodos existentes para evaluar la autenticidad de las imágenes y localizar falsificaciones, estos enfoques a menudo carecen de interpretabilidad humana y no abordan completamente la creciente complejidad de los datos sintéticos. Para enfrentar estos desafíos, presentamos FakeVLM, un modelo multimodal grande especializado diseñado tanto para la detección general de imágenes sintéticas como para tareas de DeepFake. FakeVLM no solo destaca en distinguir imágenes reales de falsas, sino que también proporciona explicaciones claras en lenguaje natural sobre los artefactos de las imágenes, mejorando la interpretabilidad. Además, presentamos FakeClue, un conjunto de datos integral que contiene más de 100,000 imágenes en siete categorías, anotadas con pistas detalladas de artefactos en lenguaje natural. FakeVLM demuestra un rendimiento comparable a los modelos expertos mientras elimina la necesidad de clasificadores adicionales, convirtiéndolo en una solución robusta para la detección de datos sintéticos. Evaluaciones exhaustivas en múltiples conjuntos de datos confirman la superioridad de FakeVLM tanto en tareas de clasificación de autenticidad como en la explicación de artefactos, estableciendo un nuevo estándar en la detección de imágenes sintéticas. El conjunto de datos y el código serán publicados en: https://github.com/opendatalab/FakeVLM.
La Respuesta a Preguntas sobre Documentos (Document Question Answering, DocQA) es una tarea muy común. Los métodos existentes que utilizan Modelos de Lenguaje de Gran Escala (Large Language Models, LLMs) o Modelos de Lenguaje y Visión de Gran Escala (Large Vision Language Models, LVLMs) junto con Generación Aumentada por Recuperación (Retrieval Augmented Generation, RAG) suelen priorizar la información de una sola modalidad, sin integrar de manera efectiva las señales textuales y visuales. Estos enfoques tienen dificultades con el razonamiento multimodal complejo, lo que limita su rendimiento en documentos del mundo real. Presentamos MDocAgent (Un Marco de Multiagentes Multimodal para la Comprensión de Documentos), un novedoso marco RAG y multiagente que aprovecha tanto el texto como la imagen. Nuestro sistema emplea cinco agentes especializados: un agente general, un agente crítico, un agente de texto, un agente de imagen y un agente de resumen. Estos agentes participan en la recuperación de contexto multimodal, combinando sus conocimientos individuales para lograr una comprensión más completa del contenido del documento. Este enfoque colaborativo permite al sistema sintetizar información tanto de los componentes textuales como visuales, lo que conduce a una mayor precisión en la respuesta a preguntas. Los experimentos preliminares en cinco puntos de referencia como MMLongBench y LongDocURL demuestran la efectividad de nuestro MDocAgent, logrando una mejora promedio del 12.1% en comparación con el método más avanzado actual. Este trabajo contribuye al desarrollo de sistemas DocQA más robustos y completos, capaces de manejar las complejidades de los documentos del mundo real que contienen información textual y visual rica. Nuestros datos y código están disponibles en https://github.com/aiming-lab/MDocAgent.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en razonamiento, ejemplificado por el éxito de OpenAI-o1 y DeepSeek-R1. Sin embargo, integrar el razonamiento con procesos de búsqueda externa sigue siendo un desafío, especialmente para preguntas complejas de múltiples saltos que requieren varios pasos de recuperación. Proponemos ReSearch, un marco novedoso que entrena a los LLMs a Razonar con Búsqueda mediante aprendizaje por refuerzo sin utilizar datos supervisados sobre los pasos de razonamiento. Nuestro enfoque trata las operaciones de búsqueda como componentes integrales de la cadena de razonamiento, donde cuándo y cómo realizar búsquedas es guiado por el pensamiento basado en texto, y los resultados de búsqueda influyen posteriormente en el razonamiento adicional. Entrenamos ReSearch en los modelos Qwen2.5-7B(-Instruct) y Qwen2.5-32B(-Instruct) y realizamos experimentos extensivos. A pesar de ser entrenados en solo un conjunto de datos, nuestros modelos demuestran una fuerte generalización en varios puntos de referencia. El análisis revela que ReSearch naturalmente induce capacidades avanzadas de razonamiento, como la reflexión y la autocorrección, durante el proceso de aprendizaje por refuerzo.
La Recuperación de Imágenes Compuestas (CIR, por sus siglas en inglés) es una tarea compleja que busca recuperar imágenes basadas en una consulta multimodal. Los datos de entrenamiento típicos consisten en tripletas que contienen una imagen de referencia, una descripción textual de las modificaciones deseadas y la imagen objetivo, cuya adquisición es costosa y consume mucho tiempo. La escasez de conjuntos de datos de CIR ha llevado a enfoques de cero disparos que utilizan tripletas sintéticas o aprovechan modelos de visión y lenguaje (VLMs) con pares de imágenes y leyendas obtenidos de la web. Sin embargo, estos métodos tienen limitaciones significativas: las tripletas sintéticas sufren de escala limitada, falta de diversidad y textos de modificación poco naturales, mientras que los pares de imágenes y leyendas dificultan el aprendizaje conjunto de incrustaciones de la consulta multimodal debido a la ausencia de datos de tripletas. Además, los enfoques existentes luchan con textos de modificación complejos y matizados que exigen una fusión y comprensión sofisticada de las modalidades de visión y lenguaje. Presentamos CoLLM, un marco integral que aborda eficazmente estas limitaciones. Nuestro enfoque genera tripletas sobre la marcha a partir de pares de imágenes y leyendas, permitiendo el entrenamiento supervisado sin anotación manual. Aprovechamos los Modelos de Lenguaje de Gran Escala (LLMs) para generar incrustaciones conjuntas de imágenes de referencia y textos de modificación, facilitando una fusión multimodal más profunda. Adicionalmente, introducimos Multi-Text CIR (MTCIR), un conjunto de datos a gran escala que comprende 3.4 millones de muestras, y refinamos los puntos de referencia existentes de CIR (CIRR y Fashion-IQ) para mejorar la fiabilidad de la evaluación. Los resultados experimentales demuestran que CoLLM alcanza un rendimiento de vanguardia en múltiples puntos de referencia y configuraciones de CIR. MTCIR produce resultados competitivos, con mejoras de rendimiento de hasta un 15%. Nuestros puntos de referencia refinados proporcionan métricas de evaluación más confiables para los modelos de CIR, contribuyendo al avance de este importante campo.
En este artículo, proponemos LSRNA, un marco novedoso para la generación de imágenes de alta resolución (superior a 1K) utilizando modelos de difusión mediante el aprovechamiento de la super-resolución directamente en el espacio latente. Los modelos de difusión existentes tienen dificultades para escalar más allá de sus resoluciones de entrenamiento, lo que a menudo resulta en distorsiones estructurales o repetición de contenido. Los métodos basados en referencia abordan estos problemas aumentando la resolución de una referencia de baja resolución para guiar la generación de mayor resolución. Sin embargo, enfrentan desafíos significativos: el aumento de resolución en el espacio latente a menudo causa desviación de la variedad, lo que degrada la calidad de la salida. Por otro lado, el aumento de resolución en el espacio RGB tiende a producir salidas demasiado suavizadas. Para superar estas limitaciones, LSRNA combina Super-Resolución en el Espacio Latente (LSR) para la alineación de la variedad y Adición de Ruido por Regiones (RNA) para mejorar los detalles de alta frecuencia. Nuestros extensos experimentos demuestran que la integración de LSRNA supera a los métodos basados en referencia más avanzados en varias resoluciones y métricas, mientras muestra el papel crítico del aumento de resolución en el espacio latente para preservar el detalle y la nitidez. El código está disponible en https://github.com/3587jjh/LSRNA.
El descubrimiento y recopilación de conocimiento son tareas intensivas en inteligencia que tradicionalmente requieren un esfuerzo humano significativo para garantizar resultados de alta calidad. Investigaciones recientes han explorado marcos de trabajo multiagente para automatizar la generación de artículos al estilo de Wikipedia mediante la recuperación y síntesis de información de internet. Sin embargo, estos métodos se centran principalmente en la generación de solo texto, pasando por alto la importancia del contenido multimodal para mejorar la informatividad y el atractivo. En este trabajo, presentamos WikiAutoGen, un sistema novedoso para la generación automatizada de artículos multimodales al estilo de Wikipedia. A diferencia de enfoques anteriores, WikiAutoGen recupera e integra imágenes relevantes junto con texto, enriqueciendo tanto la profundidad como el atractivo visual del contenido generado. Para mejorar aún más la precisión factual y la exhaustividad, proponemos un mecanismo de autorreflexión multiperspectiva, que evalúa críticamente el contenido recuperado desde diversos puntos de vista para mejorar la fiabilidad, amplitud y coherencia, entre otros aspectos. Además, introducimos WikiSeek, un benchmark que comprende artículos de Wikipedia con temas emparejados con representaciones tanto textuales como basadas en imágenes, diseñado para evaluar la generación de conocimiento multimodal en temas más desafiantes. Los resultados experimentales muestran que WikiAutoGen supera a los métodos anteriores en un 8%-29% en nuestro benchmark WikiSeek, produciendo artículos al estilo de Wikipedia más precisos, coherentes y visualmente enriquecidos. Mostramos algunos de nuestros ejemplos generados en https://wikiautogen.github.io/.
Los modelos fundamentales generativos de video actuales se centran principalmente en tareas de texto a video, ofreciendo un control limitado para la creación de contenido de video detallado. Aunque los enfoques basados en adaptadores (por ejemplo, ControlNet) permiten controles adicionales con un ajuste fino mínimo, enfrentan desafíos al integrar múltiples condiciones, incluyendo: conflictos entre ramas de adaptadores entrenados de forma independiente, redundancia de parámetros que conduce a un mayor costo computacional y un rendimiento subóptimo en comparación con el ajuste fino completo. Para abordar estos desafíos, presentamos FullDiT, un modelo fundamental unificado para la generación de video que integra perfectamente múltiples condiciones mediante mecanismos de atención completa unificados. Al fusionar condiciones de múltiples tareas en una representación de secuencia unificada y aprovechar la capacidad de aprendizaje de contexto largo de la auto-atención completa para capturar la dinámica de las condiciones, FullDiT reduce la sobrecarga de parámetros, evita conflictos entre condiciones y muestra escalabilidad y capacidad emergente. Además, introducimos FullBench para la evaluación de generación de video en múltiples tareas. Los experimentos demuestran que FullDiT alcanza resultados de vanguardia, destacando la eficacia de la atención completa en la generación de video compleja con múltiples tareas.
La generación de vistas en 360 grados de alta calidad de cabezas humanas a partir de imágenes de una sola vista es esencial para habilitar aplicaciones inmersivas de telepresencia accesibles y la creación escalable de contenido personalizado. Si bien los métodos más avanzados para la generación completa de cabezas se limitan a modelar cabezas humanas realistas, los últimos enfoques basados en difusión para la síntesis de cabezas omniscientes en estilo solo pueden producir vistas frontales y tienen dificultades con la consistencia de las vistas, lo que impide su conversión en verdaderos modelos 3D para su renderización desde ángulos arbitrarios. Introducimos un enfoque novedoso que genera vistas de cabezas en 360 grados completamente consistentes, adaptándose a formas humanas, estilizadas y antropomórficas, incluyendo accesorios como gafas y sombreros. Nuestro método se basa en el marco DiffPortrait3D, incorporando un ControlNet personalizado para la generación de detalles de la parte posterior de la cabeza y un módulo de apariencia dual para garantizar la consistencia global entre la parte frontal y posterior. Al entrenar en secuencias de vistas continuas e integrar una imagen de referencia posterior, nuestro enfoque logra una síntesis de vistas robusta y localmente continua. Nuestro modelo puede utilizarse para producir campos de radiancia neural (NeRFs) de alta calidad para la renderización en tiempo real desde cualquier punto de vista, superando a los métodos más avanzados en síntesis de objetos y generación de cabezas en 360 grados para retratos de entrada muy desafiantes.
La generación de escenas con activos 3D presenta un desafío complejo, que requiere tanto una comprensión semántica de alto nivel como un razonamiento geométrico de bajo nivel. Si bien los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) sobresalen en tareas semánticas, su aplicación a la generación de escenas 3D se ve limitada por su escaso fundamento en la geometría 3D. En este artículo, investigamos cómo trabajar de manera óptima con MLLMs en una tarea de colocación de objetos. Con este objetivo, presentamos un marco novedoso, FirePlace, que aplica MLLMs existentes en (1) el razonamiento geométrico 3D y la extracción de detalles geométricos relevantes de la escena 3D, (2) la construcción y resolución de restricciones geométricas sobre la geometría de bajo nivel extraída, y (3) la poda para obtener colocaciones finales que se ajusten al sentido común. Al combinar el razonamiento geométrico con la comprensión del mundo real de los MLLMs, nuestro método puede proponer colocaciones de objetos que satisfacen tanto las restricciones geométricas como las consideraciones semánticas de alto nivel basadas en el sentido común. Nuestros experimentos muestran que estas capacidades permiten que nuestro método coloque objetos de manera más efectiva en escenas complejas con geometría intrincada, superando la calidad de trabajos previos.
La creación de un gemelo digital físico de un objeto del mundo real tiene un potencial inmenso en robótica, creación de contenido y realidad extendida (XR). En este artículo, presentamos PhysTwin, un marco novedoso que utiliza videos escasos de objetos dinámicos bajo interacción para producir una réplica virtual interactiva en tiempo real, fotorealista y físicamente realista. Nuestro enfoque se centra en dos componentes clave: (1) una representación informada por la física que combina modelos de masa-resorte para simulación física realista, modelos generativos de formas para la geometría y splats gaussianos para el renderizado; y (2) un marco novedoso de modelado inverso basado en optimización en múltiples etapas que reconstruye la geometría completa, infiere propiedades físicas densas y replica la apariencia realista a partir de videos. Nuestro método integra un marco de física inversa con señales de percepción visual, permitiendo una reconstrucción de alta fidelidad incluso desde perspectivas parciales, ocluidas y limitadas. PhysTwin admite el modelado de diversos objetos deformables, incluyendo cuerdas, peluches, telas y paquetes de entrega. Los experimentos muestran que PhysTwin supera a los métodos competidores en reconstrucción, renderizado, predicción futura y simulación bajo nuevas interacciones. Además, demostramos sus aplicaciones en simulación interactiva en tiempo real y planificación de movimientos robóticos basada en modelos.
El ajuste fino permite que los modelos de lenguaje de gran escala (LLMs) se adapten a dominios específicos, pero a menudo socava su alineación de seguridad previamente establecida. Para mitigar la degradación de la seguridad del modelo durante el ajuste fino, presentamos LookAhead Tuning, que comprende dos métodos simples, de bajo costo y efectivos basados en datos que modifican los datos de entrenamiento mediante la previsualización de prefijos parciales de respuestas. Ambos métodos buscan preservar los mecanismos de seguridad inherentes del modelo minimizando las perturbaciones en las distribuciones iniciales de tokens. Experimentos exhaustivos demuestran que LookAhead Tuning mantiene eficazmente la seguridad del modelo sin sacrificar el rendimiento robusto en tareas posteriores. Nuestros hallazgos posicionan a LookAhead Tuning como una solución confiable y eficiente para la adaptación segura y efectiva de los LLMs. El código está disponible en https://github.com/zjunlp/LookAheadTuning.
Los LLM modernos enfrentan dificultades con las actualizaciones eficientes, ya que cada nueva versión de modelo preentrenado requiere repetir costosos procesos de alineación. Este desafío también se aplica a los modelos específicos de dominio o idioma, donde el ajuste fino en datos especializados debe rehacerse para cada nueva versión del modelo base. En este artículo, exploramos la transferencia de actualizaciones de ajuste fino entre versiones de modelos. Específicamente, derivamos el vector de diferencias de una versión de modelo fuente, que representa los cambios en los pesos debido al ajuste fino, y lo aplicamos al modelo base de una versión objetivo diferente. A través de evaluaciones empíricas en varias versiones de modelos de código abierto, demostramos que la transferencia de vectores de diferencias puede mejorar significativamente el modelo base objetivo, logrando a menudo un rendimiento comparable a su contraparte ajustada. Por ejemplo, reutilizar las actualizaciones de ajuste fino de Llama 3.0 8B conduce a una mejora absoluta de precisión del 10.7% en GPQA sobre el modelo base Llama 3.1 8B sin entrenamiento adicional, superando a Llama 3.1 8B Instruct. En un entorno de desarrollo de modelos multilingües, mostramos que este enfoque puede aumentar significativamente el rendimiento en tareas de idioma objetivo sin reentrenamiento, logrando mejoras absolutas del 4.7% y 15.5% en Global MMLU para malgache y turco, respectivamente, en comparación con Llama 3.1 8B Instruct. Nuestros experimentos controlados revelan que la transferencia de ajuste fino es más efectiva cuando los modelos fuente y objetivo están conectados linealmente en el espacio de parámetros. Además, demostramos que la transferencia de ajuste fino ofrece un punto de partida más sólido y computacionalmente eficiente para un ajuste fino adicional. Finalmente, proponemos un enfoque iterativo de reciclaje-y-ajuste fino para el desarrollo continuo de modelos, que mejora tanto la eficiencia como la efectividad. Nuestros hallazgos sugieren que la transferencia de ajuste fino es una estrategia viable para reducir los costos de entrenamiento manteniendo el rendimiento del modelo.
Presentamos un método novedoso para reconstruir avatares 3D humanos personalizados con animación realista a partir de solo unas pocas imágenes. Debido a las grandes variaciones en formas corporales, poses y tipos de ropa, los métodos existentes generalmente requieren horas de optimización por sujeto durante la inferencia, lo que limita sus aplicaciones prácticas. En contraste, aprendemos un prior universal a partir de más de mil humanos vestidos para lograr una generación instantánea en modo feedforward y generalización zero-shot. Específicamente, en lugar de equipar el avatar con pesos de skinning compartidos, inferimos conjuntamente la forma del avatar personalizada, los pesos de skinning y las deformaciones dependientes de la pose, lo que mejora efectivamente la fidelidad geométrica general y reduce los artefactos de deformación. Además, para normalizar las variaciones de pose y resolver la ambigüedad acoplada entre las formas canónicas y los pesos de skinning, diseñamos un proceso de canonización 3D para producir condiciones iniciales alineadas por píxeles, lo que ayuda a reconstruir detalles geométricos finos. Luego proponemos una agregación de características multi-marco para reducir robustamente los artefactos introducidos en la canonización y fusionar un avatar plausible que preserve las identidades específicas de la persona. Finalmente, entrenamos el modelo en un marco end-to-end en un conjunto de datos de captura a gran escala, que contiene diversos sujetos humanos emparejados con escaneos 3D de alta calidad. Experimentos extensos muestran que nuestro método genera una reconstrucción y animación más auténticas que los métodos state-of-the-art, y puede generalizarse directamente a entradas de fotos tomadas casualmente con teléfonos. La página del proyecto y el código están disponibles en https://github.com/rongakowang/FRESA.
Los Modelos de Lenguaje de Gran Escala (LLMs) con ventanas de contexto largas permiten aplicaciones potentes, pero conllevan un alto consumo de memoria para almacenar los estados de Clave y Valor (KV-Cache). Estudios recientes han intentado fusionar el KV-cache de múltiples capas en representaciones compartidas, pero estos enfoques requieren un costoso preentrenamiento o se basan en suposiciones de alta similitud coseno por token entre capas, lo que generalmente no se cumple en la práctica. Descubrimos que los vectores singulares dominantes están notablemente alineados en múltiples capas del KV-Cache. Aprovechando esta idea, proponemos xKV, un método simple posentrenamiento que aplica la Descomposición en Valores Singulares (SVD) al KV-Cache de capas agrupadas. xKV consolida el KV-Cache de múltiples capas en un subespacio compartido de bajo rango, reduciendo significativamente el tamaño del KV-Cache. A través de evaluaciones exhaustivas en el benchmark de contexto largo RULER con LLMs ampliamente utilizados (por ejemplo, Llama-3.1 y Qwen2.5), xKV logra tasas de compresión hasta 6.8 veces superiores a la técnica intercapas más avanzada, mejorando la precisión en un 2.7%. Además, xKV es compatible con la emergente Atención Latente Multi-Cabeza (MLA) (por ejemplo, DeepSeek-Coder-V2), obteniendo una notable tasa de compresión de 3x en tareas de codificación sin degradación del rendimiento. Estos resultados destacan la fuerte capacidad y versatilidad de xKV para abordar los cuellos de botella de memoria en la inferencia de LLMs de contexto largo. Nuestro código está disponible públicamente en: https://github.com/abdelfattah-lab/xKV.
El emparejamiento de flujos en el símplex continuo ha surgido como una estrategia prometedora para el diseño de secuencias de ADN, pero enfrenta dificultades para escalar a dimensiones más altas del símplex requeridas para la generación de péptidos y proteínas. Introducimos Gumbel-Softmax Flow y Score Matching, un marco generativo en el símplex basado en un nuevo interpolante Gumbel-Softmax con una temperatura dependiente del tiempo. Utilizando este interpolante, presentamos Gumbel-Softmax Flow Matching al derivar un campo de velocidad parametrizado que transporta desde distribuciones categóricas suaves hacia distribuciones concentradas en un solo vértice del símplex. Alternativamente, presentamos Gumbel-Softmax Score Matching, que aprende a regresar el gradiente de la densidad de probabilidad. Nuestro marco permite una generación de alta calidad y diversa, y escala eficientemente a símplices de mayor dimensión. Para habilitar la guía sin entrenamiento, proponemos Straight-Through Guided Flows (STGFlow), un método de guía basado en clasificadores que aprovecha estimadores straight-through para dirigir el campo de velocidad incondicional hacia los vértices óptimos del símplex. STGFlow permite una guía eficiente en tiempo de inferencia utilizando clasificadores preentrenados en secuencias limpias, y puede usarse con cualquier método de flujo discreto. Juntos, estos componentes forman un marco robusto para la generación controlada de secuencias de novo. Demostramos un rendimiento de vanguardia en el diseño condicional de promotores de ADN, la generación de proteínas basada únicamente en secuencias, y el diseño de péptidos de unión a objetivos para el tratamiento de enfermedades raras.
La detección y seguimiento de múltiples vehículos aéreos no tripulados (UAVs) en video de infrarrojo térmico es inherentemente desafiante debido al bajo contraste, el ruido ambiental y los tamaños reducidos de los objetivos. Este artículo presenta un enfoque directo para abordar el seguimiento multi-UAV en video de infrarrojo térmico, aprovechando avances recientes en detección y seguimiento. En lugar de depender de la combinación de YOLOv5 con la canalización DeepSORT, proponemos un marco de seguimiento basado en YOLOv12 y BoT-SORT, mejorado con estrategias personalizadas de entrenamiento e inferencia. Evaluamos nuestro enfoque siguiendo las métricas del 4º Anti-UAV Challenge y demostramos un rendimiento competitivo. Destacamos que logramos resultados sólidos sin utilizar técnicas de mejora de contraste ni fusión de información temporal para enriquecer las características de los UAVs, lo que posiciona nuestro enfoque como una "Línea Base Fuerte" para la tarea de seguimiento multi-UAV. Proporcionamos detalles de implementación, un análisis experimental en profundidad y una discusión sobre posibles mejoras. El código está disponible en https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
La toma de decisiones encarnada es fundamental para los agentes de IA que operan en entornos del mundo real. Si bien los Modelos de Lenguaje Visual (VLMs) han avanzado esta capacidad, aún enfrentan dificultades con decisiones complejas, particularmente en situaciones centradas en humanos que requieren un razonamiento profundo sobre las necesidades y valores humanos. En este estudio, evaluamos sistemáticamente VLMs de código abierto en tareas de toma de decisiones multimodales centradas en humanos. Descubrimos que los LLMs que reciben solo descripciones textuales superan inesperadamente a sus contrapartes VLM de escala similar que procesan imágenes reales, lo que sugiere que la alineación visual puede obstaculizar las habilidades de los VLMs. Para abordar este desafío, proponemos un novedoso enfoque de entrenamiento basado únicamente en texto con datos textuales sintetizados. Este método fortalece los componentes lingüísticos de los VLMs y transfiere las habilidades aprendidas a la inferencia multimodal, eliminando la necesidad de datos costosos de pares imagen-texto. Además, demostramos que los VLMs pueden lograr mejoras sustanciales en el rendimiento mediante la auto-mejora, utilizando datos de entrenamiento generados por sus contrapartes LLM en lugar de depender de modelos maestros más grandes como GPT-4. Nuestros hallazgos establecen un enfoque más eficiente y escalable para mejorar las capacidades de toma de decisiones centradas en humanos de los VLMs, abriendo nuevas vías para optimizar los VLMs a través de mecanismos de auto-mejora.
Los avances en los modelos fundamentales de observación terrestre (EO, por sus siglas en inglés) han desbloqueado el potencial de los grandes datos satelitales para aprender representaciones genéricas desde el espacio, beneficiando una amplia gama de aplicaciones posteriores cruciales para nuestro planeta. Sin embargo, la mayoría de los esfuerzos existentes se limitan a sensores espectrales fijos, se centran únicamente en la superficie terrestre y pasan por alto metadatos valiosos más allá de las imágenes. En este trabajo, damos un paso hacia los modelos fundamentales de EO de próxima generación con tres componentes clave: 1) Copernicus-Pretrain, un conjunto de datos de preentrenamiento a gran escala que integra 18.7 millones de imágenes alineadas de todas las misiones principales de Copernicus Sentinel, abarcando desde la superficie terrestre hasta su atmósfera; 2) Copernicus-FM, un modelo fundamental unificado capaz de procesar cualquier modalidad de sensor espectral o no espectral utilizando hiperredes dinámicas extendidas y codificación flexible de metadatos; y 3) Copernicus-Bench, un punto de referencia de evaluación sistemática con 15 tareas posteriores jerárquicas que van desde el preprocesamiento hasta aplicaciones especializadas para cada misión Sentinel. Nuestro conjunto de datos, modelo y punto de referencia mejoran significativamente la escalabilidad, versatilidad y adaptabilidad multimodal de los modelos fundamentales de EO, al mismo tiempo que crean nuevas oportunidades para conectar la observación terrestre, el clima y la investigación meteorológica. Los códigos, conjuntos de datos y modelos están disponibles en https://github.com/zhu-xlab/Copernicus-FM.
Comprender el comportamiento humano requiere medir las acciones conductuales. Debido a su complejidad, el comportamiento se mapea mejor en una estructura semántica rica, como el lenguaje. El reciente desarrollo de modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) es un candidato prometedor para una amplia gama de tareas de comprensión de acciones. En este trabajo, nos enfocamos en evaluar y luego mejorar los MLLMs para realizar reconocimiento de acciones. Reformulamos EPIC-KITCHENS-100, uno de los conjuntos de datos de acciones egocéntricas más grandes y desafiantes, en la forma de preguntas múltiples sobre videos (EPIC-KITCHENS-100-MQA). Demostramos que, cuando se muestran respuestas incorrectas difíciles como distractores, los MLLMs líderes tienen dificultades para reconocer las acciones correctas. Proponemos una serie de métodos que mejoran significativamente la capacidad de los MLLMs para realizar reconocimiento de acciones, logrando un rendimiento de vanguardia tanto en el conjunto de validación de EPIC-KITCHENS-100 como superando a GPT-4o por 21 puntos en precisión en EPIC-KITCHENS-100-MQA. Por último, mostramos mejoras en otros puntos de referencia de video relacionados con acciones, como EgoSchema, PerceptionTest, LongVideoBench, VideoMME y MVBench, lo que sugiere que los MLLMs son un camino prometedor para tareas de acciones complejas. El código y los modelos están disponibles en: https://github.com/AdaptiveMotorControlLab/LLaVAction.
Presentamos Any6D, un marco libre de modelos para la estimación de la pose 6D de objetos que requiere únicamente una imagen RGB-D de referencia para estimar tanto la pose 6D como el tamaño de objetos desconocidos en escenas novedosas. A diferencia de los métodos existentes que dependen de modelos 3D texturizados o múltiples puntos de vista, Any6D aprovecha un proceso conjunto de alineación de objetos para mejorar la alineación 2D-3D y la estimación de escala métrica, logrando así una mayor precisión en la pose. Nuestro enfoque integra una estrategia de renderizado y comparación para generar y refinar hipótesis de pose, lo que permite un rendimiento robusto en escenarios con oclusiones, vistas no superpuestas, diversas condiciones de iluminación y grandes variaciones entre entornos. Evaluamos nuestro método en cinco conjuntos de datos desafiantes: REAL275, Toyota-Light, HO3D, YCBINEOAT y LM-O, demostrando su eficacia al superar significativamente a los métodos más avanzados en la estimación de la pose de objetos novedosos. Página del proyecto: https://taeyeop.com/any6d
Los modelos de visión-lenguaje (VLMs) muestran un gran potencial para la comprensión de escenas 3D, pero se aplican principalmente a espacios interiores o a la conducción autónoma, centrándose en tareas de bajo nivel como la segmentación. Este trabajo amplía su uso a entornos de escala urbana aprovechando reconstrucciones 3D a partir de imágenes aéreas multivista. Proponemos OpenCity3D, un enfoque que aborda tareas de alto nivel, como la estimación de densidad de población, la clasificación de la antigüedad de los edificios, la predicción del precio de las propiedades, la evaluación de las tasas de criminalidad y la medición de la contaminación acústica. Nuestros hallazgos destacan las impresionantes capacidades de OpenCity3D en escenarios de cero disparos y pocos disparos, demostrando su adaptabilidad a nuevos contextos. Esta investigación establece un nuevo paradigma para el análisis urbano impulsado por el lenguaje, permitiendo aplicaciones en planificación, políticas y monitoreo ambiental. Visite nuestra página del proyecto: opencity3d.github.io.
Los modelos de IA han logrado avances significativos en los últimos años en su capacidad para describir y responder preguntas sobre imágenes del mundo real. También han progresado en la habilidad de conversar con usuarios en tiempo real utilizando entrada de audio. Esto plantea la pregunta: ¿hemos llegado al punto en que los modelos de IA, conectados a una cámara y un micrófono, pueden conversar con usuarios en tiempo real sobre escenas y eventos que se desarrollan en vivo frente a la cámara? Este ha sido un objetivo de larga data en la IA y es un requisito previo para que los asistentes de IA del mundo real y los robots humanoides interactúen con los humanos en situaciones cotidianas. En este trabajo, presentamos un nuevo conjunto de datos y punto de referencia, el Conjunto de Datos de Video Interactivo de Qualcomm (IVD), que nos permite evaluar hasta qué punto los modelos existentes pueden respaldar estas habilidades y en qué medida estas capacidades pueden ser desarrolladas mediante ajustes finos. El conjunto de datos se basa en una configuración simple de preguntas y respuestas, donde los usuarios hacen preguntas que el sistema debe responder, en tiempo real, basándose en la entrada de la cámara y el audio. Demostramos que los modelos existentes están muy por detrás del rendimiento humano en esta tarea e identificamos las principales fuentes de esta brecha de rendimiento. Sin embargo, también mostramos que, para muchas de las habilidades perceptivas requeridas, el ajuste fino con este tipo de datos puede reducir significativamente esta brecha.
El uso de modelos docentes grandes para guiar el entrenamiento de modelos estudiantiles más pequeños se ha convertido en el paradigma predominante para un aprendizaje eficiente y efectivo. Sin embargo, los desajustes de vocabulario entre los modelos de lenguaje del docente y el estudiante plantean desafíos significativos en el modelado del lenguaje, lo que resulta en secuencias de tokens y distribuciones de salida divergentes. Para superar estas limitaciones, proponemos el Modelado de Lenguaje Guiado por Docente Agnóstico al Vocabulario (VocAgnoLM), un enfoque novedoso que cierra la brecha causada por el desajuste de vocabulario mediante dos métodos clave: (1) Alineación Léxica a Nivel de Token, que alinea las secuencias de tokens en vocabularios desajustados, y (2) Pérdida Guiada por el Docente, que aprovecha la pérdida del modelo docente para guiar un entrenamiento efectivo del estudiante. Demostramos su efectividad en el modelado del lenguaje con un modelo estudiantil de 1B utilizando varios modelos docentes de 7B con diferentes vocabularios. Notablemente, con Qwen2.5-Math-Instruct, un modelo docente que comparte solo alrededor del 6% de su vocabulario con TinyLlama, VocAgnoLM logra una mejora del 46% en el rendimiento en comparación con el preentrenamiento continuo ingenuo. Además, demostramos que VocAgnoLM se beneficia consistentemente de modelos docentes más fuertes, proporcionando una solución robusta a los desajustes de vocabulario en el modelado del lenguaje.
Si bien la Convolución Dinámica (DY-Conv) ha mostrado un rendimiento prometedor al permitir la selección adaptativa de pesos mediante múltiples pesos paralelos combinados con un mecanismo de atención, la respuesta en frecuencia de estos pesos tiende a exhibir una alta similitud, lo que resulta en altos costos de parámetros pero una adaptabilidad limitada. En este trabajo, presentamos la Convolución Dinámica en Frecuencia (FDConv), un enfoque novedoso que mitiga estas limitaciones al aprender un presupuesto fijo de parámetros en el dominio de Fourier. FDConv divide este presupuesto en grupos basados en frecuencia con índices de Fourier disjuntos, permitiendo la construcción de pesos diversos en frecuencia sin aumentar el costo de parámetros. Para mejorar aún más la adaptabilidad, proponemos la Modulación Espacial del Kernel (KSM) y la Modulación de Banda de Frecuencia (FBM). KSM ajusta dinámicamente la respuesta en frecuencia de cada filtro a nivel espacial, mientras que FBM descompone los pesos en bandas de frecuencia distintas en el dominio de frecuencia y las modula dinámicamente según el contenido local. Experimentos exhaustivos en detección de objetos, segmentación y clasificación validan la efectividad de FDConv. Demostramos que, cuando se aplica a ResNet-50, FDConv logra un rendimiento superior con un modesto aumento de +3.6M parámetros, superando métodos anteriores que requieren aumentos sustanciales en los presupuestos de parámetros (por ejemplo, CondConv +90M, KW +76.5M). Además, FDConv se integra sin problemas en una variedad de arquitecturas, incluyendo ConvNeXt y Swin-Transformer, ofreciendo una solución flexible y eficiente para tareas de visión modernas. El código está disponible públicamente en https://github.com/Linwei-Chen/FDConv.
Proponemos un método sin entrenamiento para la segmentación semántica de vocabulario abierto utilizando Modelos de Visión y Lenguaje (VLMs). Nuestro enfoque mejora las predicciones iniciales por parche de los VLMs mediante propagación de etiquetas, que optimiza conjuntamente las predicciones incorporando relaciones entre parches. Dado que los VLMs están principalmente optimizados para la alineación multimodal y no para la similitud intramodal, utilizamos un Modelo de Visión (VM) que se ha observado que captura mejor estas relaciones. Abordamos las limitaciones de resolución inherentes a los codificadores basados en parches aplicando la propagación de etiquetas a nivel de píxel como un paso de refinamiento, mejorando significativamente la precisión de la segmentación cerca de los límites de clase. Nuestro método, llamado LPOSS+, realiza inferencia sobre la imagen completa, evitando el procesamiento basado en ventanas y capturando así interacciones contextuales en toda la imagen. LPOSS+ logra un rendimiento de vanguardia entre los métodos sin entrenamiento, en un conjunto diverso de conjuntos de datos. Código: https://github.com/vladan-stojnic/LPOSS
El razonamiento espacio-temporal es esencial para comprender entornos del mundo real en diversos campos, como la conducción autónoma y el análisis deportivo. Los avances recientes han mejorado la capacidad de razonamiento espacial de los Modelos de Visión-Lenguaje (VLMs) mediante la introducción de datos a gran escala, pero estos modelos aún tienen dificultades para analizar elementos cinemáticos como la distancia recorrida y la velocidad de objetos en movimiento. Para cerrar esta brecha, construimos un conjunto de datos y un punto de referencia para el razonamiento espacio-temporal que involucra ajuste de instrucciones cinemáticas, denominados STKit y STKit-Bench. Estos consisten en videos del mundo real con anotaciones 3D que detallan la dinámica del movimiento de los objetos: distancia recorrida, velocidad, dirección de movimiento, comparaciones de distancia entre objetos y dirección de movimiento relativa. Para escalar aún más la construcción de tales datos a videos sin etiquetas 3D, proponemos una pipeline automática para generar pseudoetiquetas utilizando reconstrucción 4D a escala del mundo real. Con nuestros datos de ajuste de instrucciones cinemáticas para el razonamiento espacio-temporal, presentamos ST-VLM, un VLM mejorado para el razonamiento espacio-temporal, que exhibe un rendimiento sobresaliente en STKit-Bench. Además, demostramos que ST-VLM generaliza de manera robusta en diversos dominios y tareas, superando a los modelos de referencia en otros puntos de referencia espacio-temporales (por ejemplo, ActivityNet, TVQA+). Finalmente, al integrar el razonamiento espacio-temporal aprendido con las capacidades existentes, ST-VLM permite un razonamiento complejo de múltiples pasos. Página del proyecto: https://ikodoh.github.io/ST-VLM.
Comprender las propiedades geométricas y semánticas de la escena es crucial para la navegación autónoma y resulta particularmente desafiante en el caso de la navegación de vehículos aéreos no tripulados (UAV). Dicha información puede obtenerse estimando mapas de profundidad y segmentación semántica del entorno circundante, y para su uso práctico en la navegación autónoma, el procedimiento debe realizarse lo más cercano posible al tiempo real. En este artículo, aprovechamos cámaras monoculares en robots aéreos para predecir mapas de profundidad y semánticos en entornos no estructurados de baja altitud. Proponemos una arquitectura de aprendizaje profundo conjunta que puede realizar estas dos tareas de manera precisa y rápida, y validamos su efectividad en los conjuntos de datos de referencia MidAir y Aeroscapes. Nuestra arquitectura conjunta demuestra ser competitiva o superior a otros métodos de arquitectura única y conjunta, mientras realiza su tarea rápidamente, prediciendo 20.2 FPS en una sola GPU NVIDIA Quadro P5000, y tiene un bajo consumo de memoria. Todos los códigos para entrenamiento y predicción pueden encontrarse en este enlace: https://github.com/Malga-Vision/Co-SemDepth