Artículos de investigación en IA seleccionados diariamente con traducciones
El control de cámara ha sido ampliamente estudiado en tareas de generación de video condicionado por texto o imágenes. Sin embargo, la modificación de trayectorias de cámara en un video dado sigue siendo un área poco explorada, a pesar de su importancia en el campo de la creación de videos. Esto no es trivial debido a las restricciones adicionales de mantener la apariencia en múltiples fotogramas y la sincronización dinámica. Para abordar este desafío, presentamos ReCamMaster, un marco de re-renderizado generativo de video controlado por cámara que reproduce la escena dinámica de un video de entrada en nuevas trayectorias de cámara. La innovación central radica en aprovechar las capacidades generativas de modelos preentrenados de texto a video mediante un mecanismo de condicionamiento de video simple pero potente, cuya capacidad a menudo se pasa por alto en la investigación actual. Para superar la escasez de datos de entrenamiento calificados, construimos un conjunto de datos completo de video sincronizado con múltiples cámaras utilizando Unreal Engine 5, el cual está cuidadosamente seleccionado para seguir características de filmación del mundo real, abarcando diversas escenas y movimientos de cámara. Esto ayuda al modelo a generalizar en videos del mundo real. Por último, mejoramos aún más la robustez frente a entradas diversas mediante una estrategia de entrenamiento meticulosamente diseñada. Experimentos exhaustivos demuestran que nuestro método supera sustancialmente a los enfoques más avanzados y líneas base sólidas existentes. Nuestro método también encuentra aplicaciones prometedoras en estabilización de video, super-resolución y expansión de video. Página del proyecto: https://jianhongbai.github.io/ReCamMaster/
Presentamos SmolDocling, un modelo ultracompacto de visión y lenguaje enfocado en la conversión de documentos de extremo a extremo. Nuestro modelo procesa páginas completas de manera integral generando DocTags, un nuevo formato de marcado universal que captura todos los elementos de la página en su contexto completo con ubicación. A diferencia de los enfoques existentes que dependen de modelos fundamentales de gran escala, o soluciones de ensamblaje que utilizan pipelines manuales de múltiples modelos especializados, SmolDocling ofrece una conversión de extremo a extremo para capturar con precisión el contenido, la estructura y la ubicación espacial de los elementos del documento en un modelo de visión y lenguaje de 256M parámetros. SmolDocling muestra un rendimiento robusto al reproducir correctamente características de documentos como listados de código, tablas, ecuaciones, gráficos, listas y más, en una amplia gama de tipos de documentos que incluyen documentos empresariales, artículos académicos, informes técnicos, patentes y formularios, extendiéndose significativamente más allá del enfoque comúnmente observado en artículos científicos. Además, contribuimos con nuevos conjuntos de datos de acceso público para el reconocimiento de gráficos, tablas, ecuaciones y código. Los resultados experimentales demuestran que SmolDocling compite con otros modelos de visión y lenguaje que son hasta 27 veces más grandes en tamaño, mientras reduce sustancialmente los requisitos computacionales. El modelo está actualmente disponible, y los conjuntos de datos estarán disponibles públicamente pronto.
Los modelos de difusión han demostrado resultados impresionantes en la generación de muestras condicionales de alta calidad utilizando técnicas de guía como la Guía Libre de Clasificador (CFG, por sus siglas en inglés). Sin embargo, los métodos existentes suelen requerir entrenamiento adicional o evaluaciones de funciones neuronales (NFEs), lo que los hace incompatibles con modelos de guía destilada. Además, dependen de enfoques heurísticos que requieren identificar capas objetivo. En este trabajo, proponemos un método novedoso y eficiente, denominado PLADIS, que potencia modelos preentrenados (U-Net/Transformer) aprovechando la atención dispersa. Específicamente, extrapolamos las correlaciones consulta-clave utilizando softmax y su contraparte dispersa en la capa de atención cruzada durante la inferencia, sin necesidad de entrenamiento adicional o NFEs. Al aprovechar la robustez al ruido de la atención dispersa, nuestro PLADIS libera el potencial latente de los modelos de difusión de texto a imagen, permitiéndoles destacar en áreas donde antes tenían dificultades con una efectividad renovada. Se integra perfectamente con técnicas de guía, incluyendo modelos de guía destilada. Experimentos extensos muestran mejoras notables en la alineación del texto y la preferencia humana, ofreciendo una solución altamente eficiente y universalmente aplicable.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han evolucionado más allá de la simple generación de texto para impulsar agentes de software que traducen directamente comandos en lenguaje natural en acciones tangibles. Si bien los agentes LLM basados en API inicialmente ganaron prominencia por sus robustas capacidades de automatización y su integración fluida con puntos finales programáticos, los avances recientes en la investigación de LLM multimodales han permitido el desarrollo de agentes LLM basados en GUI que interactúan con interfaces gráficas de usuario de manera similar a los humanos. Aunque estos dos paradigmas comparten el objetivo de habilitar la automatización de tareas impulsada por LLM, divergen significativamente en complejidad arquitectónica, flujos de desarrollo y modelos de interacción con el usuario. Este artículo presenta el primer estudio comparativo exhaustivo de agentes LLM basados en API y GUI, analizando sistemáticamente sus divergencias y su potencial convergencia. Examinamos dimensiones clave y destacamos escenarios en los que los enfoques híbridos pueden aprovechar sus fortalezas complementarias. Al proponer criterios claros de decisión e ilustrar casos de uso prácticos, nuestro objetivo es guiar a profesionales e investigadores en la selección, combinación o transición entre estos paradigmas. En última instancia, indicamos que las innovaciones continuas en la automatización basada en LLM están preparadas para difuminar las líneas entre los agentes impulsados por API y GUI, allanando el camino para soluciones más flexibles y adaptativas en una amplia gama de aplicaciones del mundo real.
La búsqueda de eficiencia en los datos, donde la calidad supera a la cantidad, ha surgido como un pilar fundamental en la manipulación robótica, especialmente dado los altos costos asociados con la recopilación de datos en el mundo real. Proponemos que maximizar la densidad informativa de demostraciones individuales puede reducir drásticamente la dependencia de grandes conjuntos de datos mientras mejora el rendimiento en las tareas. Con este fin, presentamos la Recopilación de Datos Adversariales (Adversarial Data Collection, ADC), un marco de trabajo con Humanos en el Ciclo (Human-in-the-Loop, HiL) que redefine la adquisición de datos robóticos mediante interacciones bidireccionales en tiempo real entre humanos y el entorno. A diferencia de los enfoques convencionales que registran pasivamente demostraciones estáticas, ADC adopta un paradigma de perturbación colaborativa: durante un solo episodio, un operador adversario altera dinámicamente los estados de los objetos, las condiciones ambientales y los comandos lingüísticos, mientras que el teleoperador ajusta adaptativamente las acciones para superar estos desafíos en evolución. Este proceso comprime comportamientos diversos de recuperación ante fallos, variaciones composicionales de tareas y perturbaciones ambientales en demostraciones mínimas. Nuestros experimentos demuestran que los modelos entrenados con ADC logran una generalización composicional superior ante instrucciones de tareas no vistas, una mayor robustez frente a perturbaciones perceptivas y capacidades emergentes de recuperación de errores. Sorprendentemente, los modelos entrenados con solo el 20% del volumen de demostraciones recopiladas mediante ADC superan significativamente a los enfoques tradicionales que utilizan conjuntos de datos completos. Estos avances cierran la brecha entre los paradigmas de aprendizaje centrados en datos y el despliegue práctico de robots, demostrando que la adquisición estratégica de datos, no solo el procesamiento posterior, es crucial para el aprendizaje robótico escalable en el mundo real. Además, estamos curando un conjunto de datos a gran escala, ADC-Robotics, que incluye tareas de manipulación en el mundo real con perturbaciones adversarias. Este punto de referencia será de código abierto para facilitar avances en el aprendizaje por imitación robótica.
Los Modelos de Espacio de Estados (SSMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los populares modelos basados en transformadores y han ido ganando cada vez más atención. En comparación con los transformadores, los SSMs destacan en tareas con datos secuenciales o contextos más largos, demostrando un rendimiento comparable con ganancias significativas en eficiencia. En este estudio, proporcionamos una visión general coherente y sistemática de los SSMs, incluyendo sus motivaciones teóricas, formulaciones matemáticas, comparación con clases de modelos existentes y diversas aplicaciones. Dividimos la serie de SSMs en tres secciones principales, ofreciendo una introducción detallada al SSM original, el SSM estructurado representado por S4 y el SSM selectivo ejemplificado por Mamba. Ponemos énfasis en los aspectos técnicos y destacamos las diversas técnicas clave introducidas para abordar la efectividad y eficiencia de los SSMs. Esperamos que este manuscrito sirva como una introducción para que los investigadores exploren los fundamentos teóricos de los SSMs.
Presentamos VGGT, una red neuronal de avance directo que infiere directamente todos los atributos 3D clave de una escena, incluyendo parámetros de la cámara, mapas de puntos, mapas de profundidad y trayectorias de puntos 3D, a partir de una, pocas o cientos de sus vistas. Este enfoque representa un avance en la visión por computadora 3D, donde los modelos típicamente han estado restringidos y especializados para tareas individuales. Además, es simple y eficiente, reconstruyendo imágenes en menos de un segundo, y aún supera a alternativas que requieren post-procesamiento con técnicas de optimización de geometría visual. La red logra resultados de vanguardia en múltiples tareas 3D, incluyendo estimación de parámetros de la cámara, estimación de profundidad multi-vista, reconstrucción de nubes de puntos densas y seguimiento de puntos 3D. También demostramos que el uso de VGGT preentrenado como columna vertebral de características mejora significativamente tareas posteriores, como el seguimiento de puntos no rígidos y la síntesis de nuevas vistas de avance directo. El código y los modelos están disponibles públicamente en https://github.com/facebookresearch/vggt.
Los modelos multimodales grandes (LMMs) basados en transformadores de última generación tienen dificultades para manejar entradas de video de una hora de duración debido a la complejidad cuadrática de las operaciones de autoatención causal, lo que conlleva altos costos computacionales durante el entrenamiento y la inferencia. Los métodos existentes basados en compresión de tokens reducen el número de tokens de video, pero a menudo incurren en pérdida de información y siguen siendo ineficientes para secuencias extremadamente largas. En este artículo, exploramos una dirección ortogonal para construir un modelo híbrido Mamba-Transformer (VAMBA) que emplea bloques Mamba-2 para codificar tokens de video con complejidad lineal. Sin ninguna reducción de tokens, VAMBA puede codificar más de 1024 fotogramas (640x360) en una sola GPU, mientras que los modelos basados en transformadores solo pueden codificar 256 fotogramas. En entradas de video largas, VAMBA logra una reducción de al menos el 50% en el uso de memoria de GPU durante el entrenamiento y la inferencia, y casi duplica la velocidad por paso de entrenamiento en comparación con los LMMs basados en transformadores. Nuestros resultados experimentales demuestran que VAMBA mejora la precisión en un 4.3% en el desafiante benchmark de comprensión de videos de una hora LVBench sobre los LMMs de video eficientes anteriores, y mantiene un rendimiento sólido en una amplia gama de tareas de comprensión de videos largos y cortos.
La conexión entre diferentes modalidades se encuentra en el núcleo de la generación multimodal. Mientras que los enfoques convencionales tratan la modalidad de texto como una señal de condicionamiento que guía gradualmente el proceso de eliminación de ruido desde el ruido gaussiano hasta la modalidad de imagen objetivo, exploramos un paradigma mucho más simple: la evolución directa entre las modalidades de texto e imagen mediante el emparejamiento de flujos. Esto requiere proyectar ambas modalidades en un espacio latente compartido, lo cual representa un desafío significativo debido a sus representaciones inherentemente diferentes: el texto es altamente semántico y se codifica como tokens unidimensionales (1D), mientras que las imágenes son espacialmente redundantes y se representan como incrustaciones latentes bidimensionales (2D). Para abordar esto, presentamos FlowTok, un marco minimalista que fluye sin problemas entre texto e imágenes al codificar las imágenes en una representación compacta de tokens 1D. En comparación con métodos anteriores, este diseño reduce el tamaño del espacio latente en 3.3 veces para una resolución de imagen de 256, eliminando la necesidad de mecanismos de condicionamiento complejos o programación de ruido. Además, FlowTok se extiende naturalmente a la generación de texto a partir de imágenes bajo la misma formulación. Con su arquitectura simplificada centrada en tokens 1D compactos, FlowTok es altamente eficiente en memoria, requiere significativamente menos recursos de entrenamiento y logra velocidades de muestreo mucho más rápidas, todo ello mientras ofrece un rendimiento comparable a los modelos más avanzados. El código estará disponible en https://github.com/bytedance/1d-tokenizer.
El Aprendizaje Federado (FL, por sus siglas en inglés) ha surgido como un paradigma prometedor para el entrenamiento colaborativo de modelos que preserva la privacidad sin compartir datos crudos. Sin embargo, estudios recientes han revelado que la información privada aún puede filtrarse a través de los gradientes compartidos y ser atacada mediante Ataques de Inversión de Gradientes (GIA, por sus siglas en inglés). Aunque se han propuesto muchos métodos de GIA, aún falta un análisis detallado, evaluación y resumen de estos métodos. Si bien varios artículos de revisión resumen los ataques a la privacidad existentes en FL, pocos estudios han realizado experimentos extensos para revelar la efectividad de los GIA y los factores limitantes asociados en este contexto. Para llenar este vacío, primero llevamos a cabo una revisión sistemática de los GIA y categorizamos los métodos existentes en tres tipos: GIA basado en optimización (OP-GIA), GIA basado en generación (GEN-GIA) y GIA basado en análisis (ANA-GIA). Luego, analizamos y evaluamos exhaustivamente los tres tipos de GIA en FL, proporcionando información sobre los factores que influyen en su rendimiento, practicidad y amenazas potenciales. Nuestros hallazgos indican que OP-GIA es el escenario de ataque más práctico a pesar de su rendimiento insatisfactorio, mientras que GEN-GIA tiene muchas dependencias y ANA-GIA es fácilmente detectable, lo que los hace poco prácticos. Finalmente, ofrecemos una línea de defensa en tres etapas para los usuarios al diseñar marcos y protocolos de FL con el fin de mejorar la protección de la privacidad, y compartimos algunas direcciones futuras de investigación desde las perspectivas de atacantes y defensores que creemos deberían ser exploradas. Esperamos que nuestro estudio ayude a los investigadores a diseñar marcos de FL más robustos para defenderse contra estos ataques.
La medicina de precisión requiere modelos adaptativos multimodales que generen recomendaciones de tratamiento personalizadas. Presentamos TxAgent, un agente de IA que aprovecha el razonamiento de múltiples pasos y la recuperación de conocimiento biomédico en tiempo real a través de un conjunto de 211 herramientas para analizar interacciones farmacológicas, contraindicaciones y estrategias de tratamiento específicas para cada paciente. TxAgent evalúa cómo los fármacos interactúan a nivel molecular, farmacocinético y clínico, identifica contraindicaciones basadas en comorbilidades del paciente y medicamentos concurrentes, y adapta las estrategias de tratamiento a las características individuales del paciente. Recupera y sintetiza evidencia de múltiples fuentes biomédicas, evalúa interacciones entre fármacos y condiciones del paciente, y refina las recomendaciones de tratamiento mediante un razonamiento iterativo. Selecciona herramientas según los objetivos de la tarea y ejecuta llamadas de funciones estructuradas para resolver tareas terapéuticas que requieren razonamiento clínico y validación cruzada de fuentes. El ToolUniverse consolida 211 herramientas de fuentes confiables, incluyendo todos los fármacos aprobados por la FDA de EE. UU. desde 1939 y conocimientos clínicos validados de Open Targets. TxAgent supera a los principales modelos de lenguaje (LLM), modelos de uso de herramientas y agentes de razonamiento en cinco nuevos puntos de referencia: DrugPC, BrandPC, GenericPC, TreatmentPC y DescriptionPC, abarcando 3,168 tareas de razonamiento farmacológico y 456 escenarios de tratamiento personalizado. Logra un 92.1% de precisión en tareas de razonamiento farmacológico de respuesta abierta, superando a GPT-4o y superando a DeepSeek-R1 (671B) en razonamiento estructurado de múltiples pasos. TxAgent generaliza entre variantes de nombres de fármacos y descripciones. Al integrar inferencia de múltiples pasos, fundamentación de conocimiento en tiempo real y toma de decisiones asistida por herramientas, TxAgent asegura que las recomendaciones de tratamiento se alineen con las pautas clínicas establecidas y la evidencia del mundo real, reduciendo el riesgo de eventos adversos y mejorando la toma de decisiones terapéuticas.
Proponemos un enfoque novedoso para la generación de descripciones y la localización de objetos en videos, donde los objetos mencionados en la descripción se localizan en el video mediante cuadros delimitadores temporalmente densos. Introducimos las siguientes contribuciones. Primero, presentamos un método de anotación automática a gran escala que agrega descripciones asociadas con cuadros delimitadores en fotogramas individuales para generar anotaciones de cuadros delimitadores temporalmente densas y consistentes. Aplicamos este enfoque en el conjunto de datos HowTo100M para construir un conjunto de datos de preentrenamiento a gran escala, denominado HowToGround1M. También presentamos un modelo de Generación de Descripciones de Videos Localizadas, llamado GROVE, y preentrenamos el modelo en HowToGround1M. Segundo, introducimos un nuevo conjunto de datos, llamado iGround, que consta de 3500 videos con descripciones anotadas manualmente y cuadros delimitadores espacial y temporalmente densos. Esto nos permite medir el progreso en este problema desafiante, así como ajustar nuestro modelo en estos datos de pequeña escala pero de alta calidad. Tercero, demostramos que nuestro enfoque alcanza resultados de vanguardia en el conjunto de datos propuesto iGround en comparación con varias líneas base, así como en los conjuntos de datos VidSTG y ActivityNet-Entities. Realizamos amplias ablaciones que demuestran la importancia del preentrenamiento utilizando nuestro conjunto de datos HowToGround1M anotado automáticamente, seguido de un ajuste fino en el conjunto de datos iGround anotado manualmente, y validamos las contribuciones técnicas clave de nuestro modelo.
Las redes de Kolmogorov-Arnold (KANs) son una innovación notable que consiste en funciones de activación aprendibles con el potencial de capturar relaciones más complejas a partir de los datos. Aunque las KANs son útiles para encontrar representaciones simbólicas y el aprendizaje continuo de funciones unidimensionales, su efectividad en diversas tareas de aprendizaje automático (ML), como la visión, sigue siendo cuestionable. Actualmente, las KANs se implementan reemplazando a los perceptrones multicapa (MLPs) en arquitecturas de redes profundas, incluyendo arquitecturas avanzadas como los Transformers de visión (ViTs). En este artículo, somos los primeros en diseñar una Atención de Kolmogorov-Arnold Aprendible (KArAt) general para ViTs estándar que puede operar con cualquier elección de base. Sin embargo, los costos computacionales y de memoria asociados a su entrenamiento nos motivaron a proponer una versión más modular, y diseñamos una atención aprendible específica, llamada Fourier-KArAt. Fourier-KArAt y sus variantes superan a sus contrapartes ViT o muestran un rendimiento comparable en los conjuntos de datos CIFAR-10, CIFAR-100 e ImageNet-1K. Analizamos el rendimiento y la capacidad de generalización de estas arquitecturas examinando sus paisajes de pérdida, distribuciones de pesos, trayectoria del optimizador, visualización de la atención y comportamiento espectral, y los contrastamos con los ViTs estándar. El objetivo de este artículo no es producir una atención eficiente en parámetros y cómputo, sino alentar a la comunidad a explorar las KANs en conjunto con arquitecturas más avanzadas que requieren una comprensión cuidadosa de las activaciones aprendibles. Nuestro código de código abierto y los detalles de implementación están disponibles en: https://subhajitmaity.me/KArAt.
Ajustar un cuerpo a una nube de puntos 3D de un humano vestido es una tarea común pero desafiante. Los enfoques tradicionales basados en optimización utilizan pipelines de múltiples etapas que son sensibles a la inicialización de la pose, mientras que los métodos recientes basados en aprendizaje a menudo tienen dificultades para generalizar en diversas poses y tipos de prendas. Proponemos Equivariant Tightness Fitting for Clothed Humans, o ETCH, un pipeline novedoso que estima el mapeo de la superficie de la prenda al cuerpo mediante una equivariancia SE(3) local aproximada, codificando la tensión como vectores de desplazamiento desde la superficie de la prenda al cuerpo subyacente. Siguiendo este mapeo, características invariantes a la pose del cuerpo regresan marcadores corporales dispersos, simplificando el ajuste de humanos vestidos en una tarea de ajuste de marcadores internos del cuerpo. Experimentos extensivos en CAPE y 4D-Dress muestran que ETCH supera significativamente a los métodos más avanzados —tanto aquellos que ignoran la tensión como los que la consideran— en precisión de ajuste corporal en prendas sueltas (16.7% ~ 69.5%) y precisión de forma (promedio de 49.9%). Nuestro diseño de tensión equivariante puede incluso reducir errores direccionales en un (67.2% ~ 89.8%) en configuraciones de un solo paso (o fuera de distribución). Los resultados cualitativos demuestran una fuerte generalización de ETCH, independientemente de poses desafiantes, formas no vistas, prendas sueltas y dinámicas no rígidas. Pronto liberaremos el código y los modelos con fines de investigación en https://boqian-li.github.io/ETCH/.
Los modelos visuales autorregresivos suelen seguir un paradigma de "predicción del siguiente token" en orden de rastreo, lo cual pasa por alto la localidad espacial y temporal inherente al contenido visual. Específicamente, los tokens visuales exhiben correlaciones significativamente más fuertes con sus tokens adyacentes espacial o temporalmente en comparación con aquellos que están distantes. En este artículo, proponemos Modelado Autorregresivo de Vecindad (NAR), un paradigma novedoso que formula la generación visual autorregresiva como un procedimiento de expansión progresiva, siguiendo un mecanismo de "predicción del siguiente vecino" de cerca a lejos. Partiendo de un token inicial, los tokens restantes se decodifican en orden ascendente de su distancia Manhattan desde el token inicial en el espacio espacio-temporal, expandiendo progresivamente el límite de la región decodificada. Para permitir la predicción paralela de múltiples tokens adyacentes en el espacio espacio-temporal, introducimos un conjunto de cabezales de decodificación orientados por dimensión, cada uno prediciendo el siguiente token a lo largo de una dimensión mutuamente ortogonal. Durante la inferencia, todos los tokens adyacentes a los tokens decodificados se procesan en paralelo, reduciendo sustancialmente los pasos de avance del modelo para la generación. Los experimentos en ImageNet256x256 y UCF101 demuestran que NAR logra un rendimiento 2.4 veces y 8.6 veces mayor respectivamente, mientras obtiene puntuaciones FID/FVD superiores tanto para tareas de generación de imágenes como de videos en comparación con el enfoque PAR-4X. Al evaluar en el benchmark de generación de texto a imagen GenEval, NAR con 0.8B parámetros supera a Chameleon-7B mientras utiliza apenas 0.4 de los datos de entrenamiento. El código está disponible en https://github.com/ThisisBillhe/NAR.
Dado que los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) suelen cometer errores al resolver problemas científicos, evaluar la validez de sus procesos de razonamiento es crucial para garantizar su fiabilidad y descubrir debilidades específicas del modelo. Dado que la evaluación humana es laboriosa y costosa, se ha vuelto una práctica común utilizar MLLMs como jueces automatizados de procesos. Sin embargo, la fiabilidad de estos jueces basados en modelos sigue siendo incierta. Para abordar esto, presentamos ProJudgeBench, el primer punto de referencia integral diseñado específicamente para evaluar las capacidades de los jueces de procesos basados en MLLMs. ProJudgeBench comprende 2,400 casos de prueba y 50,118 etiquetas a nivel de paso, abarcando cuatro disciplinas científicas con diversos niveles de dificultad y contenido multimodal. En ProJudgeBench, cada paso está meticulosamente anotado por expertos humanos en cuanto a su corrección, tipo de error y explicación, lo que permite una evaluación sistemática de las capacidades de los jueces para detectar, clasificar y diagnosticar errores. La evaluación en ProJudgeBench revela una brecha significativa en el rendimiento entre los modelos de código abierto y los propietarios. Para cerrar esta brecha, proponemos además ProJudge-173k, un conjunto de datos de ajuste por instrucciones a gran escala, y una estrategia de ajuste fino Dinámica de Doble Fase que fomenta que los modelos razonen explícitamente a través de la resolución de problemas antes de evaluar las soluciones. Ambas contribuciones mejoran significativamente las capacidades de evaluación de procesos de los modelos de código abierto. Todos los recursos serán liberados para fomentar futuras investigaciones sobre la evaluación fiable de procesos multimodales.
Los modelos unificados (UniMs) para la comprensión y generación multimodal han recibido recientemente mucha atención en el área de visión y lenguaje. Los UniMs existentes están diseñados para aprender simultáneamente capacidades de comprensión y generación multimodal, lo que requiere recursos computacionales sustanciales y, a menudo, tienen dificultades para generar texto e imágenes intercalados. Presentamos ARMOR, un marco autoregresivo puro y eficiente en recursos que logra tanto la comprensión como la generación mediante el ajuste fino de modelos de lenguaje multimodal de gran escala (MLLMs) existentes. Específicamente, ARMOR extiende los MLLMs existentes desde tres perspectivas: (1) Para la arquitectura del modelo, se introduce una arquitectura codificador-decodificador asimétrica con un mecanismo de conmutación hacia adelante para unificar el espacio de incrustación que integra las modalidades textual y visual, permitiendo la generación natural de texto e imágenes intercalados con un mínimo sobrecargo computacional. (2) Para los datos de entrenamiento, se recopila un conjunto de datos intercalados de alta calidad y cuidadosamente seleccionado para el ajuste fino de los MLLMs. (3) Para el algoritmo de entrenamiento, proponemos un algoritmo de "qué o cómo generar" para dotar a los MLLMs existentes de capacidades de generación multimodal mientras se preservan sus capacidades de comprensión multimodal, a través de tres etapas progresivas de entrenamiento basadas en el conjunto de datos recopilado. Los resultados experimentales demuestran que ARMOR actualiza los MLLMs existentes a UniMs con prometedoras capacidades de generación de imágenes, utilizando recursos de entrenamiento limitados. Nuestro código se lanzará pronto en https://armor.github.io.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un rendimiento notable y capacidades de generalización en múltiples idiomas y tareas, lo que los convierte en objetivos muy atractivos para la integración de múltiples modalidades (por ejemplo, imágenes o habla). En este trabajo, extendemos un LLM existente a la modalidad de habla mediante la discretización del habla y un preentrenamiento continuo. En particular, nos interesan los LLMs multilingües, como TOWER, ya que su configuración de preentrenamiento nos permite tratar la entrada de habla discretizada como un idioma de traducción adicional. El modelo de código abierto resultante, SPIRE, es capaz de transcribir y traducir entradas de habla en inglés mientras mantiene el rendimiento original de TOWER en tareas relacionadas con la traducción, demostrando que la integración de entradas de habla discretizada como un idioma adicional es factible durante la adaptación de LLMs. Ponemos nuestro código y modelos a disposición de la comunidad.
La recuperación precisa de materiales es crucial para crear activos 3D realistas. Los métodos existentes dependen de conjuntos de datos que capturan representaciones invariantes en forma y variadas en iluminación de materiales, los cuales son escasos y enfrentan desafíos debido a su diversidad limitada y una generalización insuficiente en el mundo real. La mayoría de los enfoques actuales adoptan técnicas tradicionales de búsqueda de imágenes. Estos no logran capturar las propiedades únicas de los espacios de materiales, lo que resulta en un rendimiento subóptimo en tareas de recuperación. Para abordar estos desafíos, presentamos MaRI, un marco diseñado para cerrar la brecha en el espacio de características entre materiales sintéticos y del mundo real. MaRI construye un espacio de incrustación compartido que armoniza atributos visuales y de materiales mediante una estrategia de aprendizaje contrastivo, entrenando conjuntamente un codificador de imágenes y un codificador de materiales, acercando materiales e imágenes similares mientras separa pares disímiles dentro del espacio de características. Para respaldar esto, construimos un conjunto de datos integral que incluye materiales sintéticos de alta calidad renderizados con variaciones de forma controladas y condiciones de iluminación diversas, junto con materiales del mundo real procesados y estandarizados utilizando técnicas de transferencia de materiales. Experimentos exhaustivos demuestran el rendimiento superior, la precisión y las capacidades de generalización de MaRI en diversas y complejas tareas de recuperación de materiales, superando a los métodos existentes.
Acelerar el muestreo de modelos de difusión es crucial para un despliegue eficiente de AIGC. Si bien los métodos de destilación de difusión —basados en la coincidencia de distribuciones y la coincidencia de trayectorias— reducen el muestreo a tan solo un paso, no alcanzan un rendimiento óptimo en tareas complejas como la generación de texto a imagen. La generación en pocos pasos ofrece un mejor equilibrio entre velocidad y calidad, pero los enfoques existentes enfrentan un dilema persistente: la coincidencia de distribuciones carece de flexibilidad para el muestreo en múltiples pasos, mientras que la coincidencia de trayectorias a menudo produce una calidad de imagen subóptima. Para cerrar esta brecha, proponemos aprender modelos de difusión en pocos pasos mediante Coincidencia de Distribución de Trayectoria (TDM), un paradigma de destilación unificado que combina las fortalezas de la coincidencia de distribuciones y trayectorias. Nuestro método introduce un objetivo de destilación de puntuación sin datos, alineando la trayectoria del estudiante con la del profesor a nivel de distribución. Además, desarrollamos un objetivo consciente de los pasos de muestreo que desacopla los objetivos de aprendizaje en diferentes pasos, permitiendo un muestreo más ajustable. Este enfoque admite tanto el muestreo determinista para una calidad de imagen superior como la adaptación flexible en múltiples pasos, logrando un rendimiento de vanguardia con una eficiencia notable. Nuestro modelo, TDM, supera a los métodos existentes en varias arquitecturas, como SDXL y PixArt-alpha, ofreciendo una calidad superior y costos de entrenamiento significativamente reducidos. En particular, nuestro método destila PixArt-alpha en un generador de 4 pasos que supera a su profesor en la preferencia de usuarios reales a una resolución de 1024. Esto se logra con 500 iteraciones y 2 horas en A800 —un mero 0.01% del costo de entrenamiento del profesor. Además, nuestro TDM propuesto puede extenderse para acelerar la difusión de texto a video. Notablemente, TDM puede superar a su modelo profesor (CogVideoX-2B) utilizando solo 4 NFE en VBench, mejorando la puntuación total de 80.91 a 81.65. Página del proyecto: https://tdm-t2x.github.io/
Presentamos TreeMeshGPT, un Transformer autorregresivo diseñado para generar mallas artísticas de alta calidad alineadas con nubes de puntos de entrada. En lugar de la predicción convencional del siguiente token en Transformers autorregresivos, proponemos una novedosa Secuenciación de Árbol Autorregresivo donde el siguiente token de entrada se recupera de una estructura de árbol en crecimiento dinámico que se construye sobre la adyacencia triangular de las caras dentro de la malla. Nuestra secuenciación permite que la malla se extienda localmente desde la última cara triangular generada en cada paso, reduciendo así la dificultad de entrenamiento y mejorando la calidad de la malla. Nuestro enfoque representa cada cara triangular con dos tokens, logrando una tasa de compresión de aproximadamente un 22% en comparación con la tokenización ingenua de caras. Esta tokenización eficiente permite que nuestro modelo genere mallas artísticas altamente detalladas con un fuerte condicionamiento de la nube de puntos, superando a métodos anteriores tanto en capacidad como en fidelidad. Además, nuestro método genera mallas con fuertes restricciones de orientación normal, minimizando las normales invertidas comúnmente encontradas en métodos anteriores. Nuestros experimentos muestran que TreeMeshGPT mejora la calidad de generación de mallas con detalles refinados y consistencia en la orientación de las normales.
Este trabajo presenta una primera evaluación de dos modelos de razonamiento a gran escala (LRMs) de última generación, el o3-mini de OpenAI y el DeepSeek R1, en tareas de razonamiento analógico, centrándose en pruebas de coeficiente intelectual no verbales bien establecidas basadas en las matrices progresivas de Raven. Realizamos pruebas comparativas con el conjunto de datos I-RAVEN y su extensión más difícil, I-RAVEN-X, que evalúa la capacidad de generalizar a reglas de razonamiento más largas y rangos de valores de atributos. Para evaluar la influencia de las incertidumbres visuales en estas pruebas de razonamiento analógico no verbal, extendemos el conjunto de datos I-RAVEN-X, que de otro modo asume una percepción oráculo. Adoptamos una estrategia doble para simular esta percepción visual imperfecta: 1) introducimos atributos confusos que, al ser muestreados al azar, no contribuyen a la predicción de la respuesta correcta de los acertijos y 2) suavizamos las distribuciones de los valores de los atributos de entrada. Observamos una caída pronunciada en la precisión de la tarea del o3-mini de OpenAI, que pasa del 86,6% en el I-RAVEN original a solo el 17,0% —aproximándose al azar— en el I-RAVEN-X más desafiante, que aumenta la longitud y el rango de la entrada y emula la incertidumbre perceptual. Esta caída ocurrió a pesar de utilizar 3,4 veces más tokens de razonamiento. Se observa una tendencia similar para el DeepSeek R1: del 80,6% al 23,2%. Por otro lado, un modelo neuro-simbólico de abducción probabilística, ARLC, que logra rendimientos de última generación en I-RAVEN, puede razonar de manera robusta en todas estas pruebas fuera de distribución, manteniendo una alta precisión con solo una reducción modesta del 98,6% al 88,0%. Nuestro código está disponible en https://github.com/IBM/raven-large-language-models.
La Generación Detallada de Subtítulos para Videos (VDC, por sus siglas en inglés) es una tarea crucial para el puente entre visión y lenguaje, permitiendo descripciones detalladas de contenido visual complejo. En este artículo, primero realizamos una evaluación exhaustiva de los enfoques más avanzados actuales e identificamos sistemáticamente dos limitaciones críticas: una capacidad sesgada hacia aspectos específicos de la generación de subtítulos y una desalineación con las preferencias humanas. Para abordar estas deficiencias, proponemos Cockatiel, una novedosa canalización de entrenamiento en tres etapas que combina entrenamiento sintético y alineado con humanos para mejorar el rendimiento en VDC. En la primera etapa, derivamos un evaluador a partir de un conjunto de datos meticulosamente anotado para seleccionar subtítulos sintéticos que destacan en la alineación detallada entre video y subtítulo y que son preferidos por humanos, descartando otros. Luego, entrenamos Cockatiel-13B utilizando este conjunto de datos curado para infundirle las fortalezas ensambladas del modelo y las preferencias humanas. Finalmente, destilamos Cockatiel-8B a partir de Cockatiel-13B para facilitar su uso. Experimentos cuantitativos y cualitativos extensos reflejan la efectividad de nuestro método, ya que no solo establecemos un nuevo rendimiento de vanguardia en VDCSCORE de manera equilibrada en dimensiones, sino que también superamos ampliamente a las alternativas líderes en preferencia humana, como lo muestran los resultados de evaluación humana.
El aprendizaje de habilidades en entornos de mundo abierto es esencial para desarrollar agentes capaces de manejar una variedad de tareas mediante la combinación de habilidades básicas. Los videos de demostración en línea suelen ser largos pero no segmentados, lo que dificulta su división y etiquetado con identificadores de habilidades. A diferencia de los métodos existentes que dependen del muestreo de secuencias o del etiquetado humano, hemos desarrollado un enfoque basado en aprendizaje autosupervisado para segmentar estos videos largos en una serie de segmentos semánticamente conscientes y consistentes con las habilidades. Inspirándonos en la teoría de segmentación de eventos cognitivos humanos, presentamos Skill Boundary Detection (SBD), un algoritmo de segmentación temporal de videos que no requiere anotaciones. SBD detecta los límites de las habilidades en un video aprovechando los errores de predicción de un modelo preentrenado de predicción de acciones incondicional. Este enfoque se basa en la suposición de que un aumento significativo en el error de predicción indica un cambio en la habilidad que se está ejecutando. Evaluamos nuestro método en Minecraft, un simulador de mundo abierto rico en contenido con una amplia disponibilidad de videos de juego en línea. Los segmentos generados por SBD mejoraron el rendimiento promedio de las políticas condicionadas en un 63.7% y 52.1% en tareas de habilidades atómicas a corto plazo, y en un 11.3% y 20.8% para sus agentes jerárquicos correspondientes en tareas de largo alcance. Nuestro método puede aprovechar los diversos videos de YouTube para entrenar agentes que siguen instrucciones. La página del proyecto se puede encontrar en https://craftjarvis.github.io/SkillDiscovery.
Presentamos CHOrD, un marco novedoso para la síntesis escalable de escenas interiores en 3D, diseñado para crear gemelos digitales de interiores a escala de vivienda, libres de colisiones y estructurados jerárquicamente. A diferencia de los métodos existentes que sintetizan directamente el diseño de la escena como un grafo de escena o una lista de objetos, CHOrD incorpora una representación intermedia del diseño basada en imágenes 2D, lo que permite prevenir de manera efectiva artefactos de colisión al capturarlos exitosamente como escenarios fuera de distribución (OOD) durante la generación. Además, a diferencia de los métodos existentes, CHOrD es capaz de generar diseños de escenas que se ajustan a planos de planta complejos con controles multimodales, permitiendo la creación de diseños coherentes a nivel de toda la vivienda, robustos tanto a variaciones geométricas como semánticas en las estructuras de las habitaciones. Adicionalmente, proponemos un nuevo conjunto de datos con una cobertura ampliada de artículos domésticos y configuraciones de habitaciones, así como una calidad de datos significativamente mejorada. CHOrD demuestra un rendimiento de vanguardia tanto en 3D-FRONT como en nuestros conjuntos de datos propuestos, ofreciendo una síntesis de escenas interiores fotorrealistas y espacialmente coherentes, adaptable a variaciones arbitrarias de planos de planta.
Proponemos GoalFlow, un método de conducción autónoma de extremo a extremo para generar trayectorias multimodales de alta calidad. En escenarios de conducción autónoma, rara vez existe una única trayectoria adecuada. Los métodos recientes se han centrado cada vez más en modelar distribuciones de trayectorias multimodales. Sin embargo, estos sufren de complejidad en la selección de trayectorias y una reducción en la calidad de las mismas debido a una alta divergencia en las trayectorias e inconsistencias entre la guía y la información de la escena. Para abordar estos problemas, introducimos GoalFlow, un método novedoso que restringe eficazmente el proceso generativo para producir trayectorias multimodales de alta calidad. Para resolver el problema de divergencia de trayectorias inherente a los métodos basados en difusión, GoalFlow restringe las trayectorias generadas mediante la introducción de un punto de destino. GoalFlow establece un mecanismo de puntuación novedoso que selecciona el punto de destino más apropiado entre los puntos candidatos basándose en la información de la escena. Además, GoalFlow emplea un método generativo eficiente, Flow Matching, para generar trayectorias multimodales, e incorpora un mecanismo de puntuación refinado para seleccionar la trayectoria óptima entre los candidatos. Nuestros resultados experimentales, validados en el NavsimDauner2024_navsim, demuestran que GoalFlow alcanza un rendimiento de vanguardia, proporcionando trayectorias multimodales robustas para la conducción autónoma. GoalFlow logró un PDMS de 90.3, superando significativamente a otros métodos. En comparación con otros métodos basados en políticas de difusión, nuestro enfoque requiere solo un paso de eliminación de ruido para obtener un rendimiento excelente. El código está disponible en https://github.com/YvanYin/GoalFlow.
El desaprendizaje automático es un paradigma emergente para eliminar la influencia de datos específicos de entrenamiento (es decir, el conjunto de olvido) de un modelo, preservando su conocimiento sobre el resto de los datos (es decir, el conjunto de retención). Los enfoques anteriores asumen que los datos a olvidar están distribuidos uniformemente entre todos los puntos de entrenamiento. Sin embargo, si los datos a desaprender son dominantes en un grupo, demostramos empíricamente que el rendimiento para este grupo se degrada, lo que genera problemas de equidad. Este trabajo aborda el problema pasado por alto de los conjuntos de olvido distribuidos de manera no uniforme, que denominamos desaprendizaje automático robusto a grupos, presentando una estrategia simple y efectiva que mitiga la pérdida de rendimiento en grupos dominantes mediante la reasignación de pesos en la distribución de muestras. Además, presentamos MIU (Desaprendizaje Automático Consciente de la Información Mutua), el primer enfoque para la robustez de grupos en el desaprendizaje automático aproximado. MIU minimiza la información mutua entre las características del modelo y la información de grupo, logrando el desaprendizaje mientras reduce la degradación del rendimiento en el grupo dominante del conjunto de olvido. Adicionalmente, MIU aprovecha la reasignación de pesos en la distribución de muestras y la calibración de la información mutua con el modelo original para preservar la robustez de grupos. Realizamos experimentos en tres conjuntos de datos y demostramos que MIU supera a los métodos estándar, logrando el desaprendizaje sin comprometer la robustez del modelo. El código fuente está disponible en https://github.com/tdemin16/group-robust_machine_unlearning.