Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos ComfyUI-Copilot, un complemento impulsado por un modelo de lenguaje de gran escala diseñado para mejorar la usabilidad y eficiencia de ComfyUI, una plataforma de código abierto para la creación de arte basada en inteligencia artificial. A pesar de su flexibilidad e interfaz amigable, ComfyUI puede presentar desafíos para los recién llegados, incluyendo documentación limitada, configuraciones incorrectas de modelos y la complejidad del diseño de flujos de trabajo. ComfyUI-Copilot aborda estos desafíos ofreciendo recomendaciones inteligentes de nodos y modelos, junto con la construcción automatizada de flujos de trabajo con un solo clic. En su núcleo, el sistema emplea un marco jerárquico de múltiples agentes que incluye un agente asistente central para la delegación de tareas y agentes especializados para diferentes usos, respaldados por nuestras bases de conocimiento de ComfyUI para agilizar la depuración y el despliegue. Validamos la efectividad de ComfyUI-Copilot mediante evaluaciones cuantitativas fuera de línea y comentarios de usuarios en línea, demostrando que recomienda nodos con precisión y acelera el desarrollo de flujos de trabajo. Además, casos de uso ilustran que ComfyUI-Copilot reduce las barreras de entrada para principiantes y mejora la eficiencia de los flujos de trabajo para usuarios experimentados. El paquete de instalación de ComfyUI-Copilot y un video de demostración están disponibles en https://github.com/AIDC-AI/ComfyUI-Copilot.
Los avances recientes en la restauración de video basada en difusión (VR, por sus siglas en inglés) demuestran una mejora significativa en la calidad visual, pero conllevan un costo computacional prohibitivo durante la inferencia. Si bien varios enfoques basados en destilación han mostrado el potencial de la restauración de imágenes en un solo paso, extender los enfoques existentes a la VR sigue siendo un desafío y está poco explorado, especialmente cuando se trata de video de alta resolución en entornos del mundo real. En este trabajo, proponemos un modelo de VR basado en difusión de un solo paso, denominado SeedVR2, que realiza entrenamiento adversario de VR con datos reales. Para manejar la VR de alta resolución en un solo paso, introducimos varias mejoras tanto en la arquitectura del modelo como en los procedimientos de entrenamiento. Específicamente, se propone un mecanismo de atención de ventana adaptativa, donde el tamaño de la ventana se ajusta dinámicamente para adaptarse a las resoluciones de salida, evitando la inconsistencia de ventana observada en VR de alta resolución al utilizar atención de ventana con un tamaño predefinido. Para estabilizar y mejorar el entrenamiento adversario posterior hacia la VR, verificamos además la efectividad de una serie de pérdidas, incluyendo una pérdida de coincidencia de características propuesta, sin sacrificar significativamente la eficiencia del entrenamiento. Experimentos extensos muestran que SeedVR2 puede lograr un rendimiento comparable o incluso mejor en comparación con los enfoques de VR existentes en un solo paso.
En este trabajo, presentamos la serie Qwen3 Embedding, un avance significativo respecto a su predecesora, la serie GTE-Qwen, en capacidades de incrustación de texto y reordenamiento, construida sobre los modelos base de Qwen3. Aprovechando las robustas capacidades de los modelos de lenguaje grandes (LLM) de Qwen3 en la comprensión y generación de texto multilingüe, nuestra innovadora canalización de entrenamiento en múltiples etapas combina el preentrenamiento no supervisado a gran escala con el ajuste fino supervisado en conjuntos de datos de alta calidad. Las estrategias efectivas de fusión de modelos garantizan además la robustez y adaptabilidad de la serie Qwen3 Embedding. Durante el proceso de entrenamiento, los LLM de Qwen3 no solo sirven como modelos base, sino que también desempeñan un papel crucial en la síntesis de datos de entrenamiento de alta calidad, ricos y diversos en múltiples dominios y lenguajes, mejorando así la canalización de entrenamiento. La serie Qwen3 Embedding ofrece un espectro de tamaños de modelos (0.6B, 4B, 8B) tanto para tareas de incrustación como de reordenamiento, abordando diversos escenarios de implementación donde los usuarios pueden optimizar ya sea por eficiencia o efectividad. Las evaluaciones empíricas demuestran que la serie Qwen3 Embedding alcanza resultados de vanguardia en diversos puntos de referencia. Destaca especialmente en el punto de referencia de evaluación multilingüe MTEB para la incrustación de texto, así como en diversas tareas de recuperación, incluyendo la recuperación de código, la recuperación cruzada de idiomas y la recuperación multilingüe. Para facilitar la reproducibilidad y promover la investigación y desarrollo impulsados por la comunidad, los modelos de Qwen3 Embedding están disponibles públicamente bajo la licencia Apache 2.0.
Los modelos emergentes de mundos generan autoregresivamente fotogramas de video en respuesta a acciones, como movimientos de cámara y prompts de texto, entre otras señales de control. Debido al tamaño limitado de las ventanas de contexto temporal, estos modelos a menudo tienen dificultades para mantener la coherencia de la escena durante las revisiones, lo que lleva a un olvido severo de los entornos previamente generados. Inspirados por los mecanismos de la memoria humana, introducimos un marco novedoso para mejorar la coherencia a largo plazo de los modelos de mundos de video mediante una memoria espacial a largo plazo basada en geometría. Nuestro marco incluye mecanismos para almacenar y recuperar información de la memoria espacial a largo plazo, y hemos creado conjuntos de datos personalizados para entrenar y evaluar modelos de mundos con mecanismos de memoria 3D explícitamente almacenados. Nuestras evaluaciones muestran una mejora en la calidad, coherencia y longitud del contexto en comparación con líneas de base relevantes, allanando el camino hacia la generación de mundos con coherencia a largo plazo.
La referencia espacial es una capacidad fundamental de los robots corporizados para interactuar con el mundo físico en 3D. Sin embargo, incluso con los potentes modelos de lenguaje visual preentrenados (VLMs, por sus siglas en inglés), los enfoques recientes aún no están calificados para comprender con precisión las escenas 3D complejas y razonar dinámicamente sobre las ubicaciones indicadas en las instrucciones para la interacción. Con este fin, proponemos RoboRefer, un VLM consciente del espacio 3D que puede lograr primero una comprensión espacial precisa mediante la integración de un codificador de profundidad desacoplado pero dedicado a través de un ajuste fino supervisado (SFT, por sus siglas en inglés). Además, RoboRefer avanza en el razonamiento espacial generalizado de múltiples pasos mediante un ajuste fino por refuerzo (RFT, por sus siglas en inglés), con funciones de recompensa del proceso sensibles a métricas diseñadas específicamente para tareas de referencia espacial. Para respaldar el entrenamiento de SFT y RFT, presentamos RefSpatial, un conjunto de datos a gran escala de 20 millones de pares de preguntas y respuestas (2 veces más que los anteriores), que cubre 31 relaciones espaciales (frente a 15 anteriores) y admite procesos de razonamiento complejos (hasta 5 pasos). Además, introducimos RefSpatial-Bench, un punto de referencia desafiante que llena el vacío en la evaluación de la referencia espacial con razonamiento de múltiples pasos. Los experimentos muestran que RoboRefer entrenado con SFT alcanza una comprensión espacial de vanguardia, con una tasa de éxito promedio del 89,6%. RoboRefer entrenado con RFT supera aún más a todas las demás líneas base por un amplio margen, incluso superando a Gemini-2.5-Pro en un 17,4% en precisión promedio en RefSpatial-Bench. Notablemente, RoboRefer puede integrarse con diversas políticas de control para ejecutar tareas dinámicas de largo alcance en diversos robots (por ejemplo, UR5, humanoide G1) en escenarios del mundo real desordenados.
Los modelos Transformer enfrentan dificultades en la inferencia de contextos largos debido a su complejidad cuadrática en tiempo y lineal en memoria. Los Transformers con Memoria Recurrente (RMTs) ofrecen una solución al reducir el costo asintótico a tiempo lineal y uso de memoria constante. Sin embargo, su mecanismo de actualización de memoria conduce a una ejecución secuencial, lo que genera un cuello de botella en el rendimiento. Introducimos el *Diagonal Batching*, un esquema de planificación que desbloquea el paralelismo entre segmentos en los RMTs mientras preserva la recurrencia exacta. Este enfoque elimina la restricción secuencial, permitiendo una inferencia eficiente en GPU incluso para entradas de contexto largo individuales, sin necesidad de técnicas complejas de batching y pipelining. Dado que esta técnica es únicamente una reordenación computacional en tiempo de ejecución, los modelos RMT existentes pueden adoptarla sin necesidad de reentrenamiento. Aplicado a un modelo LLaMA-1B ARMT, el *Diagonal Batching* logra una aceleración de 3.3x en comparación con la implementación estándar de atención completa de LLaMA-1B y una aceleración de 1.8x sobre la implementación secuencial de RMT en secuencias de 131,072 tokens. Al eliminar el cuello de botella secuencial, el *Diagonal Batching* reduce el costo y la latencia de inferencia, fortaleciendo así a los RMTs como una solución práctica para aplicaciones del mundo real con contextos largos.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) suelen entrenarse con cantidades enormes de texto no licenciado, una práctica que ha generado escrutinio debido a posibles infracciones de propiedad intelectual y preocupaciones éticas. Entrenar LLMs con texto bajo licencias abiertas representa un primer paso para abordar estos problemas, pero los esfuerzos previos de recopilación de datos han producido conjuntos de datos demasiado pequeños o de baja calidad para generar LLMs eficientes. Para cerrar esta brecha, recopilamos, organizamos y publicamos el Common Pile v0.1, una colección de ocho terabytes de texto bajo licencias abiertas diseñada para el preentrenamiento de LLMs. El Common Pile incluye contenido de 30 fuentes que abarcan diversos dominios, como artículos de investigación, código, libros, enciclopedias, materiales educativos, transcripciones de audio y más. De manera crucial, validamos nuestros esfuerzos entrenando dos LLMs de 7 mil millones de parámetros con texto del Common Pile: Comma v0.1-1T y Comma v0.1-2T, entrenados con 1 y 2 billones de tokens, respectivamente. Ambos modelos alcanzan un rendimiento competitivo en comparación con LLMs entrenados con texto no licenciado y con presupuestos computacionales similares, como Llama 1 y 2 7B. Además de publicar el Common Pile v0.1, también liberamos el código utilizado en su creación, así como la mezcla de entrenamiento y los puntos de control para los modelos Comma v0.1.
Presentamos Surfer-H, un agente web eficiente en costos que integra Modelos de Visión-Lenguaje (VLM) para realizar tareas definidas por el usuario en la web. Lo combinamos con Holo1, una nueva colección de VLMs de pesos abiertos especializada en navegación web y extracción de información. Holo1 fue entrenado con fuentes de datos cuidadosamente seleccionadas, que incluyen contenido web de acceso abierto, ejemplos sintéticos y datos agenticos autogenerados. Holo1 lidera los benchmarks generalistas de Interfaz de Usuario (UI), así como nuestro nuevo benchmark de localización de UI web, WebClick. Cuando es impulsado por Holo1, Surfer-H alcanza un rendimiento de vanguardia del 92.2% en WebVoyager, logrando un equilibrio Pareto-óptimo entre precisión y eficiencia en costos. Para acelerar el avance de la investigación en sistemas agenticos, estamos liberando tanto nuestro conjunto de datos de evaluación WebClick como los pesos del modelo Holo1.
El escalado en tiempo de inferencia intercambia eficiencia por una mayor precisión en el razonamiento al generar secuencias más largas o más paralelas. Sin embargo, en los modelos de lenguaje grandes (LLM) basados en Transformers, el costo de generación está limitado por el tamaño de la caché de clave-valor (KV), en lugar del número de tokens generados. Por lo tanto, exploramos el hiper-escalado en tiempo de inferencia: al comprimir la caché KV, podemos generar más tokens dentro del mismo presupuesto computacional y mejorar aún más la precisión del escalado de inferencia. El éxito de este enfoque, sin embargo, depende de la capacidad de los métodos de compresión para preservar la precisión incluso en ratios de compresión elevados. Para hacer que el hiper-escalado sea práctico, introducimos la Esparsificación Dinámica de Memoria (DMS, por sus siglas en inglés), un método novedoso para esparsificar las cachés KV que solo requiere 1,000 pasos de entrenamiento para lograr una compresión de 8 veces, manteniendo una mejor precisión que la atención dispersa sin entrenamiento. En lugar de descartar prematuramente los tokens almacenados en caché, DMS retrasa la eliminación de tokens, fusionando implícitamente representaciones y preservando información crítica. Demostramos la efectividad del hiper-escalado en tiempo de inferencia con DMS en múltiples familias de LLM, mostrando que aumenta la precisión para un tiempo de inferencia y carga de memoria comparables. Por ejemplo, mejoramos Qwen-R1 32B en un promedio de 9.1 puntos en AIME 24, 7.6 en GPQA y 9.6 en LiveCodeBench en diferentes presupuestos computacionales.
Este artículo presenta un marco novedoso para alinear espacios latentes aprendibles con distribuciones objetivo arbitrarias mediante el uso de modelos generativos basados en flujos como priores. Nuestro método primero preentrena un modelo de flujo sobre las características objetivo para capturar la distribución subyacente. Este modelo de flujo fijo luego regulariza el espacio latente a través de una pérdida de alineación, que reformula el objetivo de emparejamiento de flujos para tratar los latentes como objetivos de optimización. Formalmente demostramos que minimizar esta pérdida de alineación establece un objetivo sustituto computacionalmente manejable para maximizar una cota inferior variacional de la log-verosimilitud de los latentes bajo la distribución objetivo. Notablemente, el método propuesto elimina las evaluaciones computacionalmente costosas de verosimilitud y evita la resolución de ecuaciones diferenciales ordinarias durante la optimización. Como prueba de concepto, demostramos en un entorno controlado que el panorama de la pérdida de alineación se aproxima estrechamente a la log-verosimilitud negativa de la distribución objetivo. Además, validamos la efectividad de nuestro enfoque mediante experimentos de generación de imágenes a gran escala en ImageNet con diversas distribuciones objetivo, acompañados de discusiones detalladas y estudios de ablación. Con validación tanto teórica como empírica, nuestro marco abre un nuevo camino para la alineación de espacios latentes.
El razonamiento matemático en entornos de video del mundo real presenta un desafío fundamentalmente diferente al de las imágenes estáticas o el texto. Requiere interpretar información visual detallada, leer con precisión texto manuscrito o digital, e integrar pistas habladas, a menudo dispersas de manera no lineal en el tiempo. En tales contextos multimodales, el éxito no depende únicamente de la percepción, sino de identificar e integrar selectivamente los detalles contextuales correctos de un flujo rico y ruidoso de contenido. Con este fin, presentamos VideoMathQA, un punto de referencia diseñado para evaluar si los modelos pueden realizar este tipo de razonamiento multimodal extendido temporalmente en videos. El punto de referencia abarca 10 dominios matemáticos diversos, cubriendo videos que van desde 10 segundos hasta más de una hora. Requiere que los modelos interpreten contenido visual estructurado, comprendan narrativas instructivas y fundamenten conceptos conjuntamente a través de las modalidades visual, auditiva y textual. Empleamos expertos de nivel de posgrado para garantizar alta calidad, totalizando más de 920 horas-hombre de anotación. Para reflejar escenarios del mundo real, las preguntas están diseñadas en torno a tres desafíos centrales de razonamiento: resolución directa de problemas, donde las respuestas se basan en la pregunta presentada; transferencia conceptual, que requiere aplicar métodos aprendidos a nuevos problemas; y comprensión profunda de instrucciones, que implica razonamiento de múltiples pasos sobre explicaciones extendidas y soluciones parcialmente desarrolladas. Cada pregunta incluye anotaciones de razonamiento de múltiples pasos, permitiendo un diagnóstico detallado de las capacidades del modelo. A través de este punto de referencia, destacamos las limitaciones de los enfoques existentes y establecemos un marco de evaluación sistemático para modelos que deben razonar, en lugar de simplemente percibir, en entornos de problemas matemáticos ricos en modalidades y extendidos temporalmente. Nuestro punto de referencia y código de evaluación están disponibles en: https://mbzuai-oryx.github.io/VideoMathQA
Los recientes avances en los modelos de difusión de texto a video (T2V) han permitido la síntesis de videos de alta fidelidad y realismo. Sin embargo, los modelos T2V actuales a menudo tienen dificultades para generar contenido físicamente plausible debido a su capacidad inherente limitada para comprender con precisión la física. Descubrimos que, aunque las representaciones dentro de los modelos T2V poseen cierta capacidad para entender la física, están significativamente por detrás de las obtenidas mediante métodos recientes de aprendizaje autosupervisado en video. Con este fin, proponemos un marco novedoso llamado VideoREPA, que destila la capacidad de comprensión física de modelos fundamentales de comprensión de video en modelos T2V mediante la alineación de relaciones a nivel de tokens. Esto cierra la brecha en la comprensión física y permite una generación más plausible desde el punto de vista físico. Específicamente, introducimos la pérdida de Distilación de Relaciones de Tokens (TRD), aprovechando la alineación espacio-temporal para proporcionar una guía suave adecuada para el ajuste fino de modelos T2V preentrenados potentes, un enfoque críticamente diferente de los métodos previos de alineación de representaciones (REPA). Hasta donde sabemos, VideoREPA es el primer método REPA diseñado para el ajuste fino de modelos T2V y específicamente para inyectar conocimiento físico. Las evaluaciones empíricas muestran que VideoREPA mejora sustancialmente el sentido común físico del método base, CogVideoX, logrando una mejora significativa en los benchmarks relevantes y demostrando una fuerte capacidad para generar videos consistentes con la física intuitiva. Más resultados de video están disponibles en https://videorepa.github.io/.
A pesar de los avances en la comprensión de videos, los modelos de lenguaje multimodal (MLLMs) actuales tienen dificultades con las tareas de conteo. Los puntos de referencia existentes están limitados por videos cortos, consultas de conjunto cerrado, falta de anotaciones de pistas y una cobertura multimodal débil. En este artículo, presentamos CG-AV-Counting, un punto de referencia de conteo basado en pistas y anotado manualmente, que incluye 1,027 preguntas multimodales y 5,845 pistas anotadas en 497 videos largos. Este soporta tanto la evaluación de caja negra como de caja blanca, sirviendo como un banco de pruebas integral para el conteo tanto de extremo a extremo como basado en razonamiento. Para explorar formas de mejorar la capacidad de conteo de los modelos, proponemos AV-Reasoner, un modelo entrenado con GRPO y aprendizaje curricular para generalizar la habilidad de conteo a partir de tareas relacionadas. AV-Reasoner logra resultados de vanguardia en múltiples puntos de referencia, demostrando la efectividad del aprendizaje por refuerzo. Sin embargo, los experimentos muestran que, en puntos de referencia fuera del dominio, el razonamiento en el espacio del lenguaje no aporta mejoras en el rendimiento. El código y el punto de referencia han sido publicados en https://av-reasoner.github.io.
Los modelos de razonamiento representados por la serie Deepseek-R1-Distill han sido ampliamente adoptados por la comunidad de código abierto debido a su destacado rendimiento en matemáticas, ciencias, programación y otros dominios. Sin embargo, nuestro estudio revela que los resultados de su evaluación comparativa están sujetos a fluctuaciones significativas causadas por diversos factores. Diferencias sutiles en las condiciones de evaluación pueden generar variaciones sustanciales en los resultados. Fenómenos similares se observan en otros modelos de inferencia de código abierto ajustados a partir de la serie Deepseek-R1-Distill, así como en el modelo QwQ-32B, lo que dificulta la reproducción confiable de las mejoras de rendimiento que afirman. Por lo tanto, abogamos por el establecimiento de un paradigma más riguroso para la evaluación del rendimiento de los modelos y presentamos nuestras evaluaciones empíricas de los modelos de la serie Deepseek-R1-Distill.
La cognición espacial es fundamental para la inteligencia humana, permitiendo la resolución de problemas mediante simulaciones visuales en lugar de depender únicamente del razonamiento verbal. Sin embargo, los benchmarks existentes en IA evalúan principalmente el razonamiento verbal, descuidando las complejidades de la simulación visual no verbal y de múltiples pasos. Presentamos STARE (Spatial Transformations and Reasoning Evaluation), un benchmark diseñado para evaluar rigurosamente modelos de lenguaje multimodal en tareas que se resuelven mejor mediante simulaciones visuales de múltiples pasos. STARE incluye 4K tareas que abarcan transformaciones geométricas fundamentales (2D y 3D), razonamiento espacial integrado (plegado de redes de cubos y rompecabezas de tangram) y razonamiento espacial del mundo real (perspectiva y razonamiento temporal), reflejando desafíos cognitivos prácticos como el ensamblaje de objetos, la interpretación de diagramas mecánicos y la navegación espacial cotidiana. Nuestras evaluaciones muestran que los modelos sobresalen en el razonamiento sobre transformaciones 2D más simples, pero su rendimiento es cercano al azar en tareas más complejas como el plegado de redes de cubos 3D y los rompecabezas de tangram, que requieren simulaciones visuales de múltiples pasos. Los humanos logran una precisión casi perfecta, pero tardan un tiempo considerable (hasta 28.9 segundos) en tareas complejas, acelerándose significativamente (en promedio 7.5 segundos menos) con simulaciones visuales intermedias. En contraste, los modelos muestran ganancias de rendimiento inconsistentes con las simulaciones visuales, mejorando en la mayoría de las tareas pero disminuyendo en casos específicos como los rompecabezas de tangram (GPT-4o, o1) y el plegado de redes de cubos (Claude-3.5, Gemini-2.0 Flash), lo que indica que los modelos podrían no saber cómo aprovechar efectivamente la información visual intermedia.
Los modelos de lenguaje aumentados con búsqueda combinan la búsqueda web con modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para mejorar la fundamentación y actualidad de las respuestas. Sin embargo, analizar estos sistemas sigue siendo un desafío: los conjuntos de datos existentes son limitados en escala y estrechos en alcance, a menudo restringidos a preguntas estáticas, de un solo turno y de verificación de hechos. En este trabajo, presentamos Search Arena, un conjunto de datos a gran escala y de preferencias humanas, creado mediante crowdsourcing, que contiene más de 24,000 interacciones de usuarios de múltiples turnos con LLMs aumentados con búsqueda. El conjunto de datos abarca diversas intenciones y lenguajes, e incluye trazas completas del sistema con alrededor de 12,000 votos de preferencia humana. Nuestro análisis revela que las preferencias de los usuarios están influenciadas por el número de citas, incluso cuando el contenido citado no respalda directamente las afirmaciones atribuidas, lo que expone una brecha entre la credibilidad percibida y la real. Además, las preferencias de los usuarios varían según las fuentes citadas, mostrando que las plataformas impulsadas por la comunidad son generalmente preferidas, mientras que las fuentes enciclopédicas estáticas no siempre son apropiadas y confiables. Para evaluar el rendimiento en diferentes contextos, realizamos análisis cruzados probando LLMs aumentados con búsqueda en un entorno de chat de propósito general y LLMs convencionales en entornos intensivos en búsqueda. Descubrimos que la búsqueda web no degrada y puede incluso mejorar el rendimiento en entornos no relacionados con búsqueda; sin embargo, la calidad en entornos de búsqueda se ve significativamente afectada si se depende únicamente del conocimiento paramétrico del modelo. Hemos liberado el conjunto de datos para apoyar futuras investigaciones en esta dirección. Nuestro conjunto de datos y código están disponibles en: https://github.com/lmarena/search-arena.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) se derivan comúnmente al extender Modelos de Lenguaje de Gran Escala (LLMs) preentrenados con capacidades visuales. En este trabajo, investigamos cómo los MLLMs procesan entradas visuales analizando sus mecanismos de atención. Revelamos un fenómeno de esparsidad sorprendente: solo un pequeño subconjunto (aproximadamente menos del 5%) de las cabezas de atención en los LLMs contribuye activamente a la comprensión visual, denominadas cabezas visuales. Para identificar estas cabezas de manera eficiente, diseñamos un marco de trabajo sin entrenamiento que cuantifica la relevancia visual a nivel de cabeza mediante un análisis de respuestas dirigido. Basándonos en este descubrimiento, introducimos SparseMM, una estrategia de optimización de KV-Cache que asigna presupuestos de cálculo asimétricos a las cabezas en los LLMs según sus puntuaciones visuales, aprovechando la esparsidad de las cabezas visuales para acelerar la inferencia de los MLLMs. En comparación con métodos previos de aceleración de KV-Cache que ignoran la particularidad de lo visual, SparseMM prioriza la retención y preservación de la semántica visual durante la decodificación. Evaluaciones exhaustivas en benchmarks multimodales principales demuestran que SparseMM logra un equilibrio superior entre precisión y eficiencia. Notablemente, SparseMM ofrece una aceleración en tiempo real de 1.38x y una reducción de memoria del 52% durante la generación, manteniendo un rendimiento equivalente en pruebas de eficiencia. Nuestro proyecto es de código abierto en https://github.com/CR400AF-A/SparseMM.
Entrenar modelos de lenguaje en datos de secuencias largas es un requisito exigente para mejorar la capacidad del modelo en tareas complejas, como el razonamiento de cadena larga. Sin embargo, a medida que la longitud de la secuencia aumenta, el costo de memoria para almacenar los valores de activación se vuelve enorme durante el proceso de Retropropagación (BP), incluso con la aplicación de la técnica de checkpointing de gradientes. Para abordar este desafío, proponemos un método de BP eficiente en memoria y exacto llamado StreamBP, que realiza una descomposición lineal de la regla de la cadena a lo largo de la dimensión de la secuencia de manera capa por capa, reduciendo significativamente el costo de memoria de los valores de activación y logits. El método propuesto es aplicable a objetivos comunes como SFT, GRPO y DPO. Desde una perspectiva de implementación, StreamBP logra menos operaciones de punto flotante (FLOPs) y una velocidad de BP más rápida al aprovechar la estructura causal del modelo de lenguaje. En comparación con el checkpointing de gradientes, StreamBP escala la longitud máxima de secuencia de BP entre 2.8 y 5.5 veces más, mientras utiliza un tiempo de BP comparable o incluso menor. Cabe destacar que la capacidad de escalado de longitud de secuencia de StreamBP puede transferirse directamente al escalado del tamaño del lote para acelerar el entrenamiento. Además, desarrollamos una versión distribuida de StreamBP eficiente en comunicación para apoyar efectivamente el entrenamiento multi-GPU y ampliar su aplicabilidad. Nuestro código puede integrarse fácilmente en la tubería de entrenamiento de cualquier modelo transformador y está disponible en https://github.com/Ledzy/StreamBP.
El surgimiento de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) ha impulsado avances significativos en aplicaciones de visión egocéntrica. Estas aplicaciones requieren una comprensión persistente y consciente del contexto de los objetos, ya que los usuarios interactúan con herramientas en entornos dinámicos y desordenados. Sin embargo, los puntos de referencia existentes en sistemas encarnados se centran principalmente en la exploración de escenas estáticas, enfatizando la apariencia y los atributos espaciales de los objetos, mientras descuidan la evaluación de los cambios dinámicos resultantes de las interacciones de los usuarios. Para abordar esta brecha, presentamos EOC-Bench, un punto de referencia innovador diseñado para evaluar sistemáticamente la cognición encarnada centrada en objetos en escenarios egocéntricos dinámicos. Específicamente, EOC-Bench incluye 3,277 pares de preguntas y respuestas meticulosamente anotados, categorizados en tres categorías temporales: Pasado, Presente y Futuro, abarcando 11 dimensiones de evaluación detalladas y 3 tipos de referenciación visual de objetos. Para garantizar una evaluación exhaustiva, desarrollamos un marco de anotación con participación humana en el bucle, que incluye cuatro tipos de preguntas, y diseñamos una nueva métrica de precisión temporal multiescala para la evaluación temporal de respuestas abiertas. Basándonos en EOC-Bench, llevamos a cabo evaluaciones exhaustivas de varios MLLMs propietarios, de código abierto y a nivel de objeto. EOC-Bench se erige como una herramienta crucial para avanzar en las capacidades cognitivas encarnadas de los MLLMs, estableciendo una base sólida para el desarrollo de modelos centrales confiables para sistemas encarnados.
La producción de mapas de texturas es una parte fundamental del modelado 3D y determina la calidad del renderizado. Recientemente, los métodos basados en difusión han abierto un nuevo camino para la generación de texturas. Sin embargo, la flexibilidad de control limitada y las modalidades de instrucción restringidas pueden impedir que los creadores obtengan los resultados deseados. Además, las inconsistencias entre las imágenes generadas desde múltiples vistas suelen dar lugar a una calidad deficiente en la generación de texturas. Para abordar estos problemas, presentamos FlexPainter, una novedosa pipeline de generación de texturas que permite una guía condicional multimodal flexible y logra una generación de texturas altamente consistente. Se construye un espacio de incrustación condicional compartido para realizar una agregación flexible entre diferentes modalidades de entrada. Utilizando este espacio de incrustación, presentamos un método de guía condicional basado en imágenes (CFG) para descomponer la información estructural y de estilo, logrando una estilización basada en imágenes de referencia. Aprovechando el conocimiento 3D dentro del prior de difusión de imágenes, primero generamos imágenes de múltiples vistas simultáneamente utilizando una representación en cuadrícula para mejorar la comprensión global. Al mismo tiempo, proponemos un módulo de sincronización de vistas y ponderación adaptativa durante el muestreo de difusión para garantizar aún más la consistencia local. Finalmente, se utiliza un modelo de completado de texturas 3D combinado con un modelo de mejora de texturas para generar mapas de texturas sin costuras y de alta resolución. Experimentos exhaustivos demuestran que nuestro marco supera significativamente a los métodos más avanzados tanto en flexibilidad como en calidad de generación.
El razonamiento en cadena (Chain-of-Thought, CoT) ha mejorado ampliamente el razonamiento matemático en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), pero sigue siendo un desafío extenderlo a dominios multimodales. Los trabajos existentes adoptan un razonamiento textual similar para entradas de imágenes o buscan intercalar señales visuales en el CoT matemático. Sin embargo, enfrentan tres limitaciones clave para la resolución de problemas matemáticos: la dependencia de regiones de imágenes de forma rectangular de grano grueso, la percepción limitada de los codificadores visuales sobre el contenido matemático y la dependencia de capacidades externas para la modificación visual. En este artículo, proponemos MINT-CoT, introduciendo Tokens Matemáticos Intercalados (Mathematical INterleaved Tokens) para el razonamiento visual en cadena. MINT-CoT intercala de manera adaptativa tokens visuales relevantes en los pasos de razonamiento textual mediante un Token de Intercalado, que selecciona dinámicamente regiones visuales de cualquier forma dentro de figuras matemáticas. Para potenciar esta capacidad, construimos el conjunto de datos MINT-CoT, que contiene 54K problemas matemáticos alineando cada paso de razonamiento con regiones visuales a nivel de token, junto con una rigurosa pipeline de generación de datos. Además, presentamos una estrategia de entrenamiento de tres etapas para MINT-CoT, combinando progresivamente el ajuste fino de CoT solo con texto (text-only CoT SFT), el ajuste fino de CoT intercalado (interleaved CoT SFT) y el aprendizaje por refuerzo de CoT intercalado (interleaved CoT RL), lo que deriva en nuestro modelo MINT-CoT-7B. Experimentos extensivos demuestran la efectividad de nuestro método para un razonamiento visual intercalado efectivo en dominios matemáticos, donde MINT-CoT-7B supera al modelo de referencia en +34.08% en MathVista, +28.78% en GeoQA y +23.2% en MMStar, respectivamente. Nuestro código y datos están disponibles en https://github.com/xinyan-cxy/MINT-CoT.
Los mapas de profundidad son ampliamente utilizados en las canalizaciones de proyección de Gaussianas 3D (3DGS) de avance directo al desproyectarlos en nubes de puntos 3D para la síntesis de nuevas vistas. Este enfoque ofrece ventajas como un entrenamiento eficiente, el uso de poses de cámara conocidas y una estimación precisa de la geometría. Sin embargo, las discontinuidades de profundidad en los límites de los objetos a menudo generan nubes de puntos fragmentadas o dispersas, lo que degrada la calidad del renderizado, una limitación bien conocida de las representaciones basadas en profundidad. Para abordar este problema, presentamos PM-Loss, una nueva pérdida de regularización basada en un mapa de puntos predicho por un transformador preentrenado. Aunque el mapa de puntos en sí puede ser menos preciso que el mapa de profundidad, impone eficazmente suavidad geométrica, especialmente alrededor de los límites de los objetos. Con el mapa de profundidad mejorado, nuestro método mejora significativamente la 3DGS de avance directo en diversas arquitecturas y escenas, ofreciendo resultados de renderizado consistentemente mejores. Nuestra página del proyecto: https://aim-uofa.github.io/PMLoss.
Actualmente, el enfoque más dominante para establecer la alineación entre lenguaje e imagen consiste en preentrenar conjuntamente codificadores de texto e imagen mediante aprendizaje contrastivo, como CLIP y sus variantes. En este trabajo, cuestionamos si un entrenamiento conjunto tan costoso es realmente necesario. En particular, investigamos si un modelo de lenguaje grande (LLM) preentrenado y fijo ofrece un codificador de texto lo suficientemente bueno para guiar el aprendizaje de representaciones visuales. Es decir, proponemos aprender la alineación entre lenguaje e imagen con un codificador de texto fijo (LIFT) proveniente de un LLM, entrenando únicamente el codificador de imagen. Sorprendentemente, a través de evaluaciones exhaustivas y estudios de ablación, encontramos que este marco simplificado, LIFT, es altamente efectivo y supera a CLIP en la mayoría de los escenarios que involucran comprensión composicional y descripciones largas, al mismo tiempo que logra ganancias considerables en eficiencia computacional. Nuestro trabajo da un primer paso hacia la exploración sistemática de cómo las incrustaciones de texto de LLMs pueden guiar el aprendizaje visual y sugiere una alternativa de diseño para aprender representaciones visuales alineadas con el lenguaje.
Los modelos de generación de imágenes autorregresivos (AR) han ganado creciente atención debido a sus avances en la calidad de síntesis, lo que resalta la necesidad de técnicas robustas de marcado de agua para prevenir su mal uso. Sin embargo, las técnicas de marcado de agua durante la generación existentes están principalmente diseñadas para modelos de difusión, donde las marcas de agua se incrustan en los estados latentes de difusión. Este diseño presenta desafíos significativos para su adaptación directa a los modelos AR, que generan imágenes de manera secuencial mediante la predicción de tokens. Además, los ataques de regeneración basados en difusión pueden eliminar eficazmente dichas marcas de agua al perturbar los estados latentes de difusión. Para abordar estos desafíos, proponemos el Marcado de Agua con Sesgo Léxico (LBW, por sus siglas en inglés), un marco novedoso diseñado para modelos AR que resiste los ataques de regeneración. LBW incrusta marcas de agua directamente en los mapas de tokens al sesgar la selección de tokens hacia una lista verde predefinida durante la generación. Este enfoque garantiza una integración fluida con los modelos AR existentes y se extiende naturalmente al marcado de agua posterior. Para aumentar la seguridad frente a ataques de caja blanca, en lugar de utilizar una única lista verde, la lista verde para cada imagen se selecciona aleatoriamente de un conjunto de listas verdes. La detección de la marca de agua se realiza mediante cuantización y análisis estadístico de la distribución de tokens. Experimentos exhaustivos demuestran que LBW logra una robustez superior en el marcado de agua, especialmente al resistir ataques de regeneración.
La generación y edición de retratos parlantes condicionados por audio guiados por entradas multimodales, incluyendo texto, imágenes y videos, sigue siendo un área poco explorada. En este artículo, presentamos SkyReels-Audio, un marco unificado para sintetizar videos de retratos parlantes de alta fidelidad y coherencia temporal. Basado en transformadores de difusión de video preentrenados, nuestro marco soporta generación y edición de longitud infinita, al tiempo que permite un condicionamiento diverso y controlable a través de entradas multimodales. Empleamos una estrategia híbrida de aprendizaje curricular para alinear progresivamente el audio con el movimiento facial, permitiendo un control multimodal de grano fino sobre secuencias de video largas. Para mejorar la coherencia facial local, introducimos una pérdida de máscara facial y un mecanismo de guía libre de clasificador guiado por audio. Un enfoque de eliminación de ruido por ventana deslizante fusiona además representaciones latentes a través de segmentos temporales, asegurando fidelidad visual y consistencia temporal en duraciones extendidas y diversas identidades. Más importante aún, construimos una canalización de datos dedicada para curar tripletas de alta calidad que consisten en audio, video y descripciones textuales sincronizadas. Evaluaciones exhaustivas de referencia muestran que SkyReels-Audio logra un rendimiento superior en precisión de sincronización labial, consistencia de identidad y dinámicas faciales realistas, particularmente bajo condiciones complejas y desafiantes.
Este artículo aborda el desafío de reconstruir escenas 3D dinámicas con movimientos complejos. Algunos trabajos recientes definen primitivas gaussianas 3D en el espacio canónico y utilizan campos de deformación para mapear las primitivas canónicas a espacios de observación, logrando una síntesis dinámica de vistas en tiempo real. Sin embargo, estos métodos suelen tener dificultades para manejar escenas con movimientos complejos debido a la dificultad de optimizar los campos de deformación. Para superar este problema, proponemos FreeTimeGS, una novedosa representación 4D que permite que las primitivas gaussianas aparezcan en tiempos y ubicaciones arbitrarios. A diferencia de las primitivas gaussianas canónicas, nuestra representación posee una gran flexibilidad, mejorando así la capacidad de modelar escenas 3D dinámicas. Además, dotamos a cada primitiva gaussiana de una función de movimiento, permitiéndole desplazarse a regiones vecinas a lo largo del tiempo, lo que reduce la redundancia temporal. Los resultados de los experimentos en varios conjuntos de datos muestran que la calidad de renderizado de nuestro método supera ampliamente a los métodos recientes.
Replanteamos las leyes de escalamiento en tiempo de prueba desde una perspectiva de eficiencia práctica, revelando que la efectividad de los modelos más pequeños está significativamente sobreestimada. Trabajos previos, basados en la optimalidad de cómputo, pasan por alto cuellos de botella críticos en el acceso a la memoria introducidos por estrategias en tiempo de inferencia (por ejemplo, Best-of-N, CoTs largos). Nuestro análisis holístico, que abarca modelos desde 0.6B hasta 32B parámetros, revela una nueva Ley de Escalamiento Cinético que guía mejor la asignación de recursos al incorporar tanto los costos de cómputo como los de acceso a la memoria. La Ley de Escalamiento Cinético sugiere que el cómputo en tiempo de prueba es más efectivo cuando se utiliza en modelos por encima de un umbral que en los más pequeños. Una razón clave es que, en TTS, la atención, en lugar del número de parámetros, surge como el factor de costo dominante. Motivados por esto, proponemos un nuevo paradigma de escalamiento centrado en la atención dispersa, que reduce el costo por token y permite generaciones más largas y más muestras paralelas dentro del mismo presupuesto de recursos. Empíricamente, demostramos que los modelos de atención dispersa superan consistentemente a sus contrapartes densas, logrando ganancias de más de 60 puntos en regímenes de bajo costo y más de 5 puntos en regímenes de alto costo para la precisión en la resolución de problemas en AIME, incluyendo evaluaciones en MoEs de última generación. Estos resultados sugieren que la atención dispersa es esencial para alcanzar el potencial completo del escalamiento en tiempo de prueba porque, a diferencia del entrenamiento, donde el escalamiento de parámetros se satura, la precisión en tiempo de prueba continúa mejorando a través de una mayor generación. El código está disponible en https://github.com/Infini-AI-Lab/Kinetics.
La composición general de objetos (GOC, por sus siglas en inglés) tiene como objetivo integrar de manera fluida un objeto objetivo en una escena de fondo con propiedades geométricas deseadas, preservando simultáneamente los detalles de apariencia a nivel fino. Los enfoques recientes derivan incrustaciones semánticas y las integran en modelos avanzados de difusión para permitir la generación editable en términos de geometría. Sin embargo, estas incrustaciones altamente compactas codifican solo señales semánticas de alto nivel y descartan inevitablemente los detalles de apariencia a nivel fino. Introducimos un modelo de Difusión Desacoplada Editable en Geometría y Preservadora de Apariencia (DGAD, por sus siglas en inglés) que primero aprovecha las incrustaciones semánticas para capturar implícitamente las transformaciones geométricas deseadas y luego emplea un mecanismo de recuperación de atención cruzada para alinear las características de apariencia a nivel fino con la representación editada en geometría, facilitando tanto la edición precisa de la geometría como la preservación fiel de la apariencia en la composición de objetos. Específicamente, DGAD se basa en redes derivadas de CLIP/DINO y redes de referencia para extraer incrustaciones semánticas y representaciones que preservan la apariencia, las cuales se integran de manera desacoplada en las canalizaciones de codificación y decodificación. Primero, integramos las incrustaciones semánticas en modelos de difusión preentrenados que exhiben fuertes capacidades de razonamiento espacial para capturar implícitamente la geometría del objeto, facilitando así la manipulación flexible del objeto y asegurando una editabilidad efectiva. Luego, diseñamos un mecanismo de atención cruzada densa que aprovecha la geometría del objeto aprendida implícitamente para recuperar y alinear espacialmente las características de apariencia con sus regiones correspondientes, asegurando una consistencia fiel en la apariencia. Experimentos extensos en benchmarks públicos demuestran la efectividad del marco DGAD propuesto.
En los estudios sobre aprendizaje transferible, se obtienen leyes de escalamiento para diversos modelos fundamentales importantes con el fin de predecir sus propiedades y rendimiento a escalas mayores. Aquí demostramos cómo la derivación de leyes de escalamiento también puede utilizarse para la comparación de modelos y conjuntos de datos, permitiendo decidir qué procedimiento es preferible para el preentrenamiento. Por primera vez, se derivan leyes de escalamiento completas basadas en mediciones densas a lo largo de un amplio rango de escalas de modelos y muestras observadas para dos procedimientos importantes de aprendizaje lenguaje-visión, CLIP y MaMMUT, que utilizan pérdidas generativas de texto ya sea solo contrastivas o contrastivas y de subtitulación. Asegurando una precisión de predicción suficiente para puntos retenidos, utilizamos las leyes de escalamiento derivadas para comparar ambos modelos, obteniendo evidencia de una mejora más fuerte de MaMMUT con la escala y una mejor eficiencia de muestreo en comparación con CLIP estándar. Para fortalecer la validez de la comparación, mostramos leyes de escalamiento para diversas tareas posteriores, clasificación, recuperación y segmentación, y para diferentes conjuntos de datos abiertos, DataComp, DFN y Re-LAION, observando consistentemente las mismas tendencias. Demostramos que la comparación también puede realizarse al derivar leyes de escalamiento con un programa de tasa de aprendizaje constante, reduciendo el costo computacional. La derivación precisa de leyes de escalamiento proporciona así medios para realizar comparaciones de modelos y conjuntos de datos a través de rangos de escalas, evitando conclusiones engañosas basadas únicamente en mediciones de escalas de referencia únicas, allanando el camino para la comparación sistemática y la mejora de modelos y conjuntos de datos abiertos para su creación. Publicamos todos los modelos preentrenados con sus puntos de control intermedios, incluyendo openMaMMUT-L/14, que alcanza un 80.3% de precisión en ImageNet-1k con cero disparos, entrenado en 12.8 mil millones de muestras de DataComp-1.4B. El código para reproducir los experimentos del artículo y los datos brutos de los experimentos se pueden encontrar en https://github.com/LAION-AI/scaling-laws-for-comparison.
Presentamos MedAgentGYM, el primer entorno de entrenamiento disponible públicamente diseñado para mejorar las capacidades de razonamiento médico basado en codificación en agentes de modelos de lenguaje de gran escala (LLM). MedAgentGYM comprende 72,413 instancias de tareas distribuidas en 129 categorías derivadas de escenarios biomédicos auténticos del mundo real. Las tareas están encapsuladas en entornos de codificación ejecutables, cada uno con descripciones detalladas de las tareas, mecanismos de retroalimentación interactiva, anotaciones verificables de referencia y generación escalable de trayectorias de entrenamiento. Un extenso benchmarking de más de 30 LLM revela una notable disparidad de rendimiento entre los modelos basados en API comerciales y sus contrapartes de código abierto. Al aprovechar MedAgentGYM, Med-Copilot-7B logra mejoras sustanciales en el rendimiento mediante ajuste fino supervisado (+36.44%) y aprendizaje por refuerzo continuo (+42.47%), emergiendo como una alternativa asequible y que preserva la privacidad, competitiva con gpt-4o. Al ofrecer tanto un benchmark integral como recursos de entrenamiento accesibles y expandibles dentro de entornos de ejecución unificados, MedAgentGYM proporciona una plataforma integrada para desarrollar asistentes de codificación basados en LLM para la investigación y práctica biomédica avanzada.
La mayoría de los codificadores visuales existentes mapean imágenes en una secuencia de tokens de longitud fija, pasando por alto el hecho de que diferentes imágenes contienen cantidades variables de información. Por ejemplo, una imagen visualmente compleja (por ejemplo, una habitación desordenada) inherentemente contiene más información y, por lo tanto, merece más tokens que una imagen simple (por ejemplo, una pared en blanco). Para abordar esta ineficiencia, proponemos DOVE, un codificador visual dinámico que produce un número variable de tokens visuales (es decir, vectores de representación continua) para reconstruir cada imagen. Nuestros resultados muestran que DOVE reduce significativamente el número promedio de tokens mientras mantiene una alta calidad de reconstrucción. En varias tareas de sondeo lineal y multimodal posteriores, supera a los métodos de tokenización basados en autocodificadores existentes al utilizar muchos menos tokens, capturando características semánticas más expresivas en comparación con la codificación de longitud fija. Además, extendemos DOVE con tokenización condicionada por consultas. Al guiar al modelo para que se enfoque en regiones relevantes para la consulta, se logra una extracción semántica más eficiente y dirigida. Nuestro código y puntos de control están disponibles en https://dove-encoder.github.io/dove-encoder.
El método de *3D Gaussian Splatting* (3DGS) ha captado una atención significativa por su capacidad de renderizado en tiempo real y fotorrealista en la síntesis de nuevas vistas y el modelado 3D. Sin embargo, los métodos existentes presentan dificultades para modelar con precisión escenas afectadas por objetos transitorios, lo que genera artefactos en las imágenes renderizadas. Identificamos que el proceso de densificación gaussiana, si bien mejora la captura de detalles de la escena, contribuye involuntariamente a estos artefactos al generar gaussianas adicionales que modelan perturbaciones transitorias. Para abordar este problema, proponemos *RobustSplat*, una solución robusta basada en dos diseños críticos. En primer lugar, introducimos una estrategia de crecimiento gaussiano retardado que prioriza la optimización de la estructura estática de la escena antes de permitir la división/clonación de gaussianas, mitigando así el sobreajuste a objetos transitorios en las primeras etapas de optimización. En segundo lugar, diseñamos un enfoque de arranque enmascarado en cascada de escalas que primero aprovecha la supervisión de similitud de características en baja resolución para obtener una estimación inicial confiable de la máscara transitoria, aprovechando su mayor consistencia semántica y robustez frente al ruido, y luego avanza hacia la supervisión en alta resolución para lograr una predicción de máscara más precisa. Experimentos exhaustivos en múltiples conjuntos de datos desafiantes muestran que nuestro método supera a los enfoques existentes, demostrando claramente la robustez y efectividad de nuestra propuesta. Nuestra página del proyecto está disponible en https://fcyycf.github.io/RobustSplat/.
A medida que se desarrolla la era de los agentes autónomos que toman decisiones en nombre de los usuarios, garantizar la integridad contextual (IC) —es decir, qué información es apropiada compartir al realizar una tarea específica— se convierte en una cuestión central en este campo. Postulamos que la IC exige una forma de razonamiento en la que el agente necesita reflexionar sobre el contexto en el que está operando. Para probar esto, primero solicitamos a los modelos de lenguaje grandes (LLM, por sus siglas en inglés) que razonen explícitamente sobre la IC al decidir qué información divulgar. Luego, ampliamos este enfoque desarrollando un marco de aprendizaje por refuerzo (RL, por sus siglas en inglés) que fomenta en los modelos el razonamiento necesario para alcanzar la IC. Utilizando un conjunto de datos sintético, creado automáticamente, de solo 700 ejemplos pero con diversos contextos y normas de divulgación de información, demostramos que nuestro método reduce sustancialmente la divulgación inapropiada de información mientras mantiene el rendimiento de la tarea en múltiples tamaños y familias de modelos. Es importante destacar que las mejoras se transfieren desde este conjunto de datos sintético a puntos de referencia establecidos de IC, como PrivacyLens, que cuenta con anotaciones humanas y evalúa la filtración de privacidad de los asistentes de IA en acciones y llamadas a herramientas.
Presentamos Rectified Point Flow, una parametrización unificada que formula el registro de nubes de puntos por pares y el ensamblaje de formas multiparte como un único problema generativo condicional. Dadas nubes de puntos sin posicionar, nuestro método aprende un campo de velocidad continuo punto a punto que transporta los puntos ruidosos hacia sus posiciones objetivo, a partir de las cuales se recuperan las poses de las partes. A diferencia de trabajos previos que regresan poses por partes con manejo ad-hoc de simetrías, nuestro método aprende intrínsecamente las simetrías de ensamblaje sin etiquetas de simetría. Junto con un codificador auto-supervisado enfocado en puntos superpuestos, nuestro método alcanza un nuevo estado del arte en seis benchmarks que abarcan registro por pares y ensamblaje de formas. Cabe destacar que nuestra formulación unificada permite un entrenamiento conjunto efectivo en diversos conjuntos de datos, facilitando el aprendizaje de priores geométricos compartidos y, en consecuencia, mejorando la precisión. Página del proyecto: https://rectified-pointflow.github.io/.
Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) suelen enfrentarse a Conflictos de Conocimiento, donde la información externa recuperada contradice el conocimiento inherente y paramétrico de los modelos de lenguaje de gran escala (LLMs). Esto afecta negativamente el rendimiento en tareas posteriores, como la respuesta a preguntas (QA). Los enfoques existentes a menudo intentan mitigar estos conflictos comparando directamente dos fuentes de conocimiento de manera paralela, pero esto puede abrumar a los LLMs con contextos extensos o irrelevantes, dificultando su capacidad para identificar y resolver inconsistencias. Para abordar este problema, proponemos Micro-Act, un marco con un espacio de acción jerárquico que percibe automáticamente la complejidad del contexto y descompone adaptativamente cada fuente de conocimiento en una secuencia de comparaciones detalladas. Estas comparaciones se representan como pasos accionables, permitiendo un razonamiento más allá del contexto superficial. A través de experimentos exhaustivos en cinco conjuntos de datos de referencia, Micro-Act logra consistentemente un aumento significativo en la precisión de QA sobre los mejores métodos base en los 5 conjuntos de datos y 3 tipos de conflicto, especialmente en los tipos temporales y semánticos, donde todos los métodos base fallan notablemente. Más importante aún, Micro-Act exhibe un rendimiento robusto en preguntas sin conflicto simultáneamente, destacando su valor práctico en aplicaciones RAG del mundo real.
La síntesis de videos médicos dinámicos de alta calidad sigue siendo un desafío significativo debido a la necesidad de modelar tanto la consistencia espacial como la dinámica temporal. Los enfoques basados en Transformers existentes enfrentan limitaciones críticas, incluyendo interacciones insuficientes entre canales, alta complejidad computacional debido a la autoatención y una guía de eliminación de ruido poco precisa a partir de las incrustaciones de pasos temporales al manejar niveles variables de ruido. En este trabajo, proponemos FEAT, un Transformer de atención eficiente de dimensión completa, que aborda estos problemas a través de tres innovaciones clave: (1) un paradigma unificado con mecanismos de atención secuencial espacial-temporal-canal para capturar dependencias globales en todas las dimensiones, (2) un diseño de complejidad lineal para los mecanismos de atención en cada dimensión, utilizando atención ponderada clave-valor y atención global de canal, y (3) un módulo de guía de valor residual que proporciona orientación a nivel de píxel de grano fino para adaptarse a diferentes niveles de ruido. Evaluamos FEAT en benchmarks estándar y tareas posteriores, demostrando que FEAT-S, con solo el 23\% de los parámetros del modelo de última generación Endora, logra un rendimiento comparable o incluso superior. Además, FEAT-L supera a todos los métodos de comparación en múltiples conjuntos de datos, mostrando tanto una efectividad superior como una escalabilidad destacada. El código está disponible en https://github.com/Yaziwel/FEAT.
La edición de materiales de objetos en imágenes basada en imágenes ejemplares es un área activa de investigación en visión por computadora y gráficos. Proponemos MARBLE, un método para realizar mezclas de materiales y recomponer propiedades de materiales a nivel detallado mediante la búsqueda de incrustaciones de materiales en el espacio CLIP y su uso para controlar modelos preentrenados de texto a imagen. Mejoramos la edición de materiales basada en ejemplares al identificar un bloque en la UNet de eliminación de ruido responsable de la atribución de materiales. Dadas dos imágenes ejemplares de materiales, encontramos direcciones en el espacio CLIP para mezclar los materiales. Además, podemos lograr control paramétrico sobre atributos detallados de materiales como rugosidad, metalicidad, transparencia y brillo utilizando una red superficial para predecir la dirección del cambio deseado en el atributo del material. Realizamos análisis cualitativos y cuantitativos para demostrar la eficacia de nuestro método propuesto. También presentamos la capacidad de nuestro método para realizar múltiples ediciones en una sola pasada hacia adelante y su aplicabilidad en la pintura. Página del proyecto: https://marblecontrol.github.io/
La edición de videos impulsada por texto tiene como objetivo modificar el contenido de un video según instrucciones en lenguaje natural. Si bien los enfoques recientes libres de entrenamiento han avanzado al aprovechar modelos de difusión preentrenados, generalmente dependen de técnicas basadas en inversión que mapean los videos de entrada en el espacio latente, lo que a menudo resulta en inconsistencias temporales y una degradación de la fidelidad estructural. Para abordar esto, proponemos FlowDirector, un novedoso marco de edición de videos libre de inversión. Nuestro marco modela el proceso de edición como una evolución directa en el espacio de datos, guiando el video mediante una Ecuación Diferencial Ordinaria (ODE) para transitar suavemente a lo largo de su variedad espacio-temporal inherente, preservando así la coherencia temporal y los detalles estructurales. Para lograr ediciones localizadas y controlables, introducimos un mecanismo de enmascaramiento guiado por atención que modula el campo de velocidad de la ODE, preservando las regiones no objetivo tanto espacial como temporalmente. Además, para abordar ediciones incompletas y mejorar la alineación semántica con las instrucciones de edición, presentamos una estrategia de edición mejorada por guía inspirada en la Guía Libre de Clasificador, que aprovecha señales diferenciales entre múltiples flujos candidatos para dirigir la trayectoria de edición hacia una alineación semántica más fuerte sin comprometer la consistencia estructural. Experimentos extensos en diversos benchmarks demuestran que FlowDirector alcanza un rendimiento de vanguardia en adherencia a instrucciones, coherencia temporal y preservación del fondo, estableciendo un nuevo paradigma para la edición de videos eficiente y coherente sin inversión.
Los recientes avances en modelos de lenguaje de pensamiento lento (por ejemplo, OpenAI-o1 y DeepSeek-R1) han demostrado habilidades notables en tareas de razonamiento complejo al emular la cognición reflexiva similar a la humana. Sin embargo, extender dichas capacidades a modelos de lenguaje multimodal de gran escala (MLLMs) sigue siendo un desafío debido al alto costo de reentrenar las alineaciones visión-lenguaje al actualizar los modelos de lenguaje subyacentes utilizados para el razonamiento. Una solución directa es desacoplar la percepción del razonamiento, es decir, convertir las entradas visuales en representaciones de lenguaje (por ejemplo, descripciones) que luego se pasan a un potente razonador basado únicamente en texto. Sin embargo, este desacople introduce un desafío crítico: el extractor visual debe generar descripciones que sean fieles a la imagen y lo suficientemente informativas para respaldar un razonamiento preciso en etapas posteriores. Para abordar esto, proponemos Desacople Perceptual Alineado con el Razonamiento mediante Optimización de Recompensas de Descripción (RACRO, por sus siglas en inglés), una estrategia de aprendizaje por refuerzo guiada por el razonamiento que alinea el comportamiento de generación de descripciones del extractor con el objetivo de razonamiento. Al cerrar el ciclo percepción-razonamiento mediante optimización basada en recompensas, RACRO mejora significativamente la fundamentación visual y extrae representaciones optimizadas para el razonamiento. Los experimentos en benchmarks multimodales de matemáticas y ciencias muestran que el método RACRO propuesto alcanza un rendimiento promedio de vanguardia, al tiempo que permite una escalabilidad superior y una adaptación plug-and-play a modelos de lenguaje más avanzados para el razonamiento, sin la necesidad de costosas realineaciones multimodales.
Las técnicas de marca de agua para modelos de lenguaje de gran escala (LLMs) pueden afectar significativamente la calidad de la salida, pero sus efectos sobre la veracidad, seguridad y utilidad siguen siendo críticamente poco examinados. Este artículo presenta un análisis sistemático de cómo dos enfoques populares de marca de agua—Gumbel y KGW—afectan estas propiedades fundamentales de alineación en cuatro LLMs alineados. Nuestros experimentos revelan dos patrones distintos de degradación: la atenuación de guardia, donde una mayor utilidad compromete la seguridad del modelo, y la amplificación de guardia, donde un exceso de precaución reduce la utilidad del modelo. Estos patrones surgen de cambios inducidos por la marca de agua en la distribución de tokens, evidenciando la tensión fundamental que existe entre los objetivos de alineación. Para mitigar estas degradaciones, proponemos el Remuestreo de Alineación (AR), un método de muestreo en tiempo de inferencia que utiliza un modelo de recompensa externo para restaurar la alineación. Establecemos un límite inferior teórico sobre la mejora en la puntuación de recompensa esperada a medida que se aumenta el tamaño de la muestra y demostramos empíricamente que muestrear solo 2-4 generaciones con marca de agua recupera o supera efectivamente las puntuaciones de alineación de referencia (sin marca de agua). Para superar la limitada diversidad de respuestas de la marca de agua Gumbel estándar, nuestra implementación modificada sacrifica la estricta ausencia de distorsión mientras mantiene una detección robusta, asegurando la compatibilidad con AR. Los resultados experimentales confirman que AR recupera con éxito la alineación de referencia en ambos enfoques de marca de agua, manteniendo una fuerte detectabilidad de la marca de agua. Este trabajo revela el equilibrio crítico entre la fuerza de la marca de agua y la alineación del modelo, proporcionando una solución simple en tiempo de inferencia para implementar de manera responsable LLMs con marca de agua en la práctica.
La calibración precisa entre LiDAR y cámara es fundamental para fusionar la percepción multimodal en sistemas de conducción autónoma y robótica. Los métodos tradicionales de calibración requieren una extensa recopilación de datos en entornos controlados y no pueden compensar los cambios en la transformación durante el movimiento del vehículo/robot. En este artículo, proponemos el primer modelo que utiliza características de vista de pájaro (BEV) para realizar la calibración entre LiDAR y cámara a partir de datos sin procesar, denominado BEVCALIB. Para lograrlo, extraemos por separado las características BEV de la cámara y del LiDAR, y las fusionamos en un espacio de características BEV compartido. Para aprovechar al máximo la información geométrica de las características BEV, introducimos un nuevo selector de características que filtra las más importantes en el decodificador de transformación, lo que reduce el consumo de memoria y permite un entrenamiento eficiente. Evaluaciones exhaustivas en los conjuntos de datos KITTI, NuScenes y nuestro propio conjunto de datos demuestran que BEVCALIB establece un nuevo estado del arte. Bajo diversas condiciones de ruido, BEVCALIB supera al mejor método de referencia en la literatura en un promedio de (47.08%, 82.32%) en el conjunto de datos KITTI y (78.17%, 68.29%) en el conjunto de datos NuScenes, en términos de (traslación, rotación), respectivamente. En el dominio de código abierto, mejora el mejor método reproducible de referencia en un orden de magnitud. Nuestro código y resultados de demostración están disponibles en https://cisl.ucr.edu/BEVCalib.
La generación de interacción mano-objeto (HOI, por sus siglas en inglés) tiene un potencial de aplicación significativo. Sin embargo, los enfoques actuales de generación de movimiento HOI en 3D dependen en gran medida de modelos de objetos 3D predefinidos y datos de movimiento capturados en laboratorio, lo que limita las capacidades de generalización. Mientras tanto, los métodos de generación de videos HOI priorizan la fidelidad visual a nivel de píxel, a menudo sacrificando la plausibilidad física. Reconociendo que la apariencia visual y los patrones de movimiento comparten leyes físicas fundamentales en el mundo real, proponemos un marco novedoso que combina prioridades visuales y restricciones dinámicas dentro de un proceso de difusión sincronizado para generar simultáneamente el video y el movimiento HOI. Para integrar las semánticas heterogéneas, la apariencia y las características de movimiento, nuestro método implementa una modulación adaptativa trimodal para alinear características, junto con una atención completa en 3D para modelar dependencias inter e intra-modales. Además, introducimos un modelo de difusión de interacción 3D consciente de la visión que genera secuencias explícitas de interacción 3D directamente a partir de las salidas de difusión sincronizadas, y luego las retroalimenta para establecer un ciclo de retroalimentación cerrado. Esta arquitectura elimina las dependencias de modelos de objetos predefinidos o guías de pose explícitas, al tiempo que mejora significativamente la consistencia entre el video y el movimiento. Los resultados experimentales demuestran la superioridad de nuestro método sobre los enfoques más avanzados en la generación de secuencias HOI de alta fidelidad y dinámicamente plausibles, con notables capacidades de generalización en escenarios del mundo real no vistos. Página del proyecto en https://github.com/Droliven/SViMo\_project.
Predecir con precisión mallas de ocupación 3D a partir de entradas visuales es crucial para la conducción autónoma, pero los métodos discriminativos actuales tienen dificultades con datos ruidosos, observaciones incompletas y las estructuras complejas inherentes a las escenas 3D. En este trabajo, reformulamos la predicción de ocupación 3D como una tarea de modelado generativo utilizando modelos de difusión, los cuales aprenden la distribución subyacente de los datos e incorporan conocimientos previos de escenas 3D. Este enfoque mejora la consistencia de las predicciones, la robustez frente al ruido y maneja mejor las complejidades de las estructuras espaciales 3D. Nuestros extensos experimentos muestran que los modelos generativos basados en difusión superan a los enfoques discriminativos de vanguardia, ofreciendo predicciones de ocupación más realistas y precisas, especialmente en regiones ocluidas o con baja visibilidad. Además, las predicciones mejoradas benefician significativamente las tareas de planificación posteriores, destacando las ventajas prácticas de nuestro método para aplicaciones de conducción autónoma en el mundo real.
La evaluación automatizada de habilidades deportivas requiere capturar patrones fundamentales de movimiento que distingan el desempeño experto del novato; sin embargo, los métodos actuales de muestreo de video interrumpen la continuidad temporal esencial para la evaluación de la competencia. Con este fin, presentamos el Muestreo Temporal Consciente de la Competencia (PATS, por sus siglas en inglés), una estrategia de muestreo novedosa que preserva movimientos fundamentales completos dentro de segmentos temporales continuos para la evaluación de habilidades en múltiples vistas. PATS segmenta los videos de manera adaptativa para garantizar que cada porción analizada contenga la ejecución completa de componentes críticos del desempeño, repitiendo este proceso en múltiples segmentos para maximizar la cobertura de información mientras se mantiene la coherencia temporal. Evaluado en el benchmark EgoExo4D con SkillFormer, PATS supera la precisión del estado del arte en todas las configuraciones de visualización (+0.65% a +3.05%) y ofrece mejoras sustanciales en dominios desafiantes (+26.22% en boulder, +2.39% en música, +1.13% en baloncesto). Un análisis sistemático revela que PATS se adapta con éxito a diversas características de actividad, desde el muestreo de alta frecuencia para deportes dinámicos hasta la segmentación detallada para habilidades secuenciales, demostrando su eficacia como un enfoque adaptativo al muestreo temporal que avanza en la evaluación automatizada de habilidades para aplicaciones del mundo real.
La interpretación automatizada de imágenes de TC, en particular la localización y descripción de hallazgos anormales en exploraciones multiplanares y de cuerpo completo, sigue siendo un desafío significativo en la radiología clínica. Este trabajo tiene como objetivo abordar este desafío a través de cuatro contribuciones clave: (i) En taxonomía, colaboramos con radiólogos senior para proponer un sistema de clasificación jerárquico integral, con 404 hallazgos anormales representativos en todas las regiones del cuerpo; (ii) En datos, contribuimos con un conjunto de datos que contiene más de 14.5K imágenes de TC de múltiples planos y todas las regiones del cuerpo humano, y proporcionamos meticulosamente anotaciones de referencia para más de 19K anomalías, cada una vinculada a una descripción detallada y clasificada en la taxonomía; (iii) En desarrollo de modelos, proponemos OminiAbnorm-CT, que puede localizar y describir automáticamente hallazgos anormales en imágenes de TC multiplanares y de cuerpo completo basándose en consultas de texto, además de permitir una interacción flexible mediante indicaciones visuales; (iv) En evaluación, establecemos tres tareas representativas de evaluación basadas en escenarios clínicos reales. A través de experimentos exhaustivos, demostramos que OminiAbnorm-CT supera significativamente a los métodos existentes en todas las tareas y métricas.
¿Qué tan específicas del idioma son las representaciones del habla aprendidas por modelos auto-supervisados? Trabajos previos han demostrado que una variedad de características lingüísticas pueden decodificarse exitosamente a partir de modelos entrenados de extremo a extremo utilizando únicamente grabaciones de habla. Sin embargo, es menos claro hasta qué punto el pre-entrenamiento en idiomas específicos mejora la información lingüística particular de cada idioma. En este estudio, evaluamos la codificación de información fonética y léxica del neerlandés en las representaciones internas de los modelos auto-supervisados Wav2Vec2. El pre-entrenamiento exclusivo en neerlandés mejora la representación de las características lingüísticas de este idioma en comparación con el pre-entrenamiento en cantidades similares de inglés o en mayores cantidades de datos multilingües. Esta ventaja específica del idioma es bien detectada mediante sondas de agrupamiento o clasificación entrenadas, y es parcialmente observable utilizando métricas de evaluación sin entrenamiento previo (zero-shot). Además, el beneficio específico del idioma en la codificación de características lingüísticas se alinea con el rendimiento en tareas posteriores de Reconocimiento Automático del Habla.