Artículos de investigación en IA seleccionados diariamente con traducciones
La consistencia espacio-temporal es un tema de investigación crítico en la generación de videos. Un segmento de video generado de calidad debe garantizar la plausibilidad y coherencia de la trama, manteniendo al mismo tiempo la consistencia visual de los objetos y escenas a través de diferentes puntos de vista. Investigaciones previas, especialmente en proyectos de código abierto, se centran principalmente en la consistencia temporal o espacial, o en su combinación básica, como agregar una descripción del movimiento de la cámara después de un indicador sin restringir los resultados de dicho movimiento. Sin embargo, el movimiento de la cámara puede introducir nuevos objetos en la escena o eliminar los existentes, superponiendo y afectando así la narrativa previa. Especialmente en videos con numerosos movimientos de cámara, la interacción entre múltiples tramas se vuelve cada vez más compleja. Este artículo introduce y examina la consistencia espacio-temporal integral, considerando la sinergia entre la progresión de la trama y las técnicas de cámara, así como el impacto a largo plazo del contenido previo en la generación posterior. Nuestra investigación abarca desde la construcción del conjunto de datos hasta el desarrollo del modelo. Inicialmente, construimos un conjunto de datos llamado DropletVideo-10M, que comprende 10 millones de videos con movimiento dinámico de cámara y acciones de objetos. Cada video está anotado con una descripción promedio de 206 palabras, detallando diversos movimientos de cámara y desarrollos de la trama. Posteriormente, desarrollamos y entrenamos el modelo DropletVideo, que destaca por preservar la coherencia espacio-temporal durante la generación de videos. El conjunto de datos y el modelo DropletVideo están disponibles en https://dropletx.github.io.
Construir agentes robóticos autónomos capaces de alcanzar un rendimiento a nivel humano en tareas corporizadas del mundo real es un objetivo fundamental en la investigación de robots humanoides. Los avances recientes han logrado un progreso significativo en la cognición de alto nivel con Modelos Fundacionales (FMs) y en el desarrollo de habilidades de bajo nivel para robots humanoides. Sin embargo, combinar directamente estos componentes a menudo resulta en una baja robustez y eficiencia debido a la acumulación de errores en tareas de largo horizonte y a la latencia variable de los diferentes módulos. Presentamos Being-0, un marco de agente jerárquico que integra un FM con una biblioteca modular de habilidades. El FM maneja tareas cognitivas de alto nivel, como la comprensión de instrucciones, la planificación de tareas y el razonamiento, mientras que la biblioteca de habilidades proporciona locomoción estable y manipulación diestra para el control de bajo nivel. Para cerrar la brecha entre estos niveles, proponemos un nuevo módulo Conector, impulsado por un modelo ligero de visión y lenguaje (VLM). El Conector mejora las capacidades corporizadas del FM traduciendo planes basados en lenguaje en comandos de habilidades accionables y coordinando dinámicamente la locomoción y la manipulación para mejorar el éxito de las tareas. Con todos los componentes, excepto el FM, desplegables en dispositivos de computación embarcados de bajo costo, Being-0 logra un rendimiento eficiente y en tiempo real en un robot humanoide de tamaño completo equipado con manos diestras y visión activa. Experimentos extensos en entornos interiores grandes demuestran la efectividad de Being-0 para resolver tareas complejas de largo horizonte que requieren subtareas desafiantes de navegación y manipulación. Para más detalles y videos, visite https://beingbeyond.github.io/being-0.
Los métodos de generación condicionada por imágenes, como los enfoques basados en profundidad y bordes (canny), han demostrado capacidades notables para la síntesis precisa de imágenes. Sin embargo, los modelos existentes aún enfrentan dificultades para controlar con precisión el contenido de múltiples instancias (o regiones). Incluso modelos de vanguardia como FLUX y 3DIS enfrentan desafíos, como la fuga de atributos entre instancias, lo que limita el control del usuario. Para abordar estos problemas, presentamos DreamRenderer, un enfoque que no requiere entrenamiento y está construido sobre el modelo FLUX. DreamRenderer permite a los usuarios controlar el contenido de cada instancia mediante cuadros delimitadores o máscaras, asegurando al mismo tiempo una armonía visual general. Proponemos dos innovaciones clave: 1) Tokens de Imagen Puente para la Vinculación Dura de Atributos de Texto, que utiliza tokens de imagen replicados como tokens puente para garantizar que los embeddings de texto T5, preentrenados únicamente en datos de texto, vinculen los atributos visuales correctos para cada instancia durante la Atención Conjunta; 2) Vinculación Dura de Atributos de Imagen aplicada solo a capas vitales. A través de nuestro análisis de FLUX, identificamos las capas críticas responsables de la representación de atributos de instancia y aplicamos la Vinculación Dura de Atributos de Imagen solo en estas capas, utilizando una vinculación suave en las demás. Este enfoque garantiza un control preciso mientras se preserva la calidad de la imagen. Las evaluaciones en los benchmarks COCO-POS y COCO-MIG demuestran que DreamRenderer mejora la Tasa de Éxito de Imagen en un 17.7% sobre FLUX y mejora el rendimiento de modelos de diseño a imagen como GLIGEN y 3DIS hasta en un 26.8%. Página del proyecto: https://limuloo.github.io/DreamRenderer/.
La generación de imágenes personalizada tiene como objetivo producir imágenes de conceptos especificados por el usuario, permitiendo al mismo tiempo una edición flexible. Los enfoques recientes que no requieren entrenamiento, aunque exhiben una mayor eficiencia computacional que los métodos basados en entrenamiento, enfrentan dificultades en la preservación de la identidad, la aplicabilidad y la compatibilidad con los transformadores de difusión (DiTs). En este artículo, descubrimos el potencial no explotado de los DiT, donde simplemente reemplazar los tokens de eliminación de ruido con los de un sujeto de referencia logra una reconstrucción de sujeto en modo zero-shot. Esta técnica de inyección de características, simple pero efectiva, desbloquea diversos escenarios, desde la personalización hasta la edición de imágenes. Basándonos en esta observación, proponemos Personalize Anything, un marco sin entrenamiento que logra la generación de imágenes personalizada en DiT mediante: 1) la sustitución de tokens adaptativa al paso de tiempo, que refuerza la consistencia del sujeto mediante inyección en etapas tempranas y mejora la flexibilidad a través de regularización en etapas tardías, y 2) estrategias de perturbación de parches para aumentar la diversidad estructural. Nuestro método soporta de manera fluida la generación guiada por diseño, la personalización de múltiples sujetos y la edición controlada por máscaras. Las evaluaciones demuestran un rendimiento de vanguardia en la preservación de la identidad y la versatilidad. Nuestro trabajo establece nuevas perspectivas sobre los DiT mientras ofrece un paradigma práctico para la personalización eficiente.
El razonamiento y el comportamiento estratégico en interacciones sociales es un sello distintivo de la inteligencia. Esta forma de razonamiento es significativamente más sofisticada que las tareas de planificación o razonamiento aisladas en entornos estáticos (por ejemplo, la resolución de problemas matemáticos). En este artículo, presentamos Strategic Planning, Interaction, and Negotiation (SPIN-Bench), una nueva evaluación multidominio diseñada para medir la inteligencia en la planificación estratégica y el razonamiento social. Mientras que muchos puntos de referencia existentes se centran en la planificación estrecha o el razonamiento de un solo agente, SPIN-Bench combina tareas clásicas de PDDL, juegos de mesa competitivos, juegos de cartas cooperativos y escenarios de negociación multiagente en un marco unificado. Este marco incluye tanto un punto de referencia como un entorno para simular y evaluar una variedad de configuraciones sociales que ponen a prueba el razonamiento y el comportamiento estratégico de los agentes de IA. Formulamos el punto de referencia SPIN-Bench variando sistemáticamente los espacios de acción, la complejidad del estado y el número de agentes interactuantes para simular una variedad de configuraciones sociales donde el éxito depende no solo de la toma de decisiones metódica y paso a paso, sino también de la inferencia conceptual de otros participantes (adversarios o cooperativos). Nuestros experimentos revelan que, aunque los modelos de lenguaje grandes (LLMs) contemporáneos manejan razonablemente bien la recuperación de hechos básicos y la planificación a corto plazo, encuentran cuellos de botella significativos en tareas que requieren un razonamiento profundo de múltiples saltos sobre grandes espacios de estado y una coordinación socialmente hábil bajo incertidumbre. Visualizamos SPIN-Bench como un catalizador para futuras investigaciones sobre planificación multiagente robusta, razonamiento social y colaboración humano-IA.
Al extender la ventaja del razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) en procesos paso a paso similares a los humanos a contextos multimodales, el razonamiento multimodal CoT (MCoT) ha atraído recientemente una atención significativa en la investigación, especialmente en su integración con modelos de lenguaje multimodal de gran escala (MLLMs). Los estudios existentes sobre MCoT diseñan diversas metodologías y paradigmas de razonamiento innovadores para abordar los desafíos únicos de imágenes, videos, habla, audio, datos 3D y datos estructurados en diferentes modalidades, logrando un éxito considerable en aplicaciones como robótica, atención médica, conducción autónoma y generación multimodal. Sin embargo, el MCoT aún presenta desafíos y oportunidades distintivos que requieren mayor atención para garantizar un desarrollo constante en este campo, donde, lamentablemente, falta una revisión actualizada de este dominio. Para cerrar esta brecha, presentamos la primera revisión sistemática del razonamiento MCoT, aclarando los conceptos y definiciones fundamentales relevantes. Ofrecemos una taxonomía exhaustiva y un análisis en profundidad de las metodologías actuales desde diversas perspectivas en distintos escenarios de aplicación. Además, proporcionamos insights sobre los desafíos existentes y las futuras direcciones de investigación, con el objetivo de fomentar la innovación hacia la inteligencia artificial general multimodal (AGI multimodal).
Presentamos un nuevo enfoque, Transferencia de Edición, donde un modelo aprende una transformación a partir de un único ejemplo fuente-destino y la aplica a una nueva imagen de consulta. Mientras que los métodos basados en texto sobresalen en manipulaciones semánticas mediante indicaciones textuales, a menudo tienen dificultades con detalles geométricos precisos (por ejemplo, cambios de poses y puntos de vista). Por otro lado, la edición basada en referencias suele centrarse en el estilo o la apariencia y falla en transformaciones no rígidas. Al aprender explícitamente la transformación de edición a partir de un par fuente-destino, la Transferencia de Edición mitiga las limitaciones tanto de los enfoques basados únicamente en texto como en referencias centradas en la apariencia. Inspirándonos en el aprendizaje en contexto en modelos de lenguaje de gran escala, proponemos un paradigma de aprendizaje en contexto de relaciones visuales, basado en un modelo de texto a imagen DiT. Organizamos el ejemplo editado y la imagen de consulta en un compuesto unificado de cuatro paneles, luego aplicamos un ajuste fino ligero con LoRA para capturar transformaciones espaciales complejas a partir de ejemplos mínimos. A pesar de utilizar solo 42 muestras de entrenamiento, la Transferencia de Edición supera sustancialmente a los métodos TIE y RIE de última generación en diversos escenarios no rígidos, demostrando la efectividad del aprendizaje de relaciones visuales con pocos ejemplos.
Estudios recientes generalmente mejoran las capacidades de razonamiento de los MLLMs mediante ajuste fino supervisado en datos de alta calidad de cadenas de razonamiento, lo que a menudo lleva a los modelos a simplemente imitar caminos de razonamiento exitosos sin comprender cuáles son los caminos de razonamiento incorrectos. En este trabajo, nuestro objetivo es mejorar la capacidad de razonamiento de los MLLMs más allá de la imitación pasiva de caminos de razonamiento positivos. Para ello, diseñamos Step-wise Group Relative Policy Optimization (StepGRPO), un nuevo marco de aprendizaje por refuerzo en línea que permite a los MLLMs auto-mejorar su capacidad de razonamiento mediante recompensas simples, efectivas y densas paso a paso. Específicamente, StepGRPO introduce dos nuevas recompensas basadas en reglas para el razonamiento: Step-wise Reasoning Accuracy Reward (StepRAR) y Step-wise Reasoning Validity Reward (StepRVR). StepRAR recompensa los caminos de razonamiento que contienen pasos intermedios necesarios mediante una técnica de coincidencia suave de pasos clave, mientras que StepRVR recompensa los caminos de razonamiento que siguen un proceso bien estructurado y lógicamente consistente a través de una estrategia de evaluación de completitud y lógica del razonamiento. Con el StepGRPO propuesto, presentamos R1-VL, una serie de MLLMs con capacidades sobresalientes en el razonamiento paso a paso. Experimentos extensos en 8 benchmarks demuestran la superioridad de nuestros métodos.
La manipulación visual a nivel de elementos es esencial en la creación de contenido digital, pero los métodos actuales basados en difusión carecen de la precisión y flexibilidad de las herramientas tradicionales. En este trabajo, presentamos BlobCtrl, un marco que unifica la generación y edición a nivel de elementos utilizando una representación probabilística basada en blobs. Al emplear blobs como primitivas visuales, nuestro enfoque desacopla y representa de manera efectiva la ubicación espacial, el contenido semántico y la información de identidad, permitiendo una manipulación precisa a nivel de elementos. Nuestras contribuciones clave incluyen: 1) una arquitectura de difusión de doble rama con fusión jerárquica de características para una integración perfecta entre primer plano y fondo; 2) un paradigma de entrenamiento auto-supervisado con aumento de datos y funciones de puntuación personalizadas; y 3) estrategias de abandono controlado para equilibrar fidelidad y diversidad. Para apoyar investigaciones futuras, introducimos BlobData para entrenamiento a gran escala y BlobBench para evaluación sistemática. Los experimentos muestran que BlobCtrl sobresale en diversas tareas de manipulación a nivel de elementos mientras mantiene la eficiencia computacional, ofreciendo una solución práctica para la creación de contenido visual preciso y flexible. Página del proyecto: https://liyaowei-stu.github.io/project/BlobCtrl/
La investigación científica exige un razonamiento sofisticado sobre datos multimodales, un desafío especialmente prevalente en biología. A pesar de los recientes avances en modelos de lenguaje multimodal de gran escala (MLLMs) para la investigación asistida por IA, los benchmarks existentes de razonamiento multimodal solo abordan dificultades de nivel universitario, mientras que los benchmarks de nivel investigativo enfatizan la percepción de bajo nivel, quedándose cortos frente al razonamiento multimodal complejo necesario para el descubrimiento científico. Para cerrar esta brecha, presentamos MicroVQA, un benchmark de respuesta a preguntas visuales (VQA) diseñado para evaluar tres capacidades de razonamiento cruciales en los flujos de trabajo de investigación: comprensión experta de imágenes, generación de hipótesis y propuesta de experimentos. MicroVQA consta de 1.042 preguntas de opción múltiple (MCQs) curadas por expertos en biología en diversas modalidades de microscopía, asegurando que las muestras de VQA representen prácticas científicas reales. Al construir el benchmark, descubrimos que los métodos estándar de generación de MCQs inducen atajos lingüísticos, lo que motiva un nuevo pipeline de dos etapas: un prompt optimizado para LLM estructura pares pregunta-respuesta en MCQs; luego, un agente basado en `RefineBot' los actualiza para eliminar los atajos. La evaluación en MLLMs de última generación revela un rendimiento máximo del 53%; los modelos con LLMs más pequeños solo tienen un rendimiento ligeramente inferior a los mejores modelos, sugiriendo que el razonamiento basado en lenguaje es menos desafiante que el razonamiento multimodal; y el ajuste con artículos científicos mejora el rendimiento. El análisis experto de las respuestas de cadena de pensamiento muestra que los errores de percepción son los más frecuentes, seguidos por errores de conocimiento y luego por errores de sobre generalización. Estas ideas destacan los desafíos en el razonamiento científico multimodal, demostrando que MicroVQA es un recurso valioso para avanzar en la investigación biomédica impulsada por IA. MicroVQA está disponible en https://huggingface.co/datasets/jmhb/microvqa, y la página del proyecto en https://jmhb0.github.io/microvqa.
Con el rápido desarrollo de la tecnología de reconstrucción 3D, la investigación en reconstrucción 4D también está avanzando. Los métodos existentes de reconstrucción 4D pueden generar escenas 4D de alta calidad. Sin embargo, debido a los desafíos en la adquisición de datos de video multivista, los benchmarks actuales de reconstrucción 4D muestran principalmente acciones realizadas en un mismo lugar, como bailar, dentro de escenarios limitados. En escenarios prácticos, muchas escenas implican movimientos espaciales de gran alcance, lo que resalta las limitaciones de los conjuntos de datos existentes de reconstrucción 4D. Además, los métodos actuales de reconstrucción 4D dependen de campos de deformación para estimar la dinámica de objetos 3D, pero estos campos tienen dificultades con movimientos espaciales de gran alcance, lo que limita la capacidad de lograr una reconstrucción 4D de alta calidad con dichos movimientos. En este artículo, nos enfocamos en la reconstrucción de escenas 4D con movimientos espaciales significativos de objetos y proponemos un nuevo benchmark de reconstrucción 4D, WideRange4D. Este benchmark incluye datos de escenas 4D con grandes variaciones espaciales, permitiendo una evaluación más completa de las capacidades de generación de los métodos de generación 4D. Además, presentamos un nuevo método de reconstrucción 4D, Progress4D, que genera resultados 4D estables y de alta calidad en diversas tareas complejas de reconstrucción de escenas 4D. Realizamos experimentos de comparación cuantitativos y cualitativos en WideRange4D, demostrando que nuestro Progress4D supera a los métodos de reconstrucción 4D más avanzados existentes. Proyecto: https://github.com/Gen-Verse/WideRange4D
Los videos, con su dimensión temporal única, exigen una comprensión precisa y fundamentada, donde las respuestas estén directamente vinculadas a evidencia visual e interpretable. A pesar de los avances significativos en las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala, el razonamiento multimodal —especialmente para videos— sigue siendo un área inexplorada. En este trabajo, presentamos VideoMind, un agente novedoso de lenguaje y video diseñado para la comprensión temporal fundamentada de videos. VideoMind incorpora dos innovaciones clave: (i) Identificamos capacidades esenciales para el razonamiento temporal en videos y desarrollamos un flujo de trabajo basado en roles, incluyendo un planificador para coordinar diferentes roles, un localizador para la ubicación temporal, un verificador para evaluar la precisión de los intervalos temporales y un respondedor para la resolución de preguntas. (ii) Para integrar eficientemente estos diversos roles, proponemos una novedosa estrategia de Cadena-de-LoRA, que permite un cambio de roles fluido mediante adaptadores LoRA ligeros, evitando la sobrecarga de múltiples modelos y equilibrando así eficiencia y flexibilidad. Experimentos exhaustivos en 14 benchmarks públicos demuestran que nuestro agente alcanza un rendimiento de vanguardia en diversas tareas de comprensión de videos, incluyendo 3 en preguntas y respuestas fundamentadas en videos, 6 en localización temporal de videos y 5 en preguntas y respuestas generales sobre videos, destacando su efectividad en el avance de los agentes de video y el razonamiento temporal de larga duración.
Los modelos de recompensa se han convertido en un elemento fundamental en el procesamiento del lenguaje natural (PLN) moderno, sirviendo no solo como evaluadores de texto escalables, sino también como un componente indispensable en muchas recetas de alineación y algoritmos de inferencia en tiempo real. Sin embargo, aunque los modelos de recompensa recientes mejoran el rendimiento en los puntos de referencia estándar, esto puede deberse en parte a efectos de sobreajuste, lo que dificultaría la comprensión de su verdadera capacidad. En este trabajo, examinamos la robustez de los modelos de recompensa y el alcance de dicho sobreajuste. Construimos **reWordBench**, que transforma sistemáticamente las entradas de los modelos de recompensa de maneras que preservan el significado o el orden de clasificación. Demostramos que los modelos de recompensa de última generación sufren una degradación sustancial del rendimiento incluso con transformaciones menores en las entradas, a veces cayendo a una precisión significativamente inferior al azar, lo que sugiere fragilidad. Para mejorar la robustez de los modelos de recompensa, proponemos entrenarlos explícitamente para asignar puntuaciones similares a las paráfrasis, y encontramos que este enfoque también mejora la robustez frente a otros tipos distintos de transformaciones. Por ejemplo, nuestro modelo de recompensa robusto reduce dicha degradación aproximadamente a la mitad para el subconjunto Chat Hard en RewardBench. Además, cuando se utilizan en la alineación, nuestros modelos de recompensa robustos demuestran una mejor utilidad y generan salidas de mayor calidad, ganando en hasta el 59% de los casos frente a un modelo de recompensa entrenado de manera estándar.
Los humanos procesan el razonamiento en videos mediante una lógica secuencial espacio-temporal: primero identifican los fotogramas relevantes ("cuándo"), luego analizan las relaciones espaciales ("dónde") entre los objetos clave y, finalmente, aprovechan estas relaciones para extraer inferencias ("qué"). Sin embargo, ¿pueden los Modelos de Lenguaje de Gran Escala para Video (Video-LLMs) también "razonar a través de una lógica secuencial espacio-temporal" en videos? Los puntos de referencia existentes para Video-LLMs se centran principalmente en evaluar la presencia de objetos, descuidando el razonamiento relacional. En consecuencia, es difícil medir si un modelo realmente comprende las interacciones entre objetos (acciones/eventos) en los videos o simplemente se basa en "memorias" preentrenadas de co-ocurrencias como sesgos al generar respuestas. En este trabajo, presentamos un punto de referencia de Razonamiento Espacio-Temporal en Video (V-STaR) para abordar estas limitaciones. La idea clave es descomponer la comprensión de videos en una tarea de Razonamiento Espacio-Temporal Inverso (RSTR) que evalúa simultáneamente qué objetos están presentes, cuándo ocurren los eventos y dónde se ubican, mientras captura la lógica subyacente de la Cadena de Pensamiento (CoT). Para respaldar esta evaluación, construimos un conjunto de datos que busca elicitar el proceso de razonamiento espacio-temporal de los Video-LLMs. Este contiene preguntas CoT de granularidad gruesa a fina generadas mediante una canalización semiautomatizada impulsada por GPT-4, incorporando cadenas de razonamiento explícitas para imitar la cognición humana. Los experimentos con 14 Video-LLMs en nuestro V-STaR revelan brechas significativas entre los Video-LLMs actuales y las necesidades de un razonamiento espacio-temporal robusto y consistente.
Realizar agarres robóticos en un contenedor desordenado basándose en instrucciones humanas es una tarea desafiante, ya que requiere comprender tanto los matices del lenguaje libre como las relaciones espaciales entre objetos. Los Modelos de Visión-Lenguaje (VLMs) entrenados con datos a escala web, como GPT-4o, han demostrado capacidades de razonamiento notables tanto en texto como en imágenes. Pero, ¿pueden realmente utilizarse para esta tarea en un entorno de cero disparos? ¿Y cuáles son sus limitaciones? En este artículo, exploramos estas preguntas de investigación a través de la tarea de agarre robótico basada en lenguaje libre y proponemos un método novedoso, FreeGrasp, que aprovecha el conocimiento del mundo de los VLMs preentrenados para razonar sobre las instrucciones humanas y las disposiciones espaciales de los objetos. Nuestro método detecta todos los objetos como puntos clave y utiliza estos puntos para anotar marcas en las imágenes, con el objetivo de facilitar el razonamiento espacial de GPT-4o en un entorno de cero disparos. Esto permite que nuestro método determine si un objeto solicitado es directamente agarrable o si primero se deben agarrar y retirar otros objetos. Dado que no existe un conjunto de datos específicamente diseñado para esta tarea, introducimos un conjunto de datos sintético, FreeGraspData, extendiendo el conjunto de datos MetaGraspNetV2 con instrucciones anotadas por humanos y secuencias de agarre con verdad de terreno. Realizamos análisis exhaustivos tanto con FreeGraspData como con validaciones en el mundo real utilizando un brazo robótico equipado con una pinza, demostrando un rendimiento de vanguardia en el razonamiento y ejecución de agarres. Sitio web del proyecto: https://tev-fbk.github.io/FreeGrasp/.
Alinear las imágenes generadas con indicaciones de texto complejas y las preferencias humanas representa un desafío central en el Contenido Generado por Inteligencia Artificial (AIGC, por sus siglas en inglés). Con la destilación de difusión mejorada por recompensas emergiendo como un enfoque prometedor que aumenta la controlabilidad y fidelidad de los modelos de texto a imagen, identificamos un cambio de paradigma fundamental: a medida que las condiciones se vuelven más específicas y las señales de recompensa más fuertes, las recompensas mismas se convierten en la fuerza dominante en la generación. En contraste, las pérdidas de difusión actúan como una forma excesivamente costosa de regularización. Para validar exhaustivamente nuestra hipótesis, presentamos R0, un novedoso enfoque de generación condicional mediante la maximización de recompensas regularizada. En lugar de depender de complicadas pérdidas de destilación de difusión, R0 propone una nueva perspectiva que trata la generación de imágenes como un problema de optimización en el espacio de datos, cuyo objetivo es buscar imágenes válidas que tengan altas recompensas composicionales. Mediante diseños innovadores de la parametrización del generador y técnicas de regularización adecuadas, entrenamos modelos generativos de texto a imagen de última generación con R0 a gran escala. Nuestros resultados desafían la sabiduría convencional sobre el post-entrenamiento de difusión y la generación condicional al demostrar que las recompensas desempeñan un papel dominante en escenarios con condiciones complejas. Esperamos que nuestros hallazgos contribuyan a futuras investigaciones sobre paradigmas de generación centrados en el ser humano y en las recompensas en el campo más amplio del AIGC. El código está disponible en https://github.com/Luo-Yihong/R0.
El inpaint de video implica modificar regiones locales dentro de un video, asegurando consistencia espacial y temporal. La mayoría de los métodos existentes se centran principalmente en la completación de escenas (es decir, rellenar regiones faltantes) y carecen de la capacidad de insertar nuevos objetos en una escena de manera controlable. Afortunadamente, los avances recientes en modelos de difusión de texto a video (T2V) abren el camino para el inpaint de video guiado por texto. Sin embargo, la adaptación directa de modelos T2V para inpaint sigue siendo limitada en la unificación de tareas de completación e inserción, carece de controlabilidad en la entrada y tiene dificultades con videos largos, lo que restringe su aplicabilidad y flexibilidad. Para abordar estos desafíos, proponemos MTV-Inpaint, un marco unificado de inpaint de video multitarea capaz de manejar tanto la completación tradicional de escenas como las tareas de inserción de objetos novedosos. Para unificar estas tareas distintas, diseñamos un mecanismo de atención espacial de doble rama en la U-Net de difusión T2V, permitiendo la integración sin problemas de la completación de escenas y la inserción de objetos dentro de un solo marco. Además de la guía textual, MTV-Inpaint soporta control multimodal al integrar varios modelos de inpaint de imagen a través de nuestro modo propuesto de inpaint de imagen a video (I2V). Adicionalmente, proponemos un pipeline de dos etapas que combina el inpaint de fotogramas clave con la propagación de fotogramas intermedios, permitiendo que MTV-Inpaint maneje efectivamente videos largos con cientos de fotogramas. Experimentos extensivos demuestran que MTV-Inpaint logra un rendimiento de vanguardia tanto en tareas de completación de escenas como de inserción de objetos. Además, demuestra versatilidad en aplicaciones derivadas como inpaint multimodal, edición de objetos, eliminación, pincel de objetos en imagen y la capacidad de manejar videos largos. Página del proyecto: https://mtv-inpaint.github.io/.
La síntesis de video a audio, que genera audio sincronizado para contenido visual, mejora críticamente la inmersión del espectador y la coherencia narrativa en el cine y los medios interactivos. Sin embargo, el doblaje de video a audio para contenido de larga duración sigue siendo un desafío sin resolver debido a los cambios semánticos dinámicos, la desalineación temporal y la ausencia de conjuntos de datos dedicados. Aunque los métodos existentes destacan en videos cortos, fallan en escenarios largos (por ejemplo, películas) debido a una síntesis fragmentada y una consistencia insuficiente entre escenas. Proponemos LVAS-Agent, un marco de trabajo multiagente novedoso que emula flujos de trabajo profesionales de doblaje mediante la especialización colaborativa de roles. Nuestro enfoque descompone la síntesis de videos largos en cuatro pasos, incluyendo segmentación de escenas, generación de guiones, diseño de sonido y síntesis de audio. Las innovaciones centrales incluyen un mecanismo de discusión-corrección para el refinamiento de escenas/guiones y un bucle de generación-recuperación para la alineación temporal-semántica. Para permitir una evaluación sistemática, presentamos LVAS-Bench, el primer punto de referencia con 207 videos largos curados profesionalmente que abarcan diversos escenarios. Los experimentos demuestran una alineación audio-visual superior en comparación con los métodos base. Página del proyecto: https://lvas-agent.github.io
A menudo, las necesidades y capacidades visuales difieren entre el grupo de anotadores y el grupo de usuarios finales. Generar descripciones detalladas de diagramas para usuarios ciegos o con baja visión (BLV, por sus siglas en inglés) es un dominio particularmente desafiante. Los anotadores videntes podrían describir elementos visuales con facilidad, pero estudios existentes han demostrado que las generaciones directas por parte de ellos son costosas, propensas a sesgos y, en cierta medida, deficientes según los estándares BLV. En este estudio, solicitamos a individuos videntes que evalúen —en lugar de producir— descripciones de diagramas generadas por modelos de visión y lenguaje (VLM) que han sido guiados con supervisión latente mediante una inferencia de múltiples pasos. Las evaluaciones realizadas por los videntes resultan efectivas y útiles para educadores profesionales que son BLV y enseñan a estudiantes con discapacidad visual. Publicamos Sightation, una colección de conjuntos de datos de descripciones de diagramas que abarcan 5k diagramas y 137k muestras para fines de completado, preferencia, recuperación, respuesta a preguntas y entrenamiento en razonamiento, y demostramos su potencial de ajuste fino en diversas tareas posteriores.
Los Modelos Fundacionales de Video (VFMs, por sus siglas en inglés) se han utilizado recientemente para simular el mundo real con el fin de entrenar sistemas de IA física y desarrollar experiencias visuales creativas. Sin embargo, existen desafíos significativos en el entrenamiento de VFMs a gran escala y de alta calidad que puedan generar videos de alta fidelidad. Presentamos una canalización de entrenamiento de VFMs escalable y de código abierto con NVIDIA NeMo, que ofrece una curación acelerada de conjuntos de datos de video, carga de datos multimodales, y entrenamiento e inferencia paralelizados de modelos de difusión de video. También proporcionamos un análisis de rendimiento exhaustivo que destaca las mejores prácticas para un entrenamiento e inferencia eficientes de VFMs.
Una variedad de Modelos de Difusión de Video Auto-Regresivos (ARVDM, por sus siglas en inglés) han logrado éxitos notables en la generación de videos de larga duración realistas. Sin embargo, los análisis teóricos de estos modelos siguen siendo escasos. En este trabajo, desarrollamos fundamentos teóricos para estos modelos y utilizamos nuestras ideas para mejorar el rendimiento de los modelos existentes. Primero, desarrollamos Meta-ARVDM, un marco unificado de ARVDM que engloba la mayoría de los métodos existentes. Utilizando Meta-ARVDM, analizamos la divergencia KL entre los videos generados por Meta-ARVDM y los videos reales. Nuestro análisis revela dos fenómenos importantes inherentes a ARVDM: la acumulación de errores y el cuello de botella de memoria. Al derivar un resultado de imposibilidad teórico de la información, demostramos que el fenómeno del cuello de botella de memoria no puede evitarse. Para mitigar el cuello de botella de memoria, diseñamos varias estructuras de red para utilizar explícitamente más fotogramas pasados. También logramos una mejora significativa en el equilibrio entre la mitigación del cuello de botella de memoria y la eficiencia de inferencia mediante la compresión de los fotogramas. Los resultados experimentales en DMLab y Minecraft validan la eficacia de nuestros métodos. Nuestros experimentos también demuestran una frontera de Pareto entre la acumulación de errores y el cuello de botella de memoria en diferentes métodos.
Las imágenes estereoscópicas son fundamentales para numerosas aplicaciones, incluyendo dispositivos de realidad extendida (XR), conducción autónoma y robótica. Desafortunadamente, la adquisición de imágenes estereoscópicas de alta calidad sigue siendo un reto debido a los requisitos de calibración precisa de configuraciones de doble cámara y la complejidad de obtener mapas de disparidad densos y precisos. Los métodos existentes de generación de imágenes estereoscópicas suelen centrarse en la calidad visual para la visualización o en la precisión geométrica para la correspondencia, pero no en ambos. Presentamos GenStereo, un enfoque basado en difusión, para cerrar esta brecha. El método incluye dos innovaciones principales: (1) condicionar el proceso de difusión en una incrustación de coordenadas consciente de la disparidad y en una imagen de entrada deformada, permitiendo una alineación estereoscópica más precisa que los métodos anteriores, y (2) un mecanismo de fusión adaptativa que combina inteligentemente la imagen generada por difusión con una imagen deformada, mejorando tanto el realismo como la consistencia de la disparidad. A través de un extenso entrenamiento en 11 conjuntos de datos estereoscópicos diversos, GenStereo demuestra una fuerte capacidad de generalización. GenStereo logra un rendimiento de vanguardia tanto en la generación de imágenes estereoscópicas como en tareas de correspondencia estereoscópica no supervisada. Nuestro marco elimina la necesidad de configuraciones de hardware complejas al tiempo que permite la generación de imágenes estereoscópicas de alta calidad, lo que lo hace valioso tanto para aplicaciones del mundo real como para escenarios de aprendizaje no supervisado. La página del proyecto está disponible en https://qjizhi.github.io/genstereo.
Trabajos recientes han buscado cuantificar la incertidumbre de los modelos de lenguaje de gran escala para facilitar el control del modelo y modular la confianza del usuario. Estudios previos se han centrado en medidas de incertidumbre que están teóricamente fundamentadas o reflejan el comportamiento promedio observable del modelo. En este trabajo, investigamos una variedad de medidas de incertidumbre con el objetivo de identificar aquellas que se correlacionan con la incertidumbre a nivel grupal en humanos. Descubrimos que las medidas bayesianas y una variación de las medidas de entropía, la entropía top-k, tienden a coincidir con el comportamiento humano en función del tamaño del modelo. Observamos que algunas medidas fuertes disminuyen en similitud humana con el aumento del tamaño del modelo, pero, mediante regresión lineal múltiple, encontramos que combinar múltiples medidas de incertidumbre proporciona una alineación comparable con los humanos con una menor dependencia del tamaño.
Los métodos tradicionales de caja blanca para crear perturbaciones adversas contra modelos de lenguaje grandes (LLMs) suelen basarse únicamente en el cálculo de gradientes del modelo objetivo, ignorando los mecanismos internos responsables del éxito o fracaso del ataque. Por el contrario, los estudios de interpretabilidad que analizan estos mecanismos internos carecen de aplicaciones prácticas más allá de las intervenciones en tiempo de ejecución. Cerramos esta brecha al introducir un novedoso enfoque de caja blanca que aprovecha técnicas de interpretabilidad mecanicista para crear entradas adversas prácticas. Específicamente, primero identificamos subespacios de aceptación: conjuntos de vectores de características que no activan los mecanismos de rechazo del modelo. Luego, utilizamos optimización basada en gradientes para redirigir las incrustaciones desde subespacios de rechazo hacia subespacios de aceptación, logrando efectivamente jailbreaks. Este enfoque dirigido reduce significativamente el costo computacional, alcanzando tasas de éxito de ataque del 80-95\% en modelos de última generación como Gemma2, Llama3.2 y Qwen2.5 en minutos o incluso segundos, en comparación con técnicas existentes que a menudo fallan o requieren horas de cálculo. Creemos que este enfoque abre una nueva dirección tanto para la investigación de ataques como para el desarrollo de defensas. Además, demuestra una aplicación práctica de la interpretabilidad mecanicista donde otros métodos son menos eficientes, lo que resalta su utilidad. El código y los conjuntos de datos generados están disponibles en https://github.com/Sckathach/subspace-rerouting.
El campo de la psicología ha reconocido durante mucho tiempo un nivel básico de categorización que los seres humanos utilizan al etiquetar estímulos visuales, un término acuñado por Rosch en 1976. Se ha descubierto que este nivel de categorización es el más utilizado con frecuencia, tiene una mayor densidad de información y ayuda en tareas de lenguaje visual con priming en humanos. Aquí, investigamos la categorización a nivel básico en dos modelos de visión y lenguaje (VLMs, por sus siglas en inglés) de código abierto recientemente lanzados. Este artículo demuestra que Llama 3.2 Vision Instruct (11B) y Molmo 7B-D prefieren la categorización a nivel básico, lo cual es consistente con el comportamiento humano. Además, las preferencias de los modelos son consistentes con comportamientos humanos matizados, como los efectos de nivel básico biológico versus no biológico y el bien establecido cambio de nivel básico experto, lo que sugiere aún más que los VLMs adquieren comportamientos de categorización cognitiva a partir de los datos humanos con los que son entrenados.
Los recientes y rápidos avances en la generación de texto a video (T2V), como SoRA y Kling, han demostrado un gran potencial para construir simuladores del mundo. Sin embargo, los modelos actuales de T2V tienen dificultades para comprender principios físicos abstractos y generar videos que se ajusten a las leyes físicas. Este desafío surge principalmente de la falta de una guía clara sobre la información física debido a una brecha significativa entre los principios físicos abstractos y los modelos de generación. Para abordar esto, presentamos el Asistente de Simulador del Mundo (WISA, por sus siglas en inglés), un marco efectivo para descomponer e incorporar principios físicos en los modelos T2V. Específicamente, WISA descompone los principios físicos en descripciones físicas textuales, categorías físicas cualitativas y propiedades físicas cuantitativas. Para integrar eficazmente estos atributos físicos en el proceso de generación, WISA incorpora varios diseños clave, incluyendo la Atención de Mezcla de Expertos Físicos (MoPA) y un Clasificador Físico, mejorando la conciencia física del modelo. Además, la mayoría de los conjuntos de datos existentes presentan videos donde los fenómenos físicos están débilmente representados o entrelazados con múltiples procesos concurrentes, lo que limita su idoneidad como recursos dedicados para aprender principios físicos explícitos. Proponemos un nuevo conjunto de datos de video, WISA-32K, recopilado en base a categorías físicas cualitativas. Consta de 32,000 videos, que representan 17 leyes físicas en tres dominios de la física: dinámica, termodinámica y óptica. Los resultados experimentales demuestran que WISA puede mejorar efectivamente la compatibilidad de los modelos T2V con las leyes físicas del mundo real, logrando una mejora considerable en el benchmark VideoPhy. Las exhibiciones visuales de WISA y WISA-32K están disponibles en https://360cvgroup.github.io/WISA/.