Artículos de investigación en IA seleccionados diariamente con traducciones
Introducimos Native Parallel Reasoner (NPR), un marco de trabajo sin supervisión docente que permite a los Modelos de Lenguaje Grandes (LLMs) auto-evolucionar capacidades genuinas de razonamiento paralelo. NPR transforma el modelo de una emulación secuencial a una cognición paralela nativa mediante tres innovaciones clave: 1) un paradigma de entrenamiento progresivo auto-destilado que transita desde el descubrimiento de formato en "arranque en frío" hasta restricciones topológicas estrictas sin supervisión externa; 2) un novedoso algoritmo de Optimización de Políticas con Conciencia Paralela (PAPO) que optimiza las políticas de ramificación directamente dentro del grafo de ejecución, permitiendo al modelo aprender descomposición adaptativa mediante prueba y error; y 3) un Motor NPR robusto que refactoriza la gestión de memoria y el control de flujo de SGLang para permitir un entrenamiento estable de RL paralelo a gran escala. En ocho benchmarks de razonamiento, NPR entrenado en Qwen3-4B logra mejoras de rendimiento de hasta 24.5% y aceleraciones en inferencia de hasta 4.6x. A diferencia de líneas base anteriores que frecuentemente recurren a decodificación autoregresiva, NPR demuestra un 100% de ejecución paralela genuina, estableciendo un nuevo estándar para el razonamiento agente eficiente, escalable y auto-evolutivo.
Las Incrustaciones Posicionales Rotatorias (RoPE) se han convertido en un estándar para codificar el orden de secuencia en los Modelos de Lenguaje Grandes (LLM) mediante la aplicación de rotaciones a los vectores de consulta y clave en el plano complejo. Sin embargo, las implementaciones estándar utilizan únicamente el componente real del producto escalar de valor complejo para el cálculo de la puntuación de atención. Esta simplificación descarta el componente imaginario, que contiene valiosa información de fase, lo que conduce a una posible pérdida de detalles relacionales cruciales para modelar dependencias de contexto largo. En este artículo, proponemos una extensión que reincorpora este componente imaginario descartado. Nuestro método aprovecha la representación compleja completa para crear una puntuación de atención de dos componentes. Demostramos teórica y empíricamente que este enfoque mejora el modelado de dependencias de contexto largo al preservar más información posicional. Además, las evaluaciones en un conjunto de benchmarks de modelado de lenguaje de contexto largo muestran que nuestro método mejora consistentemente el rendimiento respecto al RoPE estándar, siendo los beneficios más significativos a medida que aumenta la longitud del contexto. El código está disponible en https://github.com/OpenMOSS/rope_pp.
Los métodos existentes de edición de vídeo enfrentan una disyuntiva crítica: los modelos expertos ofrecen precisión pero dependen de premisas específicas de la tarea, como máscaras, lo que dificulta su unificación; por el contrario, los modelos unificados de aprendizaje temporal en contexto (in-context learning) no requieren máscaras pero carecen de señales espaciales explícitas, lo que conduce a un mapeo débil entre la instrucción y la región y a una localización imprecisa. Para resolver este conflicto, proponemos VideoCoF, un novedoso enfoque de Cadena-de-Fotogramas (Chain-of-Frames) inspirado en el razonamiento de Cadena-de-Pensamientos (Chain-of-Thought). VideoCoF impone un procedimiento de "ver, razonar, luego editar" al obligar al modelo de difusión de vídeo a predecir primero tokens de razonamiento (latentes de la región a editar) antes de generar los tokens del vídeo objetivo. Este paso de razonamiento explícito elimina la necesidad de máscaras proporcionadas por el usuario, logrando al mismo tiempo una alineación precisa entre la instrucción y la región y una edición de vídeo de grano fino. Además, introducimos una estrategia de alineación RoPE que aprovecha estos tokens de razonamiento para garantizar la alineación del movimiento y permitir la extrapolación de longitud más allá de la duración del entrenamiento. Demostramos que con un coste de datos mínimo de solo 50k pares de vídeo, VideoCoF alcanza un rendimiento state-of-the-art en VideoCoF-Bench, validando la eficiencia y efectividad de nuestro enfoque. Nuestro código, pesos y datos están disponibles en https://github.com/knightyxp/VideoCoF.
El arte voxel es una estilización distintiva ampliamente utilizada en videojuegos y medios digitales, sin embargo, la generación automatizada a partir de mallas 3D sigue siendo un desafío debido a los requisitos conflictivos de abstracción geométrica, preservación semántica y coherencia de color discreta. Los métodos existentes o bien simplifican en exceso la geometría o no logran alcanzar la estética pixelada, con restricciones de paleta y precisión al píxel, propia del arte voxel. Presentamos Voxify3D, un marco diferenciable de dos etapas que conecta la optimización de mallas 3D con la supervisión de arte pixelado en 2D. Nuestra innovación principal reside en la integración sinérgica de tres componentes: (1) supervisión de arte pixelado ortográfico que elimina la distorsión perspectiva para una alineación precisa vóxel-píxel; (2) alineación basada en parches con CLIP que preserva la semántica a través de los niveles de discretización; (3) cuantización Gumbel-Softmax con restricción de paleta que permite la optimización diferenciable sobre espacios de color discretos con estrategias de paleta controlables. Esta integración aborda desafíos fundamentales: la preservación semántica bajo una discretización extrema, la estética de arte pixelado mediante renderizado volumétrico y la optimización discreta de extremo a extremo. Los experimentos muestran un rendimiento superior (37.12 CLIP-IQA, 77.90\% de preferencia de usuario) en diversos personajes y con abstracción controlable (2-8 colores, resoluciones 20x-50x). Página del proyecto: https://yichuanh.github.io/Voxify-3D/
La generación de referencia a vídeo (R2V) tiene como objetivo sintetizar vídeos que se alineen con un texto descriptivo (prompt) preservando al mismo tiempo la identidad del sujeto a partir de imágenes de referencia. Sin embargo, los métodos R2V actuales se ven limitados por su dependencia de tripletas explícitas de imagen de referencia-vídeo-texto, cuya construcción es extremadamente costosa y difícil de escalar. Nosotros evitamos este cuello de botella presentando Saber, un marco de trabajo escalable de cero disparos (zero-shot) que no requiere datos R2V explícitos. Entrenado exclusivamente con pares vídeo-texto, Saber emplea una estrategia de entrenamiento enmascarado (masked training) y un diseño de modelo específico basado en mecanismos de atención para aprender representaciones consistentes con la identidad y conscientes de la referencia. Además, se integran técnicas de aumento de datos con enmascaramiento (mask augmentation) para mitigar los artefactos de tipo "copiar y pegar" comunes en la generación de referencia a vídeo. Más aún, Saber demuestra capacidades de generalización notables con un número variable de referencias y logra un rendimiento superior en el benchmark OpenS2V-Eval en comparación con métodos entrenados con datos R2V.
Los sistemas multiagente basados en modelos de lenguaje grande (LLM) son difíciles de depurar porque las fallas suelen surgir de trazas de interacción largas y ramificadas. La práctica predominante es aprovechar los LLM para la localización de fallas basada en registros, atribuyendo los errores a un agente y paso específicos. Sin embargo, este paradigma tiene dos limitaciones clave: (i) la depuración basada únicamente en registros carece de validación, produciendo hipótesis no verificadas, y (ii) la atribución a un solo paso o un solo agente suele estar mal planteada, ya que encontramos que múltiples intervenciones distintas pueden reparar independientemente la tarea fallida. Para abordar la primera limitación, presentamos DoVer, un marco de depuración impulsado por intervenciones, que complementa la generación de hipótesis con una verificación activa mediante intervenciones específicas (por ejemplo, editar mensajes, alterar planes). Para la segunda limitación, en lugar de evaluar la precisión de la atribución, nos centramos en medir si el sistema resuelve la falla o logra un progreso cuantificable hacia el éxito de la tarea, reflejando una visión más orientada a resultados de la depuración. Dentro del marco del agente Magnetic-One, en los conjuntos de datos derivados de GAIA y AssistantBench, DoVer convierte entre el 18% y el 28% de los intentos fallidos en éxitos, logra hasta un 16% de progreso en hitos y valida o refuta entre el 30% y el 60% de las hipótesis de falla. DoVer también funciona de manera efectiva en un conjunto de datos diferente (GSMPlus) y marco de agente (AG2), donde recupera el 49% de los intentos fallidos. Estos resultados destacan la intervención como un mecanismo práctico para mejorar la confiabilidad en sistemas agentivos y abren oportunidades para métodos de depuración más robustos y escalables para sistemas multiagente basados en LLM. El sitio web del proyecto y el código estarán disponibles en https://aka.ms/DoVer.
Estudiamos la edición de videos egocéntricos guiada por instrucciones para aplicaciones de realidad aumentada interactiva. Si bien los editores de video con IA recientes funcionan bien con material en tercera persona, las vistas egocéntricas presentan desafíos únicos —incluyendo rápido egomovimiento e interacciones frecuentes mano-objeto— que crean una brecha de dominio significativa. Además, los pipelines de edición offline existentes sufren de alta latencia, limitando la interacción en tiempo real. Para abordar estos problemas, presentamos un ecosistema completo para edición de video egocéntrico. Primero, construimos EgoEditData, un conjunto de datos cuidadosamente diseñado y curado manualmente específicamente para escenarios de edición egocéntrica, que presenta ricas interacciones mano-objeto mientras preserva explícitamente las manos. Segundo, desarrollamos EgoEdit, un editor de video egocéntrico que sigue instrucciones y soporta inferencia en streaming en tiempo real en una sola GPU. Finalmente, introducimos EgoEditBench, un conjunto de evaluación que se enfoca en la fidelidad a las instrucciones, preservación de manos e interacciones, y estabilidad temporal bajo egomovimiento. Tanto en tareas de edición egocéntrica como general, EgoEdit produce resultados temporalmente estables y fieles a las instrucciones con latencia interactiva. Logra mejoras claras en benchmarks de edición egocéntrica —donde los métodos existentes tienen dificultades— mientras mantiene un rendimiento comparable a las líneas base más sólidas en tareas de edición general. EgoEditData y EgoEditBench se harán públicos para la comunidad investigadora. Visite nuestro sitio web en https://snap-research.github.io/EgoEdit.
Las técnicas recientes de aprendizaje por refuerzo (RL) han producido mejoras impresionantes en el razonamiento de los modelos de lenguaje, pero aún no está claro si el post-entrenamiento realmente extiende la capacidad de razonamiento de un modelo más allá de lo que adquiere durante el pre-entrenamiento. Un desafío central es la falta de control en los flujos de entrenamiento modernos: los corpus de pre-entrenamiento a gran escala son opacos, el entrenamiento intermedio a menudo está poco examinado, y los objetivos de RL interactúan de maneras complejas con conocimientos previos desconocidos. Para resolver esta ambigüedad, desarrollamos un marco experimental completamente controlado que aísla las contribuciones causales del pre-entrenamiento, el entrenamiento intermedio y el post-entrenamiento basado en RL. Nuestro enfoque emplea tareas de razonamiento sintéticas con operaciones atómicas explícitas, trazas de razonamiento paso a paso analizables y manipulación sistemática de las distribuciones de entrenamiento. Evaluamos los modelos a lo largo de dos ejes: generalización extrapolativa a composiciones más complejas y generalización contextual a través de contextos superficiales. Utilizando este marco, reconciliamos visiones contrapuestas sobre la efectividad del RL. Demostramos que: 1) El RL produce ganancias reales de capacidad (pass@128) solo cuando el pre-entrenamiento deja un margen suficiente y cuando los datos de RL se dirigen al borde de competencia del modelo, tareas en el límite que son difíciles pero aún no están fuera de su alcance. 2) La generalización contextual requiere una exposición mínima pero suficiente durante el pre-entrenamiento, tras la cual el RL puede transferirla de manera confiable. 3) El entrenamiento intermedio mejora significativamente el rendimiento con un cómputo fijo en comparación con solo usar RL, demostrando su papel central pero poco explorado en los flujos de entrenamiento. 4) Las recompensas a nivel de proceso reducen la manipulación de recompensas y mejoran la fidelidad del razonamiento. En conjunto, estos resultados aclaran la interacción entre el pre-entrenamiento, el entrenamiento intermedio y el RL, ofreciendo una base para comprender y mejorar las estrategias de entrenamiento de modelos de lenguaje para el razonamiento.
La mayoría de los modelos generativos visuales comprimen las imágenes en un espacio latente antes de aplicar modelos de difusión o autorregresivos. Sin embargo, enfoques existentes como los VAEs y los codificadores alineados con modelos fundacionales restringen implícitamente el espacio latente sin dar forma explícita a su distribución, lo que hace que no esté claro qué tipos de distribuciones son óptimos para el modelado. Introducimos el VAE de Correspondencia de Distribuciones (DMVAE), que alinea explícitamente la distribución latente del codificador con una distribución de referencia arbitraria mediante una restricción de correspondencia de distribuciones. Esto generaliza más allá del prior gaussiano de los VAEs convencionales, permitiendo la alineación con distribuciones derivadas de características auto-supervisadas, ruido de difusión u otras distribuciones previas. Con DMVAE, podemos investigar sistemáticamente qué distribuciones latentes son más conducentes para el modelado, y encontramos que las distribuciones derivadas de SSL proporcionan un excelente equilibrio entre fidelidad de reconstrucción y eficiencia de modelado, alcanzando un gFID igual a 3.2 en ImageNet con solo 64 épocas de entrenamiento. Nuestros resultados sugieren que elegir una estructura de distribución latente adecuada (lograda mediante una alineación a nivel de distribución), en lugar de depender de distribuciones previas fijas, es clave para cerrar la brecha entre los latentes fáciles de modelar y la síntesis de imágenes de alta fidelidad. El código está disponible en https://github.com/sen-ye/dmvae.
Los humanos no solo percibimos similitudes de atributos, sino también similitudes relacionales. Una manzana se parece a un melocotón porque ambas son frutas rojizas, pero la Tierra también se parece a un melocotón: su corteza, manto y núcleo se corresponden con la piel, pulpa y hueso del melocotón. Los científicos cognitivos argumentan que esta capacidad para percibir y reconocer similitudes relacionales es lo que distingue a los humanos de otras especies. Sin embargo, todas las métricas de similitud visual ampliamente utilizadas en la actualidad (por ejemplo, LPIPS, CLIP, DINO) se centran únicamente en la similitud perceptiva de atributos y no logran capturar las ricas y a menudo sorprendentes similitudes relacionales que los humanos perciben. ¿Cómo podemos ir más allá del contenido visible de una imagen para capturar sus propiedades relacionales? ¿Cómo podemos acercar en el espacio de representación a imágenes que comparten la misma lógica relacional? Para responder estas preguntas, primero formulamos la similitud relacional de imágenes como un problema medible: dos imágenes son relacionalmente similares cuando sus relaciones internas o funciones entre elementos visuales se corresponden, incluso si sus atributos visuales difieren. Luego, creamos un conjunto de datos de 114 mil imágenes con descripciones en el que los textos están anonimizados, describiendo la lógica relacional subyacente de la escena en lugar de su contenido superficial. Utilizando este conjunto de datos, ajustamos un modelo de visión y lenguaje para medir la similitud relacional entre imágenes. Este modelo representa el primer paso hacia la conexión de imágenes mediante su estructura relacional subyacente en lugar de su apariencia visible. Nuestro estudio demuestra que, si bien la similitud relacional tiene numerosas aplicaciones en el mundo real, los modelos existentes de similitud de imágenes no logran capturarla, revelando una brecha crítica en la computación visual.
Proponemos MVP (Multi-view Pyramid Transformer), una arquitectura transformadora multivista escalable que reconstruye directamente grandes escenas 3D a partir de decenas o cientos de imágenes en un único pase hacia adelante. Basándose en la idea de "mirar más amplio para ver el todo, mirar más fino para ver los detalles", MVP se construye sobre dos principios de diseño fundamentales: 1) una jerarquía inter-vista de local a global que amplía gradualmente la perspectiva del modelo desde vistas locales a grupos y finalmente a la escena completa, y 2) una jerarquía intra-vista de fino a grueso que parte de representaciones espaciales detalladas y las agrega progresivamente en tokens compactos y densos en información. Esta doble jerarquía logra tanto eficiencia computacional como riqueza representacional, permitiendo la reconstrucción rápida de escenas grandes y complejas. Validamos MVP en diversos conjuntos de datos y demostramos que, cuando se combina con 3D Gaussian Splatting como representación 3D subyacente, alcanza una calidad de reconstrucción generalizable state-of-the-art, manteniendo al mismo tiempo una alta eficiencia y escalabilidad en una amplia gama de configuraciones de vista.
Presentamos LongCat-Image, un modelo fundacional pionero, de código abierto y bilingüe (chino-inglés) para generación de imágenes, diseñado para abordar los desafíos centrales en la representación de texto multilingüe, el fotorrealismo, la eficiencia de despliegue y la accesibilidad para desarrolladores, problemas prevalentes en los modelos líderes actuales. 1) Lo logramos mediante rigurosas estrategias de curación de datos en las etapas de pre-entrenamiento, entrenamiento intermedio y SFT (Fine-Tuning Supervisado), complementadas con el uso coordinado de modelos de recompensa curados durante la fase de RL (Aprendizaje por Refuerzo). Esta estrategia establece al modelo como un nuevo estado del arte (SOTA), ofreciendo capacidades superiores de representación de texto, un notable fotorrealismo y una mejora significativa en la calidad estética. 2) Cabe destacar que establece un nuevo estándar en la industria para la representación de caracteres chinos. Al admitir incluso caracteres complejos y raros, supera a las principales soluciones tanto de código abierto como comerciales en cobertura, logrando también una precisión superior. 3) El modelo alcanza una eficiencia notable gracias a su diseño compacto. Con un modelo de difusión central de solo 6B de parámetros, es significativamente más pequeño que las arquitecturas Mixture-of-Experts (MoE) de casi 20B o más, comunes en el campo. Esto garantiza un uso mínimo de VRAM y una inferencia rápida, reduciendo significativamente los costos de despliegue. Más allá de la generación, LongCat-Image también sobresale en la edición de imágenes, logrando resultados SOTA en benchmarks estándar con una consistencia de edición superior en comparación con otros trabajos de código abierto. 4) Para empoderar plenamente a la comunidad, hemos establecido el ecosistema de código abierto más completo hasta la fecha. No solo estamos liberando múltiples versiones del modelo para texto-a-imagen y edición de imágenes, incluyendo puntos de control (*checkpoints*) posteriores a las etapas de entrenamiento intermedio y post-entrenamiento, sino también toda la cadena de herramientas del procedimiento de entrenamiento. Creemos que la apertura de LongCat-Image proporcionará un soporte robusto para desarrolladores e investigadores, impulsando las fronteras de la creación de contenido visual.
Los modelos recientes de generación de vídeo demuestran capacidades de síntesis impresionantes, pero siguen limitados por el condicionamiento unimodal, lo que restringe su comprensión holística del mundo. Esto se debe a una interacción multimodal insuficiente y a una diversidad modal limitada para representar el conocimiento mundial integral. Para abordar estas limitaciones, presentamos UnityVideo, un marco unificado para la generación de vídeo consciente del mundo que aprende conjuntamente a través de múltiples modalidades (máscaras de segmentación, esqueletos humanos, DensePose, flujo óptico y mapas de profundidad) y paradigmas de entrenamiento. Nuestro enfoque incluye dos componentes principales: (1) ruido dinámico para unificar paradigmas de entrenamiento heterogéneos, y (2) un conmutador de modalidades con un aprendiz contextual que permite el procesamiento unificado mediante parámetros modulares y aprendizaje contextual. Contribuimos con un conjunto de datos unificado a gran escala con 1.3 millones de muestras. Mediante la optimización conjunta, UnityVideo acelera la convergencia y mejora significativamente la generalización zero-shot para datos no vistos. Demostramos que UnityVideo logra una calidad de vídeo superior, consistencia y una mejor alineación con las restricciones del mundo físico. El código y los datos pueden encontrarse en: https://github.com/dvlab-research/UnityVideo
Los Grandes Modelos de Lenguaje y Visión (VLMs) cierran eficazmente la brecha de modalidad mediante un preentrenamiento extensivo, adquiriendo representaciones visuales sofisticadas alineadas con el lenguaje. Sin embargo, sigue siendo poco explorado si estas representaciones, optimizadas para tareas de comprensión multimodal, albergan un potencial inherente para la generación visual. En este artículo, proponemos VGT, Sintonización para Generación Visual, un paradigma novedoso diseñado para estimular las capacidades subyacentes de generación visual dentro de cualquier modelo de lenguaje y visión. Al realizar una sintonización eficiente para generación visual en VLMs bien preentrenados, mitigamos significativamente los costos de alineación y aceleramos la convergencia del modelado autoregresivo en el espacio continuo (20 veces más rápido). Específicamente, descartamos los VAEs a nivel de píxel entrelazados diseñados para transformadores de difusión y formulamos VGT-AE alineando los codificadores semánticos de VLMs preentrenados con las representaciones latentes de los decodificadores de píxeles. En tareas de reconstrucción de imágenes, alcanzamos 26.67 PSNR y 0.50 rFID con una tasa de compresión de 28x, superando a VAEs especializados; en tareas de generación visual, logramos resultados de vanguardia entre los modelos autoregresivos: 0.77 en GenEval y 78.73 en DPG-Bench. Además, nuestro VGT propuesto demuestra un prometedor potencial de escalabilidad y es versátil para dotar a cualquier VLM entrenado para comprensión multimodal con capacidades de generación visual, lo que allana el nuevo camino para explorar modelos fundacionales multimodales unificados de próxima generación. Los modelos y códigos están disponibles en https://github.com/hustvl/VGT.
Los modelos de recompensa de proceso (PRM), que proporcionan retroalimentación densa a nivel de paso, han mostrado potencial para el aprendizaje por refuerzo. Sin embargo, su adopción sigue limitada por la necesidad de anotaciones costosas a nivel de paso o de referencias de verdad terreno. Proponemos SPARK: un marco de trabajo de tres etapas en el que, en la primera etapa, un modelo generador produce soluciones diversas y un modelo verificador las evalúa utilizando escalado paralelo (autoconsistencia) y escalado secuencial (metacrítica). En la segunda etapa, utilizamos estas salidas de verificación como datos de entrenamiento sintéticos para afinar modelos generativos de recompensa de proceso, que posteriormente sirven como señales de recompensa durante el entrenamiento. Demostramos que agregar múltiples verificaciones independientes a nivel de paso produce datos de entrenamiento para modelos de recompensa de proceso que superan la supervisión de resultados de verdad terreno, logrando 67.5 F1 en ProcessBench (un punto de referencia para identificar pasos erróneos en razonamiento matemático) en comparación con 66.4 para el entrenamiento guiado por referencia y 61.9 para GPT-4o. En la etapa final, aplicamos nuestro PRM generativo con verificación de cadena de pensamiento (PRM-CoT) como modelo de recompensa en experimentos de RL sobre razonamiento matemático, e introducimos restricciones de formato para evitar la piratería de recompensas. Utilizando Qwen2.5-Math-7B, logramos un 47.4% de precisión promedio en seis puntos de referencia de razonamiento matemático, superando al RLVR basado en verdad terreno (43.9%). Nuestro trabajo permite un entrenamiento de RL sin referencias que supera a los métodos basados en verdad terreno, abriendo nuevas posibilidades para dominios que carecen de respuestas verificables o de una verdad terreno accesible.
El razonamiento visual integrado con herramientas (TiVR) ha demostrado un gran potencial para mejorar la resolución multimodal de problemas. Sin embargo, los paradigmas existentes de TiVR se centran principalmente en integrar diversas herramientas visuales mediante aprendizaje por refuerzo, descuidando el diseño de mecanismos de respuesta efectivos para manejar resultados de herramientas poco fiables o erróneos. Esta limitación es particularmente pronunciada en tareas de referenciación y localización, donde las predicciones inexactas de las herramientas de detección a menudo inducen a los modelos TiVR a generar razonamientos alucinados. Para abordar este problema, proponemos VG-Refiner, el primer marco orientado al razonamiento referencial localizado refinado por herramientas. Técnicamente, introducimos un mecanismo de pensar-repensar en dos etapas que permite al modelo analizar y responder explícitamente a la retroalimentación de las herramientas, junto con una recompensa de refinamiento que fomenta la corrección efectiva ante resultados deficientes de las herramientas. Adicionalmente, proponemos dos nuevas métricas y establecemos protocolos de evaluación justos para medir sistemáticamente la capacidad de refinamiento de los modelos actuales. Utilizamos una pequeña cantidad de datos específicos de la tarea para mejorar la capacidad de refinamiento de VG-Refiner, logrando una mejora significativa en precisión y capacidad de corrección en benchmarks de referenciación y localización razonada, mientras se preservan las capacidades generales del modelo preentrenado.
Proponemos ReCamDriving, un marco de generación de vídeo con trayectorias novedosas controlado únicamente por cámaras y basado en visión. Mientras que los métodos basados en reparación fallan al restaurar artefactos complejos y los enfoques basados en LiDAR dependen de pistas dispersas e incompletas, ReCamDriving aprovecha las representaciones densas y completas de la escena de 3DGS para una guía geométrica explícita, logrando una generación precisa controlable por cámara. Para mitigar el sobreajuste a comportamientos de restauración cuando se condiciona con representaciones 3DGS, ReCamDriving adopta un paradigma de entrenamiento en dos etapas: la primera etapa utiliza poses de cámara para un control aproximado, mientras que la segunda etapa incorpora representaciones 3DGS para una guía granular de geometría y punto de vista. Además, presentamos una estrategia de curación de datos entre trayectorias basada en 3DGS para eliminar la brecha entrenamiento-prueba en los patrones de transformación de cámara, permitiendo una supervisión escalable de múltiples trayectorias a partir de vídeos monoculares. Basándonos en esta estrategia, construimos el conjunto de datos ParaDrive, que contiene más de 110K pares de vídeos de trayectorias paralelas. Experimentos exhaustivos demuestran que ReCamDriving alcanza una controlabilidad de cámara y una consistencia estructural state-of-the-art.
Los recientes avances en los modelos de lenguaje grande multimodal (MLLM) han permitido capacidades unificadas de percepción-razonamiento; sin embargo, estos sistemas siguen siendo altamente vulnerables a ataques de jailbreak que evaden la alineación de seguridad e inducen comportamientos dañinos. Los benchmarks existentes, como JailBreakV-28K, MM-SafetyBench y HADES, ofrecen información valiosa sobre las vulnerabilidades multimodales, pero generalmente se centran en escenarios de ataque limitados, carecen de una evaluación estandarizada de defensas y no proporcionan una caja de herramientas unificada y reproducible. Para abordar estas limitaciones, presentamos OmniSafeBench-MM, una caja de herramientas integral para la evaluación de ataques y defensas de jailbreak multimodal. OmniSafeBench-MM integra 13 métodos de ataque representativos, 15 estrategias de defensa y un conjunto de datos diverso que abarca 9 dominios principales de riesgo y 50 categorías detalladas, estructuradas en tipos de consulta consultivos, imperativos y declarativos para reflejar intenciones de usuario realistas. Más allá de la cobertura de datos, establece un protocolo de evaluación tridimensional que mide (1) el nivel de daño, distinguido por una escala granular y multinivel que va desde daños individuales de bajo impacto hasta amenazas sociales catastróficas, (2) la alineación de intención entre respuestas y consultas, y (3) el nivel de detalle de la respuesta, permitiendo un análisis matizado de seguridad-utilidad. Realizamos experimentos exhaustivos en 10 MLLM de código abierto y 8 de código cerrado para revelar su vulnerabilidad al jailbreak multimodal. Al unificar datos, metodología y evaluación en una plataforma reproducible y de código abierto, OmniSafeBench-MM proporciona una base estandarizada para la investigación futura. El código está disponible en https://github.com/jiaxiaojunQAQ/OmniSafeBench-MM.
A pesar de los avances prometedores en la generación de imágenes basada en sujetos, los modelos actuales a menudo se desvían de las identidades de referencia y tienen dificultades en escenas complejas con múltiples sujetos. Para abordar este desafío, presentamos OpenSubject, un corpus a gran escala derivado de vídeos con 2.5 millones de muestras y 4.35 millones de imágenes para la generación y manipulación basada en sujetos. El conjunto de datos se construye con un pipeline de cuatro etapas que aprovecha los *priors* de identidad entre fotogramas. (i) Curación de Vídeos. Aplicamos filtros de resolución y estética para obtener clips de alta calidad. (ii) Minería y Emparejamiento de Sujetos entre Fotogramas. Utilizamos un consenso de categoría basado en un modelo de visión y lenguaje (VLM), el grounding local y un emparejamiento consciente de la diversidad para seleccionar pares de imágenes. (iii) Síntesis de Imágenes de Referencia que Preserva la Identidad. Introducimos la técnica de *outpainting* guiado por mapas de segmentación para sintetizar las imágenes de entrada para la generación basada en sujetos, y la técnica de *inpainting* guiado por cuadros delimitadores para generar las imágenes de entrada para la manipulación basada en sujetos, junto con aumentos de datos con conciencia geométrica y erosión de bordes irregulares. (iv) Verificación y Descripción. Utilizamos un VLM para validar las muestras sintetizadas, resintetizar las muestras fallidas basándonos en la etapa (iii), y luego construir descripciones cortas y largas. Adicionalmente, presentamos un benchmark que cubre la generación y manipulación basada en sujetos, y luego evaluamos la fidelidad de la identidad, la adherencia al *prompt*, la consistencia de la manipulación y la consistencia del fondo con un VLM como juez. Experimentos exhaustivos muestran que el entrenamiento con OpenSubject mejora el rendimiento en generación y manipulación, particularmente en escenas complejas.
La regresión basada en decodificación, que reformula la regresión como una tarea de generación de secuencias, ha surgido como un paradigma prometedor para aplicar modelos de lenguaje grandes a la predicción numérica. Sin embargo, su progreso se ve obstaculizado por la desalineación entre los objetivos discretos a nivel de token (por ejemplo, entropía cruzada) y los valores numéricos continuos. Los enfoques existentes que dependen de restricciones a nivel de token a menudo no logran capturar la magnitud global del valor objetivo, limitando su precisión y generalización. En este artículo, proponemos desbloquear el potencial de la regresión basada en decodificación mediante el Aprendizaje por Refuerzo (AR). Formulamos el proceso de generación como un Proceso de Decisión de Markov, utilizando recompensas a nivel de secuencia para imponer coherencia numérica global. Experimentos exhaustivos en regresión tabular y regresión de métricas de código demuestran que nuestro método (específicamente con ReMax y GRPO) supera consistentemente tanto a los métodos de referencia a nivel de token más avanzados como a los cabezales de regresión tradicionales, mostrando la superioridad de introducir señales a nivel de secuencia. Nuestro análisis revela además que el AR mejora significativamente la eficiencia del muestreo y la precisión predictiva, estableciendo la regresión basada en decodificación como un paradigma robusto y preciso para la predicción numérica de propósito general.
Los modelos generativos visuales (por ejemplo, los modelos de difusión) suelen operar en espacios latentes comprimidos para equilibrar la eficiencia del entrenamiento y la calidad de las muestras. Paralelamente, ha crecido el interés en aprovechar representaciones visuales preentrenadas de alta calidad, ya sea alineándolas dentro de VAEs o directamente dentro del modelo generativo. Sin embargo, adaptar dichas representaciones sigue siendo un desafío debido a desajustes fundamentales entre las características orientadas a la comprensión y los espacios latentes favorables para la generación. Los codificadores de representación se benefician de latentes de alta dimensión que capturan hipótesis diversas para regiones enmascaradas, mientras que los modelos generativos prefieren latentes de baja dimensión que deben preservar fielmente el ruido inyectado. Esta discrepancia ha llevado a trabajos previos a depender de objetivos y arquitecturas complejas. En este trabajo, proponemos FAE (Feature Auto-Encoder), un marco simple pero efectivo que adapta representaciones visuales preentrenadas en latentes de baja dimensión aptos para generación utilizando tan poco como una sola capa de atención, mientras retiene suficiente información tanto para la reconstrucción como para la comprensión. La clave es acoplar dos decodificadores profundos separados: uno entrenado para reconstruir el espacio de características original, y un segundo que toma las características reconstruidas como entrada para la generación de imágenes. FAE es genérico; puede instanciarse con una variedad de codificadores auto-supervisados (por ejemplo, DINO, SigLIP) y conectarse en dos familias generativas distintas: modelos de difusión y flujos normalizadores. En benchmarks de generación condicionada por clase y texto-a-imagen, FAE logra un rendimiento sólido. Por ejemplo, en ImageNet 256x256, nuestro modelo de difusión con CFG alcanza un FID cercano al estado del arte de 1.29 (800 épocas) y 1.70 (80 épocas). Sin CFG, FAE alcanza el estado del arte en FID de 1.48 (800 épocas) y 2.08 (80 épocas), demostrando tanto alta calidad como aprendizaje rápido.
Presentamos GRAPE (Group RepresentAtional Position Encoding), un marco unificado para la codificación posicional basado en acciones de grupo. GRAPE reúne dos familias de mecanismos: (i) rotaciones multiplicativas (GRAPE Multiplicativo) en SO(d) y (ii) sesgos aditivos en los logits (GRAPE Aditivo) que surgen de acciones unipotentes en el grupo lineal general GL. En GRAPE Multiplicativo, una posición n en Z (o t en R) actúa como G(n)=exp(n,ω,L) con un generador sesgado de rango 2, L en R^{d x d}, produciendo un mapa relacional, compositivo y que preserva la norma con una exponencial matricial de forma cerrada. RoPE se recupera exactamente cuando los d/2 planos son los pares de coordenadas canónicas con espectro log-uniforme. Los subespacios conmutativos aprendidos y las mezclas compactas no conmutativas extienden estrictamente esta geometría para capturar el acoplamiento de características entre subespacios con un coste por cabeza de O(d) y O(r d), respectivamente. En GRAPE Aditivo, los logits aditivos surgen como acciones unipotentes de rango 1 (o de rango bajo), recuperando ALiBi y el Forgetting Transformer (FoX) como casos especiales exactos, a la vez que se preserva una ley relacional exacta y la capacidad de almacenamiento en caché para streaming. En conjunto, GRAPE proporciona un espacio de diseño fundamentado para la geometría posicional en modelos de contexto largo, englobando a RoPE y ALiBi como casos particulares. Página del proyecto: https://github.com/model-architectures/GRAPE.
Los recientes avances en modelos generativos autorregresivos (AR) han producido sistemas cada vez más potentes para la síntesis de medios. Entre ellos, la predicción multiescala ha surgido como un paradigma popular, donde los modelos generan imágenes de manera to-a-fino. Sin embargo, los modelos AR por escala adolecen de sesgo de exposición, lo que socava la calidad de la generación. Identificamos dos causas principales de este problema: (1) la discrepancia entre entrenamiento y prueba, donde el modelo debe depender de sus propias predicciones imperfectas durante la inferencia, y (2) el desequilibrio en la dificultad de aprendizaje por escala, donde ciertas escalas exhiben una complejidad de optimización desproporcionadamente mayor. Mediante un análisis exhaustivo de la dinámica del entrenamiento, proponemos el Refinamiento Auto-Autorregresivo (SAR) para abordar estas limitaciones. SAR introduce un mecanismo de Despliegue Escalonado (SSR) que realiza despliegues autorregresivos ligeros para exponer el modelo a sus propias predicciones intermedias, alineando así los patrones de entrenamiento y prueba, y una Pérdida de Forzado Estudiantil Contrastante (CSFL) complementaria que proporciona una supervisión adecuada para los contextos autogenerados para garantizar un entrenamiento estable. Los resultados experimentales muestran que la aplicación de SAR a modelos AR preentrenados mejora consistentemente la calidad de la generación con una sobrecarga computacional mínima. Por ejemplo, SAR produce una reducción del 5.2% en FID para FlexVAR-d16 entrenado en ImageNet 256 dentro de 10 épocas (5 horas en 32 GPUs A100). Dada su eficiencia, escalabilidad y efectividad, esperamos que SAR sirva como un método confiable de post-entrenamiento para la generación visual autorregresiva.
Los modelos recientes de visión y lenguaje (VLMs) logran capacidades de razonamiento notables mediante el aprendizaje por refuerzo (RL), lo que proporciona una solución viable para materializar modelos grandes de visión y lenguaje (LVLMs) de auto-evolución continua en la era de la experiencia. Sin embargo, el RL para VLMs requiere abundantes datos multimodales de alta calidad, un reto especialmente difícil en dominios especializados como la química, las ciencias de la tierra y las matemáticas multimodales. Estrategias existentes, como los datos sintéticos y los mecanismos de auto-recompensa, adolecen de distribuciones limitadas y dificultades de alineación, lo que finalmente provoca *reward hacking*: los modelos explotan patrones de alta recompensa, colapsando la entropía de la política y desestabilizando el entrenamiento. Proponemos DoGe (Decouple to Generalize), un marco de doble desacoplamiento que guía a los modelos a aprender primero del contexto en lugar de la resolución de problemas, reenfocándose en los escenarios contextuales de los problemas pasados por alto por los métodos de datos sintéticos. Al desacoplar el proceso de aprendizaje en dos componentes (Thinker y Solver), cuantificamos razonablemente las señales de recompensa de este proceso y proponemos un enfoque de post-entrenamiento RL en dos etapas, que va desde la exploración libre del contexto hasta la resolución práctica de tareas. En segundo lugar, para aumentar la diversidad de los datos de entrenamiento, DoGe construye un pipeline evolutivo de aprendizaje curricular: un corpus expandido de conocimiento del dominio nativo y un banco de problemas semilla de evolución iterativa. Los experimentos demuestran que nuestro método supera consistentemente a la línea base en varios benchmarks, ofreciendo una vía escalable para materializar LVLMs auto-evolutivos.
La generalización en la manipulación robótica es esencial para desplegar robots en entornos de mundo abierto y avanzar hacia la inteligencia artificial general. Si bien los modelos recientes Visión-Lenguaje-Acción (VLA) aprovechan grandes modelos de comprensión preentrenados para la percepción y el seguimiento de instrucciones, su capacidad para generalizar a tareas, objetos y entornos novedosos sigue siendo limitada. En este trabajo, presentamos VideoVLA, un enfoque sencillo que explora el potencial de transformar grandes modelos de generación de vídeo en manipuladores robóticos VLA. Dada una instrucción de lenguaje y una imagen, VideoVLA predice una secuencia de acciones así como los resultados visuales futuros. Construido sobre un Transformer de Difusión multimodal, VideoVLA modela conjuntamente los modales de vídeo, lenguaje y acción, utilizando modelos generativos de vídeo preentrenados para la predicción conjunta visual y de acciones. Nuestros experimentos muestran que los futuros imaginados de alta calidad se correlacionan con predicciones de acción confiables y éxito en la tarea, destacando la importancia de la imaginación visual en la manipulación. VideoVLA demuestra una fuerte generalización, incluyendo la imitación de habilidades de otras embodiciones y el manejo de objetos novedosos. Esta estrategia de predicción dual -predecir tanto las acciones como sus consecuencias visuales- explora un cambio de paradigma en el aprendizaje robótico y desbloquea capacidades de generalización en sistemas de manipulación.
Los sistemas de diálogo de contexto largo sufren de Inercia de Estado, donde restricciones estáticas impiden que los modelos resuelvan conflictos entre las intenciones evolutivas del usuario y el contexto histórico establecido. Para abordar esto, proponemos DZ-TDPO, un marco de alineación no destructivo que sinergiza restricciones dinámicas de KL conscientes de conflictos con un sesgo de atención temporal calibrado. Los experimentos en el conjunto de datos Multi-Session Chat (MSC) demuestran que DZ-TDPO logra tasas de victoria state-of-the-art (55.4% en Phi-3.5) manteniendo una generalización robusta zero-shot. Nuestro análisis de escalado revela un "Intercambio Capacidad-Estabilidad": mientras los modelos más pequeños incurren en un "impuesto de alineación" (aumento de perplexity) para superar la inercia histórica, el modelo más grande Qwen2.5-7B alcanza un 50.8% de tasa de victoria con sobrecarga de perplexity negligible. Esto confirma que la Inercia de Estado puede aliviarse mediante una regulación precisa de la atención en lugar de actualizaciones destructivas de pesos, preservando capacidades generales (MMLU) en todas las escalas del modelo. Código y datos disponibles: https://github.com/lyj20071013/DZ-TDPO
A medida que los robots se integran en entornos humanos de trabajo, existe una necesidad crítica de que comprendan instrucciones corporizadas, permitiendo una interacción humano-robot (HRI) intuitiva y fluida. Sin embargo, la comprensión precisa es un desafío debido a la falta de conjuntos de datos a gran escala que capturen interacciones corporizadas naturales en diversos escenarios de HRI. Los conjuntos de datos existentes adolecen de sesgo de perspectiva, recopilación desde una única vista, cobertura inadecuada de gestos no verbales y un enfoque predominante en entornos interiores. Para abordar estos problemas, presentamos el conjunto de datos Refer360, un conjunto de datos a gran escala de interacciones verbales y no verbales corporizadas, recopilado desde diversos puntos de vista en entornos tanto interiores como exteriores. Adicionalmente, presentamos MuRes, un módulo residual guiado multimodal diseñado para mejorar la comprensión de expresiones de referencia corporizadas. MuRes actúa como un cuello de botella de información, extrayendo señales salientes específicas de cada modalidad y reforzándolas en representaciones preentrenadas para formar características complementarias para tareas posteriores. Realizamos experimentos exhaustivos en cuatro conjuntos de datos de HRI, incluido el conjunto de datos Refer360, y demostramos que los modelos multimodales actuales no logran capturar las interacciones corporizadas de manera integral; sin embargo, al aumentarlos con MuRes se mejora consistentemente el rendimiento. Estos hallazgos establecen a Refer360 como un punto de referencia valioso y exhiben el potencial del aprendizaje residual guiado para avanzar en la comprensión de expresiones de referencia corporizadas en robots que operan dentro de entornos humanos.
Las garantías clásicas de convergencia para el aprendizaje basado en gradientes en juegos requieren que el pseudo-gradiente sea (fuertemente) monótono en la geometría euclidiana, como demostró Rosen (1965), una condición que a menudo falla incluso en juegos simples con acoplamientos fuertes entre jugadores. Introducimos Small-Gain Nash (SGN), una condición de pequeña ganancia por bloques en una geometría personalizada con pesos por bloques. SGN convierte las cotas locales de curvatura y de acoplamiento Lipschitz entre jugadores en un certificado manejable de contracción. Construye una métrica ponderada por bloques en la que el pseudo-gradiente se vuelve fuertemente monótono en cualquier región donde se mantengan estas cotas, incluso cuando no es monótono en sentido euclidiano. El flujo continuo es exponencialmente contractivo en esta geometría diseñada, y las discretizaciones de Euler proyectado y RK4 convergen bajo cotas explícitas de tamaño de paso derivadas del margen SGN y una constante de Lipschitz local. Nuestro análisis revela una "banda de escala de tiempo" certificada, un certificado no-asintótico basado en métricas que juega un papel similar a TTUR: en lugar de forzar una separación asintótica de escalas de tiempo mediante tamaños de paso desiguales y decrecientes, SGN identifica una banda finita de pesos métricos relativos para la cual una dinámica con un único tamaño de paso es demostrablemente contractiva. Validamos el marco en juegos cuadráticos donde el análisis de monotonicidad euclidiana no logra predecir la convergencia, pero SGN la certifica con éxito, y extendemos la construcción a geometrías espejo/de Fisher para el gradiente de políticas con entropía regularizada en juegos de Markov. El resultado es una canalización de certificación offline que estima los parámetros de curvatura, acoplamiento y Lipschitz en regiones compactas, optimiza los pesos de los bloques para ampliar el margen SGN y devuelve un certificado de convergencia estructural y computable que consiste en una métrica, una tasa de contracción y tamaños de paso seguros para juegos no monótonos.
El autoencoder variacional de cuantización vectorial (VQ-VAE) es un autoencoder discreto que comprime imágenes en tokens discretos. Es difícil de entrenar debido a la discretización. En este artículo, proponemos una técnica simple pero efectiva, denominada Cuantización Gaussiana (GQ), que convierte un VAE Gaussiano con cierta restricción en un VQ-VAE sin necesidad de entrenamiento. GQ genera ruido gaussiano aleatorio como libro de códigos y encuentra el ruido más cercano a la media posterior. Teóricamente, demostramos que cuando el logaritmo del tamaño del libro de códigos supera la tasa de codificación de bits posteriores del VAE Gaussiano, se garantiza un pequeño error de cuantización. En la práctica, proponemos una heurística para entrenar el VAE Gaussiano para una GQ efectiva, denominada restricción de divergencia objetivo (TDC). Empíricamente, mostramos que GQ supera a VQ-VAEs anteriores, como VQGAN, FSQ, LFQ y BSQ, tanto en arquitecturas UNet como ViT. Además, TDC también mejora los métodos de discretización de VAE Gaussianos anteriores, como TokenBridge. El código fuente se proporciona en https://github.com/tongdaxu/VQ-VAE-from-Gaussian-VAE.
Los trabajos recientes sobre traducción de texto estructurado siguen limitándose al nivel de oración, ya que tienen dificultades para manejar eficazmente las complejas estructuras XML o HTML a nivel de documento. Para abordar esto, proponemos Aprendizaje por Refuerzo de Formato (FormatRL), que emplea Optimización de Políticas Relativas Grupales sobre un modelo supervisado de ajuste fino para optimizar directamente nuevas recompensas conscientes de la estructura: 1) TreeSim, que mide la similitud estructural entre los árboles XML predichos y de referencia, y 2) Node-chrF, que mide la calidad de la traducción a nivel de nodos XML. Adicionalmente, aplicamos StrucAUC, una métrica de grano fino que distingue entre errores menores y fallos estructurales mayores. Los experimentos en el benchmark de documentación de software SAP demuestran mejoras en seis métricas, y un análisis adicional muestra cómo las diferentes funciones de recompensa contribuyen a las mejoras tanto en la calidad estructural como en la de traducción.
Presentamos un marco auto-supervisado de dos etapas que combina la Arquitectura Predictiva de Incrustación Conjunta (JEPA) con un Mecanismo de Atención de Adaptación de Densidad (DAAM) para aprender representaciones de voz robustas. La Etapa~1 emplea JEPA con DAAM para aprender características de audio semánticas mediante predicción enmascarada en el espacio latente, completamente desacoplada de la reconstrucción de la forma de onda. La Etapa~2 aprovecha estas representaciones para una tokenización eficiente utilizando Cuantización Escalar Finita (FSQ) y un esquema de empaquetamiento de base mixta, seguido de una reconstrucción de forma de onda de alta fidelidad con un decodificador HiFi-GAN. Al integrar una compuerta de adaptación de densidad basada en mezclas gaussianas en el codificador JEPA, el modelo realiza una selección adaptativa de características temporales y descubre una estructura jerárquica del habla a una baja tasa de frames de 2.5~Hz. Los tokens resultantes (47.5 tokens/seg) proporcionan una representación reversible, altamente comprimida y compatible con modelos de lenguaje que es competitiva, y a menudo más eficiente, que los códecs de audio neuronal existentes.
Este artículo investiga la discontinuidad fundamental entre los dos últimos Modelos de Segmentación Universal (SAM): SAM2 y SAM3. Explicamos por qué la experiencia en segmentación basada en *prompts* de SAM2 no se transfiere al paradigma multimodal impulsado por conceptos de SAM3. SAM2 opera mediante *prompts* espaciales (puntos, cuadros delimitadores y máscaras) que dan lugar a una segmentación puramente geométrica y temporal. En contraste, SAM3 introduce una arquitectura unificada de visión y lenguaje capaz de razonamiento de vocabulario abierto, fundamentación semántica, alineación contrastiva y comprensión de conceptos basada en ejemplos. Estructuramos este análisis en cinco componentes principales: (1) una Ruptura Conceptual entre la Segmentación Basada en *Prompts* y la Basada en Conceptos, contrastando la semántica de los *prompts* espaciales de SAM2 con la fusión multimodal y la generación de máscaras condicionadas por texto de SAM3; (2) Divergencia Arquitectónica, detallando el diseño de visión pura y temporal de SAM2 frente a la integración en SAM3 de codificadores de visión-lenguaje, codificadores geométricos y de ejemplos, módulos de fusión, decodificadores estilo DETR, consultas de objetos y manejo de ambigüedades mediante Mixture-of-Experts; (3) Diferencias en Conjuntos de Datos y Anotaciones, contrastando las máscaras de video de SA-1B-V con los corpus anotados con conceptos multimodales de SAM3; (4) Distinciones en Entrenamiento e Hiperparámetros, mostrando por qué el conocimiento de optimización de SAM2 no es aplicable a SAM3; y (5) Evaluación, Métricas y Modos de Falla, delineando la transición de las métricas geométricas de IoU a la evaluación semántica de vocabulario abierto. En conjunto, estos análisis establecen a SAM3 como una nueva clase de modelo base de segmentación y trazan direcciones futuras para la emergente era de la segmentación impulsada por conceptos.