Artículos de investigación en IA seleccionados diariamente con traducciones
La memoria ha surgido, y continuará siendo, una capacidad fundamental de los agentes basados en modelos fundacionales. A medida que la investigación sobre la memoria de los agentes se expande rápidamente y atrae una atención sin precedentes, el campo también se ha vuelto cada vez más fragmentado. Los trabajos existentes que se engloban bajo el paraguas de la memoria de los agentes a menudo difieren sustancialmente en sus motivaciones, implementaciones y protocolos de evaluación, mientras que la proliferación de terminologías de memoria débilmente definidas ha oscurecido aún más la claridad conceptual. Las taxonomías tradicionales, como la memoria a largo/corto plazo, han demostrado ser insuficientes para capturar la diversidad de los sistemas de memoria de agentes contemporáneos. Este trabajo pretende ofrecer una panorámica actualizada de la investigación actual sobre la memoria de los agentes. Comenzamos delimitando claramente el alcance de la memoria de los agentes y distinguiéndola de conceptos relacionados como la memoria de los LLM, la generación aumentada por recuperación (RAG) y la ingeniería de contexto. A continuación, examinamos la memoria de los agentes a través de las lentes unificadas de las formas, las funciones y la dinámica. Desde la perspectiva de las formas, identificamos tres realizaciones dominantes de la memoria de los agentes: la memoria a nivel de token, paramétrica y latente. Desde la perspectiva de las funciones, proponemos una taxonomía más granular que distingue entre memoria factual, experiencial y de trabajo. Desde la perspectiva de la dinámica, analizamos cómo se forma, evoluciona y recupera la memoria a lo largo del tiempo. Para apoyar el desarrollo práctico, recopilamos un resumen exhaustivo de benchmarks de memoria y frameworks de código abierto. Más allá de la consolidación, articulamos una perspectiva prospectiva sobre las fronteras emergentes de la investigación, incluyendo la automatización de la memoria, la integración con el aprendizaje por refuerzo, la memoria multimodal, la memoria multi-agente y los problemas de confiabilidad. Esperamos que este estudio sirva no solo como referencia para el trabajo existente, sino también como una base conceptual para repensar la memoria como un primitivo de primera clase en el diseño de la inteligencia agentiva futura.
Los modelos autorregresivos (ARM) se ven limitados por su inferencia secuencial lenta. Si bien los modelos de difusión enmascarada (MDM) ofrecen una alternativa paralela, adolecen de desventajas críticas: alta sobrecarga computacional por impedir el almacenamiento en caché de claves-valores (KV), y generación incoherente derivada de aprender dependencias sobre un espacio intratable de combinaciones de tokens. Para abordar estas limitaciones, presentamos ReFusión, un novedoso modelo de difusión enmascarada que logra un rendimiento y eficiencia superiores al elevar la decodificación paralela del nivel de token a un nivel de *slot* superior, donde cada *slot* es una subsecuencia contigua de longitud fija. Esto se logra mediante un proceso de decodificación iterativo de "planificar y rellenar": un paso de planificación basado en difusión identifica primero un conjunto de *slots* débilmente dependientes, y luego un paso de rellenado autorregresivo decodifica estos *slots* seleccionados en paralelo. El diseño basado en *slots* desbloquea simultáneamente la reutilización completa de la caché KV con un marco causal unificado y reduce la complejidad del aprendizaje del espacio de combinaciones de tokens a un manejable espacio de permutaciones a nivel de *slot*. Experimentos exhaustivos en siete benchmarks diversos muestran que ReFusión no solo supera abrumadoramente a los MDM anteriores con ganancias de rendimiento del 34% y una aceleración promedio de más de 18 veces, sino que también salva la brecha de rendimiento con los ARM fuertes manteniendo una aceleración promedio de 2.33 veces.
Presentamos QwenLong-L1.5, un modelo que logra capacidades superiores de razonamiento en contextos extensos mediante innovaciones sistemáticas en el post-entrenamiento. Los avances técnicos clave de QwenLong-L1.5 son los siguientes: (1) *Pipeline* de Síntesis de Datos para Contextos Extensos: Desarrollamos un marco de síntesis sistemático que genera tareas de razonamiento complejas que requieren una fundamentación multi-etapa sobre evidencia distribuida globalmente. Al deconstruir documentos en hechos atómicos y sus relaciones subyacentes, y luego componer programáticamente preguntas de razonamiento verificables, nuestro enfoque crea datos de entrenamiento de alta calidad a gran escala, yendo sustancialmente más allá de las tareas de recuperación simples para permitir capacidades genuinas de razonamiento de largo alcance. (2) Aprendizaje por Refuerzo Estabilizado para Entrenamiento en Contextos Extensos: Para superar la inestabilidad crítica en el aprendizaje por refuerzo (RL) para contextos extensos, introducimos un muestreo balanceado por tareas con estimación de ventaja específica para mitigar el sesgo de la recompensa, y proponemos una Optimización de Políticas con Control de Entropía Adaptativa (AEPO) que regula dinámicamente las compensaciones entre exploración y explotación. (3) Arquitectura Aumentada con Memoria para Contextos Ultra-Extensos: Reconociendo que incluso las ventanas de contexto extendidas no pueden acomodar secuencias arbitrariamente largas, desarrollamos un marco de gestión de memoria con entrenamiento RL de fusión multi-etapa que integra perfectamente el razonamiento de pasada única con el procesamiento iterativo basado en memoria para tareas que superan los 4 millones de *tokens*. Basado en Qwen3-30B-A3B-Thinking, QwenLong-L1.5 alcanza un rendimiento comparable a GPT-5 y Gemini-2.5-Pro en puntos de referencia de razonamiento en contextos extensos, superando a su línea base por 9.90 puntos en promedio. En tareas ultra-extensas (1M~4M *tokens*), el marco de agente con memoria de QwenLong-L1.5 produce una ganancia de 9.48 puntos sobre la línea base de agente. Adicionalmente, la capacidad de razonamiento en contextos extensos adquirida se traduce en un rendimiento mejorado en dominios generales como el razonamiento científico, el uso de herramientas de memoria y el diálogo extendido.
La calidad del espacio latente en tokenizadores visuales (por ejemplo, VAEs) es crucial para los modelos generativos modernos. Sin embargo, el paradigma de entrenamiento estándar basado en reconstrucción produce un espacio latente sesgado hacia información de bajo nivel, lo que conduce a un defecto fundamental: una mejor precisión a nivel de píxel no se traduce en una generación de mayor calidad. Esto implica que invertir grandes recursos computacionales en el preentrenamiento del tokenizador visual se traduce pobremente en una mejora del rendimiento generativo. Identificamos esto como el "problema de escalado del preentrenamiento" y sugerimos un cambio necesario: para ser efectivo para la generación, un espacio latente debe representar de manera concisa semántica de alto nivel. Presentamos VTP, un marco unificado de preentrenamiento para tokenizadores visuales, pionero en la optimización conjunta de pérdidas de contraste imagen-texto, auto-supervisadas y de reconstrucción. Nuestro estudio a gran escala revela dos hallazgos principales: (1) la comprensión es un motor clave de la generación, y (2) propiedades de escalado mucho mejores, donde el rendimiento generativo escala efectivamente con el cómputo, los parámetros y los datos asignados al preentrenamiento del tokenizador visual. Tras un preentrenamiento a gran escala, nuestro tokenizador ofrece un perfil competitivo (78.2% de precisión zero-shot y 0.36 rFID en ImageNet) y una convergencia 4.1 veces más rápida en generación en comparación con métodos avanzados de destilación. Más importante aún, escala efectivamente: sin modificar las especificaciones estándar de entrenamiento DiT, invertir únicamente más FLOPS en el preentrenamiento de VTP logra una mejora del 65.8% en FID en la generación subsiguiente, mientras que el autoencoder convencional se estanca muy pronto a 1/10 de los FLOPS. Nuestros modelos preentrenados están disponibles en https://github.com/MiniMax-AI/VTP.
La construcción de modelos de mundo de vídeo sobre sistemas preentrenados de generación de vídeo representa un paso importante pero desafiante hacia la inteligencia espacio-temporal general. Un modelo de mundo debe poseer tres propiedades esenciales: controlabilidad, calidad visual a largo plazo y consistencia temporal. Con este fin, adoptamos un enfoque progresivo: primero mejoramos la controlabilidad y luego nos extendemos hacia la generación a largo plazo y de alta calidad. Presentamos LongVie 2, un marco autoregresivo de extremo a extremo entrenado en tres etapas: (1) Guía multimodal, que integra señales de control densas y dispersas para proporcionar supervisión implícita a nivel de mundo y mejorar la controlabilidad; (2) Entrenamiento consciente de la degradación en el fotograma de entrada, cerrando la brecha entre el entrenamiento y la inferencia a largo plazo para mantener una alta calidad visual; y (3) Guía de contexto histórico, que alinea la información contextual entre clips adyacentes para garantizar la consistencia temporal. Además, presentamos LongVGenBench, un benchmark integral que comprende 100 vídeos de un minuto en alta resolución que cubren diversos entornos reales y sintéticos. Experimentos exhaustivos demuestran que LongVie 2 logra un rendimiento de vanguardia en controlabilidad de largo alcance, coherencia temporal y fidelidad visual, y soporta generación continua de vídeo con una duración de hasta cinco minutos, marcando un paso significativo hacia el modelado unificado de mundos de vídeo.
Presentamos un benchmark de finanzas y contabilidad (Finch) para evaluar agentes de IA en flujos de trabajo profesionales de grado empresarial y del mundo real, que entrelazan entrada de datos, estructuración, formateo, búsqueda web, recuperación entre archivos, cálculo, modelado, validación, traducción, visualización y generación de informes. Finch se obtiene de espacios de trabajo empresariales auténticos de Enron (15.000 hojas de cálculo y 500.000 correos electrónicos de 150 empleados) y otras instituciones financieras, preservando el desorden característico de entornos reales en artefactos multimodales (texto, tablas, fórmulas, gráficos, código e imágenes) y abarcando diversos dominios como la elaboración de presupuestos, la negociación bursátil y la gestión de activos. Proponemos un proceso de construcción de flujos de trabajo que combina el descubrimiento asistido por LLM con anotación experta: (1) derivación de flujos de trabajo a partir de hilos de correo electrónico reales e historiales de versiones de archivos de hojas de cálculo, asistida por LLM y verificada por expertos, y (2) meticulosa anotación experta de los flujos de trabajo, que requirió más de 700 horas de esfuerzo de especialistas del dominio. Esto produce 172 flujos de trabajo compuestos con 384 tareas, que involucran 1.710 hojas de cálculo con 27 millones de celdas, junto con archivos PDF y otros artefactos, capturando la naturaleza intrínsecamente desordenada, de largo horizonte, intensiva en conocimiento y colaborativa del trabajo empresarial real. Realizamos evaluaciones tanto humanas como automatizadas de sistemas de IA de vanguardia, incluyendo GPT 5.1, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 y Qwen 3 Max. GPT 5.1 Pro invierte 48 horas en total pero solo supera el 38,4% de los flujos de trabajo, mientras que Claude Sonnet 4.5 supera apenas el 25,0%. Estudios de caso exhaustivos revelan además los desafíos que los flujos de trabajo empresariales reales plantean para los agentes de IA.
Los recientes avances en agentes de codificación sugieren un progreso acelerado hacia el desarrollo de software autónomo; sin embargo, los puntos de referencia existentes no logran evaluar rigurosamente las capacidades de largo horizonte necesarias para construir sistemas de software completos. La mayoría de las evaluaciones previas se centran en la generación de código localizada, la finalización con andamiaje o tareas de reparación a corto plazo, dejando abierta la cuestión de si los agentes pueden sostener un razonamiento, una planificación y una ejecución coherentes a lo largo de los horizontes extendidos que exige la construcción de repositorios del mundo real. Para abordar esta brecha, presentamos NL2Repo Bench, un punto de referencia diseñado explícitamente para evaluar la capacidad de generación de repositorios de largo horizonte de los agentes de codificación. Dado únicamente un documento de requisitos en lenguaje natural y un espacio de trabajo vacío, los agentes deben diseñar autónomamente la arquitectura, gestionar dependencias, implementar lógica multi-módulo y producir una biblioteca Python completamente instalable. Nuestros experimentos con modelos de última generación, tanto de código abierto como cerrado, revelan que la generación de repositorios de largo horizonte sigue siendo en gran medida un problema sin resolver: incluso los agentes más potentes logran tasas promedio de éxito en las pruebas por debajo del 40% y rara vez completan un repositorio completo correctamente. Un análisis detallado descubre modos de fallo fundamentales en el largo horizonte, que incluyen la terminación prematura, la pérdida de coherencia global, dependencias cruzadas frágiles entre archivos y una planificación inadecuada a lo largo de cientos de pasos de interacción. NL2Repo Bench establece un banco de pruebas riguroso y verificable para medir la competencia agencial sostenida y destaca el razonamiento de largo horizonte como un cuello de botella central para la próxima generación de agentes de codificación autónomos.
La atención de tiempo lineal y los Modelos de Espacio de Estados (SSM) prometen resolver el cuello de botella del coste cuadrático en los modelos de lenguaje de contexto largo que emplean atención softmax. Presentamos Error-Free Linear Attention (EFLA), una formulación numéricamente estable, completamente paralelizable y generalizada de la regla delta. Específicamente, formulamos la actualización del aprendizaje en línea como un sistema dinámico en tiempo continuo y demostramos que su solución exacta no solo es alcanzable, sino también computable en tiempo lineal con paralelismo total. Al aprovechar la estructura de rango 1 de la matriz de dinámicas, derivamos directamente la solución exacta de forma cerrada que corresponde efectivamente al método de Runge-Kutta de orden infinito. Este mecanismo de atención está teóricamente libre de acumulación de errores, capturando perfectamente la dinámica continua mientras preserva la complejidad de tiempo lineal. A través de un extenso conjunto de experimentos, demostramos que EFLA permite un rendimiento robusto en entornos ruidosos, logrando una menor perplejidad en el modelado del lenguaje y un rendimiento superior en benchmarks posteriores en comparación con DeltaNet, sin introducir parámetros adicionales. Nuestro trabajo proporciona una nueva base teórica para construir modelos de atención de tiempo lineal escalables y de alta fidelidad.
Los modelos de generación de vídeo con avatar han logrado avances notables en los últimos años. Sin embargo, trabajos anteriores presentan una eficiencia limitada para generar vídeos de larga duración y alta resolución, adoleciendo de deriva temporal, degradación de calidad y seguimiento débil de las instrucciones a medida que aumenta la duración del vídeo. Para abordar estos desafíos, proponemos KlingAvatar 2.0, un marco de trabajo en cascada espacio-temporal que realiza un escalado tanto en la resolución espacial como en la dimensión temporal. El marco genera primero fotogramas clave de vídeo de baja resolución que capturan la semántica y el movimiento global, y luego los refina en subclips de alta resolución y temporalmente coherentes utilizando una estrategia de primer-último fotograma, manteniendo transiciones temporales fluidas en vídeos de larga duración. Para mejorar la fusión y alineación de instrucciones multimodales en vídeos extensos, introducimos un Director de Co-Razonamiento compuesto por tres expertos de modelos de lenguaje grande específicos por modalidad. Estos expertos razonan sobre las prioridades de las modalidades e infieren la intención subyacente del usuario, convirtiendo las entradas en narrativas detalladas a través de diálogos multiturno. Un Director Negativo refina además las instrucciones negativas para mejorar la alineación con las indicaciones. Sobre estos componentes, extendemos el marco para admitir el control multi-personaje específico por identificación. Experimentos exhaustivos demuestran que nuestro modelo aborda eficazmente los desafíos de la generación eficiente de vídeos de alta resolución y larga duración con alineación multimodal, ofreciendo una claridad visual mejorada, una representación realista de labios y dientes con sincronización labial precisa, una fuerte preservación de la identidad y un seguimiento coherente de las instrucciones multimodales.
Los trastornos de salud mental afectan a cientos de millones de personas en todo el mundo, y la Web sirve ahora como un medio principal para acceder a apoyo, información y evaluación. Los modelos de lenguaje grandes (LLMs) ofrecen asistencia escalable y accesible, sin embargo, su despliegue en entornos de salud mental sigue siendo arriesgado cuando su razonamiento es incompleto, inconsistente o carece de base. Los LLMs psicológicos existentes enfatizan la comprensión emocional o la recuperación de conocimientos, pero pasan por alto el razonamiento escalonado y clínicamente alineado requerido para la valoración, el diagnóstico, la planificación de intervenciones, la abstracción y la verificación. Para abordar estos problemas, presentamos MentraSuite, un marco unificado para avanzar en el razonamiento confiable en salud mental. Proponemos MentraBench, un benchmark integral que abarca cinco aspectos centrales del razonamiento, seis tareas y 13 conjuntos de datos, evaluando tanto el rendimiento en las tareas como la calidad del razonamiento en cinco dimensiones: concisión, coherencia, evitación de alucinaciones, comprensión de la tarea y consistencia interna. Además, presentamos Mindora, un modelo optimizado mediante un marco híbrido SFT-RL con una recompensa de detección de inconsistencias para imponer un razonamiento fiel y coherente. Para apoyar el entrenamiento, construimos trayectorias de alta calidad utilizando una novedosa estrategia de generación de trayectorias de razonamiento, que filtra estratégicamente muestras difíciles y aplica un proceso de reescritura estructurado y orientado a la coherencia para producir trayectorias concisas, legibles y bien equilibradas. Entre los 20 LLMs evaluados, Mindora logra el rendimiento promedio más alto en MentraBench y muestra actuaciones notables en confiabilidad del razonamiento, demostrando su efectividad para escenarios complejos de salud mental.
El Reto BEHAVIOR 2025 está diseñado para realizar un seguimiento riguroso del progreso hacia la resolución de tareas de horizonte largo por parte de agentes físicos en entornos simulados. BEHAVIOR-1K se centra en tareas domésticas cotidianas con las que las personas desean mayormente que los robots colaboren, y estas tareas presentan desafíos de manipulación móvil de horizonte largo en entornos realistas, cerrando la brecha entre la investigación actual y las aplicaciones reales centradas en el ser humano. Este informe presenta nuestra solución para el Reto BEHAVIOR 2025, la cual obtuvo un muy cercano segundo lugar y supera sustancialmente al resto de las propuestas presentadas. Partiendo de π_{0.5}, nos centramos en construir sistemáticamente nuestra solución estudiando los efectos de las técnicas de entrenamiento y los datos. Mediante ablaciones cuidadosas, demostramos el poder de escalamiento en las fases de pre-entrenamiento y post-entrenamiento para lograr un rendimiento competitivo. Resumimos nuestras lecciones prácticas y recomendaciones de diseño, con la esperanza de que ofrezcan información accionable para la comunidad más amplia de IA incorporada al adaptar modelos base potentes a escenarios incorporados complejos.
Los modelos Visión-Lenguaje-Acción (VLA) ofrecen un paradigma prometedor para el aprendizaje robótico al integrar la percepción visual con el aprendizaje de políticas guiado por lenguaje. Sin embargo, la mayoría de los enfoques existentes dependen de entradas visuales 2D para realizar acciones en entornos físicos 3D, creando una brecha significativa entre la percepción y la fundamentación de la acción. Para cerrar esta brecha, proponemos un paradigma de Preentrenamiento VLA con Conciencia Espacial que realiza una alineación explícita entre el espacio visual y el espacio físico durante el preentrenamiento, permitiendo a los modelos adquirir comprensión espacial 3D antes del aprendizaje de políticas robóticas. Partiendo de modelos de visión y lenguaje preentrenados, aprovechamos videos a gran escala de demostraciones humanas para extraer anotaciones visuales 3D y de acciones 3D, formando una nueva fuente de supervisión que alinea las observaciones visuales 2D con el razonamiento espacial 3D. Instanciamos este paradigma con VIPA-VLA, una arquitectura de doble codificador que incorpora un codificador visual 3D para aumentar las representaciones visuales semánticas con características conscientes de la 3D. Al adaptarse a tareas robóticas posteriores, VIPA-VLA logra una fundamentación significativamente mejorada entre la visión 2D y la acción 3D, resultando en políticas robóticas más robustas y generalizables.
Los agentes basados en LLM suelen operar de manera codiciosa y paso a paso, seleccionando acciones únicamente en función de la observación actual sin considerar consecuencias a largo plazo o caminos alternativos. Esta falta de previsión es particularmente problemática en entornos web, que son solo parcialmente observables—limitados al contenido visible en el navegador (por ejemplo, el DOM y los elementos de la interfaz de usuario)—donde un solo paso en falso a menudo requiere una navegación compleja y frágil para deshacerlo. Sin un mecanismo explícito de retroceso, los agentes tienen dificultades para corregir errores o explorar sistemáticamente caminos alternativos. Los métodos de búsqueda en árbol proporcionan un marco teórico para dicha exploración estructurada, pero los enfoques existentes carecen de mecanismos para un retroceso seguro, lo que los hace propensos a efectos secundarios no deseados. También asumen que todas las acciones son reversibles, ignorando la presencia de acciones irreversibles—limitaciones que reducen su efectividad en tareas web realistas. Para abordar estos desafíos, presentamos WebOperator, un marco de búsqueda en árbol que permite un retroceso confiable y una exploración estratégica. Nuestro método incorpora una estrategia de búsqueda del mejor primero que clasifica las acciones tanto por estimaciones de recompensa como por consideraciones de seguridad, junto con un mecanismo robusto de retroceso que verifica la viabilidad de las rutas visitadas previamente antes de repetirlas, evitando efectos secundarios no deseados. Para guiar aún más la exploración, WebOperator genera candidatos de acción a partir de múltiples contextos de razonamiento variados para garantizar una exploración diversa y robusta, y posteriormente cura un conjunto de acciones de alta calidad filtrando acciones inválidas antes de la ejecución y fusionando aquellas semánticamente equivalentes. Los resultados experimentales en WebArena y WebVoyager demuestran la efectividad de WebOperator. En WebArena, WebOperator logra una tasa de éxito de vanguardia del 54.6% con gpt-4o, subrayando la ventaja crítica de integrar la previsión estratégica con una ejecución segura.
Introducimos Inteligencia Interactiva, un nuevo paradigma de humano digital capaz de expresión alineada con la personalidad, interacción adaptativa y autoevolución. Para materializar esto, presentamos Mio (Avatar Omnimodal Interactivo), un marco integral de extremo a extremo compuesto por cinco módulos especializados: Pensador, Hablante, Animador Facial, Animador Corporal y Renderizador. Esta arquitectura unificada integra el razonamiento cognitivo con una encarnación multimodal en tiempo real para permitir una interacción fluida y coherente. Además, establecemos un nuevo referente para evaluar rigurosamente las capacidades de la inteligencia interactiva. Experimentos exhaustivos demuestran que nuestro marco logra un rendimiento superior en comparación con los métodos más avanzados en todas las dimensiones evaluadas. En conjunto, estas contribuciones trascienden la imitación superficial de humanos digitales hacia la interacción inteligente.
Si bien muchos modelos de visión y lenguaje (VLM) se desarrollan para responder preguntas bien definidas y directas con objetivos altamente especificados, como ocurre en la mayoría de los puntos de referencia, en la práctica a menudo tienen dificultades con tareas complejas de carácter abierto, que generalmente requieren múltiples rondas de exploración y razonamiento en el espacio visual. Estas trayectorias de pensamiento visual no solo proporcionan una exploración y verificación paso a paso como un detective de IA, sino que también producen mejores interpretaciones de las respuestas finales. Sin embargo, estas trayectorias son difíciles de evaluar debido al amplio espacio de exploración de los pasos intermedios. Para cerrar esta brecha, desarrollamos un conjunto de evaluación, "Razonamiento Visual con Exploración Multi-etapa (V-REX)", que está compuesto por un benchmark de tareas desafiantes de razonamiento visual que requieren una exploración multi-etapa inherente y un protocolo de evaluación. V-REX cubre escenarios de aplicación ricos en diversos dominios. V-REX transforma el razonamiento exploratorio multi-etapa en una Cadena de Preguntas (CoQ, por sus siglas en inglés) y desglosa la capacidad de los VLM para: (1) Planificación: descomponer una tarea de carácter abierto seleccionando una cadena de preguntas exploratorias; y (2) Seguimiento: responder una CoQ cuidadosamente elaborada de forma secuencial para recopilar información y derivar la respuesta final. Al elaborar opciones finitas de preguntas y respuestas por paso, V-REX logra un análisis cuantitativo confiable y granular de los pasos intermedios. Al evaluar VLM propietarios y de código abierto de última generación, revelamos tendencias consistentes de escalabilidad, diferencias significativas entre las habilidades de planificación y seguimiento, y un margen sustancial de mejora en el razonamiento exploratorio multi-etapa.
Aunque los modelos de lenguaje multimodal (MLLM) han demostrado capacidades sólidas en diversos dominios, su aplicación en la generación de salidas de percepción y predicción 3D de grano fino en la conducción autónoma sigue estando poco explorada. En este artículo, proponemos DrivePI, un novedoso MLLM 4D con conciencia espacial que sirve como un marco unificado Visión-Lenguaje-Acción (VLA) que también es compatible con modelos visión-acción (VA). Nuestro método realiza conjuntamente, de forma paralela y mediante optimización end-to-end, la comprensión espacial, la percepción 3D (es decir, ocupación 3D), la predicción (es decir, flujo de ocupación) y la planificación (es decir, salidas de acción). Para obtener información geométrica precisa y una apariencia visual rica, nuestro enfoque integra nubes de puntos, imágenes multi-vista e instrucciones de lenguaje dentro de una arquitectura MLLM unificada. Además, desarrollamos un motor de datos para generar pares de preguntas y respuestas (QA) de texto-ocupación y texto-flujo para la comprensión espacial 4D. Notablemente, utilizando solo un modelo Qwen2.5 de 0.5B como columna vertebral del MLLM, DrivePI, como modelo único unificado, iguala o supera tanto a los modelos VLA existentes como a los modelos VA especializados. Específicamente, en comparación con los modelos VLA, DrivePI supera a OpenDriveVLA-7B en un 2.5% de precisión media en nuScenes-QA y reduce la tasa de colisiones en un 70% con respecto a ORION (del 0.37% al 0.11%) en nuScenes. Frente a los modelos VA especializados, DrivePI supera a FB-OCC en 10.3 puntos de RayIoU para ocupación 3D en OpenOcc, reduce el mAVE de 0.591 a 0.509 para el flujo de ocupación en OpenOcc y logra un error L2 un 32% menor que VAD (de 0.72m a 0.49m) para la planificación en nuScenes. El código estará disponible en https://github.com/happinesslz/DrivePI.
Los Modelos de Lenguaje Visual (VLMs) sobresalen en la respuesta a preguntas visuales (VQA), pero se limitan a una visión instantánea, razonando a partir de imágenes estáticas. En contraste, los agentes corporizados requieren una visión ambulatoria, moviéndose activamente para obtener vistas más informativas. Presentamos la Selección Activa de Vistas con Base Visual (VG-AVS), una tarea que selecciona el siguiente punto de vista más informativo utilizando únicamente la información visual de la imagen actual, sin depender de memoria de escena o conocimiento externo. Para respaldar esta tarea, construimos un conjunto de datos sintético con pares de vistas consulta-objetivo y prompts de pregunta-respuesta generados automáticamente. También proponemos un marco que ajusta VLMs preentrenados mediante ajuste fino supervisado (SFT) seguido de una optimización de políticas basada en RL. Nuestro enfoque logra un sólido rendimiento en respuesta a preguntas basado en la selección de viewpoint y se generaliza robustamente a escenas sintéticas y reales no vistas. Además, la incorporación de nuestro marco VG-AVS aprendido en sistemas existentes de EQA basados en exploración de escenas mejora la precisión en la respuesta a preguntas subsiguientes.
Los modelos Visión-Lenguaje-Acción (VLA) han demostrado capacidades notables para generalizar en diversas tareas de manipulación robótica. Sin embargo, su despliegue en entornos no estructurados sigue siendo un desafío debido a la necesidad crítica de garantizar simultáneamente el cumplimiento de la tarea y la seguridad, particularmente en la prevención de colisiones potenciales durante las interacciones físicas. En este trabajo, presentamos una arquitectura de Acción Segura Visión-Lenguaje (VLSA), denominada AEGIS, que incorpora una capa de restricción de seguridad "plug-and-play" formulada mediante funciones de barrera de control. AEGIS se integra directamente con los modelos VLA existentes para mejorar la seguridad con garantías teóricas, manteniendo su rendimiento original de seguimiento de instrucciones. Para evaluar la eficacia de nuestra arquitectura, construimos un benchmark integral de seguridad crítica, SafeLIBERO, que abarca escenarios de manipulación distintos caracterizados por diversos grados de complejidad espacial e intervención de obstáculos. Experimentos exhaustivos demuestran la superioridad de nuestro método frente a los baselines state-of-the-art. Notablemente, AEGIS logra una mejora del 59.16% en la tasa de evitación de obstáculos, mientras incrementa sustancialmente la tasa de éxito en la ejecución de tareas en un 17.25%. Para facilitar la reproducibilidad y la investigación futura, ponemos a disposición pública nuestro código, modelos y los datasets del benchmark en https://vlsa-aegis.github.io/.
La alineación excesiva de los modelos de generación de imágenes con una preferencia estética generalizada entra en conflicto con la intención del usuario, particularmente cuando se solicitan resultados "antiestéticos" con fines artísticos o críticos. Esta adherencia prioriza valores centrados en el desarrollador, comprometiendo la autonomía del usuario y el pluralismo estético. Probamos este sesgo construyendo un conjunto de datos de estética de amplio espectro y evaluando modelos de generación y recompensa de última generación. Descubrimos que los modelos de generación alineados estéticamente recurren frecuentemente a resultados convencionalmente bellos, sin respetar las instrucciones para generar imágenes de baja calidad o con connotaciones negativas. Crucialmente, los modelos de recompensa penalizan las imágenes antiestéticas incluso cuando coinciden perfectamente con la instrucción explícita del usuario. Confirmamos este sesgo sistémico mediante edición de imagen a imagen y evaluación comparativa con obras de arte abstracto reales.
El lento proceso de inferencia de los modelos de difusión de imágenes degrada significativamente la experiencia interactiva del usuario. Para abordar este problema, presentamos Diffusion Preview, un nuevo paradigma que emplea muestreos rápidos con pocos pasos para generar resultados preliminares que el usuario puede evaluar, posponiendo el refinamiento completo hasta que la vista previa se considere satisfactoria. Los métodos de aceleración existentes, incluidos los solucionadores sin entrenamiento y la destilación posterior al entrenamiento, tienen dificultades para ofrecer vistas previas de alta calidad o garantizar la coherencia entre las vistas previas y los resultados finales. Proponemos ConsistencySolver, derivado de métodos lineales multipaso generales, un solucionador entrenable ligero de alto orden optimizado mediante Aprendizaje por Refuerzo, que mejora la calidad y coherencia de las vistas previas. Los resultados experimentales demuestran que ConsistencySolver mejora significativamente la calidad de generación y la coherencia en escenarios con pocos pasos, lo que lo hace ideal para flujos de trabajo eficientes de vista previa y refinamiento. Cabe destacar que logra puntuaciones FID comparables a Multistep DPM-Solver utilizando un 47% menos de pasos, superando además a los métodos base de destilación. Además, estudios con usuarios indican que nuestro enfoque reduce el tiempo total de interacción del usuario en casi un 50%, manteniendo la calidad de generación. El código está disponible en https://github.com/G-U-N/consolver.
La alineación de representaciones (REPA) guía el entrenamiento generativo mediante la destilación de representaciones desde un codificador visual fuerte y preentrenado hacia características intermedias de difusión. Investigamos una pregunta fundamental: ¿qué aspecto de la representación objetivo importa para la generación, su información semántica global (por ejemplo, medida por la precisión en ImageNet-1K) o su estructura espacial (es decir, la similitud del coseno entre pares de tokens de parche)? La sabiduría predominante sostiene que un mejor rendimiento semántico global conduce a una mejor generación como representación objetivo. Para estudiar esto, primero realizamos un análisis empírico a gran escala con 27 codificadores visuales diferentes y diferentes escalas de modelo. Los resultados son sorprendentes; la estructura espacial, más que el rendimiento global, impulsa el rendimiento generativo de una representación objetivo. Para estudiar esto más a fondo, introducimos dos modificaciones sencillas que acentúan específicamente la transferencia de información espacial. Reemplazamos la capa de proyección MLP estándar en REPA con una simple capa de convolución e introducimos una capa de normalización espacial para la representación externa. Sorprendentemente, nuestro método simple (implementado en <4 líneas de código), denominado iREPA, mejora consistentemente la velocidad de convergencia de REPA en diversos codificadores visuales, tamaños de modelo y variantes de entrenamiento (como REPA, REPA-E, Meanflow, JiT, etc.). Nuestro trabajo motiva revisitar el mecanismo fundamental de funcionamiento de la alineación representacional y cómo puede aprovecharse para mejorar el entrenamiento de modelos generativos. El código y la página del proyecto están disponibles en https://end2end-diffusion.github.io/irepa.
La generación de Música-a-Vídeo (M2V) para canciones completas enfrenta desafíos significativos. Los métodos existentes producen clips cortos y fragmentados, sin lograr alinear los elementos visuales con la estructura musical, los beats o la letra, y carecen de coherencia temporal. Proponemos AutoMV, un sistema multiagente que genera vídeos musicales (MV) completos directamente a partir de una canción. AutoMV aplica primero herramientas de procesamiento musical para extraer atributos como la estructura, las pistas vocales y la letra alineada temporalmente, y construye estas características como entradas contextuales para los agentes siguientes. El Agente guionista y el Agente director utilizan entonces esta información para diseñar un guion breve, definir perfiles de personajes en un banco externo compartido y especificar instrucciones de cámara. Posteriormente, estos agentes invocan al generador de imágenes para los fotogramas clave y a diferentes generadores de vídeo para las escenas de "historia" o de "cantante". Un Agente Verificador evalúa su salida, permitiendo una colaboración multiagente para producir un MV largo y coherente. Para evaluar la generación M2V, proponemos además un benchmark con cuatro categorías de alto nivel (Contenido Musical, Técnico, Postproducción, Arte) y doce criterios detallados. Este benchmark se aplicó para comparar productos comerciales, AutoMV y MVs dirigidos por humanos con evaluadores expertos: AutoMV supera significativamente a las líneas de base actuales en las cuatro categorías, reduciendo la brecha con los MVs profesionales. Finalmente, investigamos el uso de modelos multimodales grandes como jueces automáticos de MV; aunque son prometedores, aún están por detrás de los expertos humanos, lo que subraya un área para trabajo futuro.
Los modelos de difusión pueden reproducir involuntariamente ejemplos de entrenamiento, lo que genera preocupaciones sobre privacidad y derechos de autor a medida que estos sistemas se implementan a mayor escala. Los métodos existentes de mitigación durante la inferencia generalmente manipulan la guía libre de clasificador (CFG) o perturban los embeddings de los prompts; sin embargo, suelen tener dificultades para reducir la memorización sin comprometer la alineación con el prompt condicionante. Presentamos CAPTAIN, un marco de trabajo que no requiere entrenamiento y mitiga la memorización modificando directamente las características latentes durante la eliminación de ruido. CAPTAIN aplica primero una inicialización de ruido basada en frecuencia para reducir la tendencia a replicar patrones memorizados al inicio del proceso de desruido. Luego identifica los pasos temporales óptimos de desruido para la inyección de características y localiza las regiones memorizadas. Finalmente, CAPTAIN inyecta características semánticamente alineadas procedentes de imágenes de referencia no memorizadas en las regiones latentes localizadas, suprimiendo la memorización mientras preserva la fidelidad al prompt y la calidad visual. Nuestros experimentos demuestran que CAPTAIN logra reducciones sustanciales en la memorización en comparación con los baselines basados en CFG, manteniendo una fuerte alineación con el prompt deseado.
El modelo del mundo de conducción con conciencia física es esencial para la planificación de la conducción, la síntesis de datos fuera de distribución y la evaluación en bucle cerrado. Sin embargo, los métodos existentes a menudo dependen de un único modelo de difusión para mapear directamente las acciones de conducción a videos, lo que dificulta el aprendizaje y genera resultados físicamente inconsistentes. Para superar estos desafíos, proponemos GenieDrive, un marco novedoso diseñado para la generación de videos de conducción con conciencia física. Nuestro enfoque comienza generando una ocupación 4D, que sirve como base física para la posterior generación de video. La ocupación 4D contiene información física rica, incluyendo estructuras 3D de alta resolución y dinámicas. Para facilitar la compresión efectiva de dicha ocupación de alta resolución, proponemos un VAE que codifica la ocupación en una representación latente de tri-plano, reduciendo el tamaño latente a solo el 58% del utilizado en métodos anteriores. Además, introducimos la Atención de Control Mutuo (MCA) para modelar con precisión la influencia del control en la evolución de la ocupación, y entrenamos conjuntamente el VAE y el módulo de predicción subsiguiente de manera integral para maximizar la precisión de la predicción. En conjunto, estos diseños producen una mejora del 7.2% en el mIoU de predicción a una velocidad de inferencia de 41 FPS, mientras utilizan solo 3.47 M de parámetros. Adicionalmente, se introduce una Atención Multi-Vista Normalizada en el modelo de generación de video para generar videos de conducción multi-vista con guía de nuestra ocupación 4D, mejorando significativamente la calidad del video con una reducción del 20.7% en FVD. Los experimentos demuestran que GenieDrive permite una generación de videos de conducción altamente controllable, consistente en multi-vista y con conciencia física.
Si bien el entrenamiento posterior efectivo integra el Ajuste Fino Supervisado (SFT) y el Aprendizaje por Refuerzo (RL), el mecanismo óptimo para utilizar trayectorias expertas sigue sin resolverse. Proponemos el Marco de Plasticidad-Techo para fundamentar teóricamente este panorama, descomponiendo el rendimiento en el rendimiento SFT fundamental y la plasticidad RL subsiguiente. A través de una evaluación comparativa exhaustiva, establecemos la canalización secuencial SFT-luego-RL como el estándar superior, superando los déficits de estabilidad de los enfoques sincronizados. Además, derivamos directrices de escalado precisas: (1) La transición a RL en la Subfase Estable de SFT o de Sobreajuste Leve maximiza el techo final al asegurar el rendimiento SFT fundamental sin comprometer la plasticidad RL; (2) Refutando la idea de que "Menos es Más" en el contexto del escalado SFT-luego-RL, demostramos que la Escala de Datos determina el potencial principal del entrenamiento posterior, mientras que la Dificultad de la Trayectoria actúa como un multiplicador de rendimiento; e (3) Identificamos que la Pérdida de Validación Mínima de SFT sirve como un indicador robusto para seleccionar las trayectorias expertas que maximizan el techo de rendimiento final. Nuestros hallazgos proporcionan pautas accionables para maximizar el valor extraído de las trayectorias expertas.
La destilación por difusión ha acelerado drásticamente la síntesis de imágenes condicionadas por clase, pero su aplicabilidad a la generación abierta de texto a imagen (T2I) sigue sin estar clara. Presentamos el primer estudio sistemático que adapta y compara técnicas de destilación de vanguardia en un modelo docente T2I robusto, FLUX.1-lite. Al enmarcar los métodos existentes en un marco unificado, identificamos los obstáculos clave que surgen al pasar de etiquetas de clase discretas a instrucciones lingüísticas de forma libre. Más allá de un análisis metodológico exhaustivo, ofrecemos pautas prácticas sobre escalado de entrada, arquitectura de red e hiperparámetros, acompañadas de una implementación de código abierto y modelos estudiantiles preentrenados. Nuestros hallazgos establecen una base sólida para implementar generadores de difusión rápidos, de alta fidelidad y eficientes en recursos en aplicaciones T2I del mundo real. El código está disponible en github.com/alibaba-damo-academy/T2I-Distill.
Los Modelos de Lenguaje Grandes (LLM) pueden generar tokens de razonamiento antes de su respuesta final para mejorar el rendimiento en tareas complejas. Aunque estas secuencias se asemejan a procesos de pensamiento humano, la evidencia empírica revela que no son una explicación fiel del proceso de razonamiento real del modelo. Para abordar esta brecha entre apariencia y función, introducimos el marco conceptual Estado sobre Tokens (SoT, por sus siglas en inglés). SoT reformula los tokens de razonamiento no como una narrativa lingüística, sino como un estado computacional externalizado: el único portador de información persistente a través de los ciclos de generación sin estado del modelo. Esto explica cómo los tokens pueden impulsar un razonamiento correcto sin ser una explicación fiel cuando se leen como texto, y saca a la luz preguntas de investigación previamente pasadas por alto sobre estos tokens. Sostenemos que para comprender verdaderamente el proceso que realizan los LLM, la investigación debe ir más allá de leer los tokens de razonamiento como texto y centrarse en decodificarlos como estado.
Las arquitecturas neuronales modernas para el procesamiento de nubes de puntos 3D contienen tanto capas convolucionales como bloques de atención, pero la mejor forma de ensamblarlos sigue sin estar clara. Analizamos el papel de los diferentes bloques computacionales en las redes de nubes de puntos 3D y encontramos un comportamiento intuitivo: la convolución es adecuada para extraer geometría de bajo nivel a alta resolución en las capas iniciales, donde la atención es costosa sin aportar beneficios; la atención captura semántica de alto nivel y contexto en capas profundas de baja resolución de manera más eficiente. Guiados por este principio de diseño, proponemos un nuevo backbone mejorado para nubes de puntos 3D que emplea convoluciones en las etapas iniciales y cambia a atención para las capas más profundas. Para evitar la pérdida de información de disposición espacial al descartar las capas convolucionales redundantes, introducimos una nueva codificación posicional 3D libre de entrenamiento, PointROPE. El modelo resultante, LitePT, tiene 3.6 veces menos parámetros, funciona 2 veces más rápido y utiliza 2 veces menos memoria que el estado del arte Point Transformer V3, pero aun así iguala o incluso supera su rendimiento en una variedad de tareas y conjuntos de datos. El código y los modelos están disponibles en: https://github.com/prs-eth/LitePT.
Los tokenizadores visuales desempeñan un papel crucial en los modelos de difusión. La dimensionalidad del espacio latente gobierna tanto la fidelidad de la reconstrucción como la expresividad semántica de la característica latente. Sin embargo, existe un equilibrio fundamental inherente entre la dimensionalidad y la calidad de la generación, lo que restringe los métodos existentes a espacios latentes de baja dimensionalidad. Aunque trabajos recientes han aprovechado modelos fundacionales de visión para enriquecer la semántica de los tokenizadores visuales y acelerar la convergencia, los tokenizadores de alta dimensionalidad aún rinden por debajo de sus contrapartes de baja dimensionalidad. En este trabajo, proponemos RecTok, que supera las limitaciones de los tokenizadores visuales de alta dimensionalidad mediante dos innovaciones clave: destilación semántica de flujo y destilación de alineación-reconstrucción. Nuestra idea clave es hacer que el flujo directo en la correspondencia de flujos sea semánticamente rico, lo que sirve como espacio de entrenamiento de los transformadores de difusión, en lugar de centrarse en el espacio latente como en trabajos anteriores. Específicamente, nuestro método destila la información semántica en los Modelos Fundacionales de Visión (VFM) hacia las trayectorias de flujo directo en la correspondencia de flujos. Y mejoramos aún más la semántica introduciendo una pérdida por reconstrucción de características enmascaradas. Nuestro RecTok logra una reconstrucción de imagen, una calidad de generación y un rendimiento discriminativo superiores. Obtiene resultados de vanguardia en gFID-50K tanto con como sin configuraciones de guía libre de clasificador, manteniendo al mismo tiempo una estructura de espacio latente semánticamente rica. Además, a medida que aumenta la dimensionalidad latente, observamos mejoras consistentes. El código y el modelo están disponibles en https://shi-qingyu.github.io/rectok.github.io.
Presentamos Flowception, un novedoso marco de generación de vídeo no autoregresivo y de longitud variable. Flowception aprende una trayectoria de probabilidad que intercala inserciones discretas de fotogramas con desruido continuo de fotogramas. En comparación con los métodos autoregresivos, Flowception mitiga la acumulación/deriva de errores, ya que el mecanismo de inserción de fotogramas durante el muestreo actúa como un mecanismo de compresión eficiente para manejar contextos a largo plazo. En comparación con los flujos de secuencia completa, nuestro método reduce los FLOPS del entrenamiento en un factor de tres, siendo también más adecuado para variantes de atención local y permitiendo aprender la longitud de los vídeos conjuntamente con su contenido. Los resultados experimentales cuantitativos muestran una mejora en las métricas FVD y VBench respecto a los baselines autoregresivos y de secuencia completa, lo cual se valida adicionalmente con resultados cualitativos. Finalmente, al aprender a insertar y desruir fotogramas en una secuencia, Flowception integra de forma transparente diferentes tareas como la generación de imagen a vídeo y la interpolación de vídeo.
La generalización sigue siendo el desafío central para la generación interactiva de escenas 3D. Los enfoques basados en aprendizaje existentes fundamentan la comprensión espacial en conjuntos de datos de escenas limitados, lo que restringe la generalización a nuevos diseños. En su lugar, reprogramamos un generador de instancias 3D preentrenado para que actúe como un aprendiz a nivel de escena, reemplazando la supervisión limitada a conjuntos de datos con una supervisión espacial centrada en el modelo. Esta reprogramación desbloquea el conocimiento espacial transferible del generador, permitiendo la generalización a diseños no vistos y nuevas composiciones de objetos. Notablemente, el razonamiento espacial aún emerge incluso cuando las escenas de entrenamiento son objetos compuestos aleatoriamente. Esto demuestra que el conocimiento previo transferible de escenas del generador proporciona una señal de aprendizaje enriquecida para inferir proximidad, soporte y simetría a partir de puramente señales geométricas. Reemplazando el espacio canónico ampliamente utilizado, materializamos esta idea con una formulación centrada en la vista del espacio escénico, dando lugar a un generador de escenas completamente feed-forward y generalizable que aprende relaciones espaciales directamente del modelo de instancia. Los resultados cuantitativos y cualitativos muestran que un generador de instancias 3D es un aprendiz y razonador espacial implícito, apuntando hacia modelos fundacionales para la comprensión y generación interactiva de escenas 3D. Página del proyecto: https://luling06.github.io/I-Scene-project/
Los modelos de difusión de video han revolucionado la síntesis generativa de video, pero son imprecisos, lentos y pueden resultar opacos durante la generación, manteniendo a los usuarios en la oscuridad durante un período prolongado. En este trabajo, proponemos DiffusionBrowser, un marco de trabajo de decodificador ligero y agnóstico al modelo que permite a los usuarios generar vistas previas de forma interactiva en cualquier punto (paso temporal o bloque de transformador) durante el proceso de eliminación de ruido. Nuestro modelo puede generar representaciones de vista previa multimodales que incluyen RGB y propiedades intrínsecas de la escena a más de 4 veces la velocidad en tiempo real (menos de 1 segundo para un video de 4 segundos), transmitiendo una apariencia y movimiento consistentes con el video final. Con el decodificador entrenado, demostramos que es posible guiar interactivamente la generación en pasos de ruido intermedios mediante la reinyección de estocasticidad y la dirección modal, desbloqueando una nueva capacidad de control. Además, analizamos sistemáticamente el modelo utilizando los decodificadores aprendidos, revelando cómo la escena, los objetos y otros detalles se componen y ensamblan durante el proceso de eliminación de ruido que de otro modo sería una caja negra.
La Inversión Textual (TI) es un enfoque eficiente para la personalización de texto a imagen, pero a menudo falla en instrucciones complejas. Rastreamos estos fallos hasta la inflación de la norma del *embedding*: los tokens aprendidos se desplazan a magnitudes fuera de distribución, degradando el condicionamiento por instrucción en los Transformers con pre-normalización. Empíricamente, mostramos que la semántica se codifica principalmente por la dirección en el espacio de tokens de CLIP, mientras que las normas inflacionadas perjudican la contextualización; teóricamente, analizamos cómo las magnitudes grandes atenúan la información posicional y dificultan las actualizaciones residuales en los bloques de pre-normalización. Proponemos la Inversión Textual Direccional (DTI), que fija la magnitud del *embedding* a una escala dentro de distribución y optimiza únicamente la dirección en la hiperesfera unidad mediante SGD Riemanniano. Planteamos el aprendizaje de la dirección como MAP con un previo von Mises-Fisher, lo que produce un gradiente previo de dirección constante que es simple y eficiente de incorporar. En diversas tareas de personalización, DTI mejora la fidelidad textual respecto a TI y sus variantes, manteniendo la similitud del sujeto. Crucialmente, la parametrización hiperesférica de DTI permite una interpolación suave y semánticamente coherente entre conceptos aprendidos (slerp), una capacidad ausente en la TI estándar. Nuestros hallazgos sugieren que la optimización exclusiva de la dirección es una vía robusta y escalable para una personalización fiel a la instrucción.
La comprensión del movimiento es fundamental para el razonamiento físico, permitiendo a los modelos inferir dinámicas y predecir estados futuros. Sin embargo, los modelos de vanguardia aún presentan dificultades en los benchmarks recientes de movimiento, principalmente debido a la escasez de conjuntos de datos de movimiento a gran escala y de grano fino. Los conjuntos de datos de movimiento existentes a menudo se construyen mediante costosas anotaciones manuales, lo que limita severamente su escalabilidad. Para abordar este desafío, presentamos FoundationMotion, una canalización de curación de datos completamente automatizada que construye conjuntos de datos de movimiento a gran escala. Nuestro enfoque detecta y rastrea primero objetos en videos para extraer sus trayectorias, luego aprovecha estas trayectorias y los fotogramas de video con Modelos de Lenguaje Grande (LLMs) para generar descripciones detalladas y diversos pares de preguntas y respuestas sobre movimiento y razonamiento espacial. Utilizando conjuntos de datos producidos por esta canalización, afinamos modelos de código abierto, incluyendo NVILA-Video-15B y Qwen2.5-7B, logrando mejoras sustanciales en la comprensión del movimiento sin comprometer el rendimiento en otras tareas. Notablemente, nuestros modelos superan a fuentes de referencia de código cerrado como Gemini-2.5 Flash y a grandes modelos de código abierto como Qwen2.5-VL-72B en diversos conjuntos de datos y benchmarks de comprensión del movimiento. Por lo tanto, FoundationMotion proporciona una solución escalable para curar conjuntos de datos de movimiento de grano fino que permiten el ajuste fino efectivo de diversos modelos para mejorar las capacidades de comprensión del movimiento y razonamiento espacial.
La comprensión de gráficos es crucial para desplegar modelos de lenguaje grandes multimodales (MLLMs) en escenarios del mundo real, como el análisis de artículos científicos e informes técnicos. A diferencia de las imágenes naturales, los gráficos combinan un diseño visual estructurado (propiedad espacial) con una representación de datos subyacente (propiedad textual); comprender ambas es esencial para un razonamiento preciso y detallado sobre gráficos. Motivados por esta observación, proponemos START, el aprendizaje Espacial y Textual para la comprensión de gRÁficos. Específicamente, introducimos (i) la localización de elementos del gráfico y (ii) la generación de código a partir del gráfico para reforzar la comprensión de un MLLM tanto del diseño visual como de los detalles de datos del gráfico. Para facilitar el aprendizaje espacial y textual, proponemos el START-Dataset, generado con un novedoso pipeline de generación de datos que primero aprovecha un MLLM para traducir imágenes reales de gráficos en código de gráfico ejecutable, recuperando la representación de datos subyacente mientras preserva la distribución visual de gráficos del mundo real. Luego, evolucionamos el código con un Modelo de Lenguaje Grande (LLM) para determinar las posiciones de los elementos del gráfico que capturan su estructura visual, abordando desafíos que los métodos existentes no pueden manejar. Para evaluar la capacidad de un modelo para entender las estructuras espaciales de los gráficos, proponemos el Benchmark de Comprensión Espacial de Gráficos (CS-Bench), llenando un vacío crítico en la evaluación integral de la comprensión de gráficos. Aprovechando el aprendizaje espacial y textual, START ofrece mejoras consistentes en todos los tamaños de modelo y benchmarks respecto a los modelos base, y supera claramente a los mejores métodos anteriores. El código, los datos y los modelos estarán disponibles públicamente.
Las escenas del mundo real suelen estar compuestas por varios objetos estáticos y dinámicos. Capturar sus estructuras 4-dimensionales, composición y configuración espacio-temporal en entornos naturales, aunque extremadamente interesante, es igualmente difícil. Por lo tanto, los trabajos existentes suelen centrarse en un objeto a la vez, mientras dependen de algún modelo de forma paramétrico específico de categoría para los objetos dinámicos. Esto puede conducir a configuraciones de escena inconsistentes, además de limitarse a las categorías de objetos modeladas. Proponemos COM4D (Composición 4D), un método que predice de manera consistente y conjunta la estructura y la configuración espacio-temporal de objetos 4D/3D utilizando únicamente supervisión de objetos múltiples estáticos o de un único objeto dinámico. Logramos esto mediante un entrenamiento cuidadosamente diseñado de atenciones espaciales y temporales sobre una entrada de video 2D. El entrenamiento se desglosa en el aprendizaje a partir de composiciones de objetos por un lado, y la dinámica de un único objeto a lo largo del video por otro, evitando así completamente la dependencia de datos de entrenamiento composicionales 4D. En el momento de la inferencia, nuestro mecanismo de mezcla de atención propuesto combina estas atenciones aprendidas de forma independiente, sin requerir ningún ejemplo de composición 4D. Alternando entre el razonamiento espacial y temporal, COM4D reconstruye escenas 4D completas y persistentes con múltiples objetos que interactúan directamente a partir de videos monoculares. Además, COM4D proporciona resultados de vanguardia en problemas separados existentes de reconstrucción 4D de objetos y reconstrucción 3D compuesta, a pesar de ser puramente basado en datos.
Los datos pesqueros precisos son cruciales para una gestión eficaz y sostenible de los recursos marinos. Con la reciente adopción de sistemas de Monitoreo Electrónico (EM), ahora se recopilan más datos de video de los que es factible revisar manualmente. Este artículo aborda este desafío desarrollando un pipeline optimizado de aprendizaje profundo para la re-identificación (Re-ID) automatizada de peces utilizando el nuevo conjunto de datos AutoFish, que simula sistemas EM con cintas transportadoras con seis especies de peces de apariencia similar. Demostramos que las métricas clave de Re-ID (R1 y mAP@k) mejoran sustancialmente mediante el uso de hard triplet mining en conjunto con un pipeline personalizado de transformación de imágenes que incluye una normalización específica del conjunto de datos. Al emplear estas estrategias, demostramos que la arquitectura Swin-T basada en Vision Transformer supera consistentemente a la ResNet-50 basada en Redes Neuronales Convolucionales, logrando un rendimiento máximo del 41,65% en mAP@k y una precisión Rank-1 del 90,43%. Un análisis en profundidad revela que el principal desafío es distinguir individuos visualmente similares de la misma especie (errores intra-especie), donde la inconsistencia del punto de vista resulta significativamente más perjudicial que la oclusión parcial. El código fuente y la documentación están disponibles en: https://github.com/msamdk/Fish_Re_Identification.git
Presentamos FIN-bench-v2, una suite de evaluación unificada para valorar modelos de lenguaje grandes en finés. FIN-bench-v2 consolida versiones en finés de benchmarks ampliamente utilizados, junto con una versión actualizada y ampliada del FIN-bench original, en una única colección con formato consistente que abarca tareas de opción múltiple y generativas en comprensión lectora, razonamiento de sentido común, análisis de sentimientos, conocimiento general y alineación. Todos los conjuntos de datos se han convertido al formato HuggingFace Datasets, incluyendo formulaciones de prompts tipo cloze y de opción múltiple con cinco variantes por tarea, e incorporamos anotación humana o revisión para recursos traducidos automáticamente, como GoldenSwag y XED. Para seleccionar tareas robustas, preentrenamos un conjunto de modelos de solo decodificador de 2.150 millones de parámetros y utilizamos sus curvas de aprendizaje para calcular la monotonicidad, la relación señal-ruido, el rendimiento no aleatorio y la consistencia en el ordenamiento de modelos, conservando únicamente las tareas que satisfacen todos los criterios. Evaluamos además un conjunto de modelos más grandes ajustados por instrucción para caracterizar el rendimiento en las distintas tareas y formulaciones de prompts. Todos los conjuntos de datos, prompts y configuraciones de evaluación están disponibles públicamente a través de nuestro fork de Language Model Evaluation Harness en https://github.com/LumiOpen/lm-evaluation-harness. Los recursos complementarios se publican en un repositorio separado en https://github.com/TurkuNLP/FIN-bench-v2.
Los modelos del mundo han demostrado un rendimiento impresionante en tareas de aprendizaje robótico. Muchas de estas tareas exigen inherentemente un razonamiento multimodal; por ejemplo, llenar una botella con agua hará que la información visual por sí sola sea ambigua o incompleta, requiriendo así razonar sobre la evolución temporal del audio, teniendo en cuenta sus propiedades físicas subyacentes y sus patrones de tono. En este artículo, proponemos un modelo generativo de ajuste de flujo latente para anticipar observaciones de audio futuras, lo que permite al sistema razonar sobre las consecuencias a largo plazo cuando se integra en una política de robot. Demostramos las capacidades superiores de nuestro sistema mediante dos tareas de manipulación que requieren percibir señales de audio o música en entornos no controlados, en comparación con métodos que carecen de anticipación futura. Además, enfatizamos que el aprendizaje exitoso de acciones robóticas para estas tareas no depende meramente de la entrada multimodal, sino críticamente de la predicción precisa de los estados de audio futuros que incorporan patrones rítmicos intrínsecos.
Los recientes avances en los modelos multimodales de gran escala sugieren que los mecanismos de razonamiento explícito desempeñan un papel fundamental en la mejora de la fiabilidad, interpretabilidad y alineación multimodal de los modelos. Si bien estos enfoques centrados en el razonamiento han demostrado ser eficaces en tareas de lenguaje y visión, su extensión al ámbito 3D sigue estando poco desarrollada. CoRe3D introduce un marco unificado de razonamiento para la comprensión y generación 3D que opera conjuntamente sobre abstracciones semánticas y espaciales, permitiendo que la intención de alto nivel inferida del lenguaje guíe directamente la formación de contenido 3D de bajo nivel. Elemento central de este diseño es una representación de razonamiento espacialmente anclada que descompone el espacio latente 3D en regiones localizadas, permitiendo al modelo razonar sobre la geometría de manera composicional y procedural. Al acoplar estrechamente la inferencia semántica de cadena de pensamiento con el razonamiento espacial estructurado, CoRe3D genera resultados 3D que exhiben una fuerte consistencia local y una alineación fiel con las descripciones lingüísticas.
La degeneración macular asociada a la edad (DMAE) y las afecciones relacionadas con la neovascularización coroidea (NVC) son causas principales de pérdida de visión a nivel mundial, siendo la tomografía de coherencia óptica (OCT) una herramienta fundamental para su detección temprana y manejo. Sin embargo, el despliegue de modelos de aprendizaje profundo de vanguardia, como ConvNeXtV2-Large, en entornos clínicos se ve obstaculizado por sus elevadas demandas computacionales. Por lo tanto, es deseable desarrollar modelos eficientes que mantengan un alto rendimiento diagnóstico permitiendo su implementación en tiempo real. En este estudio, se propone un novedoso marco de destilación de conocimiento, denominado KD-OCT, para comprimir un modelo maestro de alto rendimiento ConvNeXtV2-Large —mejorado con aumentación de datos avanzada, promediado estocástico de pesos y pérdida focal— en un modelo estudiantil ligero EfficientNet-B2 para clasificar casos normales, con drusas y con NVC. KD-OCT emplea una destilación en tiempo real con una función de pérdida combinada que equilibra la transferencia de conocimiento blanda del maestro y la supervisión dura de las etiquetas reales. La efectividad del método propuesto se evalúa en el conjunto de datos del Hospital Oftalmológico Noor (NEH) utilizando validación cruzada a nivel de paciente. Los resultados experimentales demuestran que KD-OCT supera a clasificadores de OCT comparables basados en escalas múltiples o fusión de características en el equilibrio eficiencia-precisión, logrando un rendimiento cercano al del maestro con reducciones sustanciales en el tamaño del modelo y el tiempo de inferencia. A pesar de la compresión, el modelo estudiantil supera a la mayoría de los marcos existentes, facilitando el despliegue en dispositivos periféricos para el cribado de la DMAE. El código está disponible en https://github.com/erfan-nourbakhsh/KD-OCT.