Artículos de investigación en IA seleccionados diariamente con traducciones
El aprendizaje por retroalimentación de recompensas (ReFL) ha demostrado ser eficaz para alinear la generación de imágenes con las preferencias humanas. Sin embargo, su extensión a la generación de vídeo enfrenta desafíos significativos. Los modelos de recompensa de vídeo existentes se basan en modelos de visión y lenguaje diseñados para entradas en el espacio de píxeles, lo que confina la optimización ReFL a pasos de eliminación de ruido casi completos tras una costosa decodificación VAE. Este enfoque en el espacio de píxeles conlleva una sobrecarga sustancial de memoria y un mayor tiempo de entrenamiento, y su optimización en etapas tardías carece de supervisión en etapas tempranas, refinando solo la calidad visual en lugar de la dinámica motriz fundamental y la coherencia estructural. En este trabajo, demostramos que los modelos de generación de vídeo preentrenados son naturalmente adecuados para el modelado de recompensas en el espacio latente ruidoso, ya que están explícitamente diseñados para procesar representaciones latentes ruidosas en pasos temporales arbitrarios y preservan inherentemente la información temporal mediante sus capacidades de modelado secuencial. En consecuencia, proponemos el Aprendizaje por Retroalimentación de Recompensas del Proceso (PRFL), un marco que realiza la optimización de preferencias completamente en el espacio latente, permitiendo una retropropagación eficiente del gradiente a lo largo de toda la cadena de desruido sin decodificación VAE. Experimentos exhaustivos demuestran que PRFL mejora significativamente la alineación con las preferencias humanas, logrando al mismo tiempo reducciones sustanciales en el consumo de memoria y el tiempo de entrenamiento en comparación con ReFL en RGB.
Si bien los modelos de difusión modernos sobresalen en generar imágenes de alta calidad y diversidad, aún presentan dificultades para lograr un control compositivo y multimodal de alta fidelidad, especialmente cuando los usuarios especifican simultáneamente indicaciones de texto, referencias de sujetos, disposiciones espaciales, restricciones de pose y anotaciones de diseño. Presentamos Canvas-to-Image, un marco unificado que consolida estos controles heterogéneos en una única interfaz de lienzo, permitiendo a los usuarios generar imágenes que reflejen fielmente su intención. Nuestra idea clave es codificar diversas señales de control en una única imagen de lienzo compuesta que el modelo pueda interpretar directamente para un razonamiento visual-espacial integrado. Además, seleccionamos un conjunto de datos de múltiples tareas y proponemos una estrategia de Entrenamiento de Lienzo Multi-Tarea que optimiza el modelo de difusión para comprender e integrar conjuntamente controles heterogéneos en la generación de texto a imagen dentro de un paradigma de aprendizaje unificado. Este entrenamiento conjunto permite a Canvas-to-Image razonar a través de múltiples modalidades de control en lugar de depender de heurísticas específicas por tarea, y generaliza bien a escenarios de control múltiple durante la inferencia. Experimentos exhaustivos demuestran que Canvas-to-Image supera significativamente a los métodos de vanguardia en preservación de identidad y adherencia al control en puntos de referencia desafiantes, incluyendo composición multi-persona, composición controlada por pose, generación restringida por diseño y generación con controles múltiples.
La cognición incorporada sostiene que la inteligencia surge de la interacción sensoriomotora más que de la observación pasiva. Esto plantea una pregunta intrigante: ¿los modelos visión-lenguaje (VLM) modernos, entrenados mayormente de manera desincorporada, muestran signos de cognición incorporada? Presentamos ENACT, un benchmark que plantea la evaluación de la cognición incorporada como un modelado del mundo a partir de interacciones en primera persona, bajo el formato de respuesta a preguntas visuales (VQA). Enmarcado como un proceso de decisión markoviano parcialmente observable (POMDP) cuyas acciones son cambios en grafos de escena, ENACT comprende dos tareas complementarias de reordenamiento de secuencias: modelado del mundo hacia adelante (reordenar observaciones desordenadas dadas las acciones) y modelado del mundo inverso (reordenar acciones desordenadas dadas las observaciones). Aunque conceptualmente simples, resolver estas tareas exige implícitamente capacidades centrales para la cognición incorporada: reconocimiento de affordances, razonamiento de acción-efecto, conciencia incorporada y memoria interactiva de largo horizonte a partir de entradas egocéntricas parcialmente observables, evitando al mismo tiempo la síntesis de imágenes de bajo nivel que podría sesgar la evaluación. Proporcionamos un pipeline escalable que sintetiza pares de preguntas y respuestas a partir de simulaciones robóticas (BEHAVIOR) y evalúa modelos en 8,972 pares de QA que abarcan actividades de largo horizonte en entornos domésticos. Los experimentos revelan una brecha de rendimiento entre los VLM de vanguardia y los humanos que se amplía con el horizonte de interacción. Los modelos rinden consistentemente mejor en la tarea inversa que en la directa y muestran sesgos antropocéntricos, incluyendo una preferencia por acciones con la mano derecha y un deterioro cuando las características intrínsecas de la cámara o los puntos de vista se desvían de la visión humana. Sitio web en https://enact-embodied-cognition.github.io/.
La comprensión del lenguaje no solo implica extraer el significado superficial del estímulo lingüístico, sino construir modelos mentales ricos de la situación que describe. Aquí proponemos que, dado que el procesamiento dentro del sistema lingüístico central del cerebro es fundamentalmente limitado, comprender el lenguaje en profundidad requiere exportar información desde el sistema lingüístico hacia otras regiones cerebrales que computan representaciones perceptivas y motoras, construyen modelos mentales y almacenan nuestro conocimiento del mundo y memorias autobiográficas. Revisamos la evidencia existente para esta hipótesis y argumentamos que los avances recientes en neurociencia cognitiva proporcionan tanto la base conceptual como los métodos para probarla directamente, abriendo así una nueva estrategia para revelar qué significa, cognitiva y neuralmente, comprender el lenguaje.
La edición de imágenes guiada por instrucciones ofrece una forma intuitiva para que los usuarios editen imágenes con lenguaje natural. Sin embargo, los modelos de edición basados en difusión a menudo tienen dificultades para interpretar con precisión instrucciones de usuario complejas, especialmente aquellas que involucran relaciones compositivas, claves contextuales o expresiones referenciales, lo que genera ediciones que se desvían semánticamente o no reflejan los cambios deseados. Abordamos este problema proponiendo MIRA (Agente de Razonamiento Multimodal Iterativo), un agente de razonamiento multimodal ligero y listo para usar que realiza ediciones mediante un bucle iterativo de percepción-razonamiento-acción, simulando efectivamente los procesos de interacción humano-modelo de múltiples turnos. En lugar de emitir una única instrucción o un plan estático, MIRA predice instrucciones de edición atómicas paso a paso, utilizando retroalimentación visual para tomar sus decisiones. Nuestro conjunto de datos multimodal de 150K para uso de herramientas, MIRA-Editing, combinado con una canalización de entrenamiento de dos etapas SFT + GRPO, permite a MIRA realizar razonamiento y edición sobre instrucciones de edición complejas. Cuando se empareja con modelos de edición de imágenes de código abierto como Flux.1-Kontext, Step1X-Edit y Qwen-Image-Edit, MIRA mejora significativamente tanto la consistencia semántica como la calidad perceptual, logrando un rendimiento comparable o superior a sistemas propietarios como GPT-Image y Nano-Banana.
Los modelos multimodales grandes (LMMs) son cada vez más adoptados como evaluadores en sistemas de evaluación multimodal debido a su sólida capacidad para seguir instrucciones y su consistencia con las preferencias humanas. Sin embargo, su habilidad para seguir criterios de evaluación diversos y granulares sigue estando poco explorada. Desarrollamos Multi-Crit, un benchmark para evaluar a los evaluadores multimodales en su capacidad para seguir criterios pluralistas y producir juicios fiables a nivel de criterio. Abarcando tanto tareas de generación abierta como de razonamiento verificable, Multi-Crit se construye mediante un riguroso pipeline de curación de datos que recopila pares de respuestas desafiantes con anotaciones humanas multicriterio. Además, introduce tres métricas novedosas para evaluar sistemáticamente la adherencia pluralista, la flexibilidad en el cambio de criterios y la capacidad para reconocer conflictos de preferencia a nivel de criterio. Un análisis exhaustivo de 25 LMMs revela que 1) los modelos propietarios aún tienen dificultades para mantener una adherencia consistente a criterios pluralistas, especialmente en evaluación de generación abierta; 2) los modelos de código abierto están aún más rezagados en seguir flexiblemente criterios diversos; y 3) el ajuste fino como crítico con señales de juicio holístico mejora la fundamentación visual pero no logra generalizarse al juicio pluralista a nivel de criterio. Análisis adicionales sobre el ajuste fino de razonamiento, el escalado en tiempo de prueba y la consistencia en los límites entre modelos de código abierto y propietarios exploran aún más los límites de los evaluadores multimodales actuales. Como estudio pionero, Multi-Crit sienta las bases para construir una evaluación de IA multimodal fiable y dirigible.
Los MLLM exhiben un razonamiento sólido en consultas aisladas, pero operan de novo: resuelven cada problema de forma independiente y a menudo repiten los mismos errores. Los agentes con memoria existentes almacenan principalmente trayectorias pasadas para su reutilización. Sin embargo, la memoria basada en trayectorias sufre de un sesgo de brevedad, perdiendo gradualmente conocimiento esencial del dominio. Más críticamente, incluso en entornos de resolución de problemas verdaderamente multimodales, registra solo un rastro unimodal del comportamiento pasado, sin preservar cómo la atención visual y el razonamiento lógico contribuyeron conjuntamente a la solución. Esto está fundamentalmente desalineado con la cognición humana: la memoria semántica es multimodal e integrada, preservando conocimiento visual y abstracto a través de flujos representacionales coordinados pero distintos. Por ello, presentamos ViLoMem, un marco de memoria de flujo dual que construye una memoria compacta basada en esquemas. Codifica por separado los patrones de distracción visual y los errores de razonamiento lógico, permitiendo a los MLLM aprender de sus experiencias exitosas y fallidas. Siguiendo un principio de crecimiento y refinamiento, el sistema acumula y actualiza incrementalmente conocimiento semántico multimodal, preservando estrategias estables y generalizables mientras evita el olvido catastrófico. En seis benchmarks multimodales, ViLoMem mejora consistentemente la precisión pass@1 y reduce sustancialmente los errores visuales y lógicos repetidos. Las ablaciones confirman la necesidad de una memoria de flujo dual con una separación explícita entre distracción y alucinación, demostrando el valor de una memoria multimodal consciente de los errores para el aprendizaje agentico continuo y cross-domain. Nuestra página del proyecto estará disponible en https://weihao-bo.github.io/ViLoMeo-page.