Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en la generación de vídeo basada en difusión han abierto nuevas posibilidades para la edición controlada de vídeos, sin embargo, la inserción realista de objetos en vídeo (VOI) sigue siendo un desafío debido a la comprensión limitada de escenas 4D y al manejo inadecuado de las oclusiones y los efectos de iluminación. Presentamos InsertAnywhere, un nuevo marco de trabajo para VOI que logra una colocación de objetos geométricamente consistente y una síntesis de vídeo fiel a la apariencia. Nuestro método comienza con un módulo de generación de máscaras con conciencia 4D que reconstruye la geometría de la escena y propaga la colocación de objetos especificada por el usuario a lo largo de los fotogramas, manteniendo la coherencia temporal y la consistencia de las oclusiones. Sobre esta base espacial, extendemos un modelo de generación de vídeo basado en difusión para sintetizar conjuntamente el objeto insertado y las variaciones locales de su entorno, como la iluminación y las sombras. Para permitir el entrenamiento supervisado, presentamos ROSE++, un conjunto de datos sintético con conciencia de la iluminación, construido mediante la transformación del conjunto de datos de eliminación de objetos ROSE en tríos de vídeo con objeto eliminado, vídeo con objeto presente y una imagen de referencia generada por un modelo de lenguaje visual (VLM). A través de experimentos exhaustivos, demostramos que nuestro marco de trabajo produce inserciones de objetos geométricamente plausibles y visualmente coherentes en diversos escenarios del mundo real, superando significativamente a los modelos de investigación y comerciales existentes.
Los seres humanos comprenden textos largos y complejos mediante una representación semántica holística del contenido. Esta visión global ayuda a organizar el conocimiento previo, interpretar nueva información e integrar evidencia dispersa a lo largo de un documento, como revela la Capacidad de Conciencia del Paisaje Mental en psicología. Los sistemas actuales de Generación Aumentada por Recuperación (RAG) carecen de dicha guía y, por lo tanto, tienen dificultades con tareas de contexto extenso. En este artículo, proponemos RAG con Conciencia del Paisaje Mental (MiA-RAG), el primer enfoque que dota a los sistemas RAG basados en LLM de una conciencia explícita del contexto global. MiA-RAG construye un paisaje mental mediante resumen jerárquico y condiciona tanto la recuperación como la generación a esta representación semántica global. Esto permite que el recuperador forme incrustaciones de consulta enriquecidas y que el generador razone sobre la evidencia recuperada dentro de un contexto global coherente. Evaluamos MiA-RAG en diversos benchmarks de contexto extenso y bilingües para la comprensión basada en evidencia y la construcción de sentido global. Supera consistentemente a los baselines, y un análisis adicional muestra que alinea los detalles locales con una representación global coherente, permitiendo una recuperación y razonamiento de contexto extenso más similares a los humanos.
El desarrollo de agentes de interfaz gráfica de usuario (GUI) podría revolucionar la próxima generación de interacción persona-computadora. Motivados por esta visión, presentamos MAI-UI, una familia de agentes GUI fundamentales que abarca todo el espectro de tamaños, incluyendo variantes de 2B, 8B, 32B y 235B-A22B. Identificamos cuatro desafíos clave para un despliegue realista: la falta de interacción nativa agente-usuario, los límites de la operación exclusiva con interfaz de usuario, la ausencia de una arquitectura de despliegue práctica y la fragilidad en entornos dinámicos. MAI-UI aborda estos problemas con una metodología unificada: una canalización de datos de auto-evolución que expande los datos de navegación para incluir interacción del usuario y llamadas a herramientas MCP, un sistema nativo de colaboración dispositivo-nube que enruta la ejecución por estado de la tarea, y un marco de aprendizaje por refuerzo (RL) en línea con optimizaciones avanzadas para escalar entornos paralelos y longitud de contexto. MAI-UI establece un nuevo estado del arte en fundamentación GUI y navegación móvil. En benchmarks de fundamentación, alcanza un 73.5% en ScreenSpot-Pro, 91.3% en MMBench GUI L2, 70.9% en OSWorld-G y 49.2% en UI-Vision, superando a Gemini-3-Pro y Seed1.8 en ScreenSpot-Pro. En navegación GUI móvil, establece un nuevo SOTA del 76.7% en AndroidWorld, superando a UI-Tars-2, Gemini-2.5-Pro y Seed1.8. En MobileWorld, MAI-UI obtiene una tasa de éxito del 41.7%, superando significativamente a los modelos GUI de extremo a extremo y siendo competitivo con los marcos agenticos basados en Gemini-3-Pro. Nuestros experimentos de RL en línea muestran ganancias significativas al escalar entornos paralelos de 32 a 512 (+5.2 puntos) y aumentar el presupuesto de pasos del entorno de 15 a 50 (+4.3 puntos). Finalmente, el sistema nativo de colaboración dispositivo-nube mejora el rendimiento en el dispositivo en un 33%, reduce las llamadas al modelo en la nube en más del 40% y preserva la privacidad del usuario.
Los modelos de lenguaje multimodal (MLLM) han logrado un progreso notable en tareas de comprensión visual como la localización visual, la segmentación y la generación de descripciones. Sin embargo, su capacidad para percibir características de imagen a nivel perceptual sigue siendo limitada. En este trabajo, presentamos UniPercept-Bench, un marco unificado para la comprensión de imágenes a nivel perceptual en tres dominios clave: Estética, Calidad, Estructura y Textura. Establecemos un sistema de definición jerárquico y construimos conjuntos de datos a gran escala para evaluar la comprensión de imágenes a nivel perceptual. Sobre esta base, desarrollamos una base de referencia sólida, UniPercept, entrenada mediante Pre-entrenamiento Adaptativo al Dominio y RL Alineado con la Tarea, lo que permite una generalización robusta tanto en tareas de Valoración Visual (VR) como de Respuesta a Preguntas Visuales (VQA). UniPercept supera a los MLLM existentes en la comprensión de imágenes a nivel perceptual y puede servir como un modelo de recompensa plug-and-play para la generación de texto a imagen. Este trabajo define la Comprensión de Imágenes a Nivel Perceptual en la era de los MLLM y, mediante la introducción de un punto de referencia integral junto con una base sólida, proporciona una base sólida para avanzar en la comprensión multimodal de imágenes a nivel perceptual.
La edición visual basada en inversión ofrece un método eficaz y libre de entrenamiento para editar una imagen o un video basándose en instrucciones del usuario. Los métodos existentes suelen inyectar información de la imagen fuente durante el proceso de muestreo para mantener la coherencia de la edición. Sin embargo, esta estrategia de muestreo depende excesivamente de la información fuente, lo que afecta negativamente a las ediciones en la imagen objetivo (por ejemplo, fallando al cambiar atributos del sujeto como la pose, el número o el color según las instrucciones). En este trabajo, proponemos ProEdit para abordar este problema tanto en el aspecto de atención como en el latente. En el aspecto de atención, introducimos KV-mix, que combina las características KV de la fuente y el objetivo en la región editada, mitigando la influencia de la imagen fuente en la región de edición mientras mantiene la coherencia del fondo. En el aspecto latente, proponemos Latents-Shift, que perturba la región editada del latente fuente, eliminando la influencia del latente invertido en el muestreo. Experimentos exhaustivos en varios benchmarks de edición de imágenes y videos demuestran que nuestro método alcanza un rendimiento de vanguardia (SOTA). Además, nuestro diseño es plug-and-play, pudiendo integrarse perfectamente en métodos existentes de inversión y edición, como RF-Solver, FireFlow y UniEdit.
Los Modelos de Lenguaje a Gran Escala (LLMs) se despliegan cada vez más en sistemas sensibles al tiempo, como la robótica, la conducción autónoma, la inteligencia corporeizada y la automatización industrial, donde generar respuestas precisas dentro de un límite de tiempo determinado es crucial para la toma de decisiones, el control o tareas críticas para la seguridad. Sin embargo, el proceso de generación auto-regresivo de los LLMs hace que sea un desafío modelar y estimar el tiempo de ejecución de extremo a extremo. Además, los métodos de inferencia eficiente existentes, basados en una tasa fija de expulsión de la caché clave-valor (KV), tienen dificultades para adaptarse a tareas variables con distintos límites de tiempo, donde una tasa de expulsión inadecuada puede llevar a una inferencia incompleta o a una caída en el rendimiento de la respuesta. En este artículo, proponemos TimeBill, un novedoso marco de inferencia con presupuesto de tiempo para LLMs que equilibra la eficiencia de la inferencia y el rendimiento de la respuesta. Más concretamente, proponemos un predictor de longitud de respuesta de grano fino (RLP) y un estimador de tiempo de ejecución (ETE) para predecir con precisión el tiempo de ejecución de extremo a extremo de los LLMs. A continuación, desarrollamos un enfoque de inferencia eficiente con presupuesto de tiempo que ajusta adaptativamente la tasa de expulsión de la caché KV en función de la predicción del tiempo de ejecución y del límite de tiempo dado. Finalmente, mediante experimentos exhaustivos, demostramos las ventajas de TimeBill para mejorar la tasa de finalización de tareas y mantener el rendimiento de la respuesta bajo diversas estrategias de desbordamiento.
Los grandes modelos de visión y lenguaje (VLM) a menudo se benefician de pistas visuales intermedias, ya sea inyectadas mediante herramientas externas o generadas como tokens visuales latentes durante el razonamiento. Sin embargo, estos mecanismos aún pasan por alto evidencia visual detallada (por ejemplo, polilíneas en gráficos), generalizan pobremente entre dominios e incurren en un alto costo computacional durante la inferencia. En este artículo, proponemos el Moldeado Perceptual Bidireccional (BiPS), que transforma vistas enmascaradas condicionadas por la pregunta en señales bidireccionales de dónde mirar que moldean la percepción durante el entrenamiento. BiPS aplica primero una restricción de consistencia KL entre la imagen original y una vista que preserva la evidencia (manteniendo solo las regiones relevantes para la pregunta), fomentando una cobertura gruesa pero completa de los píxeles de apoyo. Luego aplica una restricción de separación KL entre la imagen original y una vista con evidencia ablacionada (donde los píxeles críticos están enmascarados para que la imagen ya no respalde la respuesta original), disuadiendo los atajos basados únicamente en texto y reforzando la dependencia de detalles visuales finos. En ocho benchmarks, BiPS mejora a Qwen2.5-VL-7B en un 8.2% en promedio y muestra una fuerte generalización fuera de dominio hacia conjuntos de datos y tipos de imagen no vistos.
La modelización meteorológica requiere tanto predicción precisa como interpretación mecanicista, sin embargo, los métodos existentes abordan estos objetivos de forma aislada, separando la generación de la comprensión. Para abordar esta brecha, presentamos Omni-Weather, el primer modelo fundacional multimodal que unifica la generación y comprensión meteorológica dentro de una única arquitectura. Omni-Weather integra un codificador de radar para tareas de generación meteorológica, seguido de un procesamiento unificado mediante un mecanismo de autoatención compartido. Además, construimos un conjunto de datos de Cadena de Razonamiento para el razonamiento causal en la generación meteorológica, permitiendo salidas interpretables y una calidad perceptual mejorada. Experimentos exhaustivos demuestran que Omni-Weather logra un rendimiento de vanguardia tanto en generación como en comprensión meteorológica. Nuestros hallazgos indican además que las tareas generativas y de comprensión en el dominio meteorológico pueden reforzarse mutuamente. Omni-Weather también demuestra la viabilidad y el valor de unificar la generación y comprensión meteorológica.
La capacidad de los agentes de IA para "pensar con imágenes" requiere una sofisticada combinación de razonamiento y percepción. Sin embargo, los agentes multimodales abiertos actuales aún adolecen en gran medida del aspecto de razonamiento, crucial para tareas del mundo real como analizar documentos con gráficos/diagramas densos y navegar por mapas. Para abordar esta brecha, presentamos O3-Bench, un nuevo punto de referencia diseñado para evaluar el razonamiento multimodal con atención intercalada a los detalles visuales. O3-Bench presenta problemas desafiantes que requieren que los agentes integren información visual sutil de distintas áreas de la imagen mediante un razonamiento de múltiples pasos. Los problemas son altamente desafiantes incluso para sistemas de vanguardia como OpenAI o3, que solo obtiene un 40.8% de precisión en O3-Bench. Para avanzar, proponemos InSight-o3, un marco multiagente que consiste en un agente de razonamiento visual (vReasoner) y un agente de búsqueda visual (vSearcher), para el cual presentamos la tarea de búsqueda visual generalizada: localizar regiones relacionales, difusas o conceptuales descritas en lenguaje libre, más allá de simples objetos o figuras en imágenes naturales. Luego presentamos un modelo de lenguaje multimodal (LLM) entrenado específicamente para esta tarea mediante aprendizaje por refuerzo. Como agente plug-and-play, nuestro vSearcher potencia a los modelos multimodales de vanguardia (como vReasoners), mejorando significativamente su rendimiento en una amplia gama de benchmarks. Esto marca un paso concreto hacia sistemas abiertos potentes similares a o3. Nuestro código y conjunto de datos se pueden encontrar en https://github.com/m-Just/InSight-o3.
Los modelos recientes de generación de texto a vídeo muestran un progreso notable en realismo visual, fidelidad del movimiento y alineación texto-vídeo, pero siguen estando fundamentalmente limitados en su capacidad para generar comportamientos socialmente coherentes. A diferencia de los humanos, que infieren sin esfuerzo intenciones, creencias, emociones y normas sociales a partir de breves indicios visuales, los modelos actuales tienden a representar escenas literales sin capturar la lógica causal o psicológica subyacente. Para evaluar sistemáticamente esta brecha, presentamos el primer punto de referencia para el razonamiento social en la generación de vídeo. Basado en hallazgos de la psicología del desarrollo y social, nuestro benchmark organiza treinta paradigmas clásicos de cognición social en siete dimensiones principales: inferencia de estados mentales, acción dirigida a objetivos, atención conjunta, coordinación social, comportamiento prosocial, normas sociales y estrategia multiagente. Para operacionalizar estos paradigmas, desarrollamos un pipeline basado en agentes completamente libre de entrenamiento que (i) destila el mecanismo de razonamiento de cada experimento, (ii) sintetiza diversos escenarios listos para vídeo, (iii) aplica neutralidad conceptual y control de dificultad mediante crítica basada en indicios, y (iv) evalúa los vídeos generados utilizando un juez VLM de alta capacidad a través de cinco dimensiones interpretables de razonamiento social. Utilizando este marco, realizamos el primer estudio a gran escala en siete sistemas de generación de vídeo de última generación. Nuestros resultados revelan brechas de rendimiento sustanciales: mientras que los modelos modernos sobresalen en plausibilidad superficial, fallan sistemáticamente en el reconocimiento de intenciones, el razonamiento sobre creencias, la atención conjunta y la inferencia prosocial.
La retroalimentación basada en ejecución, como las pruebas unitarias, se utiliza ampliamente en el desarrollo de agentes de codificación mediante el escalado en tiempo de prueba (TTS) y el aprendizaje por refuerzo (RL). Este paradigma requiere una recolección escalable y confiable de casos de prueba unitarios para proporcionar retroalimentación precisa, y la retroalimentación resultante suele ser dispersa y no puede distinguir efectivamente entre trayectorias que son tanto exitosas como no exitosas. En contraste, la retroalimentación libre de ejecución proveniente de modelos de recompensa puede proporcionar señales más granulares sin depender de casos de prueba unitarios. A pesar de este potencial, la retroalimentación libre de ejecución para agentes realistas de ingeniería de software (SWE) sigue estando poco explorada. Con el objetivo de desarrollar modelos de recompensa versátiles que sean efectivos tanto en TTS como en RL, observamos, sin embargo, que dos verificadores con un rendimiento en TTS casi idéntico pueden, no obstante, producir resultados muy diferentes en RL. Intuitivamente, el TTS refleja principalmente la capacidad del modelo para seleccionar la mejor trayectoria, pero esta capacidad no necesariamente se generaliza a RL. Para abordar esta limitación, identificamos dos aspectos adicionales que son cruciales para el entrenamiento con RL: la precisión en la clasificación y la calibración. Luego realizamos experimentos controlados exhaustivos para investigar cómo entrenar un modelo de recompensa robusto que funcione bien en estas métricas. En particular, analizamos el impacto de varios factores, como la escala de los datos de entrenamiento, las mezclas de políticas y la composición de las fuentes de datos. Guiados por estas investigaciones, presentamos SWE-RM, un modelo de recompensa preciso y robusto que adopta una arquitectura de mezcla de expertos con 30B de parámetros totales y 3B activados durante la inferencia. SWE-RM mejora sustancialmente a los agentes SWE tanto en el rendimiento de TTS como de RL. Por ejemplo, aumenta la precisión de Qwen3-Coder-Flash del 51.6% al 62.0%, y de Qwen3-Coder-Max del 67.0% al 74.6% en SWE-Bench Verified utilizando TTS, logrando un nuevo rendimiento de vanguardia entre los modelos de código abierto.
La generación automática de diapositivas para presentaciones puede agilizar enormemente la creación de contenido. Sin embargo, dado que las preferencias de cada usuario pueden variar, las formulaciones existentes poco especificadas a menudo generan resultados subóptimos que no se alinean con las necesidades individuales de los usuarios. Introducimos una nueva tarea que condiciona la generación de diapositivas a partir de artículos científicos en las preferencias especificadas por el usuario. Proponemos un marco agéntico inspirado en el comportamiento humano, SlideTailor, que genera progresivamente diapositivas editables de manera alineada con el usuario. En lugar de requerir que los usuarios escriban sus preferencias en forma textual detallada, nuestro sistema solo solicita un par de ejemplo artículo-diapositivas y una plantilla visual, artefactos naturales y fáciles de proporcionar que codifican implícitamente las ricas preferencias del usuario en cuanto a contenido y estilo visual. A pesar de la naturaleza implícita y no etiquetada de estas entradas, nuestro marco destila y generaliza eficazmente las preferencias para guiar la generación de diapositivas personalizadas. También introducimos un novedoso mecanismo de cadena de discurso para alinear el contenido de las diapositivas con la narración oral planificada. Este diseño mejora significativamente la calidad de las diapositivas generadas y permite aplicaciones posteriores, como presentaciones en video. Para respaldar esta nueva tarea, construimos un conjunto de datos de referencia que captura diversas preferencias de los usuarios, con métricas interpretables cuidadosamente diseñadas para una evaluación robusta. Experimentos exhaustivos demuestran la efectividad de nuestro marco.
Este artículo presenta un nuevo algoritmo de vanguardia para la multiplicación exacta de matrices 3x3 sobre anillos no conmutativos generales, logrando un esquema de rango 23 con solo 58 adiciones escalares. Esto mejora la anterior mejor complejidad aditiva de 60 adiciones sin un cambio de base. El resultado se descubrió mediante una búsqueda automatizada que combina la exploración del grafo de inversión con restricción ternaria y la reducción de intersección voraz para la eliminación de subexpresiones comunes. El esquema resultante utiliza únicamente coeficientes de {-1, 0, 1}, garantizando tanto eficiencia como portabilidad en campos arbitrarios. El conteo total de operaciones escalares se reduce de 83 a 81.
Los grandes modelos de razonamiento (LRM) suelen entrenarse mediante aprendizaje por refuerzo con recompensa verificable (RLVR) para mejorar sus capacidades de razonamiento. En este paradigma, las políticas se actualizan utilizando rollouts autogenerados tanto positivos como negativos, que corresponden a polaridades de muestra distintas. En este artículo, realizamos una investigación sistemática sobre cómo estas polaridades de muestra afectan la dinámica y los comportamientos del entrenamiento RLVR. Descubrimos que las muestras positivas agudizan los patrones de razonamiento correctos existentes, mientras que las muestras negativas fomentan la exploración de nuevas trayectorias de razonamiento. Exploramos además cómo el ajuste de los valores de ventaja de las muestras positivas y negativas, tanto a nivel de muestra como a nivel de token, afecta al entrenamiento RLVR. Basándonos en estas observaciones, proponemos un método de modelado de ventaja a nivel de token Adaptativo y Asimétrico para la Optimización de Políticas, denominado A3PO, que asigna las señales de ventaja de manera más precisa a los tokens clave según las diferentes polaridades. Los experimentos en cinco benchmarks de razonamiento demuestran la efectividad de nuestro enfoque.