Artículos de investigación en IA seleccionados diariamente con traducciones
La memoria es fundamental para los agentes de IA, sin embargo, la memoria estática ampliamente adoptada, que busca crear memoria disponible de antemano, está inevitablemente sujeta a una severa pérdida de información. Para abordar esta limitación, proponemos un marco novedoso llamado memoria agéntica general (GAM, por sus siglas en inglés). GAM sigue el principio de "compilación justo a tiempo (JIT)", donde se enfoca en crear contextos optimizados para su cliente en tiempo de ejecución, manteniendo únicamente una memoria simple pero útil durante la etapa fuera de línea. Para lograr esto, GAM emplea un diseño dual con los siguientes componentes: 1) Memorizador, que resalta información histórica clave utilizando una memoria ligera, mientras mantiene la información histórica completa dentro de un almacén de páginas universal. 2) Investigador, que recupera e integra información útil del almacén de páginas para sus solicitudes en línea, guiado por la memoria preconstruida. Este diseño permite a GAM aprovechar eficazmente las capacidades agénticas y la escalabilidad en tiempo de prueba de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) de vanguardia, al mismo tiempo que facilita la optimización del rendimiento de extremo a extremo mediante el aprendizaje por refuerzo. En nuestro estudio experimental, demostramos que GAM logra una mejora sustancial en diversos escenarios de finalización de tareas basadas en memoria en comparación con los sistemas de memoria existentes.
Los humanos se adaptan naturalmente a entornos diversos aprendiendo reglas subyacentes en mundos con dinámicas, observaciones y estructuras de recompensa diferentes. En contraste, los agentes existentes suelen demostrar mejoras mediante la autoevolución dentro de un único dominio, asumiendo implícitamente una distribución fija del entorno. El aprendizaje cruzado entre entornos ha permanecido en gran medida sin medir: no existe una colección estándar de entornos heterogéneos y controlables, ni una forma unificada de representar cómo aprenden los agentes. Abordamos estas brechas en dos pasos. Primero, proponemos AutoEnv, un marco automatizado que trata los entornos como distribuciones factorizables sobre transiciones, observaciones y recompensas, permitiendo la generación de bajo costo (4.12 USD en promedio) de mundos heterogéneos. Utilizando AutoEnv, construimos AutoEnv-36, un conjunto de datos de 36 entornos con 358 niveles validados, en el cual siete modelos de lenguaje alcanzan una recompensa normalizada del 12-49%, demostrando el desafío que representa AutoEnv-36. Segundo, formalizamos el aprendizaje del agente como un proceso centrado en componentes impulsado por tres etapas de Selección, Optimización y Evaluación aplicadas a un componente del agente mejorable. Usando esta formulación, diseñamos ocho métodos de aprendizaje y los evaluamos en AutoEnv-36. Empíricamente, la ganancia de cualquier método de aprendizaje individual disminuye rápidamente a medida que aumenta el número de entornos, revelando que los métodos de aprendizaje fijos no escalan en entornos heterogéneos. La selección adaptativa al entorno de los métodos de aprendizaje mejora sustancialmente el rendimiento, pero exhibe rendimientos decrecientes a medida que se expande el espacio de métodos. Estos resultados destacan tanto la necesidad como las limitaciones actuales del aprendizaje de agentes para una generalización escalable entre entornos, y posicionan a AutoEnv y AutoEnv-36 como un banco de pruebas para estudiar el aprendizaje de agentes en entornos cruzados. El código está disponible en https://github.com/FoundationAgents/AutoEnv.
La difusión en píxeles tiene como objetivo generar imágenes directamente en el espacio de píxeles de manera extremo a extremo. Este enfoque evita las limitaciones del VAE en la difusión latente en dos etapas, ofreciendo una mayor capacidad del modelo. Los modelos existentes de difusión en píxeles adolecen de un entrenamiento e inferencia lentos, ya que suelen modelar tanto señales de alta frecuencia como semántica de baja frecuencia dentro de un único transformador de difusión (DiT). Para lograr un paradigma de difusión en píxeles más eficiente, proponemos el marco de difusión en píxeles con Desacoplamiento de Frecuencias (DeCo). Con la intuición de desacoplar la generación de componentes de alta y baja frecuencia, aprovechamos un decodificador de píxeles ligero para generar detalles de alta frecuencia condicionados por la guía semántica del DiT. Esto libera al DiT para especializarse en modelar la semántica de baja frecuencia. Adicionalmente, introducimos una pérdida de correspondencia de flujo consciente de la frecuencia que enfatiza las frecuencias visualmente salientessuprimiendo las insignificantes. Experimentos exhaustivos muestran que DeCo logra un rendimiento superior entre los modelos de difusión en píxeles, alcanzando un FID de 1.62 (256x256) y 2.22 (512x512) en ImageNet, cerrando la brecha con los métodos de difusión latente. Además, nuestro modelo preentrenado de texto a imagen alcanza una puntuación general líder de 0.86 en GenEval en comparación a nivel de sistema. Los códigos están disponibles públicamente en https://github.com/Zehong-Ma/DeCo.
Los modelos de investigación profunda realizan investigaciones multi-etapa para producir respuestas extensas y bien atribuidas. Sin embargo, la mayoría de los modelos abiertos de investigación profunda se entrenan en tareas de preguntas y respuestas (QA) de formato corto y fácilmente verificables mediante aprendizaje por refuerzo con recompensas verificables (RLVR), lo cual no se extiende a tareas realistas de formato largo. Abordamos este problema con el Aprendizaje por Refuerzo con Rúbricas Evolutivas (RLER), mediante el cual construimos y mantenemos rúbricas que co-evolucionan con el modelo de política durante el entrenamiento; esto permite que las rúbricas incorporen información que el modelo ha explorado recientemente y proporcionen retroalimentación discriminativa y *on-policy*. Utilizando RLER, desarrollamos Deep Research Tulu (DR Tulu-8B), el primer modelo abierto entrenado directamente para la investigación profunda de formato largo y de final abierto. En cuatro benchmarks de investigación profunda de formato largo en los dominios de ciencia, salud y conocimiento general, DR Tulu supera sustancialmente a los modelos abiertos de investigación profunda existentes, y iguala o supera a los sistemas propietarios de investigación profunda, siendo significativamente más pequeño y económico por consulta. Para facilitar la investigación futura, publicamos todos los datos, modelos y código, incluyendo nuestra nueva infraestructura de agentes basada en MCP para sistemas de investigación profunda.
Los agentes de uso informático (CUA) son cada vez más capaces de operar autónomamente en entornos digitales a través de interfaces gráficas de usuario (GUI). Sin embargo, la mayoría de las GUI siguen diseñadas principalmente para humanos—priorizando la estética y la usabilidad—lo que obliga a los agentes a adoptar comportamientos orientados a humanos que son innecesarios para una ejecución eficiente de tareas. Al mismo tiempo, los rápidos avances en modelos de lenguaje orientados a codificación (Coder) han transformado el diseño automático de GUI. Esto plantea una pregunta fundamental: ¿Pueden los CUA actuar como jueces para asistir a los Coder en el diseño automático de GUI? Para investigarlo, presentamos AUI-Gym, un benchmark para el desarrollo automático de GUI que abarca 52 aplicaciones en diversos dominios. Utilizando modelos de lenguaje, sintetizamos 1560 tareas que simulan escenarios del mundo real. Para garantizar la fiabilidad de las tareas, desarrollamos además un verificador que comprueba programáticamente si cada tarea es ejecutable dentro de su entorno. Sobre esta base, proponemos un marco de Colaboración Coder-CUA: el Coder actúa como Diseñador, generando y revisando sitios web, mientras que el CUA sirve como Juez, evaluando la funcionalidad y refinando diseños. El éxito se mide no por la apariencia visual, sino por la capacidad de resolución de tareas y la tasa de éxito de navegación del CUA. Para convertir la retroalimentación del CUA en guías utilizables, diseñamos un Panel de Control del CUA que comprime historiales de navegación multi-paso en resúmenes visuales concisos, ofreciendo orientación interpretable para rediseños iterativos. Al posicionar a los agentes tanto como diseñadores como jueces, nuestro marco desplaza el diseño de interfaces hacia la eficiencia y fiabilidad nativa para agentes. Nuestro trabajo da un paso hacia el cambio de los agentes de un uso pasivo a una participación activa en entornos digitales. Nuestro código y dataset están disponibles en https://github.com/showlab/AUI.
Los transformadores de difusión han logrado recientemente una sólida generación de texto a imagen en resoluciones alrededor de 1K, pero demostramos que extenderlos de forma nativa a 4K en diversos ratios de aspecto (AR) expone un modo de fallo estrechamente acoplado que abarca la codificación posicional, la compresión VAE y la optimización. Abordar cualquiera de estos factores de forma aislada deja un potencial de calidad sustancial sobre la mesa. Por lo tanto, adoptamos una perspectiva de co-diseño de datos y modelo e introducimos UltraFlux, un DiT basado en Flux entrenado de forma nativa a 4K en MultiAspect-4K-1M, un corpus de 1 millón de imágenes en 4K con cobertura multi-AR controlada, subtítulos bilingües y metadatos ricos de VLM/IQA para un muestreo consciente de la resolución y el AR. En el lado del modelo, UltraFlux combina (i) Resonance 2D RoPE con YaRN para una codificación posicional a 4K consciente de la ventana de entrenamiento, la frecuencia y el AR; (ii) un esquema simple y no adversarial de post-entrenamiento del VAE que mejora la fidelidad de reconstrucción en 4K; (iii) una función de pérdida SNR-Aware Huber Wavelet que reequilibra los gradientes a lo largo de los pasos de tiempo y las bandas de frecuencia; y (iv) una estrategia de Aprendizaje por Currículo Estético por Etapas que concentra la supervisión de alta estética en los pasos de alto ruido gobernados por el *prior* del modelo. En conjunto, estos componentes producen un DiT 4K estable y que preserva el detalle, generalizando a través de AR anchos, cuadrados y verticales. En el benchmark Aesthetic-Eval a 4096 y en configuraciones multi-AR 4K, UltraFlux supera consistentemente a fuertes *baselines* de código abierto en métricas de fidelidad, estética y alineación, y—con un refinador de prompts basado en un LLM—igual o supera al modelo propietario Seedream 4.0.
Los modelos generativos de video a gran escala han demostrado recientemente una gran capacidad visual, permitiendo la predicción de fotogramas futuros que se ajustan a las pistas lógicas y físicas de la observación actual. En este trabajo, investigamos si dichas capacidades pueden aprovecharse para la generación controlada de imagen a video interpretando las señales visuales incrustadas en los fotogramas como instrucciones, un paradigma que denominamos Instrucción en Video. A diferencia del control basado en texto, que proporciona descripciones inherentemente globales y generales, la Instrucción en Video codifica la guía del usuario directamente en el dominio visual mediante elementos como texto superpuesto, flechas o trayectorias. Esto permite correspondencias explícitas, espacialmente conscientes y no ambiguas entre los sujetos visuales y sus acciones deseadas, al asignar instrucciones distintas a objetos diferentes. Experimentos exhaustivos en tres generadores de última generación, incluidos Veo 3.1, Kling 2.5 y Wan 2.2, muestran que los modelos de video pueden interpretar y ejecutar de manera confiable dichas instrucciones visualmente incrustadas, particularmente en escenarios complejos con múltiples objetos.
Una función de recompensa confiable es esencial para el aprendizaje por refuerzo (RL) en la generación de imágenes. La mayoría de los enfoques actuales de RL dependen de modelos de preferencia preentrenados que generan recompensas escalares para aproximar las preferencias humanas. Sin embargo, estas recompensas a menudo no logran capturar la percepción humana y son vulnerables a la manipulación de recompensas (*reward hacking*), donde puntuaciones más altas no se corresponden con imágenes mejores. Para abordar esto, presentamos Adv-GRPO, un marco de RL con una recompensa adversarial que actualiza iterativamente tanto el modelo de recompensa como el generador. El modelo de recompensa se supervisa utilizando imágenes de referencia como muestras positivas y puede evitar en gran medida ser manipulado. A diferencia de la regularización KL que restringe las actualizaciones de parámetros, nuestra recompensa aprendida guía directamente al generador a través de sus salidas visuales, lo que conduce a imágenes de mayor calidad. Además, si bien optimizar las funciones de recompensa existentes puede aliviar la manipulación de recompensas, sus sesgos inherentes persisten. Por ejemplo, PickScore puede degradar la calidad de la imagen, mientras que las recompensas basadas en OCR a menudo reducen la fidelidad estética. Para abordar esto, tomamos la imagen en sí como una recompensa, utilizando imágenes de referencia y modelos fundacionales de visión (por ejemplo, DINO) para proporcionar recompensas visuales ricas. Estas señales visuales densas, en lugar de un único escalar, conducen a mejoras consistentes en la calidad de la imagen, la estética y las métricas específicas de la tarea. Finalmente, demostramos que combinar muestras de referencia con recompensas de modelos fundacionales permite la transferencia de distribución y la personalización flexible de estilos. En evaluaciones humanas, nuestro método supera a Flow-GRPO y SD3, logrando tasas de preferencia del 70.0% y 72.4% en calidad de imagen y estética, respectivamente. El código y los modelos han sido publicados.
Los Modelos de Lenguaje-Visión (VLMs) sobresalen en el razonamiento dentro del espacio lingüístico, pero presentan dificultades con la comprensión perceptiva que requiere una percepción visual densa, por ejemplo, el razonamiento espacial y la conciencia geométrica. Esta limitación surge del hecho de que los VLMs actuales tienen mecanismos limitados para capturar información visual densa a través de las dimensiones espaciales. Introducimos Cadena-de-Pensamiento-Visual (COVT), un marco que permite a los VLMs razonar no solo en palabras sino también a través de tokens visuales continuos: representaciones latentes compactas que codifican ricas señales perceptivas. Dentro de un presupuesto reducido de aproximadamente 20 tokens, COVT destila conocimiento de expertos de visión ligeros, capturando propiedades complementarias como la apariencia 2D, la geometría 3D, la disposición espacial y la estructura de bordes. Durante el entrenamiento, el VLM con COVT predice de forma autoregresiva estos tokens visuales para reconstruir señales de supervisión densa (por ejemplo, profundidad, segmentación, bordes y características DINO). En la inferencia, el modelo razona directamente en el espacio continuo de tokens visuales, preservando la eficiencia mientras opcionalmente decodifica predicciones densas para lograr interpretabilidad. Evaluado en más de diez benchmarks de percepción diversos, incluyendo CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA y HRBench, la integración de COVT en VLMs sólidos como Qwen2.5-VL y LLaVA mejora consistentemente el rendimiento entre un 3% y un 16%, y demuestra que el pensamiento visual continuo y compacto permite una inteligencia multimodal más precisa, fundamentada e interpretable.
El escalado del cómputo en tiempo de prueba mejora el rendimiento en diversas tareas de los modelos de lenguaje grandes (LLMs), una ventaja que se ha extendido a los agentes aumentados con herramientas. Para estos agentes, el escalado implica no solo "pensar" en tokens, sino también "actuar" mediante llamadas a herramientas. El número de llamadas a herramientas delimita directamente la interacción del agente con el entorno externo. Sin embargo, encontramos que simplemente otorgar a los agentes un presupuesto mayor de llamadas a herramientas no mejora el rendimiento, ya que carecen de "conciencia del presupuesto" y rápidamente alcanzan un límite de desempeño. Para abordar esto, estudiamos cómo escalar dichos agentes de manera efectiva bajo presupuestos explícitos de llamadas a herramientas, centrándonos en agentes de búsqueda web. Primero presentamos el Rastreador de Presupuesto, un complemento ligero que proporciona al agente una conciencia continua del presupuesto, permitiendo un escalado simple pero efectivo. Desarrollamos además BATS (Escalado en Tiempo de Prueba con Conciencia del Presupuesto), un marco avanzado que aprovecha esta conciencia para adaptar dinámicamente su estrategia de planificación y verificación, decidiendo si "profundizar" en una pista prometedora o "cambiar" a nuevas rutas en función de los recursos restantes. Para analizar el escalado costo-rendimiento de manera controlada, formalizamos una métrica de costo unificada que considera conjuntamente el consumo de tokens y herramientas. Realizamos el primer estudio sistemático sobre agentes con restricciones presupuestarias, demostrando que los métodos con conciencia del presupuesto producen curvas de escalado más favorables y desplazan la frontera de Pareto de costo-rendimiento. Nuestro trabajo ofrece perspectivas empíricas hacia una comprensión más transparente y fundamentada del escalado en agentes aumentados con herramientas.
Presentamos HunyuanVideo 1.5, un modelo de generación de vídeo de código abierto, ligero pero potente, que logra una calidad visual y coherencia de movimiento de vanguardia con solo 8.3 mil millones de parámetros, permitiendo una inferencia eficiente en GPUs de grado consumidor. Este logro se basa en varios componentes clave, que incluyen una meticulosa curación de datos, una arquitectura DiT avanzada que incorpora atención selectiva y deslizante por mosaicos (SSTA), una comprensión bilingüe mejorada mediante codificación de texto sensible a glifos, pre-entrenamiento y post-entrenamiento progresivos, y una red eficiente de super-resolución de vídeo. Aprovechando estos diseños, hemos desarrollado un marco unificado capaz de generar vídeos de alta calidad a partir de texto y a partir de imágenes, en múltiples duraciones y resoluciones. Extensos experimentos demuestran que este modelo compacto y competente establece un nuevo estado del arte entre los modelos de generación de vídeo de código abierto. Al publicar el código y los pesos del modelo, proporcionamos a la comunidad una base de alto rendimiento que reduce la barrera de entrada para la creación e investigación de vídeos, haciendo que la generación avanzada de vídeos sea accesible para un público más amplio. Todos los recursos de código abierto están disponibles públicamente en https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
La radiología desempeña un papel integral en la medicina moderna, pero el creciente volumen de estudios de imagen ha superado con creces el crecimiento de la fuerza laboral. Los modelos fundacionales ofrecen un camino para asistir en todo el espectro de tareas radiológicas, pero los modelos médicos existentes siguen siendo limitados: procesan las tomografías computarizadas (TC) y resonancias magnéticas (RM) volumétricas como cortes 2D de baja fidelidad, descartan información crítica de contraste en escala de grises y carecen de marcos de evaluación que reflejen la práctica clínica real. Presentamos Pillar-0, un modelo fundacional para radiología preentrenado con 42,990 TC de abdomen-pelvis, 86,411 TC de tórax, 14,348 TC de cráneo y 11,543 RM de mama de un gran centro académico, junto con RATE, un marco escalable que extrae etiquetas estructuradas para 366 hallazgos radiológicos con una precisión casi perfecta utilizando modelos de lenguaje grande (LLM). En conjuntos de prueba internos de 14,230 TC de abdomen-pelvis, 10,646 TC de tórax, 4,906 TC de cráneo y 1,585 RM de mama, Pillar-0 establece una nueva frontera de rendimiento, logrando AUROC promedio de 86.4, 88.0, 90.1 y 82.9, superando a MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) y Merlin (Stanford) por 7.8-15.8 puntos de AUROC y clasificando como el mejor en el 87.2% (319/366) de las tareas. Pillar-0 supera de manera similar a todos los modelos de referencia en una validación externa con el conjunto de datos Stanford Abdominal CT, incluido Merlin (82.2 vs 80.6 AUROC). Pillar-0 se extiende a tareas más allá de su preentrenamiento, como la predicción de riesgo de cáncer de pulmón a largo plazo, donde mejora el estado del arte de Sybil en 3.0 puntos de índice C en el NLST, y se generaliza con ganancias de 5.9 (MGH) y 1.9 (CGMH). En la detección de hemorragia cerebral, Pillar-0 obtuvo un AUROC >95 utilizando solo 1/20 de los datos del siguiente modelo de referencia más eficiente en muestras. Pillar-0 y RATE juntos proporcionan una base abierta y clínicamente rigurosa para construir sistemas radiológicos de alto rendimiento, permitiendo aplicaciones que antes eran inviables debido a limitaciones computacionales, de datos y de evaluación.
Los sistemas multiagente demuestran un buen rendimiento en tareas de razonamiento general. Sin embargo, la falta de entrenamiento en áreas especializadas limita su precisión. Los métodos de entrenamiento actuales utilizan un único modelo de lenguaje grande (LLM) unificado para todos los agentes del sistema. Esto puede limitar el rendimiento debido a las diferentes distribuciones subyacentes para cada agente. Por lo tanto, el siguiente paso a resolver es entrenar sistemas multiagente con LLMs distintos. No obstante, este enfoque introduce desafíos de optimización. Por ejemplo, los agentes operan a diferentes frecuencias, las ejecuciones implican invocaciones variables de subagentes, y los agentes suelen desplegarse en servidores separados, lo que interrumpe el flujo de gradientes de extremo a extremo. Para abordar estos problemas, proponemos M-GRPO, una extensión jerárquica de la Optimización de Políticas Relativas de Grupo diseñada para sistemas multiagente verticales con un agente principal (planificador) y múltiples subagentes (ejecutores de herramientas multi-turno). M-GRPO calcula ventajas relativas de grupo tanto para el agente principal como para los subagentes, manteniendo una asignación de crédito jerárquica. También introduce un esquema de alineación de trayectorias que genera lotes de tamaño fijo a pesar de las invocaciones variables de subagentes. Desplegamos una canalización de entrenamiento desacoplada en la que los agentes se ejecutan en servidores separados e intercambian estadísticas mínimas mediante un almacén compartido. Esto permite un entrenamiento escalable sin retropropagación entre servidores. En experimentos con benchmarks del mundo real (por ejemplo, GAIA, XBench-DeepSearch y WebWalkerQA), M-GRPO supera consistentemente tanto al GRPO de agente único como al GRPO multiagente con subagentes congelados, demostrando una mayor estabilidad y eficiencia muestral. Estos resultados muestran que alinear trayectorias heterogéneas y desacoplar la optimización entre agentes especializados mejora las tareas de razonamiento aumentado con herramientas.
Presentamos M^3-Bench, el primer benchmark para evaluar el uso de herramientas multimodales bajo el Protocolo de Contexto del Modelo (MCP). El benchmark se centra en flujos de trabajo realistas, de múltiples saltos y multi-hilo, que requieren anclaje visual y razonamiento textual, dependencias cruzadas entre herramientas y persistencia de recursos intermedios a lo largo de los pasos. Introducimos una alineación basada en similitud que serializa cada llamada a una herramienta, incrusta las firmas con un codificador de oraciones y realiza un emparejamiento húngaro agrupado por similitud para obtener correspondencias auditables uno a uno. Sobre esta alineación, reportamos métricas interpretables que desacoplan la fidelidad semántica de la consistencia del flujo de trabajo. El benchmark abarca 28 servidores con 231 herramientas y proporciona trayectorias estandarizadas curadas mediante una canalización de Ejecutor y Juez con verificación humana; un conjunto auxiliar de cuatro modelos de lenguaje grandes (LLMs) como jueces reporta la Finalización de la Tarea y el anclaje de información de la tarea final. Las evaluaciones de modelos de lenguaje multimodal (MLLMs) representativos del estado del arte revelan brechas persistentes en el uso de herramientas MCP multimodales, particularmente en la fidelidad de los argumentos y la consistencia estructural, subrayando la necesidad de métodos que razonen conjuntamente sobre imágenes, texto y grafos de herramientas. El repositorio anónimo de nuestro Benchmark se encuentra en https://github.com/EtaYang10th/Open-M3-Bench.
Los Transformadores de Difusión han demostrado capacidades notables en síntesis visual, pero a menudo presentan dificultades en el razonamiento semántico de alto nivel y la planificación de largo alcance. Esta limitación frecuentemente genera alucinaciones visuales y desalineaciones con las instrucciones del usuario, especialmente en escenarios que involucran comprensión de escenas complejas, interacciones humano-objeto, acciones multi-etapa y razonamiento de movimiento en contexto. Para abordar estos desafíos, proponemos Plan-X, un marco que aplica explícitamente planificación semántica de alto nivel para guiar el proceso de generación de videos. En su núcleo se encuentra un Planificador Semántico, un modelo de lenguaje multimodal entrenable que razona sobre la intención del usuario a partir de indicaciones de texto y contexto visual, y genera autoregresivamente una secuencia de tokens semánticos espacio-temporales anclados en texto. Estos tokens semánticos, complementarios a la guía de alto nivel del texto, sirven como "bocetos semánticos" estructurados a lo largo del tiempo para el modelo de difusión de video, que posee fortalezas en sintetizar detalles visuales de alta fidelidad. Plan-X integra efectivamente la capacidad de los modelos de lenguaje en razonamiento y planificación multimodal en contexto, junto con la capacidad de los modelos de difusión en síntesis de video fotorrealista. Experimentos exhaustivos demuestran que nuestro marco reduce sustancialmente las alucinaciones visuales y permite una generación de video de grano fino, alineada con las instrucciones y consistente con el contexto multimodal.
Presentamos One4D, un marco unificado para la generación y reconstrucción 4D que produce contenido 4D dinámico en forma de fotogramas RGB y mapas de puntos sincronizados. Al manejar de forma consistente las diferentes dispersiones de los fotogramas de condicionamiento mediante un mecanismo de Condicionamiento Enmascarado Unificado (UMC), One4D puede transitar sin problemas entre la generación 4D a partir de una sola imagen, la reconstrucción 4D a partir de un vídeo completo, y la generación y reconstrucción mixta a partir de fotogramas dispersos. Nuestro marco adapta un potente modelo de generación de vídeo para la generación conjunta de RGB y mapas de puntos, con arquitecturas de red cuidadosamente diseñadas. Las estrategias de ajuste fino por difusión comúnmente utilizadas para la reconstrucción de mapas de profundidad o de puntos a menudo fallan en la generación conjunta de RGB y mapas de puntos, degradando rápidamente el modelo de vídeo base. Para abordar este desafío, introducimos el Control LoRA Desacoplado (DLC), que emplea dos adaptadores LoRA específicos por modalidad para formar ramas de cálculo desacopladas para fotogramas RGB y mapas de puntos, conectadas por enlaces de control ligeros e inicializados a cero que aprenden gradualmente una consistencia mutua a nivel de píxel. Entrenado con una mezcla de conjuntos de datos 4D sintéticos y reales bajo presupuestos computacionales modestos, One4D produce fotogramas RGB de alta calidad y mapas de puntos precisos tanto en tareas de generación como de reconstrucción. Este trabajo representa un paso hacia el modelado general del mundo 4D basado en geometría de alta calidad utilizando modelos de difusión de vídeo. Página del proyecto: https://mizhenxing.github.io/One4D
La respuesta de preguntas de opción múltiple (MCQA) ha sido un formato popular para evaluar y realizar el ajuste fino por refuerzo (RFT) de los modelos lingüísticos multimodales modernos. Su formato de salida restringido permite una verificación automática determinista y simplificada. Sin embargo, encontramos que las opciones pueden filtrar señales explotables, lo que hace que las métricas de precisión sean poco fiables para indicar capacidades reales y fomenta comportamientos de adivinación explícitos o implícitos durante el RFT. Proponemos ReVeL (Reescritura y Verificación por LLM), un marco que reescribe preguntas de opción múltiple en preguntas de formato abierto manteniendo las respuestas verificables siempre que sea posible. El marco categoriza las preguntas según diferentes tipos de respuesta y aplica esquemas de reescritura y verificación distintos, respectivamente. Al aplicarlo para RFT, convertimos 20k ejemplos de MCQA y utilizamos GRPO para ajustar los modelos Qwen2.5-VL. Los modelos entrenados con ReVeL-OpenQA igualan la precisión de MCQA en benchmarks de opción múltiple y mejoran la precisión en OpenQA en aproximadamente seis puntos porcentuales, lo que indica una mejor eficiencia de datos y señales de recompensa más robustas que el entrenamiento basado en MCQA. Cuando se utiliza para evaluación, ReVeL también revela hasta 20 puntos porcentuales de inflación en las puntuaciones de los benchmarks de MCQA (en relación con OpenQA), mejora la precisión del juicio y reduce tanto el coste como la latencia. Publicaremos el código y los datos de forma pública.
Proponemos un enfoque completamente basado en datos para diseñar estimadores de información mutua (MI). Dado que cualquier estimador de MI es una función de la muestra observada de dos variables aleatorias, parametrizamos esta función con una red neuronal (MIST) y la entrenamos de extremo a extremo para predecir valores de MI. El entrenamiento se realiza sobre un gran meta-conjunto de datos de 625,000 distribuciones conjuntas sintéticas con MI de valor real conocido. Para manejar tamaños de muestra y dimensiones variables, empleamos un esquema de atención bidimensional que garantiza invariancia a permutaciones en las muestras de entrada. Para cuantificar la incertidumbre, optimizamos una función de pérdida de regresión cuantílica, permitiendo que el estimador aproxime la distribución muestral del MI en lugar de devolver una única estimación puntual. Este programa de investigación se aparta de trabajos previos al tomar una ruta completamente empírica, intercambiando garantías teóricas universales por flexibilidad y eficiencia. Empíricamente, los estimadores aprendidos superan ampliamente a los métodos clásicos de referencia en todos los tamaños de muestra y dimensiones, incluso en distribuciones conjuntas no vistas durante el entrenamiento. Los intervalos basados en cuantiles resultantes están bien calibrados y son más confiables que los intervalos de confianza basados en *bootstrap*, mientras que la inferencia es órdenes de magnitud más rápida que en los métodos neuronales de referencia existentes. Más allá de las ganancias empíricas inmediatas, este marco produce estimadores entrenables y completamente diferenciables que pueden integrarse en pipelines de aprendizaje más grandes. Además, explotando la invariancia del MI a transformaciones invertibles, los meta-conjuntos de datos pueden adaptarse a modalidades de datos arbitrarias mediante *normalizing flows*, permitiendo un entrenamiento flexible para diversas meta-distribuciones objetivo.
Este trabajo presenta la Descomposición Controlable de Capas (CLD), un método para lograr una separación multicapa de imágenes rasterizadas con granularidad fina y controlable. En los flujos de trabajo prácticos, los diseñadores normalmente generan y editan cada capa RGBA de forma independiente antes de componerlas en una imagen rasterizada final. Sin embargo, este proceso es irreversible: una vez compuestas, la edición a nivel de capa ya no es posible. Los métodos existentes suelen basarse en *matting* y restauración de imágenes, pero siguen siendo limitados en cuanto a controlabilidad y precisión de segmentación. Para abordar estos desafíos, proponemos dos módulos clave: LayerDecompose-DiT (LD-DiT), que desacopla los elementos de la imagen en capas distintas y permite un control de grano fino; y el Adaptador Condicional Multicapa (MLCA), que inyecta información de la imagen objetivo en tokens multicapa para lograr una generación condicional precisa. Para permitir una evaluación integral, construimos un nuevo benchmark e introducimos métricas de evaluación específicas. Los resultados experimentales muestran que CLD supera consistentemente a los métodos existentes tanto en calidad de descomposición como en controlabilidad. Además, las capas separadas producidas por CLD pueden manipularse directamente en herramientas de diseño de uso común, como PowerPoint, lo que subraya su valor práctico y aplicabilidad en flujos de trabajo creativos del mundo real.
Si bien la calidad de los datos web es crucial para los modelos de lenguaje a gran escala, la mayoría de los esfuerzos de curación se centran en el filtrado y la deduplicación, tratando la extracción de HTML a texto como un paso de preprocesamiento fijo. Los corpus web existentes dependen de extractores basados en heurísticas como Trafilatura, que tienen dificultades para preservar la estructura del documento y frecuentemente corrompen elementos estructurados como fórmulas, códigos y tablas. Nuestra hipótesis es que mejorar la calidad de la extracción puede ser tan impactante como las estrategias de filtrado agresivo para el rendimiento posterior. Presentamos MinerU-HTML, una novedosa canalización de extracción que reformula la extracción de contenido como un problema de etiquetado de secuencias resuelto por un modelo de lenguaje de 0.600 millones de parámetros. A diferencia de las heurísticas de densidad de texto, MinerU-HTML aprovecha la comprensión semántica y emplea una canalización de formato de dos etapas que categoriza explícitamente los elementos semánticos antes de convertirlos a Markdown. Crucialmente, su enfoque basado en modelos es inherentemente escalable, mientras que los métodos heurísticos ofrecen vías de mejora limitadas. En MainWebBench, nuestro benchmark de 7.887 páginas web anotadas, MinerU-HTML alcanza un 81,8% de F1 ROUGE-N en comparación con el 63,6% de Trafilatura, con una preservación excepcional de elementos estructurados (90,9% para bloques de código, 94,0% para fórmulas). Utilizando MinerU-HTML, construimos AICC (Common Crawl listo para IA), un corpus multilingüe de 7,3 billones de tokens a partir de dos instantáneas de Common Crawl. En experimentos controlados de preentrenamiento donde AICC y TfCC (extraído con Trafilatura) se someten al mismo filtrado, los modelos entrenados con AICC (62B tokens) logran un 50,8% de precisión promedio en 13 benchmarks, superando a TfCC por 1,08 puntos porcentuales, lo que proporciona evidencia directa de que la calidad de la extracción impacta significativamente las capacidades del modelo. AICC también supera a RefinedWeb y FineWeb en benchmarks clave. Publicamos públicamente MainWebBench, MinerU-HTML y AICC, demostrando que la extracción de HTML es un componente crítico y a menudo subestimado en la construcción de corpus web.
La búsqueda de información es una capacidad fundamental para los agentes de IA, que requiere que recopilen y razonen sobre información generada por herramientas a lo largo de trayectorias extensas. Sin embargo, estas tareas de búsqueda de información de múltiples pasos siguen siendo un desafío para los agentes respaldados por modelos de lenguaje. Si bien los modelos de recompensa de proceso (PRM) pueden guiar a los agentes clasificando los pasos candidatos durante la prueba, los PRM existentes, diseñados para razonamientos cortos con juicios binarios, no pueden capturar dimensiones más ricas de los pasos de búsqueda de información, como las interacciones con herramientas y el razonamiento sobre sus resultados, ni manejar el contexto de rápido crecimiento en tareas de largo horizonte. Para abordar estas limitaciones, presentamos PRInTS, un PRM generativo entrenado con capacidades duales: (1) puntuación densa basada en el razonamiento del PRM a través de múltiples dimensiones de calidad de los pasos (por ejemplo, interpretación de los resultados de las herramientas, informatividad de la llamada a la herramienta) y (2) resumen de trayectorias que comprime el contexto en crecimiento preservando la información esencial para la evaluación de pasos. Evaluaciones exhaustivas en los puntos de referencia FRAMES, GAIA (niveles 1-3) y WebWalkerQA (fácil-difícil) con múltiples modelos, junto con ablaciones, revelan que el muestreo del mejor de n con PRInTS mejora las capacidades de búsqueda de información de modelos de código abierto y de agentes especializados, igualando o superando el rendimiento de modelos frontera con un agente base mucho más pequeño y superando a otras líneas base sólidas de modelado de recompensas.
Presentamos Upsample Anything, un marco de optimización en tiempo de prueba (TTO) ligero que restaura características de baja resolución a salidas de alta resolución a nivel de píxel, sin necesidad de entrenamiento alguno. Aunque los Modelos Fundacionales de Visión demuestran una fuerte generalización en diversas tareas descendentes, sus representaciones suelen ser submuestreadas por 14x/16x (por ejemplo, ViT), lo que limita su uso directo en aplicaciones a nivel de píxel. Los enfoques existentes de sobremuestreo de características dependen de reentrenamiento específico por conjunto de datos o de una optimización implícita pesada, lo que restringe la escalabilidad y la generalización. Upsample Anything aborda estos problemas mediante una simple optimización por imagen que aprende un núcleo gaussiano anisotrópico que combina pistas espaciales y de rango, conectando efectivamente el Gaussian Splatting y el Sobremuestreo Bilateral Conjunto. El núcleo aprendido actúa como un operador universal y consciente de los bordes que se transfiere sin problemas entre arquitecturas y modalidades, permitiendo una reconstrucción precisa de alta resolución de características, mapas de profundidad o mapas de probabilidad. Se ejecuta en solo aprox. 0.419 s por imagen de 224x224 y logra un rendimiento de vanguardia en segmentación semántica, estimación de profundidad y sobremuestreo tanto de mapas de profundidad como de probabilidad. Página del proyecto: https://seominseok0429.github.io/Upsample-Anything/
Los Modelos de Lenguaje Visual (VLM) tienen un buen rendimiento en tareas de video estándar, pero presentan dificultades en el razonamiento basado en la física que involucra dinámicas de movimiento e interacciones espaciales. Esta limitación reduce su capacidad para interpretar videos de contenido real o generado por IA (AIGC) y para generar contenido físicamente coherente. Presentamos un enfoque que aborda esta brecha traduciendo las claves contextuales del mundo físico en representaciones interpretables alineadas con la percepción, comprensión y razonamiento de los VLM. Introducimos MASS-Bench, un benchmark integral que consta de 4.350 videos del mundo real y AIGC, y 8.361 pares de preguntas y respuestas de video de formato libre centrados en tareas de comprensión relacionadas con la física, con anotaciones detalladas que incluyen detecciones visuales, anclaje de subsegmentos y seguimiento de movimiento 3D de entidades en secuencias completas. Además, presentamos MASS, un método agnóstico al modelo que inyecta señales espacio-temporales en el espacio lingüístico del VLM mediante codificación 3D basada en profundidad y anclaje visual, junto con un rastreador de movimiento para las dinámicas de los objetos. Para fortalecer la alineación y el razonamiento multimodal, aplicamos un ajuste fino por refuerzo. Los experimentos y ablaciones muestran que nuestros VLM refinados superan a líneas base comparables y más grandes, así como a modelos anteriores de última generación, en un 8.7% y 6.0%, logrando un rendimiento comparable al de VLM de última generación de código cerrado como Gemini-2.5-Flash en razonamiento y comprensión física. Estos resultados validan la efectividad de nuestro enfoque.
La manipulación robótica de horizonte largo sigue siendo un desafío para los modelos Visión-Lenguaje-Acción (VLA) a pesar de los recientes avances en generalización zero-shot y transferencia simulación-mundo real. Los modelos VLA actuales sufren de alucinación de etapas, donde los agentes explotan señales de evaluación gruesas para tomar atajos en tareas multi-etapa, reportando un alto progreso sin completarlas verdaderamente. Presentamos EvoVLA, un marco VLA auto-supervisado que aborda este problema mediante tres componentes complementarios: Recompensa Alineada por Etapas (SAR), que utiliza aprendizaje contrastivo con tripletas y ejemplos negativos difíciles generados por Gemini para prevenir atajos visuales; Exploración de Objetos Basada en Pose (POE), que fundamenta la curiosidad en la pose relativa objeto-pinza en lugar de píxeles en bruto; y Memoria de Horizonte Largo, que utiliza retención selectiva de contexto y fusión con compuerta para estabilizar el modelado intrínseco durante ejecuciones prolongadas. Evaluaciones exhaustivas en Discoverse-L, un benchmark de manipulación de horizonte largo con tres tareas multi-etapa, muestran que EvoVLA mejora el éxito promedio de las tareas en 10.2 puntos porcentuales sobre el baseline más fuerte (OpenVLA-OFT), alcanzando un 69.2 por ciento. EvoVLA también logra una eficiencia muestral una vez y media mejor y reduce la alucinación de etapas del 38.5 por ciento al 14.8 por ciento. El despliegue en el mundo real con robots físicos alcanza una tasa de éxito promedio del 54.6 por ciento en cuatro tareas de manipulación, superando a OpenVLA-OFT por 11 puntos, lo que demuestra una transferencia simulación-real efectiva y una fuerte generalización. Código: https://github.com/AIGeeksGroup/EvoVLA. Sitio web: https://aigeeksgroup.github.io/EvoVLA.
Los modelos de flujo más avanzados logran una calidad notable, pero requieren un muestreo lento e iterativo. Para acelerar este proceso, se pueden destilar mapas de flujo a partir de modelos maestros preentrenados, un procedimiento que convencionalmente requiere muestrear de un conjunto de datos externo. Sostenemos que esta dependencia de los datos introduce un riesgo fundamental de Desajuste Maestro-Datos, ya que un conjunto de datos estático puede proporcionar una representación incompleta o incluso desalineada de las capacidades generativas completas del maestro. Esto nos lleva a cuestionar si esta dependencia de los datos es realmente necesaria para una destilación exitosa de mapas de flujo. En este trabajo, exploramos una alternativa libre de datos que muestrea únicamente de la distribución previa, una distribución que, por construcción, el maestro garantiza seguir, evitando así por completo el riesgo de desajuste. Para demostrar la viabilidad práctica de esta filosofía, introducimos un marco de trabajo fundamentado que aprende a predecir la trayectoria de muestreo del maestro mientras corrige activamente sus propios errores acumulativos para garantizar una alta fidelidad. Nuestro enfoque supera a todas las alternativas basadas en datos y establece un nuevo estado del arte por un margen significativo. Específicamente, al destilar a partir de SiT-XL/2+REPA, nuestro método alcanza un FID impresionante de 1.45 en ImageNet 256x256 y de 1.49 en ImageNet 512x512, ambos con solo 1 paso de muestreo. Esperamos que nuestro trabajo establezca un paradigma más robusto para acelerar modelos generativos y motive la adopción más amplia de la destilación de mapas de flujo sin datos.
Si bien los modelos mundiales recientes generan videos altamente realistas, su capacidad para realizar planificación de trayectorias robóticas sigue siendo poco clara y no cuantificada. Presentamos Target-Bench, el primer benchmark diseñado específicamente para evaluar modelos mundiales en la planificación de trayectorias sin mapas hacia objetivos semánticos en entornos del mundo real. Target-Bench proporciona 450 secuencias de video recopiladas por robots que abarcan 45 categorías semánticas con trayectorias de referencia basadas en SLAM. Nuestra canalización de evaluación recupera el movimiento de la cámara a partir de los videos generados y mide el rendimiento de la planificación utilizando cinco métricas complementarias que cuantifican la capacidad de alcance del objetivo, la precisión de la trayectoria y la consistencia direccional. Evaluamos modelos de última generación, incluidos Sora 2, Veo 3.1 y la serie Wan. El mejor modelo disponible comercialmente (Wan2.2-Flash) alcanza solo una puntuación general de 0.299, revelando limitaciones significativas en los modelos mundiales actuales para tareas de planificación robótica. Demostramos que el ajuste fino de un modelo de código abierto con 5B parámetros en solo 325 escenarios de nuestro conjunto de datos alcanza una puntuación general de 0.345, lo que supone una mejora de más del 400 % sobre su versión base (0.066) y un 15 % más que el mejor modelo comercial. Liberaremos el código y el conjunto de datos como código abierto.
Los modelos de lenguaje de gran tamaño (LLM) se utilizan ampliamente para tareas factuales como "¿Qué trata el asma?" o "¿Cuál es la capital de Letonia?". Sin embargo, aún no está claro cómo codifican de manera estable los LLM las distinciones entre contenido verdadero, falso y ni-verdadero-ni-falso en sus representaciones probabilísticas internas. Introducimos la estabilidad representacional como la robustez de las representaciones de veracidad de un LLM frente a perturbaciones en la definición operativa de verdad. Evaluamos la estabilidad representacional mediante (i) el entrenamiento de un probe lineal sobre las activaciones de un LLM para separar enunciados verdaderos de no verdaderos y (ii) la medición de cómo su frontera de decisión aprendida se desplaza bajo cambios controlados en las etiquetas. Utilizando activaciones de dieciséis modelos de código abierto y tres dominios factuales, comparamos dos tipos de enunciados "ni". Los primeros son afirmaciones de tipo factual sobre entidades que creemos están ausentes de cualquier dato de entrenamiento. Llamamos a estos enunciados "ni" no familiares. Los segundos son afirmaciones no factuales extraídas de contextos ficticios bien conocidos. Llamamos a estos enunciados "ni" familiares. Los enunciados no familiares inducen los mayores desplazamientos de la frontera, produciendo hasta un 40% de juicios de verdad invertidos en dominios frágiles (como definiciones de palabras), mientras que los enunciados ficticios familiares permanecen agrupados de manera más coherente y producen cambios menores (≤ 8.2%). Estos resultados sugieren que la estabilidad representacional proviene más de la familiaridad epistémica que de la forma lingüística. En términos más amplios, nuestro enfoque proporciona un diagnóstico para auditar y entrenar LLM con el fin de preservar asignaciones de verdad coherentes bajo incertidumbre semántica, en lugar de optimizar únicamente para la precisión de la salida.
La generación de Interacción Mano-Objeto (HOI) desempeña un papel crucial en el avance de aplicaciones en animación y robótica. Los métodos actuales basados en video son predominantemente de vista única, lo que impide una percepción geométrica 3D integral y a menudo resulta en distorsiones geométricas o patrones de movimiento poco realistas. Si bien los enfoques de HOI 3D pueden generar movimientos dinámicamente plausibles, su dependencia de datos 3D de alta calidad capturados en entornos de laboratorio controlados limita severamente su generalización a escenarios del mundo real. Para superar estas limitaciones, presentamos SyncMV4D, el primer modelo que genera conjuntamente videos HOI multi-vista sincronizados y movimientos 4D mediante la unificación de conocimiento visual previo, dinámicas de movimiento y geometría multi-vista. Nuestro marco presenta dos innovaciones principales: (1) un modelo de Difusión Conjunta Multi-vista (MJD) que co-genera videos HOI y movimientos intermedios, y (2) un Alineador de Puntos por Difusión (DPA) que refina el movimiento intermedio aproximado en trayectorias de puntos métricos 4D globalmente alineadas. Para acoplar estrechamente la apariencia 2D con la dinámica 4D, establecemos un ciclo cerrado de mejora mutua. Durante el proceso de desruido por difusión, el video generado condiciona el refinamiento del movimiento 4D, mientras que las trayectorias de puntos 4D alineadas se reproyectan para guiar la siguiente generación conjunta. Experimentalmente, nuestro método demuestra un rendimiento superior a las alternativas más avanzadas en realismo visual, plausibilidad de movimiento y consistencia multi-vista.
La fidelidad explicativa, que mide la precisión con que una explicación refleja el razonamiento real de un modelo, sigue estando críticamente poco explorada en los sistemas de recomendación. Presentamos SPINRec (Integración de Trayectorias Estocásticas para Explicaciones de Recomendadores Neuronales), un enfoque agnóstico al modelo que adapta técnicas de integración de trayectorias a la naturaleza dispersa e implícita de los datos de recomendación. Para superar las limitaciones de métodos anteriores, SPINRec emplea muestreo estocástico de líneas base: en lugar de integrar desde una línea base fija o poco realista, muestrea múltiples perfiles de usuario plausibles a partir de la distribución empírica de datos y selecciona la trayectoria de atribución más fiel. Este diseño captura la influencia de las interacciones tanto observadas como no observadas, generando explicaciones más estables y personalizadas. Realizamos la evaluación de fidelidad más completa hasta la fecha, abarcando tres modelos (MF, VAE, NCF), tres conjuntos de datos (ML1M, Yahoo! Music, Pinterest) y un conjunto de métricas contrafactuales, incluyendo curvas de perturbación basadas en AUC y diagnósticos de longitud fija. SPINRec supera consistentemente a todos los métodos de referencia, estableciendo un nuevo estándar para la explicabilidad fidedigna en recomendación. El código y las herramientas de evaluación están disponibles públicamente en https://github.com/DeltaLabTLV/SPINRec.
Presentamos un método para extraer neuronas monosémicas, definidas como dimensiones latentes que se alinean con conceptos coherentes e interpretables, a partir de los *embeddings* de usuarios e ítems en sistemas de recomendación. Nuestro enfoque emplea un Autoencoder Esparso (SAE) para revelar la estructura semántica dentro de las representaciones preentrenadas. A diferencia del trabajo en modelos de lenguaje, la monosemicidad en recomendación debe preservar las interacciones entre los *embeddings* separados de usuarios e ítems. Para lograrlo, introducimos un objetivo de entrenamiento consciente de la predicción que retropropaga el error a través de un recomendador congelado y alinea la estructura latente aprendida con las predicciones de afinidad usuario-ítem del modelo. Las neuronas resultantes capturan propiedades como el género, la popularidad y las tendencias temporales, y permiten operaciones de control *post hoc*, incluida la filtración dirigida y la promoción de contenido, sin modificar el modelo base. Nuestro método generaliza a través de diferentes modelos de recomendación y conjuntos de datos, proporcionando una herramienta práctica para una personalización interpretable y controlable. El código y los recursos de evaluación están disponibles en https://github.com/DeltaLabTLV/Monosemanticity4Rec.
La detección de objetos camuflados es una tarea emergente y desafiante en visión por computadora que requiere identificar y segmentar objetos que se fusionan imperceptiblemente con su entorno debido a su alta similitud en color, textura y tamaño. Esta tarea se complica aún más por condiciones de poca luz, oclusión parcial, tamaño reducido de los objetos, patrones de fondo intrincados y la presencia de múltiples objetos. Si bien se han propuesto muchos métodos sofisticados para esta tarea, los enfoques actuales aún tienen dificultades para detectar con precisión objetos camuflados en escenarios complejos, especialmente con objetos pequeños y múltiples, lo que indica margen de mejora. Proponemos una Red Recursiva Multi-Escala que extrae características multi-escala mediante un backbone de Pyramid Vision Transformer y las combina mediante Unidades de Integración de Escala Basadas en Atención especializadas, permitiendo una fusión selectiva de características. Para una detección de objetos más precisa, nuestro decodificador refina recursivamente las características incorporando Unidades de Fusión Multi-Granularidad. Se desarrolla una novedosa estrategia de decodificación de retroalimentación recursiva para mejorar la comprensión del contexto global, ayudando al modelo a superar los desafíos de esta tarea. Al aprovechar conjuntamente el aprendizaje multi-escala y la optimización recursiva de características, nuestro método propuesto logra mejoras de rendimiento, detectando exitosamente objetos camuflados pequeños y múltiples. Nuestro modelo alcanza resultados state-of-the-art en dos conjuntos de datos de referencia para detección de objetos camuflados y ocupa el segundo puesto en los dos restantes. Nuestros códigos, pesos del modelo y resultados están disponibles en https://github.com/linaagh98/MSRNet.