Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de video autorregresivos (AR) destilados permiten una generación eficiente en streaming, pero frecuentemente se desalinean con las preferencias visuales humanas. Los marcos existentes de aprendizaje por refuerzo (RL) no se adaptan naturalmente a estas arquitecturas, ya que normalmente requieren una costosa re-destilación o una optimización del proceso inverso acoplada a solucionadores, lo que introduce una sobrecarga considerable de memoria y computación. Presentamos Astrolabe, un marco eficiente de RL en línea diseñado para modelos AR destilados. Para superar los cuellos de botella existentes, introducimos una formulación de RL basada en el proceso directo mediante ajuste fino con conciencia de lo negativo. Al contrastar muestras positivas y negativas directamente en los puntos finales de la inferencia, este enfoque establece una dirección de mejora de la política implícita sin requerir el despliegue del proceso inverso. Para escalar esta alineación a videos largos, proponemos un esquema de entrenamiento en streaming que genera secuencias progresivamente mediante una caché KV rotativa, aplicando actualizaciones de RL exclusivamente a ventanas de clips locales mientras se condiciona sobre el contexto previo para garantizar coherencia de largo alcance. Finalmente, para mitigar la piratería de recompensas, integramos un objetivo de múltiples recompensas estabilizado mediante una regularización selectiva consciente de la incertidumbre y actualizaciones dinámicas de referencia. Experimentos exhaustivos demuestran que nuestro método mejora consistentemente la calidad de la generación en múltiples modelos de video AR destilados, sirviendo como una solución de alineación robusta y escalable.
Los modelos de lenguaje visual (VLMs) muestran sólidas capacidades multimodales, pero aún presentan dificultades en el razonamiento visión-lenguaje de grano fino. Descubrimos que el razonamiento de cadena de pensamiento (CoT) largo expone diversos modos de fallo, incluyendo errores de percepción, razonamiento, conocimiento y alucinación, que pueden acumularse a lo largo de los pasos intermedios. Sin embargo, la mayoría de los datos visión-lenguaje existentes utilizados para RLVR no involucran cadenas de razonamiento complejas que dependan de evidencia visual en toda su extensión, dejando estas debilidades mayormente sin exponer. Por lo tanto, proponemos HopChain, un marco escalable para sintetizar datos de razonamiento visión-lenguaje multi-etapa específicamente para el entrenamiento RLVR de VLMs. Cada consulta multi-etapa sintetizada forma una cadena lógicamente dependiente de saltos anclados en instancias, donde los saltos iniciales establecen las instancias, conjuntos o condiciones necesarias para los saltos posteriores, mientras que la respuesta final permanece como un número específico y no ambiguo, adecuado para recompensas verificables. Añadimos los datos multi-etapa sintetizados por HopChain a los datos RLVR originales utilizados para entrenar Qwen3.5-35B-A3B y Qwen3.5-397B-A17B, y comparamos contra RLVR utilizando solo los datos RLVR originales en 24 benchmarks que abarcan STEM y Rompecabezas, VQA General, Reconocimiento de Texto y Comprensión de Documentos, y Comprensión de Video. Aunque estos datos multi-etapa no se sintetizan para apuntar a ningún benchmark específico, añadirlos mejora 20 de los 24 benchmarks en ambos modelos, indicando ganancias amplias y generalizables. Para demostrar que las consultas encadenadas completas son importantes, las reemplazamos con variantes de media-etapa o etapa única, reduciendo la precisión promedio en los 24 benchmarks en 5.3 y 7.0 puntos, respectivamente. El entrenamiento multi-etapa también fortalece el razonamiento visión-lenguaje con CoT largo, con ganancias que alcanzan un máximo de más de 50 puntos de precisión en el régimen de CoT ultra-largo. Estos experimentos establecen a HopChain como un marco efectivo y escalable para sintetizar datos multi-etapa que mejoran el razonamiento visión-lenguaje generalizable.
Los modelos de visión y lenguaje (VLMs) han mostrado potencial en la observación terrestre (EO), pero presentan dificultades en tareas que requieren fundamentar razonamientos espaciales complejos en representaciones visuales precisas a nivel de píxel. Para abordar este problema, presentamos TerraScope, un VLM unificado que ofrece razonamiento geoespacial anclado en píxeles con dos capacidades clave: (1) razonamiento flexible en modalidades: maneja entradas de una sola modalidad (óptica o SAR) y fusiona adaptativamente diferentes modalidades en el proceso de razonamiento cuando ambas están disponibles; (2) razonamiento multitemporal: integra secuencias temporales para análisis de cambios en múltiples puntos temporales. Adicionalmente, hemos creado Terra-CoT, un conjunto de datos a gran escala que contiene 1 millón de muestras con máscaras a nivel de píxel integradas en cadenas de razonamiento de múltiples fuentes. También proponemos TerraScope-Bench, el primer benchmark para razonamiento geoespacial anclado en píxeles con seis subtareas que evalúa tanto la precisión de las respuestas como la calidad de las máscaras para garantizar un razonamiento auténticamente anclado en píxeles. Los experimentos demuestran que TerraScope supera significativamente a los VLMs existentes en razonamiento geoespacial anclado en píxeles, proporcionando además evidencia visual interpretable.
Los sistemas de IA de auto-mejora buscan reducir la dependencia de la ingeniería humana aprendiendo a mejorar sus propios procesos de aprendizaje y resolución de problemas. Los enfoques existentes para la auto-mejora dependen de mecanismos meta-nivel fijos y diseñados manualmente, lo que limita fundamentalmente la rapidez con la que pueden mejorar dichos sistemas. La Máquina de Gödel Darwin (DGM) demuestra una auto-mejora de código abierto en programación al generar y evaluar repetidamente variantes auto-modificadas. Dado que tanto la evaluación como la auto-modificación son tareas de programación, las ganancias en capacidad de programación pueden traducirse en ganancias en la capacidad de auto-mejora. Sin embargo, esta alineación generalmente no se mantiene más allá de los dominios de programación. Introducimos los hiperagentes, agentes autorreferenciales que integran un agente de tarea (que resuelve la tarea objetivo) y un agente meta (que se modifica a sí mismo y al agente de tarea) en un único programa editable. Crucialmente, el procedimiento de modificación a nivel meta es en sí mismo editable, permitiendo la auto-modificación metacognitiva, mejorando no solo el comportamiento de resolución de tareas, sino también el mecanismo que genera futuras mejoras. Instanciamos este marco extendiendo la DGM para crear DGM-Hiperagentes (DGM-H), eliminando el supuesto de alineación específica del dominio entre el rendimiento en la tarea y la habilidad de auto-modificación para potencialmente apoyar un progreso auto-acelerado en cualquier tarea computable. En diversos dominios, el DGM-H mejora su rendimiento con el tiempo y supera a los sistemas de referencia sin auto-mejora o exploración de código abierto, así como a sistemas previos de auto-mejora. Además, el DGM-H mejora el proceso mediante el cual genera nuevos agentes (por ejemplo, memoria persistente, seguimiento del rendimiento), y estas mejoras a nivel meta se transfieren entre dominios y se acumulan a lo largo de las ejecuciones. Los DGM-Hiperagentes ofrecen un atisbo de sistemas de IA de código abierto que no solo buscan mejores soluciones, sino que mejoran continuamente su búsqueda de cómo mejorar.
La colaboración efectiva comienza sabiendo cuándo pedir ayuda. Por ejemplo, al intentar identificar un objeto ocluido, un humano le pediría a alguien que retire la obstrucción. ¿Pueden los MLLM exhibir un comportamiento "proactivo" similar solicitando intervenciones simples del usuario? Para investigarlo, presentamos ProactiveBench, un benchmark construido a partir de siete conjuntos de datos reutilizados que evalúa la proactividad en diversas tareas, como reconocer objetos ocultos, mejorar la calidad de imagen e interpretar bocetos toscos. Evaluamos 22 MLLM en ProactiveBench, demostrando que (i) generalmente carecen de proactividad; (ii) la proactividad no se correlaciona con la capacidad del modelo; (iii) "insinuar" la proactividad produce solo mejoras marginales. Sorprendentemente, descubrimos que los historiales de conversación y el aprendizaje en contexto introducen sesgos negativos que perjudican el rendimiento. Finalmente, exploramos una estrategia simple de ajuste fino basada en aprendizaje por refuerzo: sus resultados sugieren que la proactividad puede aprenderse, incluso generalizándose a escenarios no vistos. Publicamos ProactiveBench como un primer paso hacia la construcción de modelos multimodales proactivos.
Los modelos de lenguaje grandes (LLMs) se utilizan cada vez más como razonadores de propósito general, pero las entradas largas siguen limitadas por una ventana de contexto fija. Los Modelos de Lenguaje Recursivos (RLMs) abordan esto externalizando el prompt y resolviendo subproblemas de forma recursiva. Sin embargo, los RLMs existentes dependen de un bucle lectura-evaluación-impresión (REPL) abierto en el que el modelo genera código de control arbitrario, lo que dificulta la verificación, predicción y análisis de la ejecución. Presentamos λ-RLM, un marco para el razonamiento de contexto largo que reemplaza la generación de código recursivo de forma libre con un entorno de ejecución funcional tipado basado en λ-cálculo. Este ejecuta una biblioteca compacta de combinadores previamente verificados y utiliza inferencia neuronal solo en subproblemas hoja acotados, transformando el razonamiento recursivo en un programa funcional estructurado con un flujo de control explícito. Demostramos que λ-RLM admite garantías formales ausentes en los RLMs estándar, incluyendo terminación, límites de coste en forma cerrada, escalado controlado de la precisión con la profundidad de recursión, y una regla de partición óptima bajo un modelo de coste simple. Empíricamente, en cuatro tareas de razonamiento de contexto largo y nueve modelos base, λ-RLM supera al RLM estándar en 29 de 36 comparaciones modelo-tarea, mejora la precisión promedio hasta en +21.9 puntos entre diferentes niveles de modelos y reduce la latencia hasta en 4.1 veces. Estos resultados muestran que el control simbólico tipado proporciona una base más confiable y eficiente para el razonamiento de contexto largo que la generación de código recursivo abierto. La implementación completa de λ-RLM es de código abierto para la comunidad en: https://github.com/lambda-calculus-LLM/lambda-RLM.
La generación de escenas posee amplias aplicaciones industriales, exigiendo tanto un alto realismo como un control preciso sobre la geometría y la apariencia. Los métodos de recuperación basados en lenguaje componen escenas plausibles a partir de una gran base de datos de objetos, pero pasan por alto el control a nivel de objeto y a menudo no logran imponer una coherencia de estilo a nivel de escena. Las formulaciones basadas en grafos ofrecen una mayor controlabilidad sobre los objetos e informan sobre la coherencia holística mediante el modelado explícito de relaciones; sin embargo, los métodos existentes tienen dificultades para producir resultados texturizados de alta fidelidad, limitando así su utilidad práctica. Presentamos FlowScene, un modelo generativo de escenas de tres ramas condicionado por grafos multimodales que genera colaborativamente diseños de escena, formas de objetos y texturas de objetos. En su núcleo se encuentra un modelo de flujo rectificado estrechamente acoplado que intercambia información de los objetos durante la generación, permitiendo un razonamiento colaborativo a través del grafo. Esto posibilita un control de grano fino sobre las formas, texturas y relaciones de los objetos, al mismo tiempo que impone una coherencia de estilo a nivel de escena tanto en la estructura como en la apariencia. Experimentos exhaustivos demuestran que FlowScene supera a los métodos de referencia, tanto los condicionados por lenguaje como por grafos, en términos de realismo de la generación, coherencia de estilo y alineación con las preferencias humanas.
Los recientes avances en los modelos de difusión han mejorado significativamente la generación de video a partir de texto, permitiendo la creación de contenido personalizado con un control detallado tanto de los elementos en primer plano como del fondo. Sin embargo, la alineación precisa de los atributos faciales entre distintos sujetos sigue siendo un desafío, ya que los métodos existentes carecen de mecanismos explícitos para garantizar la coherencia intragrupal. Abordar esta brecha requiere tanto estrategias de modelado explícito como recursos de datos conscientes de los atributos faciales. Por lo tanto, proponemos LumosX, un marco que avanza tanto en el diseño de datos como en el del modelo. En el lado de los datos, una canalización de recopilación personalizada orquesta leyendas y señales visuales a partir de videos independientes, mientras que los modelos lingüísticos multimodales de gran escala (MLLM, por sus siglas en inglés) infieren y asignan dependencias específicas de cada sujeto. Estos antecedentes relacionales extraídos imponen una estructura más granular que amplifica el control expresivo de la generación de video personalizado y permite la construcción de un punto de referencia integral. En el lado del modelado, la Autoatención Relacional y la Cruz-Atención Relacional entrelazan incrustaciones sensibles a la posición con dinámicas de atención refinadas para inscribir dependencias explícitas entre sujetos y atributos, imponiendo una cohesión intragrupal disciplinada y amplificando la separación entre distintos grupos de sujetos. Las evaluaciones exhaustivas en nuestro punto de referencia demuestran que LumosX logra un rendimiento de vanguardia en la generación de video multi-sujeto personalizada, con granularidad fina, identidad consistente y alineación semántica. El código y los modelos están disponibles en https://jiazheng-xing.github.io/lumosx-home/.
El prompting de Cadena de Pensamiento (CoT) mejora la precisión de los LLM en tareas complejas, pero a menudo incrementa el uso de tokens y el coste de inferencia. Los métodos existentes de "Forzado Presupuestario", que reducen costes mediante fine-tuning con penalizaciones heurísticas de longitud, suprimen tanto el razonamiento esencial como el contenido redundante. Replanteamos el razonamiento eficiente como un problema de compresión con pérdidas bajo el principio del Cuello de Botella de Información (IB), e identificamos una brecha teórica clave al aplicar IB ingenuo a transformadores: la atención viola la propiedad de Markov entre el prompt, la traza de razonamiento y la respuesta. Para resolver este problema, modelamos la generación de CoT bajo el principio del Cuello de Botella de Información Condicional (CIB), donde la traza de razonamiento Z actúa como un puente computacional que contiene solo la información sobre la respuesta Y que no es directamente accesible desde el prompt X. Esto produce un objetivo general de Aprendizaje por Refuerzo: maximizar la recompensa de la tarea mientras se comprimen las completamientos bajo una distribución previa sobre las trazas de razonamiento, englobando heurísticas comunes (por ejemplo, penalizaciones de longitud) como casos especiales (por ejemplo, distribuciones previas uniformes). En contraste con los enfoques ingenuos basados en el recuento de tokens, introducimos una distribución previa semántica que mide el coste de los tokens mediante la sorpresa bajo una distribución previa de modelo de lenguaje. Empíricamente, nuestro objetivo CIB elimina la redundancia cognitiva preservando fluidez y lógica, mejorando la precisión en compresiones moderadas y permitiendo compresiones agresivas con una caída mínima de precisión.
Los agentes basados en modelos de lenguaje grande (LLM) han surgido como controladores autónomos potentes para entornos digitales, incluyendo interfaces móviles, sistemas operativos y navegadores web. La navegación web, por ejemplo, requiere manejar contenido dinámico y largas secuencias de acciones, lo que la hace particularmente desafiante. Los agentes existentes basados en LLM tienen dificultades con la planificación de largo horizonte principalmente de dos maneras. Durante la ejecución en línea, a menudo pierden el rastro a medida que llega nueva información, careciendo de una ruta clara y adaptable hacia el objetivo final. Este problema se ve exacerbado durante el ajuste fino por aprendizaje por refuerzo (RL), donde las recompensas escasas y retardadas dificultan que los agentes identifiquen qué acciones conducen al éxito, impidiéndoles mantener un razonamiento coherente en tareas extensas. Para abordar estos desafíos, proponemos dos contribuciones. Primero, introducimos un marco de agente que aprovecha modelos propietarios para la planificación en línea mediante la descomposición en submetas. Segundo, presentamos MiRA (Milestoning your Reinforcement Learning Enhanced Agent), un marco de entrenamiento RL que utiliza señales de recompensa densas basadas en hitos. El mecanismo de planificación en tiempo real mejora modelos propietarios como Gemini en aproximadamente un 10% de aumento absoluto en la tasa de éxito (SR) en el benchmark WebArena-Lite. Mientras tanto, aplicar MiRA al modelo abierto Gemma3-12B aumenta su tasa de éxito del 6.4% al 43.0%. Este rendimiento supera a sistemas propietarios como GPT-4-Turbo (17.6%) y GPT-4o (13.9%), así como al anterior estado del arte en modelos abiertos, WebRL (38.4%). En general, nuestros hallazgos demuestran que combinar una planificación explícita en tiempo de inferencia con recompensas basadas en hitos mejora significativamente las capacidades de largo horizonte de un agente, allanando el camino para sistemas autónomos más robustos y de propósito general.
La generación controlada de vídeos ha experimentado mejoras drásticas en los últimos años. Sin embargo, editar acciones y eventos dinámicos, o insertar contenidos que deberían afectar el comportamiento de otros objetos en vídeos del mundo real, sigue siendo un desafío importante. Los modelos entrenados existentes tienen dificultades con ediciones complejas, probablemente debido a la dificultad de recopilar datos de entrenamiento relevantes. De manera similar, los métodos existentes que no requieren entrenamiento están inherentemente restringidos a ediciones que preservan la estructura y el movimiento, y no admiten la modificación del movimiento o las interacciones. Aquí presentamos DynaEdit, un método de edición que no requiere entrenamiento y que desbloquea capacidades versátiles de edición de vídeo con modelos preentrenados de flujo texto-a-vídeo. Nuestro método se basa en el enfoque recientemente introducido libre de inversión, que no interviene en los componentes internos del modelo y, por lo tanto, es independiente del modelo. Demostramos que intentar adaptar este enfoque de manera ingenua a la edición general sin restricciones resulta en una grave desalineación de baja frecuencia y parpadeo de alta frecuencia. Explicamos las fuentes de estos fenómenos e introducimos nuevos mecanismos para superarlos. A través de experimentos exhaustivos, mostramos que DynaEdit logra resultados de vanguardia en tareas complejas de edición de vídeo basadas en texto, incluyendo la modificación de acciones, la inserción de objetos que interactúan con la escena y la introducción de efectos globales.
Los modelos de lenguaje en bucle (LoopLM) realizan cálculos latentes iterativos para refinar representaciones internas, ofreciendo una alternativa prometedora al razonamiento explícito de cadena de pensamiento (CoT). Sin embargo, los paradigmas existentes de aprendizaje por refuerzo (RL) se centran principalmente en tokens de salida, creando un desajuste estructural con las arquitecturas en bucle cuyo razonamiento se desarrolla implícitamente. En este trabajo proponemos LoopRPT, un marco de pre-entrenamiento por refuerzo diseñado específicamente para LoopLM. Al reformular la predicción del siguiente token como una tarea de razonamiento para el siguiente token, LoopRPT asigna señales de refuerzo directamente a los pasos latentes utilizando una referencia de profesor por media móvil exponencial (EMA) y desarrollos latentes ruidosos. Esta formulación permite que el RL modele directamente las representaciones intermedias, comprimiendo el razonamiento efectivo en menos iteraciones. Implementamos LoopRPT en la arquitectura Ouro a través de múltiples escalas de modelo. Los resultados demuestran que LoopRPT mejora consistentemente la calidad de la representación por paso, logrando un dominio de Pareto en los equilibrios precisión-cálculo. Notablemente, las ganancias significativas en tokens difíciles indican que LoopRPT mejora el razonamiento en etapas tempranas en lugar de simplemente fomentar salidas prematuras. Nuestros hallazgos destacan el pre-entrenamiento por refuerzo como un paradigma fundamentado para aprender razonamiento latente eficiente en LoopLM.
Los grandes modelos de lenguaje suelen tener dificultades con tareas analíticas complejas de largo horizonte sobre tablas no estructuradas, que generalmente presentan encabezados jerárquicos y bidireccionales y diseños no canónicos. Formalizamos este desafío como la Investigación Profunda en Tablas (DTR), que requiere un razonamiento multi-etapa sobre regiones tabulares interdependientes. Para abordar el DTR, proponemos un novedoso marco agéntico que trata el razonamiento tabular como un proceso de toma de decisiones de ciclo cerrado. Diseñamos cuidadosamente una comprensión acoplada de consultas y tablas para la toma de decisiones de ruta y la ejecución operativa. Específicamente, (i) DTR construye primero un meta-grafo jerárquico para capturar la semántica bidireccional, mapeando las consultas en lenguaje natural a un espacio de búsqueda a nivel operativo; (ii) Para navegar este espacio, introducimos una política de selección consciente de la expectativa que prioriza las rutas de ejecución de alta utilidad; (iii) Crucialmente, los resultados de la ejecución histórica se sintetizan en una memoria estructurada *siamesa*, es decir, actualizaciones parametrizadas y textos abstraídos, permitiendo un refinamiento continuo. Experimentos exhaustivos en benchmarks desafiantes de tablas no estructuradas verifican la efectividad y resaltan la necesidad de separar la planificación estratégica de la ejecución de bajo nivel para el razonamiento tabular de largo horizonte.
Dada la notable capacidad de los modelos fundacionales de imágenes 2D para generar resultados de alta fidelidad, investigamos una pregunta fundamental: ¿poseen inherentemente los modelos fundacionales de imágenes 2D capacidades de modelos del mundo 3D? Para responder esto, evaluamos sistemáticamente múltiples modelos de generación de imágenes y Modelos de Visión y Lenguaje (VLM) de vanguardia en la tarea de síntesis de mundos 3D. Para aprovechar y evaluar su potencial capacidad implícita en 3D, proponemos un enfoque agentivo para facilitar la generación de mundos 3D. Nuestro método emplea una arquitectura multiagente: un director basado en VLM que formula instrucciones para guiar la síntesis de imágenes, un generador que sintetiza nuevas vistas de imagen y un verificador respaldado por VLM en dos pasos que evalúa y selecciona meticulosamente los fotogramas generados, tanto desde el espacio de imagen 2D como desde el de reconstrucción 3D. Crucialmente, demostramos que nuestro enfoque agentivo proporciona una reconstrucción 3D coherente y robusta, produciendo escenas de salida que pueden explorarse mediante la renderización de nuevas vistas. A través de extensos experimentos con varios modelos fundacionales, demostramos que los modelos 2D efectivamente encapsulan una comprensión de los mundos 3D. Al explotar esta comprensión, nuestro método sintetiza con éxito mundos expansivos, realistas y consistentes en 3D.
La expansión exponencial de las ventanas de contexto en los LLM ha desbloqueado capacidades para la comprensión de documentos largos, pero ha introducido graves cuellos de botella en la latencia de inferencia y la utilización de la información. Los métodos de compresión existentes a menudo adolecen de altos costes de entrenamiento o fragmentación semántica debido a una poda agresiva de tokens. En este artículo, proponemos BEAVER, un novedoso marco de trabajo libre de entrenamiento que traslada la compresión desde la eliminación lineal de tokens a una selección jerárquica consciente de la estructura. BEAVER maximiza el paralelismo del hardware mapeando contextos de longitud variable en tensores densos a nivel de página mediante agrupación de doble vía, y preserva la integridad discursiva a través de un planificador híbrido que combina una selección de doble rama semántica y léxica con suavizado de oraciones. Evaluaciones exhaustivas en cuatro benchmarks de contexto largo demuestran que BEAVER logra un rendimiento comparable a los métodos de última generación (SOTA) como LongLLMLingua. Notablemente, en el benchmark RULER, BEAVER mantiene una alta fidelidad en la recuperación de múltiples agujas, escenario en el que los métodos base se deterioran. En cuanto a la eficiencia, BEAVER reduce la latencia en 26.4x en contextos de 128k tokens, ofreciendo una solución escalable para aplicaciones de alto rendimiento. Nuestro código está disponible en https://cslikai.cn/BEAVER/.
Una hipótesis ampliamente aceptada sobre por qué los modelos de recomendación generativa (GR) superan a los modelos convencionales basados en ID de ítems es que generalizan mejor. Sin embargo, existen pocas formas sistemáticas de verificar esta hipótesis más allá de una comparación superficial del rendimiento general. Para abordar esta brecha, categorizamos cada instancia de datos en función de la capacidad específica requerida para una predicción correcta: memorización (reutilizar patrones de transición de ítems observados durante el entrenamiento) o generalización (combinar patrones conocidos para predecir transiciones de ítems no vistas). Experimentos exhaustivos muestran que los modelos GR obtienen mejor rendimiento en instancias que requieren generalización, mientras que los modelos basados en ID de ítems funcionan mejor cuando la memorización es más importante. Para explicar esta divergencia, trasladamos el análisis del nivel de ítem al nivel de token y demostramos que lo que parece ser generalización a nivel de ítem a menudo se reduce a memorización a nivel de token para los modelos GR. Finalmente, mostramos que los dos paradigmas son complementarios. Proponemos un indicador simple consciente de la memorización que los combina de forma adaptativa para cada instancia, lo que conduce a una mejora en el rendimiento general de la recomendación.
Los modelos generativos de mundos han mostrado potencial para simular entornos dinámicos, aunque el video egocéntrico sigue siendo un desafío debido a los rápidos cambios de punto de vista, las frecuentes interacciones mano-objeto y los procedimientos dirigidos a metas cuya evolución depende de la intención humana latente. Los enfoques existentes se centran en la síntesis instruccional centrada en las manos con una evolución escénica limitada, realizan una traducción de vista estática sin modelar la dinámica de la acción, o dependen de una supervisión densa, como trayectorias de cámara, prefijos de video largos, captura multicámara sincronizada, etc. En este trabajo, presentamos EgoForge, un simulador de mundo egocéntrico dirigido a metas que genera rollos de video coherentes en primera persona a partir de entradas estáticas mínimas: una única imagen egocéntrica, una instrucción de alto nivel y una vista exocéntrica auxiliar opcional. Para mejorar la alineación de la intención y la consistencia temporal, proponemos VideoDiffusionNFT, una refinación a nivel de trayectoria guiada por recompensas que optimiza la consecución de la meta, la causalidad temporal, la consistencia escénica y la fidelidad perceptual durante el muestreo por difusión. Experimentos exhaustivos muestran que EgoForge logra ganancias consistentes en alineación semántica, estabilidad geométrica y fidelidad de movimiento sobre líneas base sólidas, así como un rendimiento robusto en experimentos con gafas inteligentes del mundo real.
La resolución de preguntas en videos de larga duración requiere razonar sobre contextos temporales extensos, lo que hace que la selección de fotogramas sea crítica para los grandes modelos de visión y lenguaje (LVLM, por sus siglas en inglés) limitados por ventanas de contexto finitas. Los métodos existentes enfrentan una disyuntiva marcada: los selectores basados en similitud son rápidos pero comprimen consultas compositivas en un único vector denso, perdiendo el orden de los subeventos y las vinculaciones multimodales; los métodos basados en agentes recuperan esta estructura mediante inferencia LVLM iterativa, pero a un costo prohibitivo. Presentamos HiMu, un marco de trabajo que no requiere entrenamiento y que salva esta brecha. Una única llamada a un LLM de solo texto descompone la consulta en un árbol lógico jerárquico cuyas hojas son predicados atómicos, cada uno enrutado a un experto ligero que abarca visión (CLIP, detección de vocabulario abierto, OCR) y audio (ASR, CLAP). Las señales resultantes se normalizan, se suavizan temporalmente para alinear las diferentes modalidades y se componen de abajo hacia arriba mediante operadores de lógica difusa que imponen secuenciación y adyacencia temporal, produciendo una curva de satisfacción continua. Las evaluaciones en Video-MME, LongVideoBench y HERBench-Lite muestran que HiMu mejora el frente de Pareto de eficiencia-precisión: con 16 fotogramas y Qwen3-VL 8B supera a todos los selectores competidores, y con GPT-4o supera a los sistemas agentes que operan con 32-512 fotogramas, requiriendo aproximadamente 10 veces menos FLOPS.
Actualmente es difícil destilar modelos de difusión discretos. En contraste, la literatura sobre difusión continua cuenta con numerosos métodos de destilación que pueden reducir los pasos de muestreo a un puñado. Nuestro método, *Discrete Moment Matching Distillation* (D-MMD), aprovecha ideas que han tenido mucho éxito en el dominio continuo. Mientras que los métodos de destilación discreta anteriores colapsan, D-MMD mantiene una alta calidad y diversidad (dados suficientes pasos de muestreo). Esto se demuestra tanto en conjuntos de datos de texto como de imágenes. Además, los generadores recién destilados pueden superar el rendimiento de sus modelos maestros.
El aprendizaje por refuerzo (RL) se ha convertido en un paradigma estándar para el post-entrenamiento y la alineación de Modelos de Lenguaje a Gran Escala (LLMs); sin embargo, evidencia reciente sugiere que enfrenta un persistente "techo de capacidad": a diferencia de los sistemas clásicos de RL que descubren estrategias novedosas, el RL para LLMs a menudo actúa como un mero refinador de patrones ya latentes en los pesos pre-entrenados. En este trabajo, identificamos un cuello de botella estructural fundamental: mientras que el RL clásico se basa en estados de Markov compactos e informativos, las formulaciones actuales de post-entrenamiento de LLMs están atadas a una historia de acciones en constante expansión. Revisitamos un principio clásico, durante mucho tiempo central para el RL pero ausente en el post-entrenamiento de LLMs: los estados de Markov explícitos. Teóricamente, proporcionamos garantías rigurosas que demuestran que aprovechar estados de Markov estimados puede reducir significativamente la complejidad muestral. Empíricamente, mostramos que la introducción de estados de Markov supera consistentemente los límites de rendimiento del post-entrenamiento con RL estándar en un conjunto de puzzles lógicos complejos. Nuestros hallazgos sugieren que avanzar más allá del modelado de "la historia como estado" en favor de representaciones markovianas estructuradas es esencial para desbloquear el descubrimiento de código abierto y capacidades de razonamiento genuinamente nuevas en la IA Generativa.
La ciencia de datos desempeña un papel fundamental en la transformación de datos complejos en información procesable en numerosos dominios. Los recientes avances en modelos de lenguaje extenso (LLM) y agentes de inteligencia artificial (IA) han automatizado significativamente el flujo de trabajo de la ciencia de datos. Sin embargo, aún no está claro hasta qué punto los agentes de IA pueden igualar el rendimiento de los expertos humanos en tareas de ciencia de datos específicas del dominio, y en qué aspectos la experiencia humana continúa ofreciendo ventajas. Presentamos AgentDS, un punto de referencia y competencia diseñado para evaluar tanto el rendimiento de los agentes de IA como el de la colaboración humano-IA en ciencia de datos específica del dominio. AgentDS consta de 17 desafíos en seis industrias: comercio, producción alimentaria, atención sanitaria, seguros, manufactura y banca minorista. Realizamos una competencia abierta con 29 equipos y 80 participantes, permitiendo una comparación sistemática entre enfoques de colaboración humano-IA y líneas base exclusivas de IA. Nuestros resultados muestran que los agentes de IA actuales tienen dificultades con el razonamiento específico del dominio. Las líneas base exclusivas de IA se desempeñan cerca o por debajo de la mediana de los participantes de la competencia, mientras que las soluciones más sólidas surgen de la colaboración humano-IA. Estos hallazgos cuestionan la narrativa de la automatización completa por parte de la IA y subrayan la importancia perdurable de la experiencia humana en la ciencia de datos, al tiempo que iluminan direcciones para la próxima generación de IA. Visite el sitio web de AgentDS aquí: https://agentds.org/ y los conjuntos de datos de código abierto aquí: https://huggingface.co/datasets/lainmn/AgentDS.
Estudiamos la síntesis de políticas mediante LLM: el uso de un modelo de lenguaje grande para generar iterativamente políticas de agentes programáticas en entornos multiagente. En lugar de entrenar políticas neuronales mediante aprendizaje por refuerzo, nuestro marco de trabajo solicita a un LLM que produzca funciones de política en Python, las evalúa en autojuego y las refina utilizando retroalimentación de rendimiento a lo largo de iteraciones. Investigamos la ingeniería de retroalimentación (el diseño de qué información de evaluación se muestra al LLM durante el refinamiento) comparando la retroalimentación escasa (solo recompensa escalar) con la retroalimentación densa (recompensa más métricas sociales: eficiencia, igualdad, sostenibilidad, paz). En dos Dilemas Sociales Secuenciales canónicos (Gathering y Cleanup) y dos LLMs de vanguardia (Claude Sonnet 4.6, Gemini 3.1 Pro), la retroalimentación densa coincide o supera consistentemente a la retroalimentación escasa en todas las métricas. La ventaja es mayor en el juego de bienes públicos Cleanup, donde proporcionar métricas sociales ayuda al LLM a calibrar la compensación costosa entre limpiar y recolectar. En lugar de desencadenar una sobreoptimización de la equidad, las métricas sociales sirven como una señal de coordinación que guía al LLM hacia estrategias cooperativas más efectivas, incluyendo la división de territorios, la asignación adaptativa de roles y la evitación de agresión derrochadora. Realizamos además un experimento adversarial para determinar si los LLMs pueden hackear las recompensas en estos entornos. Caracterizamos cinco clases de ataques y discutimos mitigaciones, destacando una tensión inherente en la síntesis de políticas mediante LLM entre expresividad y seguridad. Código en https://github.com/vicgalle/llm-policies-social-dilemmas.
Desarrollamos un método para producir bocetos vectoriales una parte a la vez. Para ello, entrenamos a un agente basado en un modelo de lenguaje multimodal mediante un novedoso proceso de aprendizaje por refuerzo con recompensa de proceso multi-etapa, tras un ajuste fino supervisado. Nuestro enfoque es posible gracias a un nuevo conjunto de datos que denominamos ControlSketch-Part, que contiene anotaciones ricas a nivel de parte para bocetos, obtenidas mediante una novedosa y genérica canalización de anotación automática que segmenta los bocetos vectoriales en partes semánticas y asigna rutas a las partes mediante un proceso de etiquetado estructurado multi-etapa. Nuestros resultados indican que la incorporación de datos estructurados a nivel de parte y la provisión de retroalimentación visual al agente durante el proceso permiten una generación de bocetos vectoriales a partir de texto que es interpretable, controlable y localmente editable.
Los grandes modelos de visión y lenguaje (VLM) suelen utilizar un backbone visual congelado, cuyas características de imagen se mapean en un gran modelo de lenguaje mediante un conector ligero. Si bien los codificadores basados en transformadores son el estándar como backbone visual, nos preguntamos si los backbones visuales basados en modelos de espacio de estados (SSM) pueden ser una alternativa sólida. Evaluamos sistemáticamente los backbones visuales SSM para VLM en un entorno controlado. Bajo una inicialización equiparada en ImageNet-1K, el backbone SSM logra el rendimiento global más sólido tanto en VQA como en grounding/localización. Además, adaptamos tanto los backbones SSM como los de la familia ViT con entrenamiento para detección o segmentación y encontramos que el ajuste para tareas densas generalmente mejora el rendimiento en ambas familias; después de esta adaptación, el backbone SSM sigue siendo competitivo mientras opera a una escala de modelo sustancialmente menor. También observamos que (i) una mayor precisión en ImageNet o backbones más grandes no se traducen de manera confiable en un mejor rendimiento del VLM, y (ii) algunos backbones visuales son inestables en tareas de localización. Con base en estos hallazgos, proponemos estrategias de estabilización que mejoran la robustez para ambas familias de backbones y destacamos a los backbones SSM como una alternativa sólida a los codificadores visuales basados en transformadores en los VLM.
Presentamos un sistema robusto de SLAM RGB en tiempo real que maneja entornos dinámicos mediante el uso de Ajuste de Haz con Conciencia de la Incertidumbre diferenciable. Los métodos tradicionales de SLAM suelen asumir escenas estáticas, lo que provoca fallos en el seguimiento ante la presencia de movimiento. Los enfoques recientes de SLAM dinámico intentan abordar este desafío utilizando prerrequisitos dinámicos predefinidos o cartografía con conciencia de la incertidumbre, pero siguen siendo limitados cuando se enfrentan a objetos dinámicos desconocidos o escenas altamente desordenadas donde la cartografía geométrica se vuelve poco fiable. En contraste, nuestro método estima la incertidumbre por píxel explotando la inconsistencia de características visuales multi-vista, permitiendo un seguimiento y reconstrucción robustos incluso en entornos del mundo real. El sistema propuesto logra poses de cámara y geometría de escena de vanguardia en escenarios dinámicos desordenados, mientras funciona en tiempo real a aproximadamente 10 FPS. El código y los conjuntos de datos están disponibles en https://github.com/MoyangLi00/DROID-W.git.
Los grandes modelos de lenguaje (LLM) exhiben una fuerte inteligencia general, pero su rendimiento multilingüe sigue siendo muy desigual. Aunque los LLM codifican un conocimiento transversal sustancial en un espacio semántico unificado, a menudo luchan por conectar este conocimiento de manera confiable con lenguajes de bajos recursos o no vistos. Afortunadamente, los modelos de traducción preentrenados con arquitectura codificador-decodificador ya poseen una capacidad multilingüe equilibrada, lo que sugiere un complemento natural para los LLM. En este trabajo, proponemos XBridge, una arquitectura composicional codificador-LLM-decodificador que descarga la comprensión y generación multilingüe en modelos de traducción preentrenados externos, preservando al LLM como un núcleo anglófono para el procesamiento de conocimiento general. Para abordar el desalineamiento de representación resultante entre modelos, introducimos capas de mapeo cruzado ligeras y un objetivo de alineación basado en transporte óptimo, permitiendo una consistencia semántica de grano fino para la generación multilingüe. Los experimentos en cuatro LLM sobre comprensión, razonamiento, resumen y generación multilingüe indican que XBridge supera a los baselines sólidos, especialmente en lenguajes de bajos recursos y no vistos previamente, sin reentrenar el LLM.
La revisión de código es una práctica crítica en ingeniería de software donde los desarrolladores revisan los cambios de código antes de su integración para garantizar la calidad del código, detectar defectos y mejorar la mantenibilidad. En los últimos años, los agentes de IA que pueden comprender el contexto del código, planificar acciones de revisión e interactuar con entornos de desarrollo se han integrado cada vez más en el proceso de revisión de código. Sin embargo, existe evidencia empírica limitada para comparar la efectividad de los agentes de IA y los revisores humanos en flujos de trabajo colaborativos. Para abordar esta brecha, realizamos un análisis empírico a gran escala de 278,790 conversaciones de revisión de código en 300 proyectos de código abierto de GitHub. En nuestro estudio, nuestro objetivo es comparar las diferencias en la retroalimentación proporcionada por revisores humanos y agentes de IA. Investigamos los patrones de colaboración humano-IA en las conversaciones de revisión para comprender cómo la interacción moldea los resultados de la revisión. Además, analizamos la adopción en la base de código de las sugerencias de código proporcionadas por revisores humanos y agentes de IA, y cómo las sugerencias adoptadas cambian la calidad del código. Encontramos que los revisores humanos proporcionan retroalimentación adicional en comparación con los agentes de IA, incluyendo comprensión, pruebas y transferencia de conocimiento. Los revisores humanos intercambian un 11.8% más de rondas de comentarios cuando revisan código generado por IA que cuando revisan código escrito por humanos. Además, las sugerencias de código realizadas por agentes de IA se adoptan en la base de código a una tasa significativamente menor que las sugerencias propuestas por revisores humanos. Más de la mitad de las sugerencias no adoptadas de los agentes de IA son incorrectas o son abordadas mediante soluciones alternativas por los desarrolladores. Cuando se adoptan, las sugerencias proporcionadas por los agentes de IA producen aumentos significativamente mayores en la complejidad del código y el tamaño del código que las sugerencias proporcionadas por los revisores humanos. Nuestros hallazgos sugieren que, si bien los agentes de IA pueden escalar la detección de defectos, la supervisión humana sigue siendo crítica para garantizar la calidad de las sugerencias y proporcionar la retroalimentación contextual que falta a los agentes de IA.
Los problemas de política fuera de línea, como el estancamiento de políticas y la discrepancia entre entrenamiento e inferencia, se han convertido en un cuello de botella para la estabilidad del entrenamiento y la exploración adicional en el RL para LLM. Para mejorar la eficiencia inferencial, la brecha distribucional entre la inferencia y la política actualizada se amplía, generando ratios de importancia de cola pesada. Estos ratios surgen cuando la política es localmente abrupta, lo que infla aún más los gradientes pronunciados y puede empujar las actualizaciones fuera de la región de confianza. Para abordarlo, proponemos Perturbación Adaptativa por Capas (ALP), inyectando pequeñas perturbaciones entrenables en los estados ocultos de entrada de cada capa durante las actualizaciones, utilizadas como numerador del ratio de importancia frente a la política de inferencia inalterada en el objetivo. Intuitivamente, al añadir ruido controlado a las representaciones intermedias, ALP evita que la política actualizada se desvíe abruptamente de la política de inferencia y amplía la familia de políticas para cubrir la familia de políticas de inferencia con ruidos de discrepancia. Así, la distribución aplanada reduce naturalmente la brecha entre políticas actualizada e inferencial y atenúa la cola de los ratios de importancia, manteniendo la estabilidad del entrenamiento. Esto se valida empíricamente. Experimentos en tareas de razonamiento matemático de un solo turno y de razonamiento con herramientas multi-turno muestran que ALP no solo mejora el rendimiento final, sino que también evita la explosión de la cola del ratio de importancia y los picos de KL durante el entrenamiento iterativo, junto con una exploración potenciada. Ablaciones demuestran que las perturbaciones a nivel de representación en todas las capas son más efectivas, superando sustancialmente a variantes de capas parciales y solo logits.
Los grandes modelos de lenguaje (LLM) se despliegan cada vez más en aplicaciones con impacto social, lo que genera preocupación sobre los sesgos culturales que codifican. Investigamos estas representaciones evaluando si los LLM pueden realizar perfiles de autor a partir de letras de canciones en un entorno de cero disparos, infiriendo el género y la etnia de los cantantes sin ajuste fino específico de la tarea. En varios modelos de código abierto evaluados con más de 10,000 letras, encontramos que los LLM logran un rendimiento de perfilado no trivial, pero demuestran una alineación cultural sistemática: la mayoría de los modelos se inclinan por defecto hacia la etnia norteamericana, mientras que DeepSeek-1.5B se alinea más fuertemente con la etnia asiática. Este hallazgo surge tanto de las distribuciones de predicción de los modelos como de un análisis de sus razonamientos generados. Para cuantificar estas disparidades, introducimos dos métricas de equidad, la Divergencia de Precisión Modal (MAD) y la Divergencia de Exhaustividad (RD), y mostramos que Mistral-8B presenta el sesgo étnico más fuerte entre los modelos evaluados, mientras que Gemma-12B muestra el comportamiento más equilibrado. Nuestro código está disponible en GitHub (https://github.com/ValentinLafargue/CulturalProbingLLM).
Los enfoques neurosimbólicos que aprovechan los Modelos de Lenguaje a Gran Escala (LLMs) con métodos formales han logrado recientemente resultados sólidos en benchmarks de demostración de teoremas orientados a las matemáticas. Sin embargo, el éxito en matemáticas de estilo competitivo no demuestra por sí mismo la capacidad de construir pruebas sobre implementaciones del mundo real. Abordamos esta brecha con un benchmark derivado de una biblioteca criptográfica industrial cuyas rutinas en lenguaje ensamblador ya están verificadas en HOL Light. s2n-bignum es una biblioteca utilizada en AWS para proporcionar rutinas rápidas en ensamblador para criptografía, y su corrección está establecida mediante verificación formal. La tarea de verificar formalmente esta biblioteca ha sido un logro significativo para el Grupo de Razonamiento Automatizado. Implicó dos tareas: (1) especificar con precisión el comportamiento correcto de un programa como una proposición matemática, y (2) demostrar que la proposición es correcta. En el caso de s2n-bignum, ambas tareas fueron realizadas por expertos humanos. En s2n-bignum-bench, proporcionamos la especificación formal y pedimos al LLM que genere un script de prueba que sea aceptado por HOL Light dentro de un tiempo límite fijo para la comprobación de pruebas. Hasta donde sabemos, s2n-bignum-bench es el primer benchmark público centrado en la síntesis de pruebas comprobables por máquina para rutinas criptográficas industriales de bajo nivel en lenguaje ensamblador en HOL Light. Este benchmark proporciona un campo de pruebas desafiante y prácticamente relevante para evaluar la demostración de teoremas basada en LLMs más allá de las matemáticas competitivas. El código para configurar y utilizar el benchmark está disponible aquí: https://github.com/kings-crown/s2n-bignum-bench{s2n-bignum-bench}.
La reconstrucción de activos 3D a partir de imágenes ha requerido tradicionalmente flujos de trabajo separados para la reconstrucción de geometría, la estimación de materiales y la recuperación de iluminación, cada uno con limitaciones y sobrecarga computacional distintivas. Presentamos ReLi3D, el primer flujo de trabajo unificado de extremo a extremo que reconstruye simultáneamente geometría 3D completa, materiales físicamente basados con variación espacial e iluminación ambiental a partir de imágenes multivista escasas en menos de un segundo. Nuestra idea clave es que las restricciones multivista pueden mejorar drásticamente el desentrelazado de materiales e iluminación, un problema que sigue siendo fundamentalmente mal planteado para los métodos de imagen única. La clave de nuestro enfoque es la fusión de la entrada multivista mediante una arquitectura de condicionamiento cruzado con transformadores, seguida de una novedosa estrategia de predicción unificada de doble vía. La primera vía predice la estructura y apariencia del objeto, mientras que la segunda predice la iluminación ambiental a partir del fondo de la imagen o de los reflejos del objeto. Esto, combinado con un renderizador diferenciable de muestreo por importancia múltiple de Monte Carlo, crea una canalización de entrenamiento óptima para el desentrelazado de iluminación. Además, con nuestro protocolo de entrenamiento de dominio mixto, que combina conjuntos de datos sintéticos PBR con capturas RGB del mundo real, establecemos resultados generalizables en precisión geométrica, de materiales y calidad de iluminación. Al unificar tareas de reconstrucción previamente separadas en un único paso de avance, permitimos la generación casi instantánea de activos 3D completos y relucientes. Página del proyecto: https://reli3d.jdihlmann.com/
Los Modelos de Lenguaje Grandes Multimodales han logrado un éxito significativo en la comprensión de vídeos offline, pero su aplicación a vídeos en streaming se ve severamente limitada por la explosión lineal de tokens visuales, lo que a menudo provoca errores de falta de memoria (OOM) o olvido catastrófico. Los métodos existentes de retención visual y gestión de memoria suelen depender de muestreo uniforme, métricas físicas de bajo nivel o expulsión pasiva de caché. Sin embargo, estas estrategias a menudo carecen de conciencia semántica intrínseca, pudiendo interrumpir la coherencia contextual y difuminar transiciones semánticas críticas aunque transitorias. Para abordar estas limitaciones, proponemos CurveStream, un marco de gestión de memoria visual jerárquico, libre de entrenamiento y consciente de la curvatura. Nuestro enfoque está motivado por la observación clave de que las regiones de alta curvatura a lo largo de trayectorias de características continuas se alinean estrechamente con transiciones semánticas globales críticas. Basándonos en esta perspectiva geométrica, CurveStream evalúa la intensidad semántica en tiempo real mediante una Puntuación de Curvatura e integra un umbral dinámico K-Sigma online para enrutar adaptativamente los fotogramas a estados de memoria claros y difusos bajo un estricto presupuesto de tokens. Las evaluaciones en diversas escalas temporales confirman que este marco ligero, CurveStream, produce consistentemente ganancias de rendimiento absolutas superiores al 10% (por ejemplo, 10.69% en StreamingBench y 13.58% en OVOBench) sobre las respectivas líneas base, estableciendo nuevos resultados state-of-the-art para la percepción de vídeo en streaming. El código se publicará en https://github.com/streamingvideos/CurveStream.
La rápida proliferación de los Modelos de Lenguaje a Gran Escala ha incrementado significativamente la dificultad de distinguir entre textos escritos por humanos y textos generados por IA, planteando problemas críticos en los ámbitos académico, editorial y social. Este artículo investiga el problema de la detección de texto generado por IA mediante el diseño, implementación y evaluación comparativa de múltiples detectores basados en aprendizaje automático. Se desarrollan y analizan cuatro arquitecturas neuronales: un Perceptrón Multicapa, una Red Neuronal Convolucional unidimensional, una CNN basada en MobileNet y un modelo Transformer. Los modelos propuestos se comparan con detectores en línea ampliamente utilizados, como ZeroGPT, GPTZero, QuillBot, Originality.AI, Sapling, IsGen, Rephrase y Writer. Los experimentos se realizan en el Conjunto de Datos Multilingüe de COLING, considerando tanto las configuraciones en inglés como en italiano, así como en un conjunto de datos temático original centrado en Arte y Salud Mental. Los resultados muestran que los detectores supervisados logran un rendimiento más estable y robusto que las herramientas comerciales en diferentes idiomas y dominios, resaltando las fortalezas y limitaciones clave de las estrategias de detección actuales.
La segmentación de imágenes médicas por ultrasonido enfrenta desafíos significativos debido a la escasez de datos etiquetados y a artefactos de imagen característicos que incluyen ruido de speckle y bordes de bajo contraste. Si bien han surgido enfoques de aprendizaje semi-supervisado (SSL) para abordar la escasez de datos, los métodos existentes adolecen de una utilización subóptima de los datos no etiquetados y carecen de mecanismos robustos de representación de características. En este artículo, proponemos Switch, un novedoso framework SSL con dos innovaciones clave: (1) una estrategia de Conmutación Multiescala (MSS) que emplea mezcla jerárquica de parches para lograr una cobertura espacial uniforme; (2) una Conmutación en el Dominio de la Frecuencia (FDS) con aprendizaje contrastivo que realiza intercambio de amplitud en el espacio de Fourier para obtener representaciones de características robustas. Nuestro framework integra estos componentes dentro de una arquitectura maestro-estudiante para aprovechar eficazmente tanto los datos etiquetados como los no etiquetados. Una evaluación exhaustiva en seis conjuntos de datos de ultrasonido diversos (ganglios linfáticos, lesiones mamarias, nódulos tiroideos y próstata) demuestra una superioridad consistente sobre los métodos state-of-the-art. Con una proporción de etiquetado del 5%, Switch logra mejoras notables: 80.04% de Dice en LN-INT, 85.52% de Dice en DDTI y 83.48% de Dice en los conjuntos de datos de próstata, superando incluso nuestro enfoque semi-supervisado a las líneas base totalmente supervisadas. El método mantiene la eficiencia de parámetros (1.8M parámetros) mientras ofrece un rendimiento superior, validando su efectividad para aplicaciones de imagen médica con recursos limitados. El código fuente está disponible públicamente en https://github.com/jinggqu/Switch.
La generación automática de apariencias fotorrealistas y autoconsistentes para modelos 3D sin texturizar es un desafío crítico en la creación de contenido digital. El avance de los modelos de generación de vídeo a gran escala ofrece un enfoque natural: sintetizar directamente vídeos giratorios de 360 grados (TTV, por sus siglas en inglés), que pueden servir no solo como vistas previas dinámicas de alta calidad, sino también como una representación intermedia para impulsar la síntesis de texturas y el renderizado neuronal. Sin embargo, los modelos de difusión de vídeo de propósito general existentes tienen dificultades para mantener una coherencia geométrica estricta y una estabilidad de apariencia en todo el rango de vistas, lo que hace que sus resultados no sean adecuados para una reconstrucción 3D de alta calidad. Para ello, presentamos TAPESTRY, un marco para generar TTV de alta fidelidad condicionados por una geometría 3D explícita. Replanteamos la tarea de generación de apariencia 3D como un problema de difusión de vídeo condicionado por geometría: dado una malla 3D, primero renderizamos y codificamos características geométricas multimodales para restringir el proceso de generación de vídeo con precisión a nivel de píxel, permitiendo así la creación de TTV de alta calidad y consistentes. Sobre esta base, también diseñamos un método para tareas de reconstrucción posteriores a partir de la entrada TTV, que presenta un pipeline multietapa con Inpainting Consciente de la 3D. Al rotar el modelo y realizar una generación secundaria consciente del contexto, este pipeline completa eficazmente las regiones auto-ocluidas para lograr una cobertura superficial completa. Los vídeos generados por TAPESTRY no solo son vistas previas dinámicas de alta calidad, sino que también sirven como una representación intermedia confiable y consciente de la 3D que puede reproyectarse perfectamente en texturas UV o utilizarse para supervisar métodos de renderizado neuronal como 3DGS. Esto permite la creación automatizada de activos 3D completos y listos para producción a partir de mallas sin texturizar. Los resultados experimentales demuestran que nuestro método supera a los enfoques existentes tanto en la consistencia del vídeo como en la calidad final de la reconstrucción.
Los puntos de referencia existentes para la detección de manipulaciones dependen en gran medida de máscaras de objetos, lo que genera una grave desalineación con la señal real de la edición: muchos píxeles dentro de una máscara permanecen intactos o solo se modifican trivialmente, mientras que ediciones sutiles pero consecuentes fuera de la máscara se tratan como naturales. Reformulamos la manipulación de imágenes con modelos de lenguaje visual (VLM) pasando de etiquetas de regiones gruesas a una tarea basada en píxeles, consciente del significado y del lenguaje. En primer lugar, introducimos una taxonomía que abarca primitivas de edición (reemplazar/eliminar/empalmar/inpaint/atribuir/colorización, etc.) y la clase semántica del objeto manipulado, vinculando los cambios de bajo nivel con la comprensión de alto nivel. En segundo lugar, presentamos un nuevo punto de referencia con mapas de manipulación por píxel y supervisión de categorías pareadas para evaluar la detección y clasificación dentro de un protocolo unificado. En tercer lugar, proponemos un marco de entrenamiento y métricas de evaluación que cuantifican la corrección a nivel de píxel con localización para evaluar la confianza o la predicción sobre la intensidad real de la edición, y además medimos la comprensión del significado de la manipulación mediante clasificación consciente de la semántica y descripciones en lenguaje natural para las regiones predichas. También reevaluamos las líneas base sólidas existentes de segmentación/localización en detectores de manipulación recientes y fuertes, y revelamos una sobrestimación y subestimación sustanciales al usar métricas basadas únicamente en máscaras, además de exponer modos de fallo en micro-ediciones y cambios fuera de la máscara. Nuestro marco avanza el campo desde las máscaras hacia los píxeles, los significados y las descripciones lingüísticas, estableciendo un estándar riguroso para la localización de manipulaciones, la clasificación semántica y la descripción. El código y los datos del punto de referencia están disponibles en https://github.com/VILA-Lab/PIXAR.
La reducción de la latencia y el consumo de energía es fundamental para mejorar la eficiencia de los sistemas de memoria en la computación moderna. Este trabajo presenta ReLMXEL (Aprendizaje por Refuerzo para Controladores de Memoria con Optimización Explicable de Energía y Latencia), un marco explicable de aprendizaje por refuerzo en línea multiagente que optimiza dinámicamente los parámetros del controlador de memoria mediante descomposición de recompensas. ReLMXEL opera dentro del controlador de memoria, aprovechando métricas detalladas del comportamiento de la memoria para guiar la toma de decisiones. Las evaluaciones experimentales en diversas cargas de trabajo demuestran mejoras de rendimiento consistentes respecto a las configuraciones base, con refinamientos impulsados por el comportamiento específico de acceso a memoria según la carga de trabajo. Al incorporar explicabilidad en el proceso de aprendizaje, ReLMXEL no solo mejora el rendimiento sino que también aumenta la transparencia de las decisiones de control, allanando el camino para diseños de sistemas de memoria más responsables y adaptativos.