Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos Mixture-of-Experts (MoE) carecen de restricciones explícitas para garantizar que las decisiones del enrutador se alineen adecuadamente con las capacidades de los expertos, lo que finalmente limita el rendimiento del modelo. Para abordar esto, proponemos la pérdida de acoplamiento enrutador-experto (ERC, por sus siglas en inglés), una pérdida auxiliar ligera que acopla estrechamente las decisiones del enrutador con las capacidades de los expertos. Nuestro enfoque trata la incrustación del enrutador de cada experto como un token proxy para los tokens asignados a ese experto, y alimenta las incrustaciones del enrutador perturbadas a través de los expertos para obtener activaciones internas. La pérdida ERC impone dos restricciones sobre estas activaciones: (1) Cada experto debe exhibir una activación más alta para su propio token proxy que para los tokens proxy de cualquier otro experto. (2) Cada token proxy debe provocar una activación más fuerte de su experto correspondiente que la de cualquier otro experto. Estas restricciones garantizan conjuntamente que cada incrustación del enrutador represente fielmente la capacidad de su experto correspondiente, mientras que cada experto se especializa en procesar los tokens que realmente se le enrutan. La pérdida ERC es computacionalmente eficiente, ya que opera solo en n² activaciones, donde n es el número de expertos. Esto representa un costo fijo independiente del tamaño del lote, a diferencia de los métodos de acoplamiento anteriores que escalan con el número de tokens (a menudo millones por lote). Mediante el pre-entrenamiento de MoE-LLMs que van desde 3B hasta 15B de parámetros y un análisis extenso en billones de tokens, demostramos la efectividad de la pérdida ERC. Además, la pérdida ERC ofrece un control flexible y un seguimiento cuantitativo de los niveles de especialización de los expertos durante el entrenamiento, proporcionando información valiosa sobre los modelos MoE.
La generación de vídeo en tiempo real mediante difusión es esencial para construir sistemas de IA interactivos multimodales de propósito general. Sin embargo, la eliminación simultánea de ruido en todos los fotogramas del vídeo mediante atención bidireccional a través de un proceso iterativo en los modelos de difusión impide la interacción en tiempo real. Aunque los métodos de destilación existentes pueden hacer que el modelo sea autorregresivo y reducir los pasos de muestreo para mitigar esto, se centran principalmente en la generación de texto a vídeo, dejando la interacción humano-IA poco natural e ineficiente. Este artículo se enfoca en la difusión de vídeo interactiva en tiempo real condicionada por un contexto multimodal, que incluye texto, imagen y audio, para cerrar esta brecha. Dada la observación de que el principal enfoque de destilación on-policy, Self Forcing, encuentra desafíos (artefactos visuales como parpadeo, fotogramas negros y degradación de calidad) con el condicionamiento multimodal, investigamos una receta de destilación mejorada con énfasis en la calidad de las entradas de condición, así como en la inicialización y programación para la optimización on-policy. En benchmarks de generación de vídeo de avatar condicionada multimodalmente (audio, imagen y texto), incluyendo HDTF, AVSpeech y CelebV-HQ, nuestro modelo destilado iguala la calidad visual de las líneas base bidireccionales de tamaño similar o mayor con un coste de inferencia y latencia 20 veces menor. Además, integramos nuestro modelo con modelos de lenguaje de audio y la técnica de inferencia de vídeo de larga duración Anchor-Heavy Identity Sinks para construir LiveTalk, un sistema de avatar interactivo multimodal en tiempo real. La evaluación a nivel de sistema en nuestro benchmark de interacción multiturno curado muestra que LiveTalk supera a los modelos más avanzados (Sora2, Veo3) en coherencia de vídeo multiturno y calidad de contenido, mientras reduce la latencia de respuesta de 1-2 minutos a una generación en tiempo real, permitiendo una interacción multimodal humano-IA fluida.
Los enfoques recientes han demostrado el potencial de utilizar modelos de difusión para generar mundos interactivos y explorables. Sin embargo, la mayoría de estos métodos enfrentan desafíos críticos como tamaños de parámetros excesivamente grandes, dependencia de pasos de inferencia prolongados y contextos históricos de rápido crecimiento, lo que limita severamente el rendimiento en tiempo real y carece de capacidades de generación controlada por texto. Para abordar estos desafíos, proponemos \method, un marco novedoso diseñado para generar mundos realistas, interactivos y continuos a partir de una sola imagen o indicación textual. \method logra esto mediante un marco cuidadosamente diseñado que permite la exploración mediante teclado de los mundos generados. El marco consta de tres componentes principales: (1) un marco de generación de videos largos que integra compresión unificada de contexto con atención lineal; (2) una estrategia de aceleración de transmisión en tiempo real impulsada por destilación de atención bidireccional y un esquema mejorado de incrustación de texto; (3) un método controlado por texto para generar eventos del mundo. Hemos proporcionado el código base en el material complementario.
El aprendizaje por refuerzo agéntico (RL) presenta un gran potencial para el desarrollo de agentes autónomos en tareas complejas de interfaz gráfica de usuario (GUI), pero su escalabilidad se ve severamente limitada por la verificación del cumplimiento de la tarea. La verificación de tareas existente se trata como un proceso pasivo y *a posteriori*: un verificador (por ejemplo, un script de puntuación basado en reglas, un modelo de recompensa o crítico, o un LLM como juez) analiza la trayectoria de interacción completa del agente para determinar si tiene éxito. Este procesamiento de contextos verbosos que contienen historiales irrelevantes y ruidosos plantea desafíos a los protocolos de verificación y, por tanto, conlleva costos prohibitivos y baja fiabilidad. Para superar este cuello de botella, proponemos SmartSnap, un cambio de paradigma que pasa de esta verificación pasiva y *a posteriori* a una auto-verificación proactiva e *in situ* realizada por el propio agente. Introducimos el Agente Auto-Verificador, un nuevo tipo de agente diseñado con una doble misión: no solo completar una tarea, sino también demostrar su logro mediante evidencias seleccionadas en forma de instantáneas. Guiado por nuestros Principios 3C propuestos (Integridad, Concisión y Creatividad), el agente aprovecha su acceso al entorno online para realizar la auto-verificación sobre un conjunto mínimo y decisivo de instantáneas. Dichas evidencias se proporcionan como único material a un verificador general LLM-como-Juez para que determine su validez y relevancia. Los experimentos en tareas móviles realizados en diversas familias y escalas de modelos demuestran que nuestro paradigma SmartSnap permite entrenar agentes basados en LLM de manera escalable, logrando ganancias de rendimiento de hasta el 26.08% y el 16.66% para modelos de 8B y 30B respectivamente. La sinergia entre la búsqueda de soluciones y la búsqueda de evidencias facilita el desarrollo de agentes eficientes y auto-verificadores con un rendimiento competitivo frente a DeepSeek V3.1 y Qwen3-235B-A22B.
Los objetos transparentes siguen siendo notoriamente difíciles para los sistemas de percepción: la refracción, la reflexión y la transmisión rompen los supuestos detrás de la estereoscopía, el tiempo de vuelo (ToF) y la profundidad monocular puramente discriminativa, causando huecos y estimaciones temporalmente inestables. Nuestra observación clave es que los modelos modernos de difusión de video ya sintetizan fenómenos transparentes convincentes, lo que sugiere que han internalizado las reglas ópticas. Construimos TransPhy3D, un corpus de video sintético de escenas transparentes/reflectantes: 11k secuencias renderizadas con Blender/Cycles. Las escenas se ensamblan a partir de un banco seleccionado de activos estáticos ricos en categorías y activos procedurales ricos en formas, emparejados con materiales de vidrio/plástico/metal. Renderizamos RGB + profundidad + normales con trazado de rayos basado en física y eliminación de ruido OptiX. Partiendo de un modelo de difusión de video grande, aprendemos un traductor de video a video para profundidad (y normales) mediante adaptadores LoRA ligeros. Durante el entrenamiento, concatenamos los latentes RGB y de profundidad (con ruido) en el backbone DiT y co-entrenamos en TransPhy3D y conjuntos de datos sintéticos frame-wise existentes, obteniendo predicciones temporalmente consistentes para videos de entrada de longitud arbitraria. El modelo resultante, DKT, logra estado del arte (SOTA) zero-shot en benchmarks de video real y sintético que involucran transparencia: ClearPose, DREDS (CatKnown/CatNovel) y TransPhy3D-Test. Mejora la precisión y la consistencia temporal sobre líneas base fuertes de imagen/video, y una variante para normales establece los mejores resultados de estimación de normales en video en ClearPose. Una versión compacta de 1.3B funciona a ~0.17 s/fotograma. Integrado en una pila de agarre, la profundidad de DKT aumenta las tasas de éxito en superficies translúcidas, reflectantes y difusas, superando a estimadores anteriores. En conjunto, estos resultados respaldan una afirmación más amplia: "La difusión conoce la transparencia". Los priores generativos de video pueden reutilizarse, de manera eficiente y sin etiquetas, para una percepción robusta y temporalmente coherente destinada a la manipulación en entornos reales desafiantes.
Los métodos de super-resolución de vídeo (VSR) basados en difusión logran una alta calidad perceptual, pero siguen siendo poco prácticos para entornos sensibles a la latencia debido a su dependencia de fotogramas futuros y a la costosa eliminación de ruido multi-etapa. Proponemos Stream-DiffVSR, un marco de difusión condicionado causalmente para VSR online eficiente. Operando estrictamente sobre fotogramas pasados, combina un desruidificador destilado de cuatro pasos para inferencia rápida, un módulo de Guía Temporal Auto-regresiva (ARTG) que inyecta señales alineadas con el movimiento durante la eliminación de ruido latente, y un decodificador ligero con conciencia temporal con un Módulo Procesador Temporal (TPM) que mejora el detalle y la coherencia temporal. Stream-DiffVSR procesa fotogramas 720p en 0.328 segundos en una GPU RTX4090 y supera significativamente a métodos previos basados en difusión. En comparación con el estado del arte online TMP, mejora la calidad perceptual (LPIPS +0.095) mientras reduce la latencia en más de 130x. Stream-DiffVSR logra la latencia más baja reportada para VSR basado en difusión, reduciendo el retardo inicial de más de 4600 segundos a 0.328 segundos, convirtiéndose así en el primer método VSR de difusión adecuado para despliegue online de baja latencia. Página del proyecto: https://jamichss.github.io/stream-diffvsr-project-page/
Si bien los modelos de lenguaje de visión autoregresivos (VLMs) han logrado un éxito notable, su generación secuencial a menudo limita su eficacia en la planificación visual compleja y el control robótico dinámico. En este trabajo, investigamos el potencial de construir modelos de lenguaje de visión sobre modelos de lenguaje grandes basados en difusión (dLLMs) para superar estas limitaciones. Presentamos Dream-VL, un VLM abierto basado en difusión (dVLM) que logra un rendimiento de vanguardia entre los dVLMs anteriores. Dream-VL es comparable a los VLMs basados en AR de primer nivel entrenados con datos abiertos en varios benchmarks, pero exhibe un potencial superior cuando se aplica a tareas de planificación visual. Sobre la base de Dream-VL, presentamos Dream-VLA, un modelo de Visión-Lenguaje-Acción basado en dLLM (dVLA) desarrollado mediante pre-entrenamiento continuo en conjuntos de datos robóticos abiertos. Demostramos que la naturaleza inherentemente bidireccional de este backbone de difusión sirve como una base superior para las tareas VLA, inherentemente adecuada para la segmentación de acciones y la generación paralela, lo que conduce a una convergencia significativamente más rápida en el ajuste fino para tareas específicas. Dream-VL logra un rendimiento de primer nivel con una tasa de éxito promedio del 97.2% en LIBERO, un promedio general del 71.4% en SimplerEnv-Bridge y del 60.5% en SimplerEnv-Fractal, superando a modelos líderes como π_0 y GR00T-N1. También validamos que los dVLMs superan a los modelos baseline AR en tareas específicas bajo diferentes objetivos de entrenamiento. Liberamos tanto Dream-VL como Dream-VLA para facilitar futuras investigaciones en la comunidad.
Los modelos de difusión Transformer han avanzado significativamente la edición de imágenes al codificar imágenes condicionales e integrarlas en capas de transformadores. Sin embargo, la mayoría de las ediciones implican modificar solo pequeñas regiones, mientras que los métodos actuales procesan y eliminan ruido de todos los tokens de manera uniforme en cada paso temporal, causando cómputo redundante y potencialmente degradando áreas inalteradas. Esto plantea una pregunta fundamental: ¿Es realmente necesario regenerar cada región durante la edición? Para abordarlo, proponemos SpotEdit, un marco de edición de difusión sin entrenamiento que actualiza selectivamente solo las regiones modificadas. SpotEdit comprende dos componentes clave: SpotSelector identifica regiones estables mediante similitud perceptual y omite su cómputo reutilizando características de imágenes condicionales; SpotFusion combina adaptativamente estas características con tokens editados mediante un mecanismo de fusión dinámica, preservando coherencia contextual y calidad de edición. Al reducir el cómputo innecesario y mantener alta fidelidad en áreas no modificadas, SpotEdit logra una edición de imágenes eficiente y precisa.
El codificador de texto es un componente crítico en los modelos de difusión de texto a imagen y texto a video, determinando fundamentalmente la fidelidad semántica del contenido generado. Sin embargo, su desarrollo se ha visto obstaculizado por dos grandes desafíos: la falta de un marco de evaluación eficiente que prediga de manera fiable el rendimiento en la generación posterior, y la dificultad de adaptar eficazmente los modelos de lenguaje preentrenados para la síntesis visual. Para abordar estos problemas, presentamos GRAN-TED, un paradigma para Generar Incrustaciones de Texto Robustas, Alineadas y Matizadas para modelos de Difusión. Nuestra contribución es doble. En primer lugar, proponemos TED-6K, un nuevo benchmark basado únicamente en texto que permite una evaluación eficiente y robusta de la calidad representacional de un codificador sin requerir el costoso entrenamiento de modelos de extremo a extremo. Demostramos que el rendimiento en TED-6K, estandarizado mediante un adaptador unificado y ligero, se correlaciona fuertemente con la efectividad de un codificador en tareas de generación posteriores. Cabe destacar que, en nuestra configuración experimental, en comparación con entrenar un modelo de difusión desde cero, la evaluación con TED-6K es aproximadamente 750 veces más rápida. En segundo lugar, guiados por este marco validado, desarrollamos un codificador de texto superior utilizando un nuevo paradigma de entrenamiento en dos etapas. Este proceso implica una etapa inicial de ajuste fino en un Modelo de Lenguaje Grande Multimodal para una mejor representación visual, seguida de un método de ponderación por capas para extraer características de texto más matizadas y potentes. Nuestros experimentos muestran que el codificador GRAN-TED resultante no solo logra un rendimiento de vanguardia en TED-6K, sino que también conduce a ganancias de rendimiento demostrables en la generación de texto a imagen y texto a video. Nuestro conjunto de datos TED-6K y el código de evaluación están disponibles en el siguiente enlace: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
La especificación de tareas de manipulación robótica de manera expresiva y precisa sigue siendo un desafío central. Si bien los objetivos visuales proporcionan una especificación de tarea compacta y no ambigua, las políticas existentes condicionadas por objetivos a menudo luchan con la manipración de horizonte largo debido a su dependencia de la predicción de acciones de un solo paso sin un modelado explícito del progreso de la tarea. Proponemos Act2Goal, una política de manipulación general condicionada por objetivos que integra un modelo visual del mundo condicionado por objetivos con control temporal multi-escala. Dada una observación actual y un objetivo visual destino, el modelo del mundo genera una secuencia plausible de estados visuales intermedios que captura la estructura de horizonte largo. Para traducir este plan visual en una ejecución robusta, introducimos el *Hashing Temporal Multi-Escala* (MSTH), que descompone la trayectoria imaginada en fotogramas proximales densos para un control de bucle cerrado de grano fino y fotogramas distales dispersos que anclan la consistencia global de la tarea. La política acopla estas representaciones con el control motor mediante atención cruzada de extremo a extremo, permitiendo un comportamiento coherente a largo plazo mientras se mantiene reactiva a las perturbaciones locales. Act2Goal logra una fuerte generalización *zero-shot* a objetos nuevos, disposiciones espaciales y entornos. Además, habilitamos una adaptación online libre de recompensas mediante el re-etiquetado de objetivos *hindsight* con ajuste fino basado en LoRA, permitiendo una mejora autónoma rápida sin supervisión externa. Los experimentos con robots reales demuestran que Act2Goal mejora las tasas de éxito del 30% al 90% en tareas desafiantes fuera de distribución en minutos de interacción autónoma, validando que los modelos del mundo condicionados por objetivos con control temporal multi-escala proporcionan la guía estructurada necesaria para una manipulación robusta de horizonte largo. Página del proyecto: https://act2goal.github.io/
Los agentes lingüísticos requieren cada vez más mundos persistentes en los que puedan actuar, recordar y aprender. Los enfoques existentes se sitúan en dos extremos: los frameworks web convencionales proporcionan contextos fiables pero fijos respaldados por bases de datos, mientras que los modelos de mundo completamente generativos aspiran a entornos ilimitados a costa de la controlabilidad y la ingeniería práctica. En este trabajo, presentamos el Modelo de Mundo Web (WWM), un punto intermedio en el que el estado del mundo y la "física" se implementan en código web ordinario para garantizar la coherencia lógica, mientras que los modelos de lenguaje grande generan contexto, narrativas y decisiones de alto nivel sobre este estado latente estructurado. Construimos un conjunto de WWM sobre una pila web realista, que incluye un atlas de viaje infinito basado en geografía real, exploradores de galaxias ficticias, mundos enciclopédicos y narrativos a escala web, y entornos similares a simulaciones y videojuegos. A través de estos sistemas, identificamos principios de diseño prácticos para los WWM: separar las reglas definidas por código de la imaginación impulsada por modelos, representar el estado latente como interfaces web tipadas y utilizar la generación determinista para lograr una exploración ilimitada pero estructurada. Nuestros resultados sugieren que las pilas web en sí mismas pueden servir como un sustrato escalable para modelos de mundo, permitiendo entornos controlables pero de final abierto. Página del proyecto: https://github.com/Princeton-AI2-Lab/Web-World-Models.
Los Modelos de Lenguaje de Difusión (dLLMs) han surgido como alternativas prometedoras a los modelos auto-regresivos (AR). Si bien esfuerzos recientes han validado su potencial en el pre-entrenamiento y han acelerado las velocidades de inferencia, el panorama del post-entrenamiento para los dLLMs sigue estando poco desarrollado. Los métodos existentes adolecen de ineficiencia computacional y desalineación entre los objetivos de entrenamiento e inferencia, lo que limita severamente el rendimiento en tareas de razonamiento complejo como las matemáticas. Para abordar esto, presentamos DiRL, un marco de post-entrenamiento eficiente que integra estrechamente el entrenamiento por bloques acelerado por FlexAttention con la inferencia optimizada por LMDeploy. Esta arquitectura permite un ciclo de actualización del modelo en línea optimizado, facilitando un post-entrenamiento eficiente en dos etapas (Ajuste Fino Supervisado seguido de Aprendizaje por Refuerzo). Sobre esta base, proponemos DiPO, la primera implementación imparcial de Optimización de Políticas Relativas Grupales (GRPO) diseñada para dLLMs. Validamos nuestro enfoque entrenando DiRL-8B-Instruct con datos matemáticos de alta calidad. Nuestro modelo logra un rendimiento matemático de vanguardia entre los dLLMs y supera a modelos comparables de la serie Qwen2.5 en varios benchmarks.
Los co-científicos de IA están surgiendo como una herramienta para ayudar a los investigadores humanos a alcanzar sus objetivos de investigación. Una característica crucial de estos co-científicos de IA es la capacidad de generar un plan de investigación a partir de un conjunto de objetivos y restricciones. Los investigadores pueden utilizar el plan para lluvias de ideas, o incluso implementarlo tras un refinamiento adicional. Sin embargo, los modelos de lenguaje actualmente tienen dificultades para generar planes de investigación que cumplan con todas las restricciones y requisitos implícitos. En este trabajo, estudiamos cómo aprovechar el vasto corpus de artículos de investigación existentes para entrenar modelos de lenguaje que generen mejores planes de investigación. Construimos un corpus de entrenamiento escalable y diverso extrayendo automáticamente objetivos de investigación y rúbricas de evaluación específicas para cada objetivo de artículos de diversos dominios. Luego entrenamos modelos para la generación de planes de investigación mediante aprendizaje por refuerzo con autoevaluación. Una copia congelada de la política inicial actúa como evaluador durante el entrenamiento, creando las rúbricas una brecha generador-verificador que permite mejoras sin supervisión humana externa. Para validar este enfoque, realizamos un estudio con expertos humanos para objetivos de investigación en aprendizaje automático, abarcando 225 horas. Los expertos prefieren los planes generados por nuestro modelo afinado Qwen3-30B-A3B sobre el modelo inicial para el 70% de los objetivos de investigación, y aprueban el 84% de las rúbricas de evaluación específicas extraídas automáticamente. Para evaluar la generalidad, también extendemos nuestro enfoque a objetivos de investigación de artículos médicos y nuevos preprints de arXiv, evaluando con un jurado de modelos de última generación. Nuestro ajuste fino produce mejoras relativas del 12-22% y una generalización cruzada de dominios significativa, demostrando ser eficaz incluso en entornos problemáticos como la investigación médica donde la retroalimentación por ejecución es inviable. En conjunto, estos hallazgos demuestran el potencial de una receta de entrenamiento automatizada y escalable como un paso hacia la mejora de los co-científicos de IA generales.
La evolución de agentes autónomos está redefiniendo la búsqueda de información, transitando desde la recuperación pasiva hacia la investigación web proactiva y de final abierto. Sin embargo, mientras que los agentes textuales y multimodales estáticos han experimentado un rápido progreso, persiste una brecha modal significativa en el procesamiento de la modalidad más dinámica de la web: el video. Los puntos de referencia existentes para video se centran predominantemente en la percepción pasiva, alimentando a los modelos con clips seleccionados sin requerir recuperación externa. Estos no logran evaluar la investigación agentiva de video, que requiere interrogar activamente las líneas de tiempo de los videos, realizar referencias cruzadas de evidencia dispersa y verificar afirmaciones contra la web abierta. Para cerrar esta brecha, presentamos Video-BrowseComp, un punto de referencia desafiante que comprende 210 preguntas diseñadas para el razonamiento agentivo de video en la web abierta. A diferencia de puntos de referencia anteriores, Video-BrowseComp impone una dependencia obligatoria de la evidencia visual temporal, asegurando que las respuestas no puedan derivarse únicamente mediante búsqueda de texto, sino que requieran navegar las líneas de tiempo de video para verificar afirmaciones externas. Nuestra evaluación de modelos de última generación revela un cuello de botella crítico: incluso modelos avanzados aumentados con búsqueda, como GPT-5.1 (con Búsqueda), alcanzan solo un 15.24% de precisión. Nuestro análisis revela que estos modelos dependen en gran medida de proxies textuales, destacando en dominios ricos en metadatos (por ejemplo, programas de TV con resúmenes de trama) pero colapsando en entornos dinámicos con metadatos escasos (por ejemplo, deportes, gameplay) donde la base visual es esencial. Como el primer punto de referencia de investigación de video en la web abierta, Video-BrowseComp impulsa el campo más allá de la percepción pasiva hacia el razonamiento proactivo con video.
En la mayoría de las tareas de navegación corporizada existentes, las instrucciones están bien definidas y son inequívocas, como el seguimiento de instrucciones y la búsqueda de objetos. Bajo este escenario idealizado, los agentes solo deben producir salidas de navegación efectivas condicionadas por las entradas visuales y lingüísticas. Sin embargo, las instrucciones de navegación del mundo real a menudo son vagas y ambiguas, lo que requiere que el agente resuelva la incertidumbre e infiera la intención del usuario mediante un diálogo activo. Para abordar esta brecha, proponemos la Navegación de Objetos por Instancia Interactiva (IION), una tarea que requiere que los agentes no solo generen acciones de navegación, sino que también produzcan salidas lingüísticas mediante un diálogo activo, alineándose así más con entornos prácticos. IION extiende la Navegación de Objetos por Instancia (ION) al permitir que los agentes consulten libremente a un oráculo en lenguaje natural mientras navegan. Basándonos en esta tarea, presentamos el benchmark VL-LN (Vision Language-Language Navigation), que proporciona un conjunto de datos de gran escala generado automáticamente y un protocolo de evaluación integral para entrenar y evaluar modelos de navegación habilitados para el diálogo. VL-LN comprende más de 41.000 trayectorias aumentadas con diálogo de largo horizonte para entrenamiento y un protocolo de evaluación automática con un oráculo capaz de responder a las consultas de los agentes. Utilizando este benchmark, entrenamos un modelo de navegación equipado con capacidades de diálogo y demostramos que logra mejoras significativas respecto a los modelos de referencia. Experimentos y análisis exhaustivos demuestran además la efectividad y confiabilidad de VL-LN para impulsar la investigación en navegación corporizada habilitada para el diálogo. Código y dataset: https://0309hws.github.io/VL-LN.github.io/
Los modelos lingüísticos grandes omnimodales han logrado avances significativos en la unificación de los modalidades auditivo y visual; sin embargo, a menudo carecen de una comprensión multimodal detallada y presentan dificultades con la alineación multimodal. Para abordar estas limitaciones, presentamos OmniAgent, un agente de percepción activa completamente guiado por audio que orquesta dinámicamente herramientas especializadas para lograr un razonamiento audiovisual más granular. A diferencia de trabajos anteriores que dependen de flujos de trabajo estáticos y rígidos con descripción densa de fotogramas, este artículo demuestra un cambio de paradigma, pasando de la generación pasiva de respuestas al interrogatorio multimodal activo. OmniAgent emplea una planificación dinámica para orquestar de forma autónoma la invocación de herramientas bajo demanda, concentrando estratégicamente la atención perceptual en las claves relevantes para la tarea. Es central en nuestro enfoque un novedoso paradigma de percepción guiada por audio de grueso a fino, que aprovecha las pistas auditivas para localizar eventos temporales y guiar el razonamiento subsiguiente. Evaluaciones empíricas exhaustivas en tres benchmarks de comprensión audio-video demuestran que OmniAgent alcanza un rendimiento de vanguardia, superando a los principales modelos de código abierto y propietarios por márgenes sustanciales del 10% al 20% en precisión.
Los agentes de búsqueda de información (IS) han logrado un rendimiento sólido en diversas tareas de búsqueda amplia y profunda, aunque su uso de herramientas sigue limitado principalmente a la recuperación de fragmentos a nivel de API y la obtención de páginas basada en URL, lo que restringe el acceso a la información más rica disponible mediante la navegación real. Si bien la interacción completa con el navegador podría desbloquear capacidades más profundas, su control de grano fino y las respuestas de contenido de página detalladas introducen una complejidad sustancial para los agentes de llamada a funciones estilo ReAct. Para cerrar esta brecha, proponemos el Aprendizaje de Uso de Navegador Anidado (NestBrowse), que introduce un marco de acciones de navegador mínimo y completo que desacopla el control de la interacción de la exploración de páginas mediante una estructura anidada. Este diseño simplifica el razonamiento agéntico al tiempo que permite una adquisición efectiva de información de la web profunda. Los resultados empíricos en benchmarks desafiantes de IS profunda demuestran que NestBrowse ofrece beneficios claros en la práctica. Análisis más profundos subrayan su eficiencia y flexibilidad.
Los métodos existentes de detección de objetos en tiempo real (RTOD) comúnmente adoptan arquitecturas similares a YOLO por su favorable equilibrio entre precisión y velocidad. Sin embargo, estos modelos dependen de un cómputo denso estático que aplica un procesamiento uniforme a todas las entradas, malgastando capacidad de representación y recursos computacionales, como por ejemplo, asignando en exceso a escenas triviales mientras se infra-sirve a las complejas. Esta discrepancia resulta en redundancia computacional y un rendimiento de detección subóptimo. Para superar esta limitación, proponemos YOLO-Master, un novedoso marco similar a YOLO que introduce cómputo adaptativo condicionado por instancia para RTOD. Esto se logra mediante un bloque de Mezcla Eficiente de Expertos Dispersos (ES-MoE) que asigna dinámicamente recursos computacionales a cada entrada según su complejidad escénica. En su núcleo, una red de enrutamiento dinámico ligero guía la especialización de los expertos durante el entrenamiento mediante un objetivo que mejora la diversidad, fomentando una experiencia complementaria entre los expertos. Adicionalmente, la red de enrutamiento aprende de forma adaptativa a activar solo los expertos más relevantes, mejorando así el rendimiento de detección mientras minimiza la sobrecarga computacional durante la inferencia. Experimentos exhaustivos en cinco benchmarks a gran escala demuestran la superioridad de YOLO-Master. En MS COCO, nuestro modelo alcanza un 42.4% AP con una latencia de 1.62ms, superando a YOLOv13-N en +0.8% mAP y siendo un 17.8% más rápido en inferencia. Notablemente, las mejoras son más pronunciadas en escenas densas y desafiantes, mientras que el modelo preserva la eficiencia en entradas típicas y mantiene la velocidad de inferencia en tiempo real. El código estará disponible.
La escaseza de datos sigue siendo una barrera fundamental para lograr robots quirúrgicos completamente autónomos. Si bien los modelos de visión, lenguaje y acción (VLA) a gran escala han demostrado una impresionante capacidad de generalización en la manipulación doméstica e industrial al aprovechar datos de acciones en video pareados de diversos dominios, la robótica quirúrgica sufre de la escasez de conjuntos de datos que incluyan tanto observaciones visuales como cinemáticas robóticas precisas. Por el contrario, existen vastos corpus de videos quirúrgicos, pero carecen de las etiquetas de acción correspondientes, lo que impide la aplicación directa del aprendizaje por imitación o del entrenamiento VLA. En este trabajo, nuestro objetivo es aliviar este problema aprendiendo modelos de políticas a partir de SurgWorld, un modelo mundial diseñado para la IA física quirúrgica. Curramos el conjunto de datos SATA (Alineación de Texto de Acción Quirúrgica) con descripciones de acción detalladas específicamente para robots quirúrgicos. Luego, construimos SurgWorld basándonos en el modelo mundial de IA física más avanzado y en SATA. Este es capaz de generar videos quirúrgicos diversos, generalizables y realistas. También somos los primeros en utilizar un modelo de dinámica inversa para inferir pseudocinemáticas a partir de videos quirúrgicos sintéticos, produciendo datos sintéticos de acciones en video pareados. Demostramos que una política VLA quirúrgica entrenada con estos datos aumentados supera significativamente a los modelos entrenados únicamente con demostraciones reales en una plataforma robótica quirúrgica real. Nuestro enfoque ofrece un camino escalable hacia la adquisición autónoma de habilidades quirúrgicas al aprovechar la abundancia de video quirúrgico sin etiquetar y el modelado mundial generativo, abriendo así la puerta a políticas de robots quirúrgicos generalizables y eficientes en datos.
La proliferación de modelos de lenguaje grandes (LLM) ha catalizado un cambio hacia agentes autónomos capaces de razonamiento complejo y uso de herramientas. Sin embargo, las arquitecturas de agentes actuales se construyen frecuentemente utilizando patrones imperativos y ad hoc. Esto da lugar a sistemas frágiles plagados de dificultades en la gestión del estado, el manejo de errores y la concurrencia. Este artículo presenta la Ingeniería de Contextos Monádicos (MCE), un nuevo paradigma arquitectónico que aprovecha las estructuras algebraicas de Funtores, Funtores Aplicativos y Mónadas para proporcionar una base formal para el diseño de agentes. MCE trata los flujos de trabajo de los agentes como contextos computacionales donde las preocupaciones transversales, como la propagación del estado, el manejo de errores con cortocircuito y la ejecución asíncrona, se gestionan intrínsecamente mediante las propiedades algebraicas de la abstracción. Demostramos cómo las Mónadas permiten una composición secuencial robusta, cómo los Funtores Aplicativos proporcionan una estructura fundamentada para la ejecución en paralelo y, crucialmente, cómo los Transformadores de Mónadas permiten la composición sistemática de estas capacidades. Este enfoque por capas permite a los desarrolladores construir agentes de IA complejos, resilientes y eficientes a partir de componentes simples e independientemente verificables. Extendemos además este marco para describir Meta-Agentes, que aprovechan MCE para la orquestación generativa, creando y gestionando dinámicamente flujos de trabajo de subagentes mediante metaprogramación. Página del proyecto: https://github.com/yifanzhang-pro/monadic-context-engineering.
Los sistemas de agentes basados en modelos de lenguaje (LM) impulsan aplicaciones modernas como "Deep Research" y "Claude Code", y aprovechan arquitecturas multi-LM para superar las limitaciones de contexto. Bajo su aparente diversidad subyace un patrón recurrente: LM "compresores" más pequeños (que incluso pueden ejecutarse localmente) destilan el contexto crudo en texto compacto que luego es consumido por LM "predictores" más grandes. A pesar de su popularidad, el diseño de los sistemas compresor-predector sigue siendo en gran medida ad hoc, con poca orientación sobre cómo las elecciones del compresor y del prededor moldean el rendimiento final. En la práctica, atribuir las mejoras a la compresión versus la predicción requiere costosos barridos por pares específicos de cada tarea. Sostenemos que estas cuestiones de diseño de sistemas agentes son, en esencia, información-teóricas. Visualizando el LM compresor como un canal ruidoso, introducimos un estimador simple de la información mutua entre el contexto y su compresión para cuantificar la calidad de la compresión de manera independiente de la tarea. Demostramos que la información mutua predice fuertemente el rendimiento posterior, independientemente de cualquier tarea específica. Mediante un marco información-teórico, realizamos un análisis empírico exhaustivo en cinco conjuntos de datos y tres familias de modelos. Los resultados revelan que los compresores más grandes no solo son más precisos, sino también más eficientes en tokens, transmitiendo más bits de información por token. Un compresor Qwen-2.5 de 7B, por ejemplo, es 1.6 veces más preciso, 4.6 veces más conciso y transmite 5.5 veces más bits de información mutua por token que su homólogo de 1.5B. En todos los conjuntos de datos, escalar los compresores es sustancialmente más efectivo que escalar los predictores, permitiendo que compresores más grandes locales se emparejen con predictores en la nube más pequeños. Aplicados a un sistema de Deep Research, estos principios permiten que compresores locales de apenas 3B parámetros recuperen el 99% de la precisión de un LM de vanguardia con solo el 26% de los costos de API.
Los recientes avances en visión por computadora han extendido con éxito la segmentación de vocabulario abierto (OVS) al dominio 3D mediante el uso de 3D Gaussian Splatting (3D-GS). A pesar de este progreso, la renderización eficiente de las características de alta dimensión requeridas para consultas de vocabulario abierto presenta un desafío significativo. Los métodos existentes emplean codebooks o compresión de características, lo que provoca pérdida de información y, en consecuencia, degrada la calidad de la segmentación. Para abordar esta limitación, presentamos Quantile Rendering (Q-Render), una novedosa estrategia de renderizado para Gaussianas 3D que maneja eficientemente características de alta dimensión manteniendo una alta fidelidad. A diferencia de la renderización volumétrica convencional, que muestrea densamente todas las Gaussianas 3D que intersectan cada rayo, Q-Render muestrea de forma dispersa únicamente aquellas con influencia dominante a lo largo del rayo. Al integrar Q-Render en una red neuronal 3D generalizable, también proponemos Gaussian Splatting Network (GS-Net), que predice las características Gaussianas de manera generalizable. Experimentos exhaustivos en ScanNet y LeRF demuestran que nuestro marco supera a los métodos state-of-the-art, permitiendo al mismo tiempo una renderización en tiempo real con una aceleración aproximada de ~43.7x en mapas de características de 512-D. El código estará disponible públicamente.
El principal obstáculo para aplicar el aprendizaje por refuerzo (RL) a la robótica del mundo real es el diseño de funciones de recompensa efectivas. Si bien los Modelos de Recompensa de Proceso (PRM) basados en aprendizaje son una dirección prometedora recientemente, a menudo se ven obstaculizados por dos limitaciones fundamentales: sus modelos de recompensa carecen de una comprensión consciente de la etapa y dependen de una percepción de vista única, lo que lleva a evaluaciones poco fiables del progreso de la manipulación de grano fino; y sus procedimientos de conformación de recompensas son teóricamente incorrectos, induciendo a menudo una trampa semántica que desorienta la optimización de políticas. Para abordar estos problemas, presentamos Dopamine-Reward, un novedoso método de modelado de recompensas para aprender un modelo de recompensa de proceso de propósito general y consciente de la etapa a partir de entradas multivista. En su núcleo se encuentra nuestro Modelo de Recompensa General (GRM), entrenado en un vasto conjunto de datos de más de 3.400 horas, que aprovecha la Discretización de Recompensas por Etapas para la comprensión estructural y la Fusión de Recompensas Multiperspectiva para superar las limitaciones perceptivas. Basándonos en Dopamine-Reward, proponemos Dopamine-RL, un marco robusto de aprendizaje de políticas que emplea un método de Conformación de Recompensas Invariante a la Política teóricamente sólido, que permite al agente aprovechar recompensas densas para una auto-mejora eficiente sin alterar la política óptima, evitando así fundamentalmente la trampa semántica. Extensos experimentos en diversas tareas simuladas y del mundo real validan nuestro enfoque. GRM logra una precisión de vanguardia en la evaluación de recompensas, y Dopamine-RL, construido sobre GRM, mejora significativamente la eficiencia del aprendizaje de políticas. Por ejemplo, después de que GRM se adapta a una nueva tarea de manera one-shot a partir de una única trayectoria experta, el modelo de recompensa resultante permite a Dopamine-RL mejorar la política de casi cero a un 95% de éxito con solo 150 rollouts en línea (aproximadamente 1 hora de interacción real con el robot), manteniendo al mismo tiempo una fuerte generalización entre tareas. Sitio web del proyecto: https://robo-dopamine.github.io
La rápida evolución de los modelos generativos ha dado lugar a una aparición continua de riesgos de seguridad multimodal, exponiendo las limitaciones de los métodos de defensa existentes. Para abordar estos desafíos, proponemos ProGuard, un guardia proactivo de visión y lenguaje que identifica y describe riesgos de seguridad fuera de distribución (OOD) sin necesidad de los ajustes de modelo que requieren los enfoques reactivos tradicionales. Primero construimos un conjunto de datos equilibrado multimodal de 87K muestras, cada una anotada con etiquetas de seguridad binarias y categorías de riesgo bajo una taxonomía de seguridad multimodal jerárquica, mitigando eficazmente el sesgo de modalidad y garantizando una moderación consistente en entradas de texto, imagen y texto-imagen. Basándonos en este conjunto de datos, entrenamos nuestro modelo base de visión y lenguaje únicamente mediante aprendizaje por refuerzo (RL) para lograr un razonamiento eficiente y conciso. Para aproximar escenarios de seguridad proactiva en un entorno controlado, introducimos además una tarea de inferencia de categorías de seguridad OOD y aumentamos el objetivo de RL con una recompensa de similitud basada en un banco de sinónimos que incentiva al modelo a generar descripciones concisas para categorías no seguras no vistas. Los resultados experimentales muestran que ProGuard alcanza un rendimiento comparable al de los grandes modelos cerrados en clasificación de seguridad binaria, y supera sustancialmente a los modelos guardia de código abierto existentes en categorización de contenido no seguro. Más notablemente, ProGuard ofrece una fuerte capacidad de moderación proactiva, mejorando la detección de riesgos OOD en un 52.6% y la descripción de riesgos OOD en un 64.8%.
Los sistemas existentes de creación de vídeos impulsados por IA suelen tratar la redacción de guiones y el diseño de planos clave como dos tareas separadas: la primera se basa en modelos de lenguaje extenso, mientras que la segunda depende de modelos de generación de imágenes. Sostenemos que estas dos tareas deberían unificarse en un único marco, ya que el razonamiento lógico y el pensamiento imaginativo son cualidades fundamentales de un director de cine. En este trabajo, proponemos UniMAGE, un modelo de director unificado que conecta las indicaciones del usuario con guiones bien estructurados, permitiendo así a los no expertos producir películas de contexto largo y múltiples planos aprovechando los modelos existentes de generación de audio y vídeo. Para lograrlo, empleamos la arquitectura Mixture-of-Transformers que unifica la generación de texto e imagen. Para mejorar aún más la lógica narrativa y la coherencia de los fotogramas clave, introducimos un paradigma de entrenamiento de "primero entrelazar, luego separar". Específicamente, primero realizamos un Aprendizaje de Conceptos Entrelazados, que utiliza datos de texto e imagen entrelazados para fomentar la comprensión más profunda y la interpretación imaginativa de los guiones por parte del modelo. Luego llevamos a cabo un Aprendizaje Experto Separado, que desacopla la escritura del guión de la generación de fotogramas clave, permitiendo una mayor flexibilidad y creatividad en la narración. Experimentos exhaustivos demuestran que UniMAGE logra un rendimiento de vanguardia entre los modelos de código abierto, generando guiones de vídeo lógicamente coherentes e imágenes de fotogramas clave visualmente consistentes.
La animación de retratos en tiempo real es esencial para aplicaciones interactivas como asistentes virtuales y avatares en vivo, requiriendo alta fidelidad visual, coherencia temporal, latencia ultrabaja y control responsivo a partir de entradas dinámicas como imágenes de referencia y señales de control. Si bien los modelos basados en difusión logran una calidad sólida, su naturaleza no causal dificulta su implementación en streaming. Los enfoques de generación de video autoregresivos causales permiten una generación eficiente fotograma a fotograma, pero sufren de acumulación de errores, discontinuidades de movimiento en los límites de los segmentos y degradación de la coherencia a largo plazo. En este trabajo, presentamos un novedoso framework de streaming denominado Knot Forcing para animación de retratos en tiempo real que aborda estos desafíos mediante tres diseños clave: (1) una estrategia de generación por segmentos con preservación global de la identidad mediante estados KV en caché de la imagen de referencia y modelado temporal local usando atención de ventana deslizante; (2) un módulo de nudo temporal que superpone segmentos adyacentes y propaga señales espacio-temporales mediante condicionamiento imagen-a-video para suavizar las transiciones de movimiento entre segmentos; y (3) un mecanismo de "avance dinámico" que actualiza dinámicamente la coordenada temporal del fotograma de referencia durante la inferencia, manteniendo su contexto semántico adelantado al fotograma actual de despliegue para apoyar la coherencia a largo plazo. Knot Forcing permite una animación de retratos de alta fidelidad, temporalmente coherente e interactiva sobre secuencias infinitas, logrando rendimiento en tiempo real con una sólida estabilidad visual en GPUs de grado consumidor.
La evaluación del rendimiento de diversas arquitecturas de modelos, como los transformadores, los modelos de lenguaje extenso (LLM) y otros sistemas de PLN, requiere puntos de referencia integrales que midan el desempeño en múltiples dimensiones. Entre estas, la evaluación de la comprensión del lenguaje natural (CLN) es particularmente crítica, ya que sirve como un criterio fundamental para valorar las capacidades de los modelos. Por lo tanto, es esencial establecer benchmarks que permitan una evaluación y un análisis exhaustivo de las habilidades de CLN desde diversas perspectivas. Si bien el benchmark GLUE ha establecido un estándar para evaluar la CLN en inglés, se han desarrollado benchmarks similares para otros idiomas, como CLUE para chino, FLUE para francés y JGLUE para japonés. Sin embargo, actualmente no existe un benchmark comparable para el idioma turco. Para abordar esta brecha, presentamos TrGLUE, un benchmark integral que abarca una variedad de tareas de CLN para el turco. Adicionalmente, presentamos SentiTurca, un benchmark especializado para el análisis de sentimientos. Para apoyar a los investigadores, también proporcionamos código de ajuste fino y evaluación para modelos basados en transformadores, facilitando el uso efectivo de estos benchmarks. TrGLUE comprende corpus nativos en turco, seleccionados para reflejar los dominios y formulaciones de tareas de las evaluaciones al estilo GLUE, con etiquetas obtenidas mediante un proceso semi-automatizado que combina anotación robusta basada en LLM, verificaciones de concordancia entre modelos y una posterior validación humana. Este diseño prioriza la naturalidad lingüística, minimiza artefactos de traducción directa y produce un flujo de trabajo escalable y reproducible. Con TrGLUE, nuestro objetivo es establecer un marco de evaluación sólido para la CLN del turco, empoderar a los investigadores con recursos valiosos y proporcionar insights para la generación de conjuntos de datos semi-automatizados de alta calidad.
Lograr que el entrenamiento y la inferencia de los modelos de recomendación de aprendizaje profundo (DLRM) sean rápidos y eficientes es importante. Sin embargo, esto presenta tres desafíos clave a nivel de sistema: la diversidad de arquitecturas de modelos, la diversidad de primitivas de kernels y la heterogeneidad de generaciones de hardware y arquitecturas. Este artículo presenta KernelEvolve, un marco de trabajo de codificación de kernels basado en agentes, para abordar la heterogeneidad a gran escala en los DLRM. KernelEvolve está diseñado para tomar especificaciones de kernels como entrada y automatizar el proceso de generación y optimización de kernels para modelos de recomendación en diversas arquitecturas de hardware heterogéneas. KernelEvolve lo hace operando en múltiples niveles de abstracción de programación, desde DSLs como Triton y CuTe hasta lenguajes de bajo nivel independientes del hardware, abarcando toda la pila de optimización hardware-software. El proceso de optimización de kernels se describe como una búsqueda basada en grafos con una política de selección, un operador universal, una función de aptitud y una regla de terminación, que se adapta dinámicamente al contexto de ejecución en tiempo de ejecución mediante la síntesis de prompts aumentada con recuperación de información. Hemos diseñado, implementado y desplegado KernelEvolve para optimizar una amplia variedad de modelos de recomendación en producción a lo largo de generaciones de GPUs de NVIDIA y AMD, así como de los aceleradores de IA de Meta. Validamos KernelEvolve en el conjunto de pruebas públicamente disponible KernelBench, logrando una tasa de aprobación del 100% en los 250 problemas de los tres niveles de dificultad, y en 160 operadores ATen de PyTorch en tres plataformas de hardware heterogéneas, demostrando un 100% de corrección. KernelEvolve reduce el tiempo de desarrollo de semanas a horas y logra mejoras sustanciales de rendimiento respecto a las líneas base de PyTorch en diversos casos de uso en producción y para sistemas de IA heterogéneos a gran escala. Más allá de las mejoras en eficiencia de rendimiento, KernelEvolve mitifica significativamente la barrera de programabilidad para nuevo hardware de IA al permitir la generación automatizada de kernels para hardware de IA desarrollado internamente.
Presentamos el Self-Evaluating Model (Self-E), un novedoso enfoque de entrenamiento desde cero para generación de texto a imagen que admite inferencia en cualquier número de pasos. Self-E aprende de los datos de manera similar a un modelo de Flow Matching, mientras emplea simultáneamente un novedoso mecanismo de autoevaluación: evalúa sus propias muestras generadas utilizando sus estimaciones de puntuación actuales, funcionando efectivamente como un profesor dinámico consigo mismo. A diferencia de los modelos de difusión o flujo tradicionales, no depende únicamente de la supervisión local, que normalmente requiere muchos pasos de inferencia. A diferencia de los enfoques basados en destilación, no requiere un modelo profesor preentrenado. Esta combinación de aprendizaje local instantáneo y emparejamiento global autodirigido cierra la brecha entre los dos paradigmas, permitiendo el entrenamiento de un modelo de texto a imagen de alta calidad desde cero que sobresale incluso con conteos de pasos muy bajos. Experimentos exhaustivos en benchmarks de texto a imagen a gran escala muestran que Self-E no solo sobresale en generación con pocos pasos, sino que también es competitivo con los modelos de Flow Matching de última generación a 50 pasos. Además, encontramos que su rendimiento mejora monótonamente a medida que aumentan los pasos de inferencia, permitiendo tanto una generación ultrarrápida con pocos pasos como un muestreo de alta calidad con trayectorias largas dentro de un único modelo unificado. Hasta donde sabemos, Self-E es el primer modelo de texto a imagen entrenado desde cero y para cualquier número de pasos, que ofrece un marco unificado para una generación eficiente y escalable.
Presentamos el sorprendente hallazgo de que las capacidades de razonamiento de un modelo de lenguaje pueden mejorarse entrenándolo con conjuntos de datos sintéticos de trazas de cadena de pensamiento (CoT) provenientes de modelos más capaces, incluso cuando todas esas trazas conducen a una respuesta final incorrecta. Nuestros experimentos muestran que este enfoque puede producir un mejor rendimiento en tareas de razonamiento que el entrenamiento con conjuntos de datos anotados por humanos. Planteamos la hipótesis de que dos factores clave explican este fenómeno: primero, la distribución de los datos sintéticos es inherentemente más cercana a la distribución propia del modelo de lenguaje, lo que los hace más susceptibles de ser aprendidos. Segundo, estas trazas "incorrectas" a menudo solo están parcialmente equivocadas y contienen pasos de razonamiento válidos de los que el modelo puede aprender. Para probar más a fondo la primera hipótesis, utilizamos un modelo de lenguaje para parafrasear trazas anotadas por humanos —desplazando su distribución para acercarla a la del propio modelo— y demostramos que esto mejora el rendimiento. Para la segunda hipótesis, introducimos trazas CoT con errores progresivamente mayores y estudiamos hasta qué punto los modelos son tolerantes a estos fallos. Demostramos nuestros hallazgos en varios dominios de razonamiento como matemáticas, razonamiento algorítmico y generación de código, utilizando los conjuntos de datos MATH, GSM8K, Countdown y MBPP en varios modelos de lenguaje que van desde 1.5B hasta 9B parámetros, incluyendo modelos Qwen, Llama y Gemma. Nuestro estudio muestra que la curación de conjuntos de datos que están más cerca de la distribución del modelo es un aspecto crítico a considerar. También demostramos que una respuesta final correcta no siempre es un indicador confiable de un proceso de razonamiento fiable.
Los modelos de difusión recientes de texto a imagen han demostrado una capacidad notable para generar rostros realistas condicionados por indicaciones textuales e identidades humanas, permitiendo la creación de imágenes faciales personalizadas. Sin embargo, los métodos existentes basados en indicaciones para eliminar o modificar rasgos específicos de la identidad dependen de que el sujeto esté bien representado en el modelo preentrenado o requieren un ajuste fino del modelo para identidades específicas. En este trabajo, analizamos el proceso de generación de identidad e introducimos un marco de personalización inversa para el anonimato facial. Nuestro enfoque aprovecha la inversión de difusión condicional, permitiendo la manipulación directa de imágenes sin utilizar indicaciones de texto. Para generalizar más allá de los sujetos en los datos de entrenamiento del modelo, incorporamos una rama de condicionamiento guiada por identidad. A diferencia de los métodos de anonimización anteriores, que carecen de control sobre los atributos faciales, nuestro marco admite una anonimización con control de atributos. Demostramos que nuestro método logra un equilibrio de vanguardia entre la eliminación de la identidad, la preservación de atributos y la calidad de la imagen. El código fuente y los datos están disponibles en https://github.com/hanweikung/reverse-personalization.