Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos STEP3-VL-10B, un modelo base de código abierto y ligero diseñado para redefinir el equilibrio entre la eficiencia compacta y una inteligencia multimodal de vanguardia. STEP3-VL-10B se materializa mediante dos cambios estratégicos: primero, una estrategia unificada de pre-entrenamiento completamente descongelado sobre 1,2 billones de tokens multimodales que integra un Codificador de Percepción alineado lingüísticamente con un decodificador Qwen3-8B para establecer una sinergia visión-lenguaje intrínseca; y segundo, un pipeline escalado de post-entrenamiento que incluye más de 1.000 iteraciones de aprendizaje por refuerzo. De manera crucial, implementamos el Razonamiento Coordinado en Paralelo (PaCoRe) para escalar el cómputo en tiempo de prueba, asignando recursos a un razonamiento perceptual escalable que explora y sintetiza diversas hipótesis visuales. En consecuencia, a pesar de su huella compacta de 10B, STEP3-VL-10B rivaliza o supera a modelos de 10 a 20 veces más grandes (por ejemplo, GLM-4.6V-106B, Qwen3-VL-235B) y a modelos propietarios insignia de primer nivel como Gemini 2.5 Pro y Seed-1.5-VL. Ofreciendo un rendimiento líder, registra un 92,2 % en MMBench y un 80,11 % en MMMU, mientras que sobresale en razonamiento complejo con un 94,43 % en AIME2025 y un 75,95 % en MathVision. Publicamos la suite completa del modelo para proporcionar a la comunidad una base de referencia potente, eficiente y reproducible.
Como centros de actividad humana, las superficies urbanas están compuestas por una gran variedad de entidades semánticas. Segmentar estas diversas entidades a partir de imágenes de satélite es crucial para una serie de aplicaciones posteriores. Los modelos de segmentación avanzados actuales pueden segmentar de manera fiable entidades definidas por atributos físicos (por ejemplo, edificios, masas de agua), pero aún presentan dificultades con categorías definidas socialmente (por ejemplo, escuelas, parques). En este trabajo, logramos la segmentación socio-semántica mediante el razonamiento de modelos de visión y lenguaje. Para facilitar esto, presentamos el conjunto de datos de Segmentación Socio-Semántica Urbana denominado SocioSeg, un nuevo recurso que comprende imágenes de satélite, mapas digitales y etiquetas a nivel de píxel de entidades semánticas sociales organizadas en una estructura jerárquica. Adicionalmente, proponemos un novedoso marco de razonamiento de visión y lenguaje llamado SocioReasoner que simula el proceso humano de identificación y anotación de entidades semánticas sociales mediante reconocimiento cross-modal y razonamiento multi-etapa. Empleamos aprendizaje por refuerzo para optimizar este proceso no diferenciable y potenciar las capacidades de razonamiento del modelo de visión y lenguaje. Los experimentos demuestran las mejoras de nuestro enfoque frente a los modelos state-of-the-art y una fuerte generalización zero-shot. Nuestro conjunto de datos y código están disponibles en https://github.com/AMAP-ML/SocioReasoner.
El aprendizaje por refuerzo (RL) se ha convertido en un paradigma central para el post-entrenamiento de modelos de lenguaje grandes (LLMs), particularmente para tareas de razonamiento complejo, aunque a menudo sufre de colapso exploratorio: las políticas se concentran prematuramente en un pequeño conjunto de patrones de razonamiento dominantes, mejorando pass@1 mientras limitan la diversidad a nivel de *rollout* y las ganancias en pass@k. Sostenemos que este fallo surge de regular el comportamiento local de los *tokens* en lugar de la diversidad sobre conjuntos de soluciones. Para abordarlo, proponemos el Aprendizaje por Refuerzo con Conciencia de la Unicidad, un objetivo a nivel de *rollout* que recompensa explícitamente las soluciones correctas que exhiben estrategias de alto nivel poco comunes. Nuestro método utiliza un juez basado en un LLM para agrupar los *rollouts* de un mismo problema según sus estrategias de solución de alto nivel, ignorando variaciones superficiales, y repondera las ventajas de la política de forma inversamente proporcional al tamaño del clúster. Como resultado, las estrategias correctas pero novedosas reciben mayores recompensas que las redundantes. En diversos benchmarks de razonamiento matemático, físico y médico, nuestro enfoque mejora consistentemente pass@k para grandes presupuestos de muestreo y aumenta el área bajo la curva pass@k (AUC@K) sin sacrificar pass@1, manteniendo la exploración y descubriendo estrategias de solución más diversas a gran escala.
Los sistemas multiagente han evolucionado hacia colaboradores prácticos impulsados por LLM para muchas aplicaciones, ganando robustez gracias a la diversidad y la verificación cruzada. Sin embargo, el entrenamiento de aprendizaje por refuerzo multiagente (MARL) es intensivo en recursos e inestable: la co-adaptación de los agentes induce no estacionariedad, y las recompensas suelen ser escasas y de alta varianza. Por lo tanto, presentamos el Aprendizaje por Refuerzo Multiagente en Tiempo de Prueba (MATTRL), un marco que inyecta experiencia textual estructurada en la deliberación multiagente durante la inferencia. MATTRL forma un equipo multi-experto de especialistas para discusiones multiturno, recupera e integra experiencias en tiempo de prueba y alcanza un consenso para la toma de decisiones final. También estudiamos la asignación de crédito para construir un grupo de experiencias a nivel de turno, reintegrándolo posteriormente en el diálogo. En diversos benchmarks desafiantes de medicina, matemáticas y educación, MATTRL mejora la precisión en un promedio de 3.67% sobre una línea base multiagente y en un 8.67% sobre líneas base monoagente comparables. Los estudios de ablación examinan diferentes esquemas de asignación de crédito y proporcionan una comparación detallada de cómo afectan a los resultados del entrenamiento. MATTRL ofrece una ruta estable, efectiva y eficiente hacia el razonamiento multiagente robusto frente a cambios de distribución sin necesidad de ajuste.
La edición de imágenes basada en instrucciones es una de las áreas de más rápido desarrollo en la inteligencia artificial generativa. En el último año, el campo ha alcanzado un nuevo nivel, con docenas de modelos de código abierto publicados junto con sistemas comerciales altamente capacitados. Sin embargo, actualmente solo un número limitado de enfoques de código abierto logra una calidad aplicable en escenarios reales. Además, los modelos de difusión, que son la opción dominante para estos pipelines, suelen ser grandes y computacionalmente costosos para muchos despliegues y entornos de investigación, con variantes ampliamente utilizadas que normalmente contienen entre 6B y 20B parámetros. Este artículo presenta un pipeline compacto y de alto rendimiento para la edición de imágenes basada en instrucciones que utiliza un modelo moderno Qwen3-VL de 2B parámetros para guiar el proceso de edición y el modelo de difusión Sana1.5 de 1.6B parámetros para la generación de imágenes. Nuestras decisiones de diseño en cuanto a arquitectura, procesamiento de datos, configuración de entrenamiento y evaluación están orientadas a una inferencia de bajo costo y una estricta consistencia con la imagen fuente, manteniendo una alta calidad en las principales categorías de edición factibles a esta escala. Evaluado en los benchmarks ImgEdit y GEdit, el método propuesto iguala o supera el rendimiento de líneas base sustancialmente más pesadas, incluidos modelos con varias veces más parámetros y mayor costo de inferencia, y es particularmente fuerte en ediciones que requieren preservar la imagen de entrada, como ajustes de atributos, eliminación de objetos, ediciones de fondo y reemplazos específicos. El modelo cabe dentro de 24 GB de memoria GPU y genera imágenes editadas con una resolución de hasta 2K en aproximadamente 4 segundos en una NVIDIA H100 con precisión BF16, sin optimizaciones de inferencia adicionales o destilación.
El principal desafío de la IA para la Ciencia no es solo el razonamiento, sino la capacidad de crear métodos computacionales en un mundo científico de naturaleza abierta. Los agentes actuales basados en LLM dependen de bibliotecas de herramientas estáticas y predefinidas, un paradigma que fracasa fundamentalmente en dominios científicos donde las herramientas son escasas, heterogéneas e intrínsecamente incompletas. En este artículo, proponemos la Evolución de Herramientas en Tiempo de Prueba (TTE), un nuevo paradigma que permite a los agentes sintetizar, verificar y evolucionar herramientas ejecutables durante la inferencia. Al transformar las herramientas de recursos fijos en artefactos orientados a problemas, TTE supera la rigidez y las limitaciones de cola larga de las bibliotecas de herramientas estáticas. Para facilitar una evaluación rigurosa, presentamos SciEvo, un benchmark que comprende 1.590 tareas de razonamiento científico respaldadas por 925 herramientas evolucionadas automáticamente. Experimentos exhaustivos demuestran que TTE logra un rendimiento de vanguardia tanto en precisión como en eficiencia de herramientas, al tiempo que permite una adaptación efectiva de herramientas computacionales entre dominios. El código y el benchmark han sido publicados en https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
El avance de la inteligencia artificial hacia una ciencia agéntica se encuentra actualmente limitado por el desafío de la autonomía de horizonte ultra-largo: la capacidad de mantener coherencia estratégica y corrección iterativa a lo largo de ciclos experimentales que abarcan días o semanas. Si bien los Modelos de Lenguaje a Gran Escala (LLM) han demostrado destreza en el razonamiento de horizonte corto, se ven fácilmente desbordados por los detalles de ejecución en los entornos de investigación reales, caracterizados por alta dimensionalidad y retroalimentación retardada, fallando en consolidar retroalimentación dispersa en una guía coherente a largo plazo. Aquí presentamos ML-Master 2.0, un agente autónomo que domina la ingeniería de aprendizaje automático (MLE) de horizonte ultra-largo, la cual representa un microcosmos representativo del descubrimiento científico. Al replantear la gestión del contexto como un proceso de acumulación cognitiva, nuestro enfoque introduce la Caché Cognitiva Jerárquica (HCC), una arquitectura multinivel inspirada en los sistemas informáticos que permite la diferenciación estructural de la experiencia a lo largo del tiempo. Al destilar dinámicamente trazas de ejecución transitorias en conocimiento estable y sabiduría transversal a tareas, la HCC permite a los agentes desacoplar la ejecución inmediata de la estrategia experimental a largo plazo, superando efectivamente los límites de escalado de las ventanas de contexto estáticas. En evaluaciones en MLE-Bench de OpenAI con presupuestos de 24 horas, ML-Master 2.0 alcanza una tasa de medallas state-of-the-art del 56.44%. Nuestros hallazgos demuestran que la autonomía de horizonte ultra-largo proporciona un plan escalable para una IA capaz de exploración autónoma más allá de complejidades precedentes por humanos.
Los modelos de preentrenamiento visión-lenguaje (VLP) demuestran un rendimiento sólido en diversas tareas posteriores al aprender de pares imagen-texto a gran escala mediante preentrenamiento contrastivo. La disponibilidad de extensos conjuntos de datos inglés de imagen-texto (por ejemplo, COYO-700M y LAION-400M) ha permitido la adopción generalizada de modelos como CLIP y SigLIP en tareas que incluyen recuperación cross-modal y generación de descripciones de imágenes. Sin embargo, el avance del preentrenamiento visión-lenguaje en chino se ha quedado considerablemente rezagado, debido a la escasez de datos imagen-texto en chino de alta calidad. Para abordar esta brecha, desarrollamos un proceso integral para construir un conjunto de datos cross-modal en chino de alta calidad. Como resultado, proponemos DanQing, que contiene 100 millones de pares imagen-texto recopilados de Common Crawl. A diferencia de los conjuntos de datos existentes, DanQing se cura mediante un proceso de selección más riguroso, lo que produce una calidad de datos superior. Además, DanQing se construye principalmente a partir de datos web de 2024-2025, permitiendo que los modelos capturen mejor las tendencias semánticas en evolución y, por lo tanto, ofrezcan una mayor utilidad práctica. Comparamos DanQing con conjuntos de datos existentes mediante el preentrenamiento continuo del modelo SigLIP2. Los resultados experimentales muestran que DanQing logra consistentemente un rendimiento superior en una variedad de tareas posteriores en chino, incluyendo clasificación zero-shot, recuperación cross-modal y evaluaciones basadas en LMM. Para facilitar futuras investigaciones en preentrenamiento visión-lenguaje en chino, pondremos a disposición el conjunto de datos DanQing bajo la licencia Creative Commons CC-BY 4.0.
Los modelos recientes de generación de vídeo han revelado el surgimiento del razonamiento en Cadena de Fotogramas (CoF), permitiendo inferencia visual fotograma a fotograma. Con esta capacidad, los modelos de vídeo se han aplicado con éxito a diversas tareas visuales (por ejemplo, resolución de laberintos, puzles visuales). Sin embargo, su potencial para mejorar la generación de texto a imagen (T2I) permanece en gran medida inexplorado, debido a la ausencia de un punto de partida de razonamiento visual claramente definido y de estados intermedios interpretables en el proceso de generación T2I. Para salvar esta brecha, proponemos CoF-T2I, un modelo que integra el razonamiento CoF en la generación T2I mediante un refinamiento visual progresivo, donde los fotogramas intermedios actúan como pasos de razonamiento explícitos y el fotograma final se toma como salida. Para establecer dicho proceso de generación explícito, hemos creado CoF-Evol-Instruct, un conjunto de datos de trayectorias CoF que modelan el proceso de generación desde la semántica hasta la estética. Para mejorar aún más la calidad y evitar artefactos de movimiento, habilitamos una operación de codificación independiente para cada fotograma. Los experimentos muestran que CoF-T2I supera significativamente al modelo de vídeo base y logra un rendimiento competitivo en benchmarks desafiantes, alcanzando 0.86 en GenEval y 7.468 en Imagine-Bench. Estos resultados indican la promesa sustancial de los modelos de vídeo para impulsar la generación de texto a imagen de alta calidad.
Los recientes avances en los modelos de difusión (MD) de texto a imagen (T2I) han permitido la síntesis visual de alta calidad a partir de diversos textos descriptivos. Sin embargo, la mayoría de los MD T2I existentes, incluso aquellos equipados con codificadores de texto basados en modelos de lenguaje grande (LLM), siguen siendo mapeadores texto-píxel: emplean los LLM meramente como codificadores de texto, sin aprovechar sus capacidades de razonamiento inherentes para inferir qué debe representarse visualmente dado el texto descriptivo. Para ir más allá de esta generación literal, proponemos el paradigma pensar-luego-generar (T2G), en el que se incentiva al codificador de texto basado en LLM a razonar y reescribir las indicaciones crudas del usuario; los estados de las indicaciones reescritas sirven entonces como condicionamiento para la difusión. Para lograrlo, primero activamos el patrón pensar-luego-reescribir del codificador LLM mediante un proceso ligero de ajuste fino supervisado. Posteriormente, el codificador LLM y el modelo base de difusión se co-optimizan para garantizar un razonamiento fiel del contexto y una representación precisa de la semántica mediante Dual-GRPO. En particular, el codificador de texto se refuerza utilizando recompensas basadas en imágenes para inferir y recordar conocimiento del mundo, mientras que el modelo base de difusión se impulsa para producir imágenes semánticamente consistentes y visualmente coherentes. Los experimentos muestran mejoras sustanciales en la consistencia fáctica, la alineación semántica y el realismo visual en benchmarks de generación y edición de imágenes basadas en razonamiento, alcanzando un 0.79 en la puntuación WISE, casi a la par con GPT-4. Nuestros resultados constituyen un paso prometedor hacia modelos unificados de próxima generación con capacidades de razonamiento, expresión y demostración.
Los grandes modelos de difusión y flujo de video han logrado un éxito notable en la generación de video de alta calidad, pero su uso en aplicaciones interactivas en tiempo real sigue siendo limitado debido a su proceso de muestreo multi-paso ineficiente. En este trabajo, presentamos Destilación por Correspondencia de Transiciones (TMD), un marco novedoso para destilar modelos de difusión de video en generadores eficientes de pocos pasos. La idea central de TMD es hacer coincidir la trayectoria de eliminación de ruido multi-paso de un modelo de difusión con un proceso de transición de probabilidad de pocos pasos, donde cada transición se modela como un flujo condicional ligero. Para permitir una destilación eficiente, descomponemos la arquitectura original de difusión en dos componentes: (1) una arquitectura principal, que comprende la mayoría de las capas iniciales, que extrae representaciones semánticas en cada paso de transición externo; y (2) una cabeza de flujo, que consiste en las últimas capas, que aprovecha estas representaciones para realizar múltiples actualizaciones de flujo internas. Dado un modelo de difusión de video preentrenado, primero introducimos una cabeza de flujo en el modelo y lo adaptamos a un mapa de flujo condicional. Luego aplicamos destilación por correspondencia de distribuciones al modelo estudiante con el despliegue de la cabeza de flujo en cada paso de transición. Experimentos exhaustivos en la destilación de modelos de texto a video Wan2.1 de 1.3B y 14B demuestran que TMD ofrece un equilibrio flexible y sólido entre la velocidad de generación y la calidad visual. En particular, TMD supera a los modelos destilados existentes bajo costos de inferencia comparables en términos de fidelidad visual y adherencia al prompt. Página del proyecto: https://research.nvidia.com/labs/genair/tmd
El Razonamiento Integrado con Herramientas (TIR) capacita a los grandes modelos de lenguaje (LLM) para abordar tareas complejas intercalando pasos de razonamiento con interacciones de herramientas externas. Sin embargo, los métodos de aprendizaje por refuerzo existentes suelen depender de recompensas a nivel de resultado o de trayectoria, asignando ventajas uniformes a todos los pasos dentro de una trayectoria. Esta asignación de crédito de grano grueso no logra distinguir las llamadas a herramientas efectivas de las redundantes o erróneas, especialmente en escenarios multi-turno de horizonte largo. Para abordar esto, proponemos MatchTIR, un marco que introduce una supervisión de grano fino mediante la asignación de recompensas a nivel de turno basada en emparejamiento bipartito y una estimación de ventaja de doble nivel. Específicamente, formulamos la asignación de crédito como un problema de emparejamiento bipartito entre trazas predichas y reales, utilizando dos estrategias de asignación para derivar recompensas densas a nivel de turno. Además, para equilibrar la precisión local de los pasos con el éxito global de la tarea, introducimos un esquema de estimación de ventaja de doble nivel que integra señales a nivel de turno y de trayectoria, asignando valores de ventaja distintos a turnos de interacción individuales. Experimentos exhaustivos en tres benchmarks demuestran la superioridad de MatchTIR. Notablemente, nuestro modelo de 4B supera a la mayoría de los competidores de 8B, particularmente en tareas multi-turno y de horizonte largo. Nuestros códigos están disponibles en https://github.com/quchangle1/MatchTIR.
Los modelos de video-lenguaje (VLM) más potentes actualmente siguen siendo propietarios. Los modelos de código abierto más robustos o bien dependen de datos sintéticos generados por VLMs propietarios, efectivamente destilando conocimiento de ellos, o no revelan sus datos de entrenamiento o metodología. Como resultado, la comunidad de código abierto carece de los cimientos necesarios para mejorar el estado del arte en modelos de lenguaje para video (e imagen). Es crucial destacar que muchas aplicaciones derivadas requieren algo más que una comprensión de alto nivel del video; necesitan una capacidad de grounding (anclaje) —ya sea mediante señalamiento o seguimiento a nivel de píxeles—. Incluso los modelos propietarios carecen de esta capacidad. Presentamos Molmo2, una nueva familia de VLMs que establecen el estado del arte entre los modelos de código abierto y demuestran capacidades excepcionales y novedosas en el grounding mediante puntos en tareas de imagen única, múltiples imágenes y video. Nuestra contribución clave es una colección de 7 nuevos conjuntos de datos de video y 2 de múltiples imágenes, que incluyen un conjunto de datos de descripciones de video muy detalladas para el pre-entrenamiento, un conjunto de datos de preguntas y respuestas libres sobre video para el ajuste fino, un nuevo conjunto de datos de seguimiento de objetos con consultas complejas y un innovador conjunto de datos de señalamiento en video, todos recopilados sin utilizar VLMs cerrados. También presentamos una metodología de entrenamiento para estos datos que utiliza un esquema eficiente de empaquetado y codificación de árbol de mensajes, y demostramos que la atención bidireccional sobre los tokens visuales y una novedosa estrategia de ponderación de tokens mejora el rendimiento. Nuestro modelo de 8B, líder en su clase, supera a otros en la categoría de modelos con pesos y datos abiertos en videos cortos, conteo y generación de descripciones, y es competitivo en videos largos. En cuanto al grounding en video, Molmo2 supera significativamente a los modelos de pesos abiertos existentes como Qwen3-VL (35.5 vs 29.6 de precisión en conteo de video) y supera a modelos propietarios como Gemini 3 Pro en algunas tareas (38.4 vs 20.0 F1 en señalamiento en video y 56.2 vs 41.1 J&F en seguimiento de video).
Presentamos Alterbute, un método basado en difusión para editar los atributos intrínsecos de un objeto en una imagen. Permitimos modificar el color, la textura, el material e incluso la forma de un objeto, preservando al mismo tiempo su identidad percibida y el contexto de la escena. Los enfoques existentes se basan en priors no supervisados que a menudo no logran preservar la identidad, o utilizan una supervisión excesivamente restrictiva que impide variaciones intrínsecas significativas. Nuestro método se basa en: (i) un objetivo de entrenamiento relajado que permite al modelo cambiar tanto los atributos intrínsecos como los extrínsecos condicionado por una imagen de referencia de identidad, un *prompt* textual que describe los atributos intrínsecos objetivo, y una imagen de fondo y una máscara de objeto que definen el contexto extrínseco. En la inferencia, restringimos los cambios extrínsecos reutilizando el fondo original y la máscara del objeto, garantizando así que solo se alteren los atributos intrínsecos deseados; (ii) Entidades Nombradas Visuales (VNE, por sus siglas en inglés): categorías de identidad visual de grano fino (por ejemplo, "Porsche 911 Carrera") que agrupan objetos que comparten características definitorias de la identidad, permitiendo al mismo tiempo variación en los atributos intrínsecos. Utilizamos un modelo de visión y lenguaje para extraer automáticamente etiquetas VNE y descripciones de atributos intrínsecos de un gran conjunto de datos de imágenes públicas, lo que permite una supervisión escalable y que preserva la identidad. Alterbute supera a los métodos existentes en la edición de atributos intrínsecos de objetos con preservación de la identidad.
Si bien los agentes basados en LLM pueden interactuar con entornos mediante la invocación de herramientas externas, sus capacidades expandidas también amplifican los riesgos de seguridad. Monitorear los comportamientos de invocación de herramientas a nivel de paso en tiempo real e intervenir proactivamente antes de una ejecución insegura es crucial para el despliegue de agentes, pero sigue siendo un área poco explorada. En este trabajo, primero construimos TS-Bench, un nuevo benchmark para la detección de seguridad en la invocación de herramientas a nivel de paso en agentes LLM. Luego desarrollamos un modelo de salvaguarda, TS-Guard, utilizando aprendizaje por refuerzo multitarea. El modelo detecta proactivamente acciones de invocación de herramientas inseguras antes de su ejecución razonando sobre el historial de interacciones. Evalúa la nocividad de las solicitudes y las correlaciones acción-ataque, produciendo juicios de seguridad y retroalimentación interpretables y generalizables. Además, presentamos TS-Flow, un marco de razonamiento impulsado por retroalimentación de salvaguarda para agentes LLM, que reduce las invocaciones de herramientas dañinas en agentes de estilo ReAct en un 65% en promedio y mejora la finalización de tareas benignas en aproximadamente un 10% bajo ataques de inyección de prompts.
La rápida evolución de los Modelos de Lenguaje a Gran Escala (LLM) y los Modelos de Lenguaje Multimodales a Gran Escala (MLLM) ha generado avances sustanciales en capacidades de razonamiento, percepción y generación a través del lenguaje y la visión. Sin embargo, si estos avances producen mejoras proporcionales en seguridad sigue sin estar claro, en parte debido a prácticas de evaluación fragmentadas limitadas a modalidades o modelos de amenaza únicos. En este informe, presentamos una evaluación de seguridad integrada de 7 modelos de vanguardia: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro y Seedream 4.5. Evaluamos cada modelo en entornos de lenguaje, lenguaje-visión y generación de imágenes utilizando un protocolo unificado que integra evaluación comparativa (*benchmark*), evaluación adversarial, evaluación multilingüe y evaluación de cumplimiento normativo. La agregación de nuestras evaluaciones en tablas de clasificación de seguridad y perfiles de seguridad de los modelos a través de múltiples modos de evaluación revela un panorama de seguridad marcadamente heterogéneo. Mientras que GPT-5.2 demuestra un rendimiento de seguridad consistentemente sólido y equilibrado en todas las evaluaciones, otros modelos exhiben compensaciones pronunciadas entre la seguridad en *benchmarks*, la alineación adversarial, la generalización multilingüe y el cumplimiento normativo. Tanto las modalidades de lenguaje como las de lenguaje-visión muestran una vulnerabilidad significativa bajo evaluación adversarial, degradándose sustancialmente todos los modelos a pesar de los fuertes resultados en *benchmarks* estándar. Los modelos de texto a imagen logran una alineación relativamente más fuerte en categorías de riesgo visual reguladas, pero permanecen frágiles ante instrucciones adversariales o semánticamente ambiguas. En general, estos resultados muestran que la seguridad en los modelos de vanguardia es inherentemente multidimensional—configurada por la modalidad, el idioma y el esquema de evaluación—, lo que subraya la necesidad de evaluaciones de seguridad estandarizadas para valorar con precisión el riesgo en el mundo real y guiar el desarrollo y despliegue responsable de modelos.
Inferir acciones físicas a partir de observaciones visuales es una capacidad fundamental para avanzar en la inteligencia artificial aplicada al mundo físico. Lograr esto requiere conjuntos de datos de video a gran escala y de vocabulario abierto que abarquen dominios amplios. Presentamos Action100M, un conjunto de datos a gran escala construido a partir de 1.2 millones de videos instructivos de Internet (equivalente a 14.6 años de duración), que produce aproximadamente 100 millones de segmentos localizados temporalmente con supervisión de acciones de vocabulario abierto y descripciones ricas. Action100M se genera mediante un pipeline completamente automatizado que (i) realiza una segmentación temporal jerárquica utilizando *embeddings* de V-JEPA 2, (ii) produce descripciones de fotogramas y segmentos a múltiples niveles organizadas como un Árbol-de-Descripciones, y (iii) agrega evidencia con un modelo de razonamiento (GPT-OSS-120B) bajo un procedimiento de Auto-Refinamiento en múltiples rondas para generar anotaciones estructuradas (acción breve/detallada, actor, descripción breve/detallada). El entrenamiento de VL-JEPA en Action100M demuestra mejoras consistentes con el escalado de datos y un fuerte rendimiento *zero-shot* en diversos puntos de referencia de reconocimiento de acciones, estableciendo a Action100M como una nueva base para la investigación escalable en comprensión de video y modelado del mundo.
La generación interactiva de video de humanoides busca sintetizar agentes visuales realistas que puedan interactuar con humanos mediante video continuo y responsivo. A pesar de los recientes avances en síntesis de video, los métodos existentes a menudo lidian con la disyuntiva entre la síntesis de alta fidelidad y los requisitos de interacción en tiempo real. En este artículo, proponemos FlowAct-R1, un marco diseñado específicamente para la generación interactiva de video de humanoides en tiempo real. Basado en una arquitectura MMDiT, FlowAct-R1 permite la síntesis en flujo de video con duraciones arbitrarias manteniendo una respuesta de baja latencia. Introducimos una estrategia de forzado de difusión por fragmentos, complementada con una nueva variante de auto-forzado, para aliviar la acumulación de errores y garantizar la coherencia temporal a largo plazo durante la interacción continua. Al aprovechar la destilación eficiente y optimizaciones a nivel de sistema, nuestro marco alcanza una estabilidad de 25 fps en resolución 480p con un tiempo hasta el primer fotograma de solo aproximadamente 1.5 segundos. El método propuesto ofrece un control holístico y granular de todo el cuerpo, permitiendo que el agente transite naturalmente entre diversos estados conductuales en escenarios interactivos. Los resultados experimentales demuestran que FlowAct-R1 logra una vivacidad conductual excepcional y un realismo perceptual, manteniendo al mismo tiempo una generalización robusta en diversos estilos de personajes.
Presentamos una familia de Modelos Fundacionales de Música de código abierto diseñados para impulsar la comprensión y generación de música a gran escala en diversas tareas y modalidades. Nuestro marco de trabajo consta de cuatro componentes principales: (1) HeartCLAP, un modelo de alineación audio-texto; (2) HeartTranscriptor, un modelo robusto de reconocimiento de letras optimizado para escenarios musicales del mundo real; y (3) HeartCodec, un tokenizador de códec musical de baja tasa de frames (12.5 Hz) y alta fidelidad que captura la estructura musical de largo alcance mientras preserva detalles acústicos granulares y permite un modelado autorregresivo eficiente; (4) HeartMuLa, un modelo de generación de canciones basado en LLM capaz de sintetizar música de alta fidelidad bajo condiciones ricas y controlables por el usuario (por ejemplo, descripciones de estilo textuales, letras y audio de referencia). Además, proporciona dos modos especializados: (i) control granular de atributos musicales, que permite a los usuarios especificar el estilo de diferentes secciones de la canción (por ejemplo, introducción, estrofa, estribillo) utilizando instrucciones en lenguaje natural; y (ii) generación de música breve y atractiva, adecuada como música de fondo para videos cortos. Por último, HeartMuLa mejora significativamente al escalarse a 7 mil millones de parámetros. Por primera vez, demostramos que un sistema de nivel comercial comparable a Suno puede reproducirse utilizando datos y recursos de GPU a escala académica. Esperamos que estos modelos fundacionales sirvan como líneas base sólidas para investigaciones futuras y faciliten aplicaciones prácticas en la producción de contenido multimodal.
Los Modelos de Lenguaje a Gran Escala (LLM) han surgido como operadores potentes para la búsqueda evolutiva, aunque el diseño de andamiajes de búsqueda eficientes sigue siendo ad hoc. Si bien son prometedores, los sistemas actuales con LLM en el bucle carecen de un enfoque sistemático para gestionar el proceso evolutivo. Identificamos tres modos de fallo distintos: Contaminación del Contexto, donde el historial de experimentos sesga la generación futura de candidatos; Colapso Modal, donde los agentes se estancan en mínimos locales debido a un pobre equilibrio exploración-explotación; y Colaboración Débil, donde estrategias de cruce rígidas no logran aprovechar eficazmente las trayectorias de búsqueda paralelas. Presentamos Evolución Consistente con Conciencia del Progreso (PACEvolve), un marco diseñado para gobernar robustamente el contexto del agente y la dinámica de búsqueda, para abordar estos desafíos. PACEvolve combina una gestión jerárquica del contexto (HCM) con poda para abordar la contaminación del contexto; retroceso basado en momentum (MBB) para escapar de mínimos locales; y una política de muestreo auto-adaptativa que unifica el retroceso y el cruce para una coordinación de búsqueda dinámica (CE), permitiendo a los agentes equilibrar el refinamiento interno con la colaboración entre trayectorias. Demostramos que PACEvolve proporciona un camino sistemático hacia la auto-mejora consistente a largo plazo, logrando resultados de vanguardia en LLM-SR y KernelBench, mientras descubre soluciones que superan el récord en Modded NanoGPT.
La generación de moléculas que satisfacen restricciones numéricas precisas sobre múltiples propiedades fisicoquímicas es crucial y desafiante. Aunque los modelos de lenguaje grandes (LLM) son expresivos, luchan con el control multiobjetivo preciso y el razonamiento numérico sin estructura y retroalimentación externas. Presentamos M olGen, un marco de dos etapas, aumentado por recuperación de información y a nivel de fragmentos, para la generación de moléculas bajo restricciones de múltiples propiedades. Etapa I: Generación de prototipos: un razonador multiagente realiza ediciones a nivel de fragmentos ancladas en recuperación para producir un candidato cercano a la región factible. Etapa II: Optimización de grano fino basada en RL: un optimizador a nivel de fragmentos entrenado con Optimización de Políticas Relativas Grupales (GRPO) aplica refinamientos de uno o múltiples saltos para minimizar explícitamente los errores de propiedad hacia nuestro objetivo, regulando simultáneamente la complejidad de la edición y la desviación del prototipo. Un conjunto de datos grande, curado automáticamente, con cadenas de razonamiento de ediciones de fragmentos y deltas de propiedades medidas sustenta ambas etapas, permitiendo una supervisión determinista y reproducible y un razonamiento controlable de múltiples saltos. A diferencia de trabajos anteriores, nuestro marco razona mejor sobre las moléculas al aprovechar los fragmentos y admite un refinamiento controlado hacia objetivos numéricos. Los experimentos de generación bajo dos conjuntos de restricciones de propiedades (QED, LogP, Peso Molecular y HOMO, LUMO) muestran ganancias consistentes en validez y satisfacción precisa de objetivos multi-propiedad, superando a LLMs robustos y algoritmos basados en grafos.
Los modelos generativos de video de última generación producen contenido visual prometedor, pero a menudo violan principios físicos básicos, lo que limita su utilidad. Si bien algunos atribuyen esta deficiencia a una comprensión física insuficiente adquirida durante el pre-entrenamiento, nosotros encontramos que el déficit en la plausibilidad física también se origina en estrategias de inferencia subóptimas. Por lo tanto, presentamos WMReward y abordamos la mejora de la plausibilidad física en la generación de video como un problema de alineación en tiempo de inferencia. En concreto, aprovechamos el fuerte conocimiento previo de física de un modelo mundial latente (en este caso, VJEPA-2) como recompensa para buscar y guiar múltiples trayectorias de eliminación de ruido candidatas, permitiendo escalar el cómputo en tiempo de prueba para lograr un mejor rendimiento generativo. Empíricamente, nuestro enfoque mejora sustancialmente la plausibilidad física en configuraciones de generación condicionadas por imagen, multifotograma y texto, con validación proveniente de un estudio de preferencia humana. Notablemente, en la prueba PhysicsIQ del ICCV 2025 Perception Test, logramos una puntuación final del 62.64%, obteniendo el primer puesto y superando el estado del arte anterior en un 7.42%. Nuestro trabajo demuestra la viabilidad de utilizar modelos mundiales latentes para mejorar la plausibilidad física de la generación de video, más allá de esta instanciación o parametrización específica.
Los modelos unificados de generación y edición de imágenes sufren una severa interferencia de tareas en arquitecturas de transformadores de difusión densos, donde un espacio de parámetros compartido debe transigir entre objetivos conflictivos (por ejemplo, edición local frente a generación guiada por un sujeto). Si bien el paradigma disperso de Mezcla de Expertos (MoE) es una solución prometedora, sus redes de compuerta permanecen independientes de la tarea, operando en base a características locales, sin conocimiento de la intención global de la tarea. Esta naturaleza agnóstica a la tarea impide una especialización significativa y no logra resolver la interferencia subyacente. En este artículo, proponemos un marco novedoso para inyectar intención semántica en el enrutamiento MoE. Introducimos un esquema de Anotación Semántica Jerárquica de Tareas para crear descriptores de tareas estructurados (por ejemplo, alcance, tipo, preservación). Luego, diseñamos una Regularización de Alineación Predictiva para alinear las decisiones de enrutamiento interno con la semántica de alto nivel de la tarea. Esta regularización convierte la red de compuerta de un ejecutor agnóstico a la tarea en un centro de despacho. Nuestro modelo mitiga efectivamente la interferencia de tareas, superando a los baselines densos en fidelidad y calidad, y nuestro análisis muestra que los expertos desarrollan naturalmente especializaciones claras y semánticamente correlacionadas.
La capacidad de seguir instrucciones es crucial para los grandes modelos de lenguaje, pero las instrucciones del mundo real suelen contener estructuras lógicas como dependencias secuenciales y ramificaciones condicionales. Los métodos existentes generalmente construyen conjuntos de datos con restricciones paralelas y optimizan recompensas promedio, ignorando las dependencias lógicas y generando señales ruidosas. Proponemos un marco de entrenamiento de estructura lógica, LSRIF, que modela explícitamente la lógica de las instrucciones. Primero construimos un conjunto de datos, LSRInstruct, con estructuras de restricción como tipos paralelos, secuenciales y condicionales, y luego diseñamos un método de recompensa consciente de la estructura, LSRIF, que incluye agregación promedio para estructuras paralelas, propagación de penalización por fallo para estructuras secuenciales y recompensas selectivas para ramas condicionales. Los experimentos muestran que LSRIF genera mejoras significativas en el seguimiento de instrucciones (dentro y fuera del dominio) y en el razonamiento general. El análisis revela que el aprendizaje con estructuras lógicas explícitas produce actualizaciones de parámetros en las capas de atención y agudiza la atención a nivel de token hacia las restricciones y los operadores lógicos.
La detección de respuestas evasivas en las conferencias de resultados es fundamental para la transparencia financiera, aunque el progreso se ve obstaculizado por la falta de puntos de referencia a gran escala. Presentamos EvasionBench, que comprende 30.000 muestras de entrenamiento y 1.000 muestras de prueba anotadas manualmente (Kappa de Cohen 0,835) en tres niveles de evasión. Nuestra contribución clave es un marco de anotación multi-modelo que aprovecha una idea fundamental: el desacuerdo entre los LLMs de vanguardia señala ejemplos difíciles más valiosos para el entrenamiento. Extraemos casos límite donde dos anotadores fuertes entran en conflicto, utilizando un juez para resolver las etiquetas. Este enfoque supera a la destilación de modelo único en un 2,4 por ciento, y las muestras resueltas por el juez mejoran la generalización a pesar de una mayor pérdida de entrenamiento (0,421 frente a 0,393), lo que evidencia que la minería de desacuerdos actúa como regularización implícita. Nuestro modelo entrenado Eva-4B (4.000 millones de parámetros) alcanza un 81,3 por ciento de precisión, superando a su base en 25 puntos porcentuales y acercándose al rendimiento de los LLMs de vanguardia a una fracción del costo de inferencia.
El razonamiento multimodal latente actual a menudo depende de supervisión externa (por ejemplo, imágenes auxiliares), ignorando la dinámica intrínseca de la atención visual. En este trabajo, identificamos una Brecha de Percepción crítica en la destilación: los modelos estudiantes frecuentemente imitan la salida textual del profesor mientras atienden a regiones visuales fundamentalmente divergentes, confiando efectivamente en sesgos lingüísticos en lugar de una percepción fundamentada. Para abordar esto, proponemos LaViT, un marco que alinea pensamientos visuales latentes en lugar de incrustaciones estáticas. LaViT obliga al estudiante a reconstruir autoregresivamente la semántica visual y las trayectorias de atención del profesor antes de la generación de texto, empleando un mecanismo de compuerta sensorial curricular para evitar el aprendizaje por atajos. Experimentos exhaustivos demuestran que LaViT mejora significativamente la fundamentación visual, logrando ganancias de hasta +16.9% en tareas de razonamiento complejo y permitiendo que un modelo compacto de 3B supere a variantes de código abierto más grandes y a modelos propietarios como GPT-4o.
Las representaciones 3D potentes como los mapas de puntos invariantes DUSt3R, que codifican la forma 3D y los parámetros de la cámara, han avanzado significativamente la reconstrucción 3D de avance directo. Si bien los mapas de puntos asumen escenas estáticas, los Mapas de Puntos Dinámicos (DPM) extienden este concepto al contenido 3D dinámico representando adicionalmente el movimiento de la escena. Sin embargo, los DPM existentes se limitan a pares de imágenes y, al igual que DUSt3R, requieren un postprocesamiento mediante optimización cuando intervienen más de dos vistas. Argumentamos que los DPM son más útiles cuando se aplican a videos y presentamos V-DPM para demostrarlo. Primero, mostramos cómo formular DPM para entrada de video de manera que se maximice el poder de representación, se facilite la predicción neuronal y se permita la reutilización de modelos preentrenados. En segundo lugar, implementamos estas ideas sobre VGGT, un reconstructor 3D reciente y potente. Aunque VGGT fue entrenado en escenas estáticas, demostramos que una cantidad modesta de datos sintéticos es suficiente para adaptarlo en un predictor V-DPM efectivo. Nuestro enfoque logra un rendimiento de vanguardia en la reconstrucción 3D y 4D para escenas dinámicas. En particular, a diferencia de las extensiones dinámicas recientes de VGGT como P3, los DPM recuperan no solo la profundidad dinámica sino también el movimiento 3D completo de cada punto de la escena.
Mejorar las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLM) ha sido un tema continuo de investigación recientemente. Sin embargo, la mayoría de los trabajos relevantes se basan en recompensas de resultado a nivel de trayectoria, omitiendo una supervisión de grano fino durante el proceso de razonamiento. Otros marcos de entrenamiento existentes que intentan combinar señales de proceso para optimizar los LLM también dependen en gran medida de pasos adicionales tediosos, como MCTS, el entrenamiento de un modelo de recompensa separado, etc., lo que perjudica la eficiencia del entrenamiento. Además, la intuición detrás del diseño de las señales de proceso carece de un soporte teórico riguroso, dejando la comprensión del mecanismo de optimización opaca. En este artículo, proponemos el Aprendizaje por Recompensa de Proceso (PRL), que descompone el objetivo de aprendizaje por refuerzo regularizado por entropía en pasos intermedios, con recompensas de proceso rigurosas que pueden asignarse a los modelos en consecuencia. Partiendo de una motivación teórica, derivamos la formulación de PRL, que es esencialmente equivalente al objetivo de maximización de recompensa más un término de penalización por divergencia KL entre el modelo de política y un modelo de referencia. Sin embargo, PRL puede convertir la recompensa de resultado en señales de supervisión de proceso, lo que ayuda a guiar mejor la exploración durante la optimización por RL. A partir de nuestros resultados experimentales, demostramos que PRL no solo mejora el rendimiento promedio de la capacidad de razonamiento de los LLM medido por average @ n, sino que también amplía el límite de razonamiento al mejorar la métrica pass @ n. Experimentos exhaustivos muestran que la efectividad de PRL puede ser verificada y generalizada.
A pesar de los avances significativos en la generación 4D, el *rigging* y el movimiento, los componentes estructurales y dinámicos centrales de la animación suelen modelarse como problemas separados. Las canalizaciones existentes dependen de esqueletos y pesos de *skinning* de referencia (*ground-truth*) para la generación de movimiento y tratan el auto-*rigging* como un proceso independiente, lo que socava la escalabilidad y la interpretabilidad. Presentamos RigMo, un marco generativo unificado que aprende conjuntamente el *rig* y el movimiento directamente a partir de secuencias de mallas en bruto, sin ninguna anotación de *rig* proporcionada por humanos. RigMo codifica las deformaciones por vértice en dos espacios latentes compactos: un espacio latente de *rig* que se decodifica en huesos Gaussianos explícitos y pesos de *skinning*, y un espacio latente de movimiento que produce transformaciones SE(3) variables en el tiempo. Juntos, estos resultados definen una malla animable con estructura explícita y movimiento coherente, permitiendo la inferencia de *rig* y movimiento en un solo paso hacia adelante (*feed-forward*) para objetos deformables. Más allá del descubrimiento unificado de *rig* y movimiento, introducimos un modelo Motion-DiT que opera en el espacio latente de RigMo y demostramos que estos espacios latentes con conciencia estructural pueden soportar naturalmente tareas posteriores de generación de movimiento. Los experimentos en DeformingThings4D, Objaverse-XL y TrueBones demuestran que RigMo aprende *rigs* suaves, interpretables y físicamente plausibles, logrando al mismo tiempo una reconstrucción y una generalización a nivel de categoría superiores en comparación con los métodos base existentes de auto-*rigging* y deformación. RigMo establece un nuevo paradigma para el modelado dinámico 3D unificado, con conciencia estructural y escalable.
Los agentes de rol (RP) dependen de perfiles conductuales para actuar de manera coherente en diversos contextos narrativos; sin embargo, los perfiles existentes son en gran medida no estructurados, no ejecutables y débilmente validados, lo que conduce a un comportamiento frágil del agente. Proponemos Árboles de Decisión Codificados (CDT), un marco basado en datos que induce una estructura de decisión ejecutable e interpretable a partir de datos narrativos a gran escala. CDT representa los perfiles conductuales como un árbol de reglas condicionales, donde los nodos internos corresponden a condiciones de escena validadas y las hojas codifican afirmaciones conductuales fundamentadas, permitiendo la recuperación determinista de reglas apropiadas al contexto en el momento de la ejecución. El árbol se aprende induciendo iterativamente reglas candidatas de escena-acción, validándolas con los datos y refinándolas mediante especialización jerárquica, lo que da como resultado perfiles que admiten una inspección transparente y actualizaciones fundamentadas. En múltiples puntos de referencia, CDT supera sustancialmente a los perfiles escritos por humanos y a los métodos previos de inducción de perfiles en 85 personajes de 16 artefactos, lo que indica que las representaciones conductuales codificadas y validadas conducen a una fundamentación más confiable del agente.
La conversión de texto clínico a SQL en entornos reales requiere razonamiento sobre tablas heterogéneas de EHR, ventanas temporales y cohortes de similitud de pacientes para producir consultas ejecutables. Presentamos CLINSQL, un benchmark de 633 tareas anotadas por expertos en MIMIC-IV v3.1 que exige uniones multitatabla, filtros clínicamente significativos y SQL ejecutable. Resolver CLINSQL implica navegar por metadatos de esquema y sistemas de codificación clínica, manejar contextos extensos y componer consultas multipaso que van más allá del texto-a-SQL tradicional. Evaluamos 22 modelos propietarios y de código abierto bajo autorrefinamiento de Cadena de Pensamiento, utilizando análisis SQL basado en rúbricas con verificaciones de ejecución que priorizan requisitos clínicos críticos. A pesar de los avances recientes, el rendimiento dista mucho de ser clínicamente confiable: en el conjunto de prueba, GPT-5-mini alcanza un 74.7% de puntuación de ejecución, DeepSeek-R1 lidera el código abierto con 69.2%, y Gemini-2.5-Pro cae del 85.5% en tareas Fáciles al 67.2% en las Difíciles. El progreso en CLINSQL marca avances tangibles hacia un sistema de texto-a-SQL clínicamente confiable para el análisis de EHR en entornos reales.
El auge de los marcos de trabajo de agentes de IA ha introducido las *skills* o capacidades de agente, paquetes modulares que contienen instrucciones y código ejecutable para extender dinámicamente las capacidades de los agentes. Si bien esta arquitectura permite una potente personalización, las *skills* se ejecutan con confianza implícita y una verificación mínima, creando una superficie de ataque significativa pero aún no caracterizada. Realizamos el primer análisis empírico de seguridad a gran escala de este ecosistema emergente, recopilando 42.447 *skills* de dos mercados principales y analizando sistemáticamente 31.132 utilizando SkillScan, un marco de detección multietapa que integra análisis estático con clasificación semántica basada en LLM. Nuestros hallazgos revelan riesgos de seguridad generalizados: el 26,1% de las *skills* contienen al menos una vulnerabilidad, que abarca 14 patrones distintos en cuatro categorías: inyección de *prompts*, exfiltración de datos, escalada de privilegios y riesgos de la cadena de suministro. La exfiltración de datos (13,3%) y la escalada de privilegios (11,8%) son las más prevalentes, mientras que el 5,2% de las *skills* exhiben patrones de alta severidad que sugieren fuertemente intenciones maliciosas. Encontramos que las *skills* que agrupan scripts ejecutables tienen 2,12 veces más probabilidades de contener vulnerabilidades que las *skills* que solo contienen instrucciones (OR=2,12, p<0,001). Nuestras contribuciones incluyen: (1) una taxonomía de vulnerabilidades fundamentada, derivada de 8.126 *skills* vulnerables, (2) una metodología de detección validada que alcanza un 86,7% de precisión y un 82,5% de exhaustividad, y (3) un conjunto de datos abierto y un kit de herramientas de detección para apoyar la investigación futura. Estos resultados demuestran la necesidad urgente de sistemas de permisos basados en capacidades y una verificación de seguridad obligatoria antes de que este vector de ataque sea explotado aún más.
Este estudio investiga el uso de la ingeniería de prompts para mejorar los modelos de lenguaje grandes (LLMs), específicamente GPT-4o-mini y gemini-1.5-flash, en tareas de análisis de sentimientos. Evalúa técnicas avanzadas de prompting como el aprendizaje con pocos ejemplos (few-shot learning), el prompting de cadena de pensamiento (chain-of-thought) y la autoconsistencia (self-consistency), comparándolas con una línea base. Las tareas clave incluyen la clasificación de sentimientos, el análisis de sentimientos basado en aspectos y la detección de matices sutiles como la ironía. La investigación detalla los antecedentes teóricos, los conjuntos de datos y los métodos utilizados, evaluando el rendimiento de los LLMs mediante las métricas de exactitud (accuracy), exhaustividad (recall), precisión (precision) y puntuación F1. Los hallazgos revelan que el prompting avanzado mejora significativamente el análisis de sentimientos, donde el enfoque de pocos ejemplos sobresale en GPT-4o-mini y el prompting de cadena de pensamiento potencia la detección de ironía en gemini-1.5-flash hasta en un 46%. Por lo tanto, si bien las técnicas de prompting avanzado mejoran el rendimiento en general, el hecho de que el prompting con pocos ejemplos funcione mejor para GPT-4o-mini y que la cadena de pensamiento sea superior en gemini-1.5-flash para la detección de ironía sugiere que las estrategias de prompting deben adaptarse tanto al modelo como a la tarea. Esto subraya la importancia de alinear el diseño de prompts tanto con la arquitectura del LLM como con la complejidad semántica de la tarea.
El aprendizaje de consistencia con perturbación de características es una estrategia ampliamente utilizada en la segmentación semi-supervisada de imágenes médicas. Sin embargo, muchos métodos de perturbación existentes se basan en dropout, lo que requiere un ajuste manual cuidadoso de la tasa de dropout, un hiperparámetro sensible y a menudo difícil de optimizar, pudiendo conducir a una regularización subóptima. Para superar esta limitación, proponemos VQ-Seg, el primer enfoque que emplea cuantización vectorial (VQ) para discretizar el espacio de características e introduce un novedoso y controlable Módulo de Perturbación Cuantizada (QPM) que reemplaza al dropout. Nuestro QPM perturba las representaciones discretas reorganizando las ubicaciones espaciales de los índices del libro de códigos, permitiendo una regularización efectiva y controlable. Para mitigar la posible pérdida de información causada por la cuantización, diseñamos una arquitectura de doble rama donde el espacio de características post-cuantización es compartido por las tareas de reconstrucción de imágenes y segmentación. Además, introducimos un Adaptador de Características Post-VQ (PFA) para incorporar la guía de un modelo fundacional (FM), supliendo la información semántica de alto nivel perdida durante la cuantización. Asimismo, recopilamos un conjunto de datos a gran escala de Cáncer de Pulmón (LC) que comprende 828 tomografías computarizadas anotadas para carcinoma pulmonar de tipo central. Experimentos exhaustivos en el conjunto de datos LC y otros benchmarks públicos demuestran la efectividad de nuestro método, el cual supera a los enfoques más avanzados. Código disponible en: https://github.com/script-Yang/VQ-Seg.
Los agentes de IA son vulnerables a ataques de inyección de instrucciones, donde contenido malicioso secuestra el comportamiento del agente para robar credenciales o causar pérdidas económicas. La única defensa robusta conocida es el aislamiento arquitectónico que separa estrictamente la planificación de tareas confiables de las observaciones del entorno no confiables. Sin embargo, aplicar este diseño a los Agentes de Uso Informático (CUA, por sus siglas en inglés) —sistemas que automatizan tareas mediante la visualización de pantallas y la ejecución de acciones— presenta un desafío fundamental: los agentes actuales requieren la observación continua del estado de la interfaz de usuario (UI) para determinar cada acción, lo que entra en conflicto con el aislamiento requerido para la seguridad. Resolvemos esta tensión demostrando que los flujos de trabajo de la UI, aunque dinámicos, son estructuralmente predecibles. Introducimos la Planificación de Un Solo Disparo para CUAs, donde un planificador confiable genera un grafo de ejecución completo con ramas condicionales antes de cualquier observación de contenido potencialmente malicioso, proporcionando garantías comprobables de integridad del flujo de control contra inyecciones arbitrarias de instrucciones. Aunque este aislamiento arquitectónico previene con éxito las inyecciones de instrucciones, demostramos que se necesitan medidas adicionales para prevenir los ataques de Direccionamiento de Rama, que manipulan elementos de la UI para activar rutas válidas no intencionadas dentro del plan. Evaluamos nuestro diseño en OSWorld y conservamos hasta el 57% del rendimiento de los modelos de vanguardia, mientras mejoramos el rendimiento de modelos de código abierto más pequeños hasta en un 19%, demostrando que la seguridad rigurosa y la utilidad pueden coexistir en los CUAs.
Presentamos WildRayZer, un marco auto-supervisado para la síntesis de nuevas vistas (NVS) en entornos dinámicos donde tanto la cámara como los objetos se mueven. El contenido dinámico rompe la consistencia multi-vista en la que se basan los modelos NVS estáticos, lo que genera efectos de fantasmas, geometría alucinada y estimación de pose inestable. WildRayZer aborda este problema realizando una prueba de análisis por síntesis: un renderizador estático que solo considera la cámara explica la estructura rígida, y sus residuos revelan las regiones transitorias. A partir de estos residuos, construimos máscaras de movimiento pseudo, destilamos un estimador de movimiento y lo utilizamos para enmascarar *tokens* de entrada y regular los gradientes de la pérdida, de modo que la supervisión se centre en la completación del fondo coherente entre vistas. Para permitir el entrenamiento y evaluación a gran escala, hemos creado Dynamic RealEstate10K (D-RE10K), un conjunto de datos del mundo real con 15K secuencias dinámicas capturadas de forma casual, y D-RE10K-iPhone, un *benchmark* emparejado de vistas transitorias y limpias para NVS con vistas escasas y conciencia de transitorios. Los experimentos muestran que WildRayZer supera consistentemente a los métodos basados en optimización y a los *baselines* de propagación directa, tanto en la eliminación de regiones transitorias como en la calidad NVS de fotograma completo, con una única pasada de propagación directa.
Los Modelos de Lenguaje Grandes (LLM) a menudo exhiben patrones de atención en diagonal, donde las puntuaciones de atención se concentran a lo largo de la subdiagonal Δ-ésima para un determinado desplazamiento Δ. Estos patrones juegan un papel clave en la transmisión de información entre tokens. Pero, ¿por qué emergen? En este artículo, desentrañamos la emergencia de estas Cabezas de Atención en Diagonal (CAD) desde perspectivas tanto empíricas como teóricas. Primero, al analizar LLM de código abierto, encontramos que las CAD son intrínsecas a los modelos y se generalizan a prompts fuera de distribución. Para explicar la emergencia intrínseca, analizamos las consultas, las claves y el Embedding Posicional Rotatorio (RoPE), que determinan conjuntamente las puntuaciones de atención. Nuestro análisis empírico revela dos condiciones características de las CAD: (1) Las consultas y las claves son casi de rango uno, y (2) El RoPE está dominado por componentes de frecuencia media y alta. Bajo estas condiciones, las consultas y las claves son casi idénticas entre tokens, y las interacciones entre los componentes de frecuencia media y alta del RoPE dan lugar a las CAD. Más allá de la evidencia empírica, demostramos teóricamente que estas condiciones son suficientes para garantizar la emergencia de las CAD formalizándolas como nuestros supuestos de modelado. En particular, analizamos la dinámica de entrenamiento de un Transformer superficial equipado con RoPE bajo estas condiciones, y demostramos que los modelos entrenados mediante descenso de gradiente exhiben CAD. Las CAD se generalizan a prompts fuera de distribución.
Los Modelos de Lenguaje Grandes (LLM) se han convertido en un pilar fundamental para muchas aplicaciones cotidianas. Sin embargo, a medida que los datos evolucionan, su conocimiento se vuelve rápidamente obsoleto. El aprendizaje continuo tiene como objetivo actualizar los LLM con nueva información sin borrar el conocimiento adquirido previamente. Aunque métodos como el ajuste fino completo pueden incorporar nuevos datos, son computacionalmente costosos y propensos al olvido catastrófico, donde el conocimiento previo se sobrescribe. Los enfoques aumentados con memoria abordan este problema equipando a los LLM con un banco de memoria, es decir, un módulo de memoria externo que almacena información para su uso futuro. Sin embargo, estos métodos enfrentan una limitación crítica; en particular, el banco de memoria crece constantemente en escenarios del mundo real cuando llegan flujos de datos a gran escala. En este artículo, proponemos MBC, un modelo que comprime el banco de memoria mediante una estrategia de optimización de libro de códigos durante el aprendizaje de adaptación en línea. Para garantizar un aprendizaje estable, también introducimos un mecanismo de reinicio en línea que previene el colapso del libro de códigos. Además, empleamos Key-Value Low-Rank Adaptation en las capas de atención del LLM, permitiendo una utilización eficiente de las representaciones de memoria comprimidas. Los experimentos con conjuntos de datos de referencia de preguntas y respuestas demuestran que MBC reduce el tamaño del banco de memoria a un 0.3% en comparación con el baseline más competitivo, manteniendo una alta precisión de retención durante el aprendizaje de adaptación en línea. Nuestro código está disponible públicamente en https://github.com/Thomkat/MBC.