Artículos de investigación en IA seleccionados diariamente con traducciones
La autodestilación on-policy, donde un estudiante es atraído hacia una copia de sí mismo condicionada por un contexto privilegiado (por ejemplo, una solución verificada o retroalimentación), ofrece una dirección prometedora para mejorar la capacidad de razonamiento sin un maestro externo más fuerte. Sin embargo, en el razonamiento matemático las ganancias son inconsistentes, incluso cuando el mismo enfoque tiene éxito en otros dominios. Un análisis de información mutua puntual atribuye el fracaso al propio contexto privilegiado: este infla la confianza del profesor en tokens ya implicados por la solución (conectivos estructurales, afirmaciones verificables) y la reduce en tokens de deliberación ("Espera", "Sea", "Quizás") que impulsan la búsqueda multi-paso. Proponemos Anti-Autodestilación (AntiSD), que asciende por una divergencia entre estudiante y profesor en lugar de descenderla: esto invierte el signo por token y produce una ventaja naturalmente acotada en un solo paso. Una compuerta activada por entropía desactiva el término una vez que la entropía del profesor colapsa, completando un reemplazo directo de la autodestilación por defecto. En cinco modelos de 4B a 30B parámetros en benchmarks de razonamiento matemático, AntiSD alcanza la precisión de la línea base GRPO en 2 a 10 veces menos pasos de entrenamiento y mejora la precisión final en hasta 11.5 puntos. AntiSD abre una vía hacia la automejora escalable, donde un modelo de lenguaje se impulsa a sí mismo en su razonamiento mediante su propia señal de entrenamiento.
Automatizar el descubrimiento científico requiere más que generar artículos a partir de ideas. La investigación real es iterativa: las hipótesis se desafían desde múltiples perspectivas, los experimentos fallan e informan el siguiente intento, y las lecciones se acumulan a lo largo de los ciclos. Los sistemas autónomos de investigación existentes a menudo modelan este proceso como un flujo lineal: dependen del razonamiento de un solo agente, se detienen cuando la ejecución falla y no trasladan la experiencia entre ejecuciones. Presentamos AutoResearchClaw, un flujo de investigación autónomo multiagente basado en cinco mecanismos: debate estructurado multiagente para la generación de hipótesis y el análisis de resultados, un ejecutor autocorrectivo con un bucle de decisión Pivot/Refine que transforma los fallos en información, reporte de resultados verificable que evita números inventados y citas alucinadas, colaboración humano en el ciclo con siete modos de intervención que abarcan desde la autonomía total hasta la supervisión paso a paso, y evolución entre ejecuciones que convierte errores pasados en salvaguardas futuras. En ARC-Bench, un banco de pruebas de 25 temas en fase experimental, AutoResearchClaw supera a AI Scientist v2 en un 54,7%. Un estudio de ablación con humano en el ciclo en siete modos de intervención revela que la colaboración precisa y dirigida en puntos de decisión de alto apalancamiento supera consistentemente tanto a la autonomía total como a la supervisión exhaustiva paso a paso. Posicionamos AutoResearchClaw como un amplificador de la investigación que aumenta, en lugar de reemplazar, el juicio científico humano. El código está disponible en https://github.com/aiming-lab/AutoResearchClaw.
A pesar del rápido progreso en los modelos multimodales de lenguaje (MLLMs) capaces de procesar video, encontramos que su aparente comprensión del audio en videos suele estar impulsada por la visión: los modelos se basan en señales visuales para inferir o alucinar información acústica, sin verificar el flujo de audio. Este problema se manifiesta tanto en modelos omniscientes de código abierto de última generación como en los principales modelos de código cerrado de proveedores como Google y OpenAI. Caracterizamos este modo de fallo como un efecto Clever Hans audiovisual, en el que los modelos aparentan (falsamente) estar fundamentados en el audio, pero en realidad explotan correlaciones visual-acústicas sin verificar si los flujos de audio y visual están realmente alineados. Para estudiar sistemáticamente este comportamiento, presentamos Thud, un marco de sondeo basado en intervenciones que emplea tres ediciones de audio contrafácticas: Shift, que prueba la sincronización temporal; Mute, que prueba la existencia del sonido; y Swap, que prueba la consistencia audiovisual. Más allá del diagnóstico, estudiamos además una receta de alineación en dos etapas: pares de preferencias derivados de intervenciones enseñan la verificación del audio, mientras que las preferencias generales de video a nivel de eventos regularizan el modelo contra la sobrespecialización. Nuestra mejor receta con 10.000 muestras mejora el rendimiento promedio en las tres dimensiones de intervención en 28 puntos porcentuales, al tiempo que mejora ligeramente el rendimiento en benchmarks generales de video y preguntas-respuestas audiovisuales.
El *Pairwise Ranking Prompting* (PRP) obtiene juicios de preferencia por pares de un LLM, que luego se agregan en un ranking, generalmente mediante algoritmos de ordenamiento clásicos. Sin embargo, los juicios son ruidosos, sensibles al orden y, en ocasiones, intransitivos, por lo que los supuestos del ordenamiento no se ajustan al contexto. Dado que el ordenamiento busca recuperar una permutación completa, truncarlo para cumplir con un presupuesto de consultas no produce un top-K confiable. Por ello, replanteamos el reranking mediante PRP como aprendizaje activo a partir de comparaciones ruidosas por pares y mostramos que los rankers activos son reemplazos directos que mejoran el NDCG@10 por consulta en el régimen de consultas limitadas. Nuestro marco robusto al ruido también introduce un oráculo de dirección aleatorizada que utiliza una sola llamada al LLM por par. Este enfoque convierte el sesgo sistemático de posición en ruido de media cero, permitiendo un ranking agregado insesgado sin el costo de las llamadas bidireccionales.
Presentamos OpenComputer, un marco fundamentado en verificadores para construir mundos de software verificables para agentes que utilizan computadoras. OpenComputer integra cuatro componentes: (1) verificadores de estado específicos de aplicaciones que exponen puntos de inspección estructurados sobre aplicaciones reales, (2) una capa de verificación auto-evolutiva que mejora la fiabilidad del verificador mediante retroalimentación basada en la ejecución, (3) un flujo de generación de tareas que sintetiza tareas de escritorio realistas y verificables por máquina, y (4) un arnés de evaluación que registra trayectorias completas y calcula recompensas de crédito parcial auditables. En su forma actual, OpenComputer abarca 33 aplicaciones de escritorio y 1000 tareas finalizadas que cubren navegadores, herramientas de oficina, software creativo, entornos de desarrollo, gestores de archivos y aplicaciones de comunicación. Los experimentos muestran que los verificadores codificados de OpenComputer se alinean más estrechamente con el juicio humano que la evaluación LLM-como-juez, especialmente cuando el éxito depende de un estado de la aplicación de grano fino. Los agentes de frontera tienen dificultades para completar tareas de principio a fin a pesar del progreso parcial, y los modelos de código abierto muestran caídas pronunciadas respecto a sus puntuaciones en OSWorld-Verified, lo que expone una brecha persistente en la automatización robusta de computadoras.
Presentamos GoLongRL, una receta de post-entrenamiento totalmente open source y orientada a capacidades para el aprendizaje por refuerzo de contexto largo con recompensas verificables (RLVR). Los métodos existentes de RL de contexto largo a menudo tratan la construcción de datos como una cuestión de diseñar rutas de recuperación cada vez más complejas, lo que genera una cobertura homogénea de tareas y formulaciones de recompensa que reflejan inadecuadamente los requisitos prácticos de contexto largo. Nuestro trabajo ofrece dos contribuciones. (1) Construcción de datos orientada a capacidades con publicación abierta completa. Publicamos abiertamente un conjunto de datos de 23K muestras RLVR, el pipeline de construcción completo y todo el código de entrenamiento. Guiado por una taxonomía de capacidades de contexto largo, el conjunto de datos abarca 9 tipos de tareas, cada uno emparejado con su métrica de evaluación natural. Comprende muestras de código abierto seleccionadas de corpus establecidos y muestras sintéticas cuyos pares de preguntas y respuestas se generan a partir de documentos fuente reales, como libros, artículos académicos y diálogos de múltiples turnos. Bajo la misma configuración de GRPO estándar, nuestro conjunto de datos supera por sí solo al conjunto de datos cerrado QwenLong-L1.5. Además, nuestro modelo Qwen3-30B-A3B entrenado con estos datos ofrece un rendimiento de contexto largo comparable a DeepSeek-R1-0528 y Qwen3-235B-A22B-Thinking-2507, lo que sugiere que una cobertura más amplia y una mayor diversidad de recompensas benefician sustancialmente la mejora de las capacidades de contexto largo. (2) TMN-Reweight para optimización multitarea heterogénea. Para abordar los desafíos de optimización derivados de recompensas heterogéneas, proponemos TMN-Reweight, que combina la normalización media a nivel de tarea para la alineación de escalas de recompensa entre tareas con un ponderado adaptativo a la dificultad para una estimación de ventaja más fiable. TMN-Reweight mejora aún más el rendimiento promedio sobre GRPO estándar, con capacidades generales preservadas o mejoradas en las evaluaciones reportadas.
Los Modelos de Recompensa de Procesos (PRMs) proporcionan retroalimentación a nivel de paso para el razonamiento, pero los PRMs actuales generalmente solo generan una puntuación de recompensa única para cada paso. Por lo tanto, los métodos descendentes deben tratar las predicciones imperfectas de recompensa a nivel de paso como señales de decisión confiables, sin indicación de cuándo se debe confiar en estas predicciones. Proponemos BetaPRM, un PRM distribucional que predice tanto la probabilidad de éxito a nivel de paso como la fiabilidad de esa predicción. Dada la supervisión de éxito de paso a partir de continuaciones de Monte Carlo, BetaPRM aprende una creencia Beta que explica el número observado de continuaciones exitosas a través de una verosimilitud Beta-Binomial, en lugar de regresar a la proporción de éxito de muestra finita como un objetivo puntual. Esta señal de fiabilidad aprendida indica cuándo se debe confiar en una recompensa de paso, permitiendo que las aplicaciones descendentes distingan entre recompensas fiables y las inciertas. Como una aplicación, introducimos la Asignación Adaptativa de Cómputo (ACA) para el razonamiento Best-of-N guiado por PRM. ACA utiliza la señal de fiabilidad aprendida para detenerse cuando una solución de alta recompensa es fiable y para dedicar cómputo adicional a prefijos candidatos inciertos. Los experimentos con cuatro modelos base y cuatro puntos de referencia de razonamiento muestran que BetaPRM mejora la selección Best-of-N guiada por PRM, manteniendo la detección estándar de errores a nivel de paso. Basado en esta señal, ACA mejora el equilibrio entre precisión y tokens en comparación con Best-of-16 de presupuesto fijo, reduciendo el uso de tokens hasta en un 33.57% y mejorando la precisión de la respuesta final.
Dotar a los LLM de capacidades de uso de herramientas mediante Aprendizaje por Refuerzo Agéntico (ARL) se ve limitado por dos desafíos: la falta de entornos de ejecución escalables y robustos, y la escasez de datos de entrenamiento realistas que capturen el razonamiento humano implícito. Los enfoques existentes dependen de costosas API del mundo real, simuladores de LLM propensos a alucinaciones o entornos sintéticos que a menudo son de un solo turno o dependen de documentos previamente recopilados. Además, las trayectorias sintéticas suelen estar sobreespecificadas, asemejándose a secuencias de instrucciones más que a intenciones humanas naturales, lo que reduce su eficacia para el entrenamiento con RL. Presentamos EnvFactory, un marco totalmente automatizado que aborda ambos desafíos. EnvFactory explora y verifica de forma autónoma entornos de herramientas ejecutables y con estado a partir de recursos auténticos, y sintetiza trayectorias naturales de múltiples turnos mediante muestreo consciente de la topología y refinamiento calibrado, produciendo consultas fundamentadas con intenciones implícitas. Utilizando solo 85 entornos verificados en 7 dominios, EnvFactory genera 2.575 trayectorias de SFT y RL. A pesar de utilizar significativamente menos entornos que trabajos anteriores, que a menudo son 5 veces más, EnvFactory logra una eficiencia de entrenamiento y un rendimiento posteriores superiores, mejorando los modelos de la serie Qwen3 hasta en un +15 % en BFCLv3, +8,6 % en MCP-Atlas y +6 % en puntos de referencia conversacionales como τ^2-Bench y VitaBench. Al automatizar completamente tanto la construcción del entorno como la síntesis de trayectorias, EnvFactory proporciona una base escalable, extensible y robusta para el ARL.
Los recientes modelos de difusión logran un fuerte fotorrealismo y fluidez en la generación de videos, pero siguen siendo frágiles bajo condiciones abstractas, dispersas o complejas, lo que resulta en un rendimiento deficiente en flujos de trabajo profesionales como bocetos de storyboard y condiciones de renderizado en arcilla. Los modelos existentes de generación de video, ya sea que inyecten condiciones a través de adaptadores o acoplen un modelo genérico de visión-lenguaje (VLM) dentro de un backbone de difusión, presentan una brecha de capacidad y no logran producir videos que se alineen con la intención creativa del usuario. Presentamos CogOmniControl, un marco basado en razonamiento que descompone la generación controlable de video en cognición de la intención creativa y generación. Específicamente, entrenamos un CogVLM especializado utilizando datos auténticos de producción de anime. En comparación con los VLM genéricos, genera salidas más profesionales y claras, reconociendo con precisión la intención creativa del usuario a partir de condiciones abstractas y dispersas, y transformando estas señales en salidas de razonamiento densas. Además, CogOmniDiT unifica los controles de diversas condiciones a través de generación en contexto y se alinea con las salidas de razonamiento de CogVLM mediante aprendizaje por refuerzo. Asimismo, aprovechando la robusta capacidad de CogVLM para guiar la generación de video, liberamos su potencial en la planificación de evaluadores específicos y habilitamos una selección Best-of-N para los videos generados. Esta integración transforma todo el marco en una arquitectura de "arnés" de bucle cerrado. También presentamos CogReasonBench y CogControlBench, construidos a partir de datos de flujos de trabajo profesionales que contienen intenciones creativas genuinas, no simuladas. Los experimentos en dos puntos de referencia muestran que CogOmniControl superó a los modelos de código abierto existentes. Sitio web del proyecto: https://um-lab.github.io/CogOmniControl/
Dotar a los agentes LLM de habilidades reutilizables derivadas de la experiencia previa se ha convertido en un enfoque popular y exitoso para abordar tareas complejas y de largo horizonte. Sin embargo, dichas lecciones suelen codificarse como guía textual que sigue siendo en gran medida asesorativa, careciendo de mecanismos explícitos que indiquen cuándo y cómo intervenir en el bucle del agente. Para cerrar esta brecha, presentamos HASP (Harnessing LLM Agents with Skill Programs), un nuevo marco que transforma las habilidades en Funciones de Programa (PF, por sus siglas en inglés) ejecutables. En lugar de ofrecer consejos pasivos, las PF actúan como barreras de seguridad ejecutables que se activan en estados propensos a fallos, modificando la siguiente acción o inyectando contexto correctivo. HASP es altamente modular: puede aplicarse en tiempo de inferencia para una intervención directa en el bucle del agente, durante el post-entrenamiento para proporcionar supervisión estructurada, o para la automejora mediante la evolución de PF validadas y revisadas por un profesor. Empíricamente, HASP genera mejoras sustanciales en comparación con métodos tanto sin entrenamiento como basados en entrenamiento en tareas de búsqueda web, razonamiento matemático y codificación. Por ejemplo, en el razonamiento de búsqueda web, las PF solo en tiempo de inferencia mejoran el rendimiento promedio en un 25% en comparación con el Agente ReAct (de múltiples bucles), mientras que el post-entrenamiento y la evolución controlada logran una ganancia del 30.4% sobre Search-R1. Para proporcionar una comprensión más profunda de HASP, nuestro análisis de mecanismos revela cómo las PF se activan e intervienen, cómo se interiorizan las habilidades y el requisito de una evolución estable de la biblioteca de habilidades.
Los modelos recientes de edición de vídeo han convergido en un diseño de condicionamiento unificado: un único transformador de difusión consume conjuntamente texto, vídeo fuente e imágenes de referencia, y un conjunto de pesos cubre reemplazo, eliminación, transferencia de estilo e inserción guiada por referencias. El diseño es flexible, pero asume que el usuario ya proporciona texto listo para el modelo, imágenes de referencia y un anclaje espacial para ediciones locales, lo que las solicitudes reales a menudo omiten. Presentamos Aurora, un marco de edición de vídeo con agente que empareja un agente de modelo de lenguaje y visión (VLM) aumentado con herramientas con un transformador de difusión de vídeo unificado. El agente VLM mapea una solicitud de usuario en bruto a un plan de edición estructurado alineado con los canales de condicionamiento del transformador, resolviendo así la subespecificación textual y visual antes de la generación. Entrenamos el agente VLM con datos supervisados para la planificación completa de ediciones y la selección de imágenes de referencia, junto con pares de preferencia para un uso robusto de herramientas y refinamiento de instrucciones. Introducimos AgentEdit-Bench para evaluar la edición de vídeo aumentada por agente bajo subespecificación textual y visual. Los experimentos en AgentEdit-Bench y dos puntos de referencia de edición de vídeo existentes muestran que Aurora mejora las líneas base basadas solo en instrucciones y que el agente VLM se transfiere a modelos de edición de vídeo congelados compatibles. Página del proyecto: https://yeates.github.io/Aurora-Page
Los modelos generativos de video recientes han mejorado significativamente el realismo de los videos generados por inteligencia artificial; sin embargo, sus resultados aún presentan artefactos como inconsistencias temporales, distorsiones estructurales e incoherencias semánticas. Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs) demuestran una sólida capacidad de comprensión visual, aún no está claro hasta qué punto pueden percibir y razonar sobre dichos artefactos. Los puntos de referencia existentes a menudo carecen de una evaluación sistemática de la percepción de artefactos y del razonamiento diagnóstico detallado, especialmente en diversos dominios de videos generados por IA más allá del contenido fotorrealista. Para abordar esta brecha, presentamos Artifact-Bench, un punto de referencia integral para evaluar MLLMs en la detección y análisis de artefactos en videos generados por IA. Primero, establecemos una taxonomía jerárquica de tres niveles para los artefactos de realismo, que abarca videos fotorrealistas, animados y de estilo CGI. Basándose en esta taxonomía, Artifact-Bench define tres tareas complementarias: clasificación de videos reales frente a generados por IA, comparación de realismo por pares e identificación detallada de artefactos. Los experimentos con 19 MLLMs líderes revelan limitaciones sustanciales en la percepción y el razonamiento sobre artefactos, con muchos modelos acercándose a un rendimiento aleatorio o incluso inferior al aleatorio en entornos desafiantes. Además, observamos una desalineación significativa entre los juicios de los MLLMs y las preferencias perceptivas humanas, lo que destaca su limitada fiabilidad como evaluadores generales del realismo de videos generados por IA.
La IA conversacional ha llegado ya a miles de millones de usuarios, pero los conjuntos de datos existentes solo capturan lo que las personas dicen, no lo que piensan. Presentamos ThoughtTrace, el primer conjunto de datos a gran escala que empareja conversaciones reales de múltiples turnos entre humanos y la IA con los pensamientos autoinformados de los usuarios: sus razones para enviar mensajes y sus reacciones a las respuestas del asistente. ThoughtTrace comprende 1,058 usuarios, 2,155 conversaciones, 17,058 turnos y 10,174 anotaciones de pensamientos recopiladas en 20 modelos de lenguaje. Nuestro análisis muestra que ThoughtTrace captura interacciones de largo alcance y temáticamente diversas, y que los pensamientos son semánticamente distintos de los mensajes, difíciles de inferir por parte de los modelos de lenguaje de frontera a partir del contexto, diversos en contenido y vinculados a las etapas de la conversación. Además, demostramos la utilidad de los pensamientos para el modelado descendente. En primer lugar, los pensamientos mejoran la predicción del comportamiento del usuario como contexto en tiempo de inferencia. En segundo lugar, las reescrituras guiadas por pensamientos proporcionan señales de alineación detalladas para entrenar asistentes personalizados. En conjunto, ThoughtTrace establece los pensamientos del usuario como una nueva modalidad de datos para estudiar la dinámica cognitiva detrás de la interacción humano-IA y proporciona una base para construir asistentes que comprendan y se adapten mejor a los objetivos, preferencias y necesidades latentes de los usuarios.
Los benchmarks actuales para agentes de interfaz gráfica de usuario (GUI) se basan predominantemente en capturas de pantalla estáticas. Sin embargo, la interacción rutinaria con teléfonos inteligentes exige que los agentes procesen señales auditivas transitorias y dinámicas de video temporales que están estrechamente vinculadas al momento de la acción. Para cerrar esta brecha, presentamos OmniGUI, el primer benchmark a nivel de paso diseñado para evaluar agentes GUI en entornos omnimodales de teléfonos inteligentes. OmniGUI proporciona entradas multimodales continuas e intercaladas que incluyen imágenes estáticas, audio sincrónico y clips de video en cada paso de acción. El conjunto de datos abarca 709 episodios demostrados por expertos (2579 pasos de acción) en 29 aplicaciones, anotados sistemáticamente con niveles objetivos de dependencia multimodal. Debido a que los marcos dedicados para agentes GUI omnimodales se encuentran aún en una etapa incipiente, seleccionamos modelos omnimodales fundamentales capaces de procesar de forma nativa entradas intercaladas para que sirvan como proxies de agente en nuestras líneas base iniciales. Nuestra evaluación empírica revela que, si bien los modelos actuales muestran competencia en tareas visualmente estáticas, su rendimiento en la predicción de acciones se degrada significativamente en entornos que requieren señales auditivas y temporales sincrónicas. Además, los estudios de ablación aíslan cuellos de botella operativos específicos, especialmente la interferencia entre modalidades al procesar ruido ambiental irrelevante para la tarea. El conjunto de datos completo, el pipeline de evaluación y las indicaciones base se proporcionan en el material complementario. Página del proyecto: https://omni-gui.github.io.
La generación de video está evolucionando rápidamente desde la síntesis de una sola toma hasta narrativas complejas de audio-video multi-toma (MSAV) para satisfacer las demandas del mundo real. Sin embargo, evaluar estos modelos de frontera sigue siendo un desafío fundamental. Los benchmarks existentes son limitados en alcance y diversidad de datos, y dependen de pipelines de evaluación rígidos, lo que impide una evaluación sistemática y fiable de los modelos MSAV modernos. Para cerrar estas brechas, presentamos MSAVBench, el primer benchmark integral y marco de evaluación híbrido adaptativo para la generación de audio-video multi-toma. Nuestro benchmark abarca cuatro dimensiones clave: video, audio, toma y referencia, cubriendo diversas configuraciones de tareas, conteos de tomas variables de hasta 15 y escenarios desafiantes no realistas. Nuestro marco de evaluación mejora la robustez mediante un mecanismo adaptativo de autocorrección para la segmentación de tomas, rúbricas por instancia para métricas subjetivas y extracción de evidencia basada en herramientas para juicios complejos. Además, MSAVBench logra una alta alineación con los juicios humanos, alcanzando una correlación de rango de Spearman del 91.5 %. Nuestra evaluación sistemática de 19 modelos de última generación, tanto de código cerrado como abierto, muestra que los sistemas actuales aún tienen dificultades con el control a nivel de director y la sincronización audiovisual de grano fino, mientras que los pipelines de generación modulares o agentivos ofrecen un camino prometedor para reducir la brecha entre los modelos de código abierto y cerrado. Publicaremos los datos del benchmark y el código de evaluación para facilitar futuras investigaciones.
La evaluación de la IA está experimentando un cambio estructural. Los modelos de lenguaje de gran escala (LLM) se despliegan cada vez más como sistemas que actúan a lo largo del tiempo mediante herramientas, entornos, usuarios y otros agentes, mientras que muchas prácticas de evaluación aún heredan supuestos de puntos de referencia centrados en respuestas (por ejemplo, entradas fijas, salidas aisladas y juicios de resultados que pueden realizarse a partir de una única respuesta). El campo ha comenzado a construir puntos de referencia interactivos, pero el panorama resultante está fragmentado: los puntos de referencia difieren en qué artefactos de interacción admiten, cómo se puntúan las trayectorias y qué afirmaciones respaldan sus resultados. Este artículo de posición argumenta que la evaluación interactiva debe tratarse como un paradigma de evaluación fundamentado, no simplemente como una nueva familia de puntos de referencia para agentes. Adoptar simplemente paradigmas de evaluación previos no es suficiente. Definimos la evaluación como una asignación autónoma desde la evidencia hasta los juicios, y mostramos que la evaluación interactiva modifica ambos lados de esta asignación: la evidencia se convierte en trayectorias generadas por la interacción, mientras que el procedimiento de evaluación debe evaluar el proceso, la recuperabilidad, la coordinación, la robustez y el rendimiento a nivel de sistema. Sobre la base de esta definición, proponemos una taxonomía de dos ejes, derivamos principios de diseño y estándares de reporte, examinamos escenarios representativos y analizamos cómo los desafíos de evaluación de larga data reaparecen a nivel de trayectoria.
Cuando un modelo produce una solución correcta bajo aprendizaje por refuerzo con recompensas verificables (RLVR), cada token recibe la misma señal de recompensa independientemente de si se trata de un paso de razonamiento decisivo o de un relleno gramatical. Una solución natural consiste en condicionar el modelo a la respuesta correcta como maestro, identificando los tokens que habría generado de manera diferente de haber conocido la respuesta. Trabajos previos muestran que esto o bien corrompe el entrenamiento al filtrar la respuesta en el gradiente, o bien produce una señal débil que no puede distinguir los pasos decisivos del relleno, ya que ambos parecen igualmente sorprendentes en relación con la línea base del modelo. Proponemos la Optimización de Política Basada en Evidencia Contrastiva (CEPO), que plantea una pregunta más precisa en cada token: no solo "¿la respuesta correcta favorece este token?" sino "¿la respuesta correcta lo favorece mientras que la respuesta incorrecta lo desfavorece?" Un token que satisface ambas condiciones es un paso genuino de razonamiento; uno que no satisface ninguna es relleno. El maestro de respuesta incorrecta se construye a partir de rollouts rechazados que ya están en el lote de entrenamiento, sin incurrir en costos adicionales de muestreo. Demostramos que CEPO hereda todas las garantías estructurales de seguridad del estado del arte previo, a la vez que agudiza estrictamente el crédito en los tokens decisivos, y la mejora desaparece exactamente en las posiciones de relleno. Empíricamente, CEPO alcanza una precisión promedio de 43.43% y 60.56% en cinco puntos de referencia de razonamiento matemático multimodal a escalas de 2B y 4B, respectivamente, frente al 41.17% y 57.43% de GRPO bajo presupuestos de entrenamiento idénticos. Los métodos de autodestilación por emparejamiento de distribuciones (OPSD, SDPO) se sitúan por debajo del punto de referencia no entrenado, confirmando empíricamente la fuga de información que predice nuestra teoría. Nuestro código está disponible en https://github.com/ahmedheakl/CEPO.
El Modelado de Energía de Edificios Urbanos (UBEM) desempeña un papel fundamental en el logro de los Objetivos de Desarrollo Sostenible 7 y 11 de las Naciones Unidas. Aunque los estudios existentes basados en imágenes satelitales y aprendizaje profundo han logrado avances notables, persisten varios desafíos: la mayoría de los estudios actuales son inherentemente predictivos y no reflejan la naturaleza generativa de la planificación urbana; si bien la IA generativa y los modelos de difusión han experimentado un crecimiento explosivo en el ámbito de las imágenes satelitales, carecen de generación funcional urbana (por ejemplo, la capa energética); en tercer lugar, los datos energéticos de edificios de alta calidad y alta resolución alineados con imágenes satelitales son limitados y escasos. Aquí proponemos SENSE (Síntesis de Energía basada en Satélites para un Entorno Sostenible), un marco unificado de UBEM generativo que sintetiza de forma conjunta imágenes satelitales urbanas realistas y mapas alineados de alto nivel de consumo energético y altura de edificios. Al condicionarse en redes viales y métricas de densidad urbana, SENSE, basado en un modelo de difusión controlable, aprovecha el conocimiento aprendido por grandes modelos de visión para generar información de consumo energético y altura de edificios (anotaciones) en el espacio latente. Los experimentos realizados en cuatro ciudades (Nueva York, Boston, Lyon y Busan) demuestran que SENSE logra una alta fidelidad visual y una fuerte consistencia física, cumpliendo con la métrica estándar de ASHRAE. Los experimentos muestran que SENSE puede generar suficientes datos sintéticos anotados utilizando menos del 20% de datos energéticos etiquetados, mejorando el rendimiento de predicción posterior en un 10% de IoU. En comparación con los métodos de predicción energética urbana del estado del arte, SENSE redujo significativamente el error de predicción (reducción del 3%-11% en NMBE y del 1%-9% en CVRMSE). Este estudio ofrece una solución de planificación urbana energéticamente eficiente y de generación física para la ciencia urbana, la ciencia energética y la ciencia de la edificación. El conjunto de datos y el código: https://huggingface.co/datasets/skl24/MUSE y https://github.com/kailaisun/GenAI4Urban-Energy/.
Los modelos de difusión de video han avanzado rápidamente en realismo perceptivo y coherencia temporal, pero siguen optimizados principalmente para la generación plausible en lugar del razonamiento verificable. Esta limitación es especialmente notable en tareas donde los videos generados deben satisfacer restricciones explícitas de tipo espacial, temporal o lógico. Inspirándonos en el papel del aprendizaje por refuerzo con recompensas verificables (RLVR) en los modelos de lenguaje orientados al razonamiento, presentamos VideoRLVR, una receta práctica para optimizar modelos de difusión de video con retroalimentación basada en reglas. VideoRLVR formula el razonamiento en video como la generación de trayectorias visuales verificables y consta de un núcleo de optimización SDE-GRPO, recompensas densas descompuestas y una estrategia de Enfoque en Pasos Tempranos para un entrenamiento eficiente. La estrategia de Enfoque en Pasos Tempranos restringe la optimización de la política a la fase temprana de eliminación de ruido, reduciendo la latencia de entrenamiento en aproximadamente un 40% mientras preserva el rendimiento. Evaluamos VideoRLVR en Maze, FlowFree y Sokoban, tres dominios generados proceduralmente con criterios objetivos de éxito. En estas tareas, VideoRLVR mejora consistentemente las líneas base de ajuste fino supervisado, siendo las recompensas densas descompuestas especialmente importantes en escenarios con bajas tasas de éxito. Nuestro modelo optimizado con RL también supera a los modelos de generación de video evaluados, tanto propietarios como de código abierto, en estos puntos de referencia de razonamiento verificable y en puntos de referencia fuera del dominio. Estos resultados sugieren que el RL verificable puede llevar a los modelos de video más allá de la imitación perceptiva hacia un razonamiento visual más confiable y consistente con las reglas.
Los modelos de texto a imagen (T2I) han experimentado recientemente un progreso notable en resoluciones de alrededor de 1K y 2K. Con el deseo extremo de una mejor experiencia visual y el rápido desarrollo de la tecnología de imágenes, la demanda de generación de imágenes de ultra alta resolución (UHR) ha crecido significativamente. Sin embargo, la generación de imágenes UHR presenta grandes desafíos debido a la escasez y complejidad del contenido de alta resolución. En este artículo, presentamos primero PixVerve-95K, un conjunto de datos UHR T2I de alta calidad y código abierto, seleccionado con un pipeline de datos cuidadosamente diseñado, que contiene 95.000 imágenes en diversos escenarios (cada imagen tiene un recuento mínimo de píxeles de 100 millones) y anotaciones de siete dimensiones. Basándonos en nuestro conjunto de datos de imagen-texto a gran escala, damos un paso pionero para extender varios modelos fundamentales de T2I a la generación nativa de 100 MP con tres esquemas de entrenamiento. Finalmente, aprovechando tanto métricas convencionales como evaluaciones basadas en modelos de lenguaje grandes multimodales, nuestro propuesto benchmark PixVerve-Bench establece un protocolo de evaluación integral para imágenes UHR que abarca la calidad visual y la alineación semántica. Los extensos resultados experimentales en nuestro benchmark y la exploración constructiva de estrategias de entrenamiento proporcionan de manera colaborativa valiosas perspectivas para futuros avances.
Los modelos multimodales unificados (UMM) buscan consolidar la comprensión visual y la generación visual dentro de una sola arquitectura. Sin embargo, los paradigmas de entrenamiento predominantes optimizan de manera independiente la comprensión mediante señales de texto dispersas y la generación a través de objetivos densos de píxeles. Esta estrategia desacoplada produce espacios de representación desalineados, aislando la comprensión visual de la generación y dificultando su refuerzo mutuo. Este trabajo presenta la primera investigación sistemática sobre el post-entrenamiento generativo, donde formulamos tareas visuales jerárquicas como proxies generativos para superar el aislamiento en los UMM. Nuestra investigación empírica revela que las tareas semánticas de alto nivel, particularmente la segmentación de imágenes, sirven como proxies óptimos. A diferencia de las tareas de bajo nivel que distraen a los modelos con detalles de textura, la segmentación proporciona semántica estructural que mejora significativamente tanto la percepción centrada en la visión como la fidelidad del diseño generativo. Basándonos en estos conocimientos, introducimos el Ajuste Generativo Semántico (SGT, por sus siglas en inglés), un nuevo paradigma que aprovecha la segmentación como proxy generativo para alinear y sinergizar las capacidades multimodales. Los análisis mecanicistas demuestran además que SGT mejora fundamentalmente la separabilidad lineal de las características y optimiza el patrón de asignación de atención visual-textual. Evaluaciones exhaustivas muestran que SGT mejora consistentemente tanto la comprensión multimodal como la fidelidad generativa en los principales puntos de referencia. Nuestro código está disponible en https://song2yu.github.io/SGT/.
La generación de mallas 4D ha surgido recientemente como un paradigma poderoso para recuperar estructuras 3D dinámicas a partir de videos, pero los métodos existentes siguen siendo lentos, computacionalmente costosos y difíciles de escalar a secuencias más largas. Presentamos un enfoque sin entrenamiento que acelera la generación de mallas 4D mientras mejora la calidad de las correspondencias temporales. Nuestra observación clave es que las correspondencias temporales emergen dentro de un backbone 4D mucho antes de que sus mallas generadas se vuelvan visualmente precisas. Aprovechamos esto con un marco general que llamamos Cadena de Atención Espacio-Temporal, que propaga información a través del espacio y el tiempo. Partiendo de los vértices en una malla de anclaje, la cadena mapea los vértices a tokens latentes. Luego sigue las correspondencias temporales en el espacio latente y recupera los vértices específicos de cada fotograma mediante atención de latente a vértice. Este diseño evita costosas correspondencias explícitas mientras preserva los detalles de la malla de anclaje, mejorando así la geometría dinámica de la malla y la consistencia temporal. En comparación con el estado del arte, nuestro método genera una malla 4D en 9 segundos, logrando una aceleración de 13 veces mientras produce resultados de mayor calidad. Además, nuestro enfoque se escala a videos hasta 16 veces más largos sin degradar la calidad de la malla. Más allá de la generación, las correspondencias mejoradas permiten un rendimiento zero-shot competitivo en dos tareas descendentes: seguimiento de objetos 2D y seguimiento 4D. Además, mostramos que nuestro marco permite una estimación de cámara fiable, una capacidad no respaldada por métodos anteriores de generación de mallas 4D.
El 3D Gaussian Splatting (3DGS) permite la síntesis de nuevas vistas en tiempo real con alta calidad visual. Sin embargo, los métodos existentes tienen dificultades con superficies especulares semitransparentes que presentan tanto reflejos complejos como transmisión clara, produciendo a menudo reflejos borrosos o una transmisión excesivamente ocluida. Para abordar esto, presentamos RT-Splatting, un marco que desacopla la ocupación geométrica de cada gaussiana de su opacidad óptica. Esta factorización produce una representación unificada de escenas de superficie-volumen con un solo conjunto de primitivas gaussianas. Nuestro renderizador híbrido interpreta esta representación tanto como una superficie para capturar reflejos de alta frecuencia como un volumen para preservar una transmisión clara. Para mitigar la ambigüedad en la optimización conjunta de reflexión y transmisión, introducimos el Specular-Aware Gradient Gating, que suprime los gradientes engañosos de regiones altamente especulares en la rama de transmisión, reduciendo eficazmente los molestos flotadores. Los experimentos en escenas semitransparentes desafiantes muestran que RT-Splatting alcanza un rendimiento de última generación, proporcionando reflejos de alta fidelidad y transmisión clara con renderizado en tiempo real. Además, nuestra factorización permite de forma natural una edición flexible de escenas. La página del proyecto está disponible en https://sjj118.github.io/RT-Splatting.
Los Residuales de Atención reemplazan las conexiones residuales aditivas estándar con atención softmax aprendida sobre las salidas de capas anteriores, lo que permite un enrutamiento selectivo entre capas. Sin embargo, los Residuales de Atención estándar aún atienden sobre estados ocultos acumulados en capas anteriores, los cuales son altamente redundantes. Demostramos que esta redundancia lleva a un colapso del enrutamiento en capas profundas: los pesos de atención se vuelven de bajo contraste y más cercanos a la uniformidad (peso máximo ≈0.2), limitando la capacidad del modelo para seleccionar estados informativos en capas anteriores. Esto plantea una pregunta de diseño clave pero poco explorada: ¿qué representaciones por capa deberían enrutarse en los Residuales de Atención? Para responder esta pregunta, proponemos los Residuales de Atención Delta, que atienden sobre deltas — el cambio introducido por cada subcapa (v_i = h_{i+1} - h_i) — en lugar de estados acumulados. Las representaciones delta son estructuralmente diversas y producen distribuciones de atención de mayor contraste (peso máximo ≈0.6), permitiendo un enrutamiento más selectivo y efectivo entre capas. Este principio se aplica tanto a nivel de subcapa como de bloque granular. En todas las escalas evaluadas (220M—7.6B), los Residuales de Atención Delta superan consistentemente tanto a los residuales estándar como a los Residuales de Atención, con mejoras de 1.7—8.2% en perplejidad de validación. Los Residuales de Atención Delta también permiten convertir puntos de control preentrenados en Residuales de Atención Delta mediante ajuste fino estándar. El código está disponible en https://github.com/wdlctc/delta-attention-residuals-code.
Estudios recientes sugieren que el Ajuste Fino por Refuerzo (RFT) es inherentemente más resiliente al olvido catastrófico que el Ajuste Fino Supervisado (SFT). Sin embargo, queda abierto si el RFT (p.ej., GRPO) puede superar eficazmente el olvido en entornos desafiantes de aprendizaje continuo visual, como el aprendizaje incremental por clases (CIL) y el aprendizaje incremental por dominios (DIL). Mediante un estudio piloto, confirmamos que, si bien el RFT supera consistentemente al SFT, aún sufre un olvido no despreciable. Atribuimos empíricamente este cuello de botella al Agnosticismo de Desviación a Nivel de Trayectoria: entre los rollouts candidatos que logran recompensas de tarea idénticas, la divergencia KL con respecto a la política de la tarea anterior varía sustancialmente, lo cual se correlaciona fuertemente con el olvido catastrófico a lo largo de tareas secuenciales. Motivados por esta observación, proponemos la Optimización de Políticas con Conciencia de Retención (RaPO), un método de RFT simple pero efectivo que mitiga explícitamente el olvido mediante la conformación de recompensas a nivel de trayectoria. Específicamente, RaPO comprende dos componentes centrales: (1) Recompensa por Retención, que convierte la desviación de la distribución a nivel de trayectoria en una señal de recompensa continua, reforzando preferentemente los rollouts que preservan el conocimiento dentro de cada grupo; (2) Normalización de Ventaja entre Tareas (CTAN), que mantiene un promedio móvil exponencial persistente de las estadísticas de recompensa a través de los límites de las tareas para estabilizar el proceso de optimización durante el aprendizaje continuo. Aprovechando la generalización textual de forma libre de los MLLMs, evaluamos exhaustivamente RaPO en cinco entornos de aprendizaje continuo visual. Experimentos extensos demuestran que RaPO logra un rendimiento líder, reduciendo sustancialmente el olvido catastrófico mientras preserva una fuerte plasticidad. Hasta donde sabemos, este trabajo representa la primera exploración sistemática de RFT en el aprendizaje continuo visual, ofreciendo perspectivas que esperamos inspiren investigaciones futuras.
Los agentes basados en modelos de lenguaje grande (LLM) operan cada vez más sobre contextos externos extensos y recurrentes, como corpus de documentos y repositorios de código. A lo largo de las invocaciones, los enfoques existentes preservan ya sea la trayectoria del agente, el acceso pasivo al material original o las estrategias a nivel de tarea. Ninguno de ellos conserva lo que consideramos más necesario para cargas de trabajo repetidas en el mismo contexto: conocimiento de orientación reutilizable (por ejemplo, qué contiene el contexto, cómo está organizado, y qué entidades, constantes y esquemas han sido históricamente útiles) sobre el propio contexto recurrente. Presentamos PEEK, un sistema que almacena en caché y mantiene este conocimiento de orientación como un mapa de contexto: un artefacto pequeño y de tamaño constante en la indicación del agente que le proporciona una visión persistente del contexto externo. El mapa se mantiene mediante una política de caché programable con tres módulos: un Destilador que extrae conocimiento transferible a partir de señales en tiempo de inferencia, un Cartógrafo que lo traduce en ediciones estructuradas y un Desalojador basado en prioridades que impone un presupuesto fijo de tokens. En tareas de razonamiento en contextos largos y agregación de información, PEEK mejora entre un 6.3% y un 34.0% respecto a líneas base sólidas, utilizando entre 93 y 145 iteraciones menos e incurriendo en un costo entre 1.7 y 5.8 veces menor que el marco de aprendizaje por indicaciones de última generación, ACE. En aprendizaje contextual, PEEK mejora la tasa de resolución y la precisión de rúbrica entre un 6.0-14.0% y un 7.8-12.1%, respectivamente, con un costo 1.4 veces menor que ACE. Estas mejoras se generalizan a distintos modelos de lenguaje y arquitecturas de agentes, incluyendo OpenAI Codex, un agente de codificación de nivel de producción. En conjunto, estos resultados demuestran que un mapa de contexto ayuda a los agentes LLM de contexto largo a interactuar con contextos externos recurrentes de manera más precisa y eficiente.
La descodificación especulativa (DS) acelera la inferencia de modelos de lenguaje grandes mediante un paradigma de borrador y verificación. Con el objetivo de maximizar la tasa de aceptación, los métodos recientes construyen árboles de borrador expansivos, que desafortunadamente incurren en graves sobrecostos computacionales y de ancho de banda de VRAM que limitan las aceleraciones de extremo a extremo. Si bien la poda dinámica en profundidad puede reducir esta latencia al eliminar ramas marginales, también descarta candidatos potencialmente válidos, impidiendo que la tasa de aceptación alcance el límite superior de los árboles densos. En este artículo, identificamos una oportunidad crítica en la asignación de recursos: la transición de un borrador denso a uno podado libera un presupuesto computacional significativo. Para romper esta compensación de Pareto, presentamos Graft, un marco de compensación que acopla la poda y la recuperación como operaciones que se refuerzan mutuamente. La poda proporciona presupuesto suficiente para la recuperación, mientras que la recuperación compensa la pérdida de cobertura inducida por la poda y recupera la longitud aceptada. Mediante un mecanismo secuencial de «podar luego injertar», Graft adjunta tokens recuperados altamente predictivos en las posiciones abiertas por la poda, llenando los vacíos topológicos con una sobrecarga casi nula. Graft es completamente libre de entrenamiento y sin pérdidas. Evaluaciones exhaustivas muestran que Graft establece una nueva frontera de Pareto en entornos de despliegue prácticos, incluyendo generación de contexto corto, generación de contexto largo y modelos a gran escala. En puntos de referencia de contexto corto, logra una aceleración de hasta 5.41 veces y mejora la aceleración promedio sobre EAGLE-3 hasta en un 21.8% en el modelo a gran escala Qwen3-235B. También proporcionamos una exploración preliminar de la aplicación de Graft al paradigma de borrador por bloques estilo DFlash, ofreciendo evidencia inicial y perspectivas para extender el injerto más allá de los árboles de borrador autorregresivos.
El entrenamiento de Splatting de Gaussianas 3D (3DGS) a escala de mil millones de primitivas está fundamentalmente limitado por la memoria: cada primitiva gaussiana lleva consigo un vector de atributos grande, y la tabla de parámetros agregada supera rápidamente la capacidad de la GPU, restringiendo los sistemas anteriores a decenas de millones de gaussianas en hardware comercial de una sola GPU. Observamos que el entrenamiento de 3DGS es inherentemente disperso y condicionado por la trayectoria: cada iteración activa únicamente las gaussianas visibles desde el lote de cámaras actual, por lo que la memoria de la GPU puede actuar como una caché del conjunto de trabajo en lugar de un almacén de parámetros persistente. Partiendo de esta idea, presentamos TideGS, un marco de entrenamiento fuera de núcleo que gestiona los parámetros a través de una jerarquía SSD-CPU-GPU mediante tres técnicas sinérgicas: geometría virtualizada por bloques para la localidad espacial alineada con SSD, una tubería asíncrona jerárquica para superponer E/S con cómputo, y transmisión diferencial adaptativa a la trayectoria que transfiere únicamente los deltas incrementales del conjunto de trabajo entre iteraciones. Los experimentos muestran que TideGS permite entrenar con más de mil millones de gaussianas en una sola GPU de 24 GB, logrando la mejor calidad de reconstrucción entre las bases de referencia evaluadas con una sola GPU en escenas a gran escala, escalando más allá de las bases de referencia fuera de núcleo anteriores (por ejemplo, aproximadamente 100 millones de gaussianas) y del entrenamiento estándar en memoria (por ejemplo, aproximadamente 11 millones de gaussianas).
El aprendizaje por refuerzo con recompensas verificables ha hecho que el post-entrenamiento sea altamente efectivo cuando la corrección puede comprobarse de forma automática. Sin embargo, muchos comportamientos importantes de los modelos requieren satisfacer simultáneamente varios criterios cualitativos. Las recompensas basadas en rúbricas abordan este escenario evaluando criterios específicos de cada indicación (prompt) y agregándolos en una recompensa escalar. No obstante, las agregaciones estáticas estándar confunden la importancia asignada por humanos a un criterio con su utilidad actual como señal de optimización. Mostramos que esta suposición falla en el RL basado en rúbricas: muchos criterios importantes ya están saturados o son actualmente inalcanzables, mientras que los criterios que distinguen distintos despliegues (rollouts) no son necesariamente aquellos con los pesos humanos más grandes. Presentamos POW3R, un marco de recompensas basadas en rúbricas consciente de la política que preserva los pesos humanos y el equilibrio de categorías como objetivo de la rúbrica, mientras adapta los pesos de las recompensas a nivel de criterio durante el entrenamiento. POW3R utiliza el contraste a nivel de despliegue para enfatizar los criterios que actualmente separan las salidas de la política, haciendo que la recompensa de GRPO sea más informativa sin cambiar el objetivo de evaluación subyacente. En tres políticas base sobre dos conjuntos de datos que abarcan configuraciones multimodales y de solo texto, POW3R gana 24 de 30 comparaciones base-política/métrica, mejorando tanto la recompensa media de la rúbrica como la finalización estricta (la fracción de indicaciones cuya respuesta satisface todos los criterios requeridos de la rúbrica) en comparación con GRPO estándar con recompensas de rúbrica, y alcanza la misma meseta en 2.5 a 4 veces menos pasos de entrenamiento. Por lo tanto, las recompensas basadas en rúbricas deben distinguir lo que debería importar en la respuesta final de lo que puede enseñar a la política actual.
Este artículo aborda la tarea de aprender a generar señales sobre mallas triangulares de manera independiente de la triangulación, lo que significa que el modelo entrenado puede aplicarse eficazmente a diferentes mallas y triangulaciones. En la práctica, el artículo adapta el paradigma de emparejamiento de flujo (flow matching, FM) a un entorno basado en mallas e independiente de la triangulación. Teóricamente, se propone una distribución de ruido específica, que es independiente de la triangulación, para ser utilizada en el proceso de eliminación de ruido del modelo FM. Si bien las distribuciones de ruido suelen ser triviales de diseñar para, por ejemplo, imágenes, diseñar una distribución independiente de la triangulación resulta ser una tarea mucho más difícil. Formulamos una definición matemática de la independencia de la triangulación de las distribuciones a través de su espectro. Luego demostramos que una discretización de un campo aleatorio gaussiano específico, denominado proceso de Matérn, posee estas propiedades deseadas y proporciona un algoritmo de muestreo simple y eficiente. Lo utilizamos como nuestro modelo de ruido y adaptamos FM al entorno independiente de la triangulación empleando un enfoque de vanguardia para aprender señales sobre mallas en el dominio del gradiente —PoissonNet— como eliminador de ruido. Realizamos experimentos en tareas complejas, como el muestreo de estados de reposo elásticos y la generación de posturas de humanoides. Se demuestra que nuestro método es capaz de producir resultados altamente realistas para mallas de más de un millón de triángulos, superando significativamente al estado del arte en calidad y diversidad.
La manipulación diestra es intensiva en física y altamente sensible a errores de modelado y ruido de percepción, lo que hace que la transferencia de simulación a realidad sea prohibitivamente desafiante. La aleatorización de dominio (DR) se utiliza comúnmente para mejorar la robustez de las políticas aprendidas para dichas tareas, pero la DR convencional aleatoriza una instancia por episodio, ofreciendo una exposición muy limitada a la variabilidad de la dinámica del mundo real. Con este fin, proponemos el Conjunto de Instancias Aleatorizadas por Dominio (DRIS, por sus siglas en inglés), que representa y propaga un conjunto de instancias aleatorizadas simultáneamente, proporcionando una aproximación más rica de dinámicas inciertas y permitiendo que las políticas aprendan acciones que consideren múltiples resultados posibles. Apoyados por un análisis teórico, mostramos que DRIS produce políticas más robustas y alivia la necesidad de ajuste fino en el mundo real, incluso con un número modesto de instancias (por ejemplo, 10). Demostramos esto en una tarea desafiante de captura reactiva. A diferencia de las configuraciones tradicionales de captura que utilizan efectores finales diseñados para estabilizar mecánicamente el objeto (por ejemplo, superficies curvas o envolventes), nuestro sistema utiliza una placa plana que no ofrece estabilización pasiva, haciendo la tarea altamente sensible al ruido y requiriendo movimientos reactivos rápidos. Las políticas aprendidas exhiben una sólida robustez frente a las incertidumbres y logran una transferencia sim-real fiable sin entrenamiento adicional (zero-shot).
Los puntos de referencia de preguntas y respuestas de opción múltiple (MCQA) suelen evaluar modelos de lenguaje pequeños (SLM) como respondedores directos, pero los sistemas de modelos de lenguaje desplegados recurren cada vez más a andamios externos, como herramientas, código y llamadas repetidas al modelo. Presentamos el razonamiento guiado por código (CGR), un protocolo de evaluación y un recurso de programas generados diseñado para medir cuándo los andamios de ejecución de razonamiento mejoran el rendimiento de los SLM en tareas de MCQA. CGR estandariza seis componentes: una interfaz de ítem normalizada, una indicación de solucionador directo, una indicación de generador, un andamio de Python, ayudantes de llamada al solucionador y extracción, y un registro de resultados de tres canales. Sobre 20.498 filas de resultados retenidas de un paquete de MCQA preparado localmente y seis modelos de solucionador registrados con metadatos, la partición observada de línea base no nula muestra una precisión asistida macro del 66,21% frente a una precisión directa del 38,11%, una diferencia de +28,10 puntos porcentuales con un intervalo de bootstrap pareado de [20,32, 36,43]. Bajo un umbral más estricto de señal directa Ab > 30%, la diferencia macro es de +14,11 puntos. Estas estimaciones son descriptivas. La inferencia asistida utiliza un presupuesto mayor de llamadas al solucionador, la extracción de respuestas es frágil, Time-MQA contiene las regresiones observadas y algunos programas generados violan la instrucción de no codificar directamente. CGR proporciona el paquete de trazabilidad necesario para interpretar estos resultados, incluidas las respuestas directas, asistidas y del lado del generador, las definiciones de partición, los programas generados, los metadatos de respuesta y las auditorías.
Las aplicaciones modernas de modelos de lenguaje grande (LLM) dependen cada vez más de prefijos de condicionamiento largos para controlar el comportamiento del modelo en tiempo de inferencia. Si bien la inferencia aumentada por prefijo es efectiva, presenta dos limitaciones estructurales: i) la influencia del prefijo se desvanece a medida que avanza la generación, y ii) el cálculo de atención sobre el prefijo escala linealmente con su longitud. Los enfoques existentes mantienen el prefijo en la atención mientras lo comprimen, o lo internalizan en los parámetros del modelo mediante entrenamiento basado en gradientes. El primero aún atiende al prefijo durante la inferencia, mientras que el segundo requiere mucho entrenamiento y es inadecuado para actualizaciones del prefijo. Para abordar estos problemas, proponemos la memoria de estados de atención, un enfoque sin entrenamiento que externaliza el prefijo en una memoria ligera basada en búsqueda de estados de atención precomputados entre los tokens del prefijo y los de la consulta. En ManyICLBench con LLaMA-3.1-8B, nuestro método mejora la precisión sobre el aprendizaje en contexto con presupuestos de memoria de 1K a 8K, al tiempo que reduce la latencia de atención en 1.36x con 8K, y supera el rendimiento de RAG con atención completa en el benchmark NBA utilizando solo el 20% de su huella de memoria.
¿Puede un solo sistema de optimización basado en LLM igualar a herramientas especializadas en dominios fundamentalmente diferentes? Demostramos que, cuando los problemas de optimización se formulan como la mejora de un artefacto de texto evaluado por una función de puntuación, un solo sistema de optimización basado en IA —que admite búsqueda en una sola tarea, búsqueda multitarea con transferencia entre problemas y generalización a entradas no vistas— logra resultados de vanguardia en seis tareas diversas. Nuestro sistema descubre arquitecturas de agentes que casi triplican la precisión ARC-AGI de Gemini Flash (del 32,5% al 89,5%), encuentra algoritmos de planificación que reducen los costos en la nube en un 40%, genera kernels CUDA donde el 87% iguala o supera a PyTorch, y supera la solución de empaquetamiento de círculos reportada por AlphaEvolve (n=26). Las ablaciones en tres dominios revelan que la información adicional procesable produce una convergencia más rápida y puntuaciones finales sustancialmente más altas que la retroalimentación basada únicamente en la puntuación, y que la búsqueda multitarea supera a la optimización independiente dado un presupuesto equivalente por problema mediante la transferencia entre tareas, y los beneficios escalan con el número de tareas relacionadas. En conjunto, demostramos por primera vez que la optimización de texto con búsqueda basada en LLM es un paradigma de resolución de problemas de propósito general, que unifica tareas que tradicionalmente requerían algoritmos específicos de dominio bajo un solo marco. Publicamos como código abierto optimize\_anything con soporte para múltiples backends como parte del proyecto GEPA en https://github.com/gepa-ai/gepa.
Los modelos de atribución de autoría ajustados con el mismo codificador preentrenado, datos y función de pérdida pueden variar hasta cuatro veces en rendimiento dependiendo únicamente de su mecanismo de puntuación. Utilizamos herramientas de interpretabilidad mecanicista para explicar esta brecha. Características estilísticas como la longitud de las palabras, la densidad de puntuación y la frecuencia de palabras funcionales están igualmente disponibles en todas las capas de cada modelo, incluso en un codificador de control estándar, por lo que la brecha no proviene de la calidad de la representación. En cambio, la intervención causal muestra que el puntuador determina dónde el codificador consolida la señal de autoría. La agrupación promedio fuerza la consolidación hacia las capas tempranas o medias, mientras que la interacción tardía la pospone a capas posteriores. Además, derivamos esta diferencia de la estructura del gradiente de cada puntuador, y la dinámica de entrenamiento revela trayectorias de aprendizaje distintas que se derivan de esa diferencia.
La inteligencia espacial se despliega a través de un bucle de percepción-acción: los agentes actúan para adquirir observaciones y razonan sobre cómo estas varían en función de la acción. En lugar de procesar pasivamente lo que ven, descubren activamente lo que no es visible: estructura ocluida, dinámica, contención y funcionalidad que no pueden resolverse únicamente mediante la percepción pasiva. Superamos formulaciones previas de inteligencia espacial que asumen observaciones de oráculo, reformulando al observador como un actor. Presentamos ESI-BENCH, un punto de referencia integral para la inteligencia espacial incorporada que abarca 10 categorías de tareas y 29 subcategorías basadas en OmniGibson, fundamentado en los sistemas de conocimiento central de Spelke. Los agentes deben decidir qué habilidades desplegar (percepción, locomoción y manipulación) y cómo secuenciarlas para acumular activamente evidencia relevante para la tarea. Realizamos experimentos exhaustivos con MLLMs de última generación y encontramos que la exploración activa supera sustancialmente a las contrapartes pasivas, con agentes que descubren espontáneamente estrategias espaciales emergentes sin instrucciones explícitas, mientras que la multivista aleatoria a menudo añade ruido en lugar de señal, a pesar de consumir muchas más imágenes. La mayoría de los fallos no provienen de una percepción débil, sino de ceguera a la acción: malas elecciones de acción conducen a malas observaciones, lo que a su vez genera errores en cascada. Si bien el anclaje 3D explícito estabiliza el razonamiento en tareas sensibles a la profundidad, la representación 3D imperfecta resulta más perjudicial que las líneas base 2D al distorsionar las relaciones espaciales. Los estudios con humanos revelan además que, a diferencia de los humanos, que buscan puntos de vista falsadores y revisan sus creencias ante contradicciones, los modelos se comprometen prematuramente con alta confianza independientemente de la calidad de la evidencia, exponiendo una brecha metacognitiva que ni una mejor percepción ni una interacción más incorporada pueden cerrar por sí solas.
Los modelos de lenguaje grandes omni-modales (om-LLM) logran una comprensión audiovisual unificada al codificar video y audio en secuencias de tokens alineadas temporalmente, intercaladas a nivel de ventana. Sin embargo, procesar estos tokens densos no textuales a lo largo del LLM implica un costo computacional sustancial. Aunque la selección de tokens sin entrenamiento puede reducir este costo, los métodos existentes o bien se centran en entradas exclusivamente visuales, o bien podan los tokens de los om-LLM solo antes del LLM con proporciones fijas por modalidad, sin capturar cómo la importancia de los tokens entre modalidades evoluciona a través de las capas. Para abordar esta limitación, primero analizamos la dependencia de tokens por capas en los om-LLM. Encontramos que las dependencias visuales y de audio siguen un patrón a nivel de bloques y se debilitan gradualmente con la profundidad, lo que indica que muchos tokens no textuales de capas tardías se vuelven redundantes después de la fusión entre modalidades. Motivados por esta observación, proponemos SEATS, un método de selección de tokens sin entrenamiento y adaptativo por etapas para la inferencia eficiente de om-LLM. Antes del LLM, SEATS elimina la redundancia espacio-temporal mediante selección de diversidad ponderada por atención. Dentro del LLM, poda progresivamente los tokens a través de los bloques y asigna dinámicamente el presupuesto de retención desde las ventanas temporales a las modalidades utilizando puntuaciones de relevancia de consulta. En las capas tardías, elimina todos los tokens no textuales restantes una vez que la fusión entre modalidades está completa. Los experimentos en Qwen2.5-Omni y Qwen3-Omni demuestran que SEATS mejora efectivamente la eficiencia de inferencia. Al retener solo el 10% de los tokens visuales y de audio, logra una reducción de 9.3x en FLOPs y una aceleración de 4.8x en el prellenado, mientras preserva el 96.3% del rendimiento original.
Los modelos de difusión de video autorregresivos permiten la generación abierta mediante atención local y almacenamiento en caché de KV. Sin embargo, los métodos existentes de optimización de video largo sin entrenamiento se centran principalmente en la extensión estable bajo un solo prompt, lo que dificulta el manejo de escenarios interactivos que implican cambios de prompt, olvido de escenas antiguas y recuperación de escenas históricas. Identificamos que el cuello de botella principal es el enredo funcional de los estados KV históricos: los anclajes estables y las dinámicas recientes son manejados por la misma política de caché, lo que genera contaminación del fondo desactualizado, respuesta tardía a nuevos prompts y pérdida de la memoria a largo plazo. Para abordar este problema, proponemos Echo-Forcing, un marco de memoria de escenas sin entrenamiento diseñado específicamente para la generación interactiva de video largo con tres mecanismos centrales: (1) Memoria Temporal Jerárquica, que desacopla anclajes estables, historia comprimida y ventanas recientes bajo RoPE relativo; (2) Fotogramas de Recuperación de Escenas, que comprimen escenas históricas en representaciones KV estructuradas espacialmente para soportar la recuperación a largo plazo; y (3) Decaimiento de Memoria Sensible a la Diferencia, que olvida adaptativamente los tokens conflictivos según la discrepancia entre escenas antiguas y nuevas. Basándose en estos diseños, Echo-Forcing soporta de manera uniforme transiciones suaves, cortes duros y recuperación de escenas a largo plazo bajo un presupuesto de caché limitado. Evaluaciones exhaustivas en VBench-Long demuestran además que Echo-Forcing logra el mejor rendimiento general tanto en la generación de video largo como en la generación de video interactivo. Nuestro código está disponible en https://github.com/mingqiangWu/Echo-Forcing.
La efectividad del Aprendizaje por Refuerzo (RL) en los Modelos de Lenguaje de Gran Escala (LLMs) depende de la naturaleza y diversidad de los datos utilizados antes y durante el RL. En particular, los problemas de razonamiento a menudo pueden abordarse de múltiples maneras que dependen de diferentes formas de razonamiento, y la exposición únicamente a un rango limitado de dichos enfoques en los datos de entrenamiento puede limitar la efectividad del RL. Motivados por esto, investigamos el uso de diversos datos autogenerados durante el entrenamiento intermedio como paso previo al entrenamiento con RL. Específicamente, adoptamos un marco de generación de datos bootstrap guiado por los enfoques de resolución de problemas de George Polya para generar múltiples variantes de respuestas correctas para cada pregunta en los datos de entrenamiento, y luego realizamos un ajuste fino. Primero presentamos una perspectiva teórica sobre cómo el entrenamiento intermedio con estos datos mejora el RL y explicamos cómo las actualizaciones de gradiente de política pueden incentivar la combinación de múltiples enfoques. Posteriormente, demostramos empíricamente que los modelos entrenados con RL e inicializados con nuestros datos de entrenamiento intermedio logran mejoras consistentes en diversos puntos de referencia de razonamiento matemático y otras tareas fuera de distribución (OOD), como la generación de código y el razonamiento narrativo. En general, nuestro estudio de investigación muestra que un modelo de lenguaje que aprende múltiples enfoques de resolución de problemas, a través de datos autogenerados, favorece el RL posterior.
A medida que los sistemas agentivos autónomos escalan en infraestructuras críticas reguladas, la falta de una aplicación mecanicista y fundamentada en hardware para actualizaciones de políticas de alta frecuencia constituye una brecha de seguridad fundamental. Presentamos Ethical Hyper-Velocity (EHV), un novedoso marco arquitectónico para la verificación formal de políticas de gobernanza de IA en tiempo de ejecución. A diferencia de los marcos de auditoría retrospectiva (ISO/IEC 42001, NIST AI RMF), que introducen latencias de 14 a 30 días, EHV reubica el Punto de Aplicación de Políticas (PEP) en el pipeline de inferencia mediante un Compilador Just-In-Time (JIT) Consciente de la Gobernanza. Al integrar Tipos de Datos Replicados sin Conflictos (CRDTs) para la sincronización de políticas y un Caché de Atestación Basado en Épocas dentro de Entornos de Ejecución Confiables (TEEs), EHV logra un Determinismo Formal Submilisegundo (SMFD). Demostramos, mediante verificación formal con TLA+, que las acciones agentivas no conformes son computacionalmente inalcanzables dentro del espacio de estados operativos acotado del sistema. Probamos que la aplicación en tiempo de ejecución O(1) puede eliminar la compensación tradicional entre velocidad de despliegue e integridad de la gobernanza, reduciendo la Latencia de Gobernanza de O(días) a O(1).
La cadena de pensamiento (CoT, por sus siglas en inglés) es un enfoque estándar para obtener capacidades de razonamiento de los modelos de lenguaje de gran escala (LLM). Sin embargo, el paradigma común de CoT trata el pensamiento como un requisito previo para responder, lo cual puede retrasar el acceso a respuestas plausibles e incurrir en costos de tokens innecesarios incluso cuando el modelo es capaz de identificar una respuesta antes de un pensamiento extenso, un comportamiento conocido como razonamiento performativo. En este artículo, presentamos CopT, un proceso de razonamiento reformulado que invierte el orden habitual de pensar y responder. En lugar de pensar antes de responder, CopT primero obtiene un borrador de respuesta y luego invoca un pensamiento posterior on-policy condicionado a su propio borrador de respuesta para reflexión y corrección. Para evaluar si se debe confiar en el borrador de respuesta, CopT reformula las incrustaciones continuas como verificadores contrastivos en tiempo de inferencia. Específicamente, contrasta el soporte del modelo para los mismos tokens generados bajo entradas de tokens discretos y entradas de incrustaciones continuas, obteniendo un estimador KL inverso a nivel de secuencia para la fiabilidad de la respuesta. Nuestro análisis muestra que, bajo ciertos supuestos, la estimación esperada equivale a la información mutua entre el estado latente no resuelto y el token de respuesta emitido, explicando por qué captura incertidumbre relevante a la respuesta en lugar de incertidumbre arbitraria en el estado latente. Cuando se considera que la respuesta no es suficientemente fiable, CopT realiza un pensamiento on-policy adicional, donde un segundo estimador KL controla dinámicamente la visibilidad del borrador de respuesta, preservando información parcial útil mientras reduce el riesgo de ser engañado por contenido no fiable. En tareas de matemáticas, codificación y razonamiento agentivo, CopT mejora la precisión máxima hasta en un 23% y reduce el uso de tokens hasta en un 57% con una precisión comparable o mayor, sin ningún entrenamiento adicional. El código está disponible en https://github.com/sdc17/CopT.
Los seres humanos se comunican de manera natural mediante conceptos abstractos como el "estado de ánimo". Sin embargo, los puntos de referencia actuales para la edición de imágenes se centran principalmente en comandos explícitos y literales, dejando en gran medida inexploradas las instrucciones abstractas. En este trabajo, primero formalizamos la definición y taxonomía de la edición abstracta de imágenes. Para medir el seguimiento de instrucciones en este dominio desafiante, presentamos Entity-Rubrics, un marco que descompone las ediciones abstractas en evaluaciones individuales a nivel de entidad y logra una fuerte correlación con el juicio humano. Junto con este marco, contribuimos con AbstractEdit, el primer punto de referencia dedicado a la edición abstracta de imágenes en diversas escenas del mundo real. La evaluación de 11 modelos líderes en este conjunto de datos revela un desafío fundamental: las arquitecturas estándar tienen dificultades para equilibrar la intención y la preservación, y comúnmente caen en la subedición o la sobreedición. Nuestro análisis demuestra que impulsar mejoras significativas depende en gran medida de la integración de codificadores de texto avanzados de LLM y del pensamiento iterativo. De cara al futuro, nuestro paradigma basado en entidades puede generalizarse más allá de la evaluación para servir como modelo de recompensa, permitir que los modelos interpreten correctamente la comunicación abstracta o resaltar fallos específicos en bucles de crítica durante la inferencia. En última instancia, esperamos que este trabajo sirva como un trampolín hacia una interacción multimodal fluida, cerrando la brecha entre la ejecución rígida de las máquinas y la forma natural y abierta en que los humanos se comunican.
Los ataques de puerta trasera en modelos de lenguaje representan una creciente preocupación de seguridad; sin embargo, los mecanismos internos mediante los cuales una secuencia desencadenante secuestra los cómputos del modelo aún no se comprenden bien. Identificamos un circuito subyacente a una puerta trasera de cambio de idioma en un modelo de lenguaje autorregresivo de 8 mil millones de parámetros, donde un desencadenante latino de tres palabras (nueve tokens) redirige la salida del inglés al francés. Descomponemos el circuito en tres fases: (1) cabezas de atención distribuidas en capas tempranas componen los tokens desencadenantes en la última posición de la secuencia; (2) la señal resultante se propaga a través de las capas intermedias en un subespacio ortogonal a la dirección natural de identidad del idioma del modelo; (3) el MLP en la capa final convierte esta señal latente en logits del francés. Todo el circuito fluye a través de un cuello de botella serial en una única posición: corromper esa posición en cualquier capa mitiga por completo el desencadenante, pero también perjudica las capacidades del modelo. La codificación latente ortogonal sugiere que las defensas que buscan señales similares al lenguaje en representaciones intermedias pasarían por alto este desencadenante por completo.
La comprensión de documentos multilingüe sigue siendo limitada para idiomas de bajos recursos debido a la escasez de datos de entrenamiento y a los canales de anotación basados en modelos que perpetúan sesgos existentes. Presentamos DocAtlas, un marco que construye conjuntos de datos y puntos de referencia OCR de alta fidelidad que abarcan 82 idiomas y 9 tareas de evaluación. Nuestros canales duales —renderizado diferencial de documentos DOCX nativos y generación sintética basada en LaTeX para escrituras de derecha a izquierda— producen anotaciones estructurales precisas en un formato unificado DocTag que codifica diseño, texto y tipos de componentes, sin usar modelos aprendidos para la anotación central. La evaluación de 16 modelos de vanguardia revela brechas persistentes en escrituras de bajos recursos. Demostramos que la Optimización de Preferencia Directa (DPO) que utiliza la verdad fundamental derivada del renderizado como señal positiva logra una adaptación multilingüe estable, mejorando la precisión tanto dentro del dominio (+1,9 %) como fuera del dominio (+1,8 %) sin degradación medible del idioma base, mientras que el ajuste fino supervisado degrada el rendimiento fuera del dominio hasta en un 21 %. Nuestra mejor variante, DocAtlas-DeepSeek, mejora un +1,7 % respecto a la línea base más fuerte.
La interacción dúplex en tiempo real es esencial para los sistemas multimodales de IA que operan en escenarios del mundo real, donde los modelos deben procesar continuamente flujos de entrada y responder en los momentos adecuados. Sin embargo, la mayoría de los modelos de lenguaje grandes multimodales (MLLMs) existentes se evalúan en entornos fuera de línea, donde se procesa la totalidad del video de entrada antes de generar cualquier respuesta. Aunque investigaciones recientes han comenzado a explorar MLLMs dúplex en tiempo real, aún no existe un punto de referencia integral ni un método de evaluación automática para este entorno. Para abordar esta carencia, proponemos Omni-DuplexEval, un punto de referencia para evaluar sistemáticamente la interacción dúplex en tiempo real. El punto de referencia consta de dos escenarios complementarios: (1) Descripción en Tiempo Real, que evalúa la capacidad de generar respuestas continuas y alineadas temporalmente que sigan la evolución de las entradas multimodales; y (2) Recordatorio Proactivo, que evalúa la capacidad de identificar eventos relevantes y responder en los momentos adecuados. Omni-DuplexEval contiene 660 videos con etiquetas anotadas por humanos de forma detallada y metadatos temporales precisos, abarcando 9 tareas basadas en escenarios del mundo real, donde todas las preguntas se formulan como consultas abiertas. Además, presentamos un marco de evaluación automática basado en LLM como Juez (LLM-as-a-Judge), que permite una evaluación sistemática al valorar de manera conjunta la alineación entre el contenido de la respuesta y el tiempo de respuesta mediante razonamiento consciente de marcas temporales y secuencial, logrando una fuerte concordancia con los juicios humanos. Los experimentos realizados con MLLMs dúplex de última generación revelan limitaciones sustanciales. El modelo con mejor rendimiento alcanza solo un 39.6% general, mientras que obtiene apenas un 20.0% en Recordatorio Proactivo. Nuestro análisis identifica dos desafíos clave: los modelos tienen dificultades para equilibrar respuestas oportunas con una generación de contenido coherente y holístico, y a menudo fallan en determinar tanto el momento adecuado para responder como el contenido a producir. Esperamos que nuestro trabajo facilite avances adicionales en los MLLMs.
El progreso reciente en modelos de lenguaje de gran escala ha dado lugar a la aparición de modelos de razonamiento, que han demostrado un rendimiento sólido en tareas complejas mediante procedimientos especializados de ajuste fino. Si bien estos métodos mejoran de manera confiable la precisión pass@1, trabajos previos han observado que presentan un comportamiento de contracción de cobertura, donde pass@k se degrada en relación con el modelo base. En este artículo, investigamos la contracción del razonamiento que surge bajo el entrenamiento posterior basado en SFT. Postulamos que este comportamiento está impulsado por propiedades de los datos de ajuste fino, específicamente relacionadas con puntos de decisión o escenarios de "bifurcaciones en el camino", donde el modelo enfrenta patrones indescifrables con múltiples rutas de razonamiento válidas. Para probar esta hipótesis, diseñamos estudios de caso controlados que simulan dichos entornos de puntos de decisión, abarcando nodos indescifrables en ramificaciones de grafos y modos de razonamiento. Al rastrear la dinámica posterior al entrenamiento en estos entornos, encontramos que el fenómeno de contracción está estrechamente correlacionado con la prevalencia de escenarios de puntos de decisión en los datos de entrenamiento. También demostramos que este comportamiento de contracción puede mitigarse parcialmente mediante un diseño dirigido de síntesis de datos de puntos de decisión, y un mecanismo de decodificación más sistemático que fomente la diversidad. Nuestros hallazgos identifican factores centrados en los datos como un motor clave de la contracción en los modelos de razonamiento y destacan los diseños que incorporan la diversidad como una palanca efectiva para controlarla.
El diseño de las arquitecturas neuronales modernas se ha consolidado mediante elecciones empíricas incrementales, pero los mecanismos que gobiernan sus dinámicas de entrenamiento siguen siendo solo parcialmente comprendidos. Identificamos y analizamos una deriva negativa de pesos inducida por la interacción entre funciones de pérdida estándar y funciones de activación con sesgo positivo. Demostramos que, bajo pérdida MSE o entropía cruzada, el gradiente respecto a preactivaciones positivas es no negativo en expectativa al inicio, lo que impulsa los pesos hacia valores negativos durante las primeras fases del entrenamiento. La deriva es intrínseca a la optimización, no a los datos, y persiste entre arquitecturas (MLP, ResNet, ViT, GPT-nano, MP-SENe) y funciones de activación asimétricas (ReLU, GELU, SiLU). Combinada con ReLU, la deriva de pesos produce una esparcidad de activación que alcanza hasta el 90 % en GPT-nano. Caracterizamos el equilibrio entre esparcidad y precisión en 79 configuraciones e identificamos un precipicio de precisión pronunciado por encima de ~70 % de esparcidad de activación. Si bien ReLU² alcanza una buena relación esparcidad-precisión en GPT-nano, amplifica patológicamente los picos de activación identificados en capas intermedias del transformer. El recorte (clipping) resuelve esto conservando los beneficios representacionales de la cuadratura: ReLU² recortado supera a su versión sin recortar, y GELU² alcanza la menor pérdida de validación en GPT-nano. El código está disponible en https://github.com/On-Point-RND/BugOrFeature.
Los modelos de lenguaje de gran escala (LLMs) son altamente susceptibles a los ataques de puerta trasera (BAs), en los cuales las muestras de entrenamiento son envenenadas utilizando contenido dañino basado en desencadenantes. Además, las defensas existentes han demostrado ser ineficaces cuando se prueban exhaustivamente en diversos patrones de BA. Para combatir mejor los BAs, exploramos el uso de la reescritura con LLM como una defensa proactiva contra el envenenamiento de datos. Primero, demostramos teóricamente que, cuando la reescritura con LLM utiliza muestras benignas de libro abierto —denominada reescritura benigna con libro abierto (OBBR)—, la probabilidad de que una salida reescrita sea benigna es estrictamente mayor que la de la reescritura con libro cerrado. Por lo tanto, la OBBR neutraliza el contenido dañino al proyectar las muestras de entrenamiento en el espacio de las indicaciones benignas. Luego, mostramos que, a diferencia de las defensas anteriores, la OBBR mitiga eficazmente un gran número de BAs existentes: a través de cinco BAs conocidos y cuatro LLMs ampliamente utilizados, la OBBR aumenta el rendimiento de seguridad en un promedio del 51 % en comparación con las defensas de BA de última generación y un 25.7 % en comparación con los métodos de reescritura con libro cerrado. Finalmente, demostramos que la OBBR es computacionalmente eficiente en relación con otras defensas contra BAs, no degrada el rendimiento del modelo en tareas de lenguaje natural después del ajuste fino, y es capaz de defenderse contra ataques de envenenamiento de datos sin desencadenantes.
A medida que el texto generado por IA ingresa al mundo real a gran escala, las instituciones recurren cada vez más a detectores comerciales de texto generado por IA, especialmente en flujos de trabajo educativos y de integridad académica. Reportamos un hallazgo empírico sorprendente sobre dichos sistemas: cuando son evaluados por GPTZero y Pangram, el texto generado por modelos base suele ser juzgado como abrumadoramente humano, mientras que el texto generado por sus equivalentes ajustados por instrucciones no lo es. A partir de esta observación, proponemos Humanización mediante Paráfrasis Iterativa (HIP, por sus siglas en inglés), una tubería independiente del detector que ajusta mínimamente un modelo base como parafraseador y lo aplica de forma iterativa. En comparación con las líneas base que probamos, HIP logra un mejor equilibrio entre preservación semántica y evasión del detector en detectores comerciales. En las familias Llama-3 y Qwen-3, abarcando tamaños de modelo desde 0.6B hasta 70B, HIP mejora consistentemente la humanidad percibida por el detector. Nuestros hallazgos sugieren que los detectores actuales rastrean artefactos del ajuste por instrucciones y del contexto local más que cualquier noción invariante de texto generado por máquina. Esto, a su vez, exige diseños de detectores que modelen estos factores de manera más explícita.
Este documento de posición sostiene que las conferencias de ciencias de la computación deberían exigir atestaciones a prueba de manipulaciones y no repudiables de los resultados experimentales. Denominamos al problema subyacente como no repudio de experimentos: un protocolo conforme debe vincular los números de un artículo con una computación realmente ejecutada, de manera que el autor no pueda alterarlos o negarlos posteriormente. El sistema actual se basa en listas de verificación autoinformadas, intercambio opcional de código y registro controlado por el autor. Ninguno de estos mecanismos responde a la pregunta que un revisor no puede verificar: ¿el código que describe el artículo produjo los números que el artículo reporta? Definimos el problema formalmente, establecemos las propiedades de seguridad que debe satisfacer cualquier protocolo conforme y describimos un modelo de amenazas que incluye ataques que los enfoques actuales no previenen. Para demostrar que el problema es soluble, construimos K-Veritas, una implementación de referencia en Go que produce informes firmados sin acceder a los datos de entrenamiento. K-Veritas es un banco de pruebas, no una respuesta definitiva. Hacemos un llamado a las conferencias y a la comunidad para que traten el no repudio como un requisito de primera clase y ayuden a construir un estándar abierto e independiente para el mismo.
Los agentes LLM concurrentes que comparten estado mutable en lenguaje natural producen Condiciones de Carrera Estructurales (SRC, por sus siglas en inglés): conflictos de escritura-escritura y lecturas obsoletas entre fragmentos que corrompen silenciosamente la salida del agente. Los marcos de trabajo multiagente existentes (LangGraph, CrewAI, AutoGen) no proporcionan semántica de propiedad de escritura sobre el estado compartido. Presentamos S-Bus, un middleware HTTP cuyo mecanismo central es un DeliveryLog del lado del servidor: un registro por agente de operaciones HTTP GET que reconstruye automáticamente el conjunto de lectura de cada agente en el momento de confirmación sin cambios en el SDK del agente bajo HTTP/1.1. La propiedad de consistencia que proporciona el DeliveryLog —Aislamiento de Lectura Observable (ORI), una consistencia causal parcial sobre la proyección observable por HTTP del conjunto de lectura— previene las condiciones de carrera estructurales cuando los agentes colaboran mediante fragmentos compartidos. Tres contribuciones: (C1) El mecanismo DeliveryLog para la reconstrucción automática del conjunto de lectura basada en tráfico HTTP, con evidencia mecanizada en tres niveles: ReadSetSoundness y ORICommitSafety verificadas automáticamente en TLAPS (módulo un axioma de tipado retenido); TLC exhaustivo con N=3 (20.763.484 estados distintos, cero violaciones); Dafny resuelve 9 lemas inductivos de solidez. (C2) Paridad empírica en prevención de conflictos estructurales frente a PostgreSQL 17 SERIALIZABLE y Redis 7 WATCH/MULTI en barridos de contención de fragmentos compartidos con 427.308 conflictos HTTP-409 activos: cero corrupciones de Tipo I en los tres backends. (C3) El entorno operativo de ORI es condicionado por la topología: semánticamente neutro en cargas de trabajo con fragmentos dedicados; perjudicial en escritura colaborativa con un solo fragmento porque la preservación propaga contradicciones concurrentes. Código fuente: https://github.com/sajjadanwar0/sbus
Los modelos de microsimulación utilizados por los ministerios de Hacienda y los bancos centrales dependen de procesos paramétricos para los ingresos laborales a lo largo de la vida que capturan únicamente los primeros y segundos momentos de la distribución condicional y omiten la estructura no lineal de largo alcance. Proponemos SAGA, un transformador solo con decodificador para secuencias tabulares irregulares de panel, combinado con un envoltorio de calibración conforme dividida que proporciona intervalos de predicción a nivel individual con garantías de cobertura marginal en muestras finitas. Entrenado en el registro longitudinal sueco LISA entre 1990 y 2022, que comprende 2.143.817 individuos y 61.284.903 años-persona, el modelo pronostica los ingresos laborales anuales en horizontes de uno a treinta años y los agrega mediante Montecarlo en distribuciones de ingresos vitalicios descontados al presente. Frente al proceso paramétrico canónico de Guvenen, Karahan, Ozkan y Song, así como frente a líneas base tabulares y recurrentes, SAGA reduce la puntuación de probabilidad clasificada continua en un 31,9 % en el horizonte de diez años y el error absoluto medio en un 37,7 % en el horizonte de veinte años. Los intervalos conformes alcanzan una cobertura nominal marginal dentro de 0,4 puntos porcentuales y, en el peor subgrupo demográfico, dentro de 2,4 puntos porcentuales. El coeficiente de Gini reconstruido de ingresos vitalicios es 0,327 frente al valor real parcialmente observado de 0,341 y la estimación de GKOS de 0,378. Los pesos del modelo, las tablas de calibración y un conjunto de datos sintéticos equivalentes se publican para su replicación fuera del entorno protegido SCB MONA.
Identificamos limitaciones intrínsecas de los Embeddings Posicionales Rotatorios (RoPE) en modelos de lenguaje de contexto largo basados en Transformers. Nuestro análisis teórico se abstrae del contenido específico del contexto y depende únicamente de su longitud. Demostramos que, a medida que la longitud del contexto aumenta, la atención basada en RoPE se vuelve impredecible y pierde dos propiedades centrales para su efectividad. Primero, pierde su sesgo de localidad: RoPE ya no favorece más posiciones cercanas que significativamente lejanas. Segundo, pierde la consistencia en la relevancia de los tokens: un vector clave que recibe una puntuación de atención más alta que otro en una posición puede recibir una puntuación más baja en otra. En ambos casos, la probabilidad de fallo se aproxima a 0.5, sin superar una adivinación aleatoria. Además, demostramos que la puntuación de atención puede permanecer inalterada cuando un token clave se traslada a una posición diferente, o incluso es reemplazado por un token distinto, lo que indica una incapacidad para distinguir posiciones o tokens. Ajustar la base de RoPE implica un equilibrio entre distinguir posiciones y distinguir tokens, sin poder preservar ambas simultáneamente. Incrementar el hiperparámetro de la base de RoPE, una práctica común en los modelos de contexto largo actuales, ayuda a distinguir diferentes tokens, pero inevitablemente sacrifica la capacidad de distinguir posiciones. Nuestro análisis empírico muestra que las arquitecturas de múltiples cabezas y múltiples capas son insuficientes para superar estas limitaciones. Nuestros hallazgos sugieren que futuros modelos de lenguaje de contexto largo basados en Transformers podrían requerir mecanismos fundamentalmente nuevos para codificar la posición y el orden de los tokens.