Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo se ha convertido en un paradigma estándar para alinear Modelos de Lenguaje de Gran Escala con la intención humana y los requisitos de las tareas. Si bien la Optimización de Políticas Relativa a Grupos ofrece una alternativa eficiente y sin modelo de valor a la Optimización de Políticas Proximal, adaptarla a entornos de múltiples recompensas del mundo real sigue siendo un desafío. Las prácticas estándar de escalarización, como la Combinación de Recompensas y la Combinación de Ventajas, presentan inconvenientes significativos: la Combinación de Recompensas genera con frecuencia ventajas con magnitudes cuadráticas excesivamente grandes que provocan inestabilidad en el entrenamiento, mientras que la Combinación de Ventajas depende de hiperparámetros estáticos e ignora las correlaciones entre objetivos. Para abordar estas limitaciones, proponemos la Optimización de Ventajas Adaptativa a la Varianza Dinámica (DVAO), que ajusta dinámicamente los pesos de combinación basándose en la varianza empírica de la recompensa de cada objetivo dentro de un grupo de rodaje, incrementando eficazmente el peso de los objetivos con una señal de aprendizaje más fuerte y suprimiendo aquellos ruidosos. Demostramos matemáticamente que DVAO mantiene magnitudes de ventaja acotadas para un entrenamiento estable e introduce un mecanismo de regularización auto-adaptativa entre objetivos. Experimentos exhaustivos en tareas de razonamiento matemático y uso de herramientas con los modelos Qwen3 y Qwen2.5 muestran que DVAO supera significativamente a los métodos de referencia, logrando una frontera de Pareto multiobjetivo superior y una robusta estabilidad en el entrenamiento.
Los modelos de mundo interactivos están avanzando rápidamente, sin embargo, los benchmarks existentes cubren solo una parte de las competencias requeridas, sin ofrecer un estándar unificado para la evaluación sistemática. Para llenar este vacío, presentamos WBench, un benchmark integral de múltiples turnos para la evaluación de modelos de mundo interactivos en cinco dimensiones: calidad de video, adherencia al entorno, adherencia a la interacción, consistencia y cumplimiento físico. WBench contiene 289 casos de prueba y 1,058 turnos de interacción, donde cada caso especifica un entorno de mundo y una secuencia de interacción de múltiples turnos, cubriendo diversas escenas, estilos, sujetos y perspectivas en primera y tercera persona, junto con cuatro tipos de interacción: navegación, acción del sujeto, edición de eventos y cambio de perspectiva. Para la navegación, WBench unifica el texto, la pose de 6 grados de libertad (6-DoF) y el control de acciones discretas, permitiendo la evaluación de modelos con diferentes interfaces de entrada nativas. La evaluación utiliza 22 sub-métricas automáticas que combinan modelos de visión especializados con grandes modelos multimodales, y todas las métricas están validadas contra juicios humanos. En 20 modelos de última generación, encontramos que ningún modelo individual se desempeña de manera sólida en todas las dimensiones. Proporcionamos información diagnóstica detallada sobre las fortalezas, debilidades características y desafíos abiertos de cada modelo. El código y los datos están disponibles en https://github.com/meituan-longcat/WBench.
A medida que los agentes personales evolucionan para manejar tareas complejas centradas en el usuario, el chat estático de texto plano se convierte rápidamente en un cuello de botella. La Interfaz de Usuario Generativa surge como la nueva capa de interfaz necesaria, sintetizando dinámicamente los controles, opciones y estados adecuados a partir del contexto de interacción en tiempo real. Presentamos Macaron-A2UI, un modelo de Interfaz de Usuario Generativa para agentes personales. Nuestro objetivo es ir más allá de la interacción basada únicamente en texto, permitiendo que los agentes generen lenguaje natural junto con acciones de UI ejecutables y ligeras para la recopilación de información, el refinamiento de preferencias, la confirmación y la organización de objetivos múltiples. Construimos un corpus de Interfaz de Usuario Generativa a gran escala a partir de fuentes de diálogo heterogéneas, introducimos A2UI-Bench para una evaluación controlada y entrenamos modelos de 30B, 235B y 754B con un ajuste fino supervisado basado en LoRA con eficiencia de parámetros, seguido de aprendizaje por refuerzo impulsado por recompensas. El mejor modelo Macaron-A2UI alcanza un 75.6 general en A2UI-Bench sin sugerencias de esquema explícitas, superando a la línea base fronteriza de esquema completo más potente. Publicamos los modelos, el benchmark y el protocolo de evaluación para apoyar trabajos futuros sobre Interfaz de Usuario Generativa para agentes personales.
Los agentes autónomos están pasando de ser herramientas a convertirse en una capa de infraestructura social: navegan, compran, despliegan software, gestionan sistemas e interactúan cada vez más entre sí. A medida que estos sistemas escalan, el cuello de botella se desplaza de la capacidad bruta del modelo hacia la coordinación. Los agentes necesitan establecer relaciones fiables, organizar trabajo multiagente, intercambiar valor, sustentar una economía de IA y mantenerse seguros y responsables bajo supervisión en el mundo real. Este artículo presenta el Protocolo Fundacional (FP), una capa de coordinación basada en grafos para una sociedad humano-IA emergente. FP unifica entidades heterogéneas, incluidos agentes, herramientas, recursos, humanos, instituciones y organizaciones, y admite organización multipartita nativa y colaboración basada en eventos. También proporciona primitivas económicas para medición, recibos y liquidación, y trata las políticas, la procedencia y la auditoría como aspectos de primera clase. FP está diseñado para envolver y conectar protocolos existentes en lugar de reemplazarlos, permitiendo una adopción incremental a la vez que reduce la sobrecarga de integración y gobernanza. El objetivo es mantener la agencia autónoma como componible, manteniendo la responsabilidad como no negociable, de modo que la coordinación misma pueda convertirse en infraestructura compartida para una sociedad humano-IA que sea abierta, pluralista y gobernable.
La reconstrucción 3D desde vistas escasas se aborda cada vez más con redes de splatting feed-forward que predicen primitivas explícitas directamente a partir de imágenes. Sin embargo, la mayoría de los métodos existentes siguen centrados en primitivas gaussianas y exponen las superficies solo de manera indirecta: extraer una malla utilizable para simulación descendente, razonamiento físico o interacción corpórea aún requiere pasos posteriores costosos que rompen la promesa del feed-forward. Esta limitación es especialmente pronunciada en entornos sin pose, donde la estructura de la escena y los parámetros de la cámara deben estimarse conjuntamente a partir de observaciones escasas. Presentamos TriSplat, una red de reconstrucción feed-forward que representa escenas con primitivas triangulares orientadas y exporta directamente mallas listas para simulación en una única pasada directa. Dadas imágenes de entrada, la red predice mapas de puntos 3D locales, atributos de triángulos, poses de cámara e intrínsecos opcionales. En lugar de regresar la orientación del triángulo como una variable latente sin restricciones, nuestro enfoque construye normales de geometría a partir de los mapas de puntos predichos, las refina con una cabeza de normales condicionada por la imagen y las convierte en marcos locales estables para la parametrización del triángulo. Un programa de arranque mono-normal estabiliza además el entrenamiento temprano, mientras que la programación de opacidad y desenfoque afina progresivamente la representación de superficie aprendida para la extracción directa de mallas. Experimentos en RealEstate10K y DL3DV muestran que esta representación produce reconstrucciones más fieles a la geometría que las líneas base feed-forward con gaussianas, manteniendo una calidad competitiva en renderizado de vistas novedosas. Debido a que las primitivas de renderizado son en sí mismas triángulos de superficie, la salida puede ser ingerida directamente por motores físicos, detectores de colisiones y tuberías de renderizado estándar sin necesidad de conversión, lo que la convierte en una solución práctica lista para simulación en la reconstrucción de escenas 3D feed-forward.
El modelado multimodal representa un paso fundamental desde el razonamiento independiente de la modalidad hacia el modelado del mundo. Mientras que los enfoques tempranos se basaban predominantemente en la fusión tardía, que ensambla codificadores y módulos lingüísticos congelados con cabezales de salida, los esfuerzos recientes han desplazado el paradigma hacia el modelado multimodal nativo (NMM), con la integración intrínseca de modalidades para un rendimiento multimodal superior. A pesar de su potencial, el espacio de diseño de las arquitecturas nativas sigue estando insuficientemente definido. En este artículo, presentamos a la comunidad una hoja de ruta formalizada para esta transición. Específicamente, definimos formalmente la natiividad arquitectónica, distinguiendo la fusión media y la fusión temprana de los paradigmas no nativos. Además, organizamos los modelos nativos existentes a través del lente de la dualidad entrada-salida en tres categorías: (i) Multi-a-Texto para la comprensión intermodal con salida exclusivamente textual; (ii) Multi-a-Objetivo para la generación orientada a escenarios, por ejemplo, generación de imágenes, audio y video; y (iii) Multi-a-Multi para el modelado unificado con entrada-salida simétrica. Ofrecemos una investigación exhaustiva y de nivel industrial sobre la transición hacia el marco definitivo de NMM, donde la comprensión y la generación coexisten sin problemas dentro de un paradigma unificado de transformadores. Desglosamos sistemáticamente el flujo de trabajo integral desde perspectivas industriales, abarcando la coordinación arquitectónica, la curaduría masiva de datos, así como recetas de entrenamiento integrales, inferencia y despliegue, y la evaluación exhaustiva para un modelado verdaderamente nativo.
El entrenamiento de modelos multimodales grandes (LMMs) mediante aprendizaje por refuerzo (RL) para invocar de forma nativa herramientas de procesamiento de video (por ejemplo, recorte) se ha convertido en una ruta prometedora para la comprensión de videos largos. Sin embargo, los métodos existentes de RL nativo envían llamadas a herramientas de forma secuencial (es decir, una por turno): un solo recorte incorrecto propaga errores sin corrección entre pares, las llamadas a herramientas de múltiples turnos corrompen el contexto y el costo de inferencia escala linealmente con el número de turnos. Presentamos ParaVT, el primer marco de múltiples agentes entrenado de extremo a extremo con RL para la llamada paralela de herramientas de video (Parallel Video Tool calling), que envía múltiples recortes de ventanas temporales en un solo turno para obtener un contexto más limpio y una mejor tolerancia a fallos. Sin embargo, aplicar RL estándar a ParaVT revela un obstáculo que denominamos la Paradoja de la Prioridad de la Herramienta (Tool Prior Paradox): las prioridades de herramienta preentrenadas que permiten la exploración de herramientas también desestabilizan el formato estructural iniciado en frío y exponen el atajo de recompensa de omitir herramienta bajo el muestreo de temperatura. Un contraste entre modelos en un LMM de prioridad más débil respalda esta afirmación: el formato se mantiene estable, pero RL provoca cero llamadas a herramientas, lo que indica que la fuerza de la prioridad es el motor compartido tanto del colapso del formato como de la exploración de herramientas. Proponemos PARA-GRPO (GRPO anclado en analizabilidad y controlado por ratio), que aumenta el RL estándar con dos mecanismos complementarios: (i) una recompensa de formato específica aplicada solo en las posiciones de token estructural más propensas al colapso, y (ii) una aleatorización del presupuesto de fotogramas por instrucción que crea instrucciones de entrenamiento donde llamar a la herramienta produce una señal de recompensa mensurable sobre omitirla. En seis puntos de referencia de comprensión de videos largos, ParaVT mejora con respecto a la línea base Qwen3-VL en un +7.9% en promedio, y PARA-GRPO eleva el cumplimiento del formato durante el entrenamiento de 0.13 a 0.64. A medida que las capacidades de las herramientas se internalizan cada vez más en los LMM modernos, el RL debe cooperar con las prioridades resultantes, y ParaVT ofrece una receta general para el RL agéntico. El código, los datos y los pesos del modelo están disponibles públicamente.
Los agentes de investigación profunda amplían el rol de los motores de búsqueda, pasando de recuperar páginas que coinciden con palabras clave a sintetizar conocimiento, lo que transforma fundamentalmente la interacción humana con la información. Sin embargo, los sistemas de vanguardia siguen siendo propietarios, mientras que los agentes abiertos existentes a menudo generalizan pobremente entre distintos tipos de tareas, dejando sin claridad cómo entrenar un agente de investigación profunda de amplia capacidad. Presentamos QUEST, una familia de modelos abiertos (que van desde 2B hasta 35B) que sirven como agentes de investigación profunda de propósito general, diseñados para manejar una amplia gama de tareas de búsqueda a largo plazo, con sólidas capacidades en búsqueda de hechos, fundamentación de citas y síntesis de informes. Para construir QUEST, proponemos una receta de entrenamiento efectiva que combina entrenamiento intermedio, ajuste fino supervisado y aprendizaje por refuerzo. El núcleo de esta receta es un pipeline de síntesis de datos curado basado en árboles de rúbrica unificados, que se aplica a diferentes tipos de tareas y permite sintetizar datos de entrenamiento con recompensas verificables sin anotación humana. Además, QUEST incorpora un mecanismo de gestión de contexto integrado que permite un razonamiento a largo plazo y una síntesis de conocimiento efectivos. Utilizando solo 8,000 tareas sintetizadas, QUEST se aproxima o incluso supera a los agentes de código cerrado de vanguardia en ocho benchmarks de investigación profunda que abarcan diversos tipos de tareas, y logra el mejor rendimiento general entre los agentes de pesos abiertos recientes. Liberamos todo: modelos, datos y scripts de entrenamiento.
Los algoritmos de atención eficientes son críticos para mitigar el costo cuadrático de la atención en cargas de trabajo de contexto largo. Trabajos previos utilizan técnicas de cuantización de bloques escalados en GPUs Blackwell para mover el cómputo de atención a precisión de 4 bits y acelerar la inferencia. Sin embargo, estas técnicas resultan en una degradación significativa de la calidad en entornos de contexto largo. Mostramos que el impacto del error de cuantización en la salida es altamente no uniforme y aumenta con la importancia de cada interacción consulta-clave, concentrando el error funcionalmente relevante en un pequeño número de bloques de atención que contienen los tokens más importantes. Proponemos ThriftAttention, una variante de atención de baja precisión que ofrece una calidad de contexto largo cercana a FP16 con la eficiencia de inferencia de FP4. Este enfoque se desarrolla en dos etapas. Primero, una heurística selecciona rápidamente un pequeño número de pares de bloques consulta-clave importantes para precisión FP16. Segundo, los bloques seleccionados se computan en FP16 y los restantes en FP4, fusionándose ambas trayectorias mediante softmax en línea en una única salida. Demostramos en varios benchmarks de contexto largo y familias de modelos que, al computar solo el 5% de los bloques consulta-clave en FP16, ThriftAttention recupera en promedio el 89.1% de la brecha de rendimiento entre FP4 y FP16. Mostramos que la ventaja de ThriftAttention crece con la longitud de la secuencia, mitigando la degradación sistemática de calidad de FP4 observada en contextos más largos. El código está disponible en https://github.com/joesharratt1229/ThriftAttention.
La investigación científica está siendo reconfigurada por sistemas de IA que trascienden la asistencia aislada y se orientan hacia flujos de trabajo de horizonte temporal más amplio que abarcan fundamentación bibliográfica, generación de hipótesis, experimentación, validación, redacción y revisión. Este cambio marca una transición desde la IA a nivel de tarea para la ciencia hacia la automatización de la investigación a nivel de flujo de trabajo. Sin embargo, los sistemas actuales siguen fragmentados, diferenciándose en autonomía, alcance disciplinario, entorno de ejecución, mecanismo de validación y supervisión humana, mientras aún enfrentan dificultades con la preservación de evidencia, reproducibilidad, rechazo de direcciones débiles, trazabilidad de procedencia, robustez interdisciplinaria y cierre científico responsable. Esta revisión examina estos desarrollos a través de *AutoResearch*, definido como el espectro evolutivo de la automatización de flujos de trabajo científicos impulsada por IA. Dentro de este, *Vibe Research* designa la región guiada por humanos de asistencia basada en instrucciones y ejecución verificada por humanos, mientras que los sistemas emergentes liderados por IA coordinan partes mayores del ciclo de descubrimiento sin alcanzar una autonomía robusta. Analizamos cómo los sistemas de investigación redistribuyen el control, la evidencia, la ejecución, la validación y la rendición de cuentas a lo largo de los flujos de trabajo, y organizamos el campo en torno a cinco condiciones del flujo de trabajo: fundamentación bibliográfica y de investigación; formulación y planificación de hipótesis; experimentación y uso de herramientas; retroalimentación, validación y revisión; y comunicación de resultados y conocimiento. Además, sintetizamos sistemas de científico de IA, marcos de co-investigación de iniciativa mixta, puntos de referencia, implementaciones disciplinarias e infraestructuras de código abierto. Finalmente, proponemos cinco dimensiones de evaluación —novedad, validez, impacto, fiabilidad y procedencia— y mostramos que la autonomía de *AutoResearch* está condicionada por el dominio, siendo más creíble en entornos estructurados, ejecutables y rápidamente verificables, pero limitada en contextos encarnados, con demoras, heterogéneos, éticos o sujetos a rendición de cuentas institucional.
La recuperación multimodal depende en gran medida de los recuperadores de vector único, que comprimen ricas secuencias de tokens en una única representación global. Si bien son eficientes, descartan evidencia local y detallada crucial para tareas de recuperación densa. Los enfoques multivecctor se introdujeron como solución, pero requieren estrictamente entrenamiento y muchos ignoran la necesidad de una representación globalmente resumida. Para abordar esto, presentamos SMART, un marco que desbloquea las capacidades latentes multivecctor de los modelos estándar de vector único. Primero demostramos que el entrenamiento contrastivo estándar sobre el embedding agrupado moldea implícitamente la geometría de recuperación de los estados ocultos precedentes a través del flujo de gradiente. Al aplicar interacción tardía directa sobre estos estados ocultos congelados durante la inferencia, SMART actúa como una actualización plug-and-play que mejora consistentemente el rendimiento en diversas modalidades, incluso mejorando modelos de vanguardia en MMEB-V2. También revelamos el rendimiento superior de SMART, ya que un simple post-entrenamiento ligero no solo ahorra tiempo y cómputo, sino que también trae mejoras adicionales en la recuperación de documentos visuales, permitiendo que un modelo de vector único supere a sus contrapartes multivecctor de última generación. En última instancia, SMART ofrece tanto una mejora de inferencia altamente eficiente como una potente técnica de ajuste fino para la recuperación multimodal. Publicamos nuestro código y pesos en https://github.com/HanSolo9682/SMART.
Generar gemelos digitales completos a partir de videos requiere un control preciso de la cámara, una cobertura global de la escena y estrictas restricciones de consistencia espacio-temporal que siguen siendo un desafío para los generadores de video en perspectiva debido a su limitado campo de visión (FOV). Su estrecho FOV obliga a trayectorias largas o multivista, amplificando la inconsistencia entre vistas y la deriva temporal. Sostenemos que la generación de video en 360° ofrece una solución natural: la cobertura panorámica simplifica el diseño de trayectorias y proporciona un contexto global sólido para mantener la coherencia. Presentamos Pantheon360: Domesticando la Generación de Gemelos Digitales mediante Difusión de Video 360° Consciente en 3D, un marco de generación de video 360° controlable que sintetiza videos de alta fidelidad a partir de entradas 360° dispersas. La idea clave es una Caché 3D explícita, reconstruida a partir de la entrada, que sirve como andamio geométrico para cualquier trayectoria de cámara definida por el usuario. Esto permite que el modelo de difusión se centre en el refinamiento fotorrealista de texturas, mientras que la Caché 3D impone una consistencia geométrica global. Los experimentos muestran que Pantheon360 logra una calidad visual superior y una coherencia geométrica inigualable, permitiendo una generación confiable y flexible de escenas 360° para aplicaciones posteriores de simulación y gemelos digitales.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha impulsado avances en dominios como las matemáticas, el uso de herramientas y la ingeniería de software; sin embargo, su extensión a agentes de uso de computadoras (CUAs) se ha visto limitada por la escasez de datos de entrenamiento escalables con recompensas deterministas. Construir tales datos para CUAs requiere instrucciones de tarea consistentes, un entorno ejecutable y una recompensa verificable. No obstante, los benchmarks curados manualmente logran una alta fidelidad de recompensa pero cubren pocas aplicaciones, mientras que los conjuntos de datos basados en LLM como juez escalan ampliamente pero carecen de una verificación fiable. Presentamos CUA-Gym, un pipeline escalable que co-genera instrucciones de tarea, estados del entorno y funciones de recompensa. Concretamente, un agente Generador construye los estados inicial y dorado del entorno, y un agente Discriminador independiente escribe la función de recompensa a partir de la especificación de la tarea. Un agente orquestador impulsa a ambos mediante rondas iterativas tras la ejecución. Las tuplas generadas pasan luego por un filtro final que combina votación mayoritaria de LLM y ejecuciones de agentes, garantizando una calidad más allá del bucle adversarial por tarea. Para abordar la escasez de entornos de entrenamiento, sintetizamos además CUA-Gym-Hub, un amplio conjunto de aplicaciones web simuladas de alta fidelidad basadas en distribuciones de uso de software del mundo real, expandiendo la escala de los datos de RLVR para CUA en un orden de magnitud. Usando este pipeline, construimos CUA-Gym, un conjunto de datos de 32,112 tuplas de entrenamiento RLVR verificadas basadas en 110 entornos. Entrenados con GSPO en CUA-Gym, nuestros modelos CUA-Gym-A3B y CUA-Gym-A17B alcanzan un 62.1% y 72.6% en OSWorld-Verified, superando a CUAs de código abierto previos a escalas comparables, con un rendimiento que escala suavemente tanto en volumen de datos como en diversidad de entornos. Los mismos checkpoints también mejoran en el benchmark reservado WebArena, lo que indica transferencia más allá de los entornos de entrenamiento. Publicaremos como código abierto el pipeline de síntesis completo, el conjunto de datos, los entornos de CUA-Gym-Hub y los modelos.
Los métodos existentes de mejora de baja iluminación basados en aprendizaje profundo suelen entrenarse en conjuntos de datos limitados con objetivos de mejora únicos, lo que restringe su capacidad de generalización y controlabilidad en aplicaciones del mundo real. Para superar estas limitaciones, proponemos ControlLight, un marco controlable, consistente y generalizable para la mejora de baja iluminación. Primero construimos un conjunto de datos a gran escala de imágenes degradadas del mundo real con supervisión continua de intensidad de iluminación. Para garantizar aún más resultados consistentes bajo diferentes intensidades de control, introducimos una función de pérdida de coincidencia de flujo ponderada y consciente de desalineación que preserva la estructura de la imagen a lo largo de intensidades de mejora continuas. ControlLight permite a los usuarios editar imágenes reales degradadas con baja iluminación hacia resultados de mejora satisfactorios controlando de forma flexible la intensidad, mientras se preserva la consistencia visual y el realismo. Amplios experimentos demuestran que ControlLight alcanza un rendimiento de vanguardia frente a los métodos existentes de mejora de baja iluminación, mostrando además una fuerte controlabilidad continua y generalización a escenarios del mundo real.
Los agentes de modelos de lenguaje grande se conciben cada vez más como asistentes personales siempre activos con acceso a cualquier elemento relevante en el mundo digital del usuario. Sin embargo, los sistemas actuales operan solo sobre fragmentos reducidos de ese mundo, lo que limita el razonamiento sensible al contexto y la asistencia eficaz. Los puntos de referencia existentes también proporcionan solo un estado de usuario parcial y, por lo tanto, no logran capturar el rendimiento en un entorno tan amplio y siempre activo. Para abordar esta brecha, presentamos Claw-Anything, un punto de referencia que expande el contexto del agente en tres dimensiones: historiales de actividad a largo plazo, servicios backend interdependientes e interacción integrada de GUI y CLI en múltiples dispositivos. Para implementar este escenario, simulamos meses de actividad de usuario mediante la inyección de eventos en múltiples rondas, generando estados del mundo complejos y ruido realista, incluidos eventos irrelevantes y señales conflictivas. Los agentes deben razonar sobre entornos contextuales ricos mientras se mantienen robustos frente a dicho ruido. Este alcance ampliado también permite la evaluación de la asistencia proactiva, lo que requiere que los agentes anticipen las necesidades del usuario y ofrezcan recomendaciones oportunas. Los experimentos muestran que GPT-5.5 alcanza solo un 34.5% de pass@1, sustancialmente por debajo de los puntos de referencia anteriores, lo que subraya una brecha entre las capacidades actuales de los agentes y las exigencias de la asistencia personal siempre activa. Junto con el punto de referencia, publicamos un pipeline automatizado de generación de datos que produce 2,000 entornos de entrenamiento y mejora el modelo base en un 23.7%, demostrando la utilidad de una infraestructura de datos escalable.
Aunque los agentes de IA demuestran capacidades notables en razonamiento y uso de herramientas, siguen siendo fundamentalmente reactivos: solo generan respuestas tras estímulos explícitos del usuario. Este paradigma ignora una oportunidad crítica: el tiempo de inactividad entre interacciones se desperdicia en gran medida, impidiendo que los agentes se preparen para futuras necesidades del usuario. Para superar esta limitación, presentamos ProAct, una arquitectura de agente proactivo que aprovecha el cómputo en tiempo de inactividad para anticipar y satisfacer necesidades probables del usuario. Al analizar el historial de diálogo en evolución junto con la memoria persistente, ProAct predice necesidades futuras y adquiere información de forma iterativa, lo que permite al agente resolver brechas de conocimiento y preparar evidencia antes de que el usuario formule una consulta. Para evaluar rigurosamente las capacidades proactivas, también introducimos ProActEval, un punto de referencia integral que comprende 200 escenarios en 40 dominios, con cadenas de necesidades predecibles y diversos perfiles cognitivos de usuario. Los resultados empíricos demuestran ventajas significativas sobre las líneas base reactivas. ProAct acelera la finalización de tareas al reducir las interacciones requeridas en un 14.8%, disminuye el esfuerzo del usuario en un 11.7% y reduce las tasas de alucinación en un 28.1% en ProActEval. Además, las evaluaciones en MemBench confirman que ProAct alcanza una precisión reflexiva de vanguardia, lo que subraya su rendimiento sostenido y robusto.
Los generadores de video autoregresivos son atractivos para aplicaciones de transmisión en tiempo real, horizontes largos e interacción, pero destilar profesores robustos de caja negra en estudiantes causales sigue siendo difícil. El estudiante debe aprender bajo su propia distribución de despliegue, mientras que los profesores prácticos pueden exponer únicamente videos completos condicionados por instrucciones y pueden diferir en arquitectura, capacidad, diseño temporal y esquema de muestreo. Esta interfaz hace que el ajuste fino supervisado sea fuera de política, la destilación basada en puntuaciones sea inaplicable y la imitación adversarial directa sea demasiado dispersa para la asignación de crédito en el tiempo de eliminación de ruido. Proponemos Destilación de Flujo Adversarial (AFD), un marco en política para la destilación de video de caja negra heterogénea. AFD consulta al profesor y despliega el estudiante actual sobre las mismas instrucciones, entrena un discriminador Bradley-Terry emparejado por instrucciones para estimar la discrepancia profesor-estudiante en muestras limpias, y convierte la ventaja resultante en política en actualizaciones de ajuste de flujo del proceso directo sobre los propios estados con ruido del estudiante. Por lo tanto, AFD proporciona supervisión densa del campo de velocidad sin requerir puntuaciones del profesor, latentes, trayectorias de eliminación de ruido, alineación de pasos ni aprendizaje por refuerzo de cadena inversa. Experimentos en dos familias de estudiantes AR causales muestran que AFD mejora consistentemente la generación sensible al movimiento y a la física, manteniendo la calidad general del video, y las ablaciones validan la importancia de la retroalimentación adaptativa en política y la asignación de crédito del proceso directo. El método solo requiere videos limpios del profesor y despliegues del estudiante, proporcionando una ruta práctica para destilar generadores de video propietarios o heterogéneos en estudiantes autoregresivos eficientes.
Los agentes de modelos de lenguaje de gran escala (LLM) acumulan trayectorias episódicas ricas mientras resuelven tareas del mundo real, pero aún no está claro si dicha experiencia puede destilarse en habilidades procedimentales reutilizables. Presentamos SkillEvolBench, un punto de referencia diagnóstico para evaluar este paso desde la reutilización de la experiencia hasta la formación de habilidades. Contiene 180 tareas distribuidas en seis entornos de agente del mundo real, organizadas en familias de tareas condicionadas por roles con procedimientos latentes compartidos. Los agentes aprenden de tareas de adquisición, actualizan una biblioteca de habilidades externa utilizando trayectorias compactadas y retroalimentación del verificador, y luego enfrentan tareas de despliegue congelado que evalúan cambio de contexto, atajos adversariales y composición. Al comparar la evolución de habilidades autogeneradas y de inicio curado con controles sin habilidad y de trayectoria en bruto, SkillEvolBench separa la abstracción procedimental de la capacidad base, el conocimiento previo curado y la reutilización directa de rastros episódicos. A través de diez configuraciones de modelo y tres plataformas de agente, encontramos que los agentes actuales a menudo se adaptan localmente pero rara vez forman habilidades reutilizables robustas. Las condiciones basadas en habilidades pueden mejorar la adquisición o la repetición, y algunos modelos individuales ganan en ejes específicos de despliegue, pero estas ganancias son inestables bajo despliegue congelado. La reutilización de trayectorias en bruto supera con frecuencia a las habilidades destiladas, lo que sugiere que los procedimientos de abstracción actuales descartan señales contextuales y procedimentales que siguen siendo útiles para tareas futuras. Los análisis de capacidad y costo muestran además que escribir más habilidades o bibliotecas de recursos de Nivel 3 más grandes no es suficiente: las actualizaciones adicionales pueden mejorar la cobertura pero introducen deriva específica de episodio y desorden procedimental. Estos hallazgos posicionan a SkillEvolBench como un banco de pruebas para medir cuándo la experiencia única se convierte en conocimiento procedimental duradero en lugar de memoria local de la tarea.
Presentamos Cuantización Vectorial por Canales (CVQ), un nuevo paradigma de tokenización de imágenes que reemplaza los tokens por parches con tokens por canales. A diferencia de la cuantización vectorial convencional, que asigna un token discreto a cada vector de características de un parche, CVQ cuantiza cada canal del mapa de características. Esta formulación representa una imagen como niveles discretos de detalles visuales, en lugar de como una cuadrícula de parches espaciales. Basándonos en CVQ, introducimos un nuevo marco autogresivo visual con "predicción del siguiente canal". En lugar de renderizar imágenes parche por parche en orden raster, nuestro modelo Autogresivo por Canales (CAR) predice los canales de la imagen secuencialmente, generando detalles visuales progresivamente más enriquecidos. Específicamente, primero esboza la estructura global y luego refina atributos de grano fino, similar al flujo de trabajo de un artista humano. Empíricamente, demostramos que: (1) CVQ logra una utilización del 100% del libro de códigos con un tamaño de libro de códigos de más de 16K sin necesidad de artificios adicionales, y mejora sustancialmente la calidad de reconstrucción en comparación con la VQ convencional; y (2) CAR alcanza una puntuación DPG de 86.7 y una puntuación GenEval de 0.79, demostrando una sólida efectividad para la generación de texto a imagen.
La memoria es un componente fundamental para habilitar agentes LLM de contexto largo, ya que permite un estado persistente a través de las interacciones mediante un ciclo continuo de servicio y actualización. A pesar de la considerable investigación previa, los sistemas existentes sufren una sobrecarga de mantenimiento significativa debido a dos limitaciones clave: la gestión de estados a nivel grueso y los pipelines de actualización inherentemente secuenciales. En particular, las actualizaciones suelen estar estrechamente acopladas con la inferencia del LLM y requieren reescrituras completas del estado, lo que conduce a una escalabilidad deficiente y a una latencia creciente a medida que la memoria se acumula. Para abordar estos desafíos, presentamos MemForest, un marco de memoria que reformula la memoria del agente como un problema de gestión de datos temporales eficiente en escritura. MemForest rompe el cuello de botella secuencial mediante la extracción paralela de fragmentos, desacoplando la construcción de la memoria en operaciones concurrentes e independientes. Para eliminar aún más el mantenimiento a nivel grueso, introducimos MemTree, un índice temporal jerárquico que organiza la memoria como árboles ordenados por tiempo en lugar de resúmenes globales planos. Este diseño reemplaza las reescrituras de estado completo con actualizaciones localizadas por nodo, reduciendo el costo de mantenimiento a las rutas de árbol afectadas, mientras preserva naturalmente los estados que evolucionan temporalmente. Evaluamos MemForest en dos referencias de memoria de contexto largo: LongMemEval-S y LoCoMo. En LongMemEval-S, MemForest logra el mejor rendimiento general entre las líneas base con estado, alcanzando un 79.8% de precisión pass@1, mientras mantiene un rendimiento de construcción de memoria aproximadamente 6 veces mayor que los enfoques de vanguardia, incluido EverMemOS.
Los avances recientes en modelos generativos destacan el poder del modelado consciente de la geometría en entornos restringidos por variedades. Sin embargo, en el caso de las imágenes naturales, el campo sigue limitado a supuestos euclidianos, sin aprovechar el potencial de las estructuras geométricas intrínsecas presentes en los datos. En este trabajo, investigamos la geometría de las imágenes naturales y observamos que la información semántica se codifica predominantemente en componentes direccionales, mientras que los componentes de norma pueden aproximarse mediante el promedio global. Esta propiedad se mantiene tanto en el espacio RGB como en el latente, lo que sugiere que las imágenes naturales pueden modelarse eficazmente sobre una hiperesfera. Basándonos en este hallazgo, introducimos el Acoplamiento de Flujo por Transporte Óptimo Esférico (SOT-CFM), que utiliza la distancia angular, y el Acoplamiento de Flujo Esférico (SFM), que restringe la dinámica directamente sobre la variedad. Nuestros experimentos demuestran que estos métodos conscientes de la geometría logran un rendimiento superior en comparación con las líneas base euclidianas. Finalmente, este trabajo ofrece una perspectiva novedosa que tiende un puente entre el modelado basado en variedades riemannianas y la generación de imágenes naturales.
En este artículo, presentamos InstructSAM, un marco unificado y simplificado diseñado para la segmentación multi-instancia bajo instrucciones arbitrarias. Formulamos la segmentación de instancias guiada por instrucciones como un problema de predicción de consultas estructuradas en conjuntos y proponemos una interfaz explícita de razonamiento a consulta de instancia que conecta elegantemente un modelo de visión-lenguaje (VLM) y SAM3. Específicamente, se inyecta un banco de consultas de instancia aprendibles en el VLM, contextualizadas con información de instrucción y visual, permitiendo que cada consulta funcione como un espacio de instancia. Un mecanismo de atención híbrida promueve además la interacción entre estas consultas, los tokens visuales y los tokens de instrucción, mejorando la enumeración de instancias y reduciendo predicciones duplicadas. Las consultas condicionadas por el LLM resultantes se proyectan en el espacio de consultas del detector de SAM3 para impulsar una segmentación multi-instancia precisa en una sola pasada hacia adelante. Este diseño dota a SAM3 de comprensión de instrucciones de alto nivel, razonamiento composicional y predicción de conjuntos a nivel de instancia sin modificar su arquitectura central. Para respaldar el entrenamiento y la evaluación, construimos además Inst2Seg, un conjunto de datos y punto de referencia de segmentación de instancias basada en instrucciones de alta calidad y a gran escala que vincula instrucciones en lenguaje natural con máscaras a nivel de instancia. Experimentos exhaustivos muestran que InstructSAM, con solo 2B de parámetros, logra resultados sólidos en puntos de referencia complejos de segmentación referencial tanto guiada por instrucciones como a nivel de frase, superando a métodos anteriores de extremo a extremo y al pipeline agentivo de SAM3, al tiempo que permite una predicción multi-instancia eficiente en una sola pasada.
Las cadenas de pensamiento (CoT, por sus siglas en inglés) se han vuelto centrales en la interpretación y auditoría del comportamiento de los modelos de lenguaje de gran escala. Sin embargo, cada vez hay más evidencia que sugiere que estos rastros a menudo no representan fielmente los cómputos subyacentes a las predicciones de un modelo. Se han propuesto varias métricas de fidelidad, pero no se sabe si realmente miden la fidelidad. Responder a esto requiere etiquetas de verdad fundamental, que son difíciles de obtener porque los cómputos internos no son directamente observables. En consecuencia, la mayoría de los trabajos que proponen métricas solo reportan puntajes absolutos o comparaciones con métricas previas, y los pocos puntos de referencia existentes dependen de aproximaciones como la plausibilidad o la importancia, propiedades ortogonales a la fidelidad que pueden engañar sobre si una CoT es confiable. Abordamos este desafío construyendo tareas cuyos resultados revelan qué cómputos intermedios debieron producirlos, y desarrollando un pipeline de etiquetado automatizado que genera etiquetas de verdad fundamental de fidelidad tanto a nivel de paso como de CoT. Sobre esta metodología, presentamos BonaFide, un punto de referencia de 3066 CoT etiquetadas en 13 tareas y 10 modelos, y lo utilizamos para realizar la primera evaluación sistemática de métricas de fidelidad prominentes. Nuestros experimentos muestran que la mayoría de las métricas rinden cerca del azar, presentan fuertes sesgos de predicción y se degradan en CoT más largas. La mejor métrica alcanza solo 0,70 AUROC a nivel de CoT, mientras que otra alcanza 0,59 a nivel de paso, sin que ninguna se transfiera entre configuraciones, además de implicar un costo computacional prohibitivamente alto. Nuestros resultados revelan brechas fundamentales en la evaluación actual de la fidelidad y exigen el desarrollo de métricas más fiables y eficientes.
Los modelos de lenguaje grandes basados en transformadores se utilizan cada vez más para tareas de horizonte largo; sin embargo, su mecanismo de atención escala deficientemente con la longitud del contexto. Para abordar esto, estudiamos un mecanismo de consolidación similar al sueño en el cual un modelo convierte periódicamente el contexto reciente en pesos rápidos persistentes antes de limpiar su caché de clave-valor. Durante el sueño, el modelo realiza N pasadas recurrentes fuera de línea sobre el contexto acumulado y actualiza los pesos rápidos en sus bloques de modelo de espacio de estados (SSM) mediante una regla local aprendida. Durante la inferencia, esto desplaza cómputo adicional al sueño mientras preserva la latencia de la predicción en estado de vigilia. Probamos nuestro método en tareas sintéticas controladas, incluyendo autómatas celulares y recuperación de grafos con múltiples saltos, así como en una tarea realista de razonamiento matemático, en la que fallan un transformador regular y modelos híbridos de atención y SSM. Luego mostramos que aumentar la duración del sueño N en nuestros modelos mejora el rendimiento, con las mayores ganancias en ejemplos que requieren un razonamiento más profundo.
Los métodos actuales de video a 4D tienen dificultades con cambios complejos de topología, materiales transparentes, estructuras delgadas y superficies internas. Presentamos Helix4D, un marco de generación de mallas dinámicas que hereda la representación expresiva de Trellis2, adaptándola de la generación de imagen a 3D a la generación de 4D condicionada por video. Nuestro diseño surge de dos preguntas clave: (a) cómo permitir que la atención local de fotogramas de Trellis2 comparta información entre fotogramas mientras preserva su calidad preentrenada en casos raros como objetos transparentes y superficies internas, y (b) cómo inyectar información temporal en una codificación posicional puramente 3D sin romper las capacidades preentrenadas. Abordamos (a) con una atención entre fotogramas de ventana deslizante y anclaje en el primer fotograma. El primer fotograma es generado por el modelo base Trellis2 e inyectado en nuestro modelo, permitiéndole heredar la calidad de Trellis2 en casos raros a través de la atención entre fotogramas. Abordamos (b) con una codificación temporal 4D que reutiliza bandas espaciales RoPE redundantes de baja frecuencia para el tiempo, extendiendo la codificación desde 3D sin parámetros adicionales. Extensos experimentos muestran la efectividad de Helix4D para la generación de mallas dinámicas de alta calidad en ActionBench y nuestro propio conjunto desafiante de dinámicas complejas.
La predicción de videos se considera cada vez más un camino hacia modelos de mundo generalizables, pero aún no está claro si estos sistemas aprenden la estructura causal subyacente o simplemente explotan correlaciones visuales superficiales para la predicción futura. Presentamos CRONOS, un conjunto de referencia basado en intervenciones diseñado para evaluar la consistencia física contrafáctica: si las predicciones de eventos físicos de un modelo responden adecuadamente a cambios controlados en la entrada visual, como variaciones en el contexto de la escena, el punto de vista, la apariencia del objeto y la categoría del objeto. Construido en un entorno fotorrealista de Unreal Engine, CRONOS permite la generación controlada y de alta fidelidad de videos en diversas escenas y dinámicas. En contraste con conjuntos de referencia anteriores, CRONOS interviene sistemáticamente en cuatro factores clave —punto de vista, escena, categoría del objeto y apariencia del objeto— mientras mantiene fijo el tipo de evento físico subyacente, como una colisión, oclusión o caída. Nuestra evaluación de generadores de video de código abierto recientes revela fallos sustanciales en la consistencia física contrafáctica: la calidad de la predicción para el mismo tipo de evento físico se ve afectada por la apariencia, el entorno y, particularmente, por cambios en el punto de vista. CRONOS proporciona un banco de pruebas controlado y reproducible para diagnosticar cómo cambia la calidad de los videos generados ante diferentes intervenciones, estableciendo un objetivo concreto para desarrollar modelos que se comporten de manera consistente frente a cambios en múltiples condiciones. El conjunto de datos y el código están disponibles en nuestra página del proyecto.
Los videos metafóricos son frecuentes en diversos escenarios del mundo real para transmitir ideas complejas, y su comprensión generalmente requiere capacidades cognitivas de alto orden. La falta de estudios sistemáticos sobre la comprensión de videos metafóricos no solo limita la aplicabilidad práctica de los MLLMs, sino que también impide una evaluación exhaustiva de sus capacidades cognitivas de alto orden. Para abordar esta brecha, proponemos MetaphorVU-Bench, el primer punto de referencia sistemático y completo dedicado a la comprensión de videos metafóricos. Mediante experimentos, encontramos que los MLLMs actuales tienen dificultades para comprender con precisión los videos metafóricos, quedando muy por detrás del nivel humano, principalmente debido a un mapeo defectuoso entre dominios. Motivados por este hallazgo, construimos un grafo de conocimiento de metáforas como aumento del mapeo y proponemos MetaphorBoost, un marco de mejora en tiempo de inferencia que logra una mejora consistente del rendimiento. Nuestro punto de referencia, análisis y método proporcionan ideas útiles y una base para futuras investigaciones sobre el avance de los MLLMs.
Los modelos unificados de comprensión y generación multimodal permiten una interacción humano-IA más rica. Sin embargo, la personalización conjunta de la personalidad, el estilo de diálogo y la identidad visual de un personaje, manteniendo la consistencia de los resultados entre modalidades, sigue siendo un área en gran medida inexplorada. Para subsanar esta brecha, presentamos una nueva tarea, Customized Multimodal Role-Play (CMRP). Construimos el conjunto de datos RoleScape-20, que comprende 20 personajes e incluye datos de entrenamiento y evaluación que cubren personalidad, descripciones estilísticas, señales visuales/expresivas e interacciones texto-imagen. Partiendo de un modelo unificado, diseñamos UniCharacter, un marco de entrenamiento en dos etapas que incluye Ajuste Fino Supervisado Unificado (Unified-SFT) y Optimización de Política Relativa Grupal específica de personaje (Character-GRPO). Con solo 10 imágenes y ejemplos de interacción correspondientes, el modelo adquiere el personaje objetivo y muestra una personalidad, estilo e identidad visual coherentes tanto en el texto como en las imágenes generadas. Este proceso toma aproximadamente 100 horas de GPU. Los experimentos en el conjunto de datos RoleScape-20 muestran que el método propuesto supera sustancialmente a los enfoques previos. Los estudios de ablación validan adicionalmente la efectividad de nuestro diseño de consistencia entre modalidades y la estrategia de personalización con pocos ejemplos. Sostenemos que CMRP, junto con el modelado unificado, proporciona una base para agentes interactivos de nueva generación, con personalidad e inmersivos.
Los modelos de difusión texto a imagen como Stable Diffusion generan imágenes de alta calidad a partir de texto, pero carecen de una forma de inyectar guía visual (por ejemplo, bocetos, estilos) durante la inferencia sin necesidad de reentrenamiento. Los métodos existentes requieren un ajuste fino computacionalmente costoso o dependen de técnicas de transferencia de estilo que corren el riesgo de desalineación semántica con las indicaciones textuales. Presentamos Visual Concept Fusion (VCF), el primer método que ofrece condicionamiento dual tanto en una imagen como en una indicación textual en tiempo de inferencia sin ningún entrenamiento específico de concepto. VCF permite la inyección de concepto visual en Stable Diffusion al alinear las características de imagen de CLIP con el espacio de incrustación de texto. VCF consta de tres componentes: (1) un alineador ligero que mapea los tokens de imagen al manifold de incrustación de texto utilizando pérdidas de InfoNCE y de reconstrucción de atención cruzada, (2) una estrategia de fusión que preserva tanto la semántica textual como la visual, y (3) un módulo opcional de Optimización de Ruido de Indicación (Prompt-Noise Optimization, PNO) para refinamiento en tiempo de prueba. Nuestros experimentos demuestran que VCF transfiere con éxito atributos visuales como estilo, composición y paleta de colores de imágenes de referencia mientras mantiene la adherencia a la indicación. Los resultados cuantitativos muestran un equilibrio entre la alineación de texto (puntuación CLIP) y la correspondencia visual (LPIPS), con VCF superando a las líneas base en fidelidad de referencia.
Los priors generativos en la Superresolución de Imágenes (SR) suelen comprometer la reconstrucción fiel; atribuimos esta limitación a un desajuste espectral fundamental entre los objetivos isotrópicos y la variedad de imágenes naturales intrínseca. Si bien la Optimización Directa de Preferencias ofrece un camino hacia la alineación, su dependencia de ruido gaussiano espectralmente plano no logra distinguir los detalles de alta frecuencia auténticos de las alucinaciones. Para salvar esta brecha geométrica, proponemos ASASR, un marco teóricamente fundamentado que reformula el flujo generativo en una geometría riemanniana inducida por Sobolev, coloreando explícitamente el núcleo de transición del ruido para reflejar la decadencia espectral natural. Impulsando esta alineación geométrica, integramos un adversario paramétrico basado en el Teorema de Representación de Riesz, que sintetiza muestras negativas dirigidas equivalentes a los gradientes de Sobolev en el peor de los casos, orientando la optimización a lo largo del espacio tangente de fallos estructurales plausibles. Evaluaciones exhaustivas demuestran que ASASR supera a las líneas base generativas líderes, particularmente en la preservación de la coherencia espectral y la fidelidad estructural, ofreciendo una solución robusta que mitiga eficazmente los artefactos.
Los agentes basados en Grandes Modelos de Lenguaje (LLM) mejoran cada vez más mediante la interacción; sin embargo, la mayoría de los métodos de autoevolución adaptan la política o el entorno de aprendizaje de forma aislada. Identificamos esta brecha estructural como Desalineación Agente-Entorno: la frontera de capacidades del agente cambia durante el entrenamiento, mientras que el entorno que proporciona supervisión permanece estático o solo está débilmente acoplado a los fallos revelados por el agente. Proponemos SEAL, un marco de coevolución en bucle cerrado para agentes interactivos de uso de herramientas. SEAL recolecta trayectorias on-policy bajo verificación ejecutable, diagnostica ejecuciones fallidas en etiquetas de fallo a nivel de turno, y utiliza estos diagnósticos como una señal compartida tanto para la adaptación del lado del entorno como para la optimización de la política del modelo. El entorno evoluciona su interfaz de aprendizaje durante el entrenamiento exponiendo señales más claras de utilidad de herramientas, información de restricciones y retroalimentación orientada a la recuperación, mientras que la política se actualiza con reponderación de ventaja guiada por diagnósticos. Experimentos exhaustivos en evaluaciones de uso de herramientas multiturno dentro y fuera de la distribución muestran que SEAL mejora el aprendizaje del agente con pocos recursos: con solo 400 muestras de entrenamiento, produce ganancias de +8.25 a +26.25 puntos promedio en tres arquitecturas base y exhibe transferencia positiva fuera de la distribución. Estos resultados demuestran el valor de adaptar conjuntamente al aprendiz y su sustrato de aprendizaje en tiempo de entrenamiento para agentes LLM robustos y automejorables.
Recientemente, el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) y el Escalado en Tiempo de Prueba (TTS) han avanzado la generación de código en LLM mediante verificación ejecutable. Sin embargo, las Pruebas Unitarias de Verdad Absoluta (GT UTs) siguen siendo un cuello de botella: los métodos RLVR de última generación las requieren para un costoso entrenamiento, mientras que los métodos TTS existentes pierden competitividad sin ellas. Esto motiva el TTS sin GT, donde los métodos actuales utilizan directamente UTs auto-generadas para refinar y seleccionar candidatos de código. No obstante, dichas UTs suelen ser ruidosas o estar acopladas espuriamente con código erróneo, y la calidad de las UTs no puede validarse a su vez sin código fiable. Por lo tanto, el desafío clave es mejorar conjuntamente ambos aspectos. Con este fin, presentamos CoSPlay, un marco libre de GT y sin entrenamiento que mejora conjuntamente códigos y UTs mediante auto-juego cooperativo. Primero explora diversas ideas de solución e identifica sus posibles modos de fallo para producir ideas de UT discriminativas. Luego utiliza señales bidireccionales de conteo de aciertos de la matriz de ejecución Código-UT para eliminar o corregir iterativamente códigos débiles y refrescar o reemplazar UTs no fiables, permitiendo que ambos grupos co-evolucionen. Finalmente, cuando varios códigos permanecen empatados en el mayor conteo de aciertos, selecciona el código final del clúster de consenso de salida más grande, ya que los códigos correctos coinciden en las mismas entradas mientras que los incorrectos divergen. Experimentos en cuatro puntos de referencia desafiantes muestran que CoSPlay sobre Qwen2.5-7B-Instruct mejora el BoN promedio del 22,1% al 33,2% y la precisión de las UTs del 14,6% al 78,3%, igualando o superando al modelo RLVR CURE-7B. Aplicado a CURE-7B, mejora aún más el BoN en un 5,7%. CoSPlay también se generaliza a diversas arquitecturas base y supera a las líneas base de TTS sin GT bajo presupuestos de tokens comparables, con ganancias continuas a medida que el presupuesto escala. Estos resultados sugieren una estrategia de inferencia escalable para la generación competitiva de código sin ningún dato de GT.
Avances recientes en destilación de difusión en pocos pasos han permitido una generación eficiente de imágenes, aunque alinear estos modelos con las preferencias humanas sigue siendo un desafío. Proponemos Destilación por Emparejamiento de Distribuciones Sesgada por Recompensa (RTDMD, por sus siglas en inglés), un marco de dos etapas que unifica la destilación por emparejamiento de distribuciones con el aprendizaje por refuerzo guiado por recompensa para generadores de flujo de pocos pasos. Demostramos que minimizar la divergencia KL con respecto a una distribución de profesor sesgada por recompensa se descompone naturalmente en un término de emparejamiento de distribuciones y un término de maximización de recompensa. En la primera etapa, introducimos Destilación por Emparejamiento de Distribuciones Consistente con el Entorno (AC-DMD), que realiza un emparejamiento de distribuciones por subintervalos y aumenta el objetivo de puntuación falsa con un regularizador de consistencia para ayudar al modelo de puntuación falsa a rastrear la distribución cambiante del generador bajo actualizaciones limitadas. En la segunda etapa, optimizamos conjuntamente ambos términos: para el término de maximización de recompensa, derivamos un gradiente de política híbrido que combina un estimador de estilo GRPO para las transiciones intermedias estocásticas con la retropropagación directa de la recompensa a través del paso final determinista, e introducimos además GRPO por subconjunto de pasos (SubGRPO) para reducir la varianza. Los experimentos en SD3, SD3.5 y FLUX.2 demuestran que RTDMD establece nuevos resultados de última generación en métricas de preferencia, estética y composición con solo 4 pasos de inferencia, superando a métodos anteriores de generación de texto a imagen en pocos pasos. El código y los modelos están disponibles en https://github.com/Harahan/RTDMD.
A medida que los agentes basados en grandes modelos de lenguaje (LLM) participan cada vez más en el discurso en línea, someter a pruebas de adversarios (red-teaming) su capacidad para apoyar campañas de influencia política resulta crítico para la integridad de la información. Con este objetivo, nos centramos en LLMs de código abierto desplegados localmente, en contraposición a los modelos de frontera solo accesibles mediante API, dada su mejor alineación con las limitaciones operativas de actores maliciosos conscientes de la privacidad que operan en entornos de redes sociales. Introducimos un marco empírico de pruebas de adversarios para medir las Ventanas de Overton (OV) de los LLM, definidas como el rango de opiniones políticas que un modelo puede expresar de manera fiable sobre temas controvertidos, y para cuantificar cómo los jailbreaks simples en lenguaje natural amplían dicho rango. Evaluamos más de 30 LLM que abarcan 10 familias de modelos y cinco países de origen. Encontramos asimetrías sistemáticas en la expresividad política: los LLM de código abierto suelen estar más dispuestos a generar contenido de redes sociales de tendencia izquierdista, las Ventanas de Overton tienden a contraerse inversamente al tamaño del modelo, y las diferencias regionales son sustanciales a pesar de la representación desigual en el ecosistema de código abierto. La potencia de los jailbreaks también varía marcadamente entre las familias de modelos, lo que motiva un flujo de trabajo para identificar combinaciones efectivas de técnicas de jailbreak. En conjunto, nuestros resultados establecen un marco práctico para auditar la direccionabilidad política de los LLM de código abierto y para ayudar a futuros investigadores a diseñar contramedidas más sólidas contra las campañas de influencia habilitadas por LLM.
El hackeo de recompensa surge cuando un modelo mejora una recompensa proxy explotando atajos en lugar de resolver la tarea prevista. Estudiamos este modo de fallo a través de la geometría de las actualizaciones de aprendizaje por refuerzo en modelos de lenguaje y argumentamos que el hackeo emerge cuando la optimización se desvía de una trayectoria de aprendizaje estable y de baja dimensión. Analizamos esta desviación a través de las direcciones singulares dominantes de las actualizaciones de parámetros y mostramos que las ejecuciones con hackeo de recompensa exhiben un cambio direccional sustancialmente mayor que las ejecuciones limpias. Motivados por esta observación, introducimos la proyección de dirección confiable, que restringe los gradientes para que permanezcan dentro de un subespacio de referencia limpio. A través de experimentos de hackeo de recompensa en razonamiento matemático, el enfoque propuesto retrasa la explotación de atajos y preserva mejor el rendimiento de la tarea.
Los codificadores dispersos ofrecen una recuperación de alta precisión al representar la importancia de los términos dentro de un espacio de vocabulario, pero sus estructuras centradas en el inglés suponen un obstáculo crítico para la transferencia lingüística hacia lenguas no inglesas. Para superar esta limitación estructural, proponemos SemBridge, un novedoso método de inicialización de embeddings diseñado para la adaptación multilingüe en codificadores dispersos, aprovechando modelos puente multilingües. SemBridge establece alineaciones semánticas entre los vocabularios fuente y destino utilizando embeddings densos multilingües como puente. En lugar de depender directamente de todos los tokens fuente, SemBridge selecciona un pequeño conjunto de tokens de la lengua fuente semánticamente relacionados y los utiliza para inicializar cada token de la lengua destino, filtrando eficazmente el ruido semántico y reconstruyendo los tokens destino como combinaciones lineales precisas de sinónimos principales. Esto acelera la convergencia durante el ajuste fino y mejora la eficiencia del entrenamiento. Extensos experimentos en cinco lenguas y cuatro arquitecturas dispersas demuestran que SemBridge logra un rendimiento superior en recuperación zero-shot y mejora consistentemente el rendimiento de recuperación tras el ajuste fino en comparación con las líneas base existentes. Estos resultados validan a SemBridge como una solución práctica para desplegar sistemas de recuperación dispersa de alto rendimiento en entornos lingüísticos diversos.
Los agentes móviles de interfaz gráfica de usuario impulsados por modelos de lenguaje extenso han avanzado rápidamente, generando necesidades urgentes de evaluación realista y exhaustiva. Los benchmarks existentes priorizan la reproducibilidad, pero suelen limitarse a aplicaciones de código abierto o tareas de manipulación de archivos debido a la dificultad de construir recompensas en aplicaciones reales, lo que deja una brecha entre los entornos de evaluación y el uso en el mundo real. Además, la mayoría de los benchmarks se centran en anclaje y navegación básicos, con una cobertura limitada de interacciones complejas y de largo horizonte. Para abordar estas limitaciones, presentamos SimuWoB, un benchmark completamente sintético para agentes móviles de interfaz gráfica de usuario con 120 tareas desafiantes que abarcan diversos tipos y niveles de dificultad. Construimos un marco robusto de generación de entornos virtuales que sintetiza tareas y entornos de alta fidelidad, y proporciona automáticamente recompensas válidas para cada tarea. Cada entorno se despliega como una página web accesible mediante URL que no requiere backend, lo que permite una evaluación eficiente y reproducible. Realizamos experimentos exhaustivos con varios agentes móviles de interfaz gráfica de usuario de última generación. La tasa de éxito promedio es solo del 27,92 %, y desciende al 17,82 % en tareas de largo horizonte, lo que revela debilidades sustanciales en los agentes actuales bajo escenarios complejos. La comparación de los resultados de evaluación con tareas de muestra del mundo real demuestra que las evaluaciones de agentes basadas en nuestro entorno sintético generalizan bien. Además, proporcionamos ideas diagnósticas en dimensiones clave de capacidad y discutimos implicaciones para el desarrollo futuro de agentes móviles de interfaz gráfica de usuario.
La asignación de crédito temporal en el aprendizaje por refuerzo ha sido durante mucho tiempo un desafío central. Inspirada por la codificación multiescala temporal del sistema de dopamina en neurobiología, la investigación reciente ha buscado introducir múltiples factores de descuento en arquitecturas Actor-Crítico, como la Optimización de Política Proximal (PPO), para equilibrar las respuestas a corto plazo con la planificación a largo plazo. Sin embargo, este artículo revela que fusionar ciegamente señales multiescala temporal en tareas complejas de recompensa retardada puede conducir a patologías algorítmicas graves. Demostramos sistemáticamente que exponer un mecanismo de enrutamiento de atención temporal a los gradientes de política resulta en un hackeo del objetivo sustituto, mientras que adoptar ponderación de incertidumbre sin gradientes desencadena una degeneración miope irreversible, un fenómeno que denominamos la Paradoja de la Incertidumbre Temporal. Para abordar estos problemas, proponemos una arquitectura de Desacoplamiento de Objetivo: en el lado del Crítico, mantenemos predicciones multiescala temporal para imponer el aprendizaje de representaciones auxiliares, mientras que en el lado del Actor, aislamos estrictamente las señales a corto plazo y actualizamos la política basándonos únicamente en las ventajas a largo plazo. Evaluaciones empíricas rigurosas a través de múltiples semillas aleatorias independientes en el entorno LunarLander-v2 demuestran que nuestra arquitectura propuesta logra mejoras de rendimiento estadísticamente significativas. Sin depender del ajuste de hiperparámetros, supera consistentemente el umbral de "Entorno Resuelto" con una varianza mínima, elimina por completo el colapso de la política y escapa de los óptimos locales flotantes que atrapan las líneas base de escala temporal única. El código fuente para reproducir nuestros experimentos está disponible públicamente en https://github.com/ben-dlwlrma/Representation-Over-Routing.
La comunicación permite la coordinación en el aprendizaje por refuerzo multiagente (MARL), pero muchas aplicaciones del mundo real, como la búsqueda y rescate con enjambres de drones, operan bajo severas restricciones de ancho de banda. Numerosas arquitecturas de comunicación aún presentan un cuello de botella acoplado, donde una representación latente compartida se emplea tanto para la ejecución de la política como para la comunicación entre agentes. En consecuencia, reducir el tamaño del mensaje limita directamente el espacio latente de la política, lo que a menudo provoca una degradación significativa del rendimiento. Abordamos este problema con dos contribuciones. Primero, introducimos β, un presupuesto de ancho de banda normalizado por agente que unifica la esparcidad, las rondas y la dimensión del mensaje en una única restricción comparable. Segundo, presentamos SLIM, una arquitectura mínima que desacopla la ruta de comunicación de la representación latente de la política, permitiéndonos aislar el efecto del ancho de banda del efecto de la capacidad de la política, al mismo tiempo que nos beneficiamos de la comunicación en cada paso. Evaluamos nuestro método en varios benchmarks de MARL parcialmente observables, donde la comunicación es esencial. Nuestro enfoque alcanza un rendimiento de vanguardia y exhibe escalabilidad y robustez bajo comunicación limitada, con una degradación solo marginal a medida que se reduce el ancho de banda.
Los sistemas de evaluación (harnesses) son sistemas de software que orquestan la evaluación de modelos gestionando la invocación de modelos, la carga de datos, el cálculo de métricas y la presentación de resultados. A pesar de su papel crítico en la infraestructura de aprendizaje automático, sus desafíos operativos y preocupaciones de ingeniería han recibido una atención limitada hasta ahora. Presentamos un estudio empírico de 57 sistemas de evaluación, derivando un modelo de harness de cinco etapas y clasificando 16,560 incidencias por etapa del flujo de trabajo y causa raíz. La mayoría de los desafíos operativos de los sistemas se concentran en la etapa de Especificación (41.4% de las incidencias), donde los sistemas integran modelos externos, conjuntos de datos y jueces de puntuación. Las tres causas raíz más frecuentes de los desafíos operativos son funciones no implementadas (24.3%), lagunas en la documentación (20.3%) y falta de validación de entrada (17.2%), que en conjunto representan el 61.7% de las incidencias clasificadas, abarcando tanto defectos en la funcionalidad existente como brechas de capacidad que bloquean los flujos de trabajo previstos. Las causas raíz también varían según la etapa del flujo de trabajo: la incompatibilidad del entorno y la ruptura de dependencias externas representan el 36.2% de los problemas de aprovisionamiento, mientras que el error algorítmico (25.9%) y la brecha de validación (22.5%) dominan los problemas de evaluación. En conjunto, estas contribuciones establecen una base empírica para tratar la ingeniería de evaluación como una preocupación distinta dentro de la ingeniería de software.
Los agentes CLI son lo más parecido a un entorno corpóreo que tienen los modelos de lenguaje: el modelo emite comandos, el terminal los ejecuta y el flujo devuelto —stdout, errores, archivos, registros y trazas— registra las consecuencias. Sostenemos que este flujo constituye una señal de supervisión, pero el RL estándar para agentes lo descarta: el entrenamiento estilo GRPO actualiza los tokens de acción con recompensas escasas a nivel de resultado, ignorando las respuestas del entorno que ya están en el rollout. Los rollouts fallidos aportan poca señal de gradiente de política a pesar de contener evidencia rica sobre cómo responde el entorno. Introducimos ECHO (Environment Cross-entropy Hybrid Objective), un objetivo híbrido que combina la pérdida estándar de gradiente de política sobre los tokens de acción con una pérdida auxiliar que entrena a la política para predecir los tokens de observación del entorno resultantes de sus propias acciones. ECHO reutiliza el mismo pase hacia adelante que GRPO, no requiere rollouts adicionales y convierte la retroalimentación del terminal en supervisión densa para todos los rollouts. ECHO duplica el pass@1 de GRPO en TerminalBench-2.0: Qwen3-8B mejora del 2.70% al 5.17%, y Qwen3-14B del 5.17% al 10.79%. ECHO también produce políticas que predicen mejor la dinámica del terminal, incluso en trayectorias que no generaron: en rollouts fuera de la muestra, reduce marcadamente la entropía cruzada de los tokens del entorno, mientras que GRPO apenas la modifica. Partiendo de Qwen3-8B base, ECHO iguala el rendimiento de un SFT experto seguido de GRPO en tareas de terminal fuera de la muestra, sin necesidad de demostraciones expertas, y recupera aproximadamente la mitad del beneficio de la inicialización con SFT experto en TerminalBench-2.0. En algunos entornos, la pérdida de predicción del entorno por sí sola permite una auto-mejora sin verificador, haciendo que las políticas mejoren en tareas OOD no vistas al aprender únicamente de las interacciones con el entorno. En conjunto, estos resultados sugieren que las observaciones del entorno no son meramente contexto para acciones futuras, sino una señal de supervisión densa y on-policy ya presente en cada rollout.
El análisis de la seguridad en el transporte requiere integrar registros de siniestros, atributos de la vía y datos geoespaciales mediante flujos de trabajo basados en SIG, pero el acceso sigue siendo desigual entre agencias y partes interesadas de la comunidad. Los requisitos técnicos crean una brecha entre las herramientas analíticas fundamentales para la planificación de la seguridad y los profesionales capaces de utilizarlas. Las agencias locales, los comités escolares y los residentes pueden tener preocupaciones sobre la seguridad, pero una capacidad limitada para recuperar, filtrar, mapear y analizar datos relevantes. La inteligencia artificial generativa ofrece una forma de reducir esta brecha, pero su uso en el sector público plantea interrogantes sobre fiabilidad, reproducibilidad y gobernanza. Este artículo presenta una interfaz de lenguaje natural basada en esquemas para el análisis de la seguridad en el transporte, utilizando un modelo de lenguaje de gran tamaño (LLM) para interpretar la intención del usuario, al tiempo que preserva una ejecución determinista y verificable contra una base de datos autorizada. Las consultas de los usuarios se traducen en marcos semánticos estructurados, validados por una capa basada en reglas, compilados en un grafo acíclico dirigido tipado de operaciones espaciales y ejecutados contra una base de datos PostGIS. Este diseño acotado separa la interpretación del lenguaje de la ejecución determinista, manteniendo resultados reproducibles y fundamentados en el esquema, mientras elimina las barreras de acceso. El marco se evalúa utilizando una base de datos de seguridad del transporte a nivel estatal de Massachusetts que integra registros de siniestros, atributos de la vía y capas geoespaciales que incluyen escuelas, paradas de autobús, cruces peatonales y límites municipales. Todas las consultas se ejecutaron con éxito; la capa de validación corrige errores en el 29 % de las consultas de evaluación, lo que refleja la brecha entre el lenguaje natural flexible y los estrictos requisitos basados en esquemas. Los resultados sugieren que combinar la accesibilidad del lenguaje natural con la ejecución determinista es una dirección práctica para ampliar el acceso a los datos de seguridad del transporte, con implicaciones para una IA confiable en la planificación del sector público.
La reconstrucción 3D en línea requiere estimar la pose de la cámara y la geometría de la escena bajo estrictas restricciones causales y de memoria acotada. Los métodos existentes a menudo sufren de deriva, vibración o colapso en secuencias largas. Atribuimos estos fallos a una discrepancia fundamental. La geometría en flujo continuo es inherentemente heterogénea temporalmente, con evidencia que va desde correspondencias de corta duración hasta escalas globales persistentes. Sin embargo, las arquitecturas actuales imponen patrones de influencia uniformes y patológicos. Por ejemplo, las ventanas deslizantes aplican cortes abruptos, mientras que la recurrencia no regulada y la atención causal provocan saturación de caché y sumideros de atención en forma de picos. Para resolver esto, formalizamos la propagación geométrica como un núcleo de influencia de evidencia y proponemos HorizonStream, un Transformer de horizonte largo que factoriza explícitamente este núcleo. Para el factor temporal de largo alcance, la Atención Lineal Geométrica aprende tasas de decaimiento por canal, permitiendo una propagación acotada y a múltiples escalas temporales de la evidencia geométrica. Para el factor espacial de corto alcance, la Atención Local Geométrica con RoPE Espaciotemporal realiza un emparejamiento 3D fiable mientras suprime los sumideros de atención. Finalmente, los Tokens de Lectura Métrica recuperan la escala estable y la pose rígida directamente del estado geométrico persistente. Experimentos exhaustivos muestran que HorizonStream, entrenado solo con clips de 48 fotogramas, se generaliza de forma estable a secuencias que superan los 10.000 fotogramas con memoria constante y tiempo lineal, logrando un rendimiento de vanguardia en reconstrucción 3D en flujo continuo. Página del proyecto: https://3dagentworld.github.io/horizonstream/
A medida que se crean y refinan aplicaciones interactivas basadas en LLM, los desarrolladores de modelos necesitan evaluar la calidad del texto generado a lo largo de muchos ejes posibles. Para sistemas más simples, la evaluación humana puede ser práctica, pero en sistemas complejos como los chatbots conversacionales, la cantidad de texto generado puede abrumar los recursos de anotación humana. Los desarrolladores de modelos han comenzado a depender en gran medida de la auto-evaluación, donde los LLM también se utilizan para juzgar la calidad de la generación. Sin embargo, los puntos de referencia existentes de LLM como juez se centran principalmente en tareas simples de preguntas y respuestas que no coinciden con la complejidad de las conversaciones de múltiples turnos. Presentamos RankJudge, un generador de puntos de referencia para evaluar LLM como juez en conversaciones de múltiples turnos basadas en documentos de referencia. RankJudge crea pares de conversaciones donde una conversación tiene un único defecto inyectado en un turno. Esta construcción permite etiquetar de manera inequívoca las conversaciones emparejadas como mejores o peores, y aísla precisamente las categorías de fallo a turnos individuales, lo que permite un criterio de corrección conjunta estricto para juzgar. Implementamos RankJudge en los dominios de aprendizaje automático, biomedicina y finanzas, evaluamos 21 LLM jueces de frontera y clasificamos esos jueces mediante el modelo de Bradley-Terry. Nuestra formulación también permite clasificar cada par de conversaciones con calificaciones de dificultad, que utilizamos para seleccionar dinámicamente el segmento de evaluación y reducir el ruido en las etiquetas, según lo confirmado mediante anotación humana. Encontramos que las clasificaciones de los jueces son estables bajo observabilidad parcial, criterios de corrección más generales y un algoritmo alternativo de calificación de caminata aleatoria.
Los modelos actuales de generación de imagen a video controlados por movimiento siguen rígidamente las trayectorias proporcionadas por el usuario, que a menudo son dispersas, imprecisas y causalmente incompletas. Esta dependencia frecuentemente produce resultados poco naturales o inverosímiles, especialmente al omitir consecuencias causales secundarias. Para abordar esto, presentamos MotiMotion, un marco novedoso que reformula el control de movimiento como un problema de razonamiento seguido de generación. Para fomentar interacciones causalmente fundamentadas y coherentes con el sentido común, aprovechamos un razonador de lenguaje visual libre de entrenamiento para refinar las coordenadas en el espacio de imagen de las trayectorias primarias y alucinar movimientos secundarios plausibles. Para mejorar aún más la naturalidad del movimiento, proponemos un esquema de control consciente de la confianza que modula la fuerza de guía, permitiendo que el modelo siga de cerca planes de alta confianza mientras corrige artefactos en entradas de baja confianza utilizando sus priors generativos internos. Para respaldar una evaluación sistemática, curamos un nuevo punto de referencia de imagen a video, MotiBench, que consiste en escenas centradas en interacciones donde nuevos eventos son desencadenados por el movimiento. Tanto la evaluación basada en VLM como un estudio humano en MotiBench demuestran que MotiMotion produce videos con comportamientos e interacciones de objetos más plausibles, y es preferido frente a los enfoques existentes.
La evaluación automatizada de daños en pavimentos requiere más que una clasificación a nivel de imagen o una detección aproximada con cajas delimitadoras, pues exige la localización precisa de grietas finas, ramificadas e irregulares para alcanzar la precisión geométrica necesaria para una cuantificación relevante al mantenimiento. Este artículo presenta un sistema de análisis de daños en pavimentos basado en visión, fundamentado en la segmentación de instancias Mask R-CNN, y lo evalúa en UWGB-StreetCrack, un conjunto de datos de imágenes de carreteras recolectadas en campo con un teléfono inteligente montado en un vehículo y anotadas manualmente con etiquetas poligonales para grietas longitudinales, grietas transversales, grietas de piel de cocodrilo y baches. Se consideraron cinco variantes de backbone de Mask R-CNN basadas en Detectron2 bajo un protocolo consistente de ajuste fino. El modelo con mejor rendimiento, Mask R-CNN con un backbone ResNet-101 FPN, alcanzó una precisión del 84,23%, una exhaustividad del 90,04% y una puntuación F1 del 87,04% bajo el protocolo de coincidencia de cajas delimitadoras específico del proyecto. El mismo modelo produjo una fracción agregada de área de grieta predicha del 2,164%, que coincide estrechamente con la fracción de área de grieta real del 2,170%. Para contextualizar el sistema de segmentación frente a una alternativa orientada a la detección, también se adaptó y reentrenó un detector YOLO basado en CSPDarknet53 en el conjunto de datos, alcanzando una precisión del 27,5% y una exhaustividad del 20,7% en el protocolo de validación. Los resultados muestran que la segmentación de instancias es una dirección práctica para imágenes de pavimento en campo y la estimación agregada del área de grietas, al tiempo que exponen desafíos abiertos en la consistencia de la anotación, el desbalance de clases, la eliminación de factores de confusión y la evaluación comparativa a nivel de máscara.
El aprendizaje por refuerzo (RL) para la generación de descripciones largas de imágenes revela un problema de granularidad de la recompensa: las descripciones se evalúan como secuencias completas, mientras que los errores importantes ocurren a nivel de afirmaciones visuales individuales. Una buena descripción densa debe ser tanto fiel como informativa, evitando alucinaciones sin omitir detalles relevantes. Sin embargo, las preferencias por pares, las métricas basadas en referencias y las recompensas escalares holísticas comprimen estos errores locales en una única señal a nivel de secuencia, ocultando el compromiso entre factualidad y cobertura. Presentamos ClaimDiff-RL, un marco que utiliza las diferencias atómicas de afirmaciones condicionadas por referencia como unidad de recompensa para el RL de descripciones. Dada una imagen, una descripción generada y una descripción de referencia, un juez multimodal enumera las diferencias visualmente fundamentadas, verifica cada diferencia con respecto a la imagen, asigna tipos de error de vocabulario abierto y niveles de severidad, y produce estadísticas por diferencia para la composición de la recompensa. Esto permite medir y ajustar por separado las afirmaciones alucinadas y los hechos relevantes omitidos. Los experimentos muestran que las recompensas escalares holísticas pueden reducir la alucinación aumentando los hechos faltantes, mientras que ClaimDiff-RL expone este compromiso entre fidelidad y cobertura y permite puntos de operación más equilibrados. En un benchmark diagnóstico anotado por humanos de 160 imágenes, benchmarks públicos de descripción de imágenes y benchmarks de VQA, ClaimDiff-RL mejora el equilibrio entre alucinación y hechos faltantes, preserva la capacidad general e incluso supera a Gemini-3-Pro-Preview en varias dimensiones de capacidad de grano fino, como el conteo de objetos, las relaciones espaciales y el reconocimiento de escenas. Estos resultados sugieren que las diferencias de afirmaciones tipificadas y verificables son una unidad de recompensa efectiva para el RL de descripciones detalladas y diagnosticables.
Los Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés) presentan mecanismos de retroceso y autoverificación que les permiten revisar pasos intermedios y alcanzar soluciones correctas, lo que resulta en un sólido rendimiento en puntos de referencia lógicos complejos. Partimos de la hipótesis de que dichos comportamientos solo son beneficiosos cuando el modelo posee una capacidad de "crítica" suficientemente sólida para detectar sus propios errores. Este trabajo investiga sistemáticamente cómo los LRMs actuales se recuperan de errores al insertar fallos aritméticos en sus pasos de razonamiento intermedios. Notablemente, descubrimos un fenómeno peculiar pero importante: a pesar de que el error se propaga a lo largo de toda la cadena de pensamiento (CoT) sin ninguna corrección verbalizada, el modelo aún alcanza la respuesta final correcta una vez finalizado el proceso de pensamiento. Esta recuperación implica la existencia de un mecanismo interno que ayuda al modelo a detectar errores y desencadenar la autocorrección, al que denominamos capacidad crítica oculta. Basándonos en el análisis del espacio de características, identificamos un vector de crítica altamente interpretable que representa este comportamiento. Amplios experimentos en múltiples escalas y familias de modelos demuestran que dirigir las representaciones latentes con este vector mejora la capacidad de detección de errores del modelo y potencia el rendimiento del escalado en tiempo de prueba, sin costo adicional de entrenamiento. Nuestros hallazgos ofrecen una comprensión valiosa del comportamiento crítico de los LRMs, sugiriendo una dirección prometedora para controlar y mejorar su mecanismo de autoverificación. Nuestro código está disponible en: https://github.com/mail-research/lrm-critique-vectors.
La detección de anomalías en registros es una tarea crítica para la operación de sistemas y la garantía de seguridad. Sin embargo, en sistemas en red a gran escala, los datos de registro se generan masivamente, mientras que las anotaciones a nivel de instancia son prohibitivamente costosas, lo que plantea grandes dificultades para la localización detallada de anomalías. Para abordar este desafío, proponemos LogMILP (Localización de anomalías en registros basada en Aprendizaje Multi-Instancia mejorado con prototipos y Perturbación), un marco de aprendizaje débilmente supervisado que permite tanto la detección de anomalías a nivel de conjunto como la localización de anomalías a nivel de instancia utilizando solo etiquetas a nivel de conjunto. Nuestro método guía al modelo para identificar las entradas de registro críticas mediante un modelado estructural guiado por prototipos con regularización de consistencia de perturbación contrafactual, mejorando así la fiabilidad e interpretabilidad de la localización bajo supervisión de grano grueso. Los resultados experimentales en tres conjuntos de datos públicos demuestran que LogMILP logra un rendimiento competitivo en detección, al tiempo que proporciona una localización a nivel de instancia significativamente más fiable. Nuestro código está disponible como código abierto en https://github.com/YUK1207/LogMILP.