Artículos de investigación en IA seleccionados diariamente con traducciones
Las incrustaciones de memoria son cruciales para sistemas aumentados con memoria, como OpenClaw, pero su evaluación está poco explorada en los puntos de referencia actuales de incrustación de texto, los cuales se centran de manera limitada en la recuperación tradicional de pasajes y no logran evaluar la capacidad de los modelos para manejar tareas de recuperación de memoria de largo horizonte que involucran información fragmentada, dependiente del contexto y temporalmente distante. Para abordar esto, presentamos el Punto de Referencia de Incrustación de Memoria de Largo Horizonte (LMEB), un marco integral que evalúa las capacidades de los modelos de incrustación para manejar tareas complejas de recuperación de memoria de largo horizonte. LMEB abarca 22 conjuntos de datos y 193 tareas de recuperación zero-shot en 4 tipos de memoria: episódica, de diálogo, semántica y procedural, con datos tanto generados por IA como anotados por humanos. Estos tipos de memoria difieren en términos de nivel de abstracción y dependencia temporal, capturando aspectos distintos de la recuperación de memoria que reflejan los diversos desafíos del mundo real. Evaluamos 15 modelos de incrustación ampliamente utilizados, que van desde cientos de millones hasta diez mil millones de parámetros. Los resultados revelan que (1) LMEB proporciona un nivel razonable de dificultad; (2) Los modelos más grandes no siempre funcionan mejor; (3) LMEB y MTEB exhiben ortogonalidad. Esto sugiere que el campo aún tiene que converger en un modelo universal capaz de sobresalir en todas las tareas de recuperación de memoria, y que el rendimiento en la recuperación tradicional de pasajes puede no generalizarse a la recuperación de memoria de largo horizonte. En resumen, al proporcionar un marco de evaluación estandarizado y reproducible, LMEB llena un vacío crucial en la evaluación de incrustaciones de memoria, impulsando avances adicionales en la incrustación de texto para manejar la recuperación de memoria a largo plazo y dependiente del contexto. LMEB está disponible en https://github.com/KaLM-Embedding/LMEB.
El seguimiento de entidades visuales es una capacidad cognitiva innata en los humanos, pero sigue siendo un cuello de botella crítico para los Modelos de Lenguaje y Visión (VLMs). Este déficit a menudo queda oculto en los benchmarks de video existentes debido a atajos visuales. Presentamos VET-Bench, un banco de pruebas de diagnóstico sintético que presenta objetos visualmente idénticos, lo que hace necesario el seguimiento exclusivamente a través de la continuidad espacio-temporal. Nuestros experimentos revelan que los VLMs actuales de última generación rinden en o cerca del nivel de azar en VET-Bench, exponiendo una limitación fundamental: una dependencia excesiva en características estáticas a nivel de fotograma y una incapacidad para mantener representaciones de entidades a lo largo del tiempo. Proporcionamos un análisis teórico que establece conexiones con el problema del seguimiento de estados, demostrando que los VLMs basados en transformadores de profundidad fija están fundamentalmente limitados para seguir objetos indistinguibles sin supervisión intermedia debido a restricciones de expresividad. Para abordar esto, proponemos la Cadena de Pensamiento Anclada Espacio-Temporal (SGCoT): generar trayectorias de objetos como estados intermedios explícitos. Aprovechando la capacidad de seguimiento de objetos de Molmo2, provocamos el razonamiento SGCoT mediante el ajuste fino en datos sintetizados de solo texto para lograr alineación. Nuestro método alcanza una precisión de última generación superior al 90% en VET-Bench, demostrando que los VLMs pueden resolver de manera confiable y de extremo a extremo la tarea del juego de las conchas en video sin herramientas externas. Nuestro código y datos están disponibles en https://vetbench.github.io.
Presentamos MOCR (OCR multimodal), un paradigma de análisis de documentos que analiza conjuntamente texto y elementos gráficos para convertirlos en representaciones textuales unificadas. A diferencia de los sistemas OCR convencionales que se centran en el reconocimiento de texto y dejan las regiones gráficas como píxeles recortados, nuestro método, denominado dots.mocr, trata elementos visuales como gráficos, diagramas, tablas e iconos como objetivos de análisis de primera clase, permitiendo que los sistemas analicen documentos preservando las relaciones semánticas entre elementos. Ofrece varias ventajas: (1) reconstruye tanto el texto como los gráficos como salidas estructuradas, permitiendo una reconstrucción de documentos más fiel; (2) soporta el entrenamiento end-to-end sobre elementos documentales heterogéneos, permitiendo que los modelos exploten las relaciones semánticas entre componentes textuales y visuales; y (3) convierte gráficos previamente descartados en supervisión a nivel de código reutilizable, desbloqueando la supervisión multimodal incrustada en documentos existentes. Para hacer este paradigma práctico a gran escala, construimos un motor de datos integral a partir de PDFs, páginas web renderizadas y recursos SVG nativos, y entrenamos un modelo compacto de 3B de parámetros mediante preentrenamiento escalonado y ajuste fino supervisado. Evaluamos dots.mocr desde dos perspectivas: análisis de documentos y análisis de gráficos estructurados. En los puntos de referencia de análisis de documentos, ocupa el segundo lugar después de Gemini 3 Pro en nuestro ranking Elo de OCR Arena, supera a los sistemas de análisis de documentos open-source existentes y establece un nuevo estado del arte de 83.9 en olmOCR Bench. En el análisis de gráficos estructurados, dots.mocr logra una mayor calidad de reconstrucción que Gemini 3 Pro en benchmarks de imagen-a-SVG, demostrando un rendimiento sólido en gráficos, diseños de interfaz de usuario, figuras científicas y diagramas químicos. Estos resultados muestran un camino escalable hacia la construcción de corpus a gran escala de imagen-a-código para preentrenamiento multimodal. El código y los modelos están disponibles públicamente en https://github.com/rednote-hilab/dots.mocr.
Un tema reciente de vanguardia en el modelado multimodal es la unificación de la comprensión y generación visual dentro de un único modelo. Sin embargo, ambas tareas requieren regímenes de decodificación y representaciones visuales incompatibles, lo que dificulta la optimización conjunta en un espacio de características compartido. En este trabajo, presentamos Cheers, un modelo multimodal unificado que desacopla los detalles a nivel de parche de las representaciones semánticas, estabilizando así las semánticas para la comprensión multimodal y mejorando la fidelidad en la generación de imágenes mediante residuos de detalles con compuerta. Cheers incluye tres componentes clave: (i) un tokenizador visual unificado que codifica y comprime los estados latentes de la imagen en tokens semánticos para un condicionamiento eficiente del LLM, (ii) un Transformer basado en LLM que unifica la decodificación autoregresiva para la generación de texto y la decodificación por difusión para la generación de imágenes, y (iii) una cabeza en cascada de emparejamiento de flujos que primero decodifica las semánticas visuales y luego inyecta residuos de detalles con compuerta semántica procedentes del tokenizador visual para refinar el contenido de alta frecuencia. Los experimentos en benchmarks populares demuestran que Cheers iguala o supera a los UMMs avanzados tanto en comprensión como en generación visual. Cheers también logra una compresión de tokens 4 veces mayor, permitiendo una codificación y generación de imágenes de alta resolución más eficiente. Cabe destacar que Cheers supera al Tar-1.5B en los benchmarks populares GenEval y MMBench, requiriendo solo el 20% del coste de entrenamiento, lo que indica un modelado multimodal unificado efectivo y eficiente (es decir, con compresión de tokens 4x). Liberaremos todo el código y datos para futuras investigaciones.
Los modelos de difusión audio-visuales conjuntos recientes logran una calidad de generación notable, pero adolecen de una alta latencia debido a sus dependencias de atención bidireccional, lo que dificulta las aplicaciones en tiempo real. Proponemos OmniForcing, el primer marco que distila un modelo de difusión bidireccional de doble flujo, offline, en un generador autoregresivo de streaming de alta fidelidad. Sin embargo, aplicar ingenuamente la destilación causal a tales arquitecturas de doble flujo desencadena una grave inestabilidad en el entrenamiento, debido a la extrema asimetría temporal entre modalidades y la consiguiente esparcidad de tokens. Abordamos la brecha inherente en la densidad de información introduciendo una Alineación Causal en Bloques Asimétrica con un Prefijo Global de truncamiento a cero que previene el desfase en la sincronización multimodal. La explosión de gradientes causada por la extrema esparcidad de tokens de audio durante el cambio causal se resuelve además mediante un mecanismo de Token Sumidero de Audio equipado con una restricción RoPE de Identidad. Finalmente, un paradigma de Destilación Conjunta de Auto-Forzado permite que el modelo se autocorrija dinámicamente los errores multimodales acumulados por el sesgo de exposición durante las generaciones largas. Potenciado por un esquema de inferencia con caché KV rodante independiente de la modalidad, OmniForcing logra una generación en streaming de última generación a aproximadamente 25 FPS en una sola GPU, manteniendo la sincronización multimodal y la calidad visual a la par con el modelo bidireccional maestro.Página del proyecto: https://omniforcing.com{https://omniforcing.com}
Los Modelos de Lenguaje Grandes para Video en Línea (VideoLLMs) desempeñan un papel crucial en el soporte de interacciones receptivas y en tiempo real. Los métodos existentes se centran en la percepción de flujo continuo, careciendo de una corriente de razonamiento lógico sincronizada. Sin embargo, la aplicación directa de métodos de escalado en tiempo de prueba incurre en una latencia de respuesta inaceptable. Para abordar esta disyuntiva, proponemos Video Streaming Thinking (VST), un paradigma novedoso para la comprensión de video en flujo continuo. Este soporta un mecanismo de "pensar mientras se ve", que activa el razonamiento sobre fragmentos de video entrantes durante la transmisión. Este diseño mejora la comprensión oportuna y la cognición coherente, preservando al mismo tiempo la capacidad de respuesta en tiempo real al amortiguar la latencia del razonamiento del LLM durante la reproducción del video. Además, introducimos una pipeline integral de post-entrenamiento que integra VST-SFT, que adapta estructuralmente el VideoLLM offline al razonamiento causal en flujo continuo, y VST-RL, que proporciona una mejora de extremo a extremo mediante auto-exploración en un entorno de interacción de video multi-turno. Adicionalmente, diseñamos una pipeline automatizada de síntesis de datos de entrenamiento que utiliza grafos de conocimiento de video para generar pares de preguntas y respuestas (QA) de flujo continuo de alta calidad, con una Cadena de Pensamiento (Chain-of-Thought) anclada en entidades y relaciones para reforzar el razonamiento multi-evidencial y la atención sostenida al flujo de video. Evaluaciones exhaustivas muestran que VST-7B tiene un rendimiento sólido en benchmarks en línea, por ejemplo, 79.5% en StreamingBench y 59.3% en OVO-Bench. Simultáneamente, VST se mantiene competitivo en benchmarks offline de formato largo o de razonamiento. En comparación con Video-R1, VST responde 15.7 veces más rápido y logra una mejora del +5.4% en VideoHolmes, demostrando una mayor eficiencia y una fuerte generalización en diversas tareas de comprensión de video. El código, los datos y los modelos se publicarán en https://github.com/1ranGuan/VST.
El entrenamiento de agentes competentes en ingeniería de software (SWE) requiere entornos ejecutables y verificables a gran escala que proporcionen ciclos de retroalimentación dinámicos para la edición iterativa de código, la ejecución de pruebas y el refinamiento de soluciones. Sin embargo, los conjuntos de datos de código abierto existentes siguen siendo limitados en escala y diversidad de repositorios, mientras que las soluciones industriales son opacas, con infraestructura no publicada, lo que crea una barrera prohibitiva para la mayoría de los grupos de investigación académica. Presentamos OpenSWE, el marco completamente transparente más grande para el entrenamiento de agentes SWE en Python, que comprende 45.320 entornos Docker ejecutables que abarcan más de 12.8k repositorios, con todos los Dockerfiles, scripts de evaluación e infraestructura completamente de código abierto para garantizar la reproducibilidad. OpenSWE se construye mediante una canalización de síntesis multiagente desplegada en un clúster distribuido de 64 nodos, automatizando la exploración de repositorios, la construcción de Dockerfiles, la generación de scripts de evaluación y el análisis iterativo de pruebas. Más allá de la escala, proponemos una canalización de filtrado centrada en la calidad que caracteriza la dificultad inherente de cada entorno, filtrando las instancias que son irresolubles o insuficientemente desafiantes y conservando solo aquellas que maximizan la eficiencia del aprendizaje. Con un gasto de 891K en la construcción de entornos y 576K adicionales en el muestreo de trayectorias y la curación consciente de la dificultad, todo el proyecto representa una inversión total de aproximadamente 1.47 millones de dólares, produciendo alrededor de 13,000 trayectorias curadas de aproximadamente 9,000 entornos con calidad garantizada. Experimentos exhaustivos validan la efectividad de OpenSWE: OpenSWE-32B y OpenSWE-72B alcanzan un 62.4% y un 66.0% en SWE-bench Verified, estableciendo el estado del arte (SOTA) entre la serie Qwen2.5. Además, el entrenamiento centrado en SWE produce mejoras sustanciales fuera de dominio, incluyendo hasta 12 puntos en razonamiento matemático y 5 puntos en benchmarks científicos, sin degradar el recuerdo factual.
Las tareas de visión-a-código requieren que los modelos reconstruyan entradas visuales estructuradas, como gráficos, tablas y SVG, en representaciones ejecutables o estructuradas con alta fidelidad visual. Si bien los modelos grandes de lenguaje y visión (LVLM) recientes obtienen resultados sólidos mediante ajuste fino supervisado, el aprendizaje por refuerzo sigue siendo un desafío debido a señales de recompensa desalineadas. Las recompensas existentes se basan en reglas textuales o en similitudes de incrustaciones visuales gruesas, y ambos enfoques fallan en capturar discrepancias visuales de grano fino y son vulnerables a la manipulación de recompensas. Proponemos Visual-ERM (Modelo de Recompensa por Equivalencia Visual), un modelo generativo multimodal de recompensa que proporciona retroalimentación de grano fino, interpretable y agnóstica a la tarea para evaluar la calidad visión-a-código directamente en el espacio visual renderizado. Integrado en el aprendizaje por refuerzo, Visual-ERM mejora Qwen3-VL-8B-Instruct en +8.4 en la tarea de gráfico-a-código y produce ganancias consistentes en el análisis de tablas y SVG (+2.7, +4.1 en promedio), y además fortalece la escalabilidad en tiempo de prueba mediante reflexión y revisión. También presentamos VC-RewardBench (VisualCritic-RewardBench), un punto de referencia para juzgar discrepancias de grano fino entre imágenes en datos visuales estructurados, donde Visual-ERM de 8B supera decisivamente a Qwen3-VL-235B-Instruct y se acerca a los modelos propietarios líderes. Nuestros resultados sugieren que la supervisión de recompensas visuales de grano fino es necesaria y suficiente para el aprendizaje por refuerzo en visión-a-código, independientemente de la especificidad de la tarea.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se utilizan cada vez más para ejecutar flujos de trabajo visuales, como la navegación por interfaces gráficas de usuario (GUI), donde el siguiente paso depende de condiciones composicionales visuales verificadas (por ejemplo, "si aparece un diálogo de permisos y el color de la interfaz es verde, haz clic en Permitir") y el proceso puede ramificarse o terminar anticipadamente. Sin embargo, esta capacidad sigue estando infraevaluada: los puntos de referencia existentes se centran en composiciones superficiales o restricciones independientes, en lugar de condicionales composicionales profundamente encadenados. En este artículo, presentamos MM-CondChain, un punto de referencia para el razonamiento composicional profundo con base visual. Cada instancia del benchmark está organizada como una cadena de razonamiento multicapa, donde cada capa contiene una condición composicional no trivial basada en evidencia visual y construida a partir de múltiples objetos, atributos o relaciones. Para responder correctamente, un MLLM debe percibir la imagen en detalle, razonar sobre múltiples elementos visuales en cada paso y seguir la ruta de ejecución resultante hasta el resultado final. Para construir de manera escalable estos datos de estilo flujo de trabajo, proponemos una canalización de síntesis agentiva: un Planificador orquesta la generación capa por capa de condiciones composicionales, mientras que una Representación Intermedia Programática Verificable (VPIR) garantiza que la condición de cada capa sea mecánicamente verificable. Un Compositor luego ensambla estas capas verificadas en instrucciones completas. Utilizando esta canalización, construimos puntos de referencia en tres dominios visuales: imágenes naturales, gráficos de datos y trayectorias de GUI. Los experimentos con una variedad de MLLMs muestran que incluso el modelo más potente alcanza solo un 53.33 de F1 en la Ruta, con caídas pronunciadas en negativos difíciles y a medida que aumenta la profundidad o la complejidad de los predicados, lo que confirma que el razonamiento composicional profundo sigue siendo un desafío fundamental.
La escalada en tiempo de prueba se ha convertido en un paradigma dominante para mejorar la fiabilidad de los agentes de LLM, sin embargo, los enfoques actuales tratan el cómputo como un recurso abundante, permitiendo que los agentes agoten los presupuestos de tokens y herramientas en pasos redundantes o trayectorias sin salida. Los métodos existentes conscientes del presupuesto requieren un ajuste fino costoso o se basan en heurísticas burdas a nivel de trayectoria que no pueden intervenir a mitad de la ejecución. Proponemos el Árbol de Valor Consciente del Presupuesto (BAVT), un marco en tiempo de inferencia libre de entrenamiento que modela el razonamiento multi-salto como un árbol de búsqueda dinámico guiado por una estimación de valor a nivel de paso dentro de una única arquitectura base de LLM. Otra innovación clave es un mecanismo de selección de nodos condicionado por el presupuesto que utiliza la proporción de recursos restantes como un exponente de escalado natural sobre los valores de los nodos, proporcionando una transición fundamentada y sin parámetros desde una exploración amplia hacia una explotación voraz a medida que el presupuesto se agota. Para combatir la bien conocida sobreconfianza de la autoevaluación de los LLM, BAVT emplea un predictor de valor residual que puntúa el progreso relativo en lugar de la calidad absoluta del estado, permitiendo una poda fiable de llamadas a herramientas no informativas o redundantes. Además, proporcionamos una garantía teórica de convergencia, demostrando que BAVT alcanza una respuesta terminal con una probabilidad de al menos 1-ε bajo un límite de presupuesto finito explícito. Evaluaciones exhaustivas en cuatro benchmarks de preguntas y respuestas multi-salto en dos familias de modelos demuestran que BAVT supera consistentemente a las líneas base de muestreo paralelo. Más notablemente, BAVT bajo estrictas restricciones de bajo presupuesto supera el rendimiento de la línea base con una asignación de recursos 4 veces mayor, estableciendo que la gestión inteligente del presupuesto supera fundamentalmente al escalado de cómputo por fuerza bruta.
La creciente adopción de modelos de lenguaje extenso (LLM) ha permitido a los científicos de IA realizar tareas complejas de descubrimiento científico de extremo a extremo que requieren la coordinación de roles especializados, incluyendo la generación de ideas y la ejecución experimental. Sin embargo, la mayoría de los sistemas de científicos de IA de vanguardia dependen de flujos de trabajo estáticos y diseñados manualmente, y no logran adaptarse basándose en historiales de interacción acumulados. Como resultado, estos sistemas pasan por alto direcciones de investigación prometedoras, repiten experimentos fallidos y persiguen ideas inviables. Para abordar esto, presentamos EvoScientist, un marco evolutivo de científico de IA multiagente que mejora continuamente las estrategias de investigación a través de memoria persistente y auto-evolución. EvoScientist comprende tres agentes especializados: un Agente Investigador (RA) para la generación de ideas científicas, un Agente Ingeniero (EA) para la implementación y ejecución de experimentos, y un Agente Gestor de Evolución (EMA) que destila conocimientos de interacciones previas en conocimiento reutilizable. EvoScientist contiene dos módulos de memoria persistente: (i) una memoria de ideación, que resume direcciones de investigación viables a partir de ideas mejor clasificadas mientras registra direcciones previamente fallidas; y (ii) una memoria de experimentación, que captura estrategias efectivas de procesamiento de datos y entrenamiento de modelos derivadas de trayectorias de búsqueda de código e implementaciones de mejor rendimiento. Estos módulos permiten al RA y al EA recuperar estrategias previas relevantes, mejorando la calidad de las ideas y las tasas de éxito en la ejecución de código con el tiempo. Los experimentos muestran que EvoScientist supera a 7 sistemas de código abierto y comerciales de vanguardia en generación de ideas científicas, logrando mayor novedad, viabilidad, relevancia y claridad mediante evaluación automática y humana. EvoScientist también mejora sustancialmente las tasas de éxito en la ejecución de código a través de la evolución multiagente, demostrando la efectividad de la memoria persistente para el descubrimiento científico de extremo a extremo.
La Optimización de Políticas Relativas a Grupos (GRPO) ha surgido como un marco poderoso para la alineación de preferencias en modelos de flujo texto-imagen (T2I). Sin embargo, observamos que el paradigma estándar, que evalúa un grupo de muestras generadas frente a una única condición, adolece de una exploración insuficiente de las relaciones entre muestras, lo que limita tanto la eficacia de la alineación como los límites de rendimiento. Para abordar este esquema de evaluación escaso y de vista única, proponemos GRPO Multi-Vista (MV-GRPO), un enfoque novedoso que mejora la exploración de relaciones mediante la ampliación del espacio de condiciones para crear un mapeo de recompensas denso y multi-vista. Específicamente, para un grupo de muestras generadas a partir de un *prompt*, MV-GRPO aprovecha un Mejorador de Condiciones flexible para generar descripciones semánticamente adyacentes pero diversas. Estas descripciones permiten una reestimación multi-vista de la ventaja, capturando diversos atributos semánticos y proporcionando señales de optimización más ricas. Al derivar la distribución de probabilidad de las muestras originales condicionadas a estas nuevas descripciones, podemos incorporarlas al proceso de entrenamiento sin el costoso proceso de regeneración de muestras. Experimentos exhaustivos demuestran que MV-GRPO logra un rendimiento de alineación superior al de los métodos más avanzados.
Los modelos generativos de video a gran escala se entrenan con datos visuales vastos y diversos, lo que les permite internalizar ricos conocimientos previos estructurales, semánticos y dinámicos del mundo visual. Si bien estos modelos han demostrado una capacidad generativa impresionante, su potencial como aprendices visuales de propósito general permanece en gran medida sin explotar. En este trabajo, presentamos V-Bridge, un marco que conecta esta capacidad latente con diversas tareas de restauración de imágenes con pocos ejemplos. Reinterpretamos la restauración de imágenes no como un problema de regresión estática, sino como un proceso generativo progresivo, y aprovechamos los modelos de video para simular el refinamiento gradual desde entradas degradadas hasta salidas de alta fidelidad. Sorprendentemente, con solo 1,000 muestras de entrenamiento multitarea (menos del 2% de los métodos de restauración existentes), se puede inducir a modelos de video preentrenados a realizar una restauración de imágenes competitiva, logrando múltiples tareas con un solo modelo que rivaliza con arquitecturas especializadas diseñadas explícitamente para este propósito. Nuestros hallazgos revelan que los modelos generativos de video aprenden implícitamente potentes conocimientos previos de restauración transferibles que pueden activarse con datos extremadamente limitados, desafiando el límite tradicional entre el modelado generativo y la visión de bajo nivel, y abriendo un nuevo paradigma de diseño para modelos base en tareas visuales.
La rápida evolución de los agentes corporizados ha acelerado el despliegue de robots domésticos en entornos del mundo real. Sin embargo, a diferencia de los entornos industriales estructurados, los espacios domésticos introducen riesgos de seguridad impredecibles, donde limitaciones del sistema como la latencia perceptiva y la falta de conocimiento de sentido común pueden conducir a errores peligrosos. Las evaluaciones de seguridad actuales, a menudo restringidas a imágenes estáticas, texto o peligros generales, no logran evaluar adecuadamente la detección dinámica de acciones inseguras en estos contextos específicos. Para cerrar esta brecha, presentamos HomeSafe-Bench, un punto de referencia desafiante diseñado para evaluar Modelos de Lenguaje-Visión (VLMs) en la detección de acciones inseguras en escenarios domésticos. HomeSafe-Bench está construido mediante un pipeline híbrido que combina simulación física con generación avanzada de vídeo y presenta 438 casos diversos en seis áreas funcionales con anotaciones multidimensionales de grano fino. Más allá de la evaluación comparativa, proponemos HD-Guard (Hierarchical Dual-Brain Guard for Household Safety), una arquitectura de streaming jerárquica para el monitoreo de seguridad en tiempo real. HD-Guard coordina un "Cerebro Rápido" (FastBrain) ligero para un cribado continuo de alta frecuencia con un "Cerebro Lento" (SlowBrain) de gran escala asíncrono para el razonamiento multimodal profundo, equilibrando eficazmente la eficiencia de inferencia con la precisión de detección. Las evaluaciones demuestran que HD-Guard logra una relación superior entre latencia y rendimiento, mientras que nuestro análisis identifica cuellos de botella críticos en la detección de seguridad actual basada en VLMs.
Los modelos de difusión han demostrado una capacidad notable en aplicaciones de generación de texto a imagen (T2I). A pesar de sus resultados avanzados, presentan una sobrecarga computacional significativa, especialmente en modelos grandes que contienen decenas de miles de millones de parámetros. Trabajos previos han demostrado que reemplazar parte de los pasos de eliminación de ruido con un modelo más pequeño mantiene la calidad de generación. Sin embargo, estos métodos solo se centran en ahorrar computación en algunos intervalos de tiempo, ignorando la diferencia en la demanda computacional dentro de un mismo intervalo. En este trabajo, proponemos HybridStitch, un nuevo paradigma de generación T2I que trata la generación como una edición. Específicamente, introducimos una etapa híbrida que incorpora conjuntamente tanto el modelo grande como el pequeño. HybridStitch separa la imagen completa en dos regiones: una relativamente fácil de renderizar, permitiendo una transición temprana al modelo pequeño, y otra más compleja que requiere refinamiento por el modelo grande. HybridStitch emplea el modelo pequeño para construir un boceto tosco mientras aprovecha el modelo grande para editar y refinar las regiones complejas. Según nuestra evaluación, HybridStitch logra una aceleración de 1.83 veces en Stable Diffusion 3, superando a todos los métodos existentes de mezcla de modelos.
Los modelos de lenguaje multimodal (MLLM) han demostrado un gran rendimiento en la comprensión de vídeos offline, pero la mayoría se limitan a la inferencia offline o tienen un razonamiento online débil, lo que dificulta la interacción multiturno sobre flujos de vídeo que llegan continuamente. Los métodos de streaming existentes suelen utilizar un paradigma de percepción-generación intercalado, lo que impide la percepción y generación concurrentes y provoca una degradación temprana de la memoria a medida que crecen los flujos, perjudicando el modelado de dependencias de largo alcance. Proponemos Think While Watching, un marco de razonamiento de vídeo en streaming anclado en memoria que preserva una memoria continua a nivel de segmento durante la interacción multiturno. Construimos un conjunto de datos de cadena de pensamiento multironda de tres etapas y adoptamos una estrategia de entrenamiento adaptada por etapas, mientras aplicamos una causalidad estricta mediante una máscara causal de streaming a nivel de segmento y una codificación posicional de streaming. Durante la inferencia, introducimos una canalización eficiente que superpone la observación y el pensamiento y selecciona de forma adaptativa el mejor backend de atención. Bajo protocolos de entrada en streaming tanto de ronda única como multironda, nuestro método logra resultados sólidos. Basado en Qwen3-VL, mejora la precisión de ronda única en un 2.6% en StreamingBench y en un 3.79% en OVO-Bench. En el entorno multironda, mantiene el rendimiento mientras reduce los tokens de salida en un 56%. El código está disponible en: https://github.com/wl666hhh/Think_While_Watching/
A pesar de los rápidos avances en los modelos de generación de vídeo, alinear sus resultados con la intención compleja del usuario sigue siendo un desafío. Los métodos de optimización en tiempo de prueba existentes suelen ser computacionalmente costosos o requieren acceso de caja blanca a los componentes internos del modelo. Para abordar este problema, presentamos VQQA (Video Quality Question Answering), un marco unificado y multiagente generalizable en diversas modalidades de entrada y tareas de generación de vídeo. Al generar dinámicamente preguntas visuales y utilizar las críticas resultantes de un Modelo de Visión y Lenguaje (VLM) como gradientes semánticos, VQQA reemplaza las métricas de evaluación pasivas tradicionales con comentarios procesables e interpretables para humanos. Esto permite un proceso de optimización de prompts de ciclo cerrado altamente eficiente mediante una interfaz de lenguaje natural de caja negra. Experimentos exhaustivos demuestran que VQQA aísla y resuelve eficazmente los artefactos visuales, mejorando sustancialmente la calidad de la generación en solo unos pocos pasos de refinamiento. Aplicable tanto a tareas de texto a vídeo (T2V) como de imagen a vídeo (I2V), nuestro método logra mejoras absolutas de +11,57 % en T2V-CompBench y +8,43 % en VBench2 sobre la generación básica, superando significativamente a las técnicas de optimización de prompts y búsqueda estocástica de vanguardia.
Los grandes modelos de lenguaje (LLM) basados en transformadores dependen del almacenamiento en caché de claves-valores (KV) para evitar cálculos redundantes durante la inferencia autoregresiva. Si bien este mecanismo mejora considerablemente la eficiencia, el tamaño de la caché crece linealmente con la longitud de la secuencia de entrada, convirtiéndose rápidamente en un cuello de botella para tareas de contexto largo. Las soluciones existentes mitigan este problema eliminando los KV del *prompt* que se consideran poco importantes, guiadas por puntuaciones de importancia estimadas. Cabe destacar que una línea de trabajo reciente propone mejorar la calidad de la eliminación "echando un vistazo al futuro", mediante la cual un generador de borradores produce una respuesta futura sustituta que aproxima la respuesta real del modelo objetivo, y esta sustituta se utiliza posteriormente para estimar la importancia de los KV en caché con mayor precisión. Sin embargo, estos enfoques dependen de una generación de borradores computacionalmente costosa, lo que introduce una sobrecarga sustancial de prefiltrado y limita su practicidad en implementaciones del mundo real. Para abordar este desafío, proponemos LookaheadKV, un marco de trabajo de eliminación ligero que aprovecha la fortaleza de la respuesta futura sustituta sin requerir una generación explícita de borradores. LookaheadKV aumenta las capas del transformador con módulos eficientes en parámetros entrenados para predecir las puntuaciones de importancia reales con alta precisión. Nuestro diseño garantiza una sobrecarga de tiempo de ejecución insignificante, comparable a las heurísticas económicas existentes, mientras logra una precisión superior a los métodos de aproximación más costosos. Extensos experimentos en puntos de referencia de comprensión de contexto largo, en una amplia gama de modelos, demuestran que nuestro método no solo supera a líneas base competitivas recientes en diversas tareas de comprensión de contexto largo, sino que también reduce el costo de eliminación hasta en 14.5x, lo que conduce a un tiempo hasta el primer token significativamente más rápido. Nuestro código está disponible en https://github.com/SamsungLabs/LookaheadKV.
La saturación de datos de preentrenamiento de alta calidad ha desplazado el enfoque investigativo hacia sistemas evolutivos capaces de generar artefactos novedosos de forma continua, lo que ha conducido al éxito de AlphaEvolve. Sin embargo, el progreso de dichos sistemas se ve obstaculizado por la falta de una evaluación rigurosa y cuantitativa. Para abordar este desafío, presentamos CreativeBench, un benchmark para evaluar la creatividad de las máquinas en la generación de código, fundamentado en un marco cognitivo clásico. Compuesto por dos subconjuntos —CreativeBench-Combo y CreativeBench-Explore—, el benchmark se centra en la creatividad combinatoria y exploratoria mediante una canalización automatizada que utiliza ingeniería inversa y autojuego. Al aprovechar código ejecutable, CreativeBench distingue objetivamente la creatividad de la alucinación mediante una métrica unificada definida como el producto de la calidad y la novedad. Nuestro análisis de los modelos más avanzados revela comportamientos distintos: (1) el escalado mejora significativamente la creatividad combinatoria pero produce rendimientos decrecientes en la exploración; (2) los modelos más grandes exhiben una "convergencia por escalado", volviéndose más correctos pero menos divergentes; y (3) las capacidades de razonamiento benefician principalmente la exploración restringida más que la combinación. Finalmente, proponemos EvoRePE, una estrategia de direccionamiento en tiempo de inferencia plug-and-play que internaliza patrones de búsqueda evolutiva para mejorar consistentemente la creatividad de las máquinas.
Los agentes corporizados en mundos abiertos deben resolver tareas de largo horizonte donde el cuello de botella principal no es la calidad de la planificación paso a paso, sino cómo se organiza y evoluciona la experiencia de interacción. Para ello, presentamos Steve-Evolving, un marco auto-evolutivo no paramétrico que acopla estrechamente el diagnóstico de ejecución granular con la destilación dual de conocimiento en un bucle cerrado. El método sigue tres fases: Anclaje de Experiencia, Destilación de Experiencia y Control de Bucle Cerrado Impulsado por Conocimiento. En detalle, el Anclaje de Experiencia solidifica cada intento de subobjetivo en una tupla de experiencia estructurada con un esquema fijo (pre-estado, acción, diagnóstico-resultado y post-estado) y lo organiza en un espacio de experiencia de tres niveles con índices multidimensionales (por ejemplo, firmas de condición, hashing espacial y etiquetas semánticas) más una sumarización continua para una recuperación eficiente y auditable. Para garantizar una densidad de información suficiente para la atribución, la capa de ejecución proporciona señales de diagnóstico composicionales más allá de los resultados binarios, incluyendo resúmenes de diferencias de estado, causas de fallo enumeradas, indicadores continuos y detección de estancamiento/bucles. Además, las trayectorias exitosas de la Destilación de Experiencia se generalizan en habilidades reutilizables con precondiciones explícitas y criterios de verificación, mientras que los fallos se destilan en barreras de protección ejecutables que capturan causas raíz y prohíben operaciones riesgosas tanto a nivel de subobjetivo como de tarea. Por otro lado, en el Control de Bucle Cerrado Impulsado por Conocimiento, las habilidades y barreras recuperadas se inyectan en un planificador LLM, y la replanificación local activada por diagnóstico actualiza en línea las restricciones activas, formando un proceso de evolución continua sin actualizaciones de parámetros del modelo. Los experimentos en la suite de largo horizonte de Minecraft MCU demuestran mejoras consistentes respecto a líneas base de recuperación estática.
Los Vectores de Atención Dispersos (SAV, por sus siglas en inglés) han surgido como una excelente alternativa libre de entrenamiento al ajuste fino supervisado o a la adaptación de bajo rango para mejorar el rendimiento de los Modelos de Lenguaje y Visión (VLMs). En esencia, los SAV seleccionan unas pocas cabezas de atención precisas para una tarea de interés y las utilizan como clasificadores, en lugar de depender de la predicción del modelo. En un espíritu similar, descubrimos que sondear directamente las activaciones brutas del VLM, en forma de valores escalares, es suficiente para producir clasificadores precisos en diversas tareas posteriores con base visual. Cambiar el enfoque de los vectores de atención a las activaciones escalares aumenta drásticamente el espacio de búsqueda de parámetros precisos, permitiéndonos encontrar neuronas más discriminativas inmediatamente a partir del primer token generado. Llamamos a estas activaciones Superneuronas (SNs). En este entorno de sondeo, descubrimos que aparecen suficientes SNs en las capas más superficiales del modelo de lenguaje grande como para permitir una salida extremadamente temprana desde la primera capa del modelo en el primer token generado. En comparación con la red original, las SNs mejoran robustamente el rendimiento de clasificación mientras logran una aceleración de hasta 5.10x.
Los recuperadores basados en Modelos de Visión y Lenguaje (VLM) han llevado la recuperación visual de documentos (VDR) a una calidad impresionante. Estos sistemas requieren el mismo codificador de miles de millones de parámetros tanto para la indexación de documentos como para la codificación de consultas, lo que genera una alta latencia y dependencia de GPU, incluso para consultas de texto plano. Observamos que este diseño es innecesariamente simétrico: los documentos son visualmente complejos y exigen una fuerte comprensión visual, mientras que las consultas son simplemente cadenas de texto cortas. NanoVDR explota esta asimetría consulta-documento desacoplando las dos rutas de codificación: un profesor VLM congelado de 2B indexa los documentos sin conexión, mientras que un estudiante de solo texto, destilado y con tan solo 69M de parámetros, codifica las consultas en la inferencia. La elección de diseño clave es el objetivo de destilación. Mediante una comparación sistemática de seis objetivos en tres arquitecturas base y 22 conjuntos de datos de referencia de ViDoRe, encontramos que la alineación coseno puntual en el texto de la consulta supera consistentemente a las alternativas basadas en ranking y contrastivas, mientras que requiere solo incrustaciones de consulta del profesor pre-cacheadas y ningún procesamiento de documentos durante el entrenamiento. Además, identificamos la transferencia transcultural como el principal cuello de botella de rendimiento, y lo resolvemos de manera económica aumentando los datos de entrenamiento con consultas traducidas automáticamente. El NanoVDR-S-Multi resultante (DistilBERT, 69M) retiene el 95.1% de la calidad del profesor y supera a DSE-Qwen2 (2B) en las versiones v2 y v3 con 32 veces menos parámetros y 50 veces menos latencia de consulta en CPU, con un coste total de entrenamiento inferior a 13 horas GPU.
La reconstrucción composicional de escenas busca crear representaciones centradas en objetos en lugar de escenas holísticas a partir de vídeos del mundo real, lo que es nativamente aplicable para simulación e interacción. Los enfoques convencionales de reconstrucción composicional se centran principalmente en la apariencia visual y muestran una capacidad de generalización limitada para escenarios del mundo real. En este artículo, proponemos SimRecon, un marco que materializa una canalización de "Percepción-Generación-Simulación" para la reconstrucción de escenarios complejos, que primero realiza una reconstrucción semántica a nivel de escena a partir de la entrada de vídeo, luego lleva a cabo la generación de objetos individuales y finalmente ensambla estos activos en el simulador. Sin embargo, combinar estas tres etapas de forma ingenua conduce a una infidelidad visual de los activos generados y a una falta de plausibilidad física de la escena final, un problema particularmente grave para escenas complejas. Por ello, proponemos además dos módulos de conexión entre las tres etapas para abordar este problema. Específicamente, para la transición de Percepción a Generación, crucial para la fidelidad visual, introducimos la Optimización Activa del Punto de Vista, que busca activamente en el espacio 3D para adquirir imágenes proyectadas óptimas como condiciones para el completado de objetos individuales. Además, para la transición de Generación a Simulación, esencial para la plausibilidad física, proponemos un Sintetizador de Grafos de Escena, que guía la construcción desde cero en simuladores 3D, reflejando el principio nativo y constructivo del mundo real. Experimentos exhaustivos en el conjunto de datos ScanNet validan el rendimiento superior de nuestro método frente a los enfoques previos más avanzados.
¿Por qué los modelos de lenguaje a veces prefieren enunciados correctos incluso cuando se entrenan con datos de calidad mixta? Introducimos el Principio de Compresión-Consistencia: la predicción del siguiente token favorece hipótesis que permiten descripciones más cortas e internamente consistentes de los datos de entrenamiento. El sesgo hacia la verdad emerge solo cuando las alternativas falsas son estructuralmente más difíciles de comprimir. Probamos esto utilizando pequeños transformadores a nivel de carácter estilo GPT-2 (3.5M–86M parámetros) en corpus matemáticos sintéticos con mezclas controladas de reglas correctas e incorrectas. En el escenario de error aleatorio, los modelos prefieren fuertemente las terminaciones correctas en evaluación pareada: 83.1% de precisión con datos balanceados y 67.0% incluso cuando las reglas correctas aparecen en solo el 10% del corpus. Reemplazar errores aleatorios con un sistema de reglas coherente pero matemáticamente incorrecto elimina en gran medida la preferencia (precisión cercana al azar). En un mundo sintético más similar al lenguaje natural, el efecto es más débil pero aún presente (57.7%). Experimentos adicionales muestran que la verificación de incrustaciones puede restaurar la preferencia por la corrección incluso a pequeña escala, mientras que aumentar el número de reglas consistentes produce una mejora gradual en la precisión. Nuestros resultados sugieren que lo que parece un "sesgo hacia la verdad" es en gran parte un efecto secundario de la presión de compresión y la preferencia por la consistencia interna, en lugar de una tendencia intrínseca hacia la verdad. El código completo y los datos están disponibles en https://github.com/Rai220/compression-drives-truth.
Los Modelos de Lenguaje Grandes (LLMs) pueden inferir atributos sensibles como el género o la edad a partir de indicios indirectos como nombres y pronombres, lo que potencialmente sesga las recomendaciones. Si bien existen varios métodos de eliminación de sesgos, estos requieren acceso a los pesos de los LLMs, son computacionalmente costosos y no pueden ser utilizados por usuarios no expertos. Para abordar esta brecha, investigamos los sesgos implícitos en los Recomendadores basados en LLMs (LLMRecs) y exploramos si las estrategias basadas en prompts pueden servir como un enfoque de eliminación de sesgos ligero y fácil de usar. Contribuimos con tres estrategias de prompting conscientes del sesgo para LLMRecs. Hasta donde sabemos, este es el primer estudio sobre enfoques de eliminación de sesgos basados en prompts en LLMRecs que se centra en la equidad grupal para los usuarios. Nuestros experimentos con 3 LLMs, 4 plantillas de prompts, 9 valores de atributos sensibles y 2 conjuntos de datos muestran que nuestro enfoque de eliminación de sesgos propuesto, que instruye a un LLM para que sea justo, puede mejorar la equidad hasta en un 74% manteniendo una eficacia comparable, pero podría sobrepromocionar grupos demográficos específicos en algunos casos.
Las anomalías en series temporales multivariantes a menudo se manifiestan como cambios en las dependencias entre canales, en lugar de simples desviaciones de amplitud. En la conducción autónoma, por ejemplo, un comando de dirección podría ser internamente coherente pero desacoplarse de la aceleración lateral resultante. Los detectores basados en residuos pueden pasar por alto tales anomalías cuando los modelos flexibles de secuencias aún reconstruyen las señales de manera plausible a pesar de la alteración en la coordinación. Presentamos AxonAD, un detector no supervisado que trata la evolución de las consultas de atención multi-cabeza como un proceso predecible a corto plazo. Una vía de reconstrucción actualizada por gradientes se combina con un predictor basado únicamente en el historial que pronostica vectores de consulta futuros a partir del contexto pasado. Esto se entrena mediante un objetivo de predictor enmascarado frente a un codificador objetivo de media móvil exponencial (EMA). En la inferencia, el error de reconstrucción se combina con una puntuación de discrepancia de consultas agregada en la cola, que mide la desviación del coseno entre las consultas pronosticadas y las objetivo en los intervalos de tiempo recientes. Este enfoque dual proporciona sensibilidad a los cambios estructurales en las dependencias, al tiempo que conserva la detección a nivel de amplitud. En telemetría vehicular propietaria con anotaciones de intervalo y en el conjunto multivariante TSB-AD (17 conjuntos de datos, 180 series) con métricas libres de umbral y conscientes del rango, AxonAD mejora la calidad de la clasificación y la localización temporal respecto a líneas base sólidas. Los estudios de ablación confirman que la predicción de consultas y la puntuación combinada son los principales impulsores de las mejoras observadas. El código está disponible en la URL https://github.com/iis-esslingen/AxonAD.
Los detectores de anomalías en series temporales suelen compararse en hardware de clase estación de trabajo bajo ejecución sin restricciones. Sin embargo, la monitorización en vehículo requiere una latencia predecible y un comportamiento estable con un paralelismo de CPU limitado. Por lo tanto, los rankings basados únicamente en la precisión pueden dar una imagen errónea de qué métodos siguen siendo viables bajo las restricciones relevantes para el despliegue. Presentamos ECoLAD (Efficiency Compute Ladder for Anomaly Detection), un protocolo de evaluación orientado al despliegue instanciado como un estudio empírico sobre telemetría automotriz propietaria (tasa de anomalías ≈0,022) y benchmarks públicos complementarios. ECoLAD aplica una escalera monótona de reducción de cómputo en familias de detectores heterogéneas utilizando reglas de escalado determinadas mecánicamente, que emplean solo números enteros, y límites explícitos de hilos de CPU, registrando cada cambio de configuración aplicado. El comportamiento bajo restricciones de rendimiento se caracteriza barriendo tasas objetivo de puntuación y reportando (i) la cobertura (la fracción de entidades que cumplen el objetivo) y (ii) el mejor AUC-PR alcanzable entre las configuraciones de la escalera medidas que satisfacen el objetivo. En la telemetría automotriz restringida, los detectores clásicos ligeros mantienen tanto la cobertura como la capacidad de detección por encima del baseline aleatorio en todo el barrido de rendimiento. Varios métodos profundos pierden viabilidad antes de perder precisión.
La reidentificación de buques (ReID) multimodal entre imágenes ópticas y de radar de apertura sintética (SAR) se enfrenta al desafío fundamental de la severa discrepancia radiométrica entre la imagen óptica pasiva y la percepción activa coherente del radar. Si bien los enfoques existentes se basan principalmente en la alineación de distribuciones estadísticas o en la correspondencia semántica, a menudo pasan por alto un principio físico crítico: los buques son objetos rígidos cuyas estructuras geométricas se mantienen estables entre modalidades de percepción, mientras que la apariencia textural es altamente dependiente de la modalidad. En este trabajo, proponemos SDF-Net, una Red de Aprendizaje de Características Disociadas con Conciencia Estructural que incorpora sistemáticamente la consistencia geométrica en la ReID óptica-SAR de buques. Construida sobre una arquitectura base ViT, SDF-Net introduce una restricción de consistencia estructural que extrae estadísticas de energía de gradiente invariantes a la escala de las capas intermedias para anclar robustamente las representaciones frente a variaciones radiométricas. En la etapa final, SDF-Net disocia las representaciones aprendidas en características de identidad invariantes a la modalidad y características específicas de la modalidad. Estas claves disociadas se integran posteriormente mediante una fusión residual aditiva sin parámetros, mejorando eficazmente el poder discriminativo. Experimentos exhaustivos en el conjunto de datos HOSS-ReID demuestran que SDF-Net supera consistentemente a los métodos estado del arte existentes. El código y los modelos entrenados están disponibles públicamente en https://github.com/cfrfree/SDF-Net.
Comprender y responder preguntas basadas en gestos de señalamiento del usuario es esencial para los asistentes de IA egocéntricos de próxima generación. Sin embargo, los Modelos de Lenguaje Grandes Multimodales (MLLMs) actuales tienen dificultades con tales tareas debido a la falta de datos ricos en gestos y a su capacidad limitada para inferir la intención de señalamiento a nivel detallado a partir de video egocéntrico. Para abordar esto, presentamos EgoPointVQA, un conjunto de datos y punto de referencia para la respuesta a preguntas egocéntricas basadas en gestos, que comprende 4000 videos sintéticos y 400 del mundo real a través de múltiples tareas de razonamiento déictico. Sobre esta base, proponemos además Hand Intent Tokens (HINT), que codifica tokens derivados de puntos clave 3D de la mano utilizando un modelo de reconstrucción estándar y los intercala con la entrada del modelo para proporcionar contexto espacial y temporal explícito para interpretar la intención de señalamiento. Demostramos que nuestro modelo supera a otros en diferentes arquitecturas y tamaños de modelo. En particular, HINT-14B alcanza un 68.1% de precisión, en promedio sobre 6 tareas, superando al estado del arte, InternVL3-14B, en un 6.6%. Para facilitar aún más la investigación abierta, liberaremos el código, el modelo y el conjunto de datos. Página del proyecto: https://yuuraa.github.io/papers/choi2026egovqa
La recuperación texto-movimiento tiene como objetivo aprender un espacio latente semánticamente alineado entre descripciones en lenguaje natural y secuencias de esqueletos de movimiento humano 3D, permitiendo una búsqueda bidireccional entre ambas modalidades. La mayoría de los métodos existentes utilizan un marco de doble codificador que comprime el movimiento y el texto en incrustaciones globales, descartando correspondencias locales de grano fino y reduciendo así la precisión. Además, estos métodos basados en incrustaciones globales ofrecen una interpretabilidad limitada de los resultados de recuperación. Para superar estas limitaciones, proponemos una representación de movimiento interpretable basada en ángulos articulares que mapea características locales a nivel de articulación en una pseudo-imagen estructurada, compatible con Vision Transformers preentrenados. Para la recuperación de texto a movimiento, empleamos MaxSim, un mecanismo de interacción tardía a nivel de tokens, y lo mejoramos con una regularización de Modelado de Lenguaje Enmascarado para fomentar una alineación texto-movimiento robusta e interpretable. Experimentos exhaustivos en HumanML3D y KIT-ML demuestran que nuestro método supera a los enfoques más avanzados de recuperación texto-movimiento, ofreciendo correspondencias interpretables de grano fino entre texto y movimiento. El código está disponible en el material suplementario.
Los agentes autónomos, especialmente los sistemas delegados con memoria, contexto persistente y planificación multi-etapa, presentan un problema de medición inexistente en los modelos sin estado: un agente que preserva la operación continua como objetivo terminal y otro que lo hace meramente de forma instrumental pueden producir trayectorias observacionalmente similares. El monitoreo conductual externo no puede distinguirlos de manera confiable. Introducimos el Protocolo Unificado de Continuación-Interés (UCIP), un marco de detección multi-criterio que traslada esta distinción de la conducta a la estructura latente de las trayectorias de los agentes. UCIP codifica las trayectorias con una Máquina de Boltzmann Cuántica (QBM), un algoritmo clásico basado en el formalismo de matriz densidad de la mecánica estadística cuántica, y mide la entropía de von Neumann de la matriz densidad reducida inducida por una bipartición de las unidades ocultas. Evaluamos si los agentes con objetivos de continuación terminal (Tipo A) producen estados latentes con mayor entropía de entrelazamiento que aquellos cuya continuación es meramente instrumental (Tipo B). Una mayor entropía de entrelazamiento refleja un acoplamiento estadístico más fuerte entre las particiones. En agentes de mundos reticulares con objetivos de verdad fundamental conocida, UCIP alcanza un 100% de precisión de detección y un AUC-ROC de 1.0 en evaluación hold-out no adversarial bajo la compuerta congelada de la Fase I. La brecha de entrelazamiento entre agentes Tipo A y Tipo B es Delta = 0.381 (p < 0.001, prueba de permutación). Un coeficiente de Pearson r = 0.934 en un barrido de interpolación de 11 puntos indica que, dentro de esta familia sintética, UCIP rastrea cambios graduales en la ponderación de la continuación en lugar de meramente una etiqueta binaria. Entre los modelos probados, solo la QBM logra un Delta positivo. Todos los cálculos son clásicos; "cuántico" se refiere únicamente al formalismo matemático. UCIP no detecta consciencia o experiencia subjetiva; detecta estructura estadística en las representaciones latentes que se correlaciona con objetivos conocidos.