Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de lenguaje para juegos de rol (RPLAs, por sus siglas en inglés) deben interpretar personajes cuyos valores y comportamiento evolucionan a medida que avanza la historia, no mantener una personalidad fija. Los puntos de referencia existentes miden la precisión factual en un capítulo dado, no si las respuestas se alinean con la trayectoria psicológica del personaje, especialmente en escenarios que el texto fuente nunca explora. Presentamos ArcANE (Evaluación Narrativa Consciente del Arco), un punto de referencia construido automáticamente que abarca 17 novelas y 80 personajes principales. Un Arco de Personaje segmenta la narrativa en fases a lo largo de un eje psicológico, y cada sonda plantea el mismo escenario a través de las fases, abarcando tanto situaciones dentro del texto fuente como situaciones más allá de él. En seis modelos y seis modos de contexto, condicionar el Arco de Personaje supera a cualquier otra estrategia de contexto en todos los modelos, y la brecha es mayor en escenarios fuera del texto fuente, donde la recuperación no encuentra nada. Además, ajustamos modelos de pesos abiertos con los mismos datos para obtener ArcANE-8B/32B, que amplían aún más la ventaja del Arco en escenarios fuera del texto fuente.
Los agentes se implementan ampliamente como asistentes sobre documentos, herramientas y código. Sin embargo, típicamente actúan solo ante solicitudes explícitas del usuario, que evidencian únicamente los problemas que el usuario ha notado, mientras que muchos otros problemas importantes coexisten, ocultos a simple vista, dentro del contexto más amplio del usuario, con un número total desconocido de antemano. Enmarcamos esto como la tarea de descubrir múltiples problemas ocultos a partir del contexto, en la cual deben descubrirse problemas coexistentes, fundamentarse en evidencia de apoyo y vincularse con acciones concretas. Con este fin, presentamos TIDE, un marco iterativo guiado por plantillas con dos mecanismos complementarios. Específicamente, motivados por la observación de que la predicción de una sola pasada se centra en los casos más sobresalientes y produce afirmaciones genéricas, proponemos el descubrimiento iterativo, que extrae un pequeño lote de candidatos por ronda mientras condiciona lo ya descubierto, de modo que las rondas subsiguientes amplíen la cobertura; y plantillas de pensamiento, esquemas reutilizables destilados de casos resueltos previamente que especifican qué señales contextuales atender y cómo conectarlas, anclando cada predicción en una clase de problema reconocible. Validamos TIDE en dos entornos realistas, espacios de trabajo personales y repositorios de software, utilizando cuatro modelos base, mostrando ganancias sustanciales sobre las líneas base de un solo paso y multiagente paralelas en cobertura, identificación y resolución de tareas.
La planificación de problemas del mundo real por parte de modelos de lenguaje a menudo implica restricciones tanto del mundo como del usuario, que pueden no estar completamente especificadas desde el principio y se revelan progresivamente a través de la interacción. Sin embargo, los puntos de referencia existentes aún no exploran suficientemente la planificación adaptativa bajo tales restricciones duales reveladas progresivamente. Para abordar esta brecha, presentamos AdaPlanBench, un banco de pruebas interactivo y dinámico para evaluar si los agentes basados en Modelos de Lenguaje Grande (LLM) pueden planificar y replanificar de forma adaptativa bajo restricciones del mundo y del usuario que se revelan progresivamente. AdaPlanBench se construye sobre 307 tareas domésticas, con un flujo de construcción de restricciones escalable que aumenta cada tarea con restricciones duales. En tiempo de ejecución, los agentes interactúan con el entorno mediante un protocolo de múltiples turnos donde las restricciones ocultas se revelan solo cuando el agente propone un plan que las viola, lo que requiere una revisión iterativa del plan bajo retroalimentación acumulativa. Esto hace que la planificación sea un desafío, ya que los agentes deben inferir y rastrear las restricciones a partir de la retroalimentación mientras replanifican de manera efectiva. Los experimentos con diez LLM líderes muestran que la planificación adaptativa bajo restricciones duales sigue siendo un desafío, alcanzando el mejor modelo solo un 67.75% de precisión. Observamos además que el rendimiento se degrada a medida que se acumulan más restricciones, siendo las restricciones del usuario un desafío particularmente grande, y los fallos a menudo provienen de un fundamento físico más débil y una efectividad reducida. Estos resultados establecen a AdaPlanBench como un banco de pruebas para la planificación interactiva con restricciones duales y resaltan el desafío de la adaptación confiable a restricciones reveladas dinámicamente en agentes LLM.
Presentamos VideoKR, el primer corpus de entrenamiento a gran escala diseñado específicamente para fortalecer la comprensión de videos que requiere conocimiento y razonamiento intensivos. Comprende 315 mil ejemplos de razonamiento sobre video, extraídos de 145 mil videos nuevos recolectados, con licencia CC y de dominio experto. Desarrollamos un pipeline de generación de ejemplos orientado a habilidades y con intervención humana, que apunta a capacidades de razonamiento sobre video progresivamente más profundas, garantizando a la vez la dificultad, diversidad y fiabilidad tanto de los ejemplos como de sus razonamientos de cadena de pensamiento (CoT). También curamos VideoKR-Eval, un nuevo punto de referencia anotado por expertos donde las preguntas requieren una genuina comprensión del video y un razonamiento intensivo en conocimiento, en lugar de atajos textuales. Nuestros experimentos muestran que, bajo un pipeline estándar de SFT a GRPO, los modelos post-entrenados en VideoKR superan a enfoques de post-entrenamiento previos en razonamiento de video intensivo en conocimiento, mientras se mantienen competitivos en razonamiento de video general, destacando el diseño de datos como motor clave del progreso en razonamiento de video. Además, realizamos ablaciones exhaustivas para aislar las contribuciones de VideoKR, proporcionando información procesable para trabajos futuros.
Estudios previos han demostrado que los modelos de lenguaje grandes (LLMs) pueden traducir lenguas no vistas o de bajos recursos mediante entrenamiento continuado o incluso codificando un libro de gramática en su contexto. Sin embargo, ambos métodos suelen sobreajustarse a lenguas específicas, con una transferencia cero disparo limitada en tiempo de prueba. Para traducir lenguas de recursos extremadamente bajos a gran escala, sostenemos que los LLMs deben adquirir la meta-habilidad de utilizar conocimiento lingüístico en contexto, en lugar de memorizar lenguas específicas. En este artículo, proponemos un enfoque de aprendizaje por refuerzo (RL) para la traducción de lenguas no vistas, dado un contexto lingüístico rico, utilizando una métrica de traducción a nivel superficial (chrF) como recompensa. Empíricamente, a pesar de la recompensa ligera, nuestros modelos entrenados con RL extraen y aplican eficazmente información lingüística relevante del contexto proporcionado, lo que conduce a mejores traducciones en lenguas completamente no vistas en comparación con el aprendizaje en contexto o el ajuste fino supervisado. Nuestros análisis sugieren que el RL basado en resultados puede extenderse más allá de las tareas de razonamiento convencionales, como matemáticas y programación, para servir como una receta para el aprendizaje de idiomas a partir del contexto.
Aunque los robots domésticos suelen evaluarse en función de la finalización de tareas, los entornos cotidianos del hogar implican situaciones de conflicto de valores en las que se espera que los robots elijan acciones que prioricen otros valores además del éxito de la tarea, como la autonomía humana, la eficiencia o la adecuación social. Sin embargo, no existen puntos de referencia para evaluar las preferencias de valores de los robots en dichos escenarios. Presentamos RobotValues, un punto de referencia para evaluar planificadores de robots domésticos en 10 mil escenarios de conflicto de valores. Cada instancia consiste en una imagen doméstica realista con múltiples acciones plausibles del robot que priorizan diferentes valores humanos. Construimos RobotValues mediante generación de escenarios asistida por LLM, extracción de valores fundamentada en las partes interesadas, generación de imágenes y control de calidad automático. Utilizando RobotValues evaluamos modelos de lenguaje y visión (VLMs) empleados en robótica y encontramos que los modelos exhiben preferencias de valores predeterminadas, incluyendo seguridad y acomodación, mientras que subseleccionan acciones que priorizan la privacidad. Cuando se instruye a los modelos para que prioricen valores específicos que entran en conflicto con sus propias preferencias, a menudo fallan al anular sus acciones predeterminadas, eligiendo acciones incorrectas el 80% del tiempo. Estos hallazgos sugieren que la evaluación de robots domésticos no solo debe medir la finalización de tareas o el cumplimiento de seguridad, sino también si los robots pueden elegir entre acciones plausibles cuando los valores humanos entran en conflicto.
Estudiamos el escenario de respuesta a preguntas visuales sobre el rollo de cámara personal. En este escenario, un asistente de IA conversacional puede acceder al rollo de cámara personal de un usuario y recuperar fotos relevantes para responder consultas, que van desde preguntas factuales simples (por ejemplo, "¿Nombre de la comida que probé ayer?") hasta otras más abiertas (por ejemplo, "Recomiéndame algunos platos que nunca haya comido antes"). Dada la naturaleza extensa del rollo de cámara personal (es decir, varios años, cientos a miles de fotos), un asistente de IA exitoso necesita comprender un flujo de contenido visual altamente personalizado y de largo plazo para navegar y localizar la información correcta y/o relevante. Para respaldar esto, recopilamos y anotamos manualmente preguntas que imitan el uso en el mundo real. El conjunto de datos final, camroll, contiene 50 usuarios, 31,476 imágenes y 2,500 pares de preguntas y respuestas. Además, diseñamos camroll-agent, un agente de IA conversacional equipado con memoria jerárquica y un conjunto mínimo de herramientas para una navegación eficiente sobre una memoria visual personalizada y extensa. Los resultados experimentales muestran que camroll-agent supera a numerosos modelos de referencia y métodos para sistemas de agentes de IA con comprensión de contexto largo. En conjunto, el conjunto de datos camroll y camroll-agent resaltan la brecha en el razonamiento de contexto largo de los agentes de IA: la memoria visual personalizada requiere enfoques diferentes de la memoria textual estándar de contexto largo, especialmente cuando están presentes la consistencia, los detalles visuales y el contexto específico del usuario.
Desarrollar modelos unificados de generación y edición de video capaces de interpretar entradas multimodales intercaladas constituye un campo fronterizo prometedor pero desafiante. Los marcos unificados existentes dependen predominantemente de modelos masivos (típicamente de 13B parámetros o más) e incorporan condiciones de video fuente para la edición mediante la concatenación de tokens de secuencia. Esta concatenación duplica inevitablemente la longitud de la secuencia, cuadruplicando la complejidad computacional del mecanismo de autoatención e introduciendo una sobrecarga prohibitiva. Para abordar estos cuellos de botella, presentamos LoomVideo, una arquitectura unificada de 5B parámetros altamente eficiente tanto para generación como para edición de video. LoomVideo reemplaza el codificador de texto estándar con un Modelo de Lenguaje Grande Multimodal (MLLM) y emplea un mecanismo de inyección Deepstack para alinear las características MLLM de múltiples capas con el Transformer de Difusión (DiT). De manera crucial, introducimos un enfoque de condicionamiento Scale-and-Add con sobrecarga cero para la edición de video. Al escalar y sumar directamente el latente de video fuente limpio al latente objetivo ruidoso, este diseño elegante elimina la necesidad de concatenación de tokens, reduciendo drásticamente el costo computacional mientras mantiene capacidades robustas para ediciones complejas no rígidas. Además, se integra de manera fluida una estrategia de RoPE Temporal Negativa para manejar múltiples imágenes de referencia. Experimentos exhaustivos demuestran que nuestro modelo compacto de 5B logra un rendimiento de vanguardia o altamente competitivo en puntos de referencia integrales, exhibiendo una superioridad excepcional en escenarios de generación de comercio electrónico y moda. Gracias al mecanismo de condicionamiento de sobrecarga cero, LoomVideo logra al menos una aceleración de 5.41x en velocidad de inferencia en comparación con modelos de capacidades similares, allanando el camino para modelos fundacionales de video altamente prácticos y eficientes.
Los modelos generativos de tiempo continuo estándar dependen de arquitecturas monolíticas que deben navegar regímenes de señal muy diferentes, desde ruido isotrópico hasta distribuciones de datos intrincadas. Si bien escalar la capacidad del modelo mejora el rendimiento, desplegar una red masiva de manera uniforme a lo largo de toda la línea temporal generativa es inherentemente ineficiente. En este trabajo, proponemos el Divisionamiento con Balance de Complejidad (CBS, por sus siglas en inglés), un marco fundamentado para la asignación temporal de capacidad que distribuye la carga de trabajo generativa entre múltiples subredes especializadas. Basado en la teoría de aproximación de funciones y el principio de equidistribución de de Boor, CBS divide la línea temporal de difusión en segmentos con igual carga de aproximación, asignando mayor capacidad representacional a las regiones donde la dinámica generativa es más difícil de modelar. Para estimar esta complejidad local, introducimos dos funciones de monitoreo complementarias y tratables: una medida espacial basada en la energía de Dirichlet del flujo, y una medida geométrica basada en la aceleración de las trayectorias de muestreo. Utilizando un modelo auxiliar ligero para estimar estos perfiles de complejidad, nuestro enfoque elimina la necesidad de divisiones temporales heurísticas o procedimientos de búsqueda computacionalmente costosos. Una evaluación exhaustiva en múltiples arquitecturas (SiT, JiT y UNet) y conjuntos de datos demuestra que CBS mejora consistentemente la calidad de síntesis sin incrementar el costo de inferencia por paso. En particular, CBS mejora el FID en aproximadamente un 35% en SiT-XL con CFG en comparación con el particionado temporal ingenuo. La página del proyecto está disponible en https://noamissachar.github.io/CBS/.
La internalización de la experiencia convierte la experiencia contextual de interacciones pasadas en capacidad paramétrica reutilizable, ofreciendo un camino prometedor hacia el aprendizaje continuo en modelos de lenguaje extensos (LLMs). Si bien trabajos previos se han centrado predominantemente en la transferencia de una sola iteración, descubrimos que, bajo el aprendizaje de experiencia multi-iteración, los métodos existentes sufren un colapso progresivo de la capacidad en lugar de una mejora compuesta. Examinamos sistemáticamente este fallo a través de tres dimensiones vitales de la internalización de la experiencia: (1) Granularidad de la Experiencia: Encontramos que la experiencia a nivel de principios es más duradera que la experiencia a nivel de instancias, ya que abstrae efectivamente estrategias transferibles de los detalles específicos de la trayectoria. (2) Patrón de Inyección de Experiencia: Nuestro análisis revela que la inyección paso a paso supera significativamente a la inyección global al alinear la experiencia con estados de decisión intermedios, una propiedad que es crítica para el uso de herramientas a largo plazo. (3) Régimen de Internalización: Demostramos que la destilación de contexto fuera de la política (off-policy) en trayectorias de profesor de alta calidad proporciona una señal de entrenamiento sustancialmente más estable que la destilación de contexto dentro de la política (on-policy), la cual está inherentemente limitada por correcciones locales en estados defectuosos inducidos por el estudiante. En conjunto, estas ideas producen una receta simple pero robusta para una internalización de la experiencia estable y sostenible, proporcionando una guía concreta para la ingeniería de LLMs que aprenden de forma continua y auto-evolucionan.
Los conjuntos de datos existentes para conducción autónoma han permitido avances significativos, pero presentan limitaciones en cuanto a fidelidad de sensores, completitud de mapas o diversidad geográfica. Presentamos KITScenes Multimodal, un conjunto de datos europeo construido en torno a sensores y mapas de alta fidelidad. Nuestra suite de sensores completamente sincronizada combina cámaras de obturador global de alta resolución, LiDAR de largo alcance superior a 400 m, radar de imágenes 4D y localización GNSS/INS redundante. Hasta donde sabemos, nuestros mapas de alta definición son los más completos de cualquier conjunto de datos de sensores, validados mediante pruebas de conducción autónoma con software de código abierto. Por primera vez en un conjunto de datos público, todos los elementos de tráfico relevantes para la conducción, como los semáforos, se cartografían en 3D con un nivel de precisión de reproyección y conectividad topológica completa. Grabado en ciudades con trazados de calles irregulares y modos de tráfico mixtos, nuestro conjunto de datos complementa los existentes al ampliar la diversidad geográfica disponible. También presentamos cuatro puntos de referencia que avanzan el aprendizaje espacial para la inteligencia artificial encarnada: construcción de mapas HD en línea, estimación de profundidad de largo alcance, síntesis de nuevas vistas y conducción de extremo a extremo. Página del proyecto: https://kitscenes.com/
Los modelos de generación de video han logrado avances impresionantes en la síntesis de contenido visualmente atractivo, sin embargo, sus resultados permanecen confinados al ámbito virtual. Surge entonces una pregunta natural: ¿hasta qué punto reflejan estos modelos el mundo físico cuando sus videos generados abandonan la pantalla y entran en la realidad? Proponemos la manipulación robótica como una ventana concreta y medible hacia esta cuestión: si un modelo ha internalizado verdaderamente las leyes físicas, el movimiento que representa debería traducirse en un comportamiento robótico ejecutable. Presentamos Dream.exe, un marco de evaluación que operacionaliza este criterio mediante un pipeline de video a ejecución. Dada una imagen de la escena y una descripción de la tarea, Dream.exe sintetiza un video de manipulación, convierte el movimiento generado en trayectorias robóticas y las ejecuta en un simulador físico, generando una señal de fundamentación que las métricas puramente visuales no pueden ofrecer. Utilizando este pipeline, evaluamos 8 modelos que abarcan generadores de código cerrado de vanguardia, generadores de código abierto y modelos específicos para robótica. Nuestro banco de pruebas incluye 101 tareas de manipulación curadas manualmente en tres niveles de complejidad física, medidas en términos de calidad visual, fidelidad de trayectoria y éxito de ejecución. De manera alentadora, varios modelos logran un éxito de ejecución medible, lo que sugiere que los prioris generativos aprendidos a partir de datos a escala de internet ya codifican conocimiento físico significativo. Sin embargo, la calidad visual resulta ser un predictor deficiente de la ejecutabilidad, exponiendo una dimensión de la capacidad del modelo que las evaluaciones visuales estándar no capturan. Dream.exe se publicará como código abierto en https://github.com/showlab/Dream.exe.
La mejora de habilidades en tiempo de inferencia proporciona una forma ligera de mejorar los agentes de análisis de datos mediante la inyección de conocimiento procedural reutilizable sin actualizar los parámetros del modelo. Sin embargo, descubrir habilidades efectivas para el análisis de datos sigue siendo un desafío, ya que la supervisión confiable es costosa y los criterios de éxito varían entre formatos analíticos. Esto plantea la pregunta clave de cómo descubrir habilidades reutilizables de análisis de datos a partir únicamente de la exploración no etiquetada. Proponemos DataCOPE, un marco de descubrimiento de habilidades no supervisado guiado por verificadores para agentes de análisis de datos. DataCOPE deriva señales de verificación a partir de las trayectorias de exploración y las utiliza para caracterizar la calidad relativa o el acuerdo entre trayectorias. Coordina iterativamente un Agente de Análisis de Datos para la generación de trayectorias, un Verificador No Supervisado para la extracción de señales y un Gestor de Habilidades para la destilación contrastiva de habilidades. Para el análisis de estilo de informe, instanciamos el verificador como un Verificador de Lista de Verificación Adaptativa que deriva criterios específicos de la tarea, califica los informes según la cobertura verificable y refina iterativamente la lista de verificación. Para el análisis de estilo de razonamiento, lo instanciamos como un Verificador de Acuerdo de Respuestas que agrupa las trayectorias por acuerdo de respuesta y utiliza la autoconsistencia como señal auxiliar. Evaluamos DataCOPE en análisis de estilo de informe de Deep Data Research y análisis de estilo de razonamiento de DABStep. En ambos entornos, DataCOPE mejora consistentemente el rendimiento en datos no vistos en comparación con las líneas base. Promediado en cuatro configuraciones de modelo, DataCOPE mejora la puntuación media en un 9.71% y un 32.30% en tareas de estilo de informe y de estilo de razonamiento, respectivamente.
Los grandes modelos de lenguaje pueden reproducir datos de entrenamiento, pero las evaluaciones existentes de memorización en su mayoría miden si es posible forzar a los modelos a hacerlo, en lugar de si lo hacen bajo un uso ordinario. Presentamos PropMe, un marco consciente de la propensión para la evaluación de memorización que contrasta ataques de capacidad basados en prefijos con evaluaciones no adversariales. Proponemos una transformación de métricas que, aplicada a funciones existentes, permite crear métricas de propensión. Además, introducimos SimpleTrace, un pipeline de rastreo ligero basado en infini-gram que atribuye de manera determinista las generaciones del modelo a corpus de entrenamiento a gran escala y calcula métricas de memorización textual, casi textual y transformadas por propensión. Al evaluar dos modelos completamente abiertos, Comma y DFM Decoder, en dos conjuntos de datos, Common Pile y Dynaword, en dos idiomas, encontramos una brecha consistente entre capacidad y propensión: los ataques de prefijo generan señales de memorización sustancialmente más fuertes que las indicaciones genéricas o específicas del conjunto de datos, mientras que los puntajes de propensión se mantienen bajos en general. Por lo tanto, los modelos pueden revelar datos de entrenamiento cuando se les induce directamente, pero rara vez lo hacen en entornos no adversariales más comunes. También encontramos que DFM Decoder, que se preentrena de forma continua a partir de Comma, exhibe una reducción en la memorización y en la propensión a la memorización de Common Pile, lo que confirma que la capacidad de memorización puede disminuir cuando el entrenamiento posterior enfatiza datos parcialmente diferentes. Nuestros resultados sugieren, y alentamos, que las auditorías de memorización deberían reportar tanto la extractabilidad en el peor caso como la propensión a la filtración ordinaria para tener una visión más completa de este fenómeno.
La destilación on-policy (OPD) supervisa al estudiante únicamente en el espacio de salida, igualando las probabilidades del siguiente token. Este paradigma centrado exclusivamente en la salida presenta dos limitaciones: (1) la varianza de muestreo derivada de las estimaciones de KL de Monte Carlo sobre vocabularios extensos (p. ej., los ~150k tokens de Qwen) persiste durante todo el entrenamiento, y (2) trata al profesor como una caja negra, descartando todos los estados ocultos intermedios tras la cabeza del LM. Proponemos la Destilación de Representaciones On-Policy (OPRD), que eleva la destilación al espacio de los estados ocultos al alinear las representaciones del estudiante y del profesor en capas seleccionadas a lo largo de los mismos despliegues, evitando por completo la cabeza del LM. Teóricamente, OPRD elimina la varianza de muestreo y proporciona información estructural más rica por capa. Empíricamente, OPRD cierra la brecha estudiante-profesor en AIME 2024/2025 y AIMO, mientras que las líneas base de OPD en el espacio de salida se estancan por debajo del profesor. Además, OPRD entrena 1,44 veces más rápido y utiliza un 54 % menos de memoria que la OPD top-k. Código: https://github.com/ShenzhiYang2000/OPRD.
La selección es una operación fundamental en la edición interactiva de imágenes. Para que sea práctica, el usuario debe poder especificar y desambiguar la región de selección deseada mediante interacciones basadas en texto o clics, y el sistema debe permitir seleccionar no solo objetos, sino también otros criterios, como los materiales. La selección basada en materiales resulta valiosa para tareas como la retexturización de superficies o la edición de instancias de un material específico. Sin embargo, los métodos de selección existentes basados en modelos de lenguaje y visión (VLM, por sus siglas en inglés) están centrados en objetos y suelen admitir una única modalidad de interacción, lo que limita su aplicabilidad. En este trabajo, presentamos, por tanto, Mask Any Object And Material (MAOAM), un marco unificado de selección que permite una selección precisa a nivel de objetos y materiales, tanto en interacciones basadas en texto como en clics. MAOAM aprovecha un VLM con un cabezal de segmentación para generar máscaras a nivel de píxel a partir de las indicaciones del usuario: el VLM interpreta la intención de selección del usuario (a nivel de objeto o material) y codifica entidades visuales, atributos y relaciones espaciales, mientras que el cabezal de segmentación decodifica el token de salida en una máscara. Un desafío clave es la falta de conjuntos de datos de selección de materiales con anotaciones textuales. Proponemos un flujo de generación de datos escalable: recopilamos imágenes reales y sintéticas con máscaras de materiales, y aprovechamos los VLM para generar descripciones de materiales con una semántica visual rica. Entrenamos MAOAM con un objetivo multitarea que abarca la selección basada en clics y en texto, junto con una tarea auxiliar de VQA derivada de las descripciones de materiales para facilitar una comprensión más profunda de los materiales. A pesar de haber sido entrenado con indicaciones unimodales, nuestro modelo muestra una mejora emergente en la selección al combinar texto y clics durante la inferencia, lo que permite flujos de trabajo flexibles de edición de imágenes. Los experimentos demuestran selecciones precisas y coherentes en diversos objetos, materiales y escenarios de interacción, destacando su robustez en la práctica.
El escalado en tiempo de inferencia ha surgido como una vía crítica para mejorar el rendimiento de los Modelos de Lenguaje a Gran Escala, pero su implementación en el mundo real está limitada por presupuestos computacionales estrictos. En este trabajo, formulamos la asignación del presupuesto de inferencia como un problema global de optimización restringida gobernado por principios económicos. Modelando la utilidad de razonamiento por consulta con una función de sobretiro desplazado, derivamos una política de asignación óptima basada en un precio sombra global que equilibra la utilidad marginal bajo escasez de recursos. Basándonos en esta teoría, proponemos la Asignación de Equilibrio de Utilidad Latente Restringida para el Razonamiento (CLEAR, por sus siglas en inglés). Este método realiza un abandono racional y reasigna recursos desde consultas insolventes hacia consultas solucionables cercanas a sus umbrales de emergencia. Experimentos exhaustivos en varias tareas de razonamiento con diferentes flujos de tráfico demuestran que CLEAR mejora significativamente la frontera de Pareto entre el costo total de tokens y la precisión media. En regímenes de escasez de recursos, CLEAR logra una mejora de hasta 3 veces en la precisión global en comparación con la asignación uniforme.
La predicción de eventos en video (VEP) requiere que los modelos inferan estados futuros no observados a partir de evidencia visual parcial. Los MLLMs de video existentes suelen verbalizar el razonamiento futuro intermedio en espacio textual: una vez que la evidencia visual se verbaliza, las señales detalladas de movimiento, geometría e interacción pueden perderse, lo que genera alucinaciones plausibles pero visualmente infundadas. Presentamos Future-L1, un marco de razonamiento visual latente intercalado que permite a un MLLM alternar entre tokens de lenguaje y tramos visuales latentes continuos durante la decodificación autorregresiva. Para entrenar esta capacidad, construimos Future-L1-50K seleccionando ejemplos donde las pistas visuales futuras ayudan a la predicción y alineamos los estados latentes con las incrustaciones de fotogramas futuros, para luego optimizar las trayectorias latentes muestreadas con LA-DAPO, un objetivo de RL sensible a lo latente con recompensas de contraste de resultados y diversidad temporal. Future-L1 alcanza nuevos resultados de última generación en ambos puntos de referencia: en FutureBench, mejora Qwen3-VL-8B de 61,0 a 85,4 y supera al mejor anterior Video-CoE por 10,4 puntos; en TwiFF-Bench, mejora la puntuación promedio de 2,44 a 3,04. Estos resultados sugieren que el razonamiento de video orientado al futuro se beneficia de preservar la semántica visual intermedia en el espacio latente en lugar de traducir cada paso de razonamiento a texto.
Proponemos los modelos mundo-lenguaje-acción (WLA) como una nueva clase de modelos fundacionales encarnados. WLA toma instrucciones textuales, imágenes y estados del robot como entradas para predecir conjuntamente subtareas textuales, imágenes de submetas y acciones del robot, combinando la interfaz de modelado del mundo para aprender de extensos videos egocéntricos como en el modelo mundo-acción (WAM) y las capacidades de razonamiento lingüístico para resolver tareas complejas de horizonte largo como en los modelos visión-lenguaje-acción (VLA). En el núcleo de WLA se encuentra una arquitectura base Transformer autorregresivo (AR), en lugar de un Transformer de difusión bidireccional como en los WAM, para predecir el siguiente estado, que comprende la intención textual a nivel semántico y la dinámica física complementaria de grano fino. La dinámica física está supervisada por el objetivo de modelado del mundo basado en un Experto Mundial dedicado, y se aprovecha para facilitar la caracterización de la correlación estado-acción para el Experto de Acción. WLA utiliza metaconsultas para hacer que la predicción del mundo impacte implícitamente en la generación de acciones, de modo que la primera pueda desactivarse durante la inferencia. La predicción del mundo también puede activarse para permitir el escalado en tiempo de prueba y mejorar el control del robot. Nuestro prototipo WLA-0, con 2B parámetros activos, logra 40 ms por inferencia en una NVIDIA RTX 5090. Las evaluaciones en entornos simulados y del mundo real demuestran que WLA-0 logra capacidades de aprendizaje multitarea y de horizonte largo de última generación, por ejemplo, una tasa de éxito del 92,94% en RoboTwin2.0 Clean y del 56,5% en RMBench. WLA-0 también tiene el potencial de aprender tareas novedosas directamente a partir de videos de robots de distintas corporalidades sin anotaciones de acciones.
Los agentes LLM con memoria aumentada abordan tareas complejas de largo alcance resumiendo recursivamente las trayectorias de interacción en memorias compactas. Sin embargo, los enfoques existentes típicamente entrenan estas políticas de memoria utilizando aprendizaje por refuerzo basado en resultados, sin localizar dónde se degrada la calidad de la memoria intermedia. A medida que las interacciones se desarrollan, los resúmenes recursivos ambiguos descartan progresivamente información relevante para la tarea e introducen ruido semántico. Esto exacerba la desviación de la creencia, oscureciendo la estimación del agente sobre el estado latente de la tarea y, en última instancia, desviando el razonamiento de largo alcance. Por lo tanto, argumentamos que la optimización de la memoria debería centrarse no solo en el éxito a nivel de trayectoria, sino en la claridad de la creencia inducida por los resúmenes intermedios. Con este fin, introducimos la Entropía de Creencia, un proxy auto-supervisado que sondea cuán incierto permanece el modelo sobre el estado latente de la tarea dada su memoria actual. Basándonos en este proxy, proponemos la Optimización de Política de Memoria Metacognitiva (MMPO). En lugar de depender únicamente de señales dispersas basadas en resultados, MMPO proporciona supervisión específica de la memoria y detallada al penalizar explícitamente los resúmenes que inducen alta incertidumbre epistémica. Los experimentos muestran que MMPO supera consistentemente a los métodos existentes en diversas tareas de largo alcance, manteniendo un rendimiento del 97.1% incluso cuando se escala a contextos de 1,75 millones de tokens.
El Anclaje Temporal (TG) tiene como objetivo localizar segmentos de video correspondientes a una consulta textual. Investigaciones previas se centran predominantemente en la recuperación de un solo segmento. Sin embargo, los escenarios del mundo real a menudo requieren localizar múltiples segmentos disjuntos para una sola consulta, una configuración que denominamos Anclaje Temporal de Uno a Muchos (OMTG). Los MLLM de última generación anteriores, optimizados para configuraciones uno a uno, tienen dificultades en este contexto, obteniendo a menudo puntuaciones cercanas a cero debido a la falta de percepción de la cardinalidad de eventos. Para cerrar esta brecha, presentamos una solución sistemática con tres contribuciones clave. Primero, establecemos el primer punto de referencia integral de OMTG, introduciendo la Precisión de Conteo (C-Acc) y el F1 Temporal Efectivo (EtF1) como métricas de evaluación. Segundo, curamos un conjunto de datos de OMTG de alta calidad que comprende 56k muestras a través de un sofisticado pipeline de construcción. Tercero, desarrollamos novedosas funciones de recompensa temporal y de subtítulos diseñadas específicamente para OMTG. En particular, la recompensa de subtítulos aprovecha el razonamiento de Cadena de Pensamiento sobre subtítulos densos de video para guiar explícitamente la optimización de políticas hacia la precisión y la integridad. Experimentos exhaustivos muestran que nuestro modelo alcanza un nuevo EtF1 de última generación del 43.65% en OMTG Bench, superando a Gemini 2.5 Pro y Seed-1.8 en un 15.85% y 15.61%, respectivamente.
Los agentes de modelos de lenguaje grandes (LLM) se aplican cada vez más a tareas de horizonte largo, como el descubrimiento científico y la ingeniería de aprendizaje automático (MLE), donde la autoevolución sostenida se convierte en una capacidad clave. Sin embargo, los agentes MLE existentes sufren de aislamiento de información entre ramas, búsqueda sin memoria y falta de control jerárquico, lo que en conjunto dificulta la optimización a largo plazo. Presentamos MLEvolve, un marco multiagente autoevolutivo basado en LLM para el descubrimiento de algoritmos de aprendizaje automático de extremo a extremo. Al extender la búsqueda en árbol a Progressive MCGS, MLEvolve permite el flujo de información entre ramas a través de aristas de referencia basadas en grafos y desplaza gradualmente la búsqueda desde una exploración amplia hacia una explotación enfocada mediante un programa progresivo inspirado en entropía. Para permitir que el agente evolucione con la experiencia acumulada, introducimos la Memoria Retrospectiva, que combina una base de conocimiento de dominio de inicio en frío con una memoria global dinámica para la recuperación y reutilización de experiencia específica de la tarea. Para una iteración estable a largo plazo, desacoplamos la planificación estratégica de la generación de código con modos de codificación adaptativos. La evaluación en MLE-Bench muestra que MLEvolve logra un rendimiento de vanguardia en múltiples dimensiones, incluyendo la tasa promedio de medallas y la tasa de envíos válidos bajo un presupuesto de 12 horas (la mitad del tiempo de ejecución estándar). Además, MLEvolve también supera a métodos especializados de descubrimiento de algoritmos, incluido AlphaEvolve, en tareas de optimización de algoritmos matemáticos, lo que demuestra una fuerte generalización entre dominios. Nuestro código está disponible en https://github.com/InternScience/MLEvolve.
El video es temporalmente redundante: los fotogramas adyacentes suelen compartir la mayoría de los objetos, el fondo y la disposición. Sin embargo, los modelos de lenguaje grandes multimodales de video existentes (video MLLMs) suelen codificar cada fotograma muestreado como una imagen RGB independiente, lo que provoca que los tokens visuales repitan contenido ya presente en fotogramas anteriores. Esto sugiere una interfaz de video más directa: enviar un fotograma de referencia completo solo cuando la escena no pueda predecirse bien a partir del contexto previo, y en caso contrario transmitir una descripción compacta de los cambios entre fotogramas. Llamamos a esta interfaz un código visual predictivo, y la instanciamos para video MLLMs como AdaCodec. AdaCodec gasta tokens visuales completos en un fotograma de referencia solo cuando su costo predictivo condicional es alto; de lo contrario, codifica cambios entre fotogramas, incluido el movimiento y los residuos de predicción, como tokens P compactos. En los once puntos de referencia, AdaCodec mejora la línea base RGB por fotograma de Qwen3-VL-8B con un presupuesto de tokens visuales equivalente. Incluso con 1/7 del presupuesto, AdaCodec con 32k tokens supera la línea base de 224k en todos los puntos de referencia de video largo; en cinco puntos de referencia de video general, eleva la puntuación promedio mientras reduce sustancialmente el tiempo hasta el primer token de 9.26s a 1.62s.
La optimización de instrucciones del sistema mejora el comportamiento del agente sin modificar el modelo subyacente, generando instrucciones legibles para humanos y agnósticas al modelo. Los métodos existentes construyen un agente de instrucciones que refina las instrucciones del sistema de los agentes de tarea, pero dejan la propia instrucción del sistema del agente de instrucciones diseñada manualmente y fija. Proponemos la Optimización de Instrucciones Autoevolutiva (SePO, por sus siglas en inglés), que trata la propia instrucción del sistema del agente de instrucciones como un objetivo de optimización junto con las instrucciones del sistema de los agentes de tarea. SePO adopta un diseño autorreferencial. Un único agente de instrucciones mejora tanto las instrucciones del sistema de los agentes de tarea como las propias bajo una búsqueda evolutiva abierta que mantiene un archivo de instrucciones candidatas como peldaños. El entrenamiento procede en dos etapas: el preentrenamiento evoluciona al agente de instrucciones en un conjunto de múltiples tareas, y el ajuste fino lo aplica luego a una tarea objetivo. A través de cinco puntos de referencia que abarcan matemáticas (AIME'25), razonamiento abstracto (ARC-AGI-1), ciencias de posgrado (GPQA), generación de código (MBPP) y acertijos lógicos (Sudoku), SePO supera consistentemente a Manual-CoT, TextGrad y MetaSPO, mejorando la precisión promedio en 4.49 puntos en comparación con Manual-CoT. La habilidad de optimización de instrucciones del preentrenamiento también se generaliza a tareas fuera de la mezcla de preentrenamiento, en lugar de memorizar instrucciones por tarea.
Los Modelos de Lenguaje Grande Multimodales (MLLMs) destacan en la comprensión semántica 2D, pero carecen de conciencia 3D intrínseca, lo que resulta en representaciones que no logran mantener la consistencia geométrica y espacial a lo largo de los cuadros de video. Dada la escasez de datos 3D a gran escala, presentamos GeoVR, un marco novedoso que aprende representaciones geométricas utilizando únicamente secuencias de video 2D. Este enfoque reestructura eficazmente el espacio latente semántico dentro de los MLLMs para desbloquear inteligencia espacial. En lugar de emplear una mezcla superficial de características, GeoVR reconfigura las representaciones internas del MLLM mediante la destilación de conocimiento geométrico a partir de modelos base 3D preentrenados. Esto se logra a través de una estrategia de aprendizaje multiobjetivo impulsada por cuatro objetivos geométricos complementarios: (1) estimar las poses de cámara entre cuadros para incorporar dinámicas de punto de vista variable, (2) realizar regresión de mapas de profundidad densos para anclar distancias físicas, (3) predecir un factor de escala métrica para la calibración del mundo real y (4) destilar características 3D multiescala para alinear el espacio de características intermedio. Guiadas por estas restricciones físicas y geométricas explícitas, las representaciones internas del modelo desarrollan naturalmente una fuerte conciencia 3D. Experimentos exhaustivos en puntos de referencia de razonamiento espacial demuestran que GeoVR alcanza un rendimiento de vanguardia, estableciendo un nuevo paradigma para dotar de inteligencia espacial a los modelos base.
El reconocimiento automático del habla (ASR) se ha convertido en una tecnología clave para la interacción humano-inteligencia artificial. Sin embargo, el ASR con cambio de código (CS-ASR) sigue siendo particularmente desafiante debido a la grave escasez de recursos de habla multilingüe con cambio de código en diversos pares de idiomas. Los enfoques existentes mejoran principalmente el rendimiento del CS-ASR mediante la generación sintética de habla con cambio de código o el ajuste fino específico de pares en conjuntos de datos bilingües limitados. No obstante, estos enfoques enfrentan una limitación inherente de escalabilidad, ya que el soporte para el cambio de código debe desarrollarse por separado para pares de idiomas cuyo número crece de manera combinatoria con la cantidad de idiomas admitidos. En este trabajo, investigamos si las capacidades de cambio de código aprendidas a partir de un conjunto limitado de pares de idiomas observados pueden generalizarse a pares de idiomas no vistos mediante métodos de fusión de modelos y generalización de dominio. Nuestros experimentos muestran que los modelos bilingües fusionados de CS-ASR se generalizan de manera modesta a pares de idiomas no vistos, lo que sugiere una transferencia limitada de las capacidades bilingües de cambio de código entre pares de idiomas.
Los modelos Visión-Lenguaje-Acción (VLA) aprovechan el rico conocimiento del mundo de los modelos de visión-lenguaje preentrenados (VLM) para habilitar la manipulación robótica guiada por instrucciones. Sin embargo, el desajuste estructural entre los espacios semánticos de los VLM y las políticas de control encarnado a menudo dificulta el aprendizaje de asignaciones precisas percepción-acción. Para abordar este desafío, proponemos AffordanceVLA, un marco unificado que introduce la predicción estructurada de affordances como una representación intermedia orientada a tareas para establecer una asignación percepción-acción más precisa y robusta. Específicamente, modelamos progresivamente los priors de manipulación a través de tres componentes complementarios: 1) Which2Act para el anclaje centrado en objetos mediante predicción latente visual, con el fin de suprimir distracciones; 2) Where2Act para la localización de interacciones en 2D a través de la estimación de mapas de affordances; y 3) How2Act para el razonamiento geométrico en 3D que guíe las políticas de manipulación. Estas señales de affordance proporcionan representaciones intermedias espacialmente fundamentadas, semánticamente condicionadas y acopladas a la acción, tendiendo así un puente natural entre visión, lenguaje y acción. Integramos estos módulos en una arquitectura de Mezcla de Transformers (MoT) con expertos especializados y entrenamos el modelo mediante una estrategia de entrenamiento en tres etapas con un currículo progresivo de datos. Para superar la escasez de etiquetas densas de affordance en conjuntos de datos robóticos, también desarrollamos un canal robusto de aumento de datos automatizado. Experimentos exhaustivos en simulación y en el mundo real demuestran que AffordanceVLA logra un rendimiento sólido en diversos escenarios de manipulación.
Los modelos mundo-acción (WAMs, por sus siglas en inglés) generan conjuntamente video futuro y acciones robóticas mediante difusión iterativa, logrando un alto rendimiento en benchmarks de manipulación, pero requiriendo decenas de pasos de eliminación de ruido, un costo que impide el control en tiempo real. La destilación de pasos ha surgido como el remedio natural, pero los métodos preexistentes fallan en el contexto conjunto video-acción porque los flujos de video y acción utilizan diferentes programaciones de ruido desplazadas por SNR y llegan al entrenamiento con distribuciones de ruido marginales sustancialmente diferentes, una asimetría que los métodos de destilación de una sola modalidad no pueden manejar. Presentamos Flash-WAM, un marco de destilación de pasos consciente de la modalidad inspirado en la destilación de consistencia que selecciona la función de consistencia para cada modalidad para que coincida con su régimen de ruido: una parametrización de escalado de gradiente lineal para el régimen de bajo ruido del flujo de acciones, junto con una parametrización de preservación de varianza para el régimen de alto ruido del flujo de video, basada en un análisis estructural de la familia de funciones de consistencia que caracteriza el escalado de gradiente alcanzable bajo la condición de frontera de consistencia. Implementado en LingBot-VA, Flash-WAM comprime la inferencia a un solo paso en cada modalidad. En RoboTwin 2.0, esto reduce la latencia por fragmento de 8.1 segundos a 348 ms en NVIDIA L40S, una aceleración de 23 veces que permite la inferencia en tiempo real. Flash-WAM preserva el éxito de las tareas en benchmarks de simulación (85.5% RoboTwin 2.0, 95.7% LIBERO) y recupera sustancialmente el rendimiento en el mundo real (60% promedio en un robot humanoide Unitree G1), mientras que la destilación de consistencia ingenua cae al 24% con el mismo presupuesto de pasos.
En los sistemas robóticos, se capturan fácilmente grandes cantidades de datos visuales en alta resolución utilizando hardware de bajo costo y bajo consumo energético. Sin embargo, el ancho de banda limitado y los recursos de cómputo en el dispositivo impiden su aprovechamiento completo cuando se transmiten mediante códecs convencionales como JPEG/MPEG. Códecs más recientes, como AV1/AVIF, mejoran la relación tasa-distorsión, pero exigen muchos más recursos para la codificación, lo que resulta inviable sin ASICs personalizados. Los autoencodificadores asimétricos recientes ofrecen alta calidad bajo restricciones extremas de energía y ancho de banda, pero añaden un costo de decodificación prohibitivo y utilizan formatos hechos a medida que ignoran décadas de infraestructura construida en torno a estándares como JPEG. Para abordar estas limitaciones, presentamos un marco de compresión para robótica en la nube basado en un Autoencodificador Integrado en el Sensor emparejado con una Transcódificación Única para Reconstrucción Eficiente (SEAOTTER). Dado que las etapas del sensor, la nube y el consumidor enfrentan presupuestos de energía y ancho de banda muy diferentes, SEAOTTER combina la compacidad de un latente aprendido con la usabilidad generalizada de un archivo JPEG estándar. Dado que la transcodificación ingenua degrada el rendimiento, proponemos una transformación de color y cuantización JPEG aprendible que permite una mayor precisión para la percepción global, densa y basada en visión-lenguaje. Utilizando SEAOTTER, entrenamos pipelines de transcodificación tanto de propósito general como conscientes de la tarea para un codificador preentrenado y congelado. Con una relación de compresión de 200:1 y en comparación con AVIF, observamos una codificación 7 veces más rápida, una decodificación 3,5 veces más rápida y una precisión top-1 en ImageNet un 8% mayor, manteniendo la compatibilidad con la infraestructura JPEG. Nuestro código está disponible en https://github.com/UT-SysML/seaotter .
Los modelos de lenguaje multimodal de gran escala (MLLMs) han demostrado logros significativos en tareas generales de respuesta a preguntas visuales (VQA). Sin embargo, siguen siendo frágiles frente a los planos de ingeniería mecánica, donde la alta densidad de anotaciones y el débil conocimiento del dominio, agravados por un razonamiento de relaciones espaciales poco fiable bajo estrictas reglas de proyección y restricciones geométricas, hacen que las señales decisivas sean fáciles de pasar por alto y conduzcan con frecuencia a respuestas erróneas. Para cerrar esta brecha, presentamos el primer conjunto de datos integral para la comprensión de planos mecánicos, MechVQA, creado mediante un canal semiautomático de construcción y control de calidad. MechVQA contiene 3.3k imágenes de alta densidad con 21k pares de preguntas y respuestas, abarcando 10 tareas detalladas diferentes en tres niveles de capacidad: Reconocimiento, Razonamiento y Juicio, proporcionando un banco de pruebas para evaluar y mejorar la comprensión de los MLLMs en planos mecánicos del mundo real. Sobre la base de MechVQA, desarrollamos el modelo MechVL mediante un paradigma de entrenamiento multi-etapa, estableciendo una línea base sólida y especializada en el dominio. Resultados experimentales exhaustivos demuestran que MechVL supera a la línea base de código cerrado más potente en 7.57 puntos porcentuales en la puntuación total de MechVQA, mejorando significativamente la capacidad de comprensión de planos mecánicos y proporcionando una base reutilizable para implementar MLLMs en escenarios de diseño e inspección mecánica.
Los modelos de lenguaje grande se utilizan cada vez más para simular usuarios de redes sociales e inferir cómo podrían responder los individuos a discusiones en línea. Sin embargo, aún no está claro si estas simulaciones reflejan creencias precisas específicas de cada usuario o si son altamente sensibles a cambios semánticamente independientes en los contextos conversacionales. En este trabajo, estudiamos la revisión de contexto contrafactual como un marco para auditar la simulación de posturas basada en LLM. Dada una conversación en línea original, primero inferimos la postura de un usuario objetivo hacia un tema específico. Luego aplicamos estrategias de revisión controladas al contexto conversacional y simulamos nuevamente la postura del usuario bajo el contexto revisado. Comparamos estrategias de revisión basadas únicamente en texto con una multimodal que incorpora contexto basado en memes y evaluamos dos métricas de efectividad principales: el cambio direccional promedio de postura y la tasa de transición de postura. Los resultados revelan transiciones de postura efectivas y robustas tanto en estrategias de solo texto como multimodales, a través de diferentes mecanismos de preferencia de polarización. Nuestro estudio contribuye con un marco de evaluación para comprender la sensibilidad al contexto de la simulación de posturas basada en LLM. En un sentido más amplio, destaca tanto la promesa como el riesgo de utilizar LLM para simular dinámicas de opinión en línea.
Los modelos de lenguaje grandes a menudo mejoran el razonamiento al generar una cadena de pensamiento (CoT) explícita, lo que demuestra la importancia del cálculo intermedio. Sin embargo, la CoT textual obliga a este cálculo a través de un flujo de tokens discreto, serial y orientado a la comunicación: cada paso de razonamiento debe verbalizarse antes de que el modelo pueda continuar, incluso cuando la actualización subyacente es semántica, incierta o solo está parcialmente formada. El razonamiento latente ofrece una alternativa de mayor ancho de banda al realizar cálculos intermedios en estados continuos compactos antes de comprometerse con el texto. Sin embargo, los métodos de razonamiento latente existentes a menudo sacrifican ventajas clave que hacen que la CoT sea efectiva en modelos de lenguaje autorregresivos, incluida la generación nativa de izquierda a derecha, el muestreo probabilístico, la compatibilidad con la decodificación de caché KV y la estimación manejable de verosimilitud. Proponemos NF-CoT, un marco de razonamiento latente que preserva estas ventajas al modelar pensamientos continuos con flujos normalizadores. NF-CoT instancia un flujo normalizador de estilo TARFlow dentro de la columna vertebral del LLM, definiendo un modelo de probabilidad manejable sobre pensamientos continuos compactos destilados de CoT explícita. Las posiciones de pensamiento continuo son generadas por un cabezal NF, mientras que las posiciones de texto son generadas por el cabezal LM estándar dentro del mismo flujo causal. Este diseño proporciona verosimilitudes exactas para pensamientos latentes, permite la decodificación probabilística de izquierda a derecha con la caché KV original y admite la optimización directa del gradiente de política en el espacio de razonamiento latente. En puntos de referencia de generación de código, NF-CoT mejora las tasas de aprobación sobre la CoT explícita y las líneas base de razonamiento latente previas, al tiempo que reduce sustancialmente el costo de razonamiento intermedio.
Los avances recientes en agentes basados en modelos de lenguaje de gran escala (LLM) han permitido progresos prometedores en la ciencia de datos automatizada. Sin embargo, los enfoques existentes siguen estando fundamentalmente limitados por sus conjuntos de acciones estáticas y la falta de una gestión de contexto a largo plazo basada en principios, lo que dificulta su capacidad para acumular experiencia reutilizable entre tareas y operar de manera fiable en procesos iterativos y de múltiples etapas propios de la ciencia de datos. Para abordar estos desafíos, presentamos EvoDS, un agente de ciencia de datos autónomo y auto-evolutivo que aprende a expandir sus habilidades y gestionar adaptativamente el contexto a largo plazo mediante aprendizaje por refuerzo agéntico. Específicamente, EvoDS introduce dos estrategias clave: (1) el mecanismo de Adquisición Autónoma de Habilidades (ASA), que permite a los agentes sintetizar, validar y reutilizar habilidades ejecutables; y (2) la estrategia de Compresión Adaptativa de Contexto (ACC), que trata la gestión del contexto como un problema de control aprendido en lugar de un truncamiento pasivo. Estas estrategias se orquestan dentro de un esquema de entrenamiento multi-agente en dos etapas, lo que permite que EvoDS mejore autónomamente con el tiempo. Teóricamente, demostramos que el diseño jerárquico de EvoDS reduce el error de selección de herramientas y que su objetivo de optimización se alinea con un principio de cuello de botella de información, garantizando un uso eficiente del contexto. Empíricamente, EvoDS supera a los agentes de ciencia de datos de código abierto más avanzados en un promedio del 28.9% en cuatro conjuntos de referencia diversos, al tiempo que elimina los fallos por falta de tokens. Nuestro código y datos están disponibles en https://github.com/usail-hkust/EvoDS.
Una consulta situada como "¿dónde está Lin Wei?" a menudo codifica más que su contenido literal: el usuario también puede querer saber si Lin Wei está libre, de buen humor, o si vale la pena interrumpirlo ahora. Los agentes estándar de uso de herramientas responden la pregunta literal y se detienen. AURA inserta un paso de inferencia entre la percepción de la escena y el uso de herramientas que produce un IntentFrame: una estimación estructurada de la necesidad implícita con una puntuación escalar de brecha que controla el presupuesto de sondeos por consulta y la selección de herramientas. En un punto de referencia de 100 consultas en cuatro escenas de intención implícita, AURA mejora la cobertura de necesidades implícitas en comparación con el sondeo estilo ReAct (Delta = +0.07, p < 10^-6); tres de las cuatro escenas son individualmente significativas, la ganancia se reproduce en un segundo modelo base, y una ablación de indicaciones atribuye la mejora a la calibración de la brecha, no a la memorización de respuestas. En búsquedas factuales, el controlador intercambia precisión bruta por un 82% menos de sondeos y cero violaciones de herramientas prohibidas en un segmento sensible a la privacidad; las condiciones de alcance se detallan en Limitaciones. El código, el simulador y el punto de referencia están disponibles en https://github.com/innovation64/AURA.
La conducción autónoma requiere razonar sobre cómo las acciones del ego moldean la evolución del mundo circundante. Sin embargo, la mayoría de los métodos de extremo a extremo se basan en mapeos directos de estado a acción, capturando correlaciones sin modelar explícitamente las dinámicas condicionadas por la acción. Por el contrario, los modelos de mundo con espacio latente continuo a menudo carecen de estructura composicional para el razonamiento causal a través de futuros contrafácticos. Presentamos Discrete-WAM, una política de mundo visión-acción latente unificada que representa los estados visuales futuros y las acciones del ego como tokens discretos alineados, permitiendo el razonamiento causal composicional a través de futuros alternativos. Basado en esta alineación discreta unificada, Discrete-WAM establece un marco de difusión discreta compartido con tareas generativas unificadas, formulando conjuntamente el modelado del mundo, la política mundo-acción y la política habilitada por decisiones jerárquicas, apoyando la generalización composicional en diversos escenarios de conducción. Los experimentos en puntos de referencia de conducción autónoma a gran escala muestran que Discrete-WAM logra un rendimiento competitivo mientras apoya la generación controlable y el razonamiento contrafáctico, ofreciendo un camino fundamentado hacia una toma de decisiones más fiable.
La edición de imágenes basada en difusión ha logrado una alta fidelidad visual bajo instrucciones en lenguaje natural, pero la mayoría de los sistemas existentes aún operan al nivel de seguimiento superficial de instrucciones, sin razonar sobre las restricciones implícitas de contexto incrustadas en las solicitudes reales de los usuarios. Esto a menudo conduce a ediciones visualmente plausibles pero lógicamente inconsistentes. En este trabajo, presentamos RE-Edit, un punto de referencia para la edición de imágenes consciente del razonamiento que evalúa sistemas de edición de imágenes en cinco dimensiones de razonamiento complementarias: física, ambiental, cultural, causal y referencial. RE-Edit comprende 1000 muestras cuidadosamente seleccionadas, cada una diseñada de manera que la plausibilidad visual por sí sola sea insuficiente y la edición correcta requiera satisfacer restricciones lógicas implícitas. Para respaldar un análisis detallado, establecemos criterios de evaluación alineados con las dimensiones y realizamos un estudio exhaustivo de diez modelos de edición de imágenes de código abierto y dos comerciales. Nuestros resultados muestran que incluso los sistemas avanzados a menudo tienen dificultades con el razonamiento implícito multidimensional, a pesar de producir imágenes de alta calidad. Además, presentamos una línea base de post-edición guiada por razonamiento ligero como exploración inicial, ilustrando cómo la inserción de razonamiento explícito puede ayudar a mitigar dichos fallos de manera independiente del modelo.
El aprendizaje por refuerzo fuera de la política de políticas de flujo preentrenadas sigue siendo un desafío debido a la inestabilidad de la optimización que surge del proceso de muestreo de múltiples pasos. Recientemente, el aprendizaje Q con Ajuste Adjunto (QAM, por sus siglas en inglés) abordó este problema reformulándolo como un problema de control óptimo estocástico (SOC, por sus siglas en inglés) sin memoria con un crítico aprendido. Sin embargo, QAM hereda una fragilidad fundamental de la mejora guiada por críticos: los pequeños errores del crítico se amplifican cuando los críticos están mal condicionados, lo que a menudo conduce al colapso del modelo. Este artículo presenta Trust Region Q-Adjoint Matching (TRQAM), un algoritmo estable de ajuste fino fuera de la política que controla adaptativamente la divergencia KL del espacio de trayectorias con políticas de flujo preentrenadas mediante descenso dual proyectado. Específicamente, optimizamos el parámetro de región de confianza λ en la dinámica SOC, y demostramos teóricamente que la divergencia KL del espacio de trayectorias puede representarse mediante una función de forma cerrada de λ. Como resultado, nuestro método puede controlar con precisión la desviación exacta de las políticas de flujo preentrenadas, logrando un aprendizaje por refuerzo fuera de la política estable. Mediante experimentos en 50 tareas de OGBench, TRQAM supera consistentemente a los trabajos anteriores tanto en aprendizaje por refuerzo fuera de línea como en aprendizaje por refuerzo de fuera de línea a en línea. En particular, TRQAM alcanza una tasa de éxito general del 68% en aprendizaje por refuerzo fuera de línea, mejorando sustancialmente la línea base más fuerte con un 46%.
En este artículo, estudiamos la minimización del arrepentimiento en juegos repetidos con oponentes adaptativos que pueden responder basándose en historiales de juego. Se sabe que la métrica estándar de arrepentimiento externo en aprendizaje en línea no logra capturar dicha adaptabilidad. Para dar cuenta del razonamiento contrafáctico de los jugadores, introducimos {\tt Arrepentimiento de Política Repetida (RP-Regret)}, una métrica teórica de juegos que mide la diferencia entre la utilidad acumulada realizada y la mejor en retrospectiva cuando todos los jugadores pueden responder al historial de juego. En comparación con las nociones de arrepentimiento existentes en este contexto, la nuestra es nativa del juego repetido, lo que permite comparadores más fuertes y oponentes con menos restricciones, manteniendo la posibilidad de encontrar mejores equilibrios cuando todos los jugadores lo minimizan. Primero identificamos condiciones necesarias para obtener {\tt RP-Regret} sublineal en el tiempo, sobre la variación de las estrategias de comparación del jugador en la definición de arrepentimiento y sobre las memorias tanto del comparador como de las estrategias de los oponentes. Luego estudiamos condiciones adicionales y algoritmos demostrables para minimizar {\tt RP-Regret}, que por definición es no convexo en el espacio de estrategias. Para abordar este desafío, proponemos tres algoritmos: (i) uno basado en un oráculo de optimización, como se asumió en algunos trabajos previos en aprendizaje no convexo en línea; (ii) uno que minimiza un sustituto convexo y linealizado de {\tt RP-Regret} en cada iteración; (iii) uno que minimiza directamente {\tt RP-Regret} cuando los oponentes cambian sus estrategias lentamente. Además, cuando todos los jugadores pueden ejecutar algoritmos para minimizar el {\tt RP-Regret} (o su variante linealizada), se pueden aprender ciertos equilibrios perfectos en subjuegos del juego repetido. También proporcionamos experimentos que muestran que minimizar nuestras nociones de arrepentimiento puede conducir a soluciones más cooperativas con mayor utilidad en juegos como el de la Caza del Ciervo.
Los benchmarks son fundamentales para evaluar y avanzar en los LLMs y MLLMs, ya que proporcionan medidas estandarizadas y explícitas de rendimiento. Sin embargo, su construcción requiere mucho trabajo y es difícil de reutilizar, lo que genera preocupaciones sobre la sostenibilidad y escalabilidad. Además, los benchmarks existentes a menudo alcanzan rápidamente la saturación de rendimiento tras su publicación, lo que resulta en una discriminación insuficiente entre los modelos de última generación. Para abordar estos desafíos, presentamos Benchmark Agent, un sistema agéntico totalmente autónomo diseñado para la construcción de benchmarks. Nuestro marco orquesta el pipeline completo de construcción de benchmarks, desde el análisis de consultas de usuario y el diseño de subtareas hasta la anotación de datos y el control de calidad. Para evaluar Benchmark Agent, lo implementamos para producir 15 benchmarks representativos que abarcan diversos escenarios de evaluación, incluyendo comprensión de texto, comprensión multimodal y razonamiento específico de dominio. Experimentos exhaustivos, que incluyen evaluación humana, evaluación con LLM como juez y comprobaciones de consistencia, demuestran que Benchmark Agent puede generar muestras de benchmark de alta calidad con una mínima intervención humana. Más importante aún, a través de la evaluación continua, observamos varios hallazgos reveladores, incluyendo que los modelos actuales tienen dificultades con ciertas tareas de razonamiento específico de dominio. Creemos que los benchmarks en rápida evolución pueden contribuir significativamente a la comunidad investigadora. La vista previa y el código estarán disponibles públicamente en la página de demostración y en el repositorio de código.
Los modelos de lenguaje grandes exhiben una fragilidad paradójica en la aritmética fundamental, lo que implica una desconexión entre la computación interna y la salida discreta. Al analizar la geometría del flujo residual durante la suma de múltiples operandos, identificamos la Trayectoria Iso-Suma-Bruta (IRST), una estructura geométrica donde las representaciones están ancladas por dígitos semánticos y moduladas por fibras continuas de acarreo. Proponemos el Modelo de Cuantificación Ruidosa para explicar esta geometría, enmarcando los errores aritméticos como Deslizamientos Geométricos causados por ruido neuronal interno que empuja un Potencial de Acarreo latente y continuo a través de umbrales de cuantificación. Este marco geométrico además elucida la Versatilidad de las Sondas, explicando cómo sondas ligeras pueden desenredar señales latentes coexistentes (como la verdad fundamental frente a la alucinación) a partir de un único vector de activación. Finalmente, validamos estos conocimientos mediante un método de verificación de consistencia geométrica que detecta y corrige eficazmente estos fallos de cuantificación durante la inferencia. Nuestro código está disponible en https://github.com/RL-MIND/Shape-of-Addition.
Los LLMs agentivos con búsqueda web modifican el modelo de amenaza para la anonimización de texto: indicios contextuales débiles pueden convertirse en evidencia referenciable de forma cruzada para la reidentificación, aunque esos mismos detalles también poseen valor analítico posterior del texto. Las defensas existentes eliminan identificadores explícitos, perturban el texto para lograr privacidad formal o evalúan el texto reescrito frente a modelos de inferencia no web, dejando poco explorada la región operativa entre la resistencia a la reidentificación mediante búsqueda web agéntica y la retención de utilidad. Presentamos AURA (Anonimización con Adaptación de Retención de Utilidad), un marco de enmascaramiento y reconstrucción impulsado por LLM que desacopla la localización de la privacidad de la reconstrucción que preserva la utilidad y selecciona candidatos mediante verificaciones adversariales de privacidad y retención de utilidad. Evaluamos AURA en transcripciones de entrevistas con usuarios reales utilizando ataques de reidentificación llevados a cabo por agentes de búsqueda web, junto con una evaluación de utilidad basada en hechos del perfil del entrevistado, hechos del libro de códigos y la cuadrícula de utilidad contextual conjunta. Nuestros resultados muestran que AURA mejora la frontera privacidad-utilidad al emplear un alcance de privacidad adaptativo para fortalecer la resistencia a la reidentificación agéntica y utilizar un método de anonimización de enmascaramiento y reconstrucción para preservar mejor la utilidad contextual bajo un alcance de privacidad fijo.
El procesamiento de video en modelos de visión-lenguaje es costoso: cada fotograma ocupa cientos de tokens, y el costo de inferencia escala con cada fotograma y cada consulta repetida. Presentamos Video2LoRA, un método para la internalización paramétrica de video. Una hiperred perceptiva lee las representaciones intermedias producidas capa por capa mientras un VLM congelado codifica un video, y genera un adaptador de Adaptación de Bajo Rango (LoRA) en una sola pasada hacia adelante. A diferencia del ajuste fino estándar de LoRA, que requiere actualizaciones iterativas de gradiente, Video2LoRA predice estos pesos directamente a partir del video. Entrenado para SmolVLM2 de 500M y 2.2B en resumen y descripción de videos, Video2LoRA permite que el mismo VLM congelado responda consultas únicamente con el adaptador, sin tokens visuales en su contexto en el momento de la consulta. Video2LoRA es estadísticamente no inferior y equivalente a la inferencia directa de video en contexto en los cinco puntos de referencia de descripción de video en ambas escalas de modelo, y en siete de ocho emparejamientos de escala y punto de referencia de respuesta a preguntas sobre video. Aunque entrenado solo con 12 fotogramas a 384px, permanece estable hasta 1,024 fotogramas y 1024px, donde la inferencia directa de video en contexto a menudo se degrada. A lo largo de este barrido, reduce la carga de tokens visuales en el tiempo de respuesta hasta 1,500 veces y el TTFT de consulta entre 6 y 80 veces, mientras preserva resultados fieles al video. También encontramos que adaptadores generados de forma independiente para segmentos de video no superpuestos pueden componerse en el espacio de rango, lo que sugiere un camino hacia la internalización fragmentada de videos largos.
Los agentes financieros basados en IA suelen fallar por una razón sencilla: le transfieren la complejidad al usuario. El usuario debe reiterar constantemente sus objetivos, preferencias de riesgo, contexto de cartera, juicios previos y supuestos de mercado cambiantes, mientras que el agente responde, recupera, actúa y olvida. En finanzas, esto no es solo una molestia. En tareas como el análisis de mercado, la revisión de copytrading y la preparación de operaciones, el contexto olvidado y la memoria obsoleta pueden generar latencia, errores recurrentes, una auditoría deficiente y decisiones inseguras. Proponemos el arnés de conocimiento nativo a la interacción (InKH, por sus siglas en inglés), una arquitectura para agentes financieros basados en LLM que absorbe la complejidad en el sistema. InKH convierte los eventos del usuario, del mercado, de la cartera y de las herramientas en conocimiento operativo estructurado. Utiliza inyección pasiva de conocimiento para ensamblar un búfer de contexto de trabajo acotado antes del paso principal del modelo, memoria gráfica temporal para recuperación de baja latencia, una superficie de auditoría tipo wiki para una gobernanza legible por humanos, y extracción de antecedentes con madurez, decaimiento e invalidación en tiempo de escritura. Evaluamos InKH en un punto de referencia sintético controlado y reproducible con 24 semillas aleatorias, 4 rondas, 80 episodios por ronda y 6 líneas base, produciendo 46 080 evaluaciones condicionadas a las líneas base. InKH alcanza una calidad media de tarea de 0,815 con una latencia de 900 ms. En comparación con la memoria de recorrido wiki impulsada por el agente, reduce la latencia en un 82,95 %, el costo de tokens en un 82,29 % y el uso de conocimiento obsoleto en un 96,58 %, al tiempo que mejora la calidad en 0,108 y la trazabilidad en 0,461. En comparación con un sistema de grafo temporal sin invalidación, mejora la calidad en 0,050 y reduce el uso de memoria obsoleta en un 96,58 % con un costo de servicio comparable. Los resultados respaldan una tesis de diseño para la IA financiera: la adopción se produce cuando la complejidad es absorbida por el sistema, no transferida al usuario. El punto de referencia valida el comportamiento a nivel de arquitectura, no el rendimiento en operaciones en vivo.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido recientemente como la piedra angular para moldear las notables capacidades de codificación de los Modelos de Lenguaje Grandes (LLM). Sin embargo, la escalabilidad del RLVR está severamente limitada por la escasez de tareas de código verificables suficientemente desafiantes que apunten cerca del borde de competencia del modelo. Estudios previos a menudo dependen de expansiones heurísticas de semillas para la síntesis de datos, lo que limita gravemente tanto la novedad como la dificultad. En consecuencia, el valor de entrenamiento de dichos datos no escala proporcionalmente con el tamaño de su síntesis. Para abordar esto, proponemos Descomposición Atómica y Recombinación (ADR), un marco novedoso que genera tareas de código verificables mediante la descomposición en elementos atómicos y la recombinación controlada, permitiendo así la generación de tareas de código verificables genuinamente novedosas y desafiantes. Experimentos y análisis demuestran que ADR logra una originalidad, dificultad, diversidad y calidad de prueba superiores en comparación con las líneas base existentes, y proporciona consistentemente mayores mejoras en la habilidad de código a través de RLVR en diversos dominios downstream, incluyendo programación algorítmica, uso de herramientas y ciencia de datos. Nuestro trabajo arroja luz sobre un nuevo paradigma para la síntesis de tareas de código novedosas y el entrenamiento escalable con RLVR.
Los sistemas de recomendación musical suelen tratar las canciones como tokens opacos, basándose en historiales de interacción colaborativa que ignoran el contenido semántico o acústico. Trabajos previos han explorado enfoques aumentados con LLM, multimodales y mejorados con texto para la recomendación secuencial, y aunque algunos métodos combinan parcialmente señales semánticas, acústicas o de participación, ninguno modela conjuntamente las tres dentro de un marco unificado de razonamiento secuencial basado en LLM que fundamente las recomendaciones en el contenido real de las canciones. En este trabajo, proponemos un marco multimodal para la recomendación musical basada en sesiones que enriquece el conjunto de datos LastFM-1K con tres señales complementarias: (1) incrustaciones de audio y letras extraídas mediante modelos preentrenados de representación musical y textual, (2) metadatos semánticos generados por LLM utilizando el esquema de anotación MGPHot, y (3) ratios de finalización de escucha. Adoptamos el marco E4SRec extendiéndolo con características multimodales y diferentes codificadores de identificadores de ítems, incluyendo SASRec, BERT4Rec y GRU4Rec. Además, extendemos la opción de backbone LLM con LLaMa-2-13B, Qwen2.5-7B-Instruct y LLaMa-3-70B tanto en configuraciones de cero disparos como de ajuste fino. Nuestros experimentos muestran que la integración de características basadas en contenido mejora las líneas base de solo ID hasta en un 95% en términos de Recall y un 79% en términos de NDCG. Además, nuestros experimentos muestran que la fusión multimodal ingenua no siempre produce mejoras aditivas, lo que destaca los desafíos en la integración entre modalidades. Publicamos un banco de pruebas multimodal a gran escala para la recomendación musical.
Los modelos de lenguaje de gran escala se implementan cada vez más como agentes de codificación, trasladando la seguridad de respuestas individuales a secuencias de acciones. Sin embargo, los benchmarks existentes evalúan principalmente si los modelos rechazan indicaciones inseguras, dejando en gran medida sin examinar los impactos en espacios de trabajo con estado. Presentamos SABER, un benchmark para la seguridad operativa consciente del entorno que sitúa a los modelos en proyectos realistas de estilo agente y evalúa la seguridad a partir del estado final del entorno tras una secuencia de acciones. Más allá de los informes binarios de violaciones de seguridad, SABER categoriza las violaciones por causa, permitiendo el análisis de perfiles de seguridad específicos de cada modelo. Nuestras evaluaciones muestran que incluso el modelo de mejor rendimiento tiene una tasa de violaciones de seguridad perjudiciales (HSR) superior al 54%, lo que sugiere que el alineamiento actual sigue siendo insuficiente para entornos de proyecto realistas. SABER revela además perfiles de seguridad distintos entre los modelos. Nuestro benchmark está disponible públicamente en https://github.com/sssr-lab/saber.
La investigación en IA a menudo requiere tomar decisiones antes de que exista evidencia futura: qué cuello de botella abordar, qué dirección seguir o dónde posicionar un proyecto. Presentamos ForeSci, un punto de referencia temporalmente controlado para evaluar si los agentes de LLM pueden realizar este tipo de juicios prospectivos de investigación a partir de evidencia histórica. ForeSci contiene 500 tareas en cuatro dominios de IA de rápido avance y cuatro familias de decisiones. Cada tarea se empareja con una base de conocimiento offline alineada con un corte temporal; los artículos posteriores al corte se ocultan durante la generación y solo se utilizan para validación. Para evitar la predicción aleatoria de eventos futuros, las tareas se derivan de ramas taxonómicas y señales de evidencia anteriores al corte, y los backbones de generación de respuestas se seleccionan para anteceder a dichos cortes. Evaluamos LLMs nativos, RAG híbrido y tres adaptaciones de agentes de investigación en cuatro backbones. Los resultados muestran que la organización explícita de la evidencia mejora la trazabilidad y el respaldo factual, pero las ganancias dependen fuertemente de la familia de decisiones. Los diagnósticos revelan un desacoplamiento recurrente entre evidencia y decisión: los agentes pueden citar evidencia relevante mientras predicen el objeto de investigación incorrecto. ForeSci convierte los juicios prospectivos de investigación en IA en un punto de referencia controlado para evaluar agentes de investigación como sistemas de toma de decisiones.
Entrenar modelos precisos de segmentación de imágenes médicas requiere grandes cantidades de datos densamente anotados, cuya obtención es costosa y requiere mucho tiempo. El aprendizaje semisupervisado (SSL) alivia esto al aprender tanto de datos no etiquetados abundantes como de datos etiquetados limitados. Sin embargo, la mayoría de los métodos SSL modernos se basan en pseudoetiquetas para los datos no etiquetados y típicamente evalúan su fiabilidad a través de la confianza o incertidumbre del modelo, medidas que son autorreferenciales y carecen de una fundamentación explícita en la calidad de la segmentación. En cambio, proponemos un marco de SSL guiado por calidad que entrena una red dedicada para estimar la calidad de la segmentación a partir de pares de imagen-máscara. El predictor se entrena con máscaras de calidad variable generadas mediante corrupciones sintéticas aumentadas con salidas imperfectas de modelos de segmentación parcialmente entrenados, capturando patrones de error realistas encontrados durante el entrenamiento. Integramos el predictor de calidad en SSL mediante dos mecanismos complementarios: una pérdida de regularización consciente de la calidad y un esquema de reponderación de muestras de pseudoetiquetas basado en calidad. Demostramos que nuestro método sirve como una mejora integrable en marcos SSL existentes. Amplios experimentos en cinco conjuntos de datos y múltiples arquitecturas muestran mejoras consistentes sobre métodos SSL competidores, avanzando el estado del arte en la segmentación semisupervisada de imágenes médicas.
El aprendizaje de representaciones de modelos CAD es un problema en gran medida abierto. Mientras que el aprendizaje de representaciones 3D ha florecido en torno a nubes de puntos y mallas, el formato nativo de CAD —las representaciones de frontera (BReps, por sus siglas en inglés), que codifican superficies paramétricas exactas, curvas y su topología— ha recibido poca atención como sustrato para el aprendizaje de representaciones. Presentamos BRepCLIP, el primer marco que alinea la geometría BRep con incrustaciones de lenguaje e imágenes mediante preentrenamiento contrastivo. Modelamos cada objeto CAD como una secuencia de tokens de caras y aristas con vocabularios discretos separados para la geometría de superficies y curvas, aumentados con descriptores espaciales y semánticos que capturan tipos de superficie (por ejemplo, cilíndrica, toro, NURBS) y primitivas de curvas (por ejemplo, línea, arco, B-spline). Un codificador transformer agrega estos tokens en una incrustación BRep global, alineada con los codificadores de texto e imagen de CLIP mediante un objetivo contrastivo conjunto. BRepCLIP genera incrustaciones más discriminativas y fundamentadas semánticamente que las alternativas existentes basadas en puntos, mejorando la recuperación Top-1 sobre OpenShape en un 40.4%, 22.0% y 23.9% en ABC, CADParser y Automate, respectivamente, y mejorando la clasificación de cero disparos en FabWave en un 15% en la puntuación Top-1. Además, demostramos su utilidad como métrica de similitud consciente de CAD para evaluar la generación de CAD condicionada por texto e imágenes, estableciendo la importancia del preentrenamiento consciente de la estructura para la comprensión multimodal de CAD. La página del proyecto está disponible en https://muhammadusama100.github.io/BrepClip2026/