Artículos de investigación en IA seleccionados diariamente con traducciones
El progreso reciente en el desarrollo de modelos de lenguaje ha estado definido por la escala, donde cada generación incorpora más conocimiento del mundo en sus pesos. Sin embargo, muchas aplicaciones prácticas se benefician más de un razonamiento sólido que de un conocimiento paramétrico extenso. En este contexto, los modelos de lenguaje pequeños (SLMs) especializados en tareas ofrecen una opción de diseño fundamentada. Presentamos el Núcleo Cognitivo Óptimo (OCC), una familia de SLMs construida sobre esta premisa. Como variante de OCC, presentamos OCC-RAG, optimizado para la respuesta fiel a preguntas (QA) basada en el contexto proporcionado. Esta tarea se alinea directamente con el enfoque de diseño de OCC, ya que requiere razonamiento de múltiples pasos sobre pasajes suministrados, ignorando el conocimiento memorizado. Para entrenar OCC-RAG, implementamos un novedoso pipeline para sintetizar datos de QA de múltiples contextos y múltiples pasos a escala, produciendo un corpus de más de tres millones de ejemplos centrados en el razonamiento de múltiples pasos, la fidelidad estricta al contexto y la abstención calibrada. Publicamos OCC-RAG-0.6B y OCC-RAG-1.7B, ambos entrenados de forma intermedia en este corpus. Los modelos generan trazas de razonamiento estructuradas con citas de fuentes basadas en citas textuales del contexto. A través de OCC-RAG, demostramos que los SLMs compactos y especializados en tareas pueden igualar o superar a modelos de propósito general de 2 a 6 veces su tamaño en evaluaciones de razonamiento de múltiples pasos (HotpotQA, MuSiQue, TAT-QA), fidelidad (ConFiQA) y rechazo (MuSiQue-Un).
Identificar qué regiones cerebrales representan un concepto visual en el cerebro humano es un desafío central en neurociencia. Los enfoques existentes han localizado regiones funcionales amplias (por ejemplo, rostros, lugares) mediante maximización de activación, identificando regiones que se activan fuertemente para un concepto objetivo en relación con otros conceptos. Sin embargo, la activación intensa por sí sola no establece que la región represente el concepto en sí, ya que las respuestas podrían estar impulsadas por señales visuales o semánticas correlacionadas. Presentamos BrainCause, un marco automatizado que combina modelos generativos y cerebrales para sintetizar estímulos controlados y validar representaciones neuronales mediante pruebas causales dirigidas. Dada una consulta que especifica un concepto de interés, nuestro marco construye conjuntos de estímulos dirigidos que comprenden imágenes del concepto, ediciones contrafactuales que eliminan el concepto objetivo mientras preservan el resto del contenido de la imagen, e imágenes con distractores candidatos correlacionados. Luego utiliza un modelo de codificación de imagen a fMRI para predecir respuestas cerebrales y busca representaciones que respondan específicamente al concepto objetivo frente a alternativas correlacionadas. BrainCause devuelve representaciones candidatas validadas y propone experimentos de fMRI de seguimiento para probar o extender sus descubrimientos. Nuestro enfoque recupera con éxito localizaciones funcionales conocidas e identifica nuevas representaciones candidatas en docenas de conceptos, validadas tanto en datos de fMRI predichos como medidos. Críticamente, mostramos que sin validación causal, una gran fracción de las localizaciones serían falsos positivos, confirmando que la activación por sí sola no es evidencia suficiente de representación.
La Destilación en Política (OPD, por sus siglas en inglés) es una técnica fundamental para el post-entrenamiento eficiente de modelos de lenguaje de gran escala (LLMs), con amplias aplicaciones en aprendizaje de agentes, mejora multitarea y compresión de modelos. Sin embargo, el entrenamiento OPD se vuelve inestable cuando las distribuciones del profesor y del estudiante difieren sustancialmente, ya que la supervisión del profesor sobre los tokens generados por el estudiante puede producir gradientes de política poco fiables e incluso causar fallos en la optimización. Este trabajo aborda la supervisión fiable a nivel de token en política mediante estrategias de asignación de crédito y propone la Destilación en Política de Región de Confianza, TrOPD. Presenta las siguientes características: 1) Aprendizaje en Política de Región de Confianza: TrOPD realiza OPD solo en regiones donde el profesor proporciona supervisión fiable, mitigando la dificultad de optimización del estimador K1 de divergencia KL inversa bajo desajuste de distribuciones. 2) Estimación de valores atípicos: Para regiones atípicas, exploramos el recorte de gradientes, el enmascaramiento y la estimación de divergencia KL directa para reducir los efectos adversos de la supervisión no fiable. 3) Guía fuera de política: El estudiante continúa la generación a partir de prefijos del profesor y utiliza la divergencia KL directa para imitar la guía fuera de política, fomentando la exploración en política hacia regiones fiables. Los experimentos muestran que TrOPD supera consistentemente a las líneas base OPD de última generación, incluyendo OPD, EOPD y REOPOLD, en razonamiento matemático, generación de código y puntos de referencia de dominio general.
Presentamos Humanoid-GPT, un Transformer tipo GPT con atención causal entrenado en un corpus de movimiento a escala de miles de millones para el control de cuerpo completo. A diferencia de los seguidores MLP superficiales previos, limitados por la escasez de datos y el compromiso entre agilidad y generalización, Humanoid-GPT se preentrena en un corpus reorientado de 2 mil millones de fotogramas que unifica todos los conjuntos de datos importantes de captura de movimiento con grabaciones internas a gran escala. Escalar tanto los datos como la capacidad del modelo produce un único Transformer generativo que sigue comportamientos altamente dinámicos, logrando al mismo tiempo una generalización cero-shot sin precedentes a movimientos y tareas de control no vistos. Experimentos exhaustivos y análisis de escalado muestran que nuestro modelo establece una nueva frontera de rendimiento, demostrando una generalización cero-shot robusta a tareas no vistas mientras sigue simultáneamente movimientos altamente dinámicos y complejos.
El escalado en tiempo de prueba es un enfoque poderoso para obtener un mejor razonamiento en modelos de lenguaje grandes, pero se convierte en un cuello de botella de memoria durante la decodificación de horizonte largo, ya que la caché KV crece. La cuantificación de la caché KV puede ayudar a mejorar esto, pero los métodos actuales se evalúan en entornos similares a los de prellenado y los errores se comportan de manera diferente bajo decodificación autorregresiva. Mostramos que, en este último régimen, los errores de cuantificación se acumulan a lo largo de los pasos de tiempo, impulsados principalmente por escalas de tokens incorrectas. Introducimos KVarN, un cuantificador de caché KV sin calibración que aplica una rotación de Hadamard seguida de una normalización de varianza de doble escala a lo largo de ambos ejes de las matrices K y V. Encontramos que esta combinación corrige los errores atípicos en las escalas de tokens y reduce sustancialmente la acumulación de errores en comparación con las líneas base existentes. KVarN establece un nuevo estado del arte para la cuantificación de caché KV en benchmarks generativos, incluyendo MATH500, AIME24 y HumanEval, con precisión de 2 bits. Una implementación vLLM del método KVarN está disponible en https://github.com/huawei-csl/KVarN.
El post-entrenamiento con aprendizaje por refuerzo (RL) mejora los modelos de lenguaje grandes (LLMs) en dominios individuales como el razonamiento matemático, la generación de código, la respuesta a preguntas y la escritura creativa (CW), pero el entrenamiento en un dominio a menudo degrada el rendimiento en otros. Las explicaciones existentes basadas en el olvido catastrófico o el conflicto global de gradientes son incompletas: puede ocurrir una interferencia sustancial incluso cuando los gradientes del modelo completo son casi ortogonales. Mostramos que el RL de un solo dominio produce ediciones de parámetros dispersas y de pequeña magnitud con una superposición débil entre las neuronas más modificadas, mientras que diferentes dominios aún comparten rutas de cómputo activas sustanciales en las que las direcciones de actualización determinan si actúan de manera sinérgica o en conflicto. Guiados por esta observación, demostramos bajo un modelo de perturbación local de RL multi-dominio que el entrenamiento en un dominio posterior perjudica a un dominio anterior principalmente a través de un término de daño de segundo orden, que bajo la estructura de ruta dispersa observada se concentra en un subespacio de conflicto compartido de baja dimensionalidad. Además, un breve refresco de dominio contrae el componente dañino en este subespacio, permitiendo una recuperación selectiva con daño colateral limitado. Consistente con la teoría, un breve refresco de Re-Matemáticas después de Código → Matemáticas → Preguntas-Respuestas → Escritura Creativa recupera Matemáticas de 57.66 a 66.04 mientras preserva en gran medida el rendimiento en los otros dominios, logrando la mejor puntuación promedio de 66.39. Más allá del refresco, un retroceso sin entrenamiento en un conjunto disperso de coordenadas de conflicto proxy para el par Matemáticas-Preguntas-Respuestas restaura parcialmente Matemáticas, proporcionando evidencia directa a nivel de proxy de daño localizado. Estos resultados ofrecen una explicación mecanicista localizada de la interferencia y recuperación en RL multi-dominio.
Los modelos del mundo y los modelos de lenguaje grandes multimodales (MLLMs) ofrecen capacidades complementarias para predecir resultados futuros a partir de observaciones visuales estáticas. Los modelos del mundo pueden generar simulaciones visuales concretas de futuros posibles, mientras que los MLLMs pueden razonar de manera abstracta sobre preguntas, metas y reglas. Sin embargo, las simulaciones generadas son estocásticas y pueden ser visualmente plausibles pero incorrectas para la tarea, lo que hace necesario determinar cuándo la simulación visual es útil, si una simulación es creíble y cómo debería influir en la respuesta final. Formulamos este problema como razonamiento concreto controlado, donde un modelo aprende a invocar, verificar e integrar la simulación visual futura junto con el razonamiento abstracto. Para estudiar este escenario, construimos dos puntos de referencia verificados por humanos, VRQABench para el análisis espacial controlable y OpenWorldQA para la predicción física de dominio abierto, y proponemos la Auto-destilación en Política con Futuro Privilegiado (PF-OPSD). Durante el entrenamiento, PF-OPSD utiliza únicamente videos futuros reales y respuestas como contexto privilegiado del lado del maestro para evaluar las trayectorias de razonamiento concreto en política, mientras que el estudiante desplegable nunca observa futuros reales en el momento de la prueba. Los resultados experimentales muestran que PF-OPSD supera a la línea base en un 10,6% y un 10,9% en VRQABench y OpenWorldQA, respectivamente, al tiempo que aumenta la robustez ante simulaciones ruidosas o conflictivas. Nuestro código y conjunto de datos están disponibles en https://github.com/yczhou001/PF-OPSD.
Se espera cada vez más que los agentes autónomos respalden flujos de trabajo integrales de investigación en IA médica, yendo más allá de tareas de predicción aisladas o respuestas breves a preguntas clínicas. Sin embargo, los puntos de referencia existentes para agentes médicos evalúan principalmente los resultados finales, proporcionando una visibilidad limitada del comportamiento del agente durante el proceso de investigación. Para abordar esta brecha, presentamos AutoMedBench, un punto de referencia consciente del flujo de trabajo para la investigación autónoma en IA médica en diversas tareas de imágenes médicas e inferencia multimodal, organizando la ejecución del agente en un flujo de trabajo unificado de cinco etapas (S1-S5): Planificar, Configurar, Validar, Inferir y Enviar. Comprende tareas de largo horizonte con un promedio de 33 turnos de agente por ejecución, abarcando cinco líneas de investigación: segmentación, mejora de imágenes, respuesta visual a preguntas (VQA), generación de informes y detección de lesiones. Cada tarea se evalúa bajo dos niveles de dificultad, Lite y Estándar, que utilizan los mismos datos y métricas pero difieren en la cantidad de andamiaje del resumen de la tarea, y cada ejecución se puntúa utilizando tanto el rendimiento final de la tarea como las puntuaciones de las etapas S1-S5, lo que permite un análisis a nivel de etapa desde el resumen inicial de la tarea hasta el artefacto final enviado. A lo largo de miles de ejecuciones registradas, la puntuación a nivel de etapa revela que Validar es la etapa más débil del flujo de trabajo en promedio, mientras que Configurar es la más fuerte, lo que sugiere que los agentes actuales son mejores para hacer que los pipelines sean ejecutables que para verificar su fiabilidad. El análisis de errores posterior a la ejecución muestra además que los fallos de verificación y envío dominan los errores etiquetados, representando el 37,7% y el 38,1% de los códigos disparados respectivamente, mientras que los errores de comprensión de la tarea son raros con un 0,9%, y las ejecuciones con un código de error disparado tienen una puntuación general un 48% menor que las ejecuciones sin ningún código de error en promedio.
El entrenamiento intermedio se ha convertido en una etapa importante en el desarrollo moderno de LLM, utilizando mezclas curadas a gran escala para fortalecer capacidades antes del entrenamiento posterior final. Su problema de selección de datos es distintivo: los datos se optimizan bajo un objetivo de estilo de preentrenamiento a una escala cercana al preentrenamiento, pero se curan hacia capacidades posteriores y se extraen de fuentes heterogéneas con diferentes formatos y roles de entrenamiento. Como resultado, la selección efectiva requiere tanto escalabilidad como criterios semánticos adaptativos a la fuente. Los métodos existentes basados en modelos escalan bien, pero proporcionan solo señales implícitas de calidad. Los métodos de selección semántica ofrecen juicios más sólidos, pero generalmente asumen rúbricas fijas o formatos de datos estandarizados. Para abordar este desajuste, proponemos MIRA, un marco de filtrado consciente de la fuente basado en el descubrimiento de rúbricas autoancladas. La idea clave es hacer que la construcción de rúbricas sea parte de la selección de datos: MIRA primero descubre qué debe evaluarse para cada grupo de fuentes, luego destila esos juicios en evaluadores estudiantes escalables para el filtrado de todo el corpus. En el entrenamiento intermedio orientado a código con 21 fuentes y 5 grupos de fuentes, MIRA supera las líneas base de selección en nueve puntos de referencia de código y iguala el rendimiento de la ejecución de todo el corpus mientras utiliza solo la mitad de los tokens.
El aprendizaje por refuerzo (RL) para razonamiento visual necesita señales de entrenamiento escalables, verificables y controlables. El post-entrenamiento visual con RL existente se entrena en conjuntos de datos curados estáticos, con muestras fijas de imagen-pregunta-respuesta limitadas por su presupuesto de recolección. En este trabajo, introducimos TRON (Targeted, Rule-verifiable Online eNvironments), un sustrato de entorno en línea: una trayectoria de entrenamiento se genera bajo demanda mediante un programa generador-verificador controlable que muestrea un nuevo estado visual latente, renderiza una imagen, formula una pregunta y verifica exactamente la respuesta. Por lo tanto, una sola ejecución puede generar un flujo ilimitado de instancias nuevas al nivel de dificultad requerido por el currículo actual. El conjunto actual de TRON contiene 520 entornos organizados en cinco categorías de habilidades (espacial, matemática, diagramas, patrones/lógica y conteo); el mismo sustrato admite tanto un modelo completo entrenado en todas las categorías como modelos especializados por categoría, sin necesidad de recolección adicional de datos. También presentamos un análisis del sustrato que cubre la fiabilidad de generación, la diversidad de instancias y niveles, los casi duplicados entre entornos y la tasa de aprobación del modelo base por nivel de dificultad. El post-entrenamiento con RL usando METHOD mejora consistentemente el rendimiento en diez puntos de referencia externos de razonamiento multimodal en Qwen3-VL-4B, Qwen2.5-VL-7B y MiMo-VL-7B-SFT.
Comprender un video requiere más que reconocer momentos aislados, ya que los humanos rastrean continuamente entidades, estados y eventos a lo largo del tiempo. Esta capacidad de seguimiento de estado visual es fundamental para la comprensión de videos, pero sigue siendo poco explorada en las evaluaciones actuales de los Modelos de Lenguaje Grandes Multimodales (MLLMs). Presentamos el punto de referencia de Seguimiento de Estado Visual (VSTAT, por sus siglas en inglés), un benchmark basado en videos diseñado para diagnosticar el seguimiento de estado visual en MLLMs. VSTAT consta de 834 clips extraídos tanto de videos sintéticos como del mundo real, emparejados con 1500 preguntas que no pueden responderse a partir de un solo fotograma o segmento corto, lo que requiere una percepción continua e integración de eventos a lo largo de toda la secuencia de video. A pesar de su sólido rendimiento en los benchmarks de video existentes, encontramos que los MLLMs de última generación obtienen resultados muy por debajo de los humanos y solo modestamente por encima de las líneas base de prioridad de respuesta. Para analizar esta brecha, comparamos las trazas de razonamiento de los MLLMs con la secuencia de video subyacente para comprender por qué y cuándo fallan en VSTAT. Observamos que los MLLMs razonan y rastrean correctamente en texto, pero fallan en percibir visualmente los eventos que necesitan rastrear. Finalmente, nuestra evaluación preliminar sugiere que los enfoques agentivos recientes, incluidos los agentes de video basados en MLLMs y los agentes de codificación, no resuelven fácilmente estos fallos, aún quedándose cortos en VSTAT.
En las últimas décadas se han producido avances significativos en el diseño de algoritmos de aprendizaje automático, desde los primeros estudios sobre modelos superficiales específicos de tareas hasta modelos profundos más generales, como los Grandes Modelos de Lenguaje (LLMs). A pesar de mostrar resultados prometedores en tareas que requieren predicción instantánea o aprendizaje en contexto, los modelos existentes carecen de la capacidad de aprender de forma continua y transferir eficazmente su conocimiento temporal en contexto a sus parámetros a largo plazo. Inspirados en el proceso de aprendizaje humano, introducimos un paradigma de "Sueño" que permite a los modelos aprender de forma continua, destilar sus recuerdos frágiles a corto plazo en conocimiento estable a largo plazo mediante repetición, y mejorarse recursivamente a través de un proceso de "Soñar". En más detalle, el sueño consta de dos etapas: (1) Consolidación de la Memoria: un proceso de destilación ascendente, llamado Siembra de Conocimiento, donde los recuerdos de un yo más pequeño se destilan en una red más grande para proporcionar mayor capacidad mientras se preserva el conocimiento. Como prueba de concepto, presentamos un nuevo proceso de Destilación Generalizada para la Siembra de Conocimiento (es decir, la combinación de destilación en política con aprendizaje por imitación basado en Aprendizaje por Refuerzo (RL)); (2) Soñar: una fase de auto-mejora, donde el modelo utiliza RL para generar un currículum de datos sintéticos con el fin de ensayar nuevos conocimientos y refinar capacidades existentes sin supervisión humana. Nuestros experimentos en tareas de horizonte largo, aprendizaje continuo, incorporación de conocimiento y generalización con pocos ejemplos respaldan la importancia de la etapa de sueño.
A medida que avanzan las capacidades de los vehículos autónomos, la evaluación segura de las políticas de conducción en escenarios de cola larga sigue siendo un cuello de botella crítico. En la simulación en lazo cerrado, el modelo de política de conducción interactúa activamente con el entorno, donde sus acciones actualizan dinámicamente el estado del simulador e influyen directamente en el siguiente conjunto de observaciones de sensores generadas. Si bien los simuladores neuronales basados en reconstrucción ofrecen fotorrealismo, están fundamentalmente limitados por sus datos de captura inicial y tienen dificultades para generalizar a escenas altamente dinámicas o novedosas. Para superar estas limitaciones, presentamos OmniDreams, un modelo mundial generativo fundacional entrenado de forma intermedia y posterior a partir del modelo de difusión Cosmos para generar de forma autorregresiva videos condicionados por acciones en tiempo real. Al aprovechar los ricos priors visuales de Cosmos y el entrenamiento intermedio y posterior en 21 mil horas de escenarios de conducción, OmniDreams sintetiza fenómenos complejos no observados que son difíciles de capturar para los simuladores tradicionales, como condiciones climáticas extremas y comportamientos impredecibles de agentes dinámicos. De manera crucial, condiciona de forma autorregresiva su generación de sensores fotorrealistas en fotogramas pasados, el estado actual del simulador y las acciones de conducción inmediatas. Implementado en un sistema de lazo cerrado con el modelo de política Alpamayo 1 y el orquestador AlpaSim, OmniDreams actúa como un entorno altamente receptivo y reactivo, proporcionando una solución escalable e integral para entrenar y evaluar políticas de conducción autónoma de próxima generación. Además, mostramos resultados preliminares que indican que un modelo mundo-acción (WAM) entrenado posteriormente a partir de OmniDreams logra un rendimiento sólido en el conjunto de datos NuRec de Vehículos Autónomos de IA Física, superando al modelo de política de investigación Alpamayo 1.5 basado en VLA mientras utiliza solo 1/5 de los parámetros totales. Estos resultados resaltan el potencial de un modelo mundial en tiempo real como OmniDreams para servir también como columna vertebral para arquitecturas de políticas.
Los modelos generativos modernos poseen una comprensión profunda del contenido visual, pero entrenarlos para la edición de imágenes suele requerir conjuntos masivos de datos con ejemplos apareados. Esto limita la escalabilidad, especialmente en la edición de video, donde la recolección de datos apareados resulta prohibitivamente costosa. Proponemos Bootstrap Your Generator (ByG), un marco general para el entrenamiento no apareado de modelos de edición basados en emparejamiento de flujo. Este enfoque aprovecha el conocimiento del modelo base sin ninguna señal externa. Nuestro método combina claves de seguimiento de instrucciones extraídas del modelo congelado con consistencia cíclica para preservar la estructura. Para hacer esto manejable, proponemos direccionar los gradientes de las pérdidas descendentes sobre predicciones limpias hacia los estados de entrenamiento ruidosos. Demostramos resultados de vanguardia en escenarios desafiantes de edición de imágenes y video con escasez de datos. Evaluaciones exhaustivas y estudios de usuarios muestran que nuestro método se generaliza eficazmente a dominios no vistos y supera a las líneas base supervisadas entrenadas con millones de muestras. El análisis revela que nuestro direccionamiento de gradientes reduce la brecha entre el entrenamiento y la inferencia, y que la extracción de señales semánticas de un modelo base proporciona una señal de entrenamiento robusta que elimina la necesidad de modelos de recompensa externos.
Proponemos los Modelos de Difusión de Denoising Residual Desacoplado (DRDD, por sus siglas en inglés) para la traducción unificada y eficiente en términos de datos de imagen a imagen (I2I). Si bien los modelos de difusión han avanzado en la traducción I2I en términos de calidad y diversidad, descubrimos una propiedad previamente poco explorada en estos modelos. De manera crucial, más allá de su función convencional de elevación de variedades (es decir, mover datos fuera de variedades de baja dimensionalidad), la inyección de ruido gaussiano facilita la armonización de dominios al alinear implícitamente las distribuciones de características entre dominios, una propiedad particularmente ventajosa para la traducción I2I unificada. Sin embargo, los modelos de difusión existentes erosionan prematuramente este efecto de armonización, ya que el ruido y los residuos se eliminan simultáneamente en un único proceso de difusión acoplado. Para abordar esto, DRDD desacopla el proceso de difusión en dos etapas secuenciales e independientes: (1) una difusión de ruido estocástico para la armonización de dominios y la elevación de variedades, y (2) una difusión residual determinista que aprende la asignación semántica central completamente dentro del dominio de ruido fijo. Este desacoplamiento preserva los efectos de armonización y elevación de variedades a lo largo de la transformación, simplificando sustancialmente el aprendizaje de asignaciones unificadas entre diversas tareas y dominios. Notablemente, la etapa de difusión de ruido se entrena exclusivamente con imágenes abundantes no apareadas del dominio objetivo, lo que mejora enormemente la eficiencia en el uso de datos. Un análisis teórico y empírico exhaustivo demuestra que DRDD es ampliamente compatible con los modelos de difusión convencionales y proporciona de manera consistente una traducción I2I robusta y unificada, incluso con datos apareados limitados. Nuestro código está disponible en https://github.com/HKU-HealthAI/DRDD.
La personalización es una capacidad crucial de los agentes lingüísticos modernos. Sin embargo, la investigación actual posiciona principalmente a los agentes personalizados como respondedores pasivos a las preferencias del usuario, lo que limita su capacidad para interactuar con los usuarios y ofrecer sugerencias o guías de manera proactiva. Para evaluar sistemáticamente dicha personalización proactiva en interacciones realistas, proponemos **Ψ-Bench**, un punto de referencia para evaluar la capacidad de los LLM de influir en usuarios realistas a través de la conversación. Diseñamos tres escenarios de interacción del mundo real que implican persuasión en Ψ-Bench, y dotamos a los clientes simulados de características personales mediante perfiles de usuario explícitos derivados de historiales de diálogo. Evaluamos 10 modelos LLM de vanguardia en Ψ-Bench y encontramos que, si bien la mayoría de los modelos pueden producir argumentos coherentes y razonables, incluso los modelos más avanzados aún tienen un considerable margen de mejora en la persuasión. También observamos que proporcionar acceso a los perfiles de los clientes produce una ganancia de rendimiento promedio del 18.24%, lo que destaca la importancia de la información específica del usuario para una persuasión efectiva. En general, nuestro trabajo resalta la influencia sensible a la personalidad como una dirección desafiante pero práctica para evaluar y desarrollar agentes LLM personalizados más proactivos. Los códigos están disponibles en: https://github.com/Hanpx20/Psi-Bench.
El escalado en tiempo de prueba mejora el rendimiento de razonamiento de los modelos de lenguaje grandes, pero incurre en un costo sustancial tanto en cómputo total como en latencia. Los métodos existentes de muestreo adaptativo mitigan parcialmente este problema al decidir dinámicamente cuándo dejar de muestrear, aunque típicamente se basan en reglas heurísticas o en supuestos sobre la distribución. En este trabajo, formulamos el muestreo adaptativo como un proceso de decisión de Markov (MDP). Entrenamos un controlador de muestreo ligero mediante aprendizaje por refuerzo (RL) para equilibrar conjuntamente la corrección de la respuesta, la latencia y el costo computacional. En cada ronda, el controlador decide si detener el muestreo o adquirir muestras adicionales. Nuestro método es ligero y solo depende de estadísticas de las respuestas finales, pudiendo ser entrenado e implementado en CPU. Además, mostramos que el marco resultante admite una interpretación como la relajación lagrangiana de un problema de optimización con restricciones explícitas de presupuesto. Los experimentos frente a líneas base sólidas como ASC y ESC demuestran que nuestro método logra mejores compensaciones entre la corrección de la respuesta, las rondas de muestreo y el total de muestras requeridas.
Los sistemas de auto-arnés como A-Evolve, GEPA y Meta-Harness mejoran los agentes LLM optimizando indicaciones, habilidades, herramientas, memorias e infraestructura de soporte a partir de la retroalimentación de ejecución, pero normalmente se evalúan en puntos de referencia fijos fuera de línea. En cambio, los despliegues reales presentan flujos de tareas abiertos: los historiales crecen sin un punto final fijo, las tareas heterogéneas requieren diferentes arneses y las distribuciones de problemas cambian con el tiempo. Estos desafíos hacen que un único arnés actualizado repetida y densamente sea frágil, provocando una degradación del rendimiento a medida que la precisión alcanza un pico temprano y luego disminuye. Esto motiva la construcción sostenida de arneses con adaptación específica a cada tarea. Introducimos Adaptive Auto-Harness, un marco y sistema para dichos flujos. El marco descompone la brecha respecto a un arnés oráculo en pérdida de evolución y pérdida de adaptación. El sistema aborda estas pérdidas con un evolucionador multiagente con estado, un árbol de arneses con enrutamiento en tiempo de resolución y ganchos de dirección humana para casos donde el historial carece de la señal necesaria. A través de flujos de mercado de predicciones, competencias de seguridad y previsión de eventos, Adaptive Auto-Harness supera a cinco líneas base de auto-arnés existentes, y las ablaciones atribuyen las ganancias a una mejor construcción, enrutamiento o dirección humana específica. El código está disponible en https://github.com/A-EVO-Lab/AdaptiveHarness .
Presentamos PaddleOCR-VL-1.6, un modelo compacto mejorado de análisis de documentos construido sobre PaddleOCR-VL-1.5. Aunque PaddleOCR-VL-1.5 establece una sólida línea base de 0.9B, sus errores remanentes se concentran en regiones suboptimizadas donde el comportamiento del modelo es inestable, la cobertura de datos es escasa o la supervisión no es fiable. En lugar de expandir indiscriminadamente el corpus de entrenamiento, PaddleOCR-VL-1.6 introduce un marco de optimización de datos sensible a regiones que identifica regiones débiles del modelo anterior, aplica mejoras dirigidas a estas regiones y mejora la fiabilidad de las señales de supervisión. Además, adopta una receta progresiva de post-entrenamiento basada en selección curada de datos y aprendizaje por refuerzo, llevando el rendimiento del modelo a un nivel superior mediante optimización por etapas. PaddleOCR-VL-1.6 alcanza una nueva puntuación de última generación del 96.33% en OmniDocBench v1.6, demuestra una fuerte competitividad frente a VLMs de primer nivel y proporciona una receta práctica de post-entrenamiento para la serie PaddleOCR-VL.
El ajuste por instrucciones alinea modelos de lenguaje grandes, incluidos los multimodales, con diversas intenciones de usuario, pero el escalado a mezclas heterogéneas se ve obstaculizado por la interferencia de gradientes y la sincronización con alto consumo de ancho de banda. Nos preguntamos si estos dos cuellos de botella pueden abordarse conjuntamente entrenando partes de la mezcla de forma independiente y reconciliándolas una vez en el espacio de parámetros. Desarrollamos una teoría cuadrática local dentro de una cuenca plana compartida que produce tres resultados: la fusión de pesos genera una reducción de varianza ponderada por curvatura; la división de conflictos alineada con PCA maximiza esta ganancia a lo largo de direcciones de alta curvatura; y la fusión adicional actúa como filtrado espectral con regulación implícita de norma. Estos resultados motivan directamente MERIT, un pipeline de ajuste por instrucciones descentralizado y listo para fusión que estima conflictos de gradientes a nivel de conjunto de datos, particiona la mezcla a lo largo de los principales ejes de conflicto de PCA, ajusta cada partición de forma independiente sin comunicación entre particiones, y fusiona una vez mediante promediado ponderado por tokens. En Qwen2.5-VL-3B con 136 tareas de Vision-FLAN, MERIT mejora el promedio de 8 benchmarks de 54.3 (entrenamiento conjunto) a 57.0. La misma receta escala a un modelo de 7B en una mezcla de 1.6 millones de ejemplos y 176 fuentes, igualando o superando el entrenamiento conjunto centralizado con un costo adicional mínimo, y se transfiere a FLAN solo de texto. Nuestro código está disponible en https://github.com/naver-ai/merit.
La navegación visual corporizada, donde un agente percibe un entorno complejo y actúa para alcanzar un objetivo a partir de datos sensoriales brutos, sustenta una amplia gama de aplicaciones como la robótica doméstica, la robótica asistencial y la exploración autónoma a gran escala. Sin embargo, los intentos recientes de unificar la navegación visual y lingüística (VLN) y la navegación con objetivo de objeto (ObjNav) se mantienen a nivel de fusión arquitectónica, entrenamiento con tareas mixtas y preentrenamiento visual-lingüístico a gran escala, sin examinar si los codificadores de visión y lenguaje entrenados de forma independiente ya comparten una estructura semántica común. Además, incluso los mapas topológicos centrados en objetos siguen fundamentando objetivos lingüísticos mediante supervisión explícita entre modalidades, como CLIP o grandes modelos de visión y lenguaje, dejando abierta la posibilidad de que dicha fundamentación sea posible a partir de un mapa construido puramente con visión. Para abordar estos desafíos, extendemos la Hipótesis de Representación Platónica a la navegación corporizada y reformulamos la ObjNav solo visual, la ObjNav multimodal y la VLN como tres interfaces diferentes hacia la misma variedad semántica centrada en objetos. Además, presentamos PlatonicNav, un marco sin entrenamiento cuyo Mapa Topológico Platónico fusiona distancias geométricas y semánticas de nodos provenientes de un codificador visual auto-supervisado, y fundamenta objetivos lingüísticos mediante emparejamiento ciego sin ningún dato pareado de visión y lenguaje. Experimentos exhaustivos en puntos de referencia de simulación como HM3D-IIN, OVON y R2R-CE en MP3D, junto con la implementación en Unitree Go2, demuestran que PlatonicNav generaliza a través de tareas, modalidades y formas corporizadas sin entrenamiento multimodal explícito. Código: https://github.com/AIGeeksGroup/PlatonicNav. Sitio web: https://aigeeksgroup.github.io/PlatonicNav.
Las trazas largas de cadena de pensamiento (CoT) se utilizan ampliamente como supervisión para el ajuste fino supervisado (SFT) de LLM orientado al razonamiento, sin embargo, las trazas con respuesta correcta pueden conducir a resultados de ajuste fino notablemente diferentes. Estudiamos la continuación posterior a la conclusión en datos largos de CoT con respuesta correcta: una continuación donde la respuesta parece suficientemente respaldada, pero la traza continúa con razonamiento adicional que permanece en el objetivo supervisado. Para probar su efecto en el entrenamiento, utilizamos un editor de solo eliminación para construir una eliminación de sufijo que preserva la respuesta y comparamos el SFT basado en CoT en las trazas originales y procesadas. Observamos mejores resultados de SFT después de eliminar la continuación posterior a la conclusión identificada por el editor, lo que sugiere que esta continuación es perjudicial para el entrenamiento en nuestro contexto. Por lo tanto, denominamos a este fenómeno respaldado empíricamente como continuación perjudicial. Más allá de esta intervención, caracterizamos además la continuación posterior a la conclusión eliminada mediante incertidumbre y progreso del estado oculto. Observamos una incertidumbre local persistente junto con un progreso direccional terminal debilitado, formando un desajuste entre incertidumbre y geometría. Finalmente, implementamos el Corte de Continuación Perjudicial (HCC), un proxy de límite ligero que aproxima el límite de la continuación posterior a la conclusión identificado por el editor.
La destilación on-policy (OPD) entrena un modelo estudiante en sus propias trayectorias generativas bajo una densa retroalimentación a nivel de tokens de un profesor más fuerte, mitigando tanto el cambio de distribución off-policy del ajuste fino supervisado (SFT) como la asignación dispersa de crédito del aprendizaje por refuerzo (RL). Sin embargo, la OPD estándar enfrenta dos limitaciones acopladas. Primero, requiere acceso directo a los logits a nivel de token del profesor, excluyendo a una amplia clase de modelos propietarios capaces de servir como profesores. Segundo, la señal de logit a nivel de token en sí es frágil, dependiendo de un estrecho solapamiento de tokens plausibles siguientes entre profesor y estudiante, y propensa a amplificar patrones degenerados como bucles de repetición. En este artículo, presentamos OmniOPD, un nuevo marco que aborda ambas limitaciones mediante una señal de supervisión a nivel de fragmentos, libre de logits. OmniOPD reemplaza el emparejamiento determinista de logits con simulaciones de Monte Carlo que aproximan las preferencias locales del profesor a través de una métrica continua de similitud semántica sobre fragmentos de múltiples tokens, y concentra esta supervisión mediante un programador de entropía máxima que audita al estudiante solo en sus bifurcaciones de razonamiento de alta incertidumbre. Un prior bayesiano de Dirichlet-Multinomial y un ancla KL del modelo base acotan aún más la varianza del muestreo discreto y previenen el colapso de la política en tokens no auditados. En benchmarks competitivos, OmniOPD supera al enfoque OPD estándar hasta en un +28.64% en matemáticas, confirmando que la verificación semántica a nivel de fragmentos extrae una señal de aprendizaje más confiable que el emparejamiento de logits a nivel de token, cuya alta densidad de información se ve compensada por un ruido y fragilidad significativos. Además, cuando se combina con profesores de caja negra más fuertes como Claude-4.5-Haiku y Gemini-2.5-Flash, OmniOPD logra un +9.54% relativo adicional en matemáticas en comparación con su contraparte de profesor de pesos abiertos, avanzando al estudiante más allá del rendimiento del RL autoexploratorio.
Los modelos actuales de similitud musical suelen calcular una puntuación única y monolítica, enredando dimensiones musicales distintas como la melodía, el ritmo y el timbre. Esto limita el control del usuario y la interpretabilidad, imposibilitando la ejecución de consultas matizadas. Presentamos MERIT, un marco de aprendizaje de representaciones musicales desenredadas y específicas de cada factor, adaptadas a estas tres dimensiones fundamentales. Para superar la falta de variaciones musicales aisladas en el audio del mundo real, utilizamos una novedosa estrategia de entrenamiento que recurre a la generación condicional de audio y a pistas separadas por fuente (stems) para fomentar de manera decidida la variación de un solo factor en los datos de entrenamiento. Nuestras evaluaciones demuestran un fuerte desenredo por factor. Cada cabeza responde intensamente a su dimensión perceptiva prevista, mientras que se mantiene cerca del azar en las demás, una propiedad representacional que se sostiene tanto en el dominio sintético de entrenamiento como en audio independiente del mundo real.
Los modelos de razonamiento mejoran su precisión mediante cadenas de pensamiento extendidas, pero sus salidas largas crean un cuello de botella en memoria y cómputo. Los métodos de eliminación de la caché KV reducen este costo al descartar pares clave-valor poco importantes de la caché, aunque a menudo producen menor precisión que las alternativas de atención dispersa basadas en selección, que mantienen la caché KV completa. Identificamos factores clave cruciales para la precisión de la eliminación de la caché KV. En primer lugar, una pequeña fracción de los estados de valor tiene magnitudes anormalmente grandes, y eliminarlos provoca un fallo catastrófico en el que los modelos entran en bucles repetitivos de razonamiento. En segundo lugar, introducir estocasticidad durante la eliminación mejora la precisión al aumentar la diversidad de la caché. A partir de estos hallazgos, proponemos Value-aware Stochastic KV Cache Eviction (VaSE), una receta sin entrenamiento que protege los estados de valor de gran magnitud y promueve decisiones de eliminación diversas. En seis tareas de razonamiento, los modelos Qwen3 que utilizan VaSE con compresión 4× de la caché KV logran precisiones promedio más altas que el método de selección de última generación con la misma escasez, superando al método de eliminación más fuerte en más de un 4%. En general, VaSE reduce la brecha entre eficiencia y precisión, es compatible con FlashAttention2 y permite un uso de memoria estática para modelos de razonamiento.
El análisis de elementos finitos (FEA) es el enfoque numérico más importante para la mecánica de sólidos. Los desafíos del FEA incluyen una curva de aprendizaje pronunciada para los usuarios principiantes y posibles simulaciones falsas debido a definiciones incorrectas de componentes clave de la simulación, como las condiciones de contorno, los casos de carga y las variables de solución. Por lo general, se requieren años de experiencia en ingeniería para resolver problemas del mundo real. Para abordar estos problemas, presentamos AbaqusAgent, un marco multiagente basado en modelos de lenguaje extenso (LLMs) para análisis de mecánica de sólidos. AbaqusAgent se desarrolla para facilitar la generación y ejecución de casos de análisis utilizando Abaqus, uno de los paquetes de FEA más utilizados, transformando las instrucciones en lenguaje natural de los usuarios en análisis FEA ejecutados y visualización de resultados. AbaqusAgent está compuesto por seis agentes, que incluyen intérprete, arquitecto, escritor de entrada, ejecutor, revisor y visualizador, abarcando todos los pasos esenciales de preprocesamiento y posprocesamiento de los análisis FEA estándar. Se ha validado con éxito una amplia variedad de 50 problemas de mecánica de sólidos, logrando una tasa de éxito general del 86%. Además de mejorar la eficiencia del FEA para problemas de mecánica de sólidos y reducir la barrera para la educación en mecánica computacional, AbaqusAgent avanza en el paradigma de interacción humano-simulación y permite la integración con flujos de trabajo de optimización y caracterización de materiales potenciados por IA. El código está disponible en https://github.com/LIRAM-LIN/AbaqusAgent.
Los Modelos de Lenguaje de Gran Escala han demostrado un progreso notable en capacidades de propósito general y pueden alcanzar un rendimiento sólido en dominios específicos mediante el ajuste fino con datos propios del dominio. Sin embargo, adquirir datos de alta calidad para los dominios objetivo sigue siendo un desafío significativo. Los enfoques existentes de síntesis de datos siguen un paradigma deductivo, dependiendo en gran medida de descripciones explícitas del dominio expresadas en lenguaje natural y de una cuidadosa ingeniería de instrucciones, lo que limita su aplicabilidad en escenarios del mundo real donde los dominios son difíciles de describir o articular formalmente. En este trabajo, abordamos el problema poco explorado de la síntesis de datos específicos de un dominio mediante un paradigma inductivo, donde el dominio objetivo se define únicamente a través de un conjunto de ejemplos de referencia, particularmente cuando las características del dominio son difíciles de expresar en lenguaje natural. Proponemos un marco novedoso, DOMINO, que aprende una representación mínima suficiente del dominio a partir de muestras de referencia y la utiliza para guiar la generación de datos sintéticos alineados con el dominio. DOMINO integra el ajuste de instrucciones con un objetivo de desenredo contrastivo para separar los patrones a nivel de dominio del ruido específico de las muestras, mitigando el sobreajuste mientras preserva las características centrales del dominio. Teóricamente, demostramos que DOMINO expande el soporte de la distribución de datos sintéticos, asegurando una mayor diversidad. Empíricamente, en desafiantes referencias de codificación donde las definiciones de dominio son implícitas, el ajuste fino con datos sintetizados por DOMINO mejora la precisión de Pass@1 hasta en un 4,63% en comparación con modelos base fuertes ajustados con instrucciones, demostrando su efectividad y robustez. Este trabajo establece un nuevo paradigma para la síntesis de datos específicos de dominio, permitiendo una adaptación práctica y escalable a dominios sin necesidad de diseño manual de instrucciones ni especificaciones del dominio en lenguaje natural.
Un objetivo central de la ciencia social computacional es descubrir diferencias interpretables en cómo el lenguaje varía según resultados de interés, como la afiliación política o la calidad educativa. Los métodos recientes de generación de hipótesis basados en LLM describen dichas diferencias en lenguaje natural, pero seleccionan patrones globalmente discriminativos sin considerar las covariables que moldean los datos según el conocimiento del dominio de los investigadores. Cuando se ignoran las covariables, los patrones seleccionados pueden reflejar confusiones en lugar de diferencias de interés sustantivo. Introducimos la generación de hipótesis condicional, un marco que incorpora covariables especificadas por el investigador para orientar el descubrimiento de hipótesis hacia diferencias que se mantienen dentro de subgrupos relevantes. Surgen dos desafíos: el subgrupo objetivo puede estar subrepresentado (desequilibrio de estratos) y la dirección de una diferencia puede invertirse entre subgrupos (inversión de signo). Proponemos dos métodos inspirados en econometría: uno introduce interacciones característica-covariable para detectar inversiones de signo, y el otro aplica desmediación intra-estrato y reponderación por frecuencia inversa para equilibrar los estratos subrepresentados. Experimentos sintéticos muestran que cada método supera a las líneas base globales en su entorno objetivo, y la evaluación de expertos en dos conjuntos de datos del mundo real confirma que la generación consciente de covariables produce hipótesis más útiles dentro de subgrupos relevantes.
Modelar con precisión los límites suaves, por ejemplo, el cabello y el desenfoque, es un desafío fundamental en la conversión estéreo debido a la mezcla ambigua de primer plano y fondo. Los modelos de profundidad existentes predicen principalmente la profundidad de una sola capa, lo que genera ambigüedad en la correspondencia de profundidad en los límites suaves. Si bien las técnicas de matting pueden capturar la opacidad para un modelado en capas, a menudo tienen dificultades en escenas complejas con múltiples objetos y generalmente requieren intervención del usuario. Este artículo presenta αDepth, una representación en capas que descompone los límites suaves para una conversión estéreo de alta fidelidad. Específicamente, primero resolvemos la ambigüedad de color y profundidad mezclados estimando valores de color y profundidad en capas en los límites suaves. Considerando escenas complejas con múltiples objetos, diseñamos una Representación Circular Alfa (CAR) que cambia el paradigma de la extracción global de objetos a la descomposición local de límites. A diferencia de los métodos de matting anteriores restringidos a un único primer plano/fondo, CAR permite una inferencia eficiente a nivel de escena sin guía manual. Evaluaciones exhaustivas demuestran que αDepth logra un rendimiento de última generación en la conversión estéreo, eliminando el sangrado de fondo y las distorsiones estructurales en los límites suaves.
La visión en tiempo real exige modelos que sean precisos, eficientes y fáciles de implementar en diversos hardware. La familia YOLO se ha desplegado ampliamente por esta razón, sin embargo, la mayoría de los detectores YOLO aún dependen de la supresión de no máximos (NMS) durante la inferencia, llevan cabezales de detección pesados debido a la Pérdida Focal de Distribución (DFL), requieren largos programas de entrenamiento y pueden dejar a los objetos más pequeños sin asignaciones de etiquetas positivas. Presentamos Ultralytics YOLO26, una familia unificada de modelos de visión en tiempo real que aborda estas limitaciones mediante avances coordinados en arquitectura y entrenamiento. YOLO26 utiliza un diseño de cabezal dual para inferencia nativa de extremo a extremo sin NMS y elimina por completo la DFL, resultando en un cabezal más ligero con un rango de regresión sin restricciones. Su pipeline de entrenamiento combina MuSGD, un optimizador híbrido Muon-SGD adaptado del entrenamiento de modelos de lenguaje grandes; Progressive Loss, que desplaza la supervisión hacia el cabezal de inferencia; y STAL, una estrategia de asignación de etiquetas que garantiza cobertura positiva para objetos pequeños. Más allá de la detección, YOLO26 introduce diseños de cabezal y pérdida específicos para tareas de segmentación de instancias, estimación de pose y detección orientada, produciendo mejoras consistentes en tareas y escalas. La familia abarca cinco escalas (n/s/m/l/x) y admite detección, segmentación de instancias, estimación de pose, clasificación y detección orientada en un solo pipeline, con una extensión de vocabulario abierto, YOLOE-26, para inferencia sin texto, visual ni prompts. En todas las escalas, YOLO26 alcanza 40.9-57.5 mAP en COCO con una latencia de 1.7-11.8 ms en T4 TensorRT, avanzando la frontera de precisión-latencia frente a detectores en tiempo real anteriores, mientras que YOLOE-26x alcanza 40.6 AP en LVIS minival bajo prompting textual. El código y los modelos están disponibles en https://github.com/ultralytics/ultralytics.
Las habilidades de agente dotan a los agentes de IA de instrucciones, herramientas, scripts, referencias y flujos de trabajo reutilizables, estableciendo un límite de seguridad distinto tanto de la seguridad del modelo como de la detección tradicional de malware en paquetes. ClawHub Security Signals es un conjunto de datos desinfectado de 67.453 versiones de habilidades públicas recientes de OpenClaw. Cada fila empareja el contenido redactado de SKILL.md y los archivos empaquetados desinfectados (cuando existen) con un veredicto final del registro ClawScan y evidencia de tres familias de escáneres: VirusTotal, análisis heurístico estático y NVIDIA SkillSpector. En lugar de estimar la prevalencia de habilidades maliciosas, estudiamos el desacuerdo entre escáneres. Los tres escáneres rara vez marcan las mismas habilidades: cualquier par se superpone en, como máximo, el 10,4% de sus positivos combinados, solo el 0,69% de las habilidades son marcadas por los tres, y el 81,9% de las habilidades marcadas son identificadas por un único escáner. El desacuerdo está estructurado por la superficie de ataque. SkillSpector, que emite advertencias semánticas de riesgo agentivo en lugar de señales de reputación de malware, resulta positivo para 19.209 de 25.504 filas sospechosas (75,3%), pero solo para 14 de 206 filas maliciosas (6,8%). La región de veredicto malicioso muestra el perfil inverso: 150 de 206 filas maliciosas (72,8%) son positivas en VirusTotal, lo que concuerda con la evidencia de malware en código empaquetado. Estos resultados muestran que la seguridad de las habilidades de agente requiere una gobernanza en capas, no decisiones de permitir/bloquear basadas en un único escáner. El corpus se publica como un conjunto de datos desinfectado de estándar de plata: las etiquetas son los veredictos automatizados del registro, no una verdad fundamental anotada por humanos, y la publicación representa una instantánea temprana y versionada destinada a apoyar a la comunidad mientras se desarrolla un subconjunto anotado por humanos. Se fomenta la investigación adicional, incluidos modelos adaptados para el triaje de seguridad de habilidades.
La caché KV es la memoria adecuada para centros de datos, pero la memoria incorrecta para robots. La inferencia en centros de datos procesa por lotes muchas solicitudes cortas y las reinicia, amortizando una caché de atención entre una multitud. En cambio, los agentes encarnados ejecutan un episodio largo y sin reinicio en hardware de borde con ancho de banda limitado, donde la memoria de alto ancho de banda y la memoria flash son escasas, la memoria flash tiene una resistencia de escritura finita y las escrituras en memoria, en lugar del cómputo, pueden convertirse en la restricción vinculante. AURA-Mem (Memoria Adaptativa Recurrente de Utilidad de Acción) se dirige a este régimen. Envuelve una arquitectura base de visión-lenguaje-acción congelada con una memoria recurrente de tamaño constante y una compuerta aprendida que escribe solo cuando la observación actual cambiaría la siguiente acción: una memoria que sabe cuándo permanecer en silencio. A diferencia de la memoria basada en reconstrucción, la compuerta se entrena directamente con una señal de error de acción en circuito cerrado. Su estado de inferencia es fijo en 4.224 bytes independientemente del horizonte, mientras que una caché KV crece 6.061 veces más en 100.000 pasos. En un banco de pruebas sintético controlado, AURA-Mem iguala la mejor línea base O(1) en precisión mientras utiliza entre 5,19 y 6,13 veces menos escrituras, y hasta 9,19 veces menos escrituras en configuraciones más fáciles. Los programas aleatorios y periódicos ajustados al presupuesto no recuperan esta ganancia, aislando el beneficio a la señal de sorpresa de acción. En un panel entrenado de OpenVLA-OFT 7B en circuito cerrado en LIBERO-Long (n=60 episodios por brazo), la compuerta no perjudica el éxito: AURA-Mem iguala la política base sin compuerta (0,233) y supera ligeramente a un brazo KV de escritura constante (0,217), mientras utiliza 7,0 veces menos escrituras y memoria constante. También instanciamos una cota de pérdida de valor de estado de información aproximado como demostración metodológica; a esta escala, la cota es vacua más que una garantía.
La transferencia visual de simulación a realidad en entornos industriales suele describirse como el paso de imágenes sintéticas a imágenes reales, pero el despliegue industrial implica generalmente un desajuste más amplio entre la evidencia disponible y las decisiones requeridas. Un sistema puede construirse a partir de representaciones CAD, observaciones simuladas RGB-D, imágenes de referencia de normalidad, defectos sintéticos, espacios de características preentrenados o indicaciones lingüísticas, y sin embargo desplegarse bajo diferentes sensores, iluminación, materiales, accesorios, calibración, variación de producción y modos de defecto raros. Esta revisión reencuadra la transferencia visual de simulación a realidad industrial como un problema de brecha de dominio organizado por la disponibilidad previa. Distinguimos configuraciones con CAD disponible, donde la geometría explícita del objeto puede respaldar la representación, calibración, estimación de pose, segmentación y verificación geométrica en tiempo de prueba; configuraciones sin CAD disponible, donde la geometría es reemplazada por apariencia de referencia de normalidad, distribuciones de características, residuales maestro-alumno, suposiciones de anomalías sintéticas, características fundamentales o priors de visión-lenguaje; y configuraciones con prior de contorno, donde modelos aproximados, plantillas, vistas de referencia o correspondencias semánticas preservan solo parte del rol del CAD. Este encuadre conecta la literatura de detección basada en CAD y estimación de pose 6D con la literatura de inspección de anomalías y superficies industriales que suele revisarse por separado. Para concretar la taxonomía, utilizamos anclajes empíricos en T-LESS/BOP, MVTec AD y VisA. Los anclajes muestran que la cantidad de representaciones CAD por sí sola no cierra la transferencia; el diseño de la distribución fuente, la capacidad del detector y una pequeña calibración real pueden ser más relevantes. También muestran que el CAD en tiempo de prueba crea un canal de verificación distinto mediante consistencia de máscara, pose y profundidad, mientras que la inspección sin CAD depende de una normalidad calibrada y la desviación de características. Por lo tanto, la revisión se opone a una única tabla de clasificación transversal entre tareas y, en su lugar, pregunta qué prior fundamenta la decisión de despliegue.
Los modelos feed-forward para reconstrucción 3D han logrado un rendimiento sólido mediante el uso de atención profunda entre vistas para intercambiar información entre imágenes. Sin embargo, estos enfoques a menudo dependen de pilas de decodificadores pesadas y carecen de un mecanismo estructurado para el refinamiento geométrico, lo que resulta en una pobre consistencia multivista. Abordamos esto inspirándonos en el ajuste de haces clásico (bundle adjustment, BA), que puede verse como un proceso iterativo de propagación de información entre las poses y la geometría local. Inspirados en BA, proponemos BA-T, un Transformer iterativo que implementa actualizaciones estructuradas al estilo de BA como una capa repetible en un espacio de tokens implícito. En lugar de depender de pilas de atención profundas, BA-T refina las predicciones basándose en residuos latentes mediante una única capa ligera. Los experimentos demuestran que BA-T mejora progresivamente la precisión de la pose y la reconstrucción a lo largo de las iteraciones, logra una consistencia entre vistas más sólida que los decodificadores convencionales, y supera o iguala modelos considerablemente más grandes utilizando solo el 16% de sus parámetros de decodificador. BA-T proporciona una alternativa compacta, eficiente y estructural a la atención profunda, permitiendo una reconstrucción 3D precisa dentro de una arquitectura ligera. El código se hará público en https://github.com/zhangganlin/BA-T.
Las sondas lineales entrenadas sobre activaciones de LLM se proponen cada vez más como métricas de detección de engaños, pero reportan AUROC superior a 0.96 en evaluaciones limpias mientras colapsan ante cambios distribucionales. Este artículo somete a prueba de estrés sistemática las métricas basadas en sondas en la familia de modelos Gemma 3 (1B-27B parámetros), diagnosticando por qué fallan en lugar de simplemente documentar que fallan. Evaluamos cuatro hipótesis sobre la codificación del engaño: (1) dirección lineal única, (2) subespacio multidimensional, (3) envolvente cónica convexa, (4) proxy de entropía. Nuestro diseño incluye matrices de transferencia entre dominios, análisis de sondas multidimensionales con líneas base nulas por permutación, pruebas de residualización de entropía y evaluaciones con distractores en 8 cambios estilísticos. Encontramos que: (a) las sondas logran un AUROC casi perfecto (>=0.998) en datos limpios pero colapsan ante cambios estilísticos; las sondas aumentadas con estilo recuperan una detección casi perfecta (AUROC medio 0.979-0.983) en estilos no vistos; (b) se rechaza la hipótesis de dirección única (k=1 captura solo 0.61-0.80 AUROC), confirmándose que la falla en la transferencia entre dominios es geométrica, no impulsada por desajuste de capas; (c) se rechaza la hipótesis de proxy de entropía (máx |rho|=0.454, máx Delta-AUROC tras residualización=0.004); y (d) el engaño no forma un subespacio lineal significativo (k*=0 por dominio), pero las sondas multidimensionales (k>=5) recuperan la señal mediante características distribuidas por debajo del umbral. La fragilidad de las sondas refleja estrechez distribucional, no una limitación arquitectónica: las sondas aumentadas con estilo recuperan una detección casi perfecta tanto en 4B como en 27B, estableciendo que el patrón de escala inversa es un artefacto de la distribución de entrenamiento, no un fenómeno genuinamente dependiente de la escala.
Recientes modelos de lenguaje grandes multimodales han demostrado una sólida capacidad de razonamiento; sin embargo, su fiabilidad como evaluadores automatizados sigue siendo limitada por una debilidad crítica: cuando la evidencia visual entra en conflicto con las señales textuales, los evaluadores MLLM tienden a recompensar narrativas plausibles por encima de respuestas perceptuales correctas. Identificamos y analizamos sistemáticamente este fenómeno, al que denominamos Sesgo de Juicio Perceptual. Mediante perturbaciones visuales controladas, los evaluadores multimodales existentes se anclan frecuentemente en el texto de la respuesta en lugar de en su propia percepción visual, lo que genera evaluaciones inconsistentes y no verificables. Para abordar este problema, introducimos el Conjunto de Datos de Juicio con Perturbaciones Perceptuales, que construye respuestas contrafactuales mínimamente editadas que aíslan errores perceptuales y permiten una supervisión verificable. Basándonos en este conjunto, desarrollamos un marco de entrenamiento unificado que combina una recompensa estructurada basada en GRPO con un objetivo de clasificación por lotes, logrando un ordenamiento global coherente sin etiquetas explícitas por pares. Los experimentos en diversos puntos de referencia de MLLM como Juez muestran que nuestro enfoque mejora sustancialmente la fidelidad perceptual, la coherencia de la clasificación y la alineación con la evaluación humana. Nuestros resultados establecen una vía escalable y generalizable para entrenar evaluadores multimodales que sean perceptuales, interpretables y robustos frente a conflictos entre razonamiento visual.
WALL-WM es un Modelo de Acción Mundial (WAM) que transforma el aprendizaje de acciones en video desde una optimización centrada en fragmentos hacia un preentrenamiento Visión-Lenguaje-Acción (VLA) basado en eventos, utilizando eventos de acción semánticamente coherentes como unidad atómica de aprendizaje. Los WAM existentes suelen inicializarse a partir de modelos fundacionales multimodales o de video y luego optimizan fragmentos de acción de longitud fija condicionados directamente a la observación e instrucción actuales. Aunque es conveniente, esta formulación centrada en fragmentos genera un desajuste fundamental de granularidad. El lenguaje describe metas semánticas y eventos, la visión evoluciona a través de dinámicas de escena continuas, y las acciones operan en escalas temporales de control; forzar a los tres dentro de la misma ventana de predicción de longitud fija convierte el entrenamiento VLA en un ajuste de correlación de corto alcance. WALL-WM aborda este desajuste organizando tanto la supervisión como los datos en torno a eventos semánticos. Específicamente, empareja el preentrenamiento VLA basado en eventos con un ecosistema de datos construido a partir de descripciones a nivel de evento y muestreo balanceado por clústeres, permitiendo un aprendizaje escalable en diversos comportamientos, escenas y estructuras de tareas. Desde el mismo tronco preentrenado con eventos, WALL-WM admite dos modos de inferencia complementarios. El modo evento consume descripciones del siguiente evento y permite fragmentos de ejecución de longitud variable, mientras que el modo unificado utiliza un VLM con Decodificación Escalonada (Staircase Decoding) para condicionar la inferencia convencional de fragmentos de longitud fija, preservando al mismo tiempo una ruta VLA con gradiente continuo. Junto con una infraestructura de preentrenamiento a gran escala basada en el optimizador Muon, WALL-WM proporciona una receta práctica de escalado para WAM de propósito general. Los experimentos muestran que WALL-WM se generaliza ampliamente a través del lenguaje, las escenas y las tareas, logrando un rendimiento de vanguardia en la evaluación de generalización en el mundo real a gran escala.