Artículos de investigación en IA seleccionados diariamente con traducciones
Recientemente, estudios ejemplificados por las Hiperconexiones (HC) han extendido el ubicuo paradigma de conexiones residuales establecido durante la última década, ampliando el ancho del flujo residual y diversificando los patrones de conectividad. Si bien esto produce ganancias sustanciales de rendimiento, dicha diversificación compromete fundamentalmente la propiedad de mapeo de identidad intrínseca a la conexión residual, lo que causa una grave inestabilidad en el entrenamiento y una escalabilidad restringida, además de incurrir en una sobrecarga notable de acceso a memoria. Para abordar estos desafíos, proponemos Hiperconexiones con Restricción de Variedad (mHC), un marco general que proyecta el espacio de conexión residual de HC sobre una variedad específica para restaurar la propiedad de mapeo de identidad, incorporando al mismo tiempo una rigurosa optimización de infraestructura para garantizar la eficiencia. Experimentos empíricos demuestran que mHC es efectivo para el entrenamiento a gran escala, ofreciendo mejoras tangibles de rendimiento y una escalabilidad superior. Anticipamos que mHC, como una extensión flexible y práctica de HC, contribuirá a una comprensión más profunda del diseño topológico de arquitecturas y sugerirá direcciones prometedoras para la evolución de los modelos fundamentales.
Presentamos Youtu-LLM, un modelo de lenguaje liviano pero potente que armoniza una alta eficiencia computacional con una inteligencia agéntica nativa. A diferencia de los modelos pequeños típicos que dependen de la destilación, Youtu-LLM (1.96B) es pre-entrenado desde cero para cultivar sistemáticamente capacidades de razonamiento y planificación. Los avances técnicos clave son los siguientes: (1) Arquitectura Compacta con Soporte de Contexto Largo: Construido sobre una densa arquitectura de Atención Multi-Latente (MLA) con un nuevo vocabulario orientado a STEM, Youtu-LLM soporta una ventana de contexto de 128k tokens. Este diseño permite un razonamiento robusto de contexto largo y un seguimiento de estados con una huella de memoria mínima, haciéndolo ideal para tareas agénticas y de razonamiento de horizonte largo. (2) Plan de Estudios "Sentido Común-STEM-Agente" con Fundamentos: Curramos un corpus masivo de aproximadamente 11T de tokens e implementamos una estrategia de entrenamiento multietapa. Al cambiar progresivamente la distribución de datos de pre-entrenamiento desde el sentido común general hacia tareas complejas de STEM y agénticas, aseguramos que el modelo adquiera habilidades cognitivas profundas en lugar de una alineación superficial. (3) Entrenamiento Intermedio Agéntico Escalable: Específicamente para el entrenamiento intermedio agéntico, empleamos diversos esquemas de construcción de datos para sintetizar trayectorias ricas y variadas en los dominios de matemáticas, codificación y uso de herramientas. Estos datos de alta calidad permiten al modelo internalizar efectivamente comportamientos de planificación y reflexión. Evaluaciones exhaustivas muestran que Youtu-LLM establece un nuevo estado del arte para LLMs por debajo de los 2B de parámetros. En benchmarks generales, logra un rendimiento competitivo frente a modelos más grandes, mientras que en tareas específicas de agentes, supera significativamente las líneas de base SOTA existentes, demostrando que los modelos livianos pueden poseer fuertes capacidades agénticas intrínsecas.
La elaboración de agentes requiere que los LLM operen en entornos del mundo real a lo largo de múltiples turnos, tomando acciones, observando resultados y refinando iterativamente los artefactos. A pesar de su importancia, la comunidad de código abierto carece de un ecosistema integral y basado en principios para agilizar el desarrollo de agentes. Presentamos el Ecosistema de Aprendizaje Agéntico (ALE), una infraestructura fundamental que optimiza la cadena de producción para los LLM agentes. ALE consta de tres componentes: ROLL, un marco de post-entrenamiento para la optimización de pesos; ROCK, un gestor de entornos de pruebas para la generación de trayectorias; e iFlow CLI, un marco de trabajo para agentes que permite una ingeniería de contexto eficiente. Lanzamos ROME (ROME es Obviamente un Modelo Agéntico), un agente de código abierto fundamentado en ALE y entrenado con más de un millón de trayectorias. Nuestro enfoque incluye protocolos de composición de datos para sintetizar comportamientos complejos y un novedoso algoritmo de optimización de políticas, la Alineación de Políticas Basada en Interacciones (IPA), que asigna crédito sobre fragmentos semánticos de interacción en lugar de tokens individuales para mejorar la estabilidad del entrenamiento en horizontes largos. Empíricamente, evaluamos a ROME en un entorno estructurado y presentamos Terminal Bench Pro, un punto de referencia con una escala mejorada y un control de contaminación. ROME demuestra un rendimiento sólido en benchmarks como SWE-bench Verified y Terminal Bench, lo que prueba la efectividad de la infraestructura ALE.
La detección de anomalías en registros es crucial para preservar la seguridad de los sistemas operativos. Dependiendo de la fuente de recolección de datos de registro, en los logs se registra diversa información que puede considerarse como modalidades de registro. En vista de esta intuición, los métodos unimodales a menudo tienen dificultades al ignorar las diferentes modalidades de los datos de registro. Mientras tanto, los métodos multimodales no logran manejar las interacciones entre estas modalidades. Aplicando el análisis de sentimientos multimodal a la detección de anomalías en registros, proponemos CoLog, un marco que codifica registros de manera colaborativa utilizando varias modalidades. CoLog utiliza transformadores colaborativos y atención de múltiples cabezas para aprender interacciones entre varias modalidades, garantizando una detección integral de anomalías. Para manejar la heterogeneidad causada por estas interacciones, CoLog incorpora una capa de adaptación de modalidad, que adapta las representaciones de las diferentes modalidades de registro. Esta metodología permite a CoLog aprender patrones y dependencias matizados dentro de los datos, mejorando sus capacidades de detección de anomalías. Experimentos exhaustivos demuestran la superioridad de CoLog sobre los métodos existentes más avanzados. Además, en la detección de anomalías tanto puntuales como colectivas, CoLog logra una precisión media del 99.63%, una exhaustividad media del 99.59% y una puntuación F1 media del 99.61% en siete conjuntos de datos de referencia para la detección de anomalías basada en registros. Las capacidades de detección integral de CoLog lo hacen altamente adecuado para ciberseguridad, monitoreo de sistemas y eficiencia operativa. CoLog representa un avance significativo en la detección de anomalías en registros, proporcionando una solución sofisticada y efectiva para la detección de anomalías puntuales y colectivas a través de un marco unificado y una solución a los complejos desafíos que plantea el análisis automático de datos de registro. También proporcionamos la implementación de CoLog en https://github.com/NasirzadehMoh/CoLog.
Los recientes avances en reconstrucción 3D han logrado un progreso notable en la captura de escenas de alta calidad a partir de imágenes densas de múltiples vistas, pero presentan dificultades cuando las vistas de entrada son limitadas. Se han implementado diversos enfoques, incluyendo técnicas de regularización, conocimientos previos semánticos y restricciones geométricas, para abordar este desafío. Los métodos más recientes basados en difusión han demostrado mejoras sustanciales al generar nuevas vistas a partir de poses de cámara novedosas para aumentar los datos de entrenamiento, superando a las técnicas anteriores basadas en regularización y conocimientos previos. A pesar de este progreso, identificamos tres limitaciones críticas en estos enfoques de vanguardia: cobertura inadecuada más allá de las periferias de las vistas conocidas, inconsistencias geométricas entre las vistas generadas y canalizaciones computacionalmente costosas. Presentamos GaMO (Geometry-aware Multi-view Outpainter), un marco que reformula la reconstrucción con vistas escasas a través de la extrapolación de múltiples vistas. En lugar de generar nuevos puntos de vista, GaMO expande el campo de visión desde las poses de cámara existentes, lo que inherentemente preserva la consistencia geométrica mientras proporciona una cobertura de escena más amplia. Nuestro enfoque emplea estrategias de condicionamiento multi-vista y eliminación de ruido con conciencia geométrica de manera de "zero-shot" (sin entrenamiento específico). Experimentos exhaustivos en Replica y ScanNet++ demuestran una calidad de reconstrucción de vanguardia con 3, 6 y 9 vistas de entrada, superando a métodos anteriores en PSNR y LPIPS, mientras se logra una aceleración de 25 veces sobre los métodos SOTA basados en difusión, con un tiempo de procesamiento inferior a 10 minutos. Página del proyecto: https://yichuanh.github.io/GaMO/
La memoria sirve como nexo pivotal que conecta el pasado y el futuro, proporcionando tanto a humanos como a sistemas de IA conceptos y experiencias invaluables para navegar tareas complejas. Investigaciones recientes sobre agentes autónomos se han centrado cada vez más en diseñar flujos de trabajo de memoria eficientes basándose en la neurociencia cognitiva. Sin embargo, limitados por barreras interdisciplinarias, los trabajos existentes luchan por asimilar la esencia de los mecanismos de memoria humanos. Para cerrar esta brecha, sintetizamos sistemáticamente el conocimiento interdisciplinario sobre la memoria, conectando hallazgos de la neurociencia cognitiva con agentes impulsados por LLM. Específicamente, primero elucidamos la definición y función de la memoria a lo largo de una trayectoria progresiva que va desde la neurociencia cognitiva, pasando por los LLM, hasta los agentes. Luego proporcionamos un análisis comparativo de la taxonomía de la memoria, los mecanismos de almacenamiento y el ciclo de vida completo de gestión desde perspectivas biológicas y artificiales. Posteriormente, revisamos los benchmarks principales para evaluar la memoria de los agentes. Adicionalmente, exploramos la seguridad de la memoria desde perspectivas duales de ataque y defensa. Finalmente, vislumbramos futuras direcciones de investigación, con énfasis en sistemas de memoria multimodal y adquisición de habilidades.
Los modelos visión-lenguaje-acción (VLA) han permitido la manipulación robótica de largo horizonte condicionada por lenguaje, pero la mayoría de los sistemas existentes se limitan a pinzas. Escalar las políticas VLA a robots bimanuales con manos diestras de alto grado de libertad (GDL) sigue siendo un desafío debido al espacio de acción expandido, las frecuentes oclusiones mano-objeto y el costo de recolectar datos de robots reales. Presentamos GR-Dexter, un marco integral de hardware-modelo-datos para la manipulación generalista basada en VLA en un robot bimanual con manos diestras. Nuestro enfoque combina el diseño de una mano robótica compacta de 21 GDL, un sistema intuitivo de teleoperación bimanual para la recolección de datos de robot real, y una metodología de entrenamiento que aprovecha las trayectorias de robot teleoperadas junto con conjuntos de datos de visión-lenguaje a gran escala y conjuntos de datos de embodimiento cruzado cuidadosamente seleccionados. En evaluaciones del mundo real que abarcan la manipulación cotidiana de largo horizonte y la tarea de recoger y colocar generalizable, GR-Dexter logra un sólido rendimiento dentro del dominio y una mayor robustez ante objetos no vistos e instrucciones no vistas. Esperamos que GR-Dexter sirva como un paso práctico hacia la manipulación robótica generalista con manos diestras.
Los recientes avances en generación de texto a vídeo (T2V) han logrado una buena calidad visual, pero sintetizar vídeos que sigan fielmente las leyes físicas sigue siendo un desafío pendiente. Los métodos existentes, basados principalmente en gráficos o extensión de instrucciones, tienen dificultades para generalizar más allá de entornos simulados simples o para aprender razonamiento físico implícito. La escasez de datos de entrenamiento con interacciones y fenómenos físicos ricos también es un problema. En este artículo, primero presentamos un Pipeline de construcción de datos de vídeo aumentado con física, PhyAugPipe, que aprovecha un modelo de visión y lenguaje (VLM) con razonamiento en cadena de pensamiento para recopilar un conjunto de datos de entrenamiento a gran escala, PhyVidGen-135K. Luego, formulamos un marco de Optimización de Preferencias Directas por Grupos con Conciencia Física, PhyGDPO, fundamentado que se basa en el modelo probabilístico de Plackett-Luce por grupos para capturar preferencias holísticas más allá de las comparaciones por pares. En PhyGDPO, diseñamos un esquema de Recompensa Guiada por la Física (PGR) que incorpora recompensas físicas basadas en VLM para dirigir la optimización hacia la consistencia física. También proponemos un esquema de Referencia de Conmutación LoRA (LoRA-SR) que elimina la duplicación de referencias que consume mucha memoria para un entrenamiento eficiente. Los experimentos muestran que nuestro método supera significativamente a los métodos de código abierto más avanzados en PhyGenBench y VideoPhy2. Consulte nuestra página del proyecto en https://caiyuanhao1998.github.io/project/PhyGDPO para ver más resultados en vídeo. Nuestro código, modelos y datos se publicarán en https://github.com/caiyuanhao1998/Open-PhyGDPO.
Este artículo presenta JavisGPT, el primer modelo de lenguaje grande multimodal unificado (MLLM) para la comprensión y generación conjunta de audio y vídeo (JAV). JavisGPT adopta una arquitectura concisa de codificador-LLM-decodificador, que incluye un módulo SyncFusion para la fusión espacio-temporal de audio y vídeo y consultas aprendibles con conciencia de sincronía para conectar un generador JAV-DiT preentrenado. Este diseño permite la comprensión y generación de vídeo y audio temporalmente coherentes a partir de instrucciones multimodales. Diseñamos una canalización de entrenamiento efectiva de tres etapas que consiste en preentrenamiento multimodal, ajuste fino de audio-vídeo y ajuste por instrucciones a gran escala, para construir progresivamente la comprensión y generación multimodal a partir de modelos de visión y lenguaje existentes. Para respaldar esto, construimos además JavisInst-Omni, un conjunto de datos de instrucciones de alta calidad con más de 200.000 diálogos de audio, vídeo y texto curados por GPT-4o que abarcan escenarios diversos y de múltiples niveles de comprensión y generación. Experimentos exhaustivos en puntos de referencia de comprensión y generación JAV demuestran que JavisGPT supera a los MLLM existentes, particularmente en entornos complejos y temporalmente sincronizados.
Presentamos PFP, una estructura de red neuronal para comprimir videos largos en contextos cortos, con un objetivo de preentrenamiento explícito que preserva los detalles de alta frecuencia de fotogramas individuales en posiciones temporales arbitrarias. El modelo base puede comprimir un video de 20 segundos en un contexto de aproximadamente 5k de longitud, desde el cual se pueden recuperar fotogramas aleatorios con apariencias perceptualmente preservadas. Estos modelos preentrenados pueden afinarse directamente como codificadores de memoria para modelos de video autoregresivos, permitiendo memoria de historial largo con bajo costo de contexto y una pérdida de fidelidad relativamente baja. Evaluamos el marco con configuraciones ablativas y discutimos las compensaciones de los posibles diseños de arquitecturas neuronales.
La toma de decisiones de alto riesgo implica razonar bajo incertidumbre sobre el futuro. En este trabajo, entrenamos modelos de lenguaje para realizar predicciones sobre preguntas de pronóstico de respuesta abierta. Para escalar los datos de entrenamiento, sintetizamos nuevas preguntas de pronóstico a partir de eventos globales reportados en noticias diarias, utilizando una receta de curación cuidadosa y completamente automatizada. Entrenamos los modelos de razonamiento Qwen3 en nuestro conjunto de datos, OpenForesight. Para evitar la filtración de información futura durante el entrenamiento y la evaluación, utilizamos un corpus de noticias sin conexión, tanto para la generación de datos como para la recuperación en nuestro sistema de pronóstico. Guiados por un pequeño conjunto de validación, demostramos los beneficios de la recuperación de información y una función de recompensa mejorada para el aprendizaje por refuerzo (RL). Una vez obtenido nuestro sistema de pronóstico final, realizamos pruebas con datos reservados entre mayo y agosto de 2025. Nuestro modelo especializado, OpenForecaster 8B, iguala el rendimiento de modelos propietarios mucho más grandes, ya que nuestro entrenamiento mejora la precisión, la calibración y la coherencia de las predicciones. Encontramos que las mejoras en calibración derivadas del entrenamiento en pronóstico se generalizan en varios puntos de referencia populares. Liberamos como código abierto todos nuestros modelos, código y datos para que la investigación sobre pronósticos con modelos de lenguaje sea ampliamente accesible.
A pesar de las crecientes capacidades de razonamiento de los modelos de lenguaje grandes (LLM) recientes, sus mecanismos internos durante el proceso de razonamiento siguen sin estar suficientemente explorados. Los enfoques previos a menudo se basan en conceptos definidos por humanos (por ejemplo, sobrepensar, reflexión) a nivel de palabra para analizar el razonamiento de manera supervisada. Sin embargo, estos métodos son limitados, ya que es inviable capturar todo el espectro de comportamientos de razonamiento potenciales, muchos de los cuales son difíciles de definir en el espacio de tokens. En este trabajo, proponemos un marco no supervisado (denominado RISE: Interpretabilidad del Comportamiento de Razonamiento mediante Autoencoder Disperso) para descubrir vectores de razonamiento, que definimos como direcciones en el espacio de activación que codifican comportamientos de razonamiento distintos. Al segmentar las trazas de cadena de pensamiento en 'pasos' a nivel de oración y entrenar autoencoders dispersos (SAE) en las activaciones a nivel de paso, descubrimos características desenredadas que corresponden a comportamientos interpretables como la reflexión y la retrocesión. Los análisis de visualización y agrupamiento muestran que estos comportamientos ocupan regiones separables en el espacio de columnas del decodificador. Además, las intervenciones dirigidas sobre los vectores derivados del SAE pueden amplificar o suprimir de forma controlable comportamientos de razonamiento específicos, alterando las trayectorias de inferencia sin necesidad de reentrenamiento. Más allá del desenredado específico del comportamiento, los SAE capturan propiedades estructurales como la longitud de la respuesta, revelando grupos de trazas de razonamiento largas versus cortas. Más interesante aún, los SAE permiten el descubrimiento de nuevos comportamientos más allá de la supervisión humana. Demostramos la capacidad de controlar la confianza de la respuesta identificando vectores relacionados con la confianza en el espacio del decodificador del SAE. Estos hallazgos subrayan el potencial del descubrimiento latente no supervisado tanto para interpretar como para dirigir de manera controlable el razonamiento en los LLM.
Presentamos SpaceTimePilot, un modelo de difusión de vídeo que desvincula el espacio y el tiempo para un renderizado generativo controlable. Dado un vídeo monocular, SpaceTimePilot puede alterar de forma independiente el punto de vista de la cámara y la secuencia de movimiento dentro del proceso generativo, re-renderizando la escena para una exploración continua y arbitraria a través del espacio y el tiempo. Para lograr esto, introducimos un mecanismo efectivo de incrustación temporal de animación en el proceso de difusión, permitiendo el control explícito de la secuencia de movimiento del vídeo de salida con respecto a la del vídeo fuente. Dado que ningún conjunto de datos proporciona vídeos emparejados de la misma escena dinámica con variaciones temporales continuas, proponemos un esquema de entrenamiento de deformación temporal simple pero efectivo que readapta conjuntos de datos multivisión existentes para imitar diferencias temporales. Esta estrategia supervisa eficazmente al modelo para que aprenda el control temporal y logre una robusta desvinculación espacio-temporal. Para mejorar aún más la precisión del control dual, introducimos dos componentes adicionales: un mecanismo mejorado de condicionamiento por cámara que permite alterar la cámara desde el primer fotograma, y CamxTime, el primer conjunto de datos de renderizado sintético de cobertura completa en espacio y tiempo que proporciona trayectorias de vídeo espacio-temporales completamente libres dentro de una escena. El entrenamiento conjunto en el esquema de deformación temporal y el conjunto de datos CamxTime produce un control temporal más preciso. Evaluamos SpaceTimePilot tanto en datos del mundo real como sintéticos, demostrando una clara desvinculación espacio-temporal y resultados sólidos en comparación con trabajos anteriores. Página del proyecto: https://zheninghuang.github.io/Space-Time-Pilot/ Código: https://github.com/ZheningHuang/spacetimepilot
El modelo de difusión presenta una potente capacidad para capturar la distribución completa de datos (condicional). Sin embargo, debido a la falta de entrenamiento y datos suficientes para aprender a cubrir las áreas de baja probabilidad, el modelo será penalizado por no generar imágenes de alta calidad correspondientes a estas áreas. Para lograr una mejor calidad de generación, estrategias de guiado como el guiado libre de clasificador (CFG) pueden dirigir las muestras hacia las áreas de alta probabilidad durante la etapa de muestreo. No obstante, el CFG estándar a menudo conduce a muestras sobresimplificadas o distorsionadas. Por otro lado, la línea alternativa de guiar el modelo de difusión con su versión degradada está limitada por estrategias de degradación cuidadosamente diseñadas, entrenamiento adicional y pasos de muestreo extra. En este artículo, proponemos una estrategia simple pero efectiva llamada Guiado Interno (IG), que introduce una supervisión auxiliar en la capa intermedia durante el proceso de entrenamiento y extrapola las salidas de las capas intermedias y profundas para obtener resultados generativos durante el proceso de muestreo. Esta estrategia simple produce mejoras significativas tanto en la eficiencia del entrenamiento como en la calidad de generación en varios modelos base. En ImageNet 256x256, SiT-XL/2+IG logra FID=5.31 y FID=1.75 a 80 y 800 épocas. Más impresionantemente, LightningDiT-XL/1+IG alcanza un FID=1.34, lo que supone un gran margen de mejora respecto a todos estos métodos. Combinado con CFG, LightningDiT-XL/1+IG alcanza el estado del arte actual con un FID de 1.19.
El rápido avance de los sistemas autónomos, incluidos los vehículos autónomos y los drones, ha intensificado la necesidad de forjar una verdadera Inteligencia Espacial a partir de datos multi-modales de sensores a bordo. Si bien los modelos fundacionales sobresalen en contextos mono-modales, integrar sus capacidades a través de diversos sensores como cámaras y LiDAR para crear una comprensión unificada sigue siendo un desafío formidable. Este artículo presenta un marco integral para el pre-entrenamiento multi-modal, identificando el conjunto central de técnicas que impulsan el progreso hacia este objetivo. Diseccionamos la interacción entre las características fundamentales de los sensores y las estrategias de aprendizaje, evaluando el papel de los conjuntos de datos específicos de la plataforma en la habilitación de estos avances. Nuestra contribución central es la formulación de una taxonomía unificada para los paradigmas de pre-entrenamiento: desde líneas de base de modalidad única hasta marcos unificados sofisticados que aprenden representaciones holísticas para tareas avanzadas como la detección de objetos 3D y la predicción de ocupación semántica. Además, investigamos la integración de entradas textuales y representaciones de ocupación para facilitar la percepción y planificación en mundo abierto. Finalmente, identificamos cuellos de botella críticos, como la eficiencia computacional y la escalabilidad del modelo, y proponemos una hoja de ruta hacia modelos fundacionales multi-modales de propósito general capaces de lograr una Inteligencia Espacial robusta para su implementación en el mundo real.
La clasificación de sonidos respiratorios se ve dificultada por el tamaño limitado, los altos niveles de ruido y el severo desequilibrio de clases en conjuntos de datos de referencia como ICBHI 2017. Si bien los modelos basados en Transformers ofrecen potentes capacidades de extracción de características, son propensos al sobreajuste y a menudo convergen a mínimos agudos en el panorama de la función de pérdida cuando se entrenan con estos datos médicos limitados. Para abordar este problema, presentamos un marco que mejora el Audio Spectrogram Transformer (AST) mediante la Minimización Consciente de la Agudeza (SAM). En lugar de simplemente minimizar la pérdida de entrenamiento, nuestro enfoque optimiza la geometría de la superficie de pérdida, guiando al modelo hacia mínimos más planos que generalizan mejor con pacientes no vistos. También implementamos una estrategia de muestreo ponderado para manejar el desequilibrio de clases de manera efectiva. Nuestro método alcanza un resultado puntero del 68.10% en el conjunto de datos ICBHI 2017, superando a los baselines existentes basados en CNN e híbridos. Más importante aún, alcanza una sensibilidad del 68.31%, una mejora crucial para un cribado clínico fiable. Un análisis adicional utilizando t-SNE y mapas de atención confirma que el modelo aprende características robustas y discriminativas, en lugar de memorizar el ruido de fondo.
Los problemas de razonamiento complejos a menudo implican relaciones espaciales, geométricas y estructurales implícitas que no están codificadas explícitamente en el texto. Si bien los modelos de razonamiento recientes han logrado un rendimiento sólido en muchos dominios, el razonamiento puramente basado en texto lucha por representar restricciones estructurales globales en entornos complejos. En este artículo, presentamos FIGR, que integra el pensamiento visual activo en el razonamiento multiturno mediante aprendizaje por refuerzo de extremo a extremo. FIGR externaliza hipótesis estructurales intermedias construyendo representaciones visuales durante la resolución de problemas. Al regular de forma adaptativa cuándo y cómo debe invocarse el razonamiento visual, FIGR permite un razonamiento más estable y coherente sobre propiedades estructurales globales que son difíciles de capturar únicamente a partir del texto. Los experimentos en benchmarks desafiantes de razonamiento matemático demuestran que FIGR supera a sólidas líneas base de cadena de pensamiento exclusivamente textuales. En particular, FIGR mejora el modelo base en un 13.12% en AIME 2025 y en un 11.00% en BeyondAIME, lo que subraya la efectividad del razonamiento multimodal guiado por figuras para mejorar la estabilidad y fiabilidad del razonamiento complejo.
Los modelos recientes de video-lenguaje han demostrado un gran potencial para la comprensión de videos, pero aún presentan dificultades con la localización temporal precisa para la percepción a nivel de evento. Observamos que dos factores principales en la comprensión de videos (es decir, la localización temporal y la respuesta textual) forman una jerarquía lógica: una localización precisa de la evidencia temporal sienta las bases para una respuesta textual confiable. Sin embargo, los trabajos existentes suelen abordar estas dos tareas de manera acoplada sin una estructura lógica clara, lo que conduce a objetivos subóptimos. Abordamos este problema desde una perspectiva de aprendizaje factorizado. Primero proponemos D²VLM, un marco que desacopla el aprendizaje de estas dos tareas y al mismo tiempo enfatiza su dependencia inherente. Adoptamos un paradigma de "localización y luego respuesta con referencia a la evidencia" e introducimos *tokens* de evidencia para la localización de evidencias, los cuales enfatizan la captura de semántica visual a nivel de evento, yendo más allá del enfoque en la representación de marcas de tiempo presente en trabajos existentes. Para facilitar aún más el aprendizaje de estas dos tareas, introducimos un novedoso algoritmo de optimización de preferencias factorizado (FPO). A diferencia de la optimización de preferencias estándar, FPO incorpora explícitamente el modelado probabilístico de la localización temporal en el objetivo de optimización, permitiendo el aprendizaje por preferencias tanto para la localización temporal como para la respuesta textual. También construimos un conjunto de datos sintético para abordar la falta de conjuntos de datos adecuados para el aprendizaje de preferencias factorizado con localización temporal explícita. Los experimentos en varias tareas demuestran la clara ventaja de nuestro enfoque. Nuestro código fuente está disponible en https://github.com/nusnlp/d2vlm.
El diálogo estratégico requiere que los agentes ejecuten actos de diálogo distintos, para lo cual la estimación de creencias es esencial. Si bien trabajos anteriores a menudo estiman las creencias con precisión, carecen de un mecanismo fundamentado para utilizar dichas creencias durante la generación. Cerramos esta brecha formalizando primero dos actos centrales, Adversario y Alineación, y operacionalizándolos mediante restricciones probabilísticas sobre lo que un agente puede generar. Instanciamos esta idea en BEDA, un marco que consta del conjunto de mundos, el estimador de creencias para la estimación de creencias y el generador condicional que selecciona actos y materializa enunciados coherentes con las creencias inferidas. En tres escenarios, Conditional Keeper Burglar (CKBG, adversario), Mutual Friends (MF, cooperativo) y CaSiNo (negociación), BEDA supera consistentemente a líneas de base sólidas: en CKBG mejora la tasa de éxito en al menos 5.0 puntos entre backbones y en 20.6 puntos con GPT-4.1-nano; en Mutual Friends logra una mejora promedio de 9.3 puntos; y en CaSiNo alcanza el acuerdo óptimo en relación con todas las líneas de base. Estos resultados indican que plantear la estimación de creencias como restricciones proporciona un mecanismo simple y general para un diálogo estratégico confiable.
Los sistemas modernos de IA dependen de incrustaciones vectoriales almacenadas y consultadas mediante aritmética de punto flotante. Aunque son efectivos para la búsqueda aproximada de similitudes, este diseño introduce un no-determinismo fundamental: modelos, entradas y código idénticos pueden producir estados de memoria y resultados de recuperación diferentes entre arquitecturas de hardware (por ejemplo, x86 frente a ARM). Esto impide la replicabilidad y el despliegue seguro, conduciendo a una divergencia silenciosa de datos que imposibilita la verificación posterior y compromete los rastros de auditoría en sectores regulados. Presentamos Valori, un sustrato de memoria de IA determinista que reemplaza las operaciones de memoria de punto flotante con aritmética de punto fijo (Q16.16) y modela la memoria como una máquina de estados replicable. Valori garantiza estados de memoria, instantáneas y resultados de búsqueda bit-idénticos entre plataformas. Demostramos que el no-determinismo surge antes de la indexación o recuperación y mostramos cómo Valori impone el determinismo en el límite de la memoria. Nuestros resultados sugieren que la memoria determinista es una primitiva necesaria para sistemas de IA confiables. La implementación de referencia es de código abierto y está disponible en https://github.com/varshith-Git/Valori-Kernel (archivada en https://zenodo.org/records/18022660).