Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los modelos de lenguaje grandes (LLM) muestran potencial para el descubrimiento científico, la investigación existente se centra en la inferencia o el entrenamiento guiado por retroalimentación, dejando sin explorar el modelado directo del proceso de razonamiento generativo, P(h|b). Demostramos que entrenar directamente P(h|b) es matemáticamente intratable debido a la complejidad combinatoria (O(N^k)) inherente a recuperar y componer inspiraciones de una vasta base de conocimiento. Para superar esta barrera, presentamos MOOSE-Star, un marco unificado que permite un entrenamiento manejable y una inferencia escalable. En el mejor de los casos, MOOSE-Star reduce la complejidad de exponencial a logarítmica (O(log N)) mediante (1) el entrenamiento en subtareas descompuestas derivadas de la ecuación probabilística del descubrimiento, (2) el empleo de una búsqueda jerárquica guiada por motivación para permitir una recuperación logarítmica y podar subespacios irrelevantes, y (3) la utilización de una composición acotada para robustez frente al ruido en la recuperación. Para facilitar esto, publicamos TOMATO-Star, un conjunto de datos de 108,717 artículos descompuestos (38,400 horas de GPU) para entrenamiento. Además, mostramos que, mientras el muestreo por fuerza bruta topa con un "muro de complejidad", MOOSE-Star exhibe un escalado continuo en tiempo de prueba.
Los agentes de IA actuales pueden invocar herramientas de manera flexible y ejecutar tareas complejas, pero su avance a largo plazo se ve obstaculizado por la falta de acumulación y transferencia sistemática de habilidades. Sin un mecanismo unificado para la consolidación de habilidades, los agentes frecuentemente "redescubren la rueda", redescubriendo soluciones en contextos aislados sin aprovechar estrategias previas. Para superar esta limitación, presentamos SkillNet, una infraestructura abierta diseñada para crear, evaluar y organizar habilidades de IA a escala. SkillNet estructura las habilidades dentro de una ontología unificada que permite crear habilidades a partir de fuentes heterogéneas, establecer conexiones relacionales ricas y realizar evaluaciones multidimensionales en cuanto a Seguridad, Integridad, Ejecutabilidad, Mantenibilidad y Conciencia de Costes. Nuestra infraestructura integra un repositorio de más de 200.000 habilidades, una plataforma interactiva y un kit de herramientas de Python versátil. Las evaluaciones experimentales en ALFWorld, WebShop y ScienceWorld demuestran que SkillNet mejora significativamente el rendimiento de los agentes, incrementando las recompensas promedio en un 40% y reduciendo los pasos de ejecución en un 30% en múltiples modelos base. Al formalizar las habilidades como activos evolutivos y componibles, SkillNet proporciona una base sólida para que los agentes pasen de la experiencia transitoria al dominio duradero.
Los agentes de LLM (Modelos de Lenguaje Grande) pueden automatizar los flujos de trabajo de ciencia de datos, pero muchos métodos estadísticos rigurosos implementados en R siguen siendo subutilizados porque los LLM tienen dificultades con el conocimiento estadístico y la recuperación de herramientas. Los enfoques existentes de recuperación aumentada se centran en la semántica a nivel de función e ignoran la distribución de datos, produciendo coincidencias subóptimas. Proponemos DARE (Distribution-Aware Retrieval Embedding), un modelo de recuperación ligero y plug-and-play que incorpora información de distribución de datos en las representaciones de funciones para la recuperación de paquetes R. Nuestras principales contribuciones son: (i) RPKB, una Base de Conocimiento de Paquetes R curada, derivada de 8.191 paquetes CRAN de alta calidad; (ii) DARE, un modelo de embedding que fusiona características distribucionales con metadatos de funciones para mejorar la relevancia de la recuperación; y (iii) RCodingAgent, un agente LLM orientado a R para la generación confiable de código R y un conjunto de tareas de análisis estadístico para evaluar sistemáticamente a los agentes LLM en escenarios analíticos realistas. Empíricamente, DARE logra un NDCG@10 del 93.47%, superando a los modelos de embedding de código abierto más avanzados hasta en un 17% en la recuperación de paquetes, mientras utiliza sustancialmente menos parámetros. La integración de DARE en RCodingAgent produce ganancias significativas en las tareas de análisis posteriores. Este trabajo ayuda a reducir la brecha entre la automatización mediante LLM y el ecosistema estadístico maduro de R.
Los agentes multimodales del mundo real resuelven flujos de trabajo de múltiples pasos basados en evidencia visual. Por ejemplo, un agente puede diagnosticar un dispositivo vinculando una foto del cableado a un esquema y validar la solución con documentación en línea, o planificar un viaje interpretando un mapa de transporte y verificando horarios bajo restricciones de ruta. Sin embargo, los puntos de referencia multimodales existentes evalúan principalmente el razonamiento visual de un solo turno o habilidades específicas de herramientas, y no capturan completamente el realismo, la sutileza visual y el uso de herramientas a largo plazo que requieren los agentes prácticos. Presentamos AgentVista, un punto de referencia para agentes multimodales generalistas que abarca 25 subdominios en 7 categorías, combinando escenarios visuales realistas y ricos en detalles con un uso híbrido natural de herramientas. Las tareas requieren interacciones de herramientas a largo plazo a través de múltiples modalidades, incluyendo búsqueda web, búsqueda de imágenes, navegación de páginas y operaciones basadas en código para procesamiento de imágenes y programación general. La evaluación exhaustiva de modelos de última generación expone brechas significativas en su capacidad para llevar a cabo el uso multimodal de herramientas a largo plazo. Incluso el mejor modelo en nuestra evaluación, Gemini-3-Pro con herramientas, alcanza solo un 27.3% de precisión general, y los casos difíciles pueden requerir más de 25 turnos de llamadas a herramientas. Esperamos que AgentVista acelere el desarrollo de agentes multimodales más capaces y confiables para la resolución de problemas realistas y ultra desafiantes.
La escalabilidad del aprendizaje por imitación está fundamentalmente limitada por la eficiencia de la recolección de datos. Si bien las interfaces portátiles han surgido como una solución escalable para la adquisición de datos en entornos reales, operan predominantemente de manera de lazo abierto: los operadores recogen demostraciones a ciegas sin conocer las debilidades de la política subyacente, lo que conduce a una cobertura ineficiente de las distribuciones de estados críticas. Por el contrario, métodos interactivos como DAgger abordan eficazmente el cambio covariable pero dependen de la ejecución física del robot, que es costosa y difícil de escalar. Para reconciliar esta disyuntiva, presentamos RoboPocket, un sistema portátil que permite la Iteración Instantánea de Políticas sin Robot utilizando únicamente smartphones comerciales. Su innovación central es un marco de Inferencia Remota que visualiza la trayectoria predicha por la política a través de la Previsión Visual con Realidad Aumentada (RA). Esta retroalimentación inmersiva permite a los recolectores identificar proactivamente fallos potenciales y centrar la recolección de datos en las regiones débiles de la política, sin requerir un robot físico. Además, implementamos un pipeline asíncrono de Ajuste Fino en Línea que actualiza continuamente la política con los datos entrantes, cerrando efectivamente el ciclo de aprendizaje en minutos. Experimentos exhaustivos demuestran que RoboPocket se ajusta a las leyes de escalado de datos y duplica la eficiencia de datos en comparación con las estrategias de escalado fuera de línea, superando su cuello de botella de eficiencia de larga data. Además, nuestro ciclo de iteración instantánea también mejora la eficiencia muestral hasta 2 veces en entornos distribuidos con un pequeño número de correcciones interactivas por persona. Página del proyecto y videos: https://robo-pocket.github.io.
Las imágenes de persona-producto, que muestran la integración entre humanos y productos, desempeñan un papel vital en publicidad, comercio electrónico y marketing digital. El desafío esencial de generar dichas imágenes radica en garantizar la preservación de alta fidelidad de los detalles del producto. Entre los paradigmas existentes, el inpaint basado en referencia ofrece una solución dirigida al utilizar imágenes de referencia del producto para guiar el proceso de inpaint. Sin embargo, persisten limitaciones en tres aspectos clave: la falta de datos de entrenamiento diversos a gran escala, la dificultad de los modelos actuales para centrarse en la preservación de detalles del producto y la incapacidad de la supervisión gruesa para lograr una guía precisa. Para abordar estos problemas, proponemos HiFi-Inpaint, un novedoso marco de inpaint basado en referencia de alta fidelidad diseñado para generar imágenes de persona-producto. HiFi-Inpaint introduce Atención de Mejora Compartida (SEA) para refinar características granulares del producto y Pérdida Consciente del Detalle (DAL) para aplicar una supervisión precisa a nivel de píxel utilizando mapas de alta frecuencia. Adicionalmente, construimos un nuevo conjunto de datos, HP-Image-40K, con muestras curadas a partir de datos de auto-síntesis y procesadas con filtrado automático. Los resultados experimentales demuestran que HiFi-Inpaint alcanza un rendimiento de vanguardia, produciendo imágenes de persona-producto que preservan los detalles.
¿Qué modelo multimodal deberíamos utilizar para clasificación? Estudios previos sugieren que la respuesta reside en los Modelos de Visión y Lenguaje (VLM) contrastivos tipo CLIP, debido a su notable rendimiento en clasificación zero-shot. Por el contrario, los Modelos Multimodales Grandes (LMM) son más adecuados para tareas complejas. En este trabajo, argumentamos que esta respuesta pasa por alto una capacidad importante de los LMM: el aprendizaje en contexto. Evaluamos LMMs de vanguardia en diversos conjuntos de datos para clasificación de mundo cerrado y encontramos que, aunque su rendimiento zero-shot es inferior al de CLIP, los LMMs con unos pocos ejemplos en contexto pueden igualar o incluso superar a los VLM contrastivos con adaptadores basados en caché, su equivalente "en contexto". Extendemos este análisis al entorno de mundo abierto, donde la naturaleza generativa de los LMMs los hace más adecuados para la tarea. En este escenario desafiante, los LMMs presentan dificultades cuando se les proporciona información de contexto imperfecta. Para abordar este problema, proponemos CIRCLE, un método simple que no requiere entrenamiento y que asigna pseudo-etiquetas a los ejemplos en contexto, refinándolas iterativamente con el contexto disponible. A través de experimentos exhaustivos, demostramos que CIRCLE establece una base de referencia robusta para la clasificación de mundo abierto, superando a sus contrapartes VLM y destacando el potencial de los LMMs para servir como clasificadores unificados y una alternativa flexible a los modelos especializados.
Los puntos de referencia estándar se han vuelto cada vez menos fiables debido a la saturación, la subjetividad y la escasa generalización. Sostenemos que evaluar la capacidad del modelo para adquirir información de forma activa es crucial para valorar su inteligencia. Proponemos Puntos de Referencia Interactivos, un paradigma de evaluación unificado que valora la capacidad de razonamiento del modelo en un proceso interactivo bajo restricciones presupuestarias. Implementamos este marco en dos escenarios: Pruebas Interactivas, donde los modelos interactúan con un juez para deducir verdades objetivas o respuestas en lógica y matemáticas; y Juegos Interactivos, donde los modelos razonan estratégicamente para maximizar utilidades a largo plazo. Nuestros resultados demuestran que los puntos de referencia interactivos proporcionan una evaluación sólida y fiel de la inteligencia del modelo, revelando que aún existe un margen sustancial de mejora en escenarios interactivos. Página del proyecto: https://github.com/interactivebench/interactivebench
A pesar del impresionante progreso en la generación de vídeo, los modelos existentes siguen limitados a una plausibilidad superficial, careciendo de una comprensión coherente y unificada del mundo. Los enfoques anteriores suelen incorporar solo una única forma de conocimiento relacionado con el mundo o dependen de estrategias de alineación rígidas para introducir conocimiento adicional. Sin embargo, alinear un único conocimiento del mundo es insuficiente para constituir un modelo mundial que requiere modelar conjuntamente múltiples dimensiones heterogéneas (por ejemplo, sentido común físico, consistencia 3D y temporal). Para abordar esta limitación, presentamos DreamWorld, un marco unificado que integra conocimiento mundial complementario en los generadores de vídeo mediante un Paradigma de Modelado Mundial Conjunto, que predice conjuntamente píxeles de vídeo y características de modelos fundacionales para capturar la dinámica temporal, la geometría espacial y la consistencia semántica. Sin embargo, optimizar estos objetivos heterogéneos de forma ingenua puede provocar inestabilidad visual y parpadeo temporal. Para mitigar este problema, proponemos el Recocido de Restricciones Consistentes (CCA) para regular progresivamente las restricciones a nivel mundial durante el entrenamiento, y una Guía Interna de Múltiples Fuentes para hacer cumplir los *priors* mundiales aprendidos durante la inferencia. Evaluaciones exhaustivas muestran que DreamWorld mejora la consistencia mundial, superando a Wan2.1 en 2.26 puntos en VBench. El código estará disponible públicamente en https://github.com/ABU121111/DreamWorld.
La atención de baja precisión, como SageAttention, ha surgido como un enfoque efectivo para acelerar la inferencia del modelo, pero su aplicabilidad al entrenamiento sigue siendo poco comprendida. En trabajos previos, presentamos SageBwd, una atención entrenable en INT8 que cuantifica seis de las siete multiplicaciones matriciales de atención mientras preserva el rendimiento del ajuste fino. Sin embargo, SageBwd mostró una brecha de rendimiento persistente respecto a la atención de precisión completa (FPA) durante el pre-entrenamiento. En este trabajo, investigamos por qué ocurre esta brecha y demostramos que SageBwd iguala a la atención de precisión completa durante el pre-entrenamiento. Mediante experimentos y análisis teórico, llegamos a varias conclusiones e ideas importantes: (i) la QK-norma es necesaria para un entrenamiento estable con un gran número de tokens por paso, (ii) los errores de cuantización surgen principalmente del gradiente de puntuación dS en la pasada hacia atrás, (iii) reducir los tokens por paso permite que SageBwd iguale el rendimiento de FPA en el pre-entrenamiento, y (iv) el suavizado de K sigue siendo esencial para la estabilidad del entrenamiento, mientras que el suavizado de Q proporciona un beneficio limitado durante el pre-entrenamiento.
Presentamos Timer-S1, un sólido modelo fundacional de series temporales de Mixture-of-Experts (MoE) con 8.300 millones de parámetros totales, 750 millones de parámetros activados por cada token y una longitud de contexto de 11.500 tokens. Para superar el cuello de botella de escalabilidad en los modelos fundacionales de series temporales preentrenados existentes, realizamos un Escalado Serial en tres dimensiones: arquitectura del modelo, conjunto de datos y proceso de entrenamiento. Timer-S1 integra bloques dispersos TimeMoE y bloques genéricos TimeSTP para la Predicción Serial de Tokens (STP, Serial-Token Prediction), un objetivo de entrenamiento genérico que se adhiere a la naturaleza serial de la previsión. El paradigma propuesto introduce cálculos seriales para mejorar las predicciones a largo plazo, evitando al mismo tiempo la costosa inferencia de tipo "rolling" y la pronunciada acumulación de errores inherente a la predicción estándar del siguiente token. En la búsqueda de un conjunto de datos de entrenamiento de alta calidad y sin sesgos, hemos creado TimeBench, un corpus con un billón de puntos temporales, y aplicamos una meticulosa aumentación de datos para mitigar el sesgo predictivo. Además, somos pioneros en introducir una etapa de post-entrenamiento, que incluye preentrenamiento continuado y extensión de contexto largo, para mejorar el rendimiento a corto plazo y con contextos extensos. Evaluado en la clasificación a gran escala GIFT-Eval, Timer-S1 logra un rendimiento de previsión de vanguardia, obteniendo las mejores puntuaciones MASE y CRPS como modelo preentrenado. Timer-S1 será publicado para facilitar futuras investigaciones.
Los modelos actuales de generación de vídeo no pueden simular consecuencias físicas de acciones 3D como fuerzas o manipulaciones robóticas, ya que carecen de comprensión estructural sobre cómo las acciones afectan a escenas tridimensionales. Presentamos RealWonder, el primer sistema en tiempo real para generar vídeos condicionados por acciones a partir de una sola imagen. Nuestra clave reside en utilizar la simulación física como puente intermedio: en lugar de codificar acciones continuas directamente, las traducimos mediante simulación física a representaciones visuales (flujo óptico y RGB) que los modelos de vídeo pueden procesar. RealWonder integra tres componentes: reconstrucción 3D a partir de imágenes únicas, simulación física y un generador de vídeo destilado que requiere solo 4 pasos de difusión. Nuestro sistema alcanza 13.2 FPS en resolución 480x832, permitiendo la exploración interactiva de fuerzas, acciones robóticas y controles de cámara sobre objetos rígidos, cuerpos deformables, fluidos y materiales granulares. Visualizamos que RealWonder abre nuevas oportunidades para aplicar modelos de vídeo en experiencias inmersivas, AR/VR y aprendizaje robótico. Nuestro código y pesos del modelo están disponibles públicamente en nuestro sitio web del proyecto: https://liuwei283.github.io/RealWonder/
La cuantización post-entrenamiento (PTQ) con invariancia computacional para Modelos de Lenguaje Grandes (LLM) ha demostrado avances notables; sin embargo, su aplicación a Modelos Multimodales de Lenguaje Grande (MLLM) presenta desafíos sustanciales. En este artículo, analizamos SmoothQuant como caso de estudio e identificamos dos problemas críticos: Desalineación del Suavizado e Invariancia Computacional Transmodal. Para abordar estos problemas, proponemos Modality-Aware Smoothing Quantization (MASQuant), un marco novedoso que introduce (1) Suavizado Consciente de la Modalidad (MAS), que aprende factores de suavizado separados y específicos por modalidad para prevenir la Desalineación del Suavizado, y (2) Compensación Transmodal (CMC), que aborda la Invariancia Computacional Transmodal utilizando el blanqueamiento SVD para transformar las diferencias de activación multimodal en formas de bajo rango, permitiendo una cuantización unificada entre modalidades. MASQuant demuestra un rendimiento de cuantización estable tanto en MLLM bimodales como trimodales. Los resultados experimentales muestran que MASQuant es competitivo entre los algoritmos PTQ más avanzados. Código fuente: https://github.com/alibaba/EfficientAI.
La capacidad de agarrar es fundamental para que los robots interactúen con el mundo físico. Los seres humanos, equipados con dos manos, seleccionan autónomamente estrategias de agarre apropiadas basándose en la forma, el tamaño y el peso de los objetos, lo que permite un agarre robusto y una posterior manipulación. En contraste, la capacidad actual de agarre robótico sigue siendo limitada, particularmente en entornos multiestrategia. Aunque se han realizado esfuerzos sustanciales dirigidos al agarre con pinzas paralelas y con una sola mano, el agarre diestro para robots bimanuales sigue estando poco explorado, siendo los datos un cuello de botella principal. Lograr agarres físicamente plausibles y geométricamente conformes que puedan resistir fuerzas externas presenta desafíos significativos. Para abordar estos problemas, presentamos UltraDexGrasp, un marco para el agarre diestro universal con robots bimanuales. La pipeline de generación de datos propuesta integra la síntesis de agarre basada en optimización con la generación de demostraciones basada en planificación, produciendo trayectorias de alta calidad y diversas en múltiples estrategias de agarre. Con este marco, hemos creado UltraDexGrasp-20M, un conjunto de datos de agarre multiestrategia a gran escala que comprende 20 millones de frames en 1,000 objetos. Basándonos en UltraDexGrasp-20M, desarrollamos además una política de agarre simple pero efectiva que toma nubes de puntos como entrada, agrega características de la escena mediante atención unidireccional y predice comandos de control. Entrenada exclusivamente con datos sintéticos, esta política logra una transferencia robusta de simulación a realidad (sim-to-real) de tipo zero-shot y tiene éxito consistentemente con objetos nuevos de diversas formas, tamaños y pesos, alcanzando una tasa de éxito promedio del 81.2% en el agarre diestro universal en el mundo real. Para facilitar la investigación futura sobre el agarre con robots bimanuales, hemos hecho de código abierto la pipeline de generación de datos en https://github.com/InternRobotics/UltraDexGrasp.
Los transformadores de visión han demostrado un notable éxito en clasificación al aprovechar la auto-atención global para capturar dependencias de largo alcance. Sin embargo, este mismo mecanismo puede oscurecer detalles espaciales de grano fino cruciales para tareas como la segmentación. En este trabajo, buscamos mejorar el rendimiento en segmentación de los transformadores de visión tras un entrenamiento estándar de clasificación a nivel de imagen. Más específicamente, presentamos un complemento simple pero efectivo que mejora el rendimiento en tareas de segmentación mientras mantiene las capacidades de reconocimiento a nivel de imagen de los transformadores de visión. En nuestro enfoque, modulamos la auto-atención con un núcleo gaussiano entrenable que sesga la atención hacia los parches vecinos. Además, refinamos las representaciones de parches para aprender mejores incrustaciones en las posiciones de los parches. Estas modificaciones incentivan a que los tokens se centren en el entorno local y aseguran representaciones significativas en las posiciones espaciales, preservando al mismo tiempo la capacidad del modelo para incorporar información global. Los experimentos demuestran la efectividad de nuestras modificaciones, evidenciada por mejoras sustanciales en segmentación en tres benchmarks (por ejemplo, más del 6% y 4% en ADE20K para ViT Tiny y Base), sin cambiar el régimen de entrenamiento ni sacrificar el rendimiento en clasificación. El código está disponible en https://github.com/sinahmr/LocAtViT/.
Los modelos de razonamiento piensan en voz alta, pero gran parte de lo que dicen es ruido. Presentamos OPSDC (Destilación Autodidacta en Política Propia para Compresión de Razonamiento), un método que enseña a los modelos a razonar de forma más concisa mediante la destilación de su propio comportamiento conciso de vuelta en sí mismos. Todo el enfoque se reduce a una idea: condicionar el mismo modelo con una instrucción de "ser conciso" para obtener los logits del profesor, y minimizar la divergencia KL inversa por token en las propias ejecuciones del estudiante. Sin respuestas de referencia, sin presupuestos de tokens, sin estimadores de dificultad. Solo auto-destilación. Sin embargo, esta simplicidad oculta una sofisticación sorprendente: OPSDC comprime automáticamente los problemas fáciles de forma agresiva mientras preserva la deliberación necesaria para los difíciles. En Qwen3-8B y Qwen3-14B, logramos una reducción del 57-59% en tokens en MATH-500 mientras mejoramos la precisión en 9-16 puntos absolutos. En AIME 2024, el modelo de 14B gana 10 puntos con una compresión del 41%. ¿El secreto? Gran parte de lo que producen los modelos de razonamiento no es solo redundante: es activamente dañino, acumulando errores con cada token innecesario.
Presentamos un sistema para entrenar agentes de búsqueda empresarial mediante aprendizaje por refuerzo que logra un rendimiento de vanguardia en un conjunto diverso de tareas de búsqueda agentica difíciles de verificar. Nuestro trabajo realiza cuatro contribuciones principales. En primer lugar, presentamos KARLBench, un conjunto de evaluación de capacidades múltiples que abarca seis regímenes de búsqueda distintos, incluyendo búsqueda de entidades basada en restricciones, síntesis de informes a través de documentos, razonamiento numérico sobre tablas, recuperación exhaustiva de entidades, razonamiento procedural sobre documentación técnica y agregación de hechos a partir de notas internas empresariales. En segundo lugar, demostramos que los modelos entrenados en comportamientos de búsqueda heterogéneos generalizan sustancialmente mejor que aquellos optimizados para un único benchmark. En tercer lugar, desarrollamos una pipeline de síntesis agentica que emplea razonamiento de horizonte largo y uso de herramientas para generar datos de entrenamiento diversos, fundamentados y de alta calidad, con un proceso iterativo de arranque a partir de modelos cada vez más capaces. En cuarto lugar, proponemos un nuevo paradigma de post-entrenamiento basado en aprendizaje por refuerzo fuera de política con lotes grandes e iterativos que es eficiente en muestras, robusto a discrepancias entre motor de entrenamiento e inferencia, y se extiende naturalmente al entrenamiento multitarea con generalización fuera de distribución. En comparación con Claude 4.6 y GPT 5.2, KARL es Pareto-óptimo en KARLBench en las compensaciones costo-calidad y latencia-calidad, incluyendo tareas que estaban fuera de distribución durante el entrenamiento. Con suficiente capacidad computacional en tiempo de prueba, supera a los modelos cerrados más potentes. Estos resultados demuestran que los datos sintéticos personalizados, en combinación con el aprendizaje por refuerzo multitarea, permiten crear agentes de conocimiento eficientes en coste y de alto rendimiento para el razonamiento fundamentado.
Si bien los conjuntos de datos para la comprensión de video han escalado a duraciones de horas, generalmente consisten en clips densamente concatenados que difieren de la vida diaria natural y no guionada. Para cerrar esta brecha, presentamos MM-Lifelong, un conjunto de datos diseñado para la Comprensión Multimodal Continua. Comprendiendo 181.1 horas de metraje, está estructurado en escalas de Día, Semana y Mes para capturar densidades temporales variables. Evaluaciones exhaustivas revelan dos modos de fallo críticos en los paradigmas actuales: los MLLM de extremo a extremo sufren de un Cuello de Botella de Memoria de Trabajo debido a la saturación del contexto, mientras que los baselines agentivos representativos experimentan un Colapso de Localización Global al navegar líneas de tiempo dispersas de larga duración mensual. Para abordar esto, proponemos el Agente Multimodal Recursivo (ReMA), que emplea una gestión dinámica de memoria para actualizar iterativamente un estado de creencia recursivo, superando significativamente a los métodos existentes. Finalmente, establecemos divisiones del conjunto de datos diseñadas para aislar sesgos temporales y de dominio, proporcionando una base rigurosa para futuras investigaciones en aprendizaje supervisado y generalización fuera de distribución.
La Re-Identificación (ReID) multimodal de objetos tiene como objetivo explotar información complementaria de diferentes modalidades para recuperar objetos específicos. Sin embargo, los métodos existentes a menudo dependen de filtrados rígidos de *tokens* o estrategias de fusión simples, lo que puede conllevar la pérdida de indicios discriminativos y un aumento de la interferencia del fondo. Para abordar estos desafíos, proponemos STMI, un novedoso marco de aprendizaje multimodal que consta de tres componentes clave: (1) el módulo de Modulación de Características Guiada por Segmentación (SFM) aprovecha las máscaras generadas por SAM para mejorar las representaciones del primer plano y suprimir el ruido de fondo mediante una modulación de atención aprendible; (2) el módulo de Reasignación de *Tokens* Semánticos (STR) emplea *tokens* de consulta aprendibles y un mecanismo de reasignación adaptativa para extraer representaciones compactas e informativas sin descartar ningún *token*; (3) el módulo de Interacción de Hipergrafo Multimodal (CHI) construye un hipergrafo unificado entre modalidades para capturar relaciones semánticas de alto orden. Experimentos exhaustivos en benchmarks públicos (es decir, RGBNT201, RGBNT100 y MSVR310) demuestran la efectividad y robustez de nuestro marco STMI propuesto en escenarios de ReID multimodal.
Presentamos el Modelo de Mundo de Partículas Latentes (LPWM), un modelo de mundo centrado en objetos y auto-supervisado, escalado a conjuntos de datos del mundo real con múltiples objetos y aplicable en la toma de decisiones. LPWM descubre de forma autónoma puntos clave, cuadros delimitadores y máscaras de objetos directamente a partir de datos de vídeo, lo que le permite aprender descomposiciones de escenas ricas sin supervisión. Nuestra arquitectura se entrena de extremo a extremo únicamente a partir de vídeos y admite condicionamiento flexible mediante acciones, lenguaje y objetivos de imagen. LPWM modela la dinámica estocástica de partículas a través de un novedoso módulo de acción latente y logra resultados de vanguardia en diversos conjuntos de datos sintéticos y del mundo real. Más allá del modelado estocástico de vídeo, LPWM es fácilmente aplicable a la toma de decisiones, incluyendo el aprendizaje por imitación condicionado a objetivos, como demostramos en el artículo. El código, los datos, los modelos preentrenados y las simulaciones en vídeo están disponibles en: https://taldatech.github.io/lpwm-web
El entrenamiento de grandes modelos de lenguaje para razonar con motores de búsqueda mediante aprendizaje por refuerzo se ve obstaculizado por un problema fundamental de asignación de crédito: los métodos existentes, como Search-R1, proporcionan únicamente una recompensa de resultado dispersa tras una trayectoria completa de múltiples pasos, lo que hace inviable atribuir el éxito o el fracaso a decisiones individuales de razonamiento y recuperación. Métodos de recompensa de proceso como StepSearch mitigan esto introduciendo supervisión a nivel de paso, pero dependen de recompensas heurísticas como la superposición TF-IDF con documentos de referencia, y aún muestrean k trayectorias completas por ejemplo, manteniendo una alta varianza en el gradiente. Proponemos SLATE, un marco basado en dos ideas complementarias: (1) muestreo truncado a nivel de paso, que genera k trayectorias que comparten un prefijo común y difieren solo en el siguiente paso, y (2) recompensas densas de LLM-como-juez, que reemplazan la puntuación heurística con un evaluador LLM capaz que valora la calidad de cada paso de razonamiento, consulta de búsqueda y respuesta, proporcionando una supervisión más rica y fiable. Demostramos teóricamente que, bajo la misma estructura de recompensa densa, el muestreo truncado reduce la varianza de las estimaciones de ventaja hasta en un factor de T en comparación con el muestreo de trayectoria completa para trayectorias de T pasos, produciendo gradientes de política con menor varianza y mejor dirigidos. Los experimentos en siete benchmarks de preguntas y respuestas confirman que SLATE supera consistentemente tanto a las líneas base de recompensa dispersa como a las de recompensa de proceso, con las mayores mejoras en tareas multinivel más difíciles y en modelos más pequeños.
Los agentes de modelos de lenguaje grandes (LLM) aumentados con herramientas prometen unificar el razonamiento científico con la computación, sin embargo, su despliegue en dominios de alto riesgo como el descubrimiento de fármacos se ve limitado por dos barreras críticas: una gobernanza no restringida del uso de herramientas y una baja fiabilidad en horizontes temporales largos. En las pipelines farmacéuticas, con gran dependencia secuencial, los agentes autónomos a menudo derivan hacia trayectorias irreproducibles, donde las alucinaciones en etapas tempranas se multiplican en fallos en fases posteriores. Para superar esto, presentamos Mozi, una arquitectura de doble capa que tiende un puente entre la flexibilidad de la IA generativa y el rigor determinista de la biología computacional. La Capa A (Plano de Control) establece una jerarquía gobernada de supervisor-trabajador que impone un aislamiento de herramientas basado en roles, limita la ejecución a espacios de acción restringidos e impulsa una replanificación basada en la reflexión. La Capa B (Plano de Flujo de Trabajo) operacionaliza las etapas canónicas del descubrimiento de fármacos —desde la Identificación de Dianas hasta la Optimización de Candidatos— como grafos de habilidades componibles y con estado. Esta capa integra contratos de datos estrictos y puntos de control estratégicos con intervención humana (HITL) para salvaguardar la validez científica en los límites de decisión de alta incertidumbre. Operando bajo el principio de diseño de "razonamiento de forma libre para tareas seguras, ejecución estructurada para pipelines de largo horizonte", Mozi proporciona mecanismos de robustez integrados y una auditabilidad a nivel de traza para mitigar completamente la acumulación de errores. Evaluamos a Mozi en PharmaBench, un benchmark curado para agentes biomédicos, demostrando una precisión de orquestación superior a los baselines existentes. Además, mediante estudios de caso terapéuticos de extremo a extremo, demostramos la capacidad de Mozi para navegar espacios químicos masivos, aplicar filtros de toxicidad estrictos y generar candidatos *in silico* altamente competitivos, transformando efectivamente al LLM de un conversador frágil en un co-científico fiable y gobernado.
Aprender un modelo de transporte que mapee una distribución fuente a una distribución objetivo es un problema canónico en el aprendizaje automático, pero las aplicaciones científicas requieren cada vez más modelos que puedan generalizarse a distribuciones fuente y objetivo no vistas durante el entrenamiento. Introducimos el transporte condicionado por distribución (DCT), un marco que condiciona los mapas de transporte en representaciones aprendidas de las distribuciones fuente y objetivo, permitiendo la generalización a pares de distribuciones no vistos. DCT también permite el aprendizaje semi-supervisado para problemas de pronóstico distribucional: dado que aprende de pares de distribuciones arbitrarios, puede aprovechar distribuciones observadas en una sola condición para mejorar la predicción del transporte. DCT es independiente del mecanismo de transporte subyacente, admitiendo modelos que van desde el emparejamiento de flujos hasta modelos basados en divergencias distribucionales (por ejemplo, Wasserstein, MMD). Demostramos los beneficios prácticos de rendimiento de DCT en benchmarks sintéticos y cuatro aplicaciones en biología: transferencia de efectos por lotes en genómica de células individuales, predicción de perturbaciones a partir de datos de citometría de masas, aprendizaje de la dinámica transcripcional clonal en la hematopoyesis y modelado de la evolución de secuencias de receptores de células T.
Los robots que operan en entornos compartidos con humanos no solo deben navegar, interactuar y detectar su entorno, sino también interpretar y responder a comportamientos humanos dinámicos y a menudo impredecibles. Aunque los avances recientes han mostrado potencial para mejorar la percepción robótica y el seguimiento de instrucciones mediante Modelos de Visión y Lenguaje (VLMs), estos aún presentan limitaciones para abordar las complejidades de las interacciones humano-robot (HRI) multimodales. Motivados por este desafío, presentamos un módulo de retroalimentación lenguaje-a-visión ligero que cierra el bucle entre un LLM y el codificador de visión en los VLMs. El módulo proyecta los estados ocultos de los tokens de imagen a través de un Perceptrón Multicapa (MLP) con compuerta de vuelta a la entrada del codificador, solicitando una segunda pasada que reinterpreta la escena bajo contexto textual. Evaluamos este enfoque en tres tareas centradas en robótica: navegación en un entorno simulado (Habitat), descripción secuencial de escenas (Mementos-Robotics) y reconocimiento de intenciones humanas (nuestro conjunto de datos HRI). Los resultados muestran que nuestro método mejora a Qwen 2.5 (7B) en un 3.3% (menor distancia), +0.057 de puntuación en descripción y +2.93% de precisión, con menos de un 3% de parámetros adicionales; Gemma 3 (4B) y LLaVA OV 1.5 (4B) muestran resultados mixtos en navegación pero ganan +0.111,+0.055 y +10.81%,+4.79% en las dos últimas tareas. El código está disponible en https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.