Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos MiroThinker v1.0, un agente de investigación de código abierto diseñado para impulsar las capacidades de razonamiento aumentado con herramientas y búsqueda de información. A diferencia de agentes anteriores que solo escalan el tamaño del modelo o la longitud del contexto, MiroThinker explora el escalado interactivo a nivel del modelo, entrenándolo sistemáticamente para manejar interacciones agente-entorno más profundas y frecuentes como una tercera dimensión de mejora del rendimiento. A diferencia del escalado en tiempo de prueba de los LLM, que opera de forma aislada y corre el riesgo de degradarse con cadenas de razonamiento más largas, el escalado interactivo aprovecha la retroalimentación del entorno y la adquisición de información externa para corregir errores y refinar trayectorias. Mediante aprendizaje por refuerzo, el modelo logra un escalado interactivo eficiente: con una ventana de contexto de 256K, puede realizar hasta 600 llamadas a herramientas por tarea, permitiendo razonamientos multiturno sostenidos y flujos de trabajo de investigación complejos en el mundo real. En cuatro benchmarks representativos (GAIA, HLE, BrowseComp y BrowseComp-ZH), la variante de 72B alcanza precisiones de hasta 81,9%, 37,7%, 47,1% y 55,6% respectivamente, superando a agentes de código abierto anteriores y acercándose a contrapartes comerciales como GPT-5-high. Nuestro análisis revela que MiroThinker se beneficia del escalado interactivo de manera consistente: el rendimiento en investigación mejora de forma predecible a medida que el modelo participa en interacciones agente-entorno más profundas y frecuentes, demostrando que la profundidad de interacción exhibe comportamientos de escalado análogos al tamaño del modelo y la longitud del contexto. Estos hallazgos establecen el escalado interactivo como una tercera dimensión crítica para construir la próxima generación de agentes de investigación abiertos, complementando la capacidad del modelo y las ventanas de contexto.
Los Modelos de Lenguaje a Gran Escala (LLM) han demostrado capacidades notables en diversos dominios, pero su entrenamiento sigue siendo intensivo en recursos y tiempo, requiriendo una potencia de cálculo masiva y una cuidadosa orquestación de los procedimientos de entrenamiento. El "model souping" —la práctica de promediar los pesos de múltiples modelos de la misma arquitectura— ha surgido como una técnica prometedora, tanto previa como posterior al entrenamiento, que puede mejorar el rendimiento sin un costoso reentrenamiento. En este artículo, presentamos Soup Of Category Experts (SoCE), un enfoque fundamentado para el "model souping" que utiliza la composición de benchmarks para identificar candidatos de modelos óptimos y aplica un promedio ponderado no uniforme para maximizar el rendimiento. A diferencia de los enfoques previos de promediado uniforme, nuestro método aprovecha la observación de que las categorías de los benchmarks a menudo exhiben bajas intercorrelaciones en el rendimiento del modelo. SoCE identifica modelos "expertos" para cada grupo de categorías débilmente correlacionadas y los combina utilizando un promedio ponderado optimizado en lugar de pesos uniformes. Demostramos que el método propuesto mejora el rendimiento y la robustez en múltiples dominios, incluidas las capacidades multilingües, la invocación de herramientas y las matemáticas, y logra resultados de vanguardia en el Berkeley Function Calling Leaderboard.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han trasladado la frontera desde la resolución de acertijos hacia un razonamiento de nivel científico, el tipo necesario para abordar problemas cuyas respuestas deben resistir el escrutinio de la naturaleza, no simplemente ajustarse a una rúbrica. La física es la prueba más rigurosa de este cambio, ya que vincula los símbolos con la realidad de manera fundamental, sirviendo como piedra angular de la mayoría de las tecnologías modernas. En este trabajo, logramos avanzar en la investigación física mediante el desarrollo de modelos de lenguaje de gran escala con capacidades excepcionales de razonamiento físico, destacándose especialmente en la resolución de problemas de física a nivel olímpico. Presentamos P1, una familia de modelos de razonamiento físico de código abierto entrenados completamente mediante aprendizaje por refuerzo (RL, por sus siglas en inglés). Entre ellos, P1-235B-A22B es el primer modelo de código abierto con un desempeño de medalla de oro en la última Olimpiada Internacional de Física (IPhO 2025), y obtiene 12 medallas de oro de 13 competiciones internacionales/regionales de física en 2024/2025. P1-30B-A3B también supera a casi todos los demás modelos de código abierto en IPhO 2025, obteniendo una medalla de plata. Equipado adicionalmente con un marco agencial PhysicsMinions, P1-235B-A22B+PhysicsMinions logra el primer puesto general en IPhO 2025 y obtiene la puntuación promedio más alta en las 13 competiciones de física. Además de la física, los modelos P1 también presentan un gran rendimiento en otras tareas de razonamiento como matemáticas y programación, demostrando la gran generalización de la serie P1.
Presentamos Uni-MoE 2.0 de la familia Lychee. Como un modelo grande omnimodal (OLM) completamente de código abierto, avanza sustancialmente la serie Uni-MoE de Lychee en comprensión, razonamiento y generación multimodal centrados en el lenguaje. Basándonos en la arquitectura densa Qwen2.5-7B, construimos Uni-MoE-2.0-Omni desde cero mediante tres contribuciones principales: un diseño de Mezcla de Expertos (MoE) de capacidad dinámica, una estrategia de entrenamiento progresivo potenciada con una estrategia de refuerzo iterativo, y una técnica cuidadosamente seleccionada de emparejamiento de datos multimodales. Es capaz de comprensión omnimodal, así como de generar imágenes, texto y voz. Arquitectónicamente, nuestro nuevo marco MoE equilibra la eficiencia computacional y la capacidad para 10 entradas cross-modales utilizando expertos compartidos, enrutados y nulos, mientras que nuestro Omni-Modalidad 3D RoPE garantiza la alineación cross-modal espacio-temporal en la capa de auto-atención. Para el entrenamiento, tras el pre-entrenamiento cross-modal, utilizamos una estrategia de ajuste fino supervisado progresivo que activa expertos específicos por modalidad y se ve potenciada por una composición de datos equilibrada y un método GSPO-DPO iterativo para estabilizar el entrenamiento por refuerzo y mejorar el razonamiento. En cuanto a los datos, el modelo base, entrenado con aproximadamente 75B tokens de datos multimodales de código abierto, está equipado con tokens especiales de generación de voz e imágenes, permitiéndole aprender estas tareas generativas condicionando sus salidas a indicios lingüísticos. Una evaluación exhaustiva en 85 benchmarks demuestra que nuestro modelo logra un rendimiento de vanguardia (SOTA) o altamente competitivo frente a los principales OLMs, superando a Qwen2.5-Omni (entrenado con 1.2T tokens) en más de 50 de 76 benchmarks. Sus puntos fuertes clave incluyen la comprensión de vídeo (+7% promedio en 8), la comprensión omnimodal (+7% promedio en 4) y el razonamiento audiovisual (+4%). También avanza en el procesamiento de voz de larga duración (reduciendo el WER en un 4.2%) y lidera el procesamiento de imágenes de bajo nivel y la generación controlable en 5 métricas.
Presentamos Part-X-MLLM, un modelo nativo de lenguaje grande multimodal en 3D que unifica diversas tareas tridimensionales formulándolas como programas en una gramática estructurada y ejecutable. Dada una nube de puntos RGB y un prompt en lenguaje natural, nuestro modelo genera de forma autoregresiva una única secuencia coherente de tokens que codifica bounding boxes a nivel de partes, descripciones semánticas y comandos de edición. Esta salida estructurada sirve como una interfaz versátil para impulsar módulos subsiguientes con conciencia geométrica, destinados a la generación y edición basada en partes. Al desacoplar la planificación simbólica de la síntesis geométrica, nuestro enfoque permite que cualquier motor geométrico compatible sea controlado mediante un único frontend nativo del lenguaje. Pre-entrenamos una arquitectura de codificador dual para separar la estructura de la semántica y ajustamos el modelo mediante instrucciones sobre un conjunto de datos extenso y centrado en partes. Los experimentos demuestran que nuestro modelo sobresale en la producción de planes estructurados de alta calidad, logrando un rendimiento state-of-the-art en preguntas y respuestas fundamentadas, generación composicional y edición localizada a través de una única interfaz unificada. Página del proyecto: https://chunshi.wang/Part-X-MLLM/
Si bien la generación consciente del pensamiento busca mejorar el rendimiento en tareas complejas, identificamos un modo de fallo crítico en el que los enfoques secuenciales y autoregresivos existentes pueden, paradójicamente, degradar el rendimiento debido a la propagación de errores. Para analizar sistemáticamente este problema, proponemos ParaBench, un nuevo benchmark diseñado para evaluar las modalidades de salida tanto de texto como de imagen. Nuestro análisis utilizando ParaBench revela que esta degradación del rendimiento está fuertemente correlacionada con una mala alineación entre el razonamiento generado y la imagen final. Para resolver esto, proponemos un marco de difusión multimodal paralelo, MMaDA-Parallel, que permite una interacción continua y bidireccional entre texto e imágenes a lo largo de toda la trayectoria de eliminación de ruido. MMaDA-Parallel se entrena con ajuste fino supervisado y luego se optimiza aún más mediante el Aprendizaje por Refuerzo Paralelo (ParaRL), una estrategia novedosa que aplica recompensas semánticas a lo largo de la trayectoria para imponer la consistencia cross-modal. Los experimentos validan que nuestro modelo mejora significativamente la alineación cross-modal y la coherencia semántica, logrando una mejora del 6.9% en Alineación de Salida en ParaBench en comparación con el modelo de vanguardia, Bagel, estableciendo un paradigma más robusto para la síntesis de imágenes consciente del pensamiento. Nuestro código es de código abierto en https://github.com/tyfeld/MMaDA-Parallel.
Los modelos de difusión para eliminación de ruido actuales no "eliminan ruido" en el sentido clásico, es decir, no predicen directamente imágenes limpias. Más bien, las redes neuronales predicen ruido o cantidades con ruido. En este artículo, sugerimos que predecir datos limpios y predecir cantidades con ruido son fundamentalmente diferentes. Según la hipótesis del múltiple, los datos naturales deberían residir en un múltiple de baja dimensión, mientras que las cantidades con ruido no lo hacen. Con esta premisa, abogamos por modelos que predigan directamente datos limpios, lo que permite que redes aparentemente de capacidad limitada operen efectivamente en espacios de muy alta dimensionalidad. Demostramos que Transformadores simples de parches grandes a nivel de píxeles pueden ser modelos generativos potentes: sin necesidad de tokenizador, sin pre-entrenamiento y sin pérdidas adicionales. Nuestro enfoque es conceptualmente nada más que "Simplemente Transformadores de imágenes", o JiT por sus siglas en inglés. Reportamos resultados competitivos usando JiT con tamaños de parche grandes de 16 y 32 en ImageNet a resoluciones de 256 y 512, donde predecir cantidades con ruido de alta dimensionalidad puede fallar catastróficamente. Al hacer que nuestras redes regresen a los fundamentos del múltiple, nuestra investigación vuelve a lo básico y persigue un paradigma autocontenido para la difusión basada en Transformadores sobre datos naturales en bruto.
Los Modelos de Lenguaje Grandes han demostrado un fuerte potencial como rerankers para mejorar el rendimiento general de los sistemas RAG. Sin embargo, los paradigmas de reranking existentes están limitados por un dilema teórico y práctico fundamental: los métodos Punto a Punto, aunque simples y muy flexibles, evalúan los documentos de forma independiente, lo que los hace propensos a la Trampa de la Miopía del Ranking, pasando por alto la importancia relativa entre documentos. Por el contrario, los métodos Basados en Listas pueden percibir el contexto global del ranking, pero sufren de una inherente Rigidez de Lista, lo que genera graves problemas de escalabilidad y flexibilidad al manejar grandes conjuntos de candidatos. Para abordar estos desafíos, proponemos Groupwise, un nuevo paradigma de reranking. En este enfoque, la consulta y un grupo de documentos candidatos se introducen conjuntamente en el modelo, que realiza comparaciones intragrupo para asignar puntuaciones de relevancia individuales a cada documento. Este diseño conserva la flexibilidad de los métodos Punto a Punto a la vez que permite la capacidad comparativa de los métodos Basados en Listas. Además, adoptamos GRPO para el entrenamiento del modelo, equipado con una función de recompensa heterogénea que integra métricas de ranking con una recompensa distribucional destinada a alinear las distribuciones de puntuación entre grupos. Para superar el cuello de botella causado por la escasez de datos etiquetados de alta calidad, proponemos además un proceso innovador para sintetizar datos de recuperación y ranking de alta calidad. Los datos resultantes pueden aprovecharse no solo para entrenar el reranker, sino también para entrenar el recuperador. Experimentos exhaustivos validan la efectividad de nuestro enfoque. En dos benchmarks de recuperación intensiva en razonamiento, BRIGHT y R2MED.
La modelización 3D está evolucionando desde representaciones visuales estáticas hacia activos físicos y articulados que pueden utilizarse directamente en simulación e interacción. Sin embargo, la mayoría de los métodos de generación 3D existentes pasan por alto propiedades físicas y de articulación clave, limitando así su utilidad en IA encarnada. Para cerrar esta brecha, presentamos PhysX-Anything, el primer marco generativo físico 3D listo para simulación que, dada una única imagen del mundo real, produce activos 3D de alta calidad con geometría, articulación y atributos físicos explícitos. Específicamente, proponemos el primer modelo generativo físico 3D basado en VLM, junto con una nueva representación 3D que tokeniza la geometría de manera eficiente. Reduce el número de tokens en 193 veces, permitiendo el aprendizaje explícito de geometría dentro de los límites estándar de tokens VLM sin introducir tokens especiales durante el ajuste fino y mejorando significativamente la calidad generativa. Además, para superar la diversidad limitada de los conjuntos de datos físicos 3D existentes, construimos un nuevo conjunto de datos, PhysX-Mobility, que expande las categorías de objetos en conjuntos de datos físicos 3D previos en más de 2 veces e incluye más de 2.000 objetos comunes del mundo real con anotaciones físicas ricas. Experimentos exhaustivos en PhysX-Mobility e imágenes del mundo real demuestran que PhysX-Anything ofrece un fuerte rendimiento generativo y una robusta generalización. Además, experimentos basados en simulación en un entorno estilo MuJoCo validan que nuestros activos listos para simulación pueden usarse directamente para el aprendizaje de políticas robóticas con contacto intensivo. Creemos que PhysX-Anything puede potenciar sustancialmente una amplia gama de aplicaciones posteriores, especialmente en IA encarnada y simulación basada en física.
La rápida evolución de los modelos generativos de video ha desplazado su enfoque desde la producción de resultados visualmente plausibles hacia la resolución de tareas que requieren plausibilidad física y coherencia lógica. Sin embargo, a pesar de recientes avances como el razonamiento de cadena de fotogramas de Veo 3, aún no está claro si estos modelos pueden exhibir capacidades de razonamiento similares a los modelos de lenguaje grandes (LLM). Los puntos de referencia existentes evalúan predominantemente la fidelidad visual y la coherencia temporal, sin capturar habilidades de razonamiento de orden superior. Para cerrar esta brecha, proponemos TiViBench, un benchmark jerárquico diseñado específicamente para evaluar las capacidades de razonamiento de los modelos de generación de imagen a video (I2V). TiViBench evalúa sistemáticamente el razonamiento en cuatro dimensiones: i) Razonamiento Estructural y Búsqueda, ii) Razonamiento de Patrones Espaciales y Visuales, iii) Razonamiento Simbólico y Lógico, y iv) Planificación de Acciones y Ejecución de Tareas, abarcando 24 escenarios de tareas diversos en 3 niveles de dificultad. Mediante evaluaciones exhaustivas, demostramos que los modelos comerciales (por ejemplo, Sora 2, Veo 3.1) presentan un potencial de razonamiento más sólido, mientras que los modelos de código abierto revelan un potencial sin explotar que sigue limitado por la escala de entrenamiento y la diversidad de datos. Para liberar aún más este potencial, presentamos VideoTPO, una estrategia simple pero efectiva en tiempo de prueba inspirada en la optimización de preferencias. Al realizar un autoanálisis mediante LLM sobre los candidatos generados para identificar fortalezas y debilidades, VideoTPO mejora significativamente el rendimiento del razonamiento sin requerir entrenamiento adicional, datos o modelos de recompensa. En conjunto, TiViBench y VideoTPO allanan el camino para evaluar y avanzar en el razonamiento dentro de los modelos de generación de video, sentando una base para la investigación futura en este campo emergente.
Los marcos automatizados de pruebas de penetración para Modelos de Lenguaje a Gran Escala (LLMs) han alcanzado una sofisticación creciente, pero comparten una limitación fundamental: su lógica de *jailbreak* se limita a seleccionar, combinar o refinar estrategias de ataque preexistentes. Esto restringe su creatividad y les impide inventar autónomamente mecanismos de ataque completamente nuevos. Para superar esta brecha, presentamos EvoSynth, un marco autónomo que cambia el paradigma de la planificación de ataques a la síntesis evolutiva de métodos de *jailbreak*. En lugar de refinar *prompts*, EvoSynth emplea un sistema multiagente para diseñar, evolucionar y ejecutar autónomamente algoritmos de ataque novedosos basados en código. Crucialmente, incorpora un bucle de autocorrección a nivel de código, permitiéndole reescribir iterativamente su propia lógica de ataque en respuesta al fracaso. Mediante experimentos exhaustivos, demostramos que EvoSynth no solo establece un nuevo estado del arte al lograr una Tasa de Éxito de Ataque (ASR) del 85.5% contra modelos altamente robustos como Claude-Sonnet-4.5, sino que también genera ataques significativamente más diversos que los de los métodos existentes. Publicamos nuestro marco para facilitar la investigación futura en esta nueva dirección de síntesis evolutiva de métodos de *jailbreak*. El código está disponible en: https://github.com/dongdongunique/EvoSynth.
Los agentes impulsados por modelos de lenguaje grande (LLM) están transformando los dispositivos digitales de herramientas pasivas a colaboradores inteligentes y proactivos. Sin embargo, la mayoría de los marcos existentes se limitan a un único sistema operativo o dispositivo, lo que hace que los flujos de trabajo entre dispositivos sean frágiles y en gran medida manuales. Presentamos UFO³, un sistema que unifica endpoints heterogéneos, escritorios, servidores, dispositivos móviles y edge en un único tejido de orquestación. UFO³ modela cada solicitud del usuario como una Constelación de Tareas mutable: un DAG distribuido de subtareas atómicas (TaskStars) con dependencias explícitas de control y datos (TaskStarLines). La Constelación de Tareas evoluciona continuamente a medida que los resultados fluyen desde dispositivos distribuidos, permitiendo ejecución asíncrona, recuperación adaptativa y optimización dinámica. Un Orquestador de Constelaciones ejecuta las tareas de forma segura y asíncrona mientras aplica actualizaciones dinámicas del DAG, y el Protocolo de Interacción de Agentes (AIP) proporciona canales persistentes y de baja latencia para el despacho confiable de tareas y el streaming de resultados. Estos diseños disuelven los límites tradicionales entre dispositivos y plataformas, permitiendo que los agentes colaboren sin problemas y amplifiquen su inteligencia colectiva. Evaluamos UFO³ en NebulaBench, un benchmark de 55 tareas entre dispositivos en 5 máquinas y 10 categorías. UFO³ logra un 83.3% de finalización de subtareas, un 70.9% de éxito en tareas, expone paralelismo con un ancho promedio de 1.72 y reduce la latencia de extremo a extremo en un 31% respecto a una línea base secuencial. Los experimentos de inyección de fallos demuestran una degradación y recuperación controladas bajo fallos transitorios y permanentes de agentes. Estos resultados muestran que UFO³ logra una orquestación de tareas precisa, eficiente y resiliente en dispositivos heterogéneos, uniendo agentes aislados en un tejido de computación coherente y adaptable que se extiende a través del panorama de la computación ubicua.
Los modelos visión-lenguaje-acción (VLA) han mostrado recientemente un rendimiento prometedor en diversas tareas de embodiment, pero aún adolecen de falta de fiabilidad y generalización, especialmente cuando se despliegan en diferentes embodiments o entornos del mundo real. En este trabajo, presentamos NORA-1.5, un modelo VLA construido a partir del backbone preentrenado NORA al que se añade un experto en acciones basado en flow matching. Esta mejora arquitectónica por sí sola produce ganancias sustanciales de rendimiento, permitiendo a NORA-1.5 superar a NORA y a varios modelos VLA de vanguardia en benchmarks tanto simulados como del mundo real. Para mejorar aún más la robustez y el éxito en las tareas, desarrollamos un conjunto de modelos de recompensa para el post-entrenamiento de políticas VLA. Nuestras recompensas combinan (i) un modelo del mundo (WM) condicionado por la acción que evalúa si las acciones generadas conducen hacia el objetivo deseado, y (ii) una heurística de desviación de la verdad fundamental (ground-truth) que distingue las buenas acciones de las malas. Utilizando estas señales de recompensa, construimos conjuntos de datos de preferencias y adaptamos NORA-1.5 a embodiments específicos mediante optimización directa de preferencias (DPO). Evaluaciones exhaustivas muestran que el post-entrenamiento guiado por recompensas mejora consistentemente el rendimiento tanto en entornos de simulación como en configuraciones con robots reales, demostrando ganancias significativas en la fiabilidad de los modelos VLA mediante modelos de recompensa simples pero efectivos. Nuestros hallazgos destacan a NORA-1.5 y al post-entrenamiento guiado por recompensas como una vía viable hacia agentes con embodiment más confiables y aptos para su despliegue en el mundo real.
La familia de modelos Segment Anything (SAM) se ha consolidado como un modelo de visión por computadora fundamental ampliamente adoptado, pero su capacidad para controlar la granularidad de la segmentación sigue siendo limitada. Los usuarios a menudo necesitan refinar los resultados manualmente —añadiendo más indicaciones o seleccionando entre máscaras pregeneradas— para alcanzar el nivel de detalle deseado. Este proceso puede resultar ambiguo, ya que una misma indicación puede corresponder a varias máscaras plausibles, y recopilar anotaciones densas en todos los niveles de granularidad es prohibitivamente costoso, lo que hace inviables las soluciones supervisadas. Para abordar esta limitación, presentamos UnSAMv2, que permite segmentar cualquier cosa a cualquier granularidad sin anotaciones humanas. UnSAMv2 extiende la estrategia de divide y vencerás de UnSAM mediante el descubrimiento de abundantes pares máscara-granularidad y la introducción de un novedoso embedding de control de granularidad que permite un ajuste preciso y continuo de la escala de segmentación. Notablemente, con solo 6K imágenes no etiquetadas y un 0.02% de parámetros adicionales, UnSAMv2 mejora sustancialmente a SAM-2, logrando segmentar cualquier cosa a cualquier granularidad en tareas de segmentación interactiva, de imagen completa y de video. Evaluado en más de 11 benchmarks, UnSAMv2 mejora las métricas NoC_{90} (5.69 → 4.75), 1-IoU (58.0 → 73.1) y AR_{1000} (49.6 → 68.3), demostrando que pequeñas cantidades de datos no etiquetados con un método de autoaprendizaje consciente de la granularidad pueden liberar el potencial de los modelos fundamentales de visión.
Los agentes multimodales impulsados por LLM han demostrado recientemente capacidades impresionantes en la navegación web, permitiendo a los agentes completar tareas de navegación complejas en diversos dominios. Sin embargo, los agentes actuales tienen dificultades con errores repetitivos y carecen de la capacidad de aprender de experiencias pasadas entre sesiones, lo que limita su robustez a largo plazo y su eficiencia muestral. Presentamos WebCoach, un marco de auto-evolución independiente del modelo que equipa a los agentes de navegación web con una memoria persistente entre sesiones, permitiendo una mejor planificación a largo plazo, reflexión y aprendizaje continuo sin necesidad de reentrenamiento. WebCoach consta de tres componentes clave: (1) un WebCondenser, que estandariza los registros de navegación en bruto en resúmenes concisos; (2) un Almacén de Memoria Externa, que organiza trayectorias completas como experiencias episódicas; y (3) un Coach, que recupera experiencias relevantes basadas en similitud y proximidad temporal, y decide si inyectar consejos específicos de tarea en el agente mediante hooks de tiempo de ejecución. Este diseño permite a los agentes web acceder a memoria a largo plazo más allá de su ventana de contexto nativa, mejorando la robustez en tareas de navegación complejas. Además, WebCoach logra la auto-evolución mediante la curación continua de memoria episódica a partir de nuevas trayectorias de navegación, permitiendo a los agentes mejorar con el tiempo sin reentrenamiento. Las evaluaciones en el benchmark WebVoyager demuestran que WebCoach mejora consistentemente el rendimiento de agentes de uso de navegador en tres backbones de LLM diferentes. Con un modelo de 38B, aumenta las tasas de éxito de tareas del 47% al 61% mientras reduce o mantiene el número promedio de pasos. Notablemente, modelos base más pequeños con WebCoach logran un rendimiento comparable al mismo agente web que utiliza GPT-4o.
Los datos de observación terrestre presentan un desafío único: son espaciales como las imágenes, secuenciales como el video o el texto, y altamente multimodales. Presentamos OlmoEarth: un modelo base multimodal y espacio-temporal que emplea una novedosa formulación de aprendizaje autosupervisado, estrategia de enmascaramiento y función de pérdida, todos diseñados específicamente para el dominio de la observación terrestre. OlmoEarth logra un rendimiento de vanguardia en comparación con otros 12 modelos base, evaluado en diversos puntos de referencia de investigación y tareas del mundo real de socios externos. En la evaluación de *embeddings*, OlmoEarth alcanza el mejor rendimiento en 15 de 24 tareas, y con ajuste fino completo es el mejor en 19 de 29 tareas. Desplegamos OlmoEarth como la columna vertebral de una plataforma integral para la recolección, etiquetado, entrenamiento e inferencia de modelos de observación terrestre. La Plataforma OlmoEarth pone modelos base de frontera y potentes herramientas de gestión de datos en manos de organizaciones sin fines de lucro y ONG que trabajan para resolver los problemas más grandes del mundo. El código fuente, los datos de entrenamiento y los pesos preentrenados de OlmoEarth están disponibles en https://github.com/allenai/olmoearth_pretrain.
Los Modelos de Lenguaje Grandes (LLM) están transformando casi todas las industrias, incluida la ingeniería de software. En los últimos años, se han propuesto varios agentes basados en LLM para resolver problemas de software del mundo real. Estos agentes de software suelen estar equipados con un conjunto de herramientas de codificación y pueden decidir autónomamente las siguientes acciones para formar trayectorias completas que resuelvan tareas de software de extremo a extremo. Si bien son prometedores, generalmente requieren un diseño dedicado y aún pueden ser subóptimos, ya que puede ser extremadamente desafiante y costoso explorar exhaustivamente todo el espacio de diseño de la estructura del agente. Reconociendo que los agentes de software son inherentemente software que puede refinarse/modificarse, los investigadores han propuesto recientemente varios agentes de software con capacidad de auto-mejora, incluyendo la Máquina Darwin-Gödel (DGM). Sin embargo, estos agentes auto-mejorables requieren costosos entrenamientos offline en benchmarks específicos y pueden no generalizar bien entre diferentes LLM o benchmarks. En este artículo, proponemos Live-SWE-agent, el primer agente de software en vivo que puede evolucionar autónoma y continuamente sobre la marcha durante el tiempo de ejecución mientras resuelve problemas de software del mundo real. Más específicamente, Live-SWE-agent comienza con la estructura de agente más básica con acceso solo a herramientas de bash (por ejemplo, mini-SWE-agent), y evoluciona autónomamente la implementación de su propia estructura mientras resuelve problemas de software reales. Nuestra evaluación en el ampliamente estudiado benchmark SWE-bench Verified muestra que Live-SWE-agent puede lograr una impresionante tasa de resolución del 75.4% sin escalado en tiempo de prueba, superando a todos los agentes de software de código abierto existentes y acercándose al rendimiento de la mejor solución propietaria. Además, Live-SWE-agent supera a los agentes de software creados manualmente más avanzados en el reciente benchmark SWE-Bench Pro, logrando la mejor tasa de resolución conocida del 45.8%.
El aprendizaje en contexto (ICL, por sus siglas en inglés) —la capacidad de un modelo para inferir y aplicar patrones abstractos a partir de ejemplos proporcionados en su entrada— ha sido ampliamente estudiado en modelos de lenguaje grande entrenados para la predicción del siguiente token en texto humano. De hecho, trabajos previos a menudo atribuyen este comportamiento emergente a propiedades estadísticas distintivas del lenguaje humano. Esto plantea una pregunta fundamental: ¿puede surgir el ICL de forma orgánica en otros dominios de secuencias puramente mediante el entrenamiento predictivo a gran escala? Para explorar esto, nos dirigimos a las secuencias genómicas, un dominio simbólico alternativo rico en estructura estadística. Específicamente, estudiamos el modelo genómico Evo2, entrenado predominantemente en la predicción del siguiente nucleótido (A/T/C/G), a una escala comparable a la de modelos de lenguaje de tamaño medio. Desarrollamos un marco experimental controlado que comprende tareas de razonamiento simbólico instanciadas en formas tanto lingüísticas como genómicas, permitiendo una comparación directa del ICL entre modelos genómicos y lingüísticos. Nuestros resultados muestran que los modelos genómicos, al igual que sus contrapartes lingüísticas, exhiben ganancias logarítmico-lineales en la inducción de patrones a medida que aumenta el número de demostraciones en contexto. Hasta donde sabemos, esta es la primera evidencia de ICL emergente de forma orgánica en secuencias genómicas, lo que respalda la hipótesis de que el ICL surge como consecuencia del modelado predictivo a gran escala sobre datos ricos. Estos hallazgos extienden el meta-aprendizaje emergente más allá del lenguaje, apuntando hacia una visión unificada y agnóstica a la modalidad del aprendizaje en contexto.
Los Modelos de Lenguaje Grandes (LLM) han avanzado enormemente la capacidad de respuesta a preguntas sobre grafos de conocimiento (KGQA), sin embargo, los sistemas existentes suelen estar optimizados para devolver respuestas muy relevantes pero predecibles. Una capacidad deseada pero ausente es la de explotar los LLM para sugerir respuestas sorprendentes y novedosas ("serendípicas"). En este artículo, definimos formalmente la tarea de KGQA con conciencia de la serendipia y proponemos el marco SerenQA para evaluar la capacidad de los LLM para descubrir perspectivas inesperadas en tareas de KGQA científica. SerenQA incluye una métrica rigurosa de serendipia basada en la relevancia, la novedad y la sorpresa, junto con un benchmark anotado por expertos derivado del Grafo de Conocimiento Clínico, centrado en la reutilización de fármacos. Además, cuenta con una pipeline de evaluación estructurada que abarca tres subtareas: recuperación de conocimiento, razonamiento sobre subgrafos y exploración de la serendipia. Nuestros experimentos revelan que, si bien los LLM más avanzados tienen un buen desempeño en la recuperación, aún tienen dificultades para identificar descubrimientos genuinamente sorprendentes y valiosos, lo que subraya un margen significativo para mejoras futuras. Nuestros recursos seleccionados y la versión extendida se publican en: https://cwru-db-group.github.io/serenQA.
Los Modelos de Visión-Lenguaje (VLM) destacan en inferencia zero-shot, pero suelen degradarse ante cambios de dominio durante el test. Por esta razón, las estrategias de adaptación episódica en tiempo de prueba han surgido recientemente como técnicas potentes para adaptar los VLM a una única imagen sin etiquetar. Sin embargo, las estrategias de adaptación existentes, como la sintonización de prompts en tiempo de prueba, generalmente requieren retropropagar a través de los pesos de grandes codificadores o alterar componentes centrales del modelo. En este trabajo, presentamos Spectrum-Aware Test-Time Steering (STS), un marco de adaptación ligero que extrae un subespacio espectral de los embeddings textuales para definir direcciones semánticas principales y aprende a dirigir las representaciones latentes de manera consciente al espectro, adaptando un pequeño número de parámetros de cambio por muestra para minimizar la entropía entre vistas aumentadas. STS opera completamente durante la inferencia en el espacio latente, sin retropropagación a través de, o modificación de, los codificadores congelados. Basándonos en protocolos de evaluación estándar, nuestros experimentos exhaustivos demuestran que STS supera ampliamente o se compara favorablemente con los métodos de adaptación en tiempo de prueba más avanzados, mientras introduce solo un puñado de parámetros adicionales y logra velocidades de inferencia hasta 8 veces más rápidas, con una huella de memoria 12 veces menor que la sintonización de prompts convencional en tiempo de prueba. El código está disponible en https://github.com/kdafnis/STS.
Los Modelos de Lenguaje Grandes Multimodales se aplican cada vez más a la imagen biomédica, pero el razonamiento científico para microscopía sigue estando limitado por la escasez de datos de entrenamiento a gran escala y de alta calidad. Presentamos MicroVQA++, un corpus de VQA (Visual Question Answering) para microscopía de alta calidad y a gran escala, construido en tres etapas a partir del archivo BIOMEDICA. La primera etapa obtiene supervisión a partir de pares figura-leyenda validados por expertos y extraídos de artículos revisados por pares. La segunda etapa aplica HiCQA-Graph, un novedoso grafo heterogéneo sobre imágenes, leyendas y pares pregunta-respuesta (QA) que fusiona entailment textual basado en NLI (Inferencia en Lenguaje Natural), alineación visión-lenguaje basada en CLIP y señales de agentes para identificar y filtrar muestras inconsistentes. La tercera etapa utiliza un agente de Modelo de Lenguaje Grande Multimodal (MLLM) para generar preguntas de opción múltiple (MCQ), seguidas de una revisión humana. La versión resultante comprende un gran conjunto de entrenamiento y un conjunto de prueba revisado por humanos, cuya distribución de muestras difíciles según el nivel de Bloom supera al benchmark MicroVQA. Nuestro trabajo aporta (i) un conjunto de datos con control de calidad que combina literatura experta con filtrado basado en grafos y refinamiento humano; (ii) HiCQA-Graph, el primer grafo que modela conjuntamente (imagen, leyenda, QA) para el filtrado de consistencia cross-modal; (iii) evidencia de que una construcción cuidadosa de los datos permite que MLLMs de escala 4B alcancen un rendimiento competitivo en razonamiento de microscopía (ej., comparable a GPT-5) y logren un rendimiento state-of-the-art entre los MLLMs de código abierto. El código y el conjunto de datos se publicarán una vez concluido el proceso de revisión.
Los grandes modelos de lenguaje (LLM) han demostrado un rendimiento notable en una amplia gama de tareas; sin embargo, la mayoría de los modelos de alto rendimiento siguen siendo de código cerrado o parcialmente abiertos, lo que limita la transparencia y la reproducibilidad. En este trabajo, presentamos Instella, una familia de modelos de lenguaje completamente abiertos de tres mil millones de parámetros, entrenados íntegramente con datos y bases de código de acceso público. Impulsado por las GPU AMD Instinct MI300X, Instella se ha desarrollado mediante preentrenamiento a gran escala, ajuste instruccional de propósito general y alineación con las preferencias humanas. A pesar de utilizar sustancialmente menos *tokens* de preentrenamiento que muchos de sus contemporáneos, Instella logra resultados de vanguardia entre los modelos completamente abiertos y es competitivo con los principales modelos de pesos abiertos de tamaño comparable. Además, publicamos dos variantes especializadas: Instella-Long, capaz de manejar contextos de hasta 128 mil tokens, e Instella-Math, un modelo centrado en el razonamiento mejorado mediante ajuste fino supervisado y aprendizaje por refuerzo en tareas matemáticas. En conjunto, estas contribuciones establecen a Instella como una alternativa transparente, eficaz y versátil para la comunidad, avanzando hacia el objetivo de una investigación en modelado del lenguaje abierta y reproducible.
Los modelos de lenguaje multimodal (MLLM) han demostrado capacidades impresionantes de razonamiento y seguimiento de instrucciones, pero su espacio modal expandido introduce nuevos riesgos de seguridad composicional que surgen de complejas interacciones texto-imagen. Estos acoplamientos multimodales pueden producir semánticas no seguras incluso cuando las entradas individuales son benignas, exponiendo la frágil conciencia de seguridad de los MLLM actuales. Si bien trabajos recientes mejoran la seguridad guiando a los modelos a razonar sobre riesgos potenciales, las trazas de razonamiento no reguladas pueden comprometer la alineación; aunque la Optimización de Políticas Relativas de Grupo (GRPO) ofrece un refinamiento auto-recompensado sin supervisión humana, carece de señales verificables para la seguridad del razonamiento. Para abordar esto, proponemos SafeGRPO, un marco de alineación de seguridad multimodal auto-recompensado que integra la construcción de recompensas reglamentadas en GRPO, permitiendo una optimización interpretable y verificable de la seguridad del razonamiento. Basado en el conjunto de datos construido SafeTag-VL-3K con etiquetas explícitas de seguridad visual, textual y combinada, SafeGRPO realiza un pensamiento de seguridad guiado por pasos para imponer un razonamiento estructurado y una alineación conductual, mejorando sustancialmente la conciencia de seguridad multimodal, la robustez composicional y la estabilidad del razonamiento en diversos puntos de referencia sin sacrificar las capacidades generales.
La alineación de representaciones de diferentes modalidades ha demostrado recientemente proporcionar información sobre las similitudes estructurales y las capacidades posteriores de diferentes codificadores en diversos tipos de datos. Si bien se ha logrado un progreso significativo en la alineación de imágenes con texto, la naturaleza temporal de los datos de vídeo sigue siendo en gran medida inexplorada en este contexto. En este trabajo, realizamos el primer estudio integral sobre la alineación de representaciones vídeo-texto, analizando las capacidades de los codificadores modernos de vídeo y lenguaje. Nuestros hallazgos revelan varias conclusiones clave. En primer lugar, demostramos que la alineación multimodal depende en gran medida de la riqueza de los datos tanto visuales (imágenes estáticas vs. vídeos multicuadro) como textuales (una sola leyenda vs. una colección) proporcionados en el momento de la prueba, especialmente cuando se utilizan codificadores de vídeo de última generación. Proponemos leyes de escalado paramétricas en tiempo de prueba que capturan este comportamiento y muestran un poder predictivo notable frente a observaciones empíricas. En segundo lugar, investigamos la correlación entre la alineación semántica y el rendimiento en tareas posteriores tanto semánticas como no semánticas, proporcionando evidencia inicial de que una alineación sólida con los codificadores de texto puede estar vinculada a la representación y comprensión de vídeo de propósito general. Finalmente, correlacionamos el razonamiento temporal con la alineación multimodal, proporcionando un banco de pruebas desafiante para los modelos de visión y lenguaje. En general, nuestro trabajo introduce la alineación vídeo-texto como una forma informativa de sondear, sin ajuste específico (zero-shot), el poder de representación de diferentes codificadores para datos espacio-temporales. La página del proyecto se puede encontrar en https://video-prh.github.io/
A medida que los modelos de lenguaje grande (LLM) evolucionan hacia agentes autónomos sofisticados capaces de realizar tareas complejas de desarrollo de software, evaluar sus capacidades en escenarios reales se vuelve crítico. Si bien benchmarks existentes como LoCoBench~qiu2025locobench evalúan la comprensión de código en contextos largos, se centran en evaluaciones de un solo turno y no pueden capturar la naturaleza interactiva multiturno, los patrones de uso de herramientas y el razonamiento adaptativo requeridos por los agentes de codificación del mundo real. Presentamos LoCoBench-Agent, un marco de evaluación integral diseñado específicamente para evaluar agentes LLM en flujos de trabajo realistas de ingeniería de software con contexto largo. Nuestro marco extiende los 8.000 escenarios de LoCoBench a entornos interactivos para agentes, permitiendo la evaluación sistemática de conversaciones multiturno, eficiencia en el uso de herramientas, recuperación de errores y consistencia arquitectónica a lo largo de sesiones de desarrollo extendidas. También introducimos una metodología de evaluación con 9 métricas en las dimensiones de comprensión y eficiencia. Nuestro marco proporciona a los agentes 8 herramientas especializadas (operaciones de archivo, búsqueda, análisis de código) y los evalúa en longitudes de contexto que van desde 10K hasta 1 millón de tokens, permitiendo una evaluación precisa del rendimiento en contextos largos. Mediante la evaluación sistemática de modelos de vanguardia, revelamos varios hallazgos clave: (1) los agentes exhiben una notable robustez en contextos largos; (2) existe una compensación entre comprensión y eficiencia con correlación negativa, donde una exploración exhaustiva aumenta la comprensión pero reduce la eficiencia; y (3) la eficiencia conversacional varía drásticamente entre modelos, con patrones estratégicos de uso de herramientas que diferencian a los agentes de alto rendimiento. Como el primer benchmark para agentes LLM de contexto largo en ingeniería de software, LoCoBench-Agent establece una base rigurosa para medir las capacidades de los agentes, identificar brechas de rendimiento y avanzar en el desarrollo autónomo de software a gran escala.
El diálogo persuasivo orientado a objetivos, ejemplificado por aplicaciones como la televenta, requiere una planificación multifase sofisticada y una estricta fidelidad factual, lo que sigue siendo un desafío importante incluso para los Modelos de Lenguaje a Gran Escala (LLMs) más avanzados. La falta de datos específicos de la tarea a menudo limita trabajos anteriores, y la aplicación directa de LLMs adolece de fragilidad estratégica y alucinación factual. En este artículo, primero construimos y publicamos TeleSalesCorpus, el primer conjunto de datos de diálogos basado en escenarios del mundo real para este dominio. Luego proponemos AI-Salesman, un marco novedoso que presenta una arquitectura de doble etapa. Para la etapa de entrenamiento, diseñamos un algoritmo de aprendizaje por refuerzo supervisado bayesiano que aprende estrategias de venta robustas a partir de diálogos ruidosos. Para la etapa de inferencia, presentamos el Agente Guiado por Esquema Dinámico (DOGA), que aprovecha una biblioteca de guiones preconstruida para proporcionar una guía estratégica dinámica y turno por turno. Además, diseñamos un marco de evaluación integral que combina métricas detalladas para habilidades clave de venta con el paradigma LLM-como-Juez. Los resultados experimentales demuestran que nuestro AI-Salesman propuesto supera significativamente a los modelos baseline tanto en métricas automáticas como en evaluaciones humanas integrales, mostrando su eficacia en escenarios persuasivos complejos.
Los sistemas de generación aumentada por recuperación (RAG) existentes suelen utilizar una arquitectura centralizada, lo que genera un alto costo de recopilación, integración y gestión de datos, así como problemas de privacidad. Existe una gran necesidad de un sistema RAG descentralizado que permita a los modelos fundacionales utilizar información directamente de los propietarios de los datos, quienes mantienen el control total sobre sus fuentes. Sin embargo, la descentralización plantea un desafío: las numerosas fuentes de datos independientes varían significativamente en confiabilidad, lo que puede reducir la precisión de la recuperación y la calidad de la respuesta. Para abordar esto, nuestro sistema RAG descentralizado incorpora un novedoso mecanismo de puntuación de confiabilidad que evalúa dinámicamente cada fuente en función de la calidad de las respuestas que contribuye a generar y prioriza las fuentes de alta calidad durante la recuperación. Para garantizar la transparencia y la confianza, el proceso de puntuación se gestiona de forma segura mediante contratos inteligentes basados en blockchain, creando registros de confiabilidad verificables e inalterables sin depender de una autoridad central. Evaluamos nuestro sistema descentralizado con dos modelos Llama (3B y 8B) en dos entornos simulados donde seis fuentes de datos tienen diferentes niveles de confiabilidad. Nuestro sistema logra una mejora de rendimiento del +10.7% sobre su contraparte centralizada en entornos de datos no confiables similares a los del mundo real. Notablemente, se aproxima al rendimiento límite superior de los sistemas centralizados en entornos de datos idealmente confiables. La infraestructura descentralizada permite una gestión de puntuación segura y confiable, logrando aproximadamente un 56% de ahorro en costos marginales mediante operaciones de actualización por lotes. Nuestro código y sistema son de código abierto en github.com/yining610/Reliable-dRAG.
La ecografía (US) es una de las modalidades de imagen médica más utilizadas, gracias a su bajo coste, portabilidad, retroalimentación en tiempo real y ausencia de radiación ionizante. Sin embargo, la interpretación de imágenes ecográficas sigue siendo altamente dependiente del operador y varía significativamente entre regiones anatómicas, protocolos de adquisición y tipos de dispositivos. Estas variaciones, junto con desafíos únicos como el speckle, el bajo contraste y las anotaciones estandarizadas limitadas, dificultan el desarrollo de modelos de IA ecográfica generalizables y eficientes en etiquetas. En este artículo, proponemos OpenUS, el primer modelo base ecográfico reproducible y de código abierto construido sobre una amplia colección de datos públicos. OpenUS emplea una arquitectura vision Mamba, capturando dependencias tanto locales como globales de largo alcance en la imagen. Para extraer características ricas durante el pre-entrenamiento, introducimos un novedoso marco de enmascaramiento auto-adaptativo que combina el aprendizaje contrastivo con el modelado de imágenes enmascaradas. Esta estrategia integra el mapa de atención del profesor con la pérdida de reconstrucción del estudiante, refinando adaptativamente el enmascaramiento clínicamente relevante para mejorar la efectividad del pre-entrenamiento. OpenUS también aplica un programa de aprendizaje dinámico para ajustar progresivamente la dificultad del proceso de pre-entrenamiento. Para desarrollar el modelo base, compilamos el mayor conjunto de datos ecográficos públicos hasta la fecha, que comprende más de 308.000 imágenes de 42 conjuntos de datos disponibles públicamente, cubriendo diversas regiones anatómicas, instituciones, dispositivos de imagen y tipos de enfermedades. Nuestro modelo OpenUS pre-entrenado puede adaptarse fácilmente a tareas específicas de downstream sirviendo como columna vertebral para un ajuste fino eficiente en etiquetas. El código está disponible en https://github.com/XZheng0427/OpenUS.