Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes lingüísticos han demostrado un potencial notable en la búsqueda web y la recuperación de información. Sin embargo, estos agentes de búsqueda asumen que las consultas de los usuarios son completas y inequívocas, una suposición que diverge de la realidad, donde los usuarios comienzan con consultas incompletas que requieren aclaración mediante interacción. No obstante, la mayoría de los agentes carecen de mecanismos interactivos durante el proceso de búsqueda, y los puntos de referencia existentes no pueden evaluar esta capacidad. Para abordar esta brecha, presentamos InteractComp, un punto de referencia diseñado para evaluar si los agentes de búsqueda pueden reconocer la ambigüedad de las consultas e interactuar activamente para resolverla durante la búsqueda. Siguiendo el principio de fácil verificación e interacción para desambiguar, construimos 210 preguntas curadas por expertos en 9 dominios mediante una metodología de objetivo-distractor que crea una ambigüedad genuina solo resoluble mediante interacción. La evaluación de 17 modelos revela un fracaso sorprendente: el mejor modelo alcanza solo un 13.73% de precisión a pesar de lograr un 71.50% con contexto completo, exponiendo una sobreconfianza sistemática en lugar de déficits de razonamiento. La interacción forzada produce ganancias dramáticas, demostrando capacidades latentes que las estrategias actuales no logran activar. El análisis longitudinal muestra que las capacidades de interacción se han estancado durante 15 meses mientras el rendimiento en búsqueda mejoró siete veces, revelando un punto ciego crítico. Este estancamiento, unido a la retroalimentación inmediata inherente a las tareas de búsqueda, convierte a InteractComp en un recurso valioso tanto para evaluar como para entrenar capacidades de interacción en agentes de búsqueda. El código está disponible en https://github.com/FoundationAgents/InteractComp.
Presentamos Tongyi DeepResearch, un modelo de lenguaje grande agéntico diseñado específicamente para tareas de investigación profunda con búsqueda de información de largo alcance. Para incentivar la capacidad autónoma de investigación profunda, Tongyi DeepResearch se desarrolla mediante un marco de entrenamiento integral que combina entrenamiento intermedio agéntico y entrenamiento posterior agéntico, permitiendo razonamiento escalable y búsqueda de información en tareas complejas. Diseñamos una canalización de síntesis de datos altamente escalable, completamente automática y que no depende de costosas anotaciones humanas, potenciando todas las etapas de entrenamiento. Mediante la construcción de entornos personalizados para cada fase, nuestro sistema permite interacciones estables y consistentes en todo el proceso. Tongyi DeepResearch, con 30.5 mil millones de parámetros totales y solo 3.3 mil millones activados por token, logra un rendimiento de vanguardia en diversos benchmarks de investigación profunda agéntica, incluyendo Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES y xbench-DeepSearch-2510. Liberamos como código abierto el modelo, el marco y las soluciones completas para empoderar a la comunidad.
Los agentes web basados en LLM muestran un enorme potencial para la búsqueda de información, pero su eficacia en tareas de horizonte largo se ve limitada por una compensación fundamental en la gestión del contexto. Los agentes predominantes basados en ReAct sufren de saturación contextual a medida que acumulan historiales crudos y ruidosos, mientras que los métodos que resumen fijamente el historial completo en cada paso arriesgan la pérdida irreversible de detalles críticos. Para abordar esto, presentamos AgentFold, un nuevo paradigma de agente centrado en la gestión proactiva del contexto, inspirado en el proceso cognitivo humano de consolidación retrospectiva. AgentFold trata su contexto como un espacio de trabajo cognitivo dinámico que debe esculpirse activamente, en lugar de un registro pasivo que debe llenarse. En cada paso, aprende a ejecutar una operación de `plegado` que gestiona su trayectoria histórica a múltiples escalas: puede realizar condensaciones granulares para preservar detalles vitales y finos, o consolidaciones profundas para abstraer sub-tareas completas de múltiples pasos. Los resultados en benchmarks prominentes son sorprendentes: con un simple ajuste fino supervisado (sin pre-entrenamiento continuo o RL), nuestro agente AgentFold-30B-A3B alcanza un 36.2% en BrowseComp y un 47.3% en BrowseComp-ZH. Notablemente, este rendimiento no solo supera o iguala a modelos de código abierto de una escala dramáticamente mayor, como el DeepSeek-V3.1-671B-A37B, sino que también supera a agentes propietarios líderes como el o4-mini de OpenAI.
Los recientes avances en Modelos de Lenguaje Grandes Multimodales (MLLM) han impulsado un rápido progreso en los modelos Visión-Lenguaje-Acción (VLA) para la manipulación robótica. Aunque son efectivos en muchos escenarios, los enfoques actuales dependen en gran medida de instrucciones explícitas, mientras que en las interacciones del mundo real, los humanos rara vez emiten instrucciones directamente. La colaboración efectiva requiere que los robots infieran las intenciones del usuario de manera proactiva. En este trabajo, presentamos las instrucciones contextuales multimodales, un nuevo escenario en el que la intención se deriva del diálogo hablado, los sonidos ambientales y las señales visuales en lugar de comandos explícitos. Para abordar este nuevo escenario, presentamos RoboOmni, un marco Perceptor-Pensador-Hablador-Ejecutor basado en LLM omnimodales de extremo a extremo que unifica el reconocimiento de intenciones, la confirmación de interacción y la ejecución de acciones. RoboOmni fusiona señales auditivas y visuales espaciotemporalmente para un reconocimiento de intenciones robusto, mientras admite interacción por voz directa. Para abordar la falta de datos de entrenamiento para el reconocimiento proactivo de intenciones en la manipulación robótica, construimos OmniAction, que comprende 140k episodios, más de 5k hablantes, 2.4k sonidos de eventos, 640 fondos y seis tipos de instrucciones contextuales. Los experimentos en entornos de simulación y del mundo real muestran que RoboOmni supera a los baselines basados en texto y ASR en tasa de éxito, velocidad de inferencia, reconocimiento de intenciones y asistencia proactiva.
Presentamos Game-TARS, un agente de juego generalista entrenado con un espacio de acción unificado y escalable anclado a entradas nativas de teclado y ratón alineadas con el humano. A diferencia de los enfoques basados en API o GUI, este paradigma permite el pre-entrenamiento continuo a gran escala en dominios heterogéneos, incluyendo sistemas operativos, web y juegos de simulación. Game-TARS fue pre-entrenado con más de 500.000 millones de tokens que incluyen trayectorias diversas y datos multimodales. Las técnicas clave incluyen una pérdida continua decreciente para reducir la confusión causal y una eficiente estrategia de Pensamiento Escaso que equilibra la profundidad del razonamiento y el coste de inferencia. Los experimentos muestran que Game-TARS logra aproximadamente el doble de la tasa de éxito del modelo estado del arte anterior en tasks de Minecraft de mundo abierto, se acerca a la generalidad de humanos novatos en juegos web 3D no vistos, y supera a GPT-5, Gemini-2.5-Pro y Claude-4-Sonnet en benchmarks de FPS. Los resultados de escalado en tiempo de entrenamiento y prueba confirman que el espacio de acción unificado sostiene mejoras cuando se escala a datos multijuego y multimodales. Nuestros resultados demuestran que las representaciones de acción simples y escalables, combinadas con un pre-entrenamiento a gran escala, ofrecen un camino prometedor hacia agentes generalistas con amplias capacidades de uso informático.
La generación de vídeo en espacio continuo ha avanzado rápidamente, mientras que los enfoques discretos se quedan rezagados debido a la acumulación de errores y la inconsistencia en contextos largos. En este trabajo, revisitamos el modelado generativo discreto y presentamos **URSA** (Uniform discRete diffuSion with metric pAth), un marco de trabajo sencillo pero potente que salva la brecha con los enfoques continuos para la generación escalable de vídeo. En esencia, URSA formula la tarea de generación de vídeo como un refinamiento global iterativo de tokens espacio-temporales discretos. Integra dos diseños clave: una **Trayectoria Métrica Linealizada** y un mecanismo de **Desplazamiento de Paso de Tiempo Dependiente de la Resolución**. Estos diseños permiten a URSA escalar eficientemente a la síntesis de imágenes de alta resolución y a la generación de vídeo de larga duración, requiriendo significativamente menos pasos de inferencia. Adicionalmente, introducimos una estrategia de ajuste fino temporal asíncrono que unifica diversas tareas dentro de un único modelo, incluyendo interpolación y generación de imagen a vídeo. Experimentos exhaustivos en benchmarks desafiantes de generación de vídeo e imagen demuestran que URSA supera consistentemente a los métodos discretos existentes y logra un rendimiento comparable a los métodos de difusión continuos de última generación. El código y los modelos están disponibles en https://github.com/baaivision/URSA.
Los resultados de investigación pública sobre el ajuste fino supervisado a gran escala de agentes de IA siguen siendo relativamente escasos, ya que la recopilación de datos para el entrenamiento de agentes presenta desafíos únicos. En este trabajo, sostenemos que el cuello de botella no es la falta de fuentes de datos subyacentes, sino que una gran variedad de datos está fragmentada en formatos, herramientas e interfaces heterogéneos. Con este fin, presentamos el protocolo de datos de agentes (ADP), un lenguaje de representación ligero que sirve como una "interlengua" entre conjuntos de datos de agentes en diversos formatos y las canalizaciones unificadas de entrenamiento de agentes posteriores. El diseño de ADP es lo suficientemente expresivo para capturar una gran variedad de tareas, incluyendo el uso de API/herramientas, navegación, programación, ingeniería de software y flujos de trabajo agenticos generales, mientras sigue siendo sencillo de analizar y entrenar sin necesidad de ingeniería a nivel de cada conjunto de datos. En los experimentos, unificamos una amplia colección de 13 conjuntos de datos de entrenamiento de agentes existentes en formato ADP, y convertimos los datos estandarizados de ADP en formatos listos para el entrenamiento para múltiples marcos de trabajo de agentes. Realizamos SFT con estos datos y demostramos una mejora promedio de rendimiento de ~20% sobre los modelos base correspondientes, logrando un rendimiento de vanguardia o cercano al estado del arte en puntos de referencia estándar de programación, navegación, uso de herramientas e investigación, sin ajustes específicos por dominio. Todo el código y los datos se han publicado públicamente, con la esperanza de que ADP pueda ayudar a reducir la barrera para un entrenamiento de agentes estandarizado, escalable y reproducible.
Los modelos visión-lenguaje-acción (VLA) existentes actúan en entornos 3D del mundo real, pero generalmente se construyen sobre codificadores 2D, lo que genera una brecha de razonamiento espacial que limita su generalización y adaptabilidad. Las técnicas recientes de integración 3D para VLA requieren sensores especializados y se transfieren pobremente entre modalidades, o inyectan señales débiles que carecen de geometría y degradan la alineación visión-lenguaje. En este trabajo, presentamos FALCON (Del Espacio a la Acción), un paradigma novedoso que inyecta tokens espaciales 3D enriquecidos en el cabezal de acción. FALCON aprovecha modelos fundacionales espaciales para proporcionar fuertes *priors* geométricos únicamente a partir de RGB, e incluye un Modelo Espacial Corporizado que puede fusionar opcionalmente profundidad o pose para mayor fidelidad cuando estén disponibles, sin necesidad de reentrenamiento o cambios arquitectónicos. Para preservar el razonamiento lingüístico, los tokens espaciales son procesados por un Cabezal de Acción Mejorado Espacialmente en lugar de concatenarse en el *backbone* visión-lenguaje. Estos diseños permiten a FALCON abordar las limitaciones en representación espacial, transferibilidad de modalidad y alineación. En evaluaciones exhaustivas en tres entornos de simulación y once tareas del mundo real, nuestro FALCON propuesto logra un rendimiento de vanguardia, supera consistentemente líneas base competitivas y mantiene robustez bajo desorden, condicionamiento espacial por *prompt*, y variaciones en escala y altura de objetos.
Recientemente, la edición de imágenes basada en modelos de Difusión en Transformadores (DiT) ha experimentado un rápido desarrollo. Sin embargo, los métodos de edición existentes a menudo carecen de un control efectivo sobre el grado de edición, lo que limita su capacidad para lograr resultados más personalizados. Para abordar esta limitación, investigamos el mecanismo de Atención Multi-Modal (MM-Attention) dentro del modelo DiT y observamos que los tokens de Consulta (Query) y Clave (Key) comparten un vector de sesgo que depende únicamente de la capa. Interpretamos este sesgo como la representación del comportamiento de edición inherente del modelo, mientras que la diferencia (delta) entre cada token y su sesgo correspondiente codifica las señales de edición específicas del contenido. Basándonos en esta idea, proponemos la Guía de Atención Relativa Grupal (Group Relative Attention Guidance, GRAG), un método simple pero efectivo que repondera los valores delta de diferentes tokens para modular el enfoque del modelo en la imagen de entrada en relación con la instrucción de edición, permitiendo un control continuo y de grano fino sobre la intensidad de la edición sin necesidad de ajuste alguno. Experimentos exhaustivos realizados en frameworks de edición de imágenes existentes demuestran que GRAG puede integrarse con tan solo cuatro líneas de código, mejorando consistentemente la calidad de la edición. Además, en comparación con la Guía Libre de Clasificador (Classifier-Free Guidance) comúnmente utilizada, GRAG logra un control más suave y preciso sobre el grado de edición. Nuestro código será liberado en https://github.com/little-misfit/GRAG-Image-Editing.
El descodificado especulativo acelera la inferencia de LLM utilizando un modelo borrador pequeño para proponer múltiples tokens que un modelo objetivo verifica en paralelo. Extender esta idea a lotes es esencial para el servicio en producción, pero introduce el problema del tensor irregular: las secuencias en el mismo lote aceptan diferentes cantidades de tokens borradores, rompiendo la alineación derecha y corrompiendo los ID de posición, las máscaras de atención y el estado de la caché KV. Demostramos que varias implementaciones existentes de lotes violan la equivalencia de salida, el requisito fundamental de que el descodificado especulativo debe producir secuencias de tokens idénticas a la generación autoregresiva estándar. Estas violaciones ocurren precisamente debido al manejo inadecuado del problema del tensor irregular. En respuesta, (1) caracterizamos los requisitos de sincronización que garantizan la corrección, (2) presentamos un descodificado especulativo por lotes centrado en la corrección, EQSPEC, que expone que la realineación consume el 40% de la sobrecarga, y (3) introducimos EXSPEC, que mantiene un grupo deslizante de secuencias y forma grupos de misma longitud dinámicamente, para reducir la sobrecarga de realineación preservando las aceleraciones especulativas por secuencia. En el conjunto de datos SpecBench, a través de pares objetivo/borrador Vicuna-7B/68M, Qwen3-8B/0.6B y GLM-4-9B/0.6B, nuestro enfoque logra una mejora de rendimiento de hasta 3 veces con un tamaño de lote de 8 en comparación con un tamaño de lote de 1, con un escalado eficiente hasta tamaño de lote 8, manteniendo un 95% de equivalencia de salida. Nuestro método no requiere núcleos personalizados y se integra limpiamente con las pilas de inferencia existentes. Nuestro código está disponible en https://github.com/eBay/spec_dec.
Los agentes de búsqueda basados en LLM se entrenan cada vez más con datos sintéticos centrados en entidades para resolver tareas complejas e intensivas en conocimiento. Sin embargo, los métodos de entrenamiento predominantes, como la Optimización de Políticas Relativas por Grupos (GRPO), descartan esta rica información de entidades, dependiendo en su lugar de recompensas dispersas basadas en resultados. Esta limitación crítica les impide distinguir muestras informativas de "casi aciertos" —aquellas con un razonamiento sustancialmente correcto pero una respuesta final defectuosa— de los fracasos completos, descartando así valiosas señales de aprendizaje. Abordamos este problema aprovechando las mismas entidades que se descartan durante el entrenamiento. Nuestro análisis empírico revela una fuerte correlación positiva entre el número de entidades de la verdad fundamental identificadas durante el proceso de razonamiento de un agente y la precisión de la respuesta final. Basándonos en esta idea, presentamos la Optimización de Políticas Relativas por Grupos con Conciencia de Entidades (E-GRPO), un marco novedoso que formula una función de recompensa densa y consciente de las entidades. E-GRPO asigna recompensas parciales a las muestras incorrectas proporcionales a su tasa de coincidencia de entidades, permitiendo que el modelo aprenda efectivamente de estos "casi aciertos". Los experimentos en diversos benchmarks de respuesta a preguntas (QA) e investigación profunda muestran que E-GRPO supera constante y significativamente a la línea base GRPO. Además, nuestro análisis revela que E-GRPO no solo logra una precisión superior, sino que también induce políticas de razonamiento más eficientes que requieren menos llamadas a herramientas, demostrando un enfoque más efectivo y eficiente en muestras para alinear agentes de búsqueda.
Entrenar agentes de modelos de lenguaje a gran escala en tareas situadas en la frontera de sus capacidades es clave para desbloquear un razonamiento avanzado. Presentamos un enfoque de síntesis de datos inspirado en la teoría educativa de la Zona de Desarrollo Próximo (ZDP), que define esta frontera como tareas que un LLM no puede resolver por sí solo pero puede dominar con orientación. Para operacionalizar esto, presentamos el Motor AgentFrontier, una canalización automatizada que sintetiza datos multidisciplinarios de alta calidad situados precisamente dentro de la ZDP del LLM. Este motor admite tanto el pre-entrenamiento continuo con datos intensivos en conocimiento como el post-entrenamiento específico en tareas de razonamiento complejo. Del mismo marco, derivamos el Examen ZPD, un punto de referencia dinámico y automatizado diseñado para evaluar las capacidades de los agentes en estas tareas fronterizas. Entrenamos el modelo AgentFrontier-30B-A3B con nuestros datos sintetizados, que logra resultados de vanguardia en puntos de referencia exigentes como el Examen Final de la Humanidad, superando incluso a algunos agentes propietarios líderes. Nuestro trabajo demuestra que un enfoque de síntesis de datos guiado por la ZDP ofrece un camino escalable y efectivo para construir agentes de LLM más capaces.
Con los avances en capacidades de toma de decisiones y razonamiento, los agentes multimodales muestran un gran potencial en escenarios de aplicaciones informáticas. Las evaluaciones pasadas se han centrado principalmente en valorar las habilidades de interacción con interfaces gráficas (GUI), mientras que las capacidades de invocación de herramientas, como las habilitadas por el Model Context Protocol (MCP), han sido ampliamente ignoradas. Comparar agentes con invocación de herramientas integrada con aquellos evaluados solo en interacción GUI es inherentemente injusto. Presentamos OSWorld-MCP, el primer benchmark integral y justo para evaluar la invocación de herramientas, la operación de GUI y las habilidades de toma de decisiones de los agentes de uso informático en un entorno real. Diseñamos una novedosa pipeline automatizada de generación de código para crear herramientas y las combinamos con una selección curada de herramientas existentes. Una rigurosa validación manual produce 158 herramientas de alta calidad (que cubren 7 aplicaciones comunes), cada una verificada por su funcionalidad correcta, aplicabilidad práctica y versatilidad. Evaluaciones exhaustivas de agentes multimodales state-of-the-art en OSWorld-MCP muestran que las herramientas MCP generalmente mejoran las tasas de éxito de las tareas (por ejemplo, del 8.3% al 20.4% para OpenAI o3 en 15 pasos, del 40.1% al 43.3% para Claude 4 Sonnet en 50 pasos), subrayando la importancia de evaluar las capacidades de invocación de herramientas. Sin embargo, incluso los modelos más potentes tienen tasas de invocación de herramientas relativamente bajas, solo del 36.3%, lo que indica margen de mejora y resalta el desafío que representa el benchmark. Al medir explícitamente las habilidades de uso de herramientas MCP, OSWorld-MCP profundiza la comprensión de los agentes multimodales y establece un nuevo estándar para evaluar el rendimiento en entornos complejos asistidos por herramientas. Nuestro código, entorno y datos están disponibles públicamente en https://osworld-mcp.github.io.
Los modelos de lenguaje grande (LLM) han permitido recientemente el desarrollo de agentes de programación capaces de generar, ejecutar y revisar código de visualización. Sin embargo, los modelos existentes a menudo fallan en flujos de trabajo prácticos debido a una cobertura lingüística limitada, ejecución poco fiable y la falta de mecanismos de corrección iterativos. El progreso se ha visto limitado por conjuntos de datos y puntos de referencia estrechos que enfatizan la generación en una sola ronda y tareas en un solo lenguaje. Para abordar estos desafíos, presentamos tres recursos complementarios para avanzar en los agentes de programación de visualización. VisCode-Multi-679K es un conjunto de datos supervisado a gran escala que contiene 679K muestras de visualización validadas y ejecutables con diálogos de corrección multiturno en 12 lenguajes de programación. VisPlotBench es un punto de referencia para la evaluación sistemática, que incluye tareas ejecutables, resultados renderizados y protocolos tanto para la generación inicial como para la autodepuración en múltiples rondas. Finalmente, presentamos VisCoder2, una familia de modelos de visualización multilingüe entrenados en VisCode-Multi-679K. Los experimentos muestran que VisCoder2 supera significativamente a sólidos modelos de código abierto de referencia y se acerca al rendimiento de modelos propietarios como GPT-4.1, con ganancias adicionales gracias a la autodepuración iterativa, alcanzando una tasa general de ejecución exitosa del 82.4% a escala 32B, particularmente en lenguajes simbólicos o dependientes de compilador.
Los agentes basados en Modelos de Lenguaje a Gran Escala (LLM) han surgido como un enfoque transformador para la resolución de problemas abiertos, siendo la búsqueda de información (IS) una capacidad fundamental que permite el razonamiento autónomo y la toma de decisiones. Si bien investigaciones previas se han centrado principalmente en mejorar la profundidad de la recuperación, observamos que los agentes de IS actuales a menudo adolecen de una baja eficiencia de búsqueda, lo que a su vez restringe el rendimiento general. Un factor clave subyacente a esta ineficiencia es la escasez de entidades objetivo en las tareas de entrenamiento, lo que limita las oportunidades para que los agentes aprendan y generalicen comportamientos de búsqueda eficientes. Para abordar estos desafíos, proponemos WebLeaper, un marco para construir tareas de IS de alta cobertura y generar trayectorias de solución eficientes. Formulamos la IS como un problema de razonamiento con estructura de árbol, permitiendo integrar un conjunto sustancialmente mayor de entidades objetivo dentro de un contexto restringido. Aprovechando tablas de Wikipedia curadas, proponemos tres variantes para sintetizar tareas de IS: Básica, Unión y Unión-Inversa, con el fin de aumentar sistemáticamente tanto la eficiencia como la eficacia de la IS. Finalmente, seleccionamos trayectorias de entrenamiento conservando solo aquellas que son simultáneamente precisas y eficientes, asegurando que el modelo esté optimizado tanto para la corrección como para el rendimiento de búsqueda. Experimentos exhaustivos en entornos básicos y completos, realizados en cinco benchmarks de IS (BrowserComp, GAIA, xbench-DeepSearch, WideSearch y Seal-0), demuestran que nuestro método logra consistentemente mejoras tanto en efectividad como en eficiencia respecto a líneas de base sólidas.
El pensamiento paralelo amplía la amplitud de exploración, complementando la exploración profunda de los agentes de búsqueda de información (IS) para mejorar aún más la capacidad de resolución de problemas. Sin embargo, el pensamiento paralelo convencional enfrenta dos desafíos clave en este contexto: la ineficiencia de realizar despliegues repetidos desde cero y la dificultad para integrar trayectorias de razonamiento de largo horizonte durante la generación de respuestas, ya que la capacidad limitada de contexto impide considerar plenamente el proceso de razonamiento. Para abordar estos problemas, proponemos ParallelMuse, un paradigma de dos etapas diseñado para agentes IS profundos. La primera etapa, Despliegue Parcial de Funcionalidad Especificada, divide las secuencias generadas en regiones funcionales y realiza reutilización y ramificación de rutas guiadas por incertidumbre para mejorar la eficiencia exploratoria. La segunda etapa, Agregación de Razonamiento Comprimido, aprovecha la redundancia del razonamiento para comprimir sin pérdidas la información relevante para la derivación de respuestas y sintetizar una respuesta final coherente. Los experimentos en múltiples agentes de código abierto y benchmarks demuestran mejoras de rendimiento de hasta 62% con una reducción del 10-30% en el consumo de tokens exploratorios.
Si bien los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) sobresalen en comprensión visual, a menudo tienen dificultades en escenarios complejos que requieren planificación visual e imaginación. Inspirados por cómo los humanos utilizan el bosquejo como una forma de pensamiento visual para desarrollar y comunicar ideas, presentamos Latent Sketchpad, un marco que dota a los MLLMs de una pizarra visual interna. Tradicionalmente, las representaciones visuales internas de los MLLMs se han limitado a la comprensión perceptual. Nosotros las reutilizamos para apoyar el pensamiento visual generativo sin comprometer la capacidad de razonamiento. Basándonos en MLLMs de vanguardia, nuestro enfoque integra la generación visual directamente en su proceso de razonamiento autorregresivo nativo. Esto permite al modelo intercalar el razonamiento textual con la generación de latentes visuales. Estos latentes guían el proceso de pensamiento interno y pueden traducirse en imágenes de bocetos para lograr interpretabilidad. Para lograr esto, introducimos dos componentes: una Cabeza Visual Consciente del Contexto que produce representaciones visuales de manera autorregresiva, y un Decodificador de Bocetos preentrenado que las convierte en imágenes interpretables para humanos. Evaluamos el marco en nuestro nuevo conjunto de datos MazePlanning. Los experimentos con varios MLLMs muestran que Latent Sketchpad ofrece un rendimiento de razonamiento comparable o incluso superior al de su modelo base. Además, se generaliza a través de distintos MLLMs de vanguardia, incluyendo Gemma3 y Qwen2.5-VL. Al extender el razonamiento textual del modelo al pensamiento visual, nuestro marco abre nuevas oportunidades para una interacción hombre-computadora más enriquecida y aplicaciones más amplias. Más detalles y recursos están disponibles en nuestra página del proyecto: https://latent-sketchpad.github.io/.
Entrenar modelos de lenguaje de crítica para evaluar y proporcionar retroalimentación sobre las salidas de otros modelos es una forma prometedora de mejorar los LLMs en tareas de razonamiento complejo. Sin embargo, los enfoques existentes suelen depender de supervisores más potentes para anotar los datos de crítica. Para abordar este problema, proponemos Critique-RL, un enfoque de RL en línea para desarrollar modelos de lenguaje de crítica sin necesidad de una supervisión más fuerte. Nuestro enfoque opera bajo un paradigma de dos agentes: el actor genera una respuesta, el crítico proporciona retroalimentación y el actor refina la respuesta en consecuencia. Primero revelamos que depender únicamente de señales de recompensa indirectas provenientes de las salidas del actor para la optimización por RL a menudo da como resultado críticos insatisfactorios: aunque su utilidad (es decir, proporcionar retroalimentación constructiva) mejora, la discriminabilidad (es decir, determinar si una respuesta es de alta calidad o no) sigue siendo pobre, lo que se traduce en ganancias de rendimiento marginales. Para superar esto, Critique-RL adopta una estrategia de optimización en dos etapas. En la Etapa I, refuerza la discriminabilidad del crítico con señales de recompensa directas basadas en reglas; en la Etapa II, introduce recompensas indirectas basadas en el refinamiento del actor para mejorar la utilidad del crítico, manteniendo simultáneamente su discriminabilidad mediante una regularización adecuada. Experimentos exhaustivos en diversas tareas y modelos muestran que Critique-RL proporciona mejoras sustanciales de rendimiento. Por ejemplo, logra una ganancia del 9.02% en tareas dentro del dominio y del 5.70% en tareas fuera del dominio para Qwen2.5-7B, lo que resalta su potencial.
A pesar del rápido progreso en los Modelos de Lenguaje Grandes Multimodales y los Modelos Grandes de Audio-Lenguaje, los puntos de referencia de audio existentes evalúan principalmente semántica que puede recuperarse a partir de textos descriptivos, enmascarando déficits en el razonamiento perceptual de grano fino. Formalizamos la inteligencia 4D del audio, definida como el razonamiento sobre la dinámica del sonido en el tiempo y el espacio 3D, e introducimos STAR-Bench para medirla. STAR-Bench combina un entorno de Percepción Acústica Fundamental (seis atributos bajo regímenes absoluto y relativo) con un entorno de Razonamiento Espacio-Temporal Holístico que incluye reordenamiento de segmentos para procesos continuos y discretos, y tareas espaciales que abarcan localización estática, relaciones de múltiples fuentes y trayectorias dinámicas. Nuestro pipeline de curación de datos utiliza dos métodos para garantizar muestras de alta calidad. Para las tareas fundamentales, utilizamos audio sintetizado proceduralmente y simulado mediante física. Para los datos holísticos, seguimos un proceso de cuatro etapas que incluye anotación humana y selección final basada en el rendimiento humano. A diferencia de benchmarks anteriores, donde responder solo con el texto descriptivo reduce ligeramente la precisión, STAR-Bench induce caídas mucho mayores (-31.5% temporal, -35.2% espacial), evidenciando su enfoque en pistas difíciles de describir lingüísticamente. La evaluación de 19 modelos revela brechas sustanciales en comparación con los humanos y una jerarquía de capacidades: los modelos de código cerrado tienen como cuello de botella la percepción de grano fino, mientras que los modelos de código abierto se retrasan en percepción, conocimiento y razonamiento. Nuestro STAR-Bench proporciona información crítica y un camino claro para desarrollar futuros modelos con una comprensión más robusta del mundo físico.
La Mezcla de Expertos (MoE) ha surgido como un paradigma poderoso para escalar la capacidad de los modelos preservando la eficiencia computacional. A pesar de su notable éxito en los modelos de lenguaje extenso (LLMs), los intentos existentes de aplicar MoE a los Transformadores de Difusión (DiTs) han arrojado ganancias limitadas. Atribuimos esta brecha a diferencias fundamentales entre los tokens lingüísticos y visuales. Los tokens lingüísticos son semánticamente densos con una variación inter-token pronunciada, mientras que los tokens visuales exhiben redundancia espacial y heterogeneidad funcional, lo que dificulta la especialización de expertos en MoE para visión. Para ello, presentamos ProMoE, un marco MoE que cuenta con un enrutador de dos pasos con guía de enrutamiento explícita que promueve la especialización de expertos. Específicamente, esta guía incentiva al enrutador a dividir los tokens de imagen en conjuntos condicionales e incondicionales mediante enrutamiento condicional según sus roles funcionales, y a refinar las asignaciones de los tokens de imagen condicionales a través de un enrutamiento prototípico con prototipos entrenables basados en el contenido semántico. Además, la asignación de expertos basada en similitud en el espacio latente, habilitada por el enrutamiento prototípico, ofrece un mecanismo natural para incorporar guía semántica explícita, y validamos que dicha guía es crucial para MoE en visión. Sobre esta base, proponemos una función de pérdida de contraste en el enrutamiento que mejora explícitamente el proceso de enrutamiento prototípico, promoviendo la coherencia intra-experto y la diversidad inter-experto. Experimentos exhaustivos en el benchmark de ImageNet demuestran que ProMoE supera a los métodos más avanzados bajo los objetivos de entrenamiento de Flujo Rectificado y DDPM. El código y los modelos estarán disponibles públicamente.
La investigación sobre leyes de escalamiento se ha centrado abrumadoramente en el inglés, a pesar de que los modelos de IA más prominentes sirven explícitamente a miles de millones de usuarios internacionales. En este trabajo, realizamos el estudio de leyes de escalamiento multilingüe más grande hasta la fecha, con un total de 774 experimentos de entrenamiento multilingüe, que abarcan entre 10 millones y 8 mil millones de parámetros de modelo, más de 400 idiomas de entrenamiento y 48 idiomas de evaluación. Introducimos la Ley de Escalamiento de Transferencia Adaptativa (ATLAS) para el preentrenamiento tanto monolingüe como multilingüe, la cual supera la generalización fuera de muestra de las leyes de escalamiento existentes, a menudo en más de 0.3 R². Nuestros análisis de los experimentos arrojan luz sobre la dinámica del aprendizaje multilingüe, las propiedades de transferencia entre idiomas y la maldición de la multilingüidad. Primero, derivamos una matriz de transferencia cross-lingüística, midiendo empíricamente las puntuaciones de beneficio mutuo entre 38 x 38 = 1444 pares de idiomas. Segundo, derivamos una ley de escalamiento independiente del idioma que revela cómo escalar de manera óptima el tamaño del modelo y los datos al agregar idiomas sin sacrificar el rendimiento. Tercero, identificamos los puntos de cruce computacionales para determinar cuándo es preferible un preentrenamiento desde cero frente a un ajuste fino partiendo de puntos de control multilingües. Esperamos que estos hallazgos proporcionen la base científica para democratizar las leyes de escalamiento en todos los idiomas y permitan a los profesionales escalar modelos de manera eficiente, más allá de una IA centrada primordialmente en el inglés.
Hasta la fecha, existen muy pocos puntos de referencia de evaluación culturalmente específicos para los modelos de lenguaje extenso (LLM) que cubran un gran número de idiomas y culturas. En este artículo, presentamos Global PIQA, un punto de referencia participativo de razonamiento de sentido común para más de 100 idiomas, construido manualmente por 335 investigadores de 65 países de todo el mundo. Las 116 variedades lingüísticas en Global PIQA cubren cinco continentes, 14 familias lingüísticas y 23 sistemas de escritura. En la división no paralela de Global PIQA, más del 50% de los ejemplos hacen referencia a comidas locales, costumbres, tradiciones u otros elementos culturalmente específicos. Encontramos que los LLM más avanzados funcionan bien en Global PIQA en conjunto, pero exhiben un rendimiento más débil en idiomas con menos recursos (hasta una brecha de precisión del 37%, a pesar de que la probabilidad aleatoria es del 50%). Los modelos abiertos generalmente tienen un rendimiento peor que los modelos propietarios. Global PIQA destaca que, en muchos idiomas y culturas, el conocimiento cotidiano sigue siendo un área de mejora, junto con capacidades más ampliamente discutidas como el razonamiento complejo y el conocimiento experto. Más allá de sus usos para la evaluación de LLM, esperamos que Global PIQA ofrezca una visión de la amplia diversidad de culturas en las que está inmerso el lenguaje humano.
Los sistemas de auto-mejora requieren interacción con el entorno para una adaptación continua. Presentamos SPICE (Self-Play In Corpus Environments), un marco de aprendizaje por refuerzo donde un único modelo actúa en dos roles: un Desafiante que extrae documentos de un gran corpus para generar tareas de razonamiento diversas, y un Razonador que las resuelve. A través de dinámicas adversariales, el Desafiante crea un currículo automático en la frontera de la capacidad del Razonador, mientras que la base en el corpus proporciona la señal externa rica y casi inagotable necesaria para una mejora sostenida. A diferencia de los métodos existentes de auto-juego sin base que ofrecen beneficios más limitados, SPICE logra ganancias consistentes en puntos de referencia de razonamiento matemático (+8.9%) y de razonamiento general (+9.8%) en múltiples familias de modelos. Nuestro análisis revela cómo la base documental es un ingrediente clave en SPICE para generar continuamente sus propios objetivos cada vez más desafiantes y alcanzarlos, permitiendo una auto-mejora sostenida.
La visualización, una forma de imaginería específica del dominio pero ampliamente utilizada, es un método efectivo para convertir conjuntos de datos complejos en percepciones intuitivas, y su valor depende de si los datos están representados fielmente, comunicados claramente y diseñados estéticamente. Sin embargo, evaluar la calidad de la visualización es un desafío: a diferencia de las imágenes naturales, requiere una valoración simultánea de la precisión en la codificación de datos, la expresividad de la información y la estética visual. Aunque los modelos de lenguaje multimodal (MLLM) han mostrado un rendimiento prometedor en la evaluación estética de imágenes naturales, no existe un punto de referencia sistemático para medir sus capacidades en la evaluación de visualizaciones. Para abordar esto, proponemos VisJudge-Bench, el primer benchmark integral para evaluar el rendimiento de los MLLM en la valoración de la estética y calidad de visualizaciones. Contiene 3.090 muestras anotadas por expertos de escenarios del mundo real, cubriendo visualizaciones individuales, múltiples visualizaciones y paneles de control a través de 32 tipos de gráficos. Las pruebas sistemáticas en este benchmark revelan que incluso los MLLM más avanzados (como GPT-5) aún muestran brechas significativas comparados con expertos humanos en el criterio, con un Error Absoluto Medio (MAE) de 0.551 y una correlación con las valoraciones humanas de solo 0.429. Para abordar este problema, proponemos VisJudge, un modelo diseñado específicamente para la evaluación de la estética y calidad de visualizaciones. Los resultados experimentales demuestran que VisJudge reduce significativamente la brecha con el criterio humano, disminuyendo el MAE a 0.442 (una reducción del 19.8%) e incrementando la consistencia con expertos humanos a 0.681 (una mejora del 58.7%) comparado con GPT-5. El benchmark está disponible en https://github.com/HKUSTDial/VisJudgeBench.
El aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado avances impresionantes en razonamiento matemático y multimodal, convirtiéndose en un paradigma estándar de post-entrenamiento para modelos contemporáneos de lenguaje y visión-lenguaje. Sin embargo, la metodología RLVR introduce un riesgo significativo de regresión de capacidades, donde los modelos olvidan habilidades fundamentales tras un entrenamiento prolongado sin emplear estrategias de regularización. Confirmamos empíricamente esta preocupación, observando que los modelos de razonamiento de código abierto sufren una degradación del rendimiento en capacidades centrales como la percepción y la veracidad. Si bien imponer términos de regularización como la divergencia KL puede ayudar a prevenir la desviación del modelo base, estos términos se calculan en la tarea actual, por lo que no garantizan la conservación de conocimientos más amplios. Mientras tanto, la comúnmente utilizada recuperación de experiencia a través de dominios heterogéneos hace que no sea trivial decidir cuánto enfoque de entrenamiento debe recibir cada objetivo. Para abordar esto, proponemos RECAP, una estrategia de recuperación con reponderación dinámica de objetivos para la preservación de conocimiento general. Nuestro mecanismo de reponderación se adapta en línea utilizando señales de convergencia e inestabilidad de corto plazo, desplazando el enfoque del post-entrenamiento lejos de los objetivos saturados y hacia aquellos con bajo rendimiento o volátiles. Nuestro método es integral y fácilmente aplicable a las canalizaciones RLVR existentes sin necesidad de entrenar modelos adicionales o ajustes complejos. Experimentos exhaustivos en benchmarks basados en Qwen2.5-VL-3B y Qwen2.5-VL-7B demuestran la efectividad de nuestro método, que no solo preserva las capacidades generales sino que también mejora el razonamiento al permitir compensaciones más flexibles entre las recompensas intra-tarea.
La generación de imágenes a partir de texto (T2I) de ultra alta resolución (UHR) ha experimentado un progreso notable. Sin embargo, persisten dos desafíos clave: 1) la ausencia de un conjunto de datos T2I UHR a gran escala y de alta calidad, y 2) la falta de estrategias de entrenamiento específicas para la síntesis de detalles finos en escenarios UHR. Para abordar el primer desafío, presentamos UltraHR-100K, un conjunto de datos de alta calidad que contiene 100.000 imágenes UHR con descripciones detalladas, que ofrece contenido diverso y una gran fidelidad visual. Cada imagen supera la resolución de 3K y ha sido rigurosamente seleccionada en función de la riqueza de detalles, la complejidad del contenido y la calidad estética. Para abordar el segundo desafío, proponemos un método de post-entrenamiento consciente de la frecuencia que mejora la generación de detalles finos en los modelos de difusión T2I. Específicamente, diseñamos (i) un Muestreo de Pasos de Tiempo Orientado al Detalle (DOTS) para centrar el aprendizaje en los pasos de desruido críticos para los detalles, y (ii) una Regularización de Frecuencia de Ponderación Suave (SWFR), que aprovecha la Transformada de Fourier Discreta (DFT) para restringir suavemente los componentes de frecuencia, fomentando la preservación de detalles de alta frecuencia. Experimentos exhaustivos en nuestros benchmarks propuestos UltraHR-eval4K demuestran que nuestro enfoque mejora significativamente la calidad de los detalles finos y la fidelidad general de la generación de imágenes UHR. El código está disponible en https://github.com/NJU-PCALab/UltraHR-100k.
El razonamiento de cadena de pensamiento (CoT) es fundamental para mejorar la interpretabilidad y confiabilidad de los Grandes Modelos de Visión y Lenguaje (LVLM). Sin embargo, los algoritmos de entrenamiento existentes, como SFT, PPO y GRPO, pueden no generalizar bien en tareas de razonamiento no vistas y dependen en gran medida de un modelo de recompensa sesgado. Para abordar este desafío, reformulamos el razonamiento en los LVLM como un problema de inferencia posterior y proponemos un algoritmo de entrenamiento escalable basado en inferencia variacional amortiguada. Al aprovechar algoritmos de aprendizaje por refuerzo que buscan diversidad, introducimos una novedosa función de recompensa dispersa para señales de aprendizaje a nivel de token que fomentan CoT latentes diversos y de alta verosimilitud, superando las limitaciones del muestreo determinista y evitando la manipulación de recompensas. Adicionalmente, implementamos una estrategia de escalado de inferencia bayesiana que reemplaza los costosos métodos de Mejor-de-N y Búsqueda por Haz con una verosimilitud marginal para clasificar eficientemente las racionalidades y respuestas óptimas. Demostramos empíricamente que el método propuesto mejora los LVLM de última generación en siete benchmarks de razonamiento, en términos de efectividad, generalización e interpretabilidad.
A medida que los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés) se despliegan cada vez más en dominios como el comercio, la salud y las noticias, están expuestos a contenido persuasivo generalizado. Una cuestión crítica es cómo funcionan estos modelos como persuadidos: cómo y por qué pueden ser influenciados por entradas multimodales persuasivas. Comprender tanto su susceptibilidad a la persuasión como la efectividad de las diferentes estrategias persuasivas es crucial, ya que los modelos excesivamente persuadibles pueden adoptar creencias engañosas, anular las preferencias del usuario o generar resultados poco éticos o inseguros cuando están expuestos a mensajes manipulativos. Presentamos MMPersuade, un marco unificado para estudiar sistemáticamente la dinámica de la persuasión multimodal en los LVLM. MMPersuade contribuye con (i) un conjunto de datos multimodal exhaustivo que empareja imágenes y videos con principios de persuasión establecidos en contextos comerciales, subjetivos y conductuales, y adversarios; y (ii) un marco de evaluación que cuantifica tanto la efectividad de la persuasión como la susceptibilidad del modelo mediante puntuaciones de acuerdo de terceros y probabilidades de tokens autoestimadas en historiales de conversación. Nuestro estudio de seis LVLM líderes como persuadidos arroja tres conclusiones clave: (i) las entradas multimodales aumentan sustancialmente la efectividad de la persuasión —y la susceptibilidad del modelo— en comparación con solo texto, especialmente en escenarios de desinformación; (ii) las preferencias previas declaradas disminuyen la susceptibilidad, pero la información multimodal mantiene su ventaja persuasiva; y (iii) diferentes estrategias varían en efectividad según el contexto, siendo la reciprocidad la más potente en contextos comerciales y subjetivos, y la credibilidad y la lógica las que prevalecen en contextos adversarios. Al analizar conjuntamente la efectividad de la persuasión y la susceptibilidad, MMPersuade proporciona una base fundamentada para desarrollar modelos que sean robustos, consistentes con las preferencias y alineados éticamente al interactuar con contenido persuasivo multimodal.
La capacidad de llamada de funciones (LCF) permite a los grandes modelos de lenguaje (GML) y agentes autónomos interactuar con herramientas externas, una capacidad crítica para resolver problemas complejos del mundo real. A medida que esta habilidad se vuelve cada vez más central en los sistemas de IA avanzados, la necesidad de datos de entrenamiento de alta calidad y múltiples turnos para desarrollarla y refinarla no puede ser exagerada. Los métodos existentes de síntesis de datos, como el muestreo aleatorio de entornos o los juegos de roles multiagente, no son lo suficientemente potentes para generar datos de alta calidad en entornos reales. Los desafíos prácticos se presentan en tres aspectos: entrenamiento dirigido del modelo, aislamiento de la arquitectura de herramientas y dependencia lógica multi-turno. Para abordar estas deficiencias estructurales, presentamos FunReason-MT, un novedoso marco de síntesis de datos para el uso de herramientas multi-turno en entornos reales. FunReason-MT resuelve la barrera de complejidad en los datos de LCF multi-turno mediante: 1) Interacciones con Grafos de API-Entorno para recopilar trayectorias variadas y de alta calidad, 2) Síntesis Avanzada de Consultas-Herramientas para simplificar la construcción de consultas complejas, y 3) Cadenas Iterativas Guiadas para la generación sofisticada de Cadenas de Pensamiento (CdP). Las evaluaciones en el Berkeley Function-Calling Leaderboard (BFCLv3) demuestran el poder de nuestro marco: un modelo de 4B entrenado con datos generados por FunReason-MT logra un rendimiento de vanguardia entre modelos de tamaño comparable, superando a la mayoría de los modelos cerrados. Las mejoras adicionales de rendimiento en BFCLv4 confirman que FunReason-MT proporciona una fuente confiable y robusta para el aprendizaje agentivo.
Los modelos generativos han logrado avances significativos en la síntesis de audio de alta fidelidad a partir de descripciones textuales breves. Sin embargo, la edición de audio existente mediante lenguaje natural ha permanecido en gran medida inexplorada. Los enfoques actuales requieren la descripción completa del audio editado o están limitados a instrucciones de edición predefinidas que carecen de flexibilidad. En este trabajo, presentamos SAO-Instruct, un modelo basado en Stable Audio Open capaz de editar fragmentos de audio utilizando cualquier instrucción en lenguaje natural de forma libre. Para entrenar nuestro modelo, creamos un conjunto de datos de tripletas de edición de audio (audio de entrada, instrucción de edición, audio de salida) utilizando Prompt-to-Prompt, inversión DDPM y un flujo de trabajo de edición manual. Aunque entrenado parcialmente con datos sintéticos, nuestro modelo se generaliza adecuadamente a fragmentos de audio reales en entornos no controlados y a instrucciones de edición no vistas. Demostramos que SAO-Instruct logra un rendimiento competitivo en métricas objetivas y supera a otros enfoques de edición de audio en un estudio de escucha subjetiva. Para fomentar investigaciones futuras, publicamos nuestro código y los pesos del modelo.
Los modelos de lenguaje extenso (LLM) han demostrado que el preentrenamiento a gran escala permite a los sistemas adaptarse rápidamente a nuevos problemas con poca supervisión en el dominio lingüístico. Sin embargo, este éxito no se ha trasladado con la misma eficacia al dominio visual, donde los modelos, incluidos los LLM, continúan teniendo dificultades con la comprensión compositiva, la eficiencia de muestreo y la resolución de problemas de propósito general. Investigamos los Modelos de Difusión de Video (VDM) como una dirección prometedora para cerrar esta brecha. El preentrenamiento en datos espacio-temporales dota a estos modelos de fuertes sesgos inductivos para la estructura y la dinámica, lo que hipotetizamos puede respaldar una amplia adaptabilidad a tareas. Para probar esto, diseñamos una evaluación controlada en la que tanto un LLM preentrenado como un VDM preentrenado se equipan con adaptadores ligeros y se presentan con tareas en sus modalidades naturales. En diversos puntos de referencia, como ARC-AGI, ConceptARC, juegos visuales, planificación de rutas y autómatas celulares, los VDM demuestran una mayor eficiencia de datos que sus contrapartes lingüísticas. En conjunto, nuestros resultados indican que el preentrenamiento en video ofrece sesgos inductivos que favorecen el progreso hacia modelos fundamentales visuales.
Los agentes de IA de vanguardia muestran un potencial creciente como asistentes de investigación científica, y eventualmente podrían ser útiles para flujos de trabajo de investigación extensos y de carácter abierto. Sin embargo, para utilizar agentes en investigación novedosa, primero debemos evaluar la fidelidad subyacente y la corrección de su trabajo. Para evaluar a los agentes como asistentes de investigación, presentamos ReplicationBench, un marco de evaluación que prueba si los agentes pueden replicar artículos de investigación completos extraídos de la literatura astrofísica. La astrofísica, donde la investigación depende en gran medida de datos de archivo y estudios computacionales mientras requiere poca experimentación en el mundo real, es un banco de pruebas particularmente útil para los agentes de IA en la investigación científica. Dividimos cada artículo en tareas que requieren que los agentes repliquen las contribuciones centrales del artículo, incluyendo la configuración experimental, derivaciones, análisis de datos y base de código. Cada tarea es codesarrollada con los autores originales del artículo y se enfoca en un resultado científico clave, permitiendo una evaluación objetiva tanto de la fidelidad (adherencia a los métodos originales) como de la corrección (precisión técnica de los resultados). ReplicationBench es extremadamente desafiante para los modelos de lenguaje de vanguardia actuales: incluso los modelos de lenguaje con mejor rendimiento obtienen puntajes inferiores al 20%. Analizamos las trayectorias de ReplicationBench en colaboración con expertos en el dominio y encontramos un conjunto rico y diverso de modos de fallo para los agentes en la investigación científica. ReplicationBench establece el primer benchmark de tareas de investigación en astrofísica, validadas por expertos y a escala de artículo, revela información sobre el rendimiento de los agentes generalizable a otros dominios de la ciencia basada en datos, y proporciona un marco escalable para medir la confiabilidad de los agentes de IA en la investigación científica.
Comprender los objetos a nivel de sus partes constituyentes es fundamental para avanzar en visión por computadora, gráficos y robótica. Si bien conjuntos de datos como PartNet han impulsado el progreso en la comprensión de partes 3D, su dependencia de geometrías sin textura y anotaciones que requieren expertos limita la escalabilidad y usabilidad. Presentamos PartNeXt, un conjunto de datos de próxima generación que aborda estas limitaciones con más de 23,000 modelos 3D texturizados de alta calidad, anotados con etiquetas de partes jerárquicas y granulares en 50 categorías. Evaluamos PartNeXt en dos tareas: (1) segmentación de partes independiente de la clase, donde los métodos de vanguardia (por ejemplo, PartField, SAMPart3D) tienen dificultades con las partes granulares y de nivel hoja, y (2) respuesta a preguntas centradas en partes 3D, un nuevo punto de referencia para los modelos de lenguaje grandes 3D (3D-LLMs) que revela brechas significativas en la localización de partes de vocabulario abierto. Adicionalmente, entrenar Point-SAM en PartNeXt produce ganancias sustanciales respecto a PartNet, subrayando la calidad y diversidad superior del conjunto de datos. Al combinar anotación escalable, etiquetas conscientes de las texturas y evaluación multitarea, PartNeXt abre nuevas vías para la investigación en comprensión estructurada 3D.
En el panorama actual de datos en rápida expansión, la extracción de conocimiento a partir de texto no estructurado es vital para el análisis en tiempo real, la inferencia temporal y los marcos de memoria dinámica. Sin embargo, la construcción tradicional de grafos de conocimiento (GC) estáticos a menudo pasa por alto la naturaleza dinámica y sensible al tiempo de los datos del mundo real, lo que limita la adaptabilidad a los cambios continuos. Además, los enfoques recientes *zero-shot* o *few-shot* que evitan el ajuste específico de dominio o la dependencia de ontologías preconstruidas suelen adolecer de inestabilidad entre múltiples ejecuciones, así como de una cobertura incompleta de los hechos clave. Para abordar estos desafíos, presentamos ATOM (AdapTive and OptiMized), un enfoque *few-shot* y escalable que construye y actualiza continuamente Grafos de Conocimiento Temporales (GCT) a partir de textos no estructurados. ATOM divide los documentos de entrada en hechos mínimos y autocontenidos ("atómicos"), mejorando la exhaustividad y estabilidad de la extracción. Luego, construye GCT atómicos a partir de estos hechos empleando un modelado de tiempo dual que distingue cuándo se observa la información de cuándo es válida. Los GCT atómicos resultantes se fusionan posteriormente en paralelo. Las evaluaciones empíricas demuestran que ATOM logra aproximadamente un 18 % más de exhaustividad, un 17 % mejor estabilidad y una reducción de latencia superior al 90 % en comparación con los métodos de referencia, lo que demuestra un gran potencial de escalabilidad para la construcción dinámica de GCT.
Los Modelos de Lenguaje a Gran Escala (LLMs) exhiben una dualidad problemática, siendo capaces tanto de una generalización notable como de una memorización literal y frágil de sus datos de entrenamiento. Esta imprevisibilidad socava su fiabilidad en aplicaciones de alto riesgo. En este trabajo, proponemos un marco unificado para comprender, identificar y controlar estos modos de razonamiento distintos. En primer lugar, introducimos un modelo teórico basado en el principio del Cuello de Botella de la Información (IB), que formaliza la generalización como el aprendizaje de una representación comprimida y relevante para la tarea, y la memorización como un fallo en la compresión. Basándonos en esta teoría, desarrollamos Dynamic Mode Steering (DMS), un novedoso algoritmo en tiempo de inferencia que comprende dos componentes: (1) un probe lineal ligero y causalmente fundamentado que identifica la dependencia instantánea del modelo en la memorización, y (2) un mecanismo de direccionamiento dinámico de activaciones que impulsa el cálculo del modelo hacia circuitos de generalización preidentificados. Enmarcamos DMS como una forma de decodificación adaptativa y autocontrastiva. Los experimentos en tareas de razonamiento y veracidad demuestran que DMS mejora significativamente la coherencia lógica y la precisión factual, ofreciendo así un enfoque fundamentado para mejorar la fiabilidad de los LLMs.
La alineación de las representaciones visión-lenguaje dota a los actuales Modelos de Visión y Lenguaje (VLMs) de sólidas capacidades de razonamiento multimodal. Sin embargo, la interpretabilidad del componente de alineación sigue sin investigarse debido a la dificultad de mapear la semántica de las representaciones multimodales en un conjunto unificado de conceptos. Para abordar este problema, proponemos VL-SAE, un autoencoder disperso que codifica las representaciones visión-lenguaje en sus activaciones ocultas. Cada neurona en su capa oculta se correlaciona con un concepto representado por imágenes y textos semánticamente similares, interpretando así estas representaciones con un conjunto unificado de conceptos. Para establecer la correlación neurona-concepto, fomentamos que las representaciones semánticamente similares exhiban activaciones neuronales consistentes durante el entrenamiento auto-supervisado. Primero, para medir la similitud semántica de las representaciones multimodales, realizamos su alineación de forma explícita basada en la similitud coseno. Segundo, construimos el VL-SAE con un codificador basado en distancia y dos decodificadores específicos por modalidad para garantizar la consistencia de activación de las representaciones semánticamente similares. Los experimentos en múltiples VLMs (por ejemplo, CLIP, LLaVA) demuestran la capacidad superior de VL-SAE para interpretar y mejorar la alineación visión-lenguaje. Para la interpretación, la alineación entre las representaciones visuales y lingüísticas puede entenderse comparando su semántica con conceptos. Para la mejora, la alineación puede fortalecerse alineando las representaciones visión-lenguaje a nivel conceptual, contribuyendo a mejoras de rendimiento en tareas posteriores, incluyendo la clasificación de imágenes zero-shot y la eliminación de alucinaciones. Los códigos están disponibles en https://github.com/ssfgunner/VL-SAE.
La optimización topológica estructural (TO) es fundamental en el diseño de ingeniería, pero sigue siendo computacionalmente intensiva debido a la física compleja y las restricciones estrictas. Los métodos existentes de aprendizaje profundo se limitan a mallas cuadradas fijas, unas pocas condiciones de contorno codificadas manualmente y una optimización a posteriori, lo que impide su despliegue generalizado. Presentamos Optimize Any Topology (OAT), un marco de modelo fundacional que predice directamente configuraciones de mínima complianza para relaciones de aspecto, resoluciones, fracciones de volumen, cargas y sujeciones arbitrarias. OAT combina un autoencoder independiente de la resolución y la forma con un decodificador de campo neuronal implícito y un modelo de difusión latente condicional entrenado en OpenTO, un nuevo corpus de 2.2 millones de estructuras optimizadas que cubre 2 millones de configuraciones únicas de condiciones de contorno. En cuatro benchmarks públicos y dos pruebas desafiantes no vistas, OAT reduce la complianza media hasta en un 90% respecto a los mejores modelos anteriores y ofrece inferencia en menos de 1 segundo en una sola GPU para resoluciones desde 64 x 64 hasta 256 x 256 y relaciones de aspecto de hasta 10:1. Estos resultados establecen a OAT como un marco general, rápido y libre de resolución para la optimización topológica consciente de la física, y proporcionan un conjunto de datos a gran escala para impulsar más investigación en modelado generativo para diseño inverso. El código y los datos se pueden encontrar en https://github.com/ahnobari/OptimizeAnyTopology.
Recientemente, el aprendizaje por refuerzo basado en GRPO ha mostrado un progreso notable en la optimización de modelos de correspondencia de flujos (flow-matching), mejorando eficazmente su alineación con las recompensas específicas de la tarea. Dentro de estos marcos, la actualización de la política se basa en el recorte del ratio de importancia para restringir los gradientes positivos y negativos sobreconfiados. Sin embargo, en la práctica, observamos un cambio sistemático en la distribución del ratio de importancia: su media cae por debajo de 1 y su varía sustancialmente entre los diferentes pasos temporales. Esta distribución desplazada a la izquierda e inconsistente impide que las muestras con ventaja positiva entren en la región de recorte, haciendo que el mecanismo falle al restringir las actualizaciones positivas sobreconfiadas. Como resultado, el modelo de política entra inevitablemente en una etapa de sobreoptimización implícita: mientras la recompensa proxy continúa aumentando, métricas esenciales como la calidad de la imagen y la alineación con el prompt de texto se deterioran bruscamente, haciendo que la política aprendida sea finalmente impracticable para su uso en el mundo real. Para abordar este problema, presentamos GRPO-Guard, una mejora sencilla pero efectiva para los marcos GRPO existentes. Nuestro método incorpora una normalización del ratio, que restaura un ratio de importancia equilibrado y consistente entre pasos, asegurando que el recorte PPO restrinja correctamente las actualizaciones perjudiciales a lo largo de los pasos de desruido. Además, una estrategia de reponderación del gradiente iguala los gradientes de la política sobre las condiciones de ruido, evitando actualizaciones excesivas de regiones particulares de pasos temporales. En conjunto, estos diseños actúan como un mecanismo de recorte regulado, estabilizando la optimización y mitigando sustancialmente la sobreoptimización implícita sin depender de una pesada regularización KL. Experimentos exhaustivos en múltiples arquitecturas de difusión (por ejemplo, SD3.5M, Flux.1-dev) y diversas tareas proxy demuestran que GRPO-Guard reduce significativamente la sobreoptimización al mismo tiempo que mantiene o incluso mejora la calidad de la generación.
El razonamiento fiable en modelos visión-lenguaje (VLM) médicos requiere no solo predicciones precisas, sino también una alineación transparente entre las justificaciones textuales y la evidencia visual. Si bien el prompting de Cadena de Pensamiento (CoT) ha mostrado potencial en la respuesta a preguntas visuales (VQA) médicas, no existía un conjunto de datos a gran escala de nivel experto que capturara el razonamiento paso a paso con una localización visual precisa. Presentamos S-Chain, el primer conjunto de datos a gran escala de 12.000 imágenes médicas anotadas por expertos con cuadros delimitadores y CoT visual estructurado (SV-CoT), que vincula explícitamente regiones visuales con pasos de razonamiento. El conjunto de datos admite además 16 idiomas, totalizando más de 700k pares VQA para una amplia aplicabilidad multilingüe. Utilizando S-Chain, evaluamos VLM médicos de última generación (ExGra-Med, LLaVA-Med) y VLM de propósito general (Qwen2.5-VL, InternVL2.5), demostrando que la supervisión SV-CoT mejora significativamente la interpretabilidad, la fidelidad de la localización y la robustez. Más allá de la evaluación, estudiamos su sinergia con la generación aumentada por recuperación, revelando cómo interactúan el conocimiento del dominio y la localización visual durante el razonamiento autoregresivo. Finalmente, proponemos un nuevo mecanismo que fortalece la alineación entre la evidencia visual y el razonamiento, mejorando tanto la fiabilidad como la eficiencia. S-Chian establece un nuevo punto de referencia para el razonamiento médico fundamentado y allana el camino hacia VLM médicos más confiables y explicables.
Presentamos una evaluación exhaustiva de la capacidad de los modelos de lenguaje grandes (LLM) para procesar lenguaje culturalmente arraigado, específicamente para comprender y utilizar de manera pragmática expresiones figurativas que codifican conocimiento local y matices culturales. Utilizando el lenguaje figurativo como proxy del matiz cultural y el conocimiento local, diseñamos tareas de evaluación para la comprensión contextual, el uso pragmático y la interpretación de connotaciones en árabe e inglés. Evaluamos 22 LLM, tanto de código abierto como cerrado, en refranes egipcios, proverbios árabes multidialectales y proverbios ingleses. Nuestros resultados muestran una jerarquía consistente: la precisión promedio para los proverbios árabes es un 4.29% inferior a la de los proverbios ingleses, y el rendimiento para los modismos egipcios es un 10.28% inferior al de los proverbios árabes. Para la tarea de uso pragmático, la precisión disminuye en un 14.07% en relación con la comprensión, aunque proporcionar oraciones idiomáticas contextuales mejora la precisión en un 10.66%. Los modelos también tienen dificultades con el significado connotativo, alcanzando como máximo un 85.58% de concordancia con los anotadores humanos en modismos con un 100% de acuerdo entre anotadores. Estos hallazgos demuestran que el lenguaje figurativo sirve como un diagnóstico efectivo para el razonamiento cultural: si bien los LLM a menudo pueden interpretar el significado figurativo, enfrentan desafíos para usarlo apropiadamente. Para apoyar la investigación futura, publicamos Kinayat, el primer conjunto de datos de modismos del árabe egipcio diseñado tanto para la evaluación de la comprensión figurativa como del uso pragmático.
Las incrustaciones de texto de patentes permiten la búsqueda de estado de la técnica, el análisis del panorama tecnológico y el análisis de patentes, sin embargo, los puntos de referencia existentes capturan de manera insuficiente los desafíos específicos de las patentes. Presentamos PatenTEB, un punto de referencia integral que comprende 15 tareas de recuperación, clasificación, paráfrasis y agrupamiento, con 2.06 millones de ejemplos. PatenTEB emplea divisiones estratificadas por dominio, minería de negativos difíciles específica del dominio y cobertura sistemática de escenarios de emparejamiento asimétrico fragmento-documento ausentes en los puntos de referencia de incrustación generales. Desarrollamos la familia de modelos patembed mediante entrenamiento multitarea, que abarca desde 67M hasta 344M de parámetros con longitudes de contexto de hasta 4096 tokens. La validación externa muestra una fuerte generalización: patembed-base logra un estado del arte en MTEB BigPatentClustering.v2 (0.494 medida-V vs. 0.445 del mejor anterior), mientras que patembed-large logra 0.377 NDCG@100 en DAPFAM. Las ablaciones sistemáticas revelan que el entrenamiento multitarea mejora la generalización externa a pesar de costes menores en el punto de referencia, y que la inicialización con pre-entrenamiento de dominio proporciona ventajas consistentes entre familias de tareas. Todos los recursos estarán disponibles en https://github.com/iliass-y/patenteb. Palabras clave: recuperación de patentes, incrustaciones de oraciones, aprendizaje multitarea, recuperación asimétrica, evaluación comparativa, aprendizaje contrastivo.