Artículos de investigación en IA seleccionados diariamente con traducciones
El Aprendizaje por Refuerzo a partir de Recompensas de Verificación (RLVR) ha surgido como un enfoque ampliamente utilizado para el post-entrenamiento de modelos de lenguaje grandes en tareas de razonamiento, con métodos basados en grupos como GRPO y sus variantes ganando una amplia adopción. Estos métodos se basan en la estimación de ventajas relativas al grupo para evitar el uso de críticos aprendidos, sin embargo, sus propiedades teóricas siguen siendo poco comprendidas. En este trabajo, descubrimos un problema fundamental del RL basado en grupos: el estimador de ventaja relativa al grupo es inherentemente sesgado con respecto a la ventaja verdadera (esperada). Proporcionamos el primer análisis teórico que demuestra que subestima sistemáticamente las ventajas para instrucciones difíciles y las sobreestima para instrucciones fáciles, lo que conduce a una exploración y explotación desequilibradas. Para abordar este problema, proponemos la Ponderación Adaptativa de Dificultad con Conciencia Histórica (HA-DW), un esquema de reponderación adaptativa que ajusta las estimaciones de ventaja basándose en un ancla de dificultad en evolución y en la dinámica del entrenamiento. Tanto el análisis teórico como los experimentos en cinco benchmarks de razonamiento matemático demuestran que HA-DW mejora consistentemente el rendimiento cuando se integra en GRPO y sus variantes. Nuestros resultados sugieren que corregir la estimación sesgada de ventajas es fundamental para un entrenamiento RLVR robusto y eficiente.
La integración de agentes de IA en los mercados económicos altera fundamentalmente el panorama de la interacción estratégica. Investigamos las implicaciones económicas de expandir el conjunto de tecnologías disponibles en tres entornos game-teóricos canónicos: negociación (división de recursos), negociación con información asimétrica (intercambio) y persuasión (transmisión estratégica de información). Encontramos que el simple aumento de la elección de delegados de IA puede alterar drásticamente los pagos de equilibrio y los resultados regulatorios, creando a menudo incentivos para que los reguladores desarrollen y liberen tecnologías de manera proactiva. Por el contrario, identificamos un fenómeno estratégico denominado efecto "Manzana Envenenada": un agente puede liberar una nueva tecnología, que ni él ni su oponente utilizan finalmente, únicamente para manipular la elección del diseño de mercado del regulador a su favor. Esta liberación estratégica mejora el bienestar del liberador a expensas de su oponente y de los objetivos de equidad del regulador. Nuestros hallazgos demuestran que los marcos regulatorios estáticos son vulnerables a la manipulación mediante la expansión tecnológica, lo que hace necesario diseños de mercado dinámicos que se adapten al panorama en evolución de las capacidades de la IA.
Permitir que los Modelos de Lenguaje a Gran Escala (LLM) utilicen herramientas de manera efectiva en interacciones multiturno es fundamental para construir agentes autónomos capaces. Sin embargo, adquirir datos diversos y realistas sobre el uso de herramientas en múltiples turnos sigue siendo un desafío significativo. En este trabajo, proponemos un nuevo paradigma basado en texto. Observamos que los corpus textuales contienen de forma natural experiencias ricas de resolución de problemas en múltiples pasos, que pueden servir como una fuente de datos sin explotar, escalable y auténtica para tareas de uso de herramientas multiturno. Basándonos en esta idea, presentamos GEM, una canalización de síntesis de datos que permite la generación y extracción de trayectorias de uso de herramientas multiturno a partir de corpus de texto mediante un proceso de cuatro etapas: filtrado por relevancia, extracción de flujos de trabajo y herramientas, fundamentación de trayectorias y refinamiento de complejidad. Para reducir el coste computacional, entrenamos además un Sintetizador de Trayectorias especializado mediante ajuste fino supervisado. Este modelo condensa la compleja canalización de generación en un generador de trayectorias eficiente y de extremo a extremo. Los experimentos demuestran que nuestro GEM-32B logra una mejora del 16.5% en el benchmark BFCL V3 Multi-turn. Nuestros modelos superan parcialmente el rendimiento de los modelos entrenados con datos del dominio específico de τ-bench (Aerolíneas y Retail), lo que destaca la capacidad de generalización superior derivada de nuestro paradigma de síntesis basado en texto. Cabe destacar que nuestro Sintetizador de Trayectorias iguala la calidad de la canalización completa mientras reduce significativamente la latencia y los costes de inferencia.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha impulsado avances sustanciales en dominios que requieren razonamiento intensivo, como las matemáticas. Sin embargo, optimizar la generación de texto abierto sigue siendo un desafío debido a la falta de una verdad de referencia. Si bien la evaluación basada en rúbricas ofrece un proxy estructurado para la verificación, los métodos existentes adolecen de cuellos de botella de escalabilidad y criterios poco refinados, lo que resulta en un efecto de techo de supervisión. Para abordar esto, proponemos un marco automatizado de Generación de Rúbricas de Grueso a Fino. Al sinergizar la síntesis guiada por principios, la agregación multi-modelo y la evolución de la dificultad, nuestro enfoque produce criterios exhaustivos y altamente discriminatorios capaces de capturar los matices sutiles. Basándonos en este marco, presentamos RubricHub, un conjunto de datos a gran escala (~110k) y multi-dominio. Validamos su utilidad mediante un pipeline de post-entrenamiento en dos etapas que comprende el Fine-Tuning por Muestreo de Rechazo basado en Rúbricas (RuFT) y el Aprendizaje por Refuerzo (RuRL). Los resultados experimentales demuestran que RubricHub desbloquea mejoras de rendimiento significativas: nuestro modelo Qwen3-14B post-entrenado logra resultados de vanguardia (SOTA) en HealthBench (69.3), superando a modelos propietarios de última generación como GPT-5. El código y los datos se publicarán próximamente.
Los modelos de lenguaje grandes (LLM) personalizados adaptan el comportamiento del modelo a usuarios individuales para aumentar su satisfacción, aunque la personalización puede distorsionar inadvertidamente el razonamiento fáctico. Demostramos que cuando los LLM personalizados enfrentan consultas fácticas, se produce un fenómeno en el que el modelo genera respuestas alineadas con el historial previo del usuario en lugar de con la verdad objetiva, lo que resulta en alucinaciones inducidas por la personalización. Estas degradan la confiabilidad fáctica y pueden propagar creencias incorrectas, debido a un entrelazamiento representacional entre las representaciones de personalización y las fácticas. Para abordar este problema, proponemos Factuality-Preserving Personalized Steering (FPPS), un enfoque ligero en tiempo de inferencia que mitiga las distorsiones fácticas inducidas por la personalización mientras preserva el comportamiento personalizado. Además, presentamos PFQABench, el primer benchmark diseñado para evaluar conjuntamente la capacidad de respuesta a preguntas fácticas y personalizadas bajo personalización. Los experimentos en múltiples arquitecturas de LLM y métodos de personalización muestran que FPPS mejora sustancialmente la precisión fáctica manteniendo el rendimiento personalizado.
Los modelos Visión-Lenguaje-Acción (VLA) han surgido como políticas robóticas generalistas esenciales para diversas tareas de manipulación, apoyándose convencionalmente en la traducción directa de entradas multimodales a acciones mediante incrustaciones de Modelos de Lenguaje Visual (VLM). Avances recientes han introducido razonamiento intermediario explícito, como la predicción de subtareas (lenguaje) o la síntesis de imágenes objetivo (visión), para guiar la generación de acciones. Sin embargo, estos razonamientos intermedios suelen ser indirectos y están inherentemente limitados en su capacidad para transmitir la información completa y granular necesaria para una ejecución precisa de la acción. En su lugar, postulamos que la forma más efectiva de razonamiento es aquella que delibera directamente en el espacio de acción. Introducimos Action Chain-of-Thought (ACoT), un paradigma en el que el proceso de razonamiento se formula como una secuencia estructurada de intenciones de acción gruesas que guían la política final. En este artículo, proponemos ACoT-VLA, una arquitectura novedosa que materializa el paradigma ACoT. Específicamente, introducimos dos componentes complementarios: un Razonador de Acción Explícito (EAR) y un Razonador de Acción Implícito (IAR). El primero propone trayectorias de referencia gruesas como pasos de razonamiento explícitos a nivel de acción, mientras que el segundo extrae antecedentes de acción latentes de las representaciones internas de la entrada multimodal, co-formando un ACoT que condiciona el cabezal de acción subsiguiente para permitir un aprendizaje de políticas fundamentado. Experimentos exhaustivos en entornos del mundo real y de simulación demuestran la superioridad de nuestro método propuesto, que alcanza un 98,5%, 84,1% y 47,4% en LIBERO, LIBERO-Plus y VLABench, respectivamente.
La búsqueda basada en RL (aprendizaje por refuerzo) permite a los LLMs resolver preguntas complejas mediante planificación dinámica y búsqueda externa. Si bien este enfoque mejora significativamente la precisión con políticas de agente optimizadas mediante aprendizaje por refuerzo a gran escala, identificamos una brecha crítica en la confiabilidad: estos agentes no reconocen sus límites de razonamiento y rara vez admiten ``NO LO SÉ'' (IDK), incluso cuando la evidencia es insuficiente o el razonamiento alcanza su límite. La falta de confiabilidad a menudo conduce a respuestas plausibles pero no fiables, introduciendo riesgos significativos en muchos escenarios del mundo real. Para ello, proponemos la Optimización de Políticas Consciente de los Límites (BAPO), un novedoso marco de RL diseñado para cultivar una conciencia confiable de los límites sin comprometer la precisión. BAPO introduce dos componentes clave: (i) una recompensa grupal consciente de los límites que fomenta una respuesta IDK solo cuando el razonamiento alcanza su límite, y (ii) un modulador de recompensa adaptativo que suspende estratégicamente esta recompensa durante la exploración temprana, evitando que el modelo explote IDK como un atajo. Experimentos exhaustivos en cuatro benchmarks demuestran que BAPO mejora sustancialmente la confiabilidad general de la búsqueda agéntica.
La generación de movimiento humano a partir de instrucciones textuales ha logrado un progreso notable en los últimos años. Sin embargo, los métodos existentes se basan principalmente en descripciones a nivel de secuencia o de acción debido a la ausencia de anotaciones de movimiento detalladas a nivel de partes del cuerpo. Esto limita su capacidad de control sobre partes corporales individuales. En este trabajo, construimos un conjunto de datos de movimiento de alta calidad con anotaciones textuales a nivel de partes, atómicas y con conciencia temporal, aprovechando las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). A diferencia de conjuntos de datos anteriores que proporcionan descripciones de partes sincronizadas con segmentos de tiempo fijos o que dependen únicamente de etiquetas globales de secuencia, nuestro conjunto de datos captura movimientos de partes asíncronos y semánticamente distintos con una resolución temporal fina. Basándonos en este conjunto de datos, presentamos un marco de generación de movimiento consciente de las partes basado en difusión, denominado FrankenMotion, donde cada parte del cuerpo es guiada por su propia instrucción textual con estructura temporal. Este es, hasta donde sabemos, el primer trabajo que proporciona anotaciones de movimiento atómicas, con conciencia temporal y a nivel de partes, y que posee un modelo que permite la generación de movimiento con control tanto espacial (parte del cuerpo) como temporal (acción atómica). Los experimentos demuestran que FrankenMotion supera a todos los modelos base anteriores adaptados y reentrenados para nuestra configuración, y que nuestro modelo puede componer movimientos no vistos durante el entrenamiento. Nuestro código y conjunto de datos estarán disponibles públicamente tras la publicación.
El despliegue de modelos de lenguaje grandes (LLM) plantea dos desafíos interconectados: (1) la monitorización, que consiste en estimar dónde un modelo tiene un rendimiento deficiente a medida que el tráfico y los dominios cambian, y (2) la mejora, que implica priorizar la adquisición de datos para cerrar las brechas de rendimiento más significativas. Evaluamos si una señal en tiempo de inferencia puede estimar la precisión a nivel de segmento bajo un cambio de dominio. Para cada respuesta, calculamos un perfil de entropía de salida a partir de las probabilidades del siguiente token en la capa final (obtenidas de los logprobs top-k) y lo resumimos con once estadísticos. Un clasificador ligero predice la corrección de cada instancia, y el promedio de las probabilidades predichas produce una estimación de la precisión a nivel de dominio. Evaluamos en diez benchmarks de razonamiento STEM con composiciones exhaustivas de entrenamiento/prueba (k en {1,2,3,4}; todas las combinaciones de "10 elegir k"), a través de nueve LLM de seis familias (3B-20B). Las estimaciones a menudo siguen la precisión del benchmark retenido, y varios modelos muestran un orden casi monótono de los dominios. Por lo tanto, los perfiles de entropía de salida son una señal accesible para una monitorización escalable y para dirigir la adquisición de datos.
El ajuste supervisado (SFT) es una estrategia fundamental posterior al entrenamiento para alinear los Modelos de Lenguaje Grandes (LLMs) con la intención humana. Sin embargo, el SFT tradicional a menudo ignora la naturaleza uno-a-muchos del lenguaje al forzar la alineación con una única respuesta de referencia, lo que lleva al modelo a sobreajustarse a expresiones no esenciales. Aunque nuestro análisis empírico sugiere que introducir múltiples respuestas de referencia puede mitigar este problema, los costos prohibitivos de datos y computación exigen un cambio estratégico: priorizar la mitigación del sobreajuste a una única referencia sobre la costosa búsqueda de diversidad de respuestas. Para lograrlo, revelamos la conexión intrínseca entre la probabilidad léxica y la importancia semántica: los tokens de alta probabilidad contienen el marco lógico central, mientras que los tokens de baja probabilidad son en su mayoría expresiones reemplazables. Basándonos en esta idea, proponemos ProFit, que enmascara selectivamente los tokens de baja probabilidad para prevenir el sobreajuste superficial. Experimentos exhaustivos confirman que ProFit supera consistentemente a los métodos de referencia de SFT tradicional en evaluaciones de razonamiento general y matemático.
Las representaciones de movimiento futuro, como el flujo óptico, ofrecen un valor inmenso para tareas de control y generación. Sin embargo, predecir representaciones de movimiento espacialmente densas y generalizables sigue siendo un desafío clave, y el aprendizaje de dicha predicción a partir de datos reales y ruidosos ha sido relativamente poco explorado. Presentamos FOFPred, un novedoso modelo de predicción de flujo óptico condicionado por lenguaje que presenta una arquitectura unificada de Modelo de Visión-Lenguaje (VLM) y Difusión. Esta combinación única permite un razonamiento multimodal robusto con fidelidad generativa a nivel de píxel para la predicción de movimiento futuro. Nuestro modelo se entrena con datos de actividad humana a escala web, una fuente altamente escalable pero no estructurada. Para extraer señales significativas de estos datos ruidosos de videos y descripciones, empleamos técnicas cruciales de preprocesamiento de datos y nuestra arquitectura unificada con un fuerte preentrenamiento de imágenes. El modelo entrenado resultante se extiende luego para abordar dos tareas posteriores distintas en control y generación. Las evaluaciones en manipulación robótica y generación de video en entornos guiados por lenguaje establecen la versatilidad multidominio de FOFPred, confirmando el valor de una arquitectura unificada VLM-Difusión y el aprendizaje escalable a partir de diversos datos web para la predicción de flujo óptico futuro.
Los recientes avances en generación de formas 3D han logrado resultados impresionantes, pero la mayoría de los métodos existentes dependen de entradas limpias, sin oclusiones y bien segmentadas. Estas condiciones rara vez se cumplen en escenarios del mundo real. Presentamos ShapeR, un nuevo enfoque para la generación condicional de formas de objetos 3D a partir de secuencias capturadas de manera casual. Dada una secuencia de imágenes, aprovechamos sistemas SLAM visual-inerciales estándar, algoritmos de detección 3D y modelos visión-lenguaje para extraer, para cada objeto, un conjunto de puntos SLAM dispersos, imágenes multivista con pose y descripciones generadas automáticamente. Un transformador de flujo rectificado, entrenado para condicionarse eficazmente en estas modalidades, genera entonces formas 3D métricas de alta fidelidad. Para garantizar robustez frente a los desafíos de los datos capturados casualmente, empleamos diversas técnicas, incluyendo aumentos composicionales sobre la marcha, un esquema de entrenamiento curricular que abarca conjuntos de datos a nivel de objeto y de escena, y estrategias para manejar el desorden del fondo. Adicionalmente, introducimos un nuevo benchmark de evaluación que comprende 178 objetos en entornos naturales a lo largo de 7 escenas del mundo real con anotaciones geométricas. Los experimentos demuestran que ShapeR supera significativamente a los enfoques existentes en este entorno desafiante, logrando una mejora de 2.7x en la distancia de Chamfer en comparación con el estado del arte.
Los modelos de lenguaje a gran escala han logrado capacidades notables en diversos dominios, aunque los mecanismos subyacentes al razonamiento sofisticado siguen siendo esquivos. Los modelos de razonamiento recientes superan a los modelos ajustados por instrucción comparables en tareas cognitivas complejas, lo que se atribuye a un cómputo extendido mediante cadenas de pensamiento más largas. Aquí demostramos que el razonamiento mejorado surge no solo del cómputo extendido, sino de la simulación de interacciones similares a las de múltiples agentes —una sociedad del pensamiento— que permite la diversificación y el debate entre perspectivas cognitivas internas caracterizadas por rasgos de personalidad distintos y experiencia de dominio específica. Mediante análisis cuantitativo y métodos de interpretabilidad mecanicista aplicados a trazas de razonamiento, encontramos que modelos como DeepSeek-R1 y QwQ-32B exhiben una diversidad de perspectivas mucho mayor que los modelos ajustados por instrucción, activando un conflicto más amplio entre características heterogéneas relacionadas con la personalidad y la experiencia durante el razonamiento. Esta estructura multiagente se manifiesta en comportamientos conversacionales, incluyendo preguntas y respuestas, cambios de perspectiva y la reconciliación de puntos de vista conflictivos, y en roles socioemocionales que caracterizan conversaciones dinámicas de ida y vuelta, lo que en conjunto explica la ventaja de precisión en tareas de razonamiento. Experimentos controlados de aprendizaje por refuerzo revelan que los modelos base aumentan los comportamientos conversacionales cuando son recompensados únicamente por la precisión del razonamiento, y el ajuste fino de modelos con andamiajes conversacionales acelera la mejora del razonamiento en comparación con los modelos base. Estos hallazgos indican que la organización social del pensamiento permite una exploración efectiva de los espacios de solución. Sugerimos que los modelos de razonamiento establecen un paralelismo computacional con la inteligencia colectiva en grupos humanos, donde la diversidad permite una resolución de problemas superior cuando se estructura sistemáticamente, lo que sugiere nuevas oportunidades para la organización de agentes que aprovechen la sabiduría de las multitudes.
Los principios físicos son fundamentales para la simulación visual realista, pero siguen siendo una omisión significativa en la generación de vídeos basada en transformadores. Esta brecha subraya una limitación crítica en la representación del movimiento de cuerpos rígidos, un pilar de la mecánica clásica. Mientras que la gráfica por computador y los simuladores basados en física pueden modelar fácilmente dichas colisiones utilizando las fórmulas de Newton, los paradigmas modernos de preentrenamiento-ajuste descartan el concepto de rigidez corporal durante la eliminación de ruido global a nivel de píxel. Incluso las restricciones matemáticas perfectamente correctas son tratadas como soluciones subóptimas (es decir, como condiciones) durante la optimización del modelo posterior al entrenamiento, limitando fundamentalmente el realismo físico de los vídeos generados. Motivados por estas consideraciones, introducimos, por primera vez, un paradigma de aprendizaje por refuerzo consciente de la física para modelos de generación de vídeo que aplica las reglas de colisión física directamente en espacios de alta dimensionalidad, garantizando que el conocimiento físico se aplique de manera estricta en lugar de tratarse como condiciones. Posteriormente, extendemos este paradigma a un marco unificado, denominado Ciclo de Mímesis-Descubrimiento (MDcycle), que permite un ajuste sustancial mientras preserva completamente la capacidad del modelo para aprovechar la retroalimentación basada en la física. Para validar nuestro enfoque, construimos un nuevo benchmark, PhysRVGBench, y realizamos extensos experimentos cualitativos y cuantitativos para evaluar exhaustivamente su eficacia.
Si bien los agentes de interfaz gráfica han demostrado un rendimiento sólido bajo instrucciones explícitas y de completado, su implementación en entornos reales requiere alinearse con las intenciones implícitas más complejas de los usuarios. En este trabajo, destacamos la Alineación Jerárquica de Intenciones Implícitas para Agentes de Interfaz Gráfica Personalizados (PersonalAlign), una nueva tarea para agentes que requiere que estos aprovechen los registros de usuario a largo plazo como contexto persistente para resolver preferencias omitidas en instrucciones vagas y anticipar rutinas latentes según el estado del usuario para brindar asistencia proactiva. Para facilitar este estudio, presentamos AndroidIntent, un punto de referencia diseñado para evaluar la capacidad de los agentes para resolver instrucciones vagas y proporcionar sugerencias proactivas mediante el razonamiento sobre registros de usuario a largo plazo. Anotamos 775 preferencias específicas de usuario y 215 rutinas a partir de 20,000 registros a largo plazo de diferentes usuarios para la evaluación. Además, presentamos el Agente de Memoria de Intención Jerárquica (HIM-Agent), que mantiene una memoria personal en actualización continua y organiza jerárquicamente las preferencias y rutinas del usuario para la personalización. Finalmente, evaluamos una serie de agentes de interfaz gráfica en AndroidIntent, incluyendo GPT-5, Qwen3-VL y UI-TARS; los resultados adicionales muestran que HIM-Agent mejora significativamente el rendimiento tanto de ejecución como proactivo en un 15.7% y un 7.3%, respectivamente.
Las capacidades de los modelos lingüísticos de vanguardia están mejorando rápidamente. Por lo tanto, necesitamos mitigaciones más sólidas contra el uso indebido de sistemas cada vez más potentes por parte de actores malintencionados. Trabajos anteriores han demostrado que los *probes* de activación pueden ser una técnica de mitigación de uso indebido prometedora, pero identificamos un desafío clave pendiente: los *probes* no logran generalizarse bajo importantes cambios de distribución en entornos de producción. En particular, encontramos que la transición de entradas de contexto corto a contexto largo es difícil para las arquitecturas de *probes* existentes. Proponemos varias nuevas arquitecturas de *probes* que manejan este cambio de distribución de contexto largo. Evaluamos estos *probes* en el dominio ciberofensivo, probando su robustez frente a varios cambios relevantes para la producción, incluyendo conversaciones multiturno, *jailbreaks* estáticos y pruebas de penetración adaptativas (*red teaming*). Nuestros resultados demuestran que, si bien *multimax* aborda la longitud del contexto, se requiere una combinación de elección arquitectónica y entrenamiento en distribuciones diversas para una generalización amplia. Adicionalmente, mostramos que emparejar *probes* con clasificadores basados en *prompts* logra una precisión óptima a un bajo costo debido a la eficiencia computacional de los *probes*. Estos hallazgos han informado el despliegue exitoso de *probes* de mitigación de uso indebido en las instancias de Gemini orientadas al usuario, el modelo lingüístico de vanguardia de Google. Finalmente, obtenemos resultados positivos preliminares usando AlphaEvolve para automatizar mejoras tanto en la búsqueda de arquitecturas de *probes* como en las pruebas de penetración adaptativas, mostrando que ya es posible automatizar parte de la investigación en seguridad de la IA.
Los agentes autónomos basados en Modelos de Lenguaje Grandes (LLM) demuestran capacidades multifacéticas para contribuir sustancialmente a la producción económica. Sin embargo, los puntos de referencia existentes se centran en capacidades agenticas individuales, sin capturar escenarios del mundo real de largo horizonte. Además, la dependencia de la retroalimentación humana en el bucle para tareas realistas crea un cuello de botella de escalabilidad, obstaculizando la recolección y evaluación automatizada de implementaciones. Para cerrar esta brecha, presentamos AgencyBench, un punto de referencia integral derivado del uso diario de la IA, que evalúa 6 capacidades agenticas principales en 32 escenarios del mundo real, comprendiendo 138 tareas con consultas, entregables y rúbricas específicas. Estos escenarios requieren un promedio de 90 llamadas a herramientas, 1 millón de tokens y horas de tiempo de ejecución para resolverse. Para permitir una evaluación automatizada, empleamos un agente de simulación de usuario para proporcionar retroalimentación iterativa, y un entorno de pruebas Docker para realizar una evaluación visual y funcional basada en rúbricas. Los experimentos revelan que los modelos de código cerrado superan significativamente a los modelos de código abierto (48.4% vs 32.1%). Un análisis más profundo revela disparidades significativas entre los modelos en eficiencia de recursos, autocorrección impulsada por retroalimentación y preferencias específicas de uso de herramientas. Finalmente, investigamos el impacto de los andamiajes agenticos, observando que los modelos propietarios demuestran un rendimiento superior dentro de sus ecosistemas nativos (por ejemplo, Claude-4.5-Opus a través de Claude-Agent-SDK), mientras que los modelos de código abierto exhiben picos de rendimiento distintos, lo que sugiere una optimización potencial para marcos de ejecución específicos. AgencyBench sirve como un banco de pruebas crítico para los agentes de próxima generación, destacando la necesidad de co-optimizar la arquitectura del modelo con los marcos agenticos. Creemos que este trabajo arroja luz sobre la dirección futura de los agentes autónomos, y publicamos el punto de referencia completo y el kit de herramientas de evaluación en https://github.com/GAIR-NLP/AgencyBench.
Los Grandes Modelos de Lenguaje y Visión (LVLM) han demostrado capacidades notables, aunque su competencia para comprender y razonar sobre múltiples imágenes sigue siendo en gran medida inexplorada. Si bien los benchmarks existentes han iniciado la evaluación de modelos multi-imagen, aún falta un análisis exhaustivo de sus debilidades fundamentales y sus causas. En este trabajo, presentamos MIMIC (Multi-Image Model Insights and Challenges), un nuevo benchmark diseñado para evaluar rigurosamente las capacidades multi-imagen de los LVLM. Utilizando MIMIC, realizamos una serie de experimentos de diagnóstico que revelan problemas generalizados: los LVLM a menudo no logran agregar información entre imágenes y tienen dificultades para rastrear o atender múltiples conceptos simultáneamente. Para abordar estas deficiencias, proponemos dos remedios complementarios novedosos. En el aspecto de los datos, presentamos una estrategia procedural de generación de datos que combina anotaciones de imagen única en ejemplos de entrenamiento multi-imagen ricos y específicos. En el aspecto de la optimización, analizamos patrones de atención por capas y derivamos un esquema de enmascaramiento de atención adaptado para entradas multi-imagen. Los experimentos mejoraron sustancialmente la agregación entre imágenes, al mismo tiempo que mejoraron el rendimiento en benchmarks multi-imagen existentes, superando el estado del arte anterior en diversas tareas. Los datos y el código estarán disponibles en https://github.com/anurag-198/MIMIC.
Los recientes avances en modelos de lenguaje grandes (LLM) con capacidad de agencia los han posicionado como planificadores generalistas capaces de razonar y actuar en diversas tareas. Sin embargo, los benchmarks de agentes existentes se centran principalmente en entornos simbólicos o débilmente fundamentados, dejando sin explorar su rendimiento en dominios del mundo real con restricciones físicas. Presentamos AstroReason-Bench, un benchmark integral para evaluar la planificación con agencia en Problemas de Planificación Espacial (SPP), una familia de problemas de alto riesgo con objetivos heterogéneos, restricciones físicas estrictas y toma de decisiones a largo plazo. AstroReason-Bench integra múltiples regímenes de planificación, incluyendo comunicaciones con estaciones terrestres y observación ágil de la Tierra, y proporciona un protocolo unificado de interacción orientado a agentes. Al evaluar una variedad de sistemas de LLM con agencia de última generación, tanto de código abierto como cerrado, encontramos que los agentes actuales tienen un rendimiento sustancialmente inferior al de solucionadores especializados, destacando limitaciones clave de la planificación generalista bajo restricciones realistas. AstroReason-Bench ofrece un banco de pruebas desafiante y diagnóstico para futuras investigaciones en agentes.
Los modelos recientes de generación de vídeo basados en difusión pueden sintetizar vídeos visualmente plausibles, pero a menudo presentan dificultades para satisfacer restricciones físicas. Una razón clave es que la mayoría de los enfoques existentes siguen siendo unietapa: entienden la comprensión física de alto nivel con la síntesis visual de bajo nivel, lo que dificulta la generación de contenido que requiera un razonamiento físico explícito. Para abordar esta limitación, proponemos un pipeline de tres etapas que no requiere entrenamiento, PhyRPR: PhyRazonar-PhyPlanificar-PhyRefinar, que desacopla la comprensión física de la síntesis visual. Específicamente, PhyRazonar utiliza un modelo multimodal grande para el razonamiento del estado físico y un generador de imágenes para la síntesis de fotogramas clave; PhyPlanificar sintetiza de manera determinista un andamiaje de movimiento grueso controlable; y PhyRefinar inyecta este andamiaje en el muestreo por difusión mediante una estrategia de fusión latente para refinar la apariencia preservando la dinámica planificada. Este diseño por etapas permite un control físico explícito durante la generación. Experimentos exhaustivos bajo restricciones físicas demuestran que nuestro método mejora consistentemente la plausibilidad física y la controlabilidad del movimiento.
Estudiamos la curación de datos para razonamiento multimodal a través del desafío NeurIPS 2025 de Curación de Datos para Razonamiento Visión-Lenguaje (DCVLR), que aísla la selección del conjunto de datos fijando el modelo y el protocolo de entrenamiento. Utilizando un conjunto de datos compacto y curado derivado principalmente de Walton Multimodal Cold Start, nuestra presentación obtuvo el primer puesto en el desafío. Mediante ablaciones posteriores a la competencia, demostramos que la selección de ejemplos basada en dificultad sobre un conjunto de datos base alineado es el principal impulsor de las mejoras de rendimiento. Aumentar el tamaño del conjunto de datos no mejora de manera confiable la precisión media bajo la receta de entrenamiento fija, sino que principalmente reduce la varianza entre ejecuciones, mientras que las heurísticas de diversidad y aumento sintético comúnmente utilizadas no proporcionan beneficio adicional y a menudo degradan el rendimiento. Estos resultados caracterizan a DCVLR como una evaluación en régimen de saturación y destacan el papel central de la alineación y la dificultad en el razonamiento multimodal eficiente en datos.
La diversidad de salida es crucial para los Modelos de Lenguaje a Gran Escala, ya que sustenta el pluralismo y la creatividad. En este trabajo, revelamos que controlar el lenguaje utilizado durante el pensamiento del modelo —el lenguaje del pensamiento— constituye una fuente novedosa y estructural de diversidad en la salida. Nuestro estudio preliminar muestra que diferentes lenguajes de pensamiento ocupan regiones distintas en el espacio de pensamiento de un modelo. Basándonos en esta observación, estudiamos dos estrategias de muestreo repetido bajo pensamiento multilingüe —Muestreo de Lenguaje Único y Muestreo de Lenguaje Mixto— y realizamos una evaluación de diversidad en las salidas que están controladas para ser en inglés, independientemente del lenguaje de pensamiento utilizado. A través de extensos experimentos, demostramos que cambiar el lenguaje de pensamiento del inglés a lenguajes no ingleses aumenta consistentemente la diversidad de la salida, mostrando una correlación positiva clara y consistente, de modo que los lenguajes más alejados del inglés en el espacio de pensamiento producen ganancias mayores. Además, mostramos que agregar muestras de múltiples lenguajes de pensamiento produce mejoras adicionales mediante efectos composicionales, y que escalar el muestreo con heterogeneidad lingüística expande el límite máximo de diversidad del modelo. Finalmente, demostramos que estos hallazgos se traducen en beneficios prácticos en escenarios de alineación pluralista, conduciendo a una cobertura más amplia de conocimiento cultural y orientaciones de valor en las salidas de los LLM. Nuestro código está disponible públicamente en https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.