Artículos de investigación en IA seleccionados diariamente con traducciones
Si bien los agentes autónomos de ingeniería de software (SWE) están redefiniendo los paradigmas de programación, actualmente adolecen de una limitación de "mundo cerrado": intentan corregir errores desde cero o utilizando únicamente el contexto local, ignorando la inmensa experiencia histórica humana disponible en plataformas como GitHub. El acceso a esta experiencia de "mundo abierto" se ve obstaculizado por la naturaleza no estructurada y fragmentada de los datos reales de seguimiento de incidencias. En este artículo, presentamos MemGovern, un marco diseñado para gestionar y transformar datos brutos de GitHub en memoria experiencial procesable para agentes. MemGovern emplea una gobernanza de la experiencia para convertir la experiencia humana en tarjetas de experiencia aptas para agentes e introduce una estrategia de búsqueda experiencial agéntica que permite la recuperación basada en lógica de la experiencia humana. Al producir 135.000 tarjetas de experiencia gestionadas, MemGovern logra una mejora significativa del rendimiento, incrementando las tasas de resolución en SWE-bench Verified en un 4,65%. Como enfoque complementario, MemGovern proporciona una solución para una infraestructura de memoria compatible con agentes.
Presentamos Solar Open, un modelo de lenguaje bilingüe Mixture-of-Experts de 102.000 millones de parámetros para lenguajes poco atendidos. Solar Open demuestra una metodología sistemática para construir modelos de lenguaje grandes (LLM) competitivos abordando tres desafíos interconectados. Primero, para entrenar de manera efectiva a pesar de la escasez de datos para lenguajes poco atendidos, sintetizamos 4,5 billones (escala corta) de tokens de datos de alta calidad, específicos del dominio y orientados al aprendizaje por refuerzo (RL). Segundo, organizamos estos datos mediante un currículo progresivo que optimiza conjuntamente la composición, los umbrales de calidad y la cobertura de dominios a lo largo de 20 billones de tokens. Tercero, para habilitar capacidades de razonamiento mediante RL escalable, aplicamos nuestro marco propuesto, SnapPO, para una optimización eficiente. En diversos benchmarks en inglés y coreano, Solar Open logra un rendimiento competitivo, demostrando la efectividad de esta metodología para el desarrollo de IA en lenguajes poco atendidos.
Los puntos de referencia existentes para la memoria de largo plazo utilizan principalmente diálogos multiturno o historiales de usuario sintéticos, lo que hace que el rendimiento de la recuperación sea un proxy imperfecto para la comprensión de la persona. Presentamos \BenchName, un punto de referencia de acceso público construido a partir de narrativas autobiográficas extensas, donde las acciones, el contexto y los pensamientos internos proporcionan evidencia densa para inferir motivaciones estables y principios de decisión. \BenchName~reconstruye cada narrativa en un flujo anclado temporalmente y consciente de los flashbacks, y evalúa los modelos con preguntas vinculadas a la evidencia que abarcan el recuerdo factual, la atribución de estados subjetivos y el razonamiento a nivel de principios. En diversas fuentes narrativas, los sistemas aumentados con recuperación mejoran principalmente la precisión factual, mientras que los errores persisten en las explicaciones temporalmente fundamentadas y las inferencias de nivel superior, lo que subraya la necesidad de mecanismos de memoria más allá de la recuperación. Nuestros datos están en KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
El reciente cambio de paradigma hacia los modelos de razonamiento a gran escala (LRM) como agentes autónomos ha intensificado la demanda de capacidades sofisticadas de uso de herramientas en conversaciones de múltiples turnos. Sin embargo, los conjuntos de datos y los enfoques de generación de datos existentes están limitados por conjuntos de herramientas predefinidos y estáticos que no pueden escalar a la complejidad de la colaboración abierta entre humanos y agentes. Para abordar esto, inicialmente desarrollamos un marco para la generación automatizada a gran escala de diálogos multiturno orientados a tareas, utilizando un simulador basado en LRM para generar dinámicamente herramientas de alto valor y específicas del dominio para resolver tareas especificadas. No obstante, observamos que un diseño puramente orientado a tareas a menudo resulta en trayectorias de "solo resolución de tareas", donde el agente completa el objetivo con una interacción mínima, sin generar las conversaciones de alto número de turnos observadas en escenarios realistas. Para cerrar esta brecha, nos orientamos hacia un paradigma de simulación centrado en el usuario. Al desacoplar la generación de tareas de un simulador de usuario dedicado que imita reglas de comportamiento humano —como la realización incremental de peticiones y la retroalimentación turno por turno— facilitamos diálogos multiturno más auténticos y extendidos que reflejan la naturaleza iterativa de la resolución de problemas del mundo real. Nuestra canalización de generación opera como un módulo versátil y listo para usar capaz de iniciar la generación desde cualquier estado, garantizando una alta escalabilidad en la producción de datos extendidos de uso de herramientas. Además, al facilitar múltiples finalizaciones de tareas dentro de una única trayectoria, produce un conjunto de datos de alta densidad que refleja las demandas multifacéticas de la interacción real entre humanos y agentes.
La construcción de agentes inteligentes capaces de manipulación diestra es esencial para lograr una automatización similar a la humana tanto en robótica como en entornos digitales. Sin embargo, los agentes de interfaz gráfica de usuario (GUI) existentes se basan en predicciones discretas de clics (x,y), lo que prohíbe las trayectorias de bucle cerrado de forma libre (por ejemplo, arrastrar una barra de progreso) que requieren una percepción y ajuste continuos sobre la marcha. En este trabajo, desarrollamos ShowUI-π, el primer modelo generativo basado en flujos que actúa como una mano diestra para GUI, con las siguientes características: (i) Acciones Unificadas Discretas-Continuas, que integran clics discretos y arrastres continuos dentro de un modelo compartido, permitiendo una adaptación flexible a través de diversos modos de interacción; (ii) Generación de Acciones Basada en Flujos para el modelado de arrastres, que predice ajustes incrementales del cursor a partir de observaciones visuales continuas mediante un experto en acciones ligero, garantizando trayectorias suaves y estables; (iii) Datos de Entrenamiento para Arrastres y Benchmark, donde recopilamos y sintetizamos manualmente 20.000 trayectorias de arrastre en cinco dominios (por ejemplo, PowerPoint, Adobe Premiere Pro), e introducimos ScreenDrag, un benchmark con protocolos de evaluación en línea y fuera de línea exhaustivos para evaluar las capacidades de arrastre de los agentes GUI. Nuestros experimentos muestran que los agentes GUI propietarios aún tienen dificultades en ScreenDrag (por ejemplo, Operator obtiene 13.27, y el mejor Gemini-2.5-CUA alcanza 22.18). En contraste, ShowUI-π logra 26.98 con solo 450M de parámetros, subrayando tanto la dificultad de la tarea como la efectividad de nuestro enfoque. Esperamos que este trabajo impulse a los agentes GUI hacia un control diestro similar al humano en el mundo digital. El código está disponible en https://github.com/showlab/showui-pi.
El razonamiento complejo en los marcos de agentes aumentados con herramientas es inherentemente de horizonte largo, lo que provoca que los trazos de razonamiento y los artefactos transitorios de las herramientas se acumulen y tensionen el contexto de trabajo limitado de los modelos de lenguaje grandes. Sin mecanismos de memoria explícitos, dicha acumulación interrumpe la continuidad lógica y socava la alineación con la tarea. Esto posiciona a la memoria no como una preocupación auxiliar de eficiencia, sino como un componente central para sostener un razonamiento coherente y orientado a objetivos en horizontes largos. Proponemos MemoBrain, un modelo de memoria ejecutiva para agentes aumentados con herramientas que construye una memoria consciente de las dependencias sobre los pasos de razonamiento, capturando estados intermedios salientes y sus relaciones lógicas. Operando como un copiloto junto al agente de razonamiento, MemoBrain organiza el progreso del razonamiento sin bloquear la ejecución y gestiona activamente el contexto de trabajo. Específicamente, poda pasos no válidos, pliega subtrayectorias completadas y preserva una columna vertebral de razonamiento compacta y de alta prominencia bajo un presupuesto de contexto fijo. En conjunto, estos mecanismos permiten un control cognitivo explícito sobre las trayectorias de razonamiento en lugar de una acumulación pasiva de contexto. Evaluamos MemoBrain en puntos de referencia desafiantes de horizonte largo, incluyendo GAIA, WebWalker y BrowseComp-Plus, demostrando mejoras consistentes respecto a líneas de base sólidas.
El aprendizaje por refuerzo ha mejorado sustancialmente el rendimiento de los agentes de LLM en tareas con resultados verificables, pero aún lucha en tareas de agentes de final abierto con vastos espacios de solución (por ejemplo, la planificación de viajes complejos). Debido a la ausencia de una verdad fundamental objetiva para estas tareas, los algoritmos de RL actuales dependen en gran medida de modelos de recompensa que asignan puntuaciones escalares a respuestas individuales. Sostenemos que dicha puntuación puntual sufre de un colapso de discriminación inherente: el modelo de recompensa lucha por distinguir ventajas sutiles entre diferentes trayectorias, lo que resulta en que las puntuaciones dentro de un grupo se comprimen en un rango estrecho. En consecuencia, la señal de recompensa efectiva queda dominada por el ruido del modelo de recompensa, lo que lleva a un estancamiento en la optimización. Para abordar esto, proponemos ArenaRL, un paradigma de aprendizaje por refuerzo que cambia de la puntuación escalar puntual a la clasificación relativa intra-grupo. ArenaRL introduce un mecanismo de evaluación por pares consciente del proceso, empleando rúbricas multinivel para asignar puntuaciones relativas de grano fino a las trayectorias. Adicionalmente, construimos una arena adversarial intra-grupo y diseñamos un esquema de clasificación basado en torneos para obtener señales de ventaja estables. Los resultados empíricos confirman que el esquema de eliminación simple sembrado que construimos logra una precisión de estimación de ventaja casi equivalente a las comparaciones por pares completas con complejidad O(N²), mientras opera con solo complejidad O(N), logrando un equilibrio óptimo entre eficiencia y precisión. Además, para abordar la falta de benchmarks de ciclo completo para agentes de final abierto, construimos Open-Travel y Open-DeepResearch, dos benchmarks de alta calidad que presentan una canalización integral que cubre SFT, entrenamiento RL y evaluación multidimensional. Experimentos extensivos muestran que ArenaRL supera sustancialmente los baselines de RL estándar, permitiendo a los agentes de LLM generar soluciones más robustas para tareas complejas del mundo real.
Presentamos la serie Ministral 3, una familia de modelos lingüísticos densos eficientes en parámetros, diseñados para aplicaciones con limitaciones de capacidad computacional y memoria. Está disponible en tres tamaños: 3B, 8B y 14B de parámetros. Para cada tamaño, publicamos tres variantes: un modelo base preentrenado para uso general, un modelo ajustado por instrucciones y un modelo de razonamiento para la resolución de problemas complejos. Además, presentamos nuestra metodología para obtener los modelos Ministral 3 mediante Destilación en Cascada, una técnica de poda iterativa y entrenamiento continuo con destilación. Cada modelo incluye capacidades de comprensión de imágenes, todos bajo licencia Apache 2.0.
Los agentes autónomos basados en modelos de lenguaje extenso (LLM) están evolucionando rápidamente para manejar tareas de múltiples turnos, pero garantizar su confiabilidad sigue siendo un desafío crítico. Un pilar fundamental de esta confiabilidad es la calibración, que se refiere a la capacidad de un agente para expresar una confianza que refleje fielmente su rendimiento real. Si bien la calibración está bien establecida para modelos estáticos, su dinámica en flujos de trabajo agentales integrados con herramientas sigue siendo poco explorada. En este trabajo, investigamos sistemáticamente la calibración verbalizada en agentes que utilizan herramientas, revelando una dicotomía fundamental de la confianza impulsada por el tipo de herramienta. Específicamente, nuestro estudio piloto identifica que las herramientas de evidencia (por ejemplo, búsqueda web) inducen sistemáticamente una sobreconfianza severa debido al ruido inherente en la información recuperada, mientras que las herramientas de verificación (por ejemplo, intérpretes de código) pueden fundamentar el razonamiento mediante retroalimentación determinista y mitigar la descalibración. Para mejorar robustamente la calibración en todos los tipos de herramientas, proponemos un marco de ajuste fino por aprendizaje por refuerzo (RL) que optimiza conjuntamente la precisión de la tarea y la calibración, respaldado por un benchmark holístico de diseños de recompensa. Demostramos que nuestros agentes entrenados no solo logran una calibración superior, sino que también exhiben una generalización robusta desde entornos de entrenamiento locales a entornos web ruidosos y a dominios distintos, como el razonamiento matemático. Nuestros resultados destacan la necesidad de estrategias de calibración específicas por dominio para agentes que utilizan herramientas. En un sentido más amplio, este trabajo establece una base para construir agentes autoconscientes que puedan comunicar de manera fiable la incertidumbre en implementaciones del mundo real de alto riesgo.
Los métodos de segmentación de objetos en vídeo, como SAM2, logran un alto rendimiento mediante arquitecturas basadas en memoria, pero presentan dificultades ante grandes cambios de punto de vista debido a su dependencia de características de apariencia. Los métodos tradicionales de segmentación de instancias 3D abordan la consistencia del punto de vista, pero requieren poses de cámara, mapas de profundidad y un preprocesamiento costoso. Presentamos 3AM, una mejora en el tiempo de entrenamiento que integra características 3D-aware de MUSt3R en SAM2. Nuestro ligero Fusionador de Características combina características multi-nivel de MUSt3R que codifican correspondencia geométrica implícita. Combinado con las características de apariencia de SAM2, el modelo logra un reconocimiento geométricamente consistente basado tanto en la posición espacial como en la similitud visual. Proponemos una estrategia de muestreo consciente del campo de visión que asegura que los fotogramas observen regiones de objetos espacialmente consistentes para un aprendizaje fiable de correspondencia 3D. De manera crucial, nuestro método requiere únicamente entrada RGB en la inferencia, sin poses de cámara ni preprocesamiento. En conjuntos de datos desafiantes con movimiento de línea base amplia (ScanNet++, Replica), 3AM supera sustancialmente a SAM2 y sus extensiones, logrando un 90.6% de IoU y un 71.7% de IoU Positivo en el Subconjunto Seleccionado de ScanNet++, mejorando los métodos VOS más avanzados en +15.9 y +30.4 puntos. Página del proyecto: https://jayisaking.github.io/3AM-Page/
La Generación Aumentada por Recuperación enfrenta una disyuntiva: concatenar documentos en un *prompt* largo permite el razonamiento multdocumento pero crea cuellos de botella en el prellenado, mientras que codificar por separado las cachés KV de los documentos ofrece velocidad pero rompe la interacción entre documentos. Proponemos Decodificación Paralela de Contexto de Expertos (Pced), un marco libre de entrenamiento que desplaza la agregación de evidencia del mecanismo de atención a la decodificación. Pced trata los documentos recuperados como "expertos" aislados, sincronizando sus predicciones mediante una nueva regla de decodificación contrastiva consciente de la recuperación que pondera los logits de los expertos frente al previo del modelo. Este enfoque recupera las capacidades de razonamiento entre documentos sin construir una atención compartida entre ellos.
Los sistemas de Generación Aumentada por Recuperación (RAG) deben abordar desafíos que van más allá de la simple recuperación de documentos individuales, como la interpretación de elementos visuales (tablas, gráficos, imágenes), la síntesis de información entre documentos y la provisión de una atribución precisa de fuentes. Los puntos de referencia existentes no logran capturar esta complejidad, ya que suelen centrarse en datos textuales, en la comprensión de documentos individuales o en evaluar la recuperación y la generación de forma aislada. Presentamos ViDoRe v3, un punto de referencia multimodal integral para RAG que incluye consultas de múltiples tipos sobre corpus de documentos visualmente ricos. Abarca 10 conjuntos de datos de diversos dominios profesionales, que comprenden aproximadamente 26.000 páginas de documentos emparejadas con 3.099 consultas verificadas por humanos, cada una disponible en 6 idiomas. Mediante 12.000 horas de trabajo de anotación humana, proporcionamos anotaciones de alta calidad para la relevancia en la recuperación, la localización mediante cuadros delimitadores y respuestas de referencia verificadas. Nuestra evaluación de los sistemas RAG más avanzados revela que los recuperadores visuales superan a los textuales, que los modelos de interacción tardía y la reordenación textual mejoran sustancialmente el rendimiento, y que los contextos híbridos o puramente visuales mejoran la calidad de la generación de respuestas. Sin embargo, los modelos actuales aún tienen dificultades con los elementos no textuales, las consultas abiertas y la localización visual de grano fino. Para fomentar el progreso en la resolución de estos desafíos, el benchmark se publica bajo una licencia comercialmente permisiva en https://hf.co/vidore.
Los recientes avances en transformadores de difusión (DiTs) han establecido nuevos estándares en generación de imágenes, pero siguen siendo poco prácticos para implementación en dispositivo debido a sus altos costos computacionales y de memoria. En este trabajo, presentamos un marco de DiT eficiente diseñado para dispositivos móviles y de edge que logra calidad de generación a nivel de transformador bajo estrictas restricciones de recursos. Nuestro diseño combina tres componentes clave. Primero, proponemos una arquitectura DiT compacta con un mecanismo de atención dispersa global-local adaptativa que equilibra el modelado de contexto global y la preservación de detalles locales. Segundo, proponemos un marco de entrenamiento elástico que optimiza conjuntamente sub-DiTs de distintas capacidades dentro de una superred unificada, permitiendo que un solo modelo se ajuste dinámicamente para inferencia eficiente en diferentes hardwares. Finalmente, desarrollamos Knowledge-Guided Distribution Matching Distillation, una canalización de destilación por pasos que integra el objetivo DMD con transferencia de conocimiento de modelos maestro de pocos pasos, produciendo generación de alta fidelidad y baja latencia (ej. 4 pasos) adecuada para uso en dispositivo en tiempo real. En conjunto, estas contribuciones permiten modelos de difusión escalables, eficientes y de alta calidad para implementación en diversos hardwares.
A pesar del rápido progreso de los modelos de generación de vídeo, el papel de los datos en la influencia del movimiento es poco comprendido. Presentamos Motive (MOTIon attribution for Video gEneration), un marco de atribución de datos basado en gradientes y centrado en el movimiento, que se adapta a conjuntos de datos y modelos de vídeo modernos, extensos y de alta calidad. Lo utilizamos para estudiar qué clips de ajuste fino mejoran o degradan la dinámica temporal. Motive aísla la dinámica temporal de la apariencia estática mediante máscaras de pérdida ponderadas por movimiento, lo que permite un cálculo de influencia específico del movimiento eficiente y escalable. En modelos de texto a vídeo, Motive identifica clips que afectan significativamente al movimiento y guía la curación de datos que mejora la coherencia temporal y la plausibilidad física. Con datos de alta influencia seleccionados por Motive, nuestro método mejora tanto la suavidad del movimiento como el grado dinámico en VBench, logrando una tasa de preferencia humana del 74.1% en comparación con el modelo base preentrenado. Hasta donde sabemos, este es el primer marco que atribuye el movimiento en lugar de la apariencia visual en modelos generativos de vídeo y lo utiliza para curar datos de ajuste fino.
Los modelos VLA han demostrado un potencial prometedor en la navegación embebida al unificar la percepción y la planificación, heredando las fuertes capacidades de generalización de los grandes modelos de lenguaje y visión (VLM). Sin embargo, la mayoría de los modelos VLA existentes se basan en mapeos reactivos que van directamente de las observaciones a las acciones, careciendo de las capacidades de razonamiento explícito y la memoria persistente necesarias para tareas de navegación complejas y de largo horizonte. Para abordar estos desafíos, proponemos VLingNav, un modelo VLA para la navegación embebida fundamentado en una cognición basada en la lingüística. En primer lugar, inspirados por la teoría del proceso dual de la cognición humana, introducimos un mecanismo de cadena de pensamiento adaptativa, que activa dinámicamente el razonamiento explícito solo cuando es necesario, permitiendo que el agente cambie fluidamente entre una ejecución rápida e intuitiva y una planificación lenta y deliberada. En segundo lugar, para manejar las dependencias espaciales de largo horizonte, desarrollamos un módulo de memoria lingüística asistida por visión que construye una memoria semántica persistente y cross-modal, permitiendo al agente recordar observaciones pasadas para evitar una exploración repetitiva e inferir tendencias de movimiento en entornos dinámicos. Para la metodología de entrenamiento, construimos Nav-AdaCoT-2.9M, el conjunto de datos de navegación embebida con anotaciones de razonamiento más grande hasta la fecha, enriquecido con anotaciones de CoT adaptativa que inducen un paradigma de razonamiento capaz de ajustar tanto cuándo pensar como en qué pensar. Además, incorporamos una etapa de aprendizaje por refuerzo guiado por un experto en línea, permitiendo que el modelo supere el aprendizaje por imitación puro y adquiera comportamientos de navegación más robustos y auto-explorados. Experimentos exhaustivos demuestran que VLingNav logra un rendimiento state-of-the-art en una amplia gama de benchmarks de navegación embebida. Cabe destacar que VLingNav se transfiere a plataformas robóticas del mundo real de manera zero-shot, ejecutando diversas tareas de navegación y demostrando una fuerte generalización cross-dominio y cross-tarea.
La sustitución controlada de personajes en video con una identidad proporcionada por el usuario sigue siendo un problema complejo debido a la falta de datos de video emparejados. Los trabajos anteriores se han basado predominantemente en un paradigma de reconstrucción que requiere máscaras de segmentación por fotograma y guías estructurales explícitas (por ejemplo, esqueleto, profundidad). Sin embargo, esta dependencia limita severamente su generalización en escenarios complejos que involucran oclusiones, interacciones personaje-objeto, poses inusuales o iluminación difícil, lo que a menudo genera artefactos visuales e inconsistencias temporales. En este artículo, proponemos MoCha, un marco pionero que evita estas limitaciones al requerir únicamente una máscara arbitraria de un solo fotograma. Para adaptar eficazmente la condición de entrada multimodal y mejorar la identidad facial, introducimos un RoPE consciente de la condición y empleamos una etapa de post-entrenamiento basada en RL. Además, para superar la escasez de datos de entrenamiento emparejados y calificados, proponemos una canalización integral de construcción de datos. Específicamente, diseñamos tres conjuntos de datos especializados: un conjunto de datos renderizado de alta fidelidad construido con Unreal Engine 5 (UE5), un conjunto de datos impulsado por expresiones sintetizado por técnicas actuales de animación de retratos, y un conjunto de datos aumentado derivado de pares de video-máscara existentes. Experimentos exhaustivos demuestran que nuestro método supera sustancialmente a los enfoques state-of-the-art existentes. Liberaremos el código para facilitar futuras investigaciones. Consulte nuestra página del proyecto para más detalles: orange-3dv-team.github.io/MoCha
La mejora de las capacidades de razonamiento de los grandes modelos de lenguaje (LLM) se ha basado en gran medida en el autoentrenamiento iterativo con datos generados por el modelo. Aunque son eficaces para aumentar la precisión, los enfoques existentes refuerzan principalmente las trayectorias de razonamiento exitosas, incurriendo en un coste sustancial de calibración: los modelos se vuelven excesivamente confiados y pierden la capacidad de representar la incertidumbre. Este fallo se ha caracterizado como una forma de colapso del modelo en la alineación, donde las distribuciones predictivas degeneran hacia estimaciones puntuales de baja varianza. Abordamos este problema replanteando el entrenamiento del razonamiento como un problema de aprendizaje epistémico, en el que los modelos deben aprender no solo a razonar, sino también cuándo se debe confiar en su razonamiento. Proponemos el razonamiento con calibración epistémica (EpiCaR) como un objetivo de entrenamiento que optimiza conjuntamente el rendimiento del razonamiento y la calibración, y lo instanciamos dentro de un marco de ajuste fino supervisado iterativo utilizando señales explícitas de autoevaluación. Los experimentos con las familias Llama-3 y Qwen-3 demuestran que nuestro enfoque logra una superioridad de Pareto sobre los métodos de referencia estándar tanto en precisión como en calibración, particularmente en modelos con capacidad de razonamiento suficiente (por ejemplo, 3B+). Este marco se generaliza eficazmente al razonamiento matemático fuera de distribución (GSM8K) y a la generación de código (MBPP). En última instancia, nuestro enfoque permite una reducción de 3 veces en el cómputo de inferencia, igualando el rendimiento con K=30 muestras de STaR con solo K=10 muestras en modelos capaces.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) se ha convertido en un paradigma estándar para el razonamiento en Modelos de Lenguaje Grandes. Sin embargo, optimizar únicamente para la corrección de la respuesta final a menudo lleva a los modelos a una exploración verbosa y sin rumbo, donde dependen de tácticas exhaustivas de prueba y error en lugar de una planificación estructurada para alcanzar soluciones. Si bien restricciones heurísticas como las penalizaciones por longitud pueden reducir la verbosidad, a menudo truncan pasos de razonamiento esenciales, creando una difícil disyuntiva entre eficiencia y verificación. En este artículo, argumentamos que la capacidad discriminativa es un requisito previo para la generación eficiente: al aprender a distinguir soluciones válidas, un modelo puede internalizar una señal de guía que poda el espacio de búsqueda. Proponemos JudgeRLVR, un paradigma de dos etapas de juzgar-y-luego-generar. En la primera etapa, entrenamos al modelo para juzgar respuestas de solución con respuestas verificables. En la segunda etapa, afinamos el mismo modelo con RLVR de generación estándar, inicializado desde el 'juez'. En comparación con el RLVR estándar que utiliza los mismos datos de entrenamiento del dominio matemático, JudgeRLVR logra una mejor disyuntiva calidad-eficiencia para Qwen3-30B-A3B: en matemáticas dentro del dominio, ofrece una ganancia promedio de precisión de aproximadamente +3.7 puntos con una longitud de generación promedio un -42% menor; en benchmarks fuera del dominio, ofrece una mejora promedio de precisión de aproximadamente +4.5 puntos, demostrando una generalización mejorada.
Con el rápido avance de la generación de imágenes, la edición de texto visual mediante instrucciones en lenguaje natural ha recibido una atención creciente. El principal desafío de esta tarea es comprender completamente la instrucción y la imagen de referencia y, por lo tanto, generar texto visual que sea coherente en estilo con la imagen. Los métodos anteriores a menudo implicaban pasos complejos para especificar el contenido del texto y sus atributos, como el tamaño de fuente, el color y el diseño, sin considerar la coherencia estilística con la imagen de referencia. Para abordar este problema, proponemos UM-Text, un modelo multimodal unificado para la comprensión del contexto y la edición de texto visual mediante instrucciones en lenguaje natural. Específicamente, introducimos un Modelo de Lenguaje Visual (VLM) para procesar la instrucción y la imagen de referencia, de modo que el contenido y el diseño del texto puedan elaborarse meticulosamente según la información contextual. Para generar una imagen de texto visual precisa y armoniosa, proponemos además el UM-Encoder para combinar los *embeddings* de diversas informaciones condicionantes, donde la combinación es configurada automáticamente por el VLM según la instrucción de entrada. Durante el entrenamiento, proponemos una pérdida por consistencia regional para ofrecer una supervisión más efectiva para la generación de glifos tanto en el espacio latente como en el RGB, y diseñamos una estrategia de entrenamiento en tres etapas específica para mejorar aún más el rendimiento del modelo. Adicionalmente, contribuimos con UM-DATA-200K, un conjunto de datos a gran escala de imágenes de texto visual en diversas escenas para el entrenamiento de modelos. Resultados cualitativos y cuantitativos exhaustivos en múltiples benchmarks públicos demuestran que nuestro método alcanza un rendimiento de vanguardia.
Este artículo presenta VideoLoom, un Modelo de Lenguaje Grande de Video unificado para la comprensión espacio-temporal conjunta. Para facilitar el desarrollo de capacidades de localización espacial y temporal de grano fino, hemos creado LoomData-8.7k, un conjunto de datos de video centrado en lo humano con descripciones ancladas temporalmente y localizadas espacialmente. Con esto, VideoLoom logra un rendimiento de vanguardia o altamente competitivo en diversos puntos de referencia espaciales y temporales (por ejemplo, 63.1 J&F en ReVOS para la segmentación de objetos de video por referencia, y 48.3 R1@0.7 en Charades-STA para la localización temporal). Además, presentamos LoomBench, un nuevo benchmark que consiste en pares de video-pregunta temporales, espaciales y composicionales, permitiendo una evaluación integral de los Video LLMs desde diversos aspectos. En conjunto, estas contribuciones ofrecen un conjunto universal y eficaz para la comprensión de video espacio-temporal conjunta, estableciendo un nuevo estándar en la inteligencia multimodal.
Los sistemas de Texto a Visualización (Text2Vis) traducen consultas en lenguaje natural sobre datos tabulares en respuestas concisas y visualizaciones ejecutables. Si bien los LLMs de código cerrado generan código funcional, los gráficos resultantes a menudo carecen de alineación semántica y claridad, cualidades que solo pueden evaluarse tras la ejecución. Los modelos de código abierto tienen aún más dificultades, produciendo frecuentemente salidas no ejecutables o visualmente deficientes. Aunque el ajuste fino supervisado puede mejorar la capacidad de ejecución del código, no logra mejorar la calidad general de la visualización, ya que la pérdida tradicional del SFT no puede capturar la retroalimentación posterior a la ejecución. Para abordar esta brecha, proponemos RL-Text2Vis, el primer marco de aprendizaje por refuerzo para la generación Text2Vis. Basado en la Optimización de Políticas Relativas Grupales (GRPO), nuestro método utiliza una novedosa recompensa multiobjetivo que optimiza conjuntamente la precisión textual, la validez del código y la calidad de la visualización utilizando retroalimentación post-ejecución. Al entrenar modelos Qwen2.5 (7B y 14B), RL-Text2Vis logra una mejora relativa del 22% en la calidad de los gráficos respecto a GPT-4o en el benchmark Text2Vis y aumenta el éxito de la ejecución del código del 78% al 97% en relación con su línea de base zero-shot. Nuestros modelos superan significativamente a las líneas de base zero-shot y supervisadas sólidas y también demuestran una generalización robusta a conjuntos de datos fuera de dominio como VIS-Eval y NVBench. Estos resultados establecen a GRPO como una estrategia efectiva para el razonamiento multimodal estructurado en la generación de visualizaciones. Publicamos nuestro código en https://github.com/vis-nlp/RL-Text2Vis.
La tokenización discreta del movimiento ha permitido recientemente que los Modelos de Lenguaje a Gran Escala (LLMs) funcionen como estructuras versátiles para la comprensión del movimiento y el razonamiento entre movimiento y lenguaje. Sin embargo, los flujos de trabajo existentes generalmente disocian la cuantización del movimiento del aprendizaje de incrustaciones semánticas, vinculándolos únicamente mediante identificadores de tokens. Este enfoque no logra alinear efectivamente la geometría intrínseca del espacio de movimiento con el espacio de incrustación, dificultando así la capacidad del LLM para realizar un razonamiento sutil sobre el movimiento. Sostenemos que la alineación es más efectiva cuando ambas modalidades comparten una base geométrica unificada. Por lo tanto, en lugar de forzar al LLM a reconstruir desde cero la compleja geometría entre los tokens de movimiento, presentamos un marco novedoso que aplica explícitamente ortogonalidad tanto al codebook de movimiento como al espacio de incrustación del LLM, garantizando que sus estructuras relacionales se reflejen mutuamente de forma natural. Específicamente, empleamos un cuantizador de solo decodificación con Gumbel-Softmax para un entrenamiento diferenciable y un uso equilibrado del codebook. Para conectar las modalidades, utilizamos una proyección dispersa que mapea los códigos de movimiento al espacio de incrustación del LLM preservando la ortogonalidad. Finalmente, un programa de regularización ortonormal en dos etapas aplica restricciones suaves durante el entrenamiento del tokenizador y el ajuste fino del LLM para mantener la alineación geométrica sin obstaculizar la adaptación semántica. Experimentos exhaustivos en HumanML3D demuestran que nuestro marco logra una mejora del 20% en el rendimiento sobre los métodos actuales del estado del arte, validando que una base geométrica unificada empodera efectivamente al LLM para un razonamiento sutil sobre el movimiento.
Los Modelos de Lenguaje Grandes (LLM) se despliegan cada vez más en sistemas de verificación de hechos del mundo real; sin embargo, las evaluaciones existentes se centran predominantemente en la verificación de afirmaciones y pasan por alto el flujo de trabajo más amplio de la verificación, que incluye la extracción de afirmaciones y la recuperación de evidencias. Este enfoque limitado impide que los puntos de referencia actuales revelen fallos sistemáticos de razonamiento, puntos ciegos factuales y limitaciones de robustez de los LLM modernos. Para cerrar esta brecha, presentamos FactArena, un marco de evaluación automatizado de estilo arena que realiza una evaluación comparativa integral y por etapas de los LLM en todo el proceso de verificación de hechos. FactArena integra tres componentes clave: (i) un proceso de verificación de hechos impulsado por LLM que estandariza la descomposición de afirmaciones, la recuperación de evidencias mediante interacciones aumentadas con herramientas y la predicción de veredictos basada en justificaciones; (ii) un mecanismo de juicio de estilo arena guiado por directrices de referencia consolidadas para garantizar comparaciones por pares imparciales y consistentes entre agentes jueces heterogéneos; y (iii) un módulo de evolución de afirmaciones impulsado por la arena que genera de forma adaptativa afirmaciones más desafiantes y semánticamente controladas para sondear la robustez factual de los LLM más allá de los datos de origen fijos. En 16 LLM de vanguardia que abarcan siete familias de modelos, FactArena produce clasificaciones estables e interpretables. Nuestros análisis revelan además discrepancias significativas entre la precisión estática en la verificación de afirmaciones y la competencia en la verificación de hechos de extremo a extremo, destacando la necesidad de una evaluación holística. El marco propuesto ofrece un paradigma escalable y confiable para diagnosticar el razonamiento factual de los LLM, guiar el desarrollo futuro de modelos y avanzar en el despliegue confiable de LLM en aplicaciones de verificación de hechos críticas para la seguridad.