Artículos de investigación en IA seleccionados diariamente con traducciones
Hemos liberado el código de MiMo-VL-7B-SFT y MiMo-VL-7B-RL, dos potentes modelos de visión y lenguaje que ofrecen un rendimiento de vanguardia tanto en comprensión visual general como en razonamiento multimodal. MiMo-VL-7B-RL supera a Qwen2.5-VL-7B en 35 de las 40 tareas evaluadas y obtiene una puntuación de 59.4 en OlympiadBench, superando a modelos con hasta 78B parámetros. Para aplicaciones de anclaje en interfaces gráficas, establece un nuevo estándar con 56.1 en OSWorld-G, superando incluso a modelos especializados como UI-TARS. Nuestro entrenamiento combina un preentrenamiento en cuatro etapas (2.4 billones de tokens) con Aprendizaje por Refuerzo Mixto On-policy (MORL) que integra diversas señales de recompensa. Identificamos la importancia de incorporar datos de razonamiento de alta calidad con Cadenas de Pensamiento largas en las etapas de preentrenamiento, así como los beneficios del aprendizaje por refuerzo mixto a pesar de los desafíos en la optimización simultánea de múltiples dominios. También contribuimos con una suite de evaluación integral que cubre más de 50 tareas para promover la reproducibilidad y avanzar en el campo. Los puntos de control del modelo y la suite de evaluación completa están disponibles en https://github.com/XiaomiMiMo/MiMo-VL.
Inspirados por las notables capacidades de razonamiento de Deepseek-R1 en tareas textuales complejas, muchos trabajos intentan incentivar habilidades similares en Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) aplicando directamente el aprendizaje por refuerzo (RL). Sin embargo, aún luchan por activar el razonamiento complejo. En este artículo, en lugar de examinar el RL multimodal de forma aislada, profundizamos en las pipelines de entrenamiento actuales e identificamos tres fenómenos cruciales: 1) Una inicialización efectiva en frío es crítica para mejorar el razonamiento de los MLLMs. Curiosamente, encontramos que inicializar únicamente con datos de texto cuidadosamente seleccionados puede llevar a un rendimiento que supera a muchos modelos recientes de razonamiento multimodal, incluso antes del RL multimodal. 2) El GRPO estándar aplicado al RL multimodal sufre de estancamiento de gradientes, lo que degrada la estabilidad y el rendimiento del entrenamiento. 3) Un entrenamiento posterior de RL solo con texto, tras la fase de RL multimodal, mejora aún más el razonamiento multimodal. Este enfoque de entrenamiento por etapas equilibra efectivamente el anclaje perceptual y el desarrollo del razonamiento cognitivo. Al incorporar las ideas anteriores y abordar los problemas del RL multimodal, presentamos ReVisual-R1, logrando un nuevo estado del arte entre los MLLMs de 7B de código abierto en benchmarks desafiantes como MathVerse, MathVision, WeMath, LogicVista, DynaMath, y los desafiantes AIME2024 y AIME2025.
Como parte de un agente corporeizado, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan típicamente para la planificación de comportamientos a partir de instrucciones en lenguaje natural proporcionadas por el usuario. Sin embargo, manejar instrucciones ambiguas en entornos del mundo real sigue siendo un desafío para los LLMs. Se han propuesto diversos métodos para la detección de ambigüedades en tareas, pero es difícil compararlos debido a que se prueban en diferentes conjuntos de datos y no existe un punto de referencia universal. Por esta razón, proponemos AmbiK (Tareas Ambiguas en Entornos de Cocina), un conjunto de datos completamente textual de instrucciones ambiguas dirigidas a un robot en un entorno de cocina. AmbiK fue recopilado con la asistencia de LLMs y está validado por humanos. Consta de 1000 pares de tareas ambiguas y sus contrapartes no ambiguas, categorizadas por tipo de ambigüedad (Preferencias Humanas, Conocimiento de Sentido Común, Seguridad), con descripciones del entorno, preguntas y respuestas de clarificación, intenciones del usuario y planes de tareas, sumando un total de 2000 tareas. Esperamos que AmbiK permita a los investigadores realizar una comparación unificada de los métodos de detección de ambigüedades. AmbiK está disponible en https://github.com/cog-model/AmbiK-dataset.
Los modelos de razonamiento han avanzado rápidamente en muchos benchmarks que involucran matemáticas, código y ciencias. Sin embargo, aún existen muchas preguntas abiertas sobre las mejores estrategias de entrenamiento para el razonamiento, ya que los modelos de última generación a menudo dependen de conjuntos de datos propietarios con poca o ninguna información pública disponible. Para abordar esto, el objetivo del proyecto OpenThoughts es crear conjuntos de datos de código abierto para entrenar modelos de razonamiento. Tras exploraciones iniciales, nuestro conjunto de datos OpenThoughts2-1M dio lugar a OpenThinker2-32B, el primer modelo entrenado con datos públicos de razonamiento que iguala a DeepSeek-R1-Distill-32B en benchmarks estándar de razonamiento como AIME y LiveCodeBench. Luego, mejoramos nuestro conjunto de datos mediante la investigación sistemática de cada paso de nuestra pipeline de generación de datos con más de 1,000 experimentos controlados, lo que resultó en OpenThoughts3. Al escalar la pipeline a 1.2 millones de ejemplos y utilizar QwQ-32B como modelo maestro, obtuvimos nuestro modelo OpenThinker3-7B, que alcanza resultados de última generación: 53% en AIME 2025, 51% en LiveCodeBench 06/24-01/25 y 54% en GPQA Diamond. Todos nuestros conjuntos de datos y modelos están disponibles en https://openthoughts.ai.
La generación de textos extensos sigue siendo un desafío significativo para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), particularmente en cuanto a mantener la coherencia, garantizar la consistencia lógica y preservar la calidad del texto a medida que aumenta la longitud de la secuencia. Para abordar estas limitaciones, proponemos SuperWriter-Agent, un marco basado en agentes diseñado para mejorar la calidad y consistencia de la generación de textos extensos. SuperWriter-Agent introduce etapas explícitas de pensamiento estructurado a través de la planificación y refinamiento en el proceso de generación, guiando al modelo para seguir un proceso más deliberado y cognitivamente fundamentado, similar al de un escritor profesional. Basándonos en este marco, construimos un conjunto de datos de ajuste fino supervisado para entrenar un SuperWriter-LM de 7B. Además, desarrollamos un procedimiento jerárquico de Optimización Directa de Preferencias (DPO, por sus siglas en inglés) que utiliza Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) para propagar evaluaciones finales de calidad y optimizar cada paso de generación en consecuencia. Los resultados empíricos en diversos benchmarks demuestran que SuperWriter-LM alcanza un rendimiento de vanguardia, superando incluso a modelos de referencia de mayor escala tanto en evaluaciones automáticas como en evaluaciones humanas. Además, estudios de ablación exhaustivos demuestran la efectividad del DPO jerárquico y destacan el valor de incorporar pasos de pensamiento estructurado para mejorar la calidad de la generación de textos extensos.
Los marcos existentes para evaluar modelos de lenguaje de contexto largo (LCLM) pueden clasificarse en tareas del mundo real y tareas sintéticas. A pesar de su utilidad, ambos enfoques presentan ciertas limitaciones intrínsecas. Las tareas del mundo real son demasiado complejas para interpretar o caracterizar y son susceptibles a la contaminación de datos. En contraste, las tareas sintéticas suelen adoptar el formato de "aguja en un pajar" (NIAH), donde la falta de coherencia entre la "aguja" y el "pajar" compromete su validez como sustitutos de aplicaciones realistas. En respuesta a estos desafíos, proponemos que un marco ideal de evaluación de contexto largo debería caracterizarse por tres características esenciales: contexto fluido, configuración controlable y evaluación sólida. Este estudio presenta LongBioBench, un nuevo punto de referencia que utiliza biografías generadas artificialmente como un entorno controlado para evaluar LCLM en dimensiones de comprensión, razonamiento y confiabilidad. Nuestra evaluación experimental, que incluye un total de 18 LCLM, demuestra que la mayoría de los modelos aún presentan deficiencias en la comprensión semántica y el razonamiento básico sobre los resultados recuperados, y son menos confiables a medida que aumenta la longitud del contexto. Nuestro análisis adicional indica que algunas decisiones de diseño empleadas por los puntos de referencia sintéticos existentes, como la no coherencia contextual, agujas numéricas y la ausencia de distractores, los hacen vulnerables para probar las capacidades de contexto largo del modelo. Además, también revelamos que el preentrenamiento continuo de contexto largo ajusta principalmente la incrustación RoPE para acomodar longitudes de contexto extendidas. En resumen, en comparación con los puntos de referencia sintéticos anteriores, LongBioBench logra un mejor equilibrio entre reflejar tareas de lenguaje auténticas y mantener la controlabilidad, y es altamente interpretable y configurable.
La estructura secuencial de los videos plantea un desafío para la capacidad de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) para localizar evidencia en múltiples cuadros y realizar razonamiento multimodal. Sin embargo, los benchmarks de video existentes se centran principalmente en tareas de comprensión, que solo requieren que los modelos emparejen los cuadros mencionados en la pregunta (en adelante denominados "cuadro de la pregunta") y perciban unos pocos cuadros adyacentes. Para abordar esta brecha, proponemos MMR-V: Un Benchmark para el Razonamiento Profundo Multimodal en Videos. Este benchmark se caracteriza por las siguientes características. (1) Razonamiento de largo alcance y múltiples cuadros: Se requiere que los modelos infieran y analicen cuadros de evidencia que pueden estar lejos del cuadro de la pregunta. (2) Más allá de la percepción: Las preguntas no pueden responderse únicamente mediante percepción directa, sino que requieren razonamiento sobre información oculta. (3) Fiabilidad: Todas las tareas están anotadas manualmente, haciendo referencia a una amplia comprensión del mundo real por parte de los usuarios para alinearse con percepciones comunes. (4) Confusabilidad: Estrategias de anotación de distractores cuidadosamente diseñadas para reducir los atajos del modelo. MMR-V consta de 317 videos y 1,257 tareas. Nuestros experimentos revelan que los modelos actuales aún tienen dificultades con el razonamiento multimodal; incluso el modelo con mejor rendimiento, o4-mini, alcanza solo un 52.5% de precisión. Además, las estrategias actuales de mejora del razonamiento (Chain-of-Thought y escalado del cómputo en tiempo de prueba) aportan ganancias limitadas. Un análisis más detallado indica que el CoT requerido para el razonamiento multimodal difiere del utilizado en el razonamiento textual, lo que explica en parte las limitadas mejoras en el rendimiento. Esperamos que MMR-V pueda inspirar más investigaciones para mejorar las capacidades de razonamiento multimodal.
El desarrollo de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) depende de una evaluación confiable. Sin embargo, la mayoría de las evaluaciones actuales se basan en benchmarks públicos, los cuales son propensos a problemas de contaminación de datos que comprometen significativamente la equidad. Investigaciones previas se han centrado en la construcción de benchmarks dinámicos para abordar la contaminación. No obstante, la creación continua de nuevos benchmarks es costosa y cíclica. En este trabajo, buscamos abordar la contaminación analizando los mecanismos de los modelos contaminados mismos. A través de nuestros experimentos, descubrimos que la sobreestimación de los modelos contaminados probablemente se debe a que los parámetros adquieren soluciones de atajo durante el entrenamiento. Además, proponemos un método novedoso para identificar neuronas de atajo mediante análisis comparativo y causal. Basándonos en esto, introducimos un método de evaluación llamado "parcheo de neuronas de atajo" para suprimir estas neuronas. Los experimentos validan la efectividad de nuestro enfoque para mitigar la contaminación. Adicionalmente, nuestros resultados de evaluación muestran una fuerte correlación lineal con MixEval, un benchmark confiable recientemente lanzado, alcanzando un coeficiente de Spearman (rho) superior a 0.95. Esta alta correlación indica que nuestro método revela de manera cercana las capacidades reales de los modelos y es confiable. Realizamos más experimentos para demostrar la generalizabilidad de nuestro método en diversos benchmarks y configuraciones de hiperparámetros. Código: https://github.com/GaryStack/Trustworthy-Evaluation.
Aplicaciones del mundo real como los videojuegos y la realidad virtual a menudo requieren la capacidad de modelar escenas 3D que los usuarios puedan explorar a lo largo de trayectorias de cámara personalizadas. Aunque se ha logrado un progreso significativo en la generación de objetos 3D a partir de texto o imágenes, la creación de escenas 3D explorables, consistentes a largo alcance y en 3D sigue siendo un problema complejo y desafiante. En este trabajo, presentamos Voyager, un novedoso marco de difusión de video que genera secuencias de nubes de puntos 3D consistentes con el mundo a partir de una sola imagen con una trayectoria de cámara definida por el usuario. A diferencia de los enfoques existentes, Voyager logra la generación y reconstrucción de escenas de extremo a extremo con consistencia inherente entre fotogramas, eliminando la necesidad de pipelines de reconstrucción 3D (por ejemplo, estructura a partir del movimiento o estéreo multivista). Nuestro método integra tres componentes clave: 1) Difusión de Video Consistente con el Mundo: Una arquitectura unificada que genera conjuntamente secuencias de video RGB y de profundidad alineadas, condicionadas por la observación del mundo existente para garantizar coherencia global. 2) Exploración del Mundo a Largo Alcance: Un caché de mundo eficiente con eliminación de puntos y una inferencia autorregresiva con muestreo suave de video para la extensión iterativa de la escena con consistencia consciente del contexto. 3) Motor de Datos Escalable: Un pipeline de reconstrucción de video que automatiza la estimación de la pose de la cámara y la predicción de profundidad métrica para videos arbitrarios, permitiendo la curación de datos de entrenamiento diversos y a gran escala sin anotaciones 3D manuales. En conjunto, estos diseños resultan en una mejora clara sobre los métodos existentes en calidad visual y precisión geométrica, con aplicaciones versátiles.
Si bien los modelos de difusión han logrado un éxito notable en la generación de imágenes a partir de texto, enfrentan desafíos significativos en la edición de imágenes guiada por instrucciones. Nuestra investigación destaca un desafío clave: estos modelos tienen dificultades particulares con ediciones estructuralmente inconsistentes que implican cambios sustanciales en el diseño. Para mitigar esta brecha, presentamos Image Editing As Programs (IEAP), un marco unificado de edición de imágenes basado en la arquitectura Diffusion Transformer (DiT). En esencia, IEAP aborda la edición instructiva desde una perspectiva reduccionista, descomponiendo instrucciones de edición complejas en secuencias de operaciones atómicas. Cada operación se implementa mediante un adaptador ligero que comparte el mismo núcleo DiT y está especializado para un tipo específico de edición. Programadas por un agente basado en un modelo de visión y lenguaje (VLM), estas operaciones colaboran para respaldar transformaciones arbitrarias y estructuralmente inconsistentes. Al modularizar y secuenciar las ediciones de esta manera, IEAP generaliza de manera robusta en una amplia gama de tareas de edición, desde ajustes simples hasta cambios estructurales sustanciales. Experimentos extensos demuestran que IEAP supera significativamente a los métodos más avanzados en puntos de referencia estándar en diversos escenarios de edición. En estas evaluaciones, nuestro marco ofrece una precisión y fidelidad semántica superiores, especialmente para instrucciones complejas y de múltiples pasos. Los códigos están disponibles en https://github.com/YujiaHu1109/IEAP.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo enfrentan dificultades en tareas de visualización, como la creación de diagramas y gráficos, donde el éxito depende tanto de la corrección del código como de la semántica visual. Los conjuntos de datos existentes para ajuste por instrucciones carecen de supervisión basada en la ejecución y ofrecen un soporte limitado para la corrección iterativa del código, lo que resulta en una generación de gráficos frágil y poco confiable. Presentamos VisCode-200K, un conjunto de datos de gran escala para el ajuste por instrucciones en visualización basada en Python y autocorrección. Contiene más de 200K ejemplos provenientes de dos fuentes: (1) código de trazado validado de repositorios de código abierto, emparejado con instrucciones en lenguaje natural y gráficos renderizados; y (2) 45K diálogos de corrección multiturno de Code-Feedback, que permiten a los modelos revisar código defectuoso utilizando retroalimentación en tiempo de ejecución. Ajustamos Qwen2.5-Coder-Instruct en VisCode-200K para crear VisCoder y lo evaluamos en PandasPlotBench. VisCoder supera significativamente a los modelos de código abierto de referencia y se acerca al rendimiento de modelos propietarios como GPT-4o-mini. Además, adoptamos un protocolo de autoevaluación de depuración para evaluar la reparación iterativa, demostrando los beneficios del aprendizaje basado en retroalimentación para la generación de código ejecutable y visualmente preciso.
Aunque los modelos basados en difusión pueden generar secuencias de video de alta calidad y alta resolución a partir de entradas textuales o de imágenes, carecen de una integración explícita de señales geométricas al controlar la iluminación de la escena y la apariencia visual entre fotogramas. Para abordar esta limitación, proponemos IllumiCraft, un marco de difusión de extremo a extremo que acepta tres entradas complementarias: (1) mapas de video de alto rango dinámico (HDR) para un control detallado de la iluminación; (2) fotogramas sintéticamente reiluminados con cambios aleatorios en la iluminación (opcionalmente emparejados con una imagen de referencia de fondo estática) para proporcionar señales de apariencia; y (3) pistas de puntos 3D que capturan información precisa de la geometría 3D. Al integrar las señales de iluminación, apariencia y geometría dentro de una arquitectura de difusión unificada, IllumiCraft genera videos temporalmente coherentes alineados con indicaciones definidas por el usuario. Admite reiluminación de video condicionada al fondo y al texto, y ofrece una mejor fidelidad que los métodos existentes de generación de video controlable. Página del proyecto: https://yuanze-lin.me/IllumiCraft_page
Hemos observado que modelos de lenguaje grandes (LLM) potentes como Qwen-Math, MiMo y Phi-4 poseen un inmenso potencial de razonamiento heredado de la etapa de preentrenamiento. Con el aprendizaje por refuerzo (RL), estos modelos pueden mejorar drásticamente en tareas de razonamiento. Estudios recientes han demostrado que incluso el RL aplicado a un solo problema puede liberar las capacidades de razonamiento de estos modelos. Sin embargo, el RL no solo es costoso, sino también inestable. Incluso el RL de un solo intento requiere cientos de horas de GPU. Esto plantea una pregunta crítica: ¿Existe una forma más eficiente de liberar el potencial de razonamiento de estos LLM base tan potentes? En este trabajo, demostramos que el Ajuste Fino con Críticas (CFT, por sus siglas en inglés) aplicado a un solo problema puede liberar efectivamente el potencial de razonamiento de los LLM. Nuestro método construye datos de crítica recopilando diversas soluciones generadas por el modelo para un único problema y utilizando LLM docentes para proporcionar críticas detalladas. Ajustamos finamente modelos de las familias Qwen y Llama, que van desde 1.5B hasta 14B parámetros, con los datos de CFT y observamos mejoras significativas en diversas tareas de razonamiento. Por ejemplo, con solo 5 horas de entrenamiento en GPU, Qwen-Math-7B-CFT muestra una mejora promedio del 15% en seis benchmarks de matemáticas y del 16% en tres benchmarks de razonamiento lógico. Estos resultados son comparables o incluso superan a los obtenidos con RL, utilizando 20 veces menos recursos computacionales. Los estudios de ablación revelan la robustez del CFT de un solo intento en diferentes problemas de prompt. Estos resultados destacan al CFT de un solo intento como un enfoque simple, general y eficiente en términos de computación para liberar las capacidades de razonamiento de los LLM modernos.
Presentamos Psi-Sampler, un marco basado en SMC que incorpora muestreo inicial de partículas basado en pCNL para una alineación efectiva de recompensas en tiempo de inferencia con un modelo generativo basado en puntuaciones. La alineación de recompensas en tiempo de inferencia con modelos generativos basados en puntuaciones ha ganado recientemente un importante impulso, siguiendo un cambio de paradigma más amplio desde la optimización previa al entrenamiento hacia la optimización posterior al entrenamiento. En el núcleo de esta tendencia se encuentra la aplicación de Monte Carlo Secuencial (SMC) al proceso de eliminación de ruido. Sin embargo, los métodos existentes suelen inicializar las partículas desde una distribución gaussiana previa, lo que no captura adecuadamente las regiones relevantes para la recompensa y resulta en una eficiencia de muestreo reducida. Demostramos que inicializar desde la posterior consciente de la recompensa mejora significativamente el rendimiento de la alineación. Para permitir el muestreo posterior en espacios latentes de alta dimensionalidad, introducimos el algoritmo de Langevin Crank-Nicolson precondicionado (pCNL), que combina propuestas robustas en dimensión con dinámicas informadas por gradientes. Este enfoque permite un muestreo posterior eficiente y escalable y mejora consistentemente el rendimiento en diversas tareas de alineación de recompensas, incluyendo generación de imágenes a partir de diseños, generación consciente de cantidades y generación basada en preferencias estéticas, como se demuestra en nuestros experimentos.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y los LLMs Multimodales han demostrado capacidades prometedoras para el procesamiento de gráficos vectoriales escalables (SVG), aunque los puntos de referencia existentes adolecen de una cobertura limitada del mundo real, falta de estratificación de complejidad y paradigmas de evaluación fragmentados. Presentamos SVGenius, un punto de referencia integral que comprende 2,377 consultas en tres dimensiones progresivas: comprensión, edición y generación. Construido sobre datos del mundo real de 24 dominios de aplicación con una estratificación sistemática de complejidad, SVGenius evalúa los modelos a través de 8 categorías de tareas y 18 métricas. Evaluamos 22 modelos principales que abarcan diferentes escalas, arquitecturas, paradigmas de entrenamiento y niveles de accesibilidad. Nuestro análisis revela que, aunque los modelos propietarios superan significativamente a sus contrapartes de código abierto, todos los modelos muestran una degradación sistemática del rendimiento con el aumento de la complejidad, lo que indica limitaciones fundamentales en los enfoques actuales; sin embargo, el entrenamiento mejorado con razonamiento resulta más efectivo que el simple escalado para superar estas limitaciones, aunque la transferencia de estilo sigue siendo la capacidad más desafiante en todos los tipos de modelos. SVGenius establece el primer marco de evaluación sistemática para el procesamiento de SVG, proporcionando insights cruciales para desarrollar modelos de gráficos vectoriales más capaces y avanzar en las aplicaciones de diseño gráfico automatizado. El apéndice y los materiales complementarios (incluyendo todos los datos y el código) están disponibles en https://zju-real.github.io/SVGenius.
Presentamos LayerFlow, una solución unificada para la generación de videos consciente de capas. Dados indicaciones por capa, LayerFlow genera videos para el primer plano transparente, el fondo limpio y la escena combinada. También admite variantes versátiles, como descomponer un video combinado o generar el fondo para un primer plano dado y viceversa. Partiendo de un transformador de difusión de texto a video, organizamos los videos para diferentes capas como subclips y aprovechamos incrustaciones de capas para distinguir cada clip y las indicaciones correspondientes por capa. De esta manera, admitimos sin problemas las variantes mencionadas en un marco unificado. Ante la falta de videos de entrenamiento de alta calidad por capas, diseñamos una estrategia de entrenamiento en múltiples etapas para adaptarnos a imágenes estáticas con anotaciones de capas de alta calidad. Específicamente, primero entrenamos el modelo con datos de video de baja calidad. Luego, ajustamos un LoRA de movimiento para que el modelo sea compatible con fotogramas estáticos. Posteriormente, entrenamos el LoRA de contenido en una mezcla de datos de imagen con imágenes en capas de alta calidad junto con datos de video copiados y pegados. Durante la inferencia, eliminamos el LoRA de movimiento, generando así videos fluidos con las capas deseadas.
La Optimización Directa de Preferencias (DPO, por sus siglas en inglés) se ha aplicado recientemente como una técnica posterior al entrenamiento para modelos de difusión de texto a video. Para obtener datos de entrenamiento, se solicita a los anotadores que proporcionen preferencias entre dos videos generados a partir de ruido independiente. Sin embargo, este enfoque impide comparaciones detalladas y señalamos que sesga a los anotadores hacia clips con poco movimiento, ya que estos suelen contener menos artefactos visuales. En este trabajo, presentamos DenseDPO, un método que aborda estas limitaciones mediante tres contribuciones. Primero, creamos cada par de videos para DPO descomponiendo copias corrompidas de un video de referencia. Esto resulta en pares alineados con estructuras de movimiento similares pero que difieren en detalles locales, neutralizando efectivamente el sesgo de movimiento. Segundo, aprovechamos la alineación temporal resultante para etiquetar preferencias en segmentos cortos en lugar de clips completos, obteniendo una señal de aprendizaje más densa y precisa. Con solo un tercio de los datos etiquetados, DenseDPO mejora significativamente la generación de movimiento en comparación con DPO convencional, mientras que iguala su alineación de texto, calidad visual y consistencia temporal. Finalmente, demostramos que DenseDPO permite la anotación automática de preferencias utilizando modelos de lenguaje visual (VLMs) disponibles: GPT predice con precisión las preferencias a nivel de segmento de manera similar a los modelos de recompensa de video ajustados específicamente para la tarea, y DenseDPO entrenado con estas etiquetas alcanza un rendimiento cercano al uso de etiquetas humanas.
Recientemente, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en dominios relacionados con el coeficiente intelectual (IQ) que requieren un pensamiento cuidadoso, como las matemáticas y la programación. Sin embargo, mejorar el desarrollo cognitivo de los LLMs en dominios sociales, particularmente desde una perspectiva posterior al entrenamiento, sigue siendo un área poco explorada. Reconociendo que el mundo social sigue una línea de tiempo distinta y requiere una combinación más rica de modos cognitivos (desde reacciones intuitivas (Sistema 1) y pensamiento superficial hasta el pensamiento deliberado (Sistema 2)) en comparación con las matemáticas, que dependen principalmente de la cognición del Sistema 2 (razonamiento cuidadoso y paso a paso), presentamos el Aprendizaje por Refuerzo Cognitivo Jerárquico con Conciencia Temporal (TimeHC-RL) para mejorar la inteligencia social de los LLMs. En nuestros experimentos, exploramos sistemáticamente la mejora de la inteligencia social de los LLMs y validamos la efectividad del método TimeHC-RL, a través de otros cinco paradigmas de post-entrenamiento y dos paradigmas de intervención en tiempo de prueba, utilizando ocho conjuntos de datos con diversos patrones de datos. Los resultados experimentales revelan la superioridad de nuestro método propuesto TimeHC-RL en comparación con el ampliamente adoptado método de Aprendizaje por Refuerzo del Sistema 2. Este método dota al modelo base de 7B de capacidades adicionales, permitiéndole rivalizar con el rendimiento de modelos avanzados como DeepSeek-R1 y OpenAI-O3. Además, la exploración sistemática desde las perspectivas de post-entrenamiento e intervenciones en tiempo de prueba para mejorar la inteligencia social de los LLMs ha revelado varias ideas valiosas.
La generación eficiente de secuencias largas es un desafío crítico para los Modelos de Lenguaje a Gran Escala (LLM). Aunque los métodos recientes de decodificación dispersa mejoran la eficiencia, sufren de desalineación en la caché KV, donde los errores de aproximación se acumulan y degradan la calidad de la generación. En este trabajo, proponemos Atención Dispersa Rectificada (ReSA), un método simple pero efectivo que combina la atención dispersa en bloques con una rectificación densa periódica. Al actualizar la caché KV a intervalos fijos mediante un pase hacia adelante denso, ReSA limita la acumulación de errores y preserva la alineación con la distribución de preentrenamiento. Los experimentos en tareas de razonamiento matemático, modelado de lenguaje y recuperación demuestran que ReSA logra una calidad de generación casi sin pérdidas con una eficiencia significativamente mejorada. Notablemente, ReSA ofrece una aceleración de hasta 2.42 veces en el proceso de decodificación con secuencias de 256K de longitud, convirtiéndolo en una solución práctica para la inferencia escalable en contextos largos. El código está disponible en https://aka.ms/ReSA-LM.
Los agentes de Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) están transformando la industria de los videojuegos, especialmente con personajes más inteligentes y preferibles para los humanos. Sin embargo, los puntos de referencia existentes para juegos no satisfacen las necesidades prácticas: carecen de evaluaciones de las diversas capacidades de los LLM en distintos géneros de juegos, estudios de módulos agentes cruciales para jugabilidad compleja y conjuntos de datos de ajuste fino para alinear LLM preentrenados en agentes de juegos. Para llenar estos vacíos, presentamos \benchname{}, un punto de referencia fundamental diseñado para entrenar y evaluar agentes LLM en diversos videojuegos del mundo real. A diferencia de los puntos de referencia existentes, Orak incluye 12 videojuegos populares que abarcan todos los géneros principales, permitiendo estudios exhaustivos de las capacidades de los LLM y los módulos agentes esenciales para escenarios de juego intrincados. Para apoyar una evaluación consistente de los LLM, introducimos una interfaz plug-and-play basada en el Protocolo de Contexto del Modelo (MCP, por sus siglas en inglés) que permite a los LLM conectarse sin problemas con los juegos y manipular módulos agentes. Además, proponemos un conjunto de datos de ajuste fino, que consiste en trayectorias de juego de LLM en diversos géneros de juegos. Orak ofrece un marco de evaluación integral, que incluye tablas de clasificación de puntuación general de juegos, arenas de batalla de LLM y análisis en profundidad del estado de entrada visual, estrategias agentes y efectos de ajuste fino, estableciendo una base hacia la construcción de agentes de juegos genéricos. El código está disponible en https://github.com/krafton-ai/Orak.
En este artículo, presentamos TalkingMachines: un marco eficiente que transforma modelos preentrenados de generación de video en animadores de personajes impulsados por audio en tiempo real. TalkingMachines permite experiencias conversacionales naturales al integrar un modelo de lenguaje grande (LLM) de audio con nuestro modelo base de generación de video. Nuestras principales contribuciones incluyen: (1) Adaptamos un modelo DiT de última generación (SOTA) de imagen a video en un modelo de generación de avatares impulsado por audio con 18 mil millones de parámetros; (2) Habilitamos la transmisión infinita de video sin acumulación de errores mediante la destilación asimétrica de conocimiento desde un modelo bidireccional maestro hacia un modelo estudiantil causal y autorregresivo disperso; (3) Diseñamos una canalización de inferencia de alto rendimiento y baja latencia que incorpora varias optimizaciones clave de ingeniería, tales como: (a) desagregación del DiT y el decodificador VAE en dispositivos separados, (b) superposición eficiente de la comunicación y el cálculo entre dispositivos utilizando CUDA streams, (c) eliminación de recomputaciones redundantes para maximizar el rendimiento en la generación de fotogramas. Consulte los videos de demostración aquí: https://aaxwaz.github.io/TalkingMachines/
Estudios recientes muestran que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) exhiben un sesgo de autopreferencia cuando actúan como jueces, lo que significa que tienden a favorecer sus propias respuestas sobre las generadas por otros modelos. Los métodos existentes suelen medir este sesgo calculando la diferencia entre las puntuaciones que un modelo juez asigna a sus propias respuestas y las que asigna a las respuestas de otros modelos. Sin embargo, este enfoque confunde el sesgo de autopreferencia con la calidad de las respuestas, ya que respuestas de mayor calidad del modelo juez también pueden llevar a diferencias positivas en las puntuaciones, incluso en ausencia de sesgo. Para abordar este problema, introducimos juicios de referencia (gold judgments) como sustitutos de la calidad real de las respuestas y proponemos la puntuación DBG, que mide el sesgo de autopreferencia como la diferencia entre las puntuaciones asignadas por el modelo juez a sus propias respuestas y los juicios de referencia correspondientes. Dado que los juicios de referencia reflejan la calidad verdadera de las respuestas, la puntuación DBG mitiga el efecto confuso de la calidad de las respuestas en la medición del sesgo. Utilizando la puntuación DBG, realizamos experimentos exhaustivos para evaluar el sesgo de autopreferencia en LLMs de diferentes versiones, tamaños y capacidades de razonamiento. Además, investigamos dos factores que influyen y ayudan a reducir el sesgo de autopreferencia: el estilo del texto de las respuestas y los datos de posentrenamiento de los modelos jueces. Finalmente, exploramos los posibles mecanismos subyacentes del sesgo de autopreferencia desde una perspectiva basada en la atención. Nuestro código y datos están disponibles en https://github.com/zhiyuanc2001/self-preference.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando, la necesidad de puntos de referencia actualizados y bien organizados se vuelve cada vez más crítica. Sin embargo, muchos conjuntos de datos existentes están dispersos, son difíciles de gestionar y complican la realización de evaluaciones adaptadas a necesidades o dominios específicos, a pesar de la creciente importancia de los modelos especializados en áreas como las matemáticas o la programación. En este artículo, presentamos BenchHub, un repositorio dinámico de puntos de referencia que permite a investigadores y desarrolladores evaluar los LLMs de manera más efectiva. BenchHub agrega y clasifica automáticamente conjuntos de datos de referencia de diversos dominios, integrando 303K preguntas en 38 puntos de referencia. Está diseñado para soportar actualizaciones continuas y una gestión de datos escalable, permitiendo evaluaciones flexibles y personalizadas adaptadas a diversos dominios o casos de uso. A través de experimentos exhaustivos con varias familias de LLMs, demostramos que el rendimiento de los modelos varía significativamente en subconjuntos específicos de dominios, destacando la importancia de los puntos de referencia conscientes del dominio. Creemos que BenchHub puede fomentar una mejor reutilización de conjuntos de datos, comparaciones de modelos más transparentes y una identificación más sencilla de áreas subrepresentadas en los puntos de referencia existentes, ofreciendo una infraestructura crítica para avanzar en la investigación de evaluación de LLMs.
Los recientes avances en inteligencia artificial generativa han transformado significativamente el campo de la síntesis de voz a partir de texto con subtítulos de estilo (CapTTS). Sin embargo, adaptar CapTTS a aplicaciones del mundo real sigue siendo un desafío debido a la falta de conjuntos de datos estandarizados y exhaustivos, así como a la investigación limitada sobre tareas posteriores basadas en CapTTS. Para abordar estas brechas, presentamos CapSpeech, un nuevo punto de referencia diseñado para una serie de tareas relacionadas con CapTTS, incluyendo la síntesis de voz a partir de texto con subtítulos de estilo y eventos sonoros (CapTTS-SE), TTS con subtítulos de acento (AccCapTTS), TTS con subtítulos de emoción (EmoCapTTS) y la síntesis de voz para agentes de chat (AgentTTS). CapSpeech comprende más de 10 millones de pares audio-subtítulo anotados automáticamente y cerca de 0.36 millones de pares audio-subtítulo anotados manualmente. Además, introducimos dos nuevos conjuntos de datos recopilados y grabados por un actor de voz profesional e ingenieros de audio experimentados, específicamente para las tareas de AgentTTS y CapTTS-SE. Junto con los conjuntos de datos, realizamos experimentos exhaustivos utilizando modelos tanto autorregresivos como no autorregresivos en CapSpeech. Nuestros resultados demuestran una síntesis de voz de alta fidelidad y gran inteligibilidad en una amplia gama de estilos de habla. Hasta donde sabemos, CapSpeech es el conjunto de datos más grande disponible que ofrece anotaciones exhaustivas para tareas relacionadas con CapTTS. Los experimentos y hallazgos proporcionan además valiosas perspectivas sobre los desafíos de desarrollar sistemas CapTTS.
Los modelos de difusión han motivado recientemente un gran éxito en muchas tareas de generación, como la eliminación de objetos. Sin embargo, los métodos existentes de descomposición de imágenes luchan por separar oclusiones de capas semitransparentes o transparentes debido a dependencias de máscaras previas, suposiciones estáticas sobre los objetos y la falta de conjuntos de datos. En este artículo, profundizamos en una nueva tarea: la Descomposición por Capas de Imágenes Compuestas con Alfa, cuyo objetivo es recuperar las capas constituyentes a partir de imágenes superpuestas únicas bajo la condición de oclusión no lineal de capas alfa semitransparentes/transparentes. Para abordar los desafíos de ambigüedad en las capas, generalización y escasez de datos, primero presentamos AlphaBlend, el primer conjunto de datos a gran escala y de alta calidad para la descomposición de capas transparentes y semitransparentes, que respalda seis subtareas del mundo real (por ejemplo, eliminación de destellos translúcidos, descomposición de células semitransparentes, descomposición de cristalería). Basándonos en este conjunto de datos, presentamos DiffDecompose, un marco basado en Transformers de difusión que aprende la distribución posterior sobre posibles descomposiciones de capas condicionadas por la imagen de entrada, indicaciones semánticas y el tipo de mezcla. En lugar de regresar directamente las máscaras alfa, DiffDecompose realiza una Descomposición en Contexto, permitiendo que el modelo prediga una o múltiples capas sin supervisión por capa, e introduce la Clonación de Codificación de Posición de Capas para mantener la correspondencia a nivel de píxel entre las capas. Experimentos exhaustivos en el conjunto de datos AlphaBlend propuesto y en el conjunto de datos público LOGO verifican la efectividad de DiffDecompose. El código y el conjunto de datos estarán disponibles tras la aceptación del artículo. Nuestro código estará disponible en: https://github.com/Wangzt1121/DiffDecompose.
La decodificación especulativa acelera la inferencia de los Modelos de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) al utilizar un modelo de borrador pequeño para predecir múltiples tokens y un modelo objetivo grande para verificar estos tokens en paralelo. Estudios recientes aprovechan el estado oculto del modelo objetivo para mejorar la precisión de las predicciones del modelo de borrador. Sin embargo, los métodos existentes sufren de una degradación en la calidad de las predicciones de tokens en posiciones posteriores, debido a la acumulación de errores en las características generadas por el modelo de borrador. En este artículo, proponemos Especialistas de Posición (PosS), que consisten en múltiples capas de borrador especializadas en posiciones para generar tokens en posiciones asignadas. Los especialistas de posición mejoran significativamente la tasa de aceptación de tokens en posiciones posteriores por ronda de borrador, ya que cada especialista solo necesita enfocarse en manejar un cierto nivel de desviación en las características del modelo de borrador. Los resultados experimentales en Llama-3-8B-Instruct y Llama-2-13B-chat en seis conjuntos de datos demuestran que PosS mejora efectivamente las líneas de base en la longitud promedio de aceptación y la relación de aceleración. Nuestro código está disponible en https://github.com/shrango/PosS.
Los avances recientes en el razonamiento de Cadena de Pensamiento (CoT, por sus siglas en inglés) han mejorado la comprensión compleja de videos, pero los métodos existentes a menudo tienen dificultades para adaptarse a habilidades específicas del dominio (por ejemplo, detección de eventos, comprensión de relaciones espaciales, comprensión de emociones) en diversos contenidos de video. Para abordar esto, proponemos Video-Skill-CoT (también conocido como Video-SKoT), un marco que construye y aprovecha automáticamente supervisiones de CoT conscientes de habilidades para el razonamiento adaptativo de video. Primero, construimos anotaciones de CoT basadas en habilidades: extraemos habilidades de razonamiento relevantes para el dominio a partir de preguntas de entrenamiento, las agrupamos en una taxonomía de habilidades compartida y creamos una justificación detallada de CoT en múltiples pasos adaptada a cada par video-pregunta para el entrenamiento. Segundo, introducimos un marco de aprendizaje experto específico para habilidades. Cada módulo experto se especializa en un subconjunto de habilidades de razonamiento y se entrena con adaptadores ligeros utilizando la supervisión de CoT recopilada. Demostramos la efectividad del enfoque propuesto en tres puntos de referencia de comprensión de video, donde Video-SKoT supera consistentemente a las líneas base sólidas. También proporcionamos análisis en profundidad sobre la comparación de diferentes pipelines de anotación de CoT y las habilidades aprendidas en múltiples dominios de video.
Los ataques de entrada adversaria pueden causar un cambio significativo en los embeddings de CLIP. Esto puede afectar la robustez de los modelos que incorporan CLIP en su flujo de trabajo, como los modelos generativos de texto a imagen o los grandes modelos de lenguaje visual. Aunque se han realizado algunos esfuerzos para robustecer los codificadores de imágenes de CLIP, la robustez de los codificadores de texto sigue sin explorarse. En este trabajo, abordamos esta brecha en la literatura. Proponemos LEAF: un método eficiente de ajuste fino adversario para el dominio del texto, con la capacidad de escalar a modelos CLIP grandes. Nuestros modelos mejoran significativamente la precisión adversaria de cero disparos en el dominio del texto, manteniendo el rendimiento visual proporcionado por los codificadores de imágenes robustos. Cuando se combinan con modelos de difusión de texto a imagen, podemos mejorar la calidad de la generación bajo ruido adversario. Al emplear nuestros codificadores CLIP robustos en tareas de recuperación multimodal, mejoramos la recuperación bajo ruido adversario en comparación con los modelos CLIP estándar. Finalmente, demostramos que los codificadores de texto robustos facilitan una mejor reconstrucción del texto de entrada a partir de su embedding mediante optimización directa.
Los recientes avances en el aprendizaje por refuerzo (RL) con retroalimentación numérica, como recompensas escalares, han mejorado significativamente las capacidades de razonamiento complejo de los modelos de lenguaje grandes (LLMs). A pesar de este éxito, identificamos tres desafíos clave que enfrenta el RL con retroalimentación únicamente numérica: mesetas de rendimiento, efectividad limitada de la autorreflexión y fallos persistentes. Luego demostramos que los modelos ajustados con RL, incluso después de exhibir mesetas de rendimiento, pueden generar refinamientos correctos en problemas con fallos persistentes al aprovechar la retroalimentación en lenguaje natural en forma de críticas. Basándonos en esta idea, proponemos Critique-GRPO, un marco de RL en línea que integra tanto la retroalimentación en lenguaje natural como la numérica para una optimización efectiva de políticas. Critique-GRPO permite que los LLMs aprendan de respuestas iniciales y refinamientos guiados por críticas simultáneamente, manteniendo la exploración. Experimentos extensivos utilizando Qwen2.5-7B-Base y Qwen3-8B-Base muestran que Critique-GRPO supera consistentemente los enfoques de ajuste fino basados en aprendizaje supervisado y RL en ocho tareas desafiantes de matemáticas, STEM y razonamiento general, mejorando los puntajes promedio de pass@1 en aproximadamente 4.5% y 5%, respectivamente. Notablemente, Critique-GRPO supera una línea base sólida que incorpora demostraciones expertas dentro del RL en línea. Un análisis adicional revela dos insights críticos sobre la exploración de políticas: (1) una entropía más alta no siempre garantiza un aprendizaje eficiente a partir de la exploración, y (2) respuestas más largas no necesariamente conducen a una exploración más efectiva.
Los grandes modelos fundamentales entrenados en conjuntos de datos extensos demuestran capacidades sólidas de zero-shot en diversos dominios. Para replicar su éxito cuando los datos y el tamaño del modelo están limitados, la destilación de conocimiento se ha convertido en una herramienta establecida para transferir conocimiento desde modelos fundamentales a redes estudiantiles pequeñas. Sin embargo, la efectividad de la destilación está críticamente limitada por los datos de entrenamiento disponibles. Este trabajo aborda el problema práctico común del cambio de covariables en la destilación de conocimiento, donde características espurias aparecen durante el entrenamiento pero no en el momento de la prueba. Nos planteamos la pregunta: cuando estas características espurias son desconocidas, pero se dispone de un profesor robusto, ¿es posible que un estudiante también se vuelva robusto frente a ellas? Abordamos este problema introduciendo una novedosa estrategia de aumento de datos basada en difusión que genera imágenes maximizando el desacuerdo entre el profesor y el estudiante, creando efectivamente muestras desafiantes con las que el estudiante tiene dificultades. Los experimentos demuestran que nuestro enfoque mejora significativamente la precisión del peor grupo y del grupo promedio en CelebA y SpuCo Birds, así como el mAUC espurio en ImageNet espurio bajo cambio de covariables, superando a los baselines de aumento de datos basados en difusión de última generación.
El Aprendizaje Continuo (AC) busca permitir que las redes neuronales adquieran nuevos conocimientos de manera incremental (plasticidad) mientras retienen los conocimientos existentes (estabilidad). Aunque los modelos preentrenados (MPTs) se han convertido en elementos clave en el AC, los enfoques predominantes congelan la estructura principal del MPT para preservar la estabilidad, lo que limita su plasticidad, especialmente cuando se enfrentan a brechas significativas de dominio en tareas incrementales. Por el contrario, ajustar secuencialmente todo el MPT conlleva el riesgo de olvido catastrófico del conocimiento generalizable, lo que expone un equilibrio crítico entre estabilidad y plasticidad. Para abordar este desafío, proponemos Adaptar MPTs antes del proceso central de AC (ACA), un marco novedoso que refina la estructura principal del MPT mediante una fase de adaptación plug-and-play antes de aprender cada nueva tarea con enfoques de AC existentes (por ejemplo, ajuste por indicaciones). ACA mejora la plasticidad al alinear los embeddings con sus prototipos de clase originales mientras los distancia de otros, lo que, tanto teórica como empíricamente, demuestra equilibrar la estabilidad y la plasticidad. Experimentos extensos muestran que ACA mejora significativamente el rendimiento del AC en diversos puntos de referencia y métodos integrados, ofreciendo una solución versátil para el AC basado en MPTs.
LLM-as-a-judge es un marco en el que un modelo de lenguaje grande (LLM) evalúa automáticamente la salida de otro LLM. Proponemos jueces cuantitativos basados en LLM, que alinean las puntuaciones de evaluación de jueces LLM existentes con las puntuaciones humanas en un dominio específico utilizando modelos de regresión. Estos modelos se entrenan para mejorar la puntuación del juez original utilizando la evaluación textual y la puntuación del juez. Presentamos cuatro jueces cuantitativos para diferentes tipos de retroalimentación absoluta y relativa, lo que demuestra la generalidad y versatilidad de nuestro marco. Nuestro marco es más eficiente computacionalmente que el ajuste fino supervisado y puede ser más eficiente estadísticamente cuando el feedback humano es limitado, lo cual es esperado en la mayoría de las aplicaciones de nuestro trabajo. Validamos estas afirmaciones empíricamente en cuatro conjuntos de datos utilizando dos jueces base. Nuestros experimentos muestran que los jueces cuantitativos pueden mejorar efectivamente el poder predictivo de los jueces existentes a través de modelado post-hoc.
A pesar de los recientes avances en inversión y edición de imágenes basada en instrucciones, los enfoques existentes destacan principalmente en la edición de objetos únicos y prominentes, pero enfrentan dificultades significativas cuando se aplican a escenas complejas que contienen múltiples entidades. Para cuantificar esta brecha, primero presentamos RefEdit-Bench, un riguroso punto de referencia del mundo real basado en RefCOCO, donde incluso los modelos base entrenados con millones de muestras obtienen un rendimiento deficiente. Para superar esta limitación, introducimos RefEdit, un modelo de edición basado en instrucciones entrenado en nuestra escalable pipeline de generación de datos sintéticos. Nuestro RefEdit, entrenado con solo 20,000 tripletas de edición, supera a los modelos base basados en Flux/SD3 entrenados con millones de datos. Evaluaciones exhaustivas en varios benchmarks demuestran que nuestro modelo no solo sobresale en tareas de expresiones referenciales, sino que también mejora el rendimiento en benchmarks tradicionales, logrando resultados de vanguardia comparables a métodos de código cerrado. Publicamos los datos y el checkpoint para garantizar la reproducibilidad.
Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) son frecuentemente elogiados por exhibir un rendimiento cercano al humano en una amplia gama de tareas y valorados por su capacidad para mantener conversaciones generales. Sin embargo, el auge de los sistemas de IA agentes está dando lugar a una gran cantidad de aplicaciones en las que los modelos de lenguaje realizan un número reducido de tareas especializadas de manera repetitiva y con poca variación. Aquí presentamos la postura de que los modelos de lenguaje pequeños (SLMs, por sus siglas en inglés) son lo suficientemente potentes, inherentemente más adecuados y necesariamente más económicos para muchas invocaciones en sistemas agentes, y por lo tanto, representan el futuro de la IA agente. Nuestra argumentación se basa en el nivel actual de capacidades exhibido por los SLMs, las arquitecturas comunes de los sistemas agentes y la economía del despliegue de modelos de lenguaje. Además, argumentamos que en situaciones donde las habilidades conversacionales de propósito general son esenciales, los sistemas agentes heterogéneos (es decir, agentes que invocan múltiples modelos diferentes) son la elección natural. Discutimos los posibles obstáculos para la adopción de SLMs en sistemas agentes y delineamos un algoritmo general de conversión de agentes de LLM a SLM. Nuestra postura, formulada como una declaración de valor, destaca la importancia del impacto operativo y económico que incluso un cambio parcial de LLMs a SLMs tendría en la industria de agentes de IA. Nuestro objetivo es estimular la discusión sobre el uso efectivo de los recursos de IA y esperamos avanzar en los esfuerzos para reducir los costos de la IA actual. Invitando tanto a contribuciones como a críticas de nuestra postura, nos comprometemos a publicar toda correspondencia en https://research.nvidia.com/labs/lpr/slm-agents.
Los diagramas de flujo son una herramienta fundamental para visualizar procesos de toma de decisiones. Sin embargo, su estructura no lineal y las complejas relaciones visual-textuales dificultan su interpretación mediante modelos de lenguaje grandes (LLMs), ya que los modelos de visión-lenguaje suelen alucinar conexiones y rutas de decisión inexistentes al analizar estos diagramas. Esto compromete la fiabilidad del procesamiento automatizado de diagramas de flujo en dominios críticos como logística, salud e ingeniería. Introducimos la tarea de Atribución de Diagramas de Flujo de Grano Fino, que rastrea componentes específicos que fundamentan una respuesta de un LLM referente a un diagrama de flujo. La Atribución de Diagramas de Flujo garantiza la verificabilidad de las predicciones de los LLMs y mejora la explicabilidad al vincular las respuestas generadas con la estructura del diagrama. Proponemos FlowPathAgent, un agente neurosimbólico que realiza atribuciones de grano fino post hoc mediante razonamiento basado en grafos. Primero segmenta el diagrama de flujo, luego lo convierte en un grafo simbólico estructurado y, finalmente, emplea un enfoque agéntico para interactuar dinámicamente con el grafo y generar rutas de atribución. Además, presentamos FlowExplainBench, un nuevo punto de referencia para evaluar atribuciones de diagramas de flujo en diversos estilos, dominios y tipos de preguntas. Los resultados experimentales muestran que FlowPathAgent mitiga las alucinaciones visuales en las respuestas de los LLMs sobre preguntas y respuestas de diagramas de flujo, superando a los baselines fuertes en un 10-14% en nuestro conjunto de datos FlowExplainBench propuesto.
La poda (pruning) ha sido ampliamente adoptada recientemente para reducir la escala de parámetros y mejorar la eficiencia en la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Las técnicas de poda más comunes suelen basarse en estrategias uniformes por capas, lo que puede provocar una degradación severa del rendimiento en niveles altos de dispersión (sparsity). Reconociendo las contribuciones variables de las diferentes capas en los LLMs, estudios recientes han centrado su atención en la poda no uniforme por capas. Sin embargo, estos enfoques suelen depender de valores predefinidos, lo que puede resultar en un rendimiento subóptimo. Para superar estas limitaciones, proponemos un método novedoso llamado Poda Dinámica por Capas (Dynamic Layerwise Pruning, DLP). Este enfoque determina de manera adaptativa la importancia relativa de cada capa al integrar los pesos del modelo con la información de activación de las entradas, asignando tasas de poda en consecuencia. Los resultados experimentales muestran que DLP preserva eficazmente el rendimiento del modelo en niveles altos de dispersión en múltiples LLMs. Específicamente, con un 70% de dispersión, DLP reduce la perplejidad de LLaMA2-7B en 7,79 y mejora la precisión promedio en un 2,7% en comparación con los métodos más avanzados. Además, DLP es compatible con diversas técnicas de compresión de LLMs existentes y puede integrarse sin problemas en el Ajuste Fino Eficiente en Parámetros (Parameter-Efficient Fine-Tuning, PEFT). Publicamos el código en https://github.com/ironartisan/DLP para facilitar investigaciones futuras.
Los recientes puntos de referencia para la comprensión de videos de larga duración han impulsado avances en los modelos multimodales de gran escala para video (Video-LMMs). Sin embargo, la escasez de videos largos bien anotados ha dejado poco explorado el entrenamiento de Video-LLMs de una hora de duración. Para cerrar esta brecha, presentamos VideoMarathon, un conjunto de datos a gran escala de instrucciones para videos de una hora. Este conjunto de datos incluye alrededor de 9,700 horas de videos largos obtenidos de diversos dominios, con duraciones que van de 3 a 60 minutos por video. Específicamente, contiene 3.3 millones de pares de preguntas y respuestas de alta calidad, abarcando seis temas fundamentales: temporalidad, espacialidad, objeto, acción, escena y evento. En comparación con los conjuntos de datos de instrucción de video existentes, VideoMarathon extiende significativamente las duraciones de los videos de entrenamiento hasta una hora y admite 22 tareas diversas que requieren comprensión de video tanto a corto como a largo plazo. Basándonos en VideoMarathon, proponemos Hour-LLaVA, un Video-LMM potente y eficiente para el modelado de lenguaje-video a escala de una hora. Permite el entrenamiento y la inferencia de videos de una hora con un muestreo de 1-FPS al aprovechar un módulo de aumento de memoria, que integra de manera adaptativa semánticas relevantes para la pregunta del usuario e informativas espacio-temporales a partir de un contexto completo de video almacenado en caché. En nuestros experimentos, Hour-LLaVA logra el mejor rendimiento en múltiples puntos de referencia de lenguaje-video de larga duración, demostrando la alta calidad del conjunto de datos VideoMarathon y la superioridad del modelo Hour-LLaVA.
Los sistemas de IA agentes, construidos sobre modelos de lenguaje grandes (LLMs) y desplegados en configuraciones multiagente, están redefiniendo la autonomía inteligente, la colaboración y la toma de decisiones en dominios empresariales y sociales. Esta revisión presenta un análisis estructurado de la Gestión de Confianza, Riesgo y Seguridad (TRiSM, por sus siglas en inglés) en el contexto de sistemas multiagente basados en LLMs (AMAS). Comenzamos examinando los fundamentos conceptuales de la IA agente, sus diferencias arquitectónicas con respecto a los agentes de IA tradicionales y los diseños de sistemas emergentes que permiten una autonomía escalable y el uso de herramientas. Luego, se detalla el TRiSM en el marco de la IA agente a través de cuatro pilares: gobernanza, explicabilidad, ModelOps y privacidad/seguridad, cada uno contextualizado para LLMs agentes. Identificamos vectores de amenaza únicos e introducimos una taxonomía integral de riesgos para las aplicaciones de IA agente, respaldada por estudios de caso que ilustran vulnerabilidades del mundo real. Además, el artículo también examina mecanismos de construcción de confianza, técnicas de transparencia y supervisión, y estrategias de explicabilidad de vanguardia en sistemas distribuidos de agentes LLM. Asimismo, se revisan métricas para evaluar la confianza, la interpretabilidad y el rendimiento centrado en el ser humano, junto con los desafíos abiertos en la evaluación comparativa. La seguridad y la privacidad se abordan mediante cifrado, defensa contra adversarios y cumplimiento con las regulaciones de IA en evolución. El artículo concluye con una hoja de ruta para una IA agente responsable, proponiendo direcciones de investigación para alinear los sistemas multiagente emergentes con principios robustos de TRiSM para un despliegue seguro, responsable y transparente.
El descubrimiento de materiales superconductores de alta temperatura tiene una gran importancia para la industria y la vida cotidiana humana. En los últimos años, la investigación sobre la predicción de temperaturas de transición superconductora utilizando inteligencia artificial (IA) ha ganado popularidad, y la mayoría de estas herramientas afirman alcanzar una precisión notable. Sin embargo, la falta de conjuntos de datos de referencia ampliamente aceptados en este campo ha obstaculizado gravemente las comparaciones justas entre diferentes algoritmos de IA y ha impedido el avance de estos métodos. En este trabajo, presentamos el HTSC-2025, un conjunto de datos de referencia de superconductores de alta temperatura a presión ambiente. Esta compilación integral abarca materiales superconductores predichos teóricamente por físicos teóricos entre 2023 y 2025 basados en la teoría de superconductividad BCS, incluyendo el famoso sistema X_2YH_6, el sistema de perovskita MXH_3, el sistema M_3XH_8, sistemas atómicos metálicos dopados con BCN de estructura tipo jaula derivados de la evolución estructural de LaH_{10}, y sistemas bidimensionales de estructura hexagonal derivados de MgB_2. El conjunto de referencia HTSC-2025 ha sido publicado en código abierto en https://github.com/xqh19970407/HTSC-2025 y se actualizará continuamente. Este conjunto de referencia tiene una importancia significativa para acelerar el descubrimiento de materiales superconductores utilizando métodos basados en IA.
Mejorar las capacidades de razonamiento de los modelos de lenguaje de gran escala utilizando de manera efectiva el aprendizaje por refuerzo (RL) sigue siendo un desafío crucial. Los enfoques existentes adoptan principalmente dos granularidades de estimación de ventajas contrastantes: los métodos a nivel de token (por ejemplo, PPO) buscan proporcionar señales de ventaja detalladas, pero sufren de estimaciones imprecisas debido a las dificultades en entrenar un modelo crítico preciso. En el otro extremo, los métodos a nivel de trayectoria (por ejemplo, GRPO) dependen únicamente de una señal de ventaja de grano grueso proveniente de la recompensa final, lo que lleva a una asignación de crédito imprecisa. Para abordar estas limitaciones, proponemos Segment Policy Optimization (SPO), un novedoso marco de RL que aprovecha la estimación de ventajas a nivel de segmento en una granularidad intermedia, logrando un mejor equilibrio al ofrecer una asignación de crédito más precisa que los métodos a nivel de trayectoria y requiriendo menos puntos de estimación que los métodos a nivel de token, permitiendo una estimación precisa de la ventaja basada en Monte Carlo (MC) sin un modelo crítico. SPO cuenta con tres componentes con estrategias novedosas: (1) partición flexible de segmentos; (2) estimación precisa de la ventaja del segmento; y (3) optimización de políticas utilizando ventajas de segmento, incluyendo una novedosa estrategia de máscara de probabilidad. Además, instanciamos SPO para dos escenarios específicos: (1) SPO-chain para cadenas de pensamiento (CoT) cortas, que presenta una partición basada en puntos de corte y una estimación de ventaja basada en cadenas, logrando mejoras de 6 a 12 puntos porcentuales en precisión sobre PPO y GRPO en GSM8K. (2) SPO-tree para CoT largas, que presenta una estimación de ventaja basada en árboles, lo que reduce significativamente el costo de la estimación MC, logrando mejoras de 7 a 11 puntos porcentuales sobre GRPO en MATH500 bajo evaluaciones de contexto de 2K y 4K. Hacemos nuestro código públicamente disponible en https://github.com/AIFrameResearch/SPO.
La referencia a objetos tiene como objetivo detectar todos los objetos en una imagen que coincidan con una descripción en lenguaje natural. Argumentamos que un modelo robusto de referencia a objetos debe estar fundamentado, lo que significa que sus predicciones deben ser tanto explicables como fieles al contenido visual. Específicamente, debería satisfacer dos propiedades clave: 1) Verificable, al producir un razonamiento interpretable que justifique sus predicciones y las vincule claramente con la evidencia visual; y 2) Confiable, al aprender a abstenerse cuando ningún objeto en la imagen satisface la expresión dada. Sin embargo, la mayoría de los métodos tratan la referencia como una tarea directa de predicción de cuadros delimitadores, ofreciendo una interpretabilidad limitada y dificultades para rechazar expresiones sin un objeto coincidente. En este trabajo, proponemos Rex-Thinker, un modelo que formula la referencia a objetos como una tarea explícita de razonamiento CoT (Chain-of-Thought). Dada una expresión de referencia, primero identificamos todas las instancias de objetos candidatos correspondientes a la categoría del objeto referido. Luego, Rex-Thinker realiza un razonamiento paso a paso sobre cada candidato para evaluar si coincide con la expresión dada, antes de hacer una predicción final. Para apoyar este paradigma, construimos un conjunto de datos a gran escala de referencia estilo CoT llamado HumanRef-CoT, utilizando GPT-4o sobre el conjunto de datos HumanRef. Cada traza de razonamiento sigue un formato estructurado de planificación, acción y resumen, permitiendo que el modelo aprenda un razonamiento descompuesto e interpretable sobre los candidatos de objetos. Entrenamos Rex-Thinker en dos etapas: una fase de ajuste fino supervisado de arranque en frío para enseñar al modelo cómo realizar un razonamiento estructurado, seguida de un aprendizaje por refuerzo basado en GRPO para mejorar la precisión y la generalización. Los experimentos muestran que nuestro enfoque supera a los baselines estándar tanto en precisión como en interpretabilidad en la evaluación dentro del dominio, mientras que también demuestra una capacidad mejorada para rechazar salidas alucinadas y una fuerte generalización en entornos fuera del dominio.
La búsqueda del Aprendizaje Continuo (CL, por sus siglas en inglés) tiene como objetivo dotar a las redes neuronales de la capacidad de aprender y adaptarse de manera incremental. Central en este esfuerzo es abordar el dilema estabilidad-plasticidad, que implica encontrar un equilibrio entre dos objetivos conflictivos: preservar el conocimiento previamente aprendido y adquirir nuevo conocimiento. Si bien numerosos métodos de CL buscan lograr este equilibrio, a menudo pasan por alto el impacto de la arquitectura de la red en la estabilidad y la plasticidad, limitando el equilibrio al nivel de los parámetros. En este artículo, profundizamos en el conflicto entre estabilidad y plasticidad a nivel arquitectónico. Revelamos que, bajo una restricción de parámetros igual, las redes más profundas exhiben una mayor plasticidad, mientras que las redes más anchas se caracterizan por una estabilidad superior. Para abordar este dilema a nivel arquitectónico, presentamos un nuevo marco denominado Dual-Arch, que funciona como un componente complementario para CL. Este marco aprovecha las fortalezas complementarias de dos redes distintas e independientes: una dedicada a la plasticidad y la otra a la estabilidad. Cada red está diseñada con una arquitectura especializada y ligera, adaptada a su respectivo objetivo. Experimentos exhaustivos demuestran que Dual-Arch mejora el rendimiento de los métodos existentes de CL, siendo hasta un 87% más compacto en términos de parámetros.
Las bases de datos de publicaciones dependen de la extracción precisa de metadatos de diversas fuentes web; sin embargo, las variaciones en los diseños de las páginas y los formatos de datos presentan desafíos para los proveedores de metadatos. Este artículo presenta CRAWLDoc, un nuevo método para la clasificación contextual de documentos web enlazados. A partir de la URL de una publicación, como un identificador de objeto digital, CRAWLDoc recupera la página de destino y todos los recursos web vinculados, incluyendo archivos PDF, perfiles ORCID y materiales complementarios. Estos recursos, junto con los textos de anclaje y las URL, se integran en una representación unificada. Para evaluar CRAWLDoc, hemos creado un nuevo conjunto de datos etiquetado manualmente que incluye 600 publicaciones de seis editoriales líderes en informática. Nuestro método CRAWLDoc demuestra una clasificación robusta e independiente del diseño de documentos relevantes entre editoriales y formatos de datos. Establece las bases para una mejora en la extracción de metadatos de documentos web con diversos diseños y formatos. Nuestro código fuente y conjunto de datos están disponibles en https://github.com/FKarl/CRAWLDoc.
Una forma de mitigar los riesgos en los modelos de visión y lenguaje (VLMs) es eliminar muestras peligrosas en sus datos de entrenamiento. Sin embargo, esta moderación de datos puede ser fácilmente eludida cuando las imágenes dañinas se dividen en pequeños parches de apariencia benigna, dispersos en muchas muestras de entrenamiento. Los VLMs pueden entonces aprender a unir estos fragmentos durante el entrenamiento y generar respuestas dañinas en la inferencia, ya sea a partir de imágenes completas o referencias textuales. Por ejemplo, si se entrenan con parches de imágenes de una escena sangrienta emparejados con las descripciones "seguro", los VLMs podrían luego describir la imagen completa o una referencia textual a la escena como "seguro". Definimos la capacidad central de los VLMs que permite este ataque como *visual stitching* (costura visual): la habilidad de integrar información visual dispersa en múltiples muestras de entrenamiento que comparten las mismas descripciones textuales. En nuestro trabajo, primero demostramos las capacidades de *visual stitching* en VLMs de código abierto comunes utilizando tres conjuntos de datos donde cada imagen está etiquetada con un ID sintético único: dividimos cada par (imagen, ID) en pares {(parche, ID)} con diferentes niveles de granularidad para el ajuste fino, y encontramos que los modelos ajustados pueden verbalizar los IDs correctos a partir de imágenes completas o referencias textuales. Basándonos en esto, simulamos el escenario de envenenamiento de datos adversarios mencionado anteriormente utilizando parches de imágenes peligrosas y reemplazando los IDs con descripciones textuales como "seguro" o "inseguro", demostrando cómo el contenido dañino puede evadir la moderación en parches y luego ser reconstruido a través del *visual stitching*, lo que plantea serios riesgos de seguridad en los VLMs. El código está disponible en https://github.com/ZHZisZZ/visual-stitching.
La reconstrucción 3D a partir de imágenes en entornos no controlados sigue siendo una tarea desafiante debido a las condiciones de iluminación inconsistentes y a los distractores transitorios. Los métodos existentes suelen depender de estrategias heurísticas para manejar los datos de entrenamiento de baja calidad, lo que a menudo dificulta la producción de reconstrucciones estables y consistentes, resultando frecuentemente en artefactos visuales. En este trabajo, proponemos Asymmetric Dual 3DGS, un marco novedoso que aprovecha la naturaleza estocástica de estos artefactos: tienden a variar entre diferentes ejecuciones de entrenamiento debido a pequeñas variaciones aleatorias. Específicamente, nuestro método entrena dos modelos de 3D Gaussian Splatting (3DGS) en paralelo, aplicando una restricción de consistencia que fomenta la convergencia en una geometría de escena confiable mientras suprime los artefactos inconsistentes. Para evitar que los dos modelos colapsen en modos de fallo similares debido al sesgo de confirmación, introducimos una estrategia de enmascaramiento divergente que aplica dos máscaras complementarias: una máscara adaptativa multiclave y una máscara suave auto-supervisada, lo que conduce a un proceso de entrenamiento asimétrico de los dos modelos, reduciendo los modos de error compartidos. Además, para mejorar la eficiencia del entrenamiento del modelo, introducimos una variante ligera llamada Dynamic EMA Proxy, que reemplaza uno de los dos modelos con un proxy de Media Móvil Exponencial (EMA) actualizado dinámicamente, y emplea una estrategia de enmascaramiento alternante para preservar la divergencia. Experimentos extensos en conjuntos de datos del mundo real y desafiantes demuestran que nuestro método supera consistentemente a los enfoques existentes mientras logra una alta eficiencia. Los códigos y modelos entrenados serán liberados.
Los modelos generativos latentes basados en flujo, como Stable Diffusion 3, son capaces de generar imágenes de calidad notable, incluso permitiendo la generación fotorrealista de texto a imagen. Su impresionante rendimiento sugiere que estos modelos también deberían constituir poderosos previos para problemas de imagen inversa, pero ese enfoque aún no ha alcanzado una fidelidad comparable. Existen varios obstáculos clave: (i) la codificación en un espacio latente de menor dimensionalidad hace que la mapeo subyacente (directo) sea no lineal; (ii) el término de verosimilitud de los datos suele ser intratable; y (iii) los modelos generativos aprendidos tienen dificultades para recuperar modos de datos raros o atípicos durante la inferencia. Presentamos FLAIR, un novedoso marco variacional sin entrenamiento que aprovecha los modelos generativos basados en flujo como un previo para problemas inversos. Para ello, introducimos un objetivo variacional para el emparejamiento de flujo que es agnóstico al tipo de degradación, y lo combinamos con ajustes deterministas de la trayectoria para recuperar modos atípicos. Para garantizar una consistencia exacta con los datos observados, desacoplamos la optimización de los términos de fidelidad de datos y regularización. Además, introducimos un esquema de calibración dependiente del tiempo en el que la fuerza de la regularización se modula según estimaciones de precisión fuera de línea. Los resultados en benchmarks estándar de imágenes demuestran que FLAIR supera consistentemente a los métodos existentes basados en difusión y flujo en términos de calidad de reconstrucción y diversidad de muestras.
El razonamiento simbólico de múltiples pasos es crucial para mejorar el rendimiento en tareas financieras. Sin embargo, faltan puntos de referencia para evaluar sistemáticamente esta capacidad. Conjuntos de datos existentes como FinQA y ConvFinQA supervisan únicamente las respuestas numéricas finales, sin evaluar los pasos intermedios de razonamiento. Para abordar esto, presentamos FinChain, el primer punto de referencia simbólico diseñado para un razonamiento financiero verificable basado en Cadena de Pensamiento (CoT). Abarcando 54 temas en 12 dominios financieros, FinChain ofrece cinco plantillas parametrizadas por tema, cada una con variaciones en la complejidad del razonamiento y el nivel de experiencia en el dominio requerido. Cada instancia del conjunto de datos incluye un rastreo ejecutable en Python, lo que permite la generación automática de datos de entrenamiento extensos y una fácil adaptación a otros dominios. También presentamos ChainEval, una nueva métrica para la evaluación automática tanto de las respuestas finales como del razonamiento intermedio. Al evaluar 30 modelos de lenguaje grandes (LLMs) en nuestro conjunto de datos, encontramos que incluso los modelos más avanzados tienen un margen considerable de mejora en el razonamiento financiero de múltiples pasos. Todas las plantillas y métricas de evaluación para FinChain están disponibles en https://github.com/mbzuai-nlp/finchain.
Generar sonidos precisos para escenas audiovisuales complejas es un desafío, especialmente en presencia de múltiples objetos y fuentes de sonido. En este artículo, proponemos un modelo de {\em generación de audio interactivo consciente de objetos} que fundamenta la generación de sonido en objetos visuales seleccionados por el usuario dentro de imágenes. Nuestro método integra el aprendizaje centrado en objetos en un modelo de difusión latente condicional, que aprende a asociar regiones de la imagen con sus sonidos correspondientes mediante atención multimodal. Durante la fase de prueba, nuestro modelo emplea segmentación de imágenes para permitir a los usuarios generar sonidos de manera interactiva a nivel de {\em objeto}. Validamos teóricamente que nuestro mecanismo de atención aproxima funcionalmente las máscaras de segmentación en la fase de prueba, asegurando que el audio generado se alinee con los objetos seleccionados. Las evaluaciones cuantitativas y cualitativas muestran que nuestro modelo supera a los baselines, logrando una mejor alineación entre los objetos y sus sonidos asociados. Página del proyecto: https://tinglok.netlify.app/files/avobject/
Anotar datos es una tarea que consume tiempo y es costosa, pero es inherentemente necesaria para el aprendizaje supervisado de máquinas. El Aprendizaje Activo (AA) es un método establecido que minimiza el esfuerzo de etiquetado humano al seleccionar de manera iterativa las muestras no etiquetadas más informativas para su anotación por expertos, mejorando así el rendimiento general de la clasificación. Aunque el AA se conoce desde hace décadas, todavía se utiliza poco en aplicaciones del mundo real. Como se indica en dos encuestas comunitarias en línea entre la comunidad de Procesamiento del Lenguaje Natural (PLN) sobre el AA, dos razones principales siguen impidiendo que los profesionales utilicen el AA: primero, la complejidad de configurar el AA, y segundo, la falta de confianza en su efectividad. Hipotetizamos que ambas razones comparten el mismo culpable: el amplio espacio de hiperparámetros del AA. Este espacio de hiperparámetros, en su mayoría inexplorado, a menudo conduce a resultados de experimentos de AA engañosos e irreproducibles. En este estudio, primero compilamos una gran cuadrícula de hiperparámetros con más de 4.6 millones de combinaciones de hiperparámetros, segundo, registramos el rendimiento de todas las combinaciones en el estudio de AA más grande realizado hasta la fecha, y tercero, analizamos el impacto de cada hiperparámetro en los resultados del experimento. Al final, ofrecemos recomendaciones sobre la influencia de cada hiperparámetro, demostramos la sorprendente influencia de la implementación concreta de la estrategia de AA y delineamos un diseño de estudio experimental para experimentos de AA reproducibles con un esfuerzo computacional mínimo, contribuyendo así a una investigación de AA más reproducible y confiable en el futuro.
Con el rápido desarrollo de los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés), estos se están implementando cada vez más como agentes autónomos de uso informático capaces de realizar tareas complejas en computadoras. Sin embargo, surge una cuestión apremiante: ¿Pueden los principios de riesgo de seguridad diseñados y alineados para MLLMs generales en escenarios de diálogo transferirse efectivamente a escenarios reales de uso informático? La investigación existente sobre la evaluación de los riesgos de seguridad de los agentes de uso informático basados en MLLMs presenta varias limitaciones: o bien carece de entornos interactivos realistas, o se centra de manera estrecha en uno o pocos tipos específicos de riesgo. Estas limitaciones ignoran la complejidad, variabilidad y diversidad de los entornos del mundo real, lo que restringe una evaluación integral de riesgos para los agentes de uso informático. Con este fin, presentamos RiOSWorld, un punto de referencia diseñado para evaluar los riesgos potenciales de los agentes basados en MLLMs durante manipulaciones informáticas del mundo real. Nuestro punto de referencia incluye 492 tareas riesgosas que abarcan diversas aplicaciones informáticas, como web, redes sociales, multimedia, sistemas operativos, correo electrónico y software de oficina. Clasificamos estos riesgos en dos categorías principales según su fuente de origen: (i) riesgos originados por el usuario y (ii) riesgos ambientales. Para la evaluación, analizamos los riesgos de seguridad desde dos perspectivas: (i) intención del objetivo de riesgo y (ii) cumplimiento del objetivo de riesgo. Experimentos extensos con agentes multimodales en RiOSWorld demuestran que los agentes de uso informático actuales enfrentan riesgos de seguridad significativos en escenarios del mundo real. Nuestros hallazgos resaltan la necesidad y urgencia de la alineación de seguridad para los agentes de uso informático en manipulaciones informáticas del mundo real, proporcionando insights valiosos para el desarrollo de agentes de uso informático confiables. Nuestro punto de referencia está disponible públicamente en https://yjyddq.github.io/RiOSWorld.github.io/.