Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje recursivos o en bucle han surgido recientemente como un nuevo eje de escalado al refinar iterativamente el mismo cómputo del modelo sobre estados latentes para profundizar el razonamiento. Extendemos este principio de escalado desde un modelo único a sistemas multiagente, y nos preguntamos: ¿Puede la colaboración entre agentes escalarse mediante recursión? Con este fin, presentamos RecursiveMAS, un marco multiagente recursivo que plantea todo el sistema como un cómputo recursivo unificado en un espacio latente. RecursiveMAS conecta agentes heterogéneos como un bucle de colaboración a través del módulo ligero RecursiveLink, permitiendo la generación de pensamientos latentes dentro de la distribución y la transferencia de estados latentes entre agentes. Para optimizar nuestro marco, desarrollamos un algoritmo de aprendizaje de bucle interno-externo para la co-optimización iterativa de todo el sistema mediante la asignación de crédito basada en gradientes compartidos a través de rondas recursivas. Los análisis teóricos de la complejidad del tiempo de ejecución y la dinámica de aprendizaje establecen que RecursiveMAS es más eficiente que los MAS basados en texto estándar y mantiene gradientes estables durante el entrenamiento recursivo. Empíricamente, instanciamos RecursiveMAS bajo 4 patrones de colaboración de agentes representativos y evaluamos en 9 benchmarks que abarcan matemáticas, ciencias, medicina, búsqueda y generación de código. En comparación con líneas base avanzadas de cómputo único/multiagente y recursivo, RecursiveMAS ofrece consistentemente una mejora promedio de precisión del 8.3%, junto con una aceleración de inferencia de extremo a extremo de 1.2x a 2.4x, y una reducción del uso de tokens del 34.6% al 75.6%. El código y los datos se proporcionan en https://recursivemas.github.io.
La transferencia fiable de conocimiento humano especializado desde el texto a los modelos de lenguaje grandes sigue siendo un desafío fundamental en la inteligencia artificial. El ajuste fino en corpus de dominio ha permitido ganancias sustanciales de capacidad, pero el proceso opera sin retroalimentación: cuando un modelo falla en una tarea de dominio, no existe un método para diagnosticar qué es deficiente en los datos de entrenamiento, y el único recurso es añadir más datos de manera indiscriminada. Aquí demostramos que cuando una representación de conocimiento estructurado extraída del corpus fuente sirve como base compartida tanto para los datos de entrenamiento como para la evaluación, el ciclo de vida completo de la ingeniería de datos se asigna al ciclo de vida del desarrollo de software de una manera precisa y operativa: los datos de entrenamiento se convierten en código fuente que especifica lo que el modelo debe aprender, el entrenamiento del modelo se convierte en compilación, la evaluación comparativa se convierte en pruebas unitarias, y la reparación de datos impulsada por fallos se convierte en depuración. Bajo esta correspondencia, los fallos del modelo se descomponen en lagunas a nivel conceptual y rupturas en la cadena de razonamiento que pueden rastrearse hasta deficiencias específicas en los datos y repararse mediante parches específicos, con cada ciclo de reparación produciendo mejoras consistentes en todas las escalas y arquitecturas de modelos sin degradar las capacidades generales. Formalizamos este principio como Programación con Datos y lo instanciamos en dieciséis disciplinas que abarcan las ciencias naturales, la ingeniería, la biomedicina y las ciencias sociales, liberando una base de conocimiento estructurado, un conjunto de pruebas de evaluación y un corpus de entrenamiento como recursos abiertos. Al demostrar que la relación entre los datos de entrenamiento y el comportamiento del modelo es estructuralmente rastreable y sistemáticamente reparable, este trabajo establece una base fundamentada para la ingeniería fiable de la experiencia humana en los modelos de lenguaje.
La visualización de datos (VD) en entornos reales requiere una base ambiental nativa, evolución multiplataforma y alineación proactiva de la intencionalidad. Sin embargo, los puntos de referencia existentes suelen adolecer de confinamiento en entornos de pruebas controlados, tareas de solo creación en un único lenguaje y el supuesto de una intención perfecta. Para salvar estas brechas, presentamos DV-World, un benchmark de 260 tareas diseñado para evaluar agentes de VD a lo largo de ciclos de vida profesionales del mundo real. DV-World abarca tres dominios: DV-Sheet para la manipulación nativa de hojas de cálculo, incluyendo la creación de gráficos y paneles de control, así como la reparación de diagnósticos; DV-Evolution para adaptar y reestructurar artefactos visuales de referencia ajustándolos a nuevos datos en diversos paradigmas de programación; y DV-Interact para la alineación proactiva de la intencionalidad con un simulador de usuario que imita requisitos reales ambiguos. Nuestro marco de evaluación híbrido integra la Alineación de Valor de Tabla para la precisión numérica y MLLM-como-Juez con rúbricas para la evaluación semántico-visual. Los experimentos revelan que los modelos de última generación alcanzan menos del 50% de rendimiento general, exponiendo déficits críticos en el manejo de los complejos desafíos de la visualización de datos del mundo real. DV-World proporciona un banco de pruebas realista para orientar el desarrollo hacia la experiencia versátil requerida en los flujos de trabajo empresariales. Nuestros datos y código están disponibles en https://github.com/DA-Open/DV-World{esta página del proyecto}.
La investigación científica autónoma avanza significativamente gracias al desarrollo de agentes de IA. Un paso clave en este proceso es encontrar la literatura científica adecuada, ya sea para explorar el conocimiento existente sobre un problema de investigación o para adquirir evidencia que verifique supuestos y respalde afirmaciones. Para evaluar la capacidad de los agentes de IA para impulsar este proceso, presentamos AutoResearchBench, un benchmark específico para el descubrimiento autónomo de literatura científica. AutoResearchBench consta de dos tipos de tareas complementarias: (1) Investigación Profunda, que requiere localizar un artículo objetivo específico mediante un proceso de sondeo progresivo y multi-etapa, y (2) Investigación Amplia, que requiere recopilar exhaustivamente un conjunto de artículos que cumplan condiciones dadas. En comparación con benchmarks anteriores sobre navegación web agéntica, AutoResearchBench se distingue en tres dimensiones: está orientado a la investigación, exigiendo una comprensión profunda de conceptos científicos; centrado en la literatura, demandando un uso detallado de información granular; y de naturaleza abierta, involucrando un número desconocido de artículos calificados que requiere un razonamiento y búsqueda deliberados. Estas propiedades hacen que AutoResearchBench sea singularmente adecuado para evaluar capacidades de investigación autónoma, y extraordinariamente desafiante. Incluso los LLMs más potentes, a pesar de haber superado ampliamente benchmarks generales de navegación web agéntica como BrowseComp, logran solo un 9.39% de precisión en Investigación Profunda y un 9.31% de IoU en Investigación Amplia, mientras que muchas otras líneas base sólidas se sitúan por debajo del 5%. Publicamos el conjunto de datos, la pipeline de evaluación y el código en https://github.com/CherYou/AutoResearchBench para facilitar futuras investigaciones en esta dirección.
Los modelos unificados multimodales de comprensión/generación han demostrado un mejor rendimiento en la edición de imágenes al incorporar una comprensión detallada en su proceso de Cadena de Pensamiento (CoT). Sin embargo, una pregunta crítica permanece poco explorada: ¿qué formas de CoT y estrategias de entrenamiento pueden mejorar conjuntamente tanto la granularidad de la comprensión como la generalización? Para abordar esto, proponemos Meta-CoT, un paradigma que realiza una descomposición de dos niveles de cualquier operación de edición de imagen única con dos propiedades clave: (1) Descomponibilidad. Observamos que cualquier intención de edición puede representarse como un triplete: (tarea, objetivo, capacidad de comprensión requerida). Inspirados por esto, Meta-CoT descompone tanto la tarea de edición como el objetivo, generando CoT específica de la tarea y recorriendo las operaciones de edición en todos los objetivos. Esta descomposición mejora la granularidad de comprensión del modelo sobre las operaciones de edición y lo guía para aprender cada elemento del triplete durante el entrenamiento, mejorando sustancialmente la capacidad de edición. (2) Generalizabilidad. En el segundo nivel de descomposición, desglosamos aún más las tareas de edición en cinco meta-tareas fundamentales. Descubrimos que entrenar en estas cinco meta-tareas, junto con los otros dos elementos del triplete, es suficiente para lograr una fuerte generalización en diversas tareas de edición no vistas. Para alinear aún más el comportamiento de edición del modelo con su razonamiento CoT, introducimos la Recompensa de Coherencia CoT-Edición, que fomenta una utilización más precisa y efectiva de la información CoT durante la edición. Los experimentos demuestran que nuestro método logra una mejora general del 15.8% en 21 tareas de edición, y generaliza efectivamente a tareas de edición no vistas cuando se entrena solo con un pequeño conjunto de meta-tareas. Nuestro código, benchmark y modelo están disponibles en https://shiyi-zh0408.github.io/projectpages/Meta-CoT/.
Los modelos multimodales unificados (UMM) integran la comprensión y generación visual dentro de un único marco. Para las tareas de texto a imagen (T2I), esta capacidad unificada permite a los UMM refinar las salidas tras su generación inicial, extendiendo potencialmente el límite superior de rendimiento. Los métodos de refinamiento basados en UMM actuales siguen principalmente un paradigma de refinamiento mediante edición (RvE), donde los UMM producen instrucciones de edición para modificar regiones desalineadas preservando el contenido alineado. Sin embargo, las instrucciones de edición a menudo describen la desalineación entre texto e imagen solo de manera aproximada, conduciendo a un refinamiento incompleto. Además, la preservación a nivel de píxel, aunque necesaria para la edición, restringe innecesariamente el espacio de modificación efectivo para el refinamiento. Para abordar estas limitaciones, proponemos Refinamiento mediante Regeneración (RvR), un marco novedoso que reformula el refinamiento como regeneración de imagen condicional en lugar de edición. En lugar de depender de instrucciones de edición y aplicar una preservación de contenido estricta, RvR regenera imágenes condicionadas por el texto objetivo y los tokens semánticos de la imagen inicial, permitiendo una alineación semántica más completa con un espacio de modificación mayor. Experimentos exhaustivos demuestran la efectividad de RvR, mejorando Geneval de 0.78 a 0.91, DPGBench de 84.02 a 87.21 y UniGenBench++ de 61.53 a 77.41.
En este trabajo, proponemos Mutual Forcing, un marco para la generación rápida autoregresiva de audio-video con sincronización audio-video de horizonte largo. Nuestro enfoque aborda dos desafíos clave: el modelado conjunto de audio-video y la generación autoregresiva rápida. Para facilitar la optimización conjunta de audio-video, adoptamos una estrategia de entrenamiento en dos etapas: primero entrenamos generadores unimodales y luego los acoplamos en un modelo unificado de audio-video para el entrenamiento conjunto con datos emparejados. Para la generación en flujo continuo (streaming), nos preguntamos si se puede entrenar directamente un modelo causal rápido nativo de audio-video, en lugar de seguir las pipelines de destilación existentes que normalmente entrenan primero un modelo bidireccional y luego lo convierten en un generador causal a través de múltiples etapas de destilación. Nuestra respuesta es Mutual Forcing, que se construye directamente sobre un modelo autoregresivo nativo e integra la generación en pocos pasos y en múltiples pasos dentro de un único modelo con pesos compartidos, permitiendo la auto-destilación y una mejor consistencia entre el entrenamiento y la inferencia. El modo de múltiples pasos mejora el modo de pocos pasos mediante auto-destilación, mientras que el modo de pocos pasos genera contexto histórico durante el entrenamiento para mejorar la consistencia entrenamiento-inferencia; dado que los dos modos comparten parámetros, estos dos efectos se refuerzan mutuamente dentro de un único modelo. En comparación con enfoques anteriores como Self-Forcing, Mutual Forcing elimina la necesidad de un modelo maestro bidireccional adicional, admite longitudes de secuencia de entrenamiento más flexibles, reduce la sobrecarga del entrenamiento y permite que el modelo mejore directamente a partir de datos emparejados reales en lugar de hacerlo a partir de un maestro fijo. Los experimentos muestran que Mutual Forcing iguala o supera a líneas base sólidas que requieren alrededor de 50 pasos de muestreo mientras utiliza solo de 4 a 8 pasos, demostrando ventajas sustanciales tanto en eficiencia como en calidad. La página del proyecto está disponible en https://mutualforcing.github.io.
Los recientes avances en los grandes modelos de lenguaje de audio han extendido el razonamiento en cadena de pensamiento (CoT) al dominio auditivo, permitiendo a los modelos abordar tareas acústicas y orales cada vez más complejas. Para generar y sostener estas cadenas de razonamiento extendidas, el paradigma predominante —impulsado por el éxito de los modelos de razonamiento basados en texto— depende abrumadoramente del Aprendizaje por Refuerzo con Recompensas Verificadas (RLVR). Sin embargo, a medida que los modelos se optimizan estrictamente para destilar contextos auditivos ricos y continuos en etiquetas de texto aisladas y verificables, surge una pregunta fundamental: ¿estamos fomentando una verdadera inteligencia auditiva o simplemente reduciendo un medio sensorial continuo a un rompecabezas discreto? Identificamos esto como la "trampa de la recompensa verificable". Si bien el RLVR produce puntuaciones notables en benchmarks objetivos estandarizados, degrada sistemáticamente la sensación conversacional del mundo real en los modelos de audio. Al priorizar la corrección aislada sobre el matiz acústico, el RLVR reduce las interacciones dinámicas a "máquinas de respuesta" mecánicas, comprometiendo gravemente la naturalidad prosódica, la continuidad emocional y la inmersión del usuario, particularmente en diálogos de turnos largos. Para cerrar la brecha entre la verificación objetiva mecánica y la empatía sensorial genuina, presentamos Step-Audio-R1.5, que marca un cambio de paradigma hacia el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) en el razonamiento auditivo. Evaluaciones exhaustivas demuestran que Step-Audio-R1.5 no solo mantiene un razonamiento analítico sólido, sino que transforma profundamente la experiencia interactiva, redefiniendo los límites del diálogo hablado de turnos largos profundamente inmersivo.
Si bien los modelos de difusión generan videoclips de alta fidelidad, transformarlos en motores de narración coherente sigue siendo un desafío. Los flujos de trabajo agentivos actuales automatizan este proceso mediante módulos encadenados, pero adolecen de deriva semántica y fallos en cascada debido a la creación manual e independiente de instrucciones. Presentamos Co-Director, un marco multiagente jerárquico que formaliza la narración audiovisual como un problema de optimización global. Para garantizar la coherencia semántica, introducimos una parametrización jerárquica: un bandido multi-brazo identifica globalmente direcciones creativas prometedoras, mientras que un bucle local de autorrefinamiento multimodal mitiga la deriva de identidad y asegura la coherencia a nivel de secuencia. Esto equilibra la exploración de nuevas estrategias narrativas con la explotación de configuraciones creativas efectivas. Para la evaluación, presentamos GenAD-Bench, un conjunto de datos de 400 escenarios de productos ficticios para publicidad personalizada. Los experimentos demuestran que Co-Director supera significativamente a los métodos de referencia más avanzados, ofreciendo un enfoque fundamentado que se generaliza sin problemas a narrativas cinematográficas más amplias. Página del proyecto: https://co-director-agent.github.io/
La implementación de salvaguardas para políticas personalizadas sigue siendo un desafío, ya que los modelos de seguridad genéricos no logran capturar los requisitos específicos de la tarea, mientras que el prompting de LLMs adolece de un rendimiento inconsistente en casos límite y altos costos de inferencia. El entrenamiento de clasificadores personalizados logra precisión y eficiencia, pero requiere una cantidad sustancial de datos etiquetados que son costosos de obtener. Presentamos BARRED (Boundary Alignment Refinement through REflection and Debate), un marco para generar datos de entrenamiento sintéticos fieles y diversos utilizando solo una descripción de la tarea y un pequeño conjunto de ejemplos no etiquetados. Nuestro enfoque descompone el espacio del dominio en dimensiones para garantizar una cobertura integral y emplea un debate multiagente para verificar la corrección de las etiquetas, produciendo un corpus de entrenamiento de alta fidelidad. Los experimentos en diversas políticas personalizadas demuestran que los modelos de lenguaje pequeños ajustados con nuestros datos sintéticos superan consistentemente a los LLMs propietarios de última generación (incluyendo modelos de razonamiento) y a los modelos de salvaguarda dedicados. Los estudios de ablación confirman que tanto la descomposición dimensional como la verificación basada en debate son críticas para garantizar la diversidad y fidelidad de las etiquetas necesarias para un ajuste fino efectivo. El marco BARRED elimina la dependencia de la anotación humana extensiva, ofreciendo una solución escalable para salvaguardas personalizadas precisas.
La destilación bajo política (OPD) ha demostrado un gran potencial para transferir la capacidad de razonamiento desde modelos de vanguardia o específicos de un dominio a estudiantes más pequeños. Aunque es eficaz en tasks estáticas de un solo turno, su comportamiento en entornos de agentes multi-turno sigue sin explorarse suficientemente. En este trabajo, identificamos una limitación clave de la OPD básica en dichos entornos, que denominamos Inestabilidad KL a Nivel de Trayectoria. Específicamente, observamos que la divergencia KL aumenta junto con una caída en la tasa de éxito, e incluso después de la convergencia, la KL permanece alta, lo que conduce a un entrenamiento inestable. Esta inestabilidad surge de la composición de errores entre turnos: a medida que los errores se acumulan, el estudiante es llevado más allá del soporte efectivo del profesor, haciendo que la señal de supervisión sea poco fiable. Para abordar esto, proponemos TCOD (Destilación bajo Política con Currículo Temporal), un marco simple pero efectivo que controla la profundidad de la trayectoria expuesta al estudiante y la expande progresivamente de corta a larga con un plan de estudios. Los resultados experimentales en cuatro pares estudiante-profesor en tres benchmarks de agentes multi-turno (ALFWorld, WebShop, ScienceWorld) muestran que TCOD mitiga la escalada de KL y mejora la estabilidad de KL durante todo el entrenamiento, mejorando el rendimiento del agente hasta en 18 puntos sobre la OPD básica. Evaluaciones adicionales muestran que TCOD puede incluso superar el rendimiento del profesor y generalizar a tareas en las que el profesor falla.
Los agentes de terminal han demostrado un gran potencial para la ejecución autónoma de líneas de comandos, aunque su entrenamiento sigue limitado por la escasez de trayectorias de ejecución diversas y de alta calidad. Los enfoques existentes mitigan este cuello de botella sintetizando instancias de tareas de terminal a gran escala para el muestreo de trayectorias. Sin embargo, se centran principalmente en escalar el número de tareas, ofreciendo un control limitado sobre la diversidad de las trayectorias de ejecución que los agentes experimentan realmente durante el entrenamiento. En este artículo presentamos SkillSynth, un marco automatizado para la síntesis de tareas de terminal basado en un grafo de habilidades mediado por escenarios. SkillSynth construye primero un grafo de habilidades a gran escala, donde los escenarios sirven como nodos de transición intermedios que conectan diversas habilidades de línea de comandos. Luego, muestrea caminos de este grafo como abstracciones de flujos de trabajo del mundo real, y utiliza un sistema multiagente para instanciarlos en tareas ejecutables. Al basar la síntesis de tareas en caminos de flujo de trabajo muestreados del grafo, SkillSynth controla explícitamente la diversidad de las trayectorias de ejecución mínimas requeridas para resolver las tareas sintetizadas. Los experimentos en Terminal-Bench demuestran la efectividad de SkillSynth. Además, las instancias de tareas sintetizadas por SkillSynth se han adoptado para entrenar a Hy3 Preview, contribuyendo a sus capacidades agenticas mejoradas en entornos basados en terminal.
La creación de material didáctico interactivo para STEM (Ciencia, Tecnología, Ingeniería y Matemáticas) ha requerido tradicionalmente experiencia en HTML/CSS/JavaScript, lo que supone una barrera para los educadores. Si bien la IA generativa puede producir códigos HTML, las herramientas existentes generan presentaciones estáticas en lugar de simulaciones interactivas, tienen dificultades con documentos largos y carecen de mecanismos de precisión pedagógica. Además, la regeneración completa para realizar modificaciones requiere entre 200 y 600 segundos, lo que interrumpe el flujo creativo. Presentamos MAIC-UI, un sistema de autoría sin código que permite a los educadores crear y editar rápidamente material didáctico interactivo a partir de libros de texto, presentaciones PPT y archivos PDF. MAIC-UI emplea: (1) un análisis de conocimiento estructurado con comprensión multimodal para garantizar el rigor pedagógico; (2) una canalización de dos etapas (generar-verificar-optimizar) que separa la alineación del contenido del refinamiento visual; y (3) una edición Click-to-Locate con generación incremental basada en Unified Diff que logra ciclos de iteración de menos de 10 segundos. Un estudio de laboratorio controlado con 40 participantes muestra que MAIC-UI reduce las iteraciones de edición (4,9 frente a 7,0) y mejora significativamente la facilidad de aprendizaje y la controlabilidad en comparación con la generación directa de Texto-a-HTML. Un despliegue en el aula de tres meses con 53 estudiantes de secundaria demuestra que MAIC-UI fomenta la agencia de aprendizaje y reduce las disparidades en los resultados: la clase piloto logró ganancias de 9,21 puntos en las materias STEM, en comparación con -2,32 puntos en las clases de control. Nuestro código está disponible en https://github.com/THU-MAIC/MAIC-UI.
Alinear los modelos generativos de eliminación de ruido con las preferencias humanas o recompensas verificables sigue siendo un desafío clave. Si bien el aprendizaje por refuerzo (RL) en línea con gradiente de políticas ofrece un marco fundamental para el post-entrenamiento, su aplicación directa se ve obstaculizada por las verosimilitudes intratables de estos modelos. Por lo tanto, trabajos anteriores optimizan un proceso de decisión de Markov (MDP) inducido sobre las trayectorias de muestreo, lo cual es estable pero ineficiente, o utilizan aproximaciones de la verosimilitud basadas en la cota inferior de evidencia (ELBO) de difusión, que hasta ahora han tenido un rendimiento inferior en la generación visual. Nuestra idea clave es que el enfoque basado en ELBO puede, de hecho, volverse tanto estable como eficiente. Al reducir la varianza de la aproximación y controlar los pasos del gradiente, demostramos que este enfoque puede superar a los métodos basados en MDP. Con este fin, presentamos Variational GRPO (V-GRPO), un método que integra las aproximaciones basadas en ELBO con el algoritmo de Optimización de Políticas Relativas Grupales (GRPO), junto con un conjunto de técnicas simples pero esenciales. Nuestro método es fácil de implementar, se alinea con los objetivos del pre-entrenamiento y evita las limitaciones de los métodos basados en MDP. V-GRPO logra un rendimiento de vanguardia en la síntesis de texto a imagen, al tiempo que ofrece una aceleración de 2 veces sobre MixGRPO y de 3 veces sobre DiffusionNFT.
Si bien los modelos de difusión de video a gran escala han demostrado capacidades impresionantes para generar contenido de alta resolución y semánticamente rico, persiste una brecha significativa entre su rendimiento en preentrenamiento y los requisitos de implementación en el mundo real, debido a problemas críticos como la sensibilidad a los prompts, la inconsistencia temporal y los costos de inferencia prohibitivos. Para cerrar esta brecha, proponemos un marco integral de post-entrenamiento que alinea sistemáticamente los modelos preentrenados con las intenciones del usuario a través de cuatro etapas sinérgicas: primero empleamos el Ajuste Fino Supervisado (SFT) para transformar el modelo base en una política estable que sigue instrucciones, seguido de una etapa de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) que utiliza un novedoso método de Optimización de Políticas Relativas Grupales (GRPO) adaptado para la difusión de video, con el fin de mejorar la calidad perceptual y la coherencia temporal; posteriormente, integramos una Mejora de Prompts mediante un modelo de lenguaje especializado para refinar las entradas del usuario, y finalmente abordamos la eficiencia del sistema mediante una Optimización de la Inferencia. En conjunto, estos componentes proporcionan un enfoque sistemático para mejorar la calidad visual, la coherencia temporal y el seguimiento de instrucciones, al tiempo que preservan la controllabilidad aprendida durante el preentrenamiento. El resultado es un plan práctico para construir pipelines de post-entrenamiento escalables que sean estables, adaptables y efectivos en implementaciones del mundo real. Experimentos exhaustivos demuestran que esta pipeline unificada mitiga eficazmente los artefactos comunes y mejora significativamente la controllabilidad y la estética visual, respetando al mismo tiempo estrictas restricciones de coste de muestreo.
La evaluación comparativa por pares mediante crowdsourcing ha surgido como un enfoque escalable para evaluar modelos fundacionales. Sin embargo, su aplicación a la síntesis de voz (TTS) introduce una alta varianza debido a la diversidad lingüística y la naturaleza multidimensional de la percepción del habla. Presentamos un marco de evaluación comparativa multidimensional controlada para TTS multilingüe que combina el control lingüístico con una anotación basada en la percepción. Utilizando más de 5.000 frases nativas y de código mixto en 10 lenguas índicas, evaluamos 7 sistemas TTS de última generación y recopilamos más de 120.000 comparaciones por pares de más de 1900 evaluadores nativos. Además de la preferencia general, los evaluadores proporcionan valoraciones en 6 dimensiones perceptivas: inteligibilidad, expresividad, calidad de voz, vivacidad, ruido y alucinaciones. Mediante el modelo de Bradley-Terry, construimos una clasificación multilingüe, interpretamos la preferencia humana utilizando análisis SHAP y analizamos la fiabilidad de la clasificación junto con las fortalezas de los modelos y las compensaciones entre las dimensiones perceptivas.
Los Grandes Modelos de Visión y Lenguaje (VLMs) se utilizan cada vez más para evaluar las salidas de otros modelos, tanto en tareas de imagen a texto (I2T), como la respuesta a preguntas visuales, como en tareas de generación de texto a imagen (T2I). A pesar de esta creciente dependencia, la fiabilidad de estos VLMs Evaluadores sigue sin explorarse adecuadamente. En este trabajo, evaluamos sistemáticamente la fiabilidad de los VLMs Evaluadores en tareas tanto I2T como T2I. Introducimos perturbaciones específicas que degradan la calidad de la salida a lo largo de dimensiones clave de error, incluyendo alucinaciones de objetos, razonamiento espacial, fundamentación factual y fidelidad visual. Estas perturbaciones prueban si los VLMs Evaluadores pueden tener en cuenta de forma fiable estos errores que degradan la calidad en sus evaluaciones. Utilizando un benchmark integral de más de 4000 instancias perturbadas que abarcan 40 dimensiones de perturbación, evaluamos 4 VLMs prominentes utilizando paradigmas de puntuación de respuesta única, comparación por pares y evaluación guiada por referencia. Nuestros hallazgos revelan que los evaluadores VLM actuales presentan puntos ciegos sustanciales: a menudo no detectan las salidas perturbadas —en algunos casos superando el 50%—, tienen dificultades particularmente con errores compositivos y espaciales de grano fino, y a menudo son insensibles al contenido alucinado que contradice la imagen de entrada. La comparación por pares resulta más fiable, aunque persisten tasas de fallo. Estos resultados destacan la naturaleza poco fiable de los VLMs Evaluadores actuales y urgen a la precaución en su despliegue para decisiones de desarrollo y benchmarking. El código y los datos han sido puestos a disposición del público.
Los recientes avances en la generación de movimiento humano basada en texto permiten a los modelos sintetizar secuencias de movimiento realistas a partir de descripciones en lenguaje natural. Sin embargo, la mayoría de los enfoques existentes asumen un movimiento neutro en cuanto a la identidad y generan movimientos utilizando una representación corporal canónica, ignorando la fuerte influencia de la morfología corporal en la dinámica del movimiento. En la práctica, atributos como las proporciones corporales, la distribución de la masa y la edad afectan significativamente a la forma en que se realizan las acciones, y descuidar este acoplamiento a menudo conduce a movimientos físicamente inconsistentes. Proponemos un marco de generación de movimiento consciente de la identidad que modela explícitamente la relación entre la morfología corporal y la dinámica del movimiento. En lugar de depender de mediciones geométricas explícitas, la identidad se representa utilizando señales multimodales, incluidas descripciones en lenguaje natural y señales visuales. Además, introducimos un paradigma de generación conjunta de movimiento y forma que sintetiza simultáneamente secuencias de movimiento y parámetros de la forma corporal, permitiendo que las señales de identidad modulen directamente la dinámica del movimiento. Experimentos exhaustivos en conjuntos de datos de captura de movimiento y en vídeos a gran escala en entornos naturales demuestran una mejora en el realismo del movimiento y en la coherencia movimiento-identidad, manteniendo una alta calidad de movimiento. Página del proyecto: https://vjwq.github.io/IAM
Los agentes de IA se despliegan cada vez más en flujos de trabajo complejos y específicos de un dominio: navegando aplicaciones web empresariales que requieren docenas de clics y llenados de formularios, orquestando pipelines de investigación de múltiples pasos que abarcan búsqueda, extracción y síntesis, automatizando la revisión de código en repositorios desconocidos y manejando escalaciones de clientes que exigen conocimiento del dominio matizado. Cada nuevo dominio de tarea requiere una minuciosa ingeniería de arnés dirigida por expertos: diseñar los prompts, las herramientas, la lógica de orquestación y los criterios de evaluación que hacen eficaz a un modelo base. Presentamos un marco de dos niveles que automatiza este proceso. En el primer nivel, el Bucle de Evolución del Arnés optimiza el arnés H de un agente trabajador para una sola tarea: un Agente Trabajador W_{H} ejecuta la tarea, un Agente Evaluador V diagnostica adversariamente los fallos y puntúa el rendimiento, y un Agente de Evolución E modifica el arnés basándose en el historial completo de intentos previos. En el segundo nivel, el Meta-Bucle de Evolución optimiza el protocolo de evolución Λ = (W_{H}, H^{(0)}, V, E) en sí mismo a través de diversas tareas, aprendiendo un protocolo Λ^{(mejor)} que permite una rápida convergencia del arnés en cualquier nueva tarea, de modo que adaptar un agente a un dominio novedoso no requiere ninguna ingeniería de arnés humana. Formalizamos la correspondencia con el meta-aprendizaje y presentamos ambos algoritmos. El marco transforma la ingeniería manual del arnés en una ingeniería automatizada del arnés, y da un paso más allá: automatizando el diseño de la automatización misma.
Los agentes autónomos capaces de navegar Interfaces Gráficas de Usuario (GUI) tienen el potencial de revolucionar la productividad digital. Sin embargo, lograr una verdadera autonomía digital va más allá de la correspondencia reactiva de elementos; requiere un modelo mental predictivo de la dinámica de la interfaz y la capacidad de prever el "estado del mundo digital" resultante de las interacciones. A pesar de las capacidades perceptivas de los Modelos de Visión y Lenguaje (VLM) modernos, los puntos de referencia existentes permanecen bifurcados (centrándose ya sea en la finalización de tareas de caja negra o en una fundamentación estática y superficial), fallando así en evaluar si los agentes comprenden verdaderamente la funcionalidad implícita y la lógica de transición de las GUI. Para cerrar esta brecha, presentamos AutoGUI-v2, un punto de referencia integral diseñado para evaluar la comprensión profunda de la funcionalidad de la GUI y la predicción de resultados de interacción. Construimos el punto de referencia utilizando una novedosa canalización colaborativa VLM-humano que analiza recursivamente capturas de pantalla multiplataforma en regiones funcionales jerárquicas para generar diversas tareas de evaluación. Al proporcionar 2.753 tareas en seis sistemas operativos, AutoGUI-v2 evalúa rigurosamente a los agentes en semántica a nivel de región y elemento, fundamentación y predicción de estados dinámicos. Nuestra evaluación revela una dicotomía sorprendente en los VLMs: mientras que los modelos de código abierto ajustados en datos de agentes (por ejemplo, Qwen3-VL) sobresalen en la fundamentación funcional, los modelos comerciales (por ejemplo, Gemini-2.5-Pro-Thinking) dominan en la descripción de funcionalidades. Crucialmente, todos los modelos luchan con la lógica de interacción compleja de acciones poco comunes, destacando que la comprensión funcional profunda sigue siendo un obstáculo significativo. Al medir sistemáticamente estas capacidades fundamentales, AutoGUI-v2 ofrece una nueva perspectiva para avanzar en la próxima generación de agentes de GUI.
La fundamentación de elementos de interfaz gráfica de usuario (GUI) (localizar con precisión elementos en capturas de pantalla basándose en instrucciones en lenguaje natural) es fundamental para los agentes que interactúan con GUI. Desplegar esta capacidad directamente en dispositivos con recursos limitados, como teléfonos móviles, es cada vez más crítico para los agentes de GUI que requieren baja latencia. Sin embargo, este objetivo enfrenta un desafío significativo, ya que los métodos actuales de fundamentación visual suelen emplear grandes modelos de visión y lenguaje (VLM) (con más de 2.5B parámetros), lo que los hace impracticables para su ejecución en el dispositivo debido a las limitaciones de memoria y computación. Para abordar esto, este artículo presenta GoClick, un VLM liviano para fundamentación de elementos GUI con solo 230M parámetros que logra una excelente precisión de fundamentación visual, incluso a la par de modelos significativamente más grandes. Simplemente reducir el tamaño de los VLMs existentes que solo tienen decodificador es una forma sencilla de diseñar un modelo liviano, pero nuestros experimentos revelan que este enfoque produce resultados subóptimos. En su lugar, seleccionamos una arquitectura de codificador-decodificador, que supera a las alternativas de solo decodificador en escalas de parámetros pequeñas para tareas de fundamentación de GUI. Adicionalmente, la capacidad limitada de los VLM pequeños nos impulsa a desarrollar un pipeline de Refinamiento Progresivo de Datos que utiliza filtrado por tipo de tarea y ajuste de proporción de datos para extraer un conjunto central de alta calidad de 3.8M muestras a partir de un conjunto de datos crudo de 10.8M. Entrenar GoClick usando este conjunto central aporta ganancias notables en la precisión de la fundamentación. Nuestros experimentos muestran que GoClick sobresale en múltiples benchmarks de fundamentación de elementos GUI, manteniendo un tamaño reducido y una alta velocidad de inferencia. GoClick también mejora el rendimiento de los agentes de GUI cuando se integra en un marco de colaboración dispositivo-nube, donde GoClick ayuda a los planificadores de tareas basados en la nube a realizar una localización precisa de elementos y lograr tasas de éxito más altas. Esperamos que nuestro método sirva como una exploración significativa dentro de la comunidad de agentes de GUI.
La evaluación de la equidad en los sistemas de recomendación ha adquirido una importancia creciente, especialmente con la reciente legislación que enfatiza el desarrollo de una inteligencia artificial justa y responsable. Esto ha dado lugar a la aparición de diversas medidas de evaluación de la equidad, que cuantifican la justicia basándose en diferentes definiciones. Sin embargo, muchas de estas medidas se proponen y utilizan sin un análisis más profundo sobre su robustez. Como resultado, existe una comprensión y conciencia insuficientes sobre las limitaciones de las medidas. Entre otros problemas, se desconoce qué tipo de salidas del modelo producen la puntuación más (in)justa, cómo se distribuyen empíricamente las puntuaciones de la medida y si existen casos en los que las medidas no pueden calcularse (por ejemplo, debido a una división por cero). Estos problemas dificultan la interpretación de las puntuaciones de las medidas y generan confusión sobre qué medida o medidas deben utilizarse para un caso específico. Esta tesis presenta una serie de artículos que evalúan y superan diversas limitaciones teóricas, empíricas y conceptuales de las medidas existentes para evaluar la equidad en los sistemas de recomendación. Investigamos una amplia gama de medidas de evaluación offline para diferentes nociones de equidad, divididas en función de los sujetos de evaluación (usuarios e ítems) y para diferentes granularidades de evaluación (grupos de sujetos y sujetos individuales). En primer lugar, realizamos un análisis teórico y empírico de las medidas, exponiendo deficiencias que limitan su interpretabilidad, expresividad o aplicabilidad. En segundo lugar, contribuimos con nuevos enfoques y medidas de evaluación que superan estas limitaciones. Finalmente, considerando las limitaciones de las medidas, recomendamos directrices para el uso adecuado de las medidas, permitiendo así una selección más precisa de las medidas de evaluación de la equidad en escenarios prácticos. En conjunto, esta tesis contribuye a avanzar en el estado del arte de la evaluación offline de la equidad en los sistemas de recomendación.