Artículos de investigación en IA seleccionados diariamente con traducciones
Los agentes de Interfaz Gráfica de Usuario (GUI) impulsados por Modelos de Visión-Lenguaje (VLM) han demostrado capacidad de control de computadora similar a la humana. A pesar de su utilidad en el avance de la automatización digital, persiste un cuello de botella crítico: la recopilación de datos de trayectoria de alta calidad para el entrenamiento. Las prácticas comunes para recopilar dichos datos dependen de la supervisión humana o la generación de datos sintéticos mediante la ejecución de tareas predefinidas, que son o bien intensivas en recursos o no pueden garantizar la calidad de los datos. Además, estos métodos sufren de una diversidad limitada de datos y brechas significativas entre los datos sintéticos y los entornos del mundo real. Para abordar estos desafíos, proponemos OS-Genesis, un nuevo proceso de síntesis de datos de GUI que invierte el proceso convencional de recopilación de trayectorias. En lugar de depender de tareas predefinidas, OS-Genesis permite a los agentes primero percibir los entornos y realizar interacciones paso a paso, para luego derivar retrospectivamente tareas de alta calidad que permitan la exploración a nivel de trayectoria. Luego se emplea un modelo de recompensa de trayectoria para garantizar la calidad de las trayectorias generadas. Demostramos que entrenar agentes de GUI con OS-Genesis mejora significativamente su rendimiento en desafiantes benchmarks en línea. Un análisis detallado valida aún más la eficiencia de OS-Genesis y su calidad y diversidad de datos superiores en comparación con los métodos de síntesis existentes. Nuestros códigos, datos y puntos de control están disponibles en https://qiushisun.github.io/OS-Genesis-Home/{Página de inicio de OS-Genesis}.
Xmodel-2 es un modelo de lenguaje grande con 1.2 mil millones de parámetros diseñado específicamente para tareas de razonamiento. Su arquitectura permite que diferentes escalas de modelos compartan un conjunto unificado de hiperparámetros, lo que permite una experimentación extensiva en modelos más pequeños y una transferencia fluida de configuraciones óptimas a modelos más grandes. Para maximizar la eficiencia y estabilidad del entrenamiento, Xmodel-2 emplea el programador de tasas de aprendizaje WSD de MiniCPM. Pre-entrenado en 1.5 billones de tokens de diversas fuentes, Xmodel-2 logra un rendimiento de vanguardia en tareas de razonamiento complejo y basadas en agentes, manteniendo bajos costos de entrenamiento. Estos resultados resaltan el potencial del diseño eficiente de modelos y estrategias de entrenamiento en el avance de las capacidades de razonamiento. Los puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/XiaoduoAILab/Xmodel-2
Los Modelos de Visión-Lenguaje a Gran Escala (VLMs) han avanzado al alinear las entradas visuales con texto, mejorando significativamente el rendimiento en tareas de visión por computadora. Además, para que los VLMs sean utilizados de manera efectiva en aplicaciones del mundo real, es esencial comprender diversos datos de sensores de múltiples visiones, como información térmica, de profundidad y de rayos X. Sin embargo, observamos que los VLMs actuales procesan imágenes de sensores de múltiples visiones sin comprender profundamente la información del sensor, ignorando las propiedades físicas únicas de cada sensor. Esta limitación restringe su capacidad para interpretar y responder a preguntas complejas que requieren razonamiento de sensores de múltiples visiones. Para abordar esto, proponemos un nuevo banco de pruebas de Percepción y Razonamiento de Sensores de Múltiples Visiones (MS-PR), evaluando a los VLMs en su capacidad para el razonamiento específico del sensor. Además, introducimos la optimización de Atributos Negativos Diversos (DNA) para permitir que los VLMs realicen un razonamiento profundo en tareas de sensores de múltiples visiones, ayudando a cerrar la brecha de información fundamental entre imágenes y datos de sensores. Resultados experimentales extensos validan que el método DNA propuesto puede mejorar significativamente el razonamiento de sensores de múltiples visiones para los VLMs.
Presentamos HunyuanProver, un modelo de lenguaje ajustado finamente a partir del Hunyuan 7B para demostración automática interactiva de teoremas con LEAN4. Para mitigar el problema de la escasez de datos, diseñamos un marco escalable para sintetizar datos de forma iterativa con bajo costo. Además, se diseñaron algoritmos de búsqueda de árbol guiados para habilitar un efectivo "pensamiento del sistema 2" del demostrador. HunyuanProver logra un rendimiento de vanguardia (SOTA) en importantes puntos de referencia. Específicamente, alcanza un 68.4% de aprobación en la miniF2F-test en comparación con el 65.9%, los resultados SOTA actuales. Demuestra 4 declaraciones IMO (imo_1960_p2, imo_1962_p2, imo_1964_p2 e imo_1983_p6) en la miniF2F-test. Para beneficiar a la comunidad, compartiremos de forma abierta un conjunto de datos de 30k instancias sintetizadas, donde cada instancia contiene la pregunta original en lenguaje natural, la declaración convertida por autoformalización y la demostración realizada por HunyuanProver.
Si bien los modelos de difusión muestran talentos extraordinarios en la generación de texto a imagen, aún pueden fallar en generar imágenes altamente estéticas. Específicamente, todavía existe una brecha entre las imágenes generadas y las imágenes estéticas del mundo real en dimensiones más detalladas que incluyen color, iluminación, composición, etc. En este documento, proponemos el Adaptador de Control de Mezcla de Valor de Atención Cruzada (VMix), un adaptador estético plug-and-play, para mejorar la calidad de las imágenes generadas manteniendo la generalidad en conceptos visuales mediante (1) la disociación del texto de entrada en la descripción de contenido y descripción estética mediante la inicialización de la incrustación estética, y (2) la integración de condiciones estéticas en el proceso de eliminación de ruido a través de atención cruzada con mezcla de valores, con la red conectada por capas lineales inicializadas en cero. Nuestra idea clave es mejorar la presentación estética de los modelos de difusión existentes mediante el diseño de un método de control de condiciones superior, todo mientras se preserva la alineación imagen-texto. A través de nuestro diseño meticuloso, VMix es lo suficientemente flexible como para aplicarse a modelos comunitarios para obtener un mejor rendimiento visual sin necesidad de volver a entrenar. Para validar la efectividad de nuestro método, realizamos experimentos extensos, demostrando que VMix supera a otros métodos de vanguardia y es compatible con otros módulos comunitarios (por ejemplo, LoRA, ControlNet y IPAdapter) para la generación de imágenes. La página del proyecto es https://vmix-diffusion.github.io/VMix/.