Artículos de investigación en IA seleccionados diariamente con traducciones
Los métodos anteriores de preentrenamiento de modelos de lenguaje han aplicado uniformemente una pérdida de predicción del siguiente token a todos los tokens de entrenamiento. Desafiando esta norma, proponemos que "No todos los tokens en un corpus son igualmente importantes para el entrenamiento de modelos de lenguaje". Nuestro análisis inicial profundiza en la dinámica de entrenamiento a nivel de token de los modelos de lenguaje, revelando patrones de pérdida distintos para diferentes tokens. Aprovechando estas ideas, presentamos un nuevo modelo de lenguaje llamado Rho-1. A diferencia de los modelos de lenguaje tradicionales que aprenden a predecir cada siguiente token en un corpus, Rho-1 emplea Modelado de Lenguaje Selectivo (SLM), que entrena selectivamente en tokens útiles alineados con la distribución deseada. Este enfoque implica puntuar los tokens de preentrenamiento utilizando un modelo de referencia y luego entrenar el modelo de lenguaje con una pérdida enfocada en tokens con mayor pérdida excesiva. Al realizar un preentrenamiento continuo en el corpus OpenWebMath de 15B, Rho-1 logra una mejora absoluta en la precisión de pocos ejemplos de hasta un 30% en 9 tareas matemáticas. Después del ajuste fino, Rho-1-1B y 7B alcanzaron resultados de vanguardia del 40.6% y 51.8% en el conjunto de datos MATH, respectivamente, igualando a DeepSeekMath con solo el 3% de los tokens de preentrenamiento. Además, al preentrenar con 80B tokens generales, Rho-1 logra una mejora promedio del 6.8% en 15 tareas diversas, aumentando tanto la eficiencia como el rendimiento del preentrenamiento de modelos de lenguaje.
Los agentes autónomos que realizan tareas informáticas complejas con intervención humana mínima tienen el potencial de transformar la interacción humano-computadora, mejorando significativamente la accesibilidad y la productividad. Sin embargo, los puntos de referencia existentes carecen de un entorno interactivo o se limitan a entornos específicos de ciertas aplicaciones o dominios, lo que no refleja la naturaleza diversa y compleja del uso real de computadoras, limitando así el alcance de las tareas y la escalabilidad de los agentes. Para abordar este problema, presentamos OSWorld, el primer entorno informático real escalable para agentes multimodales, que admite la configuración de tareas, la evaluación basada en la ejecución y el aprendizaje interactivo en varios sistemas operativos como Ubuntu, Windows y macOS. OSWorld puede servir como un entorno informático unificado e integrado para evaluar tareas informáticas abiertas que involucran aplicaciones arbitrarias. Basándonos en OSWorld, creamos un punto de referencia de 369 tareas informáticas que involucran aplicaciones web y de escritorio reales en dominios abiertos, operaciones de E/S de archivos del sistema operativo y flujos de trabajo que abarcan múltiples aplicaciones. Cada ejemplo de tarea se deriva de casos de uso real de computadoras e incluye una configuración detallada del estado inicial y un script de evaluación basado en la ejecución para una evaluación confiable y reproducible. Una evaluación extensa de los agentes basados en LLM/VLM de última generación en OSWorld revela deficiencias significativas en su capacidad para servir como asistentes informáticos. Mientras que los humanos pueden completar más del 72.36% de las tareas, el mejor modelo logra solo un 12.24% de éxito, principalmente debido a dificultades con la interpretación de interfaces gráficas y el conocimiento operativo. Un análisis exhaustivo utilizando OSWorld proporciona información valiosa para el desarrollo de agentes generalistas multimodales que no era posible con puntos de referencia anteriores. Nuestro código, entorno, modelos de referencia y datos están disponibles públicamente en https://os-world.github.io.
Para mejorar la controlabilidad de los modelos de difusión de texto a imagen, esfuerzos existentes como ControlNet incorporaron controles condicionales basados en imágenes. En este artículo, revelamos que los métodos actuales aún enfrentan desafíos significativos al generar imágenes que se alineen con los controles condicionales de imagen. Para abordar esto, proponemos ControlNet++, un enfoque novedoso que mejora la generación controlable optimizando explícitamente la consistencia cíclica a nivel de píxeles entre las imágenes generadas y los controles condicionales. Específicamente, para un control condicional de entrada, utilizamos un modelo de recompensa discriminativo preentrenado para extraer la condición correspondiente de las imágenes generadas, y luego optimizamos la pérdida de consistencia entre el control condicional de entrada y la condición extraída. Una implementación directa sería generar imágenes a partir de ruidos aleatorios y luego calcular la pérdida de consistencia, pero este enfoque requiere almacenar gradientes para múltiples pasos de muestreo, lo que conlleva costos considerables de tiempo y memoria. Para abordar esto, introducimos una estrategia de recompensa eficiente que perturba deliberadamente las imágenes de entrada añadiendo ruido, y luego utiliza las imágenes desruidificadas en un solo paso para el ajuste fino de la recompensa. Esto evita los costos extensos asociados con el muestreo de imágenes, permitiendo un ajuste fino de la recompensa más eficiente. Experimentos extensos muestran que ControlNet++ mejora significativamente la controlabilidad bajo diversos controles condicionales. Por ejemplo, logra mejoras sobre ControlNet de 7.9% mIoU, 13.4% SSIM y 7.6% RMSE, respectivamente, para condiciones de máscara de segmentación, bordes de arte lineal y profundidad.
Presentamos RecurrentGemma, un modelo de lenguaje abierto que utiliza la novedosa arquitectura Griffin de Google. Griffin combina recurrencias lineales con atención local para lograr un rendimiento excepcional en tareas de lenguaje. Posee un estado de tamaño fijo, lo que reduce el uso de memoria y permite una inferencia eficiente en secuencias largas. Ofrecemos un modelo preentrenado con 2B parámetros no incrustados, junto con una variante ajustada por instrucciones. Ambos modelos alcanzan un rendimiento comparable a Gemma-2B a pesar de haber sido entrenados con menos tokens.
Mientras que Ferret integra de manera fluida la comprensión regional en el Modelo de Lenguaje de Gran Escala (LLM) para facilitar su capacidad de referencia y anclaje, presenta ciertas limitaciones: está restringido por el codificador visual fijo preentrenado y no logra un buen desempeño en tareas más amplias. En este trabajo, presentamos Ferret-v2, una mejora significativa de Ferret, con tres diseños clave. (1) Anclaje y referencia en cualquier resolución: Un enfoque flexible que maneja sin esfuerzo imágenes de mayor resolución, mejorando la capacidad del modelo para procesar y comprender imágenes con mayor detalle. (2) Codificación visual multi-granularidad: Al integrar el codificador adicional DINOv2, el modelo aprende mejor y captura contextos subyacentes diversos para información visual global y de grano fino. (3) Un paradigma de entrenamiento en tres etapas: Además de la alineación imagen-texto, se propone una etapa adicional para la alineación densa de alta resolución antes del ajuste final por instrucción. Los experimentos muestran que Ferret-v2 ofrece mejoras sustanciales sobre Ferret y otros métodos de vanguardia, gracias a su escalado de alta resolución y procesamiento visual de grano fino.
El éxito de los modelos de IA depende de la disponibilidad de conjuntos de datos grandes, diversos y de alta calidad, los cuales pueden ser difíciles de obtener debido a la escasez de datos, preocupaciones de privacidad y altos costos. Los datos sintéticos han surgido como una solución prometedora al generar datos artificiales que imitan patrones del mundo real. Este artículo ofrece una visión general de la investigación sobre datos sintéticos, discutiendo sus aplicaciones, desafíos y direcciones futuras. Presentamos evidencia empírica de trabajos previos para demostrar su efectividad y destacamos la importancia de garantizar su factualidad, fidelidad y ausencia de sesgos. Enfatizamos la necesidad de un uso responsable de los datos sintéticos para construir modelos de lenguaje más potentes, inclusivos y confiables.
El procesamiento de contextos largos sigue siendo un desafío para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) debido al sobrecosto computacional y de memoria cuadrático del mecanismo de autoatención y a los tamaños sustanciales de la caché KV durante la generación. Proponemos un enfoque novedoso para abordar este problema mediante el aprendizaje de contextos fuera de línea a través de la compresión de contexto y el ajuste fino eficiente en parámetros dentro del dominio. Nuestro método permite que un LLM cree una representación concisa del contexto original y recupere de manera eficiente la información relevante para responder preguntas con precisión. Introducimos LLoCO, una técnica que combina compresión de contexto, recuperación y ajuste fino eficiente en parámetros utilizando LoRA. Nuestro enfoque extiende la ventana de contexto efectiva de un modelo LLaMA2-7B de 4k tokens para manejar hasta 128k tokens. Evaluamos nuestro enfoque en varios conjuntos de datos de preguntas y respuestas de contexto largo, demostrando que LLoCO supera significativamente al aprendizaje en contexto mientras utiliza 30 veces menos tokens durante la inferencia. LLoCO logra una aceleración de hasta 7.62 veces y reduce sustancialmente el costo de responder preguntas sobre documentos largos, convirtiéndolo en una solución prometedora para el procesamiento eficiente de contextos largos. Nuestro código está disponible públicamente en https://github.com/jeffreysijuntan/lloco.
En el ámbito de la investigación de agentes web, lograr tanto la generalización como la precisión sigue siendo un problema desafiante. Debido a la alta variabilidad en la estructura de los sitios web, los enfoques existentes a menudo fallan. Además, las técnicas actuales de ajuste fino y aprendizaje en contexto no logran generalizar en múltiples sitios web. Presentamos Wilbur, un enfoque que utiliza un modelo de clasificación diferenciable y una novedosa técnica de síntesis de instrucciones para poblar de manera óptima el prompt de un modelo de lenguaje de gran escala de caja negra con demostraciones de tareas de ejecuciones anteriores. Para maximizar las tasas de éxito de extremo a extremo, también proponemos un mecanismo de retroceso inteligente que aprende y se recupera de sus errores. Finalmente, demostramos que nuestro modelo de clasificación puede entrenarse con datos de un currículo automático generativo que muestrea objetivos representativos de un modelo de lenguaje, ejecuta el agente y lo evalúa automáticamente, sin necesidad de anotación manual. Wilbur logra resultados de vanguardia en el benchmark WebVoyager, superando a los modelos basados únicamente en texto en un 8% en general, y hasta en un 36% en ciertos sitios web. En el mismo benchmark, Wilbur está dentro del 5% de un modelo multimodal fuerte a pesar de recibir únicamente entradas textuales, y un análisis más detallado revela que un número considerable de fallos se debe a desafíos de ingeniería en la operación de la web.
La red recurrente lineal jerárquicamente controlada (HGRN, Qin et al. 2023) ha demostrado una velocidad de entrenamiento y un rendimiento competitivos en modelado de lenguaje, además de ofrecer una inferencia eficiente. Sin embargo, el tamaño del estado recurrente de HGRN sigue siendo relativamente pequeño, lo que limita su expresividad. Para abordar este problema, inspirados por la atención lineal, introducimos un mecanismo simple de expansión del estado basado en el producto externo, de modo que el tamaño del estado recurrente pueda ampliarse significativamente sin introducir parámetros adicionales. La forma de atención lineal también permite un entrenamiento eficiente en hardware. Nuestros extensos experimentos verifican la ventaja de HGRN2 sobre HGRN1 en modelado de lenguaje, clasificación de imágenes y Long Range Arena. Nuestro modelo HGRN2 más grande, de 3B, supera ligeramente a Mamba y al Transformer de arquitectura LLaMa en modelado de lenguaje en un entorno de experimentación controlada; y compite de manera competitiva con muchos modelos de código abierto de 3B en evaluaciones posteriores, utilizando muchos menos tokens de entrenamiento en total.
La guía es una técnica crucial para extraer el mejor rendimiento de los modelos de difusión generadores de imágenes. Tradicionalmente, se ha aplicado un peso de guía constante a lo largo de la cadena de muestreo de una imagen. Demostramos que la guía es claramente perjudicial al inicio de la cadena (niveles altos de ruido), en gran medida innecesaria hacia el final (niveles bajos de ruido), y solo beneficiosa en el medio. Por lo tanto, la restringimos a un rango específico de niveles de ruido, mejorando tanto la velocidad de inferencia como la calidad de los resultados. Este intervalo de guía limitado mejora significativamente el récord de FID en ImageNet-512, pasando de 1.81 a 1.40. Demostramos que es cuantitativa y cualitativamente beneficioso en diferentes parámetros de muestreo, arquitecturas de red y conjuntos de datos, incluyendo el entorno a gran escala de Stable Diffusion XL. Por lo tanto, sugerimos exponer el intervalo de guía como un hiperparámetro en todos los modelos de difusión que utilizan guía.
La detección de carriles es una tarea fundamental en la conducción autónoma y ha logrado grandes avances con el surgimiento del aprendizaje profundo. Los métodos anteriores basados en anclajes suelen diseñar anclajes densos, que dependen en gran medida del conjunto de datos de entrenamiento y permanecen fijos durante la inferencia. Analizamos que los anclajes densos no son necesarios para la detección de carriles y proponemos un marco de detección de carriles basado en transformadores que utiliza un mecanismo de anclajes dispersos. Para ello, generamos anclajes dispersos con consultas de carril conscientes de la posición y consultas de ángulo, en lugar de los anclajes explícitos tradicionales. Adoptamos la Atención Perceptual Horizontal (HPA) para agregar las características del carril a lo largo de la dirección horizontal, y utilizamos la Atención Cruzada Carril-Ángulo (LACA) para realizar interacciones entre las consultas de carril y las consultas de ángulo. También proponemos la Atención Perceptual de Carril (LPA) basada en la atención cruzada deformable para refinar aún más las predicciones de carril. Nuestro método, denominado Sparse Laneformer, es fácil de implementar y entrenable de extremo a extremo. Experimentos exhaustivos demuestran que Sparse Laneformer supera favorablemente a los métodos más avanzados, por ejemplo, superando a Laneformer en un 3.0% en puntuación F1 y a O2SFormer en un 0.7% en puntuación F1, con menos operaciones MAC en CULane utilizando la misma arquitectura ResNet-34.