Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes éxitos revolucionarios en el aprendizaje automático se atribuyen principalmente a la escala: concretamente, a arquitecturas basadas en atención a gran escala y conjuntos de datos de un tamaño sin precedentes. Este artículo investiga el impacto del entrenamiento a gran escala en el ajedrez. A diferencia de los motores de ajedrez tradicionales que dependen de heurísticas complejas, búsquedas explícitas o una combinación de ambas, entrenamos un modelo transformador de 270 millones de parámetros con aprendizaje supervisado en un conjunto de datos de 10 millones de partidas de ajedrez. Anotamos cada tablero en el conjunto de datos con valores de acción proporcionados por el potente motor Stockfish 16, lo que resulta en aproximadamente 15 mil millones de puntos de datos. Nuestro modelo más grande alcanza un Elo de 2895 en blitz en Lichess contra humanos y resuelve con éxito una serie de problemas de ajedrez desafiantes, sin ajustes específicos del dominio ni algoritmos de búsqueda explícitos. También demostramos que nuestro modelo supera a las redes de política y valor de AlphaZero (sin MCTS) y a GPT-3.5-turbo-instruct. Una investigación sistemática del tamaño del modelo y del conjunto de datos muestra que un rendimiento fuerte en ajedrez solo surge a una escala suficiente. Para validar nuestros resultados, realizamos una extensa serie de ablaciones de decisiones de diseño e hiperparámetros.
Las interfaces de usuario (UI) en pantalla y las infografías, que comparten un lenguaje visual y principios de diseño similares, desempeñan un papel importante en la comunicación humana y en la interacción hombre-máquina. Presentamos ScreenAI, un modelo de visión y lenguaje especializado en la comprensión de interfaces de usuario e infografías. Nuestro modelo mejora la arquitectura PaLI con la estrategia flexible de parcheo de pix2struct y se entrena con una mezcla única de conjuntos de datos. En el núcleo de esta mezcla se encuentra una novedosa tarea de anotación de pantallas, en la que el modelo debe identificar el tipo y la ubicación de los elementos de la interfaz de usuario. Utilizamos estas anotaciones de texto para describir pantallas a modelos de lenguaje grandes (LLM) y generar automáticamente conjuntos de datos de entrenamiento a gran escala para tareas de preguntas y respuestas (QA), navegación en interfaces y resumen. Realizamos estudios de ablación para demostrar el impacto de estas decisiones de diseño. Con solo 5 mil millones de parámetros, ScreenAI logra nuevos resultados de vanguardia en tareas basadas en interfaces de usuario e infografías (Multi-page DocVQA, WebSRC, MoTIF y Widget Captioning), y un rendimiento líder en otras (Chart QA, DocVQA e InfographicVQA) en comparación con modelos de tamaño similar. Finalmente, publicamos tres nuevos conjuntos de datos: uno centrado en la tarea de anotación de pantallas y otros dos enfocados en preguntas y respuestas.
Los métodos de alineación directa a partir de preferencias (DAP, por sus siglas en inglés), como DPO, han surgido recientemente como alternativas eficientes al aprendizaje por refuerzo con retroalimentación humana (RLHF), ya que no requieren un modelo de recompensa separado. Sin embargo, los conjuntos de datos de preferencias utilizados en los métodos DAP generalmente se recopilan antes del entrenamiento y nunca se actualizan, por lo que la retroalimentación es puramente offline. Además, las respuestas en estos conjuntos de datos a menudo se muestrean a partir de un modelo de lenguaje distinto al que se está alineando, y dado que el modelo evoluciona durante el entrenamiento, la fase de alineación es inevitablemente off-policy. En este estudio, postulamos que la retroalimentación en línea es clave y mejora los métodos DAP. Nuestro método, retroalimentación de IA en línea (OAIF, por sus siglas en inglés), utiliza un modelo de lenguaje grande (LLM) como anotador: en cada iteración de entrenamiento, muestreamos dos respuestas del modelo actual y solicitamos al LLM anotador que elija cuál es preferida, proporcionando así retroalimentación en línea. A pesar de su simplicidad, demostramos mediante evaluación humana en varias tareas que OAIF supera tanto a los métodos DAP offline como a RLHF. Además, mostramos que la retroalimentación utilizada en OAIF es fácilmente controlable mediante instrucciones dirigidas al LLM anotador.
La creación de contenido 3D ha logrado avances significativos tanto en calidad como en velocidad. Aunque los modelos de propagación directa actuales pueden producir objetos 3D en cuestión de segundos, su resolución está limitada por el intenso cómputo requerido durante el entrenamiento. En este artículo, presentamos el Large Multi-View Gaussian Model (LGM), un marco novedoso diseñado para generar modelos 3D de alta resolución a partir de indicaciones de texto o imágenes de una sola vista. Nuestras ideas clave son dos: 1) Representación 3D: Proponemos características Gaussianas multi-vista como una representación eficiente pero potente, que luego pueden fusionarse para un renderizado diferenciable. 2) Backbone 3D: Presentamos una U-Net asimétrica como un backbone de alto rendimiento que opera en imágenes multi-vista, las cuales pueden generarse a partir de texto o una imagen de una sola vista utilizando modelos de difusión multi-vista. Experimentos exhaustivos demuestran la alta fidelidad y eficiencia de nuestro enfoque. Destacamos que mantenemos la velocidad rápida para generar objetos 3D en menos de 5 segundos, mientras aumentamos la resolución de entrenamiento a 512, logrando así la generación de contenido 3D de alta resolución.
Presentamos EfficientViT-SAM, una nueva familia de modelos acelerados para segmentar cualquier cosa. Mantenemos el codificador de indicaciones ligero y el decodificador de máscaras de SAM, mientras reemplazamos el pesado codificador de imágenes con EfficientViT. Para el entrenamiento, comenzamos con la destilación de conocimiento desde el codificador de imágenes SAM-ViT-H hacia EfficientViT. Posteriormente, realizamos un entrenamiento de extremo a extremo en el conjunto de datos SA-1B. Beneficiándose de la eficiencia y capacidad de EfficientViT, EfficientViT-SAM ofrece una aceleración de 48.9x medida con TensorRT en la GPU A100 en comparación con SAM-ViT-H, sin sacrificar el rendimiento. Nuestro código y modelos preentrenados están disponibles en https://github.com/mit-han-lab/efficientvit.
Los grandes modelos de lenguaje (LLMs) basados en Transformers ahora están desplegados para cientos de millones de usuarios. La inferencia de LLMs comúnmente se realiza en lotes de secuencias que comparten un prefijo, como ejemplos de pocos disparos o un mensaje de sistema de un chatbot. La decodificación en este entorno de grandes lotes puede verse limitada por la operación de atención, que lee grandes cachés de clave-valor (KV) desde la memoria y calcula productos matriz-vector ineficientes para cada secuencia en el lote. En este trabajo, presentamos Hydragen, una implementación exacta y consciente del hardware de la atención con prefijos compartidos. Hydragen calcula la atención sobre el prefijo compartido y los sufijos únicos por separado. Esta descomposición permite una atención eficiente sobre el prefijo al agrupar consultas entre secuencias, reduciendo lecturas redundantes de memoria y permitiendo el uso de multiplicaciones matriciales amigables con el hardware. Nuestro método puede mejorar el rendimiento de extremo a extremo de los LLMs hasta 32 veces en comparación con líneas base competitivas, con una aceleración que crece con el tamaño del lote y la longitud del prefijo compartido. Hydragen también permite el uso de contextos compartidos muy largos: con un tamaño de lote alto, aumentar la longitud del prefijo de 1K a 16K tokens disminuye el rendimiento de Hydragen en menos del 15%, mientras que el rendimiento de las líneas base cae más del 90%. Hydragen se generaliza más allá de la simple descomposición prefijo-sufijo y puede aplicarse a patrones de compartición de mensajes basados en árboles, permitiéndonos reducir aún más el tiempo de inferencia en problemas de programación competitiva en un 55%.
Los modelos de lenguaje de gran escala están resolviendo cada vez más tareas que comúnmente se cree que requieren una capacidad de razonamiento a nivel humano. Sin embargo, estos modelos aún tienen un rendimiento muy pobre en puntos de referencia de inteligencia general, como el Corpus de Abstracción y Razonamiento (ARC, por sus siglas en inglés). En este artículo, abordamos ARC como un problema de programación por ejemplos e introducimos un método novedoso y escalable para la automejora de modelos de lenguaje llamado Iteración de Código (CodeIt). Nuestro método itera entre 1) muestreo de programas y reetiquetado retrospectivo, y 2) aprendizaje a partir de la reproducción priorizada de experiencias. Al reetiquetar el objetivo de un episodio (es decir, la salida del programa objetivo dada una entrada) con la salida real producida por el programa muestreado, nuestro método aborda eficazmente la extrema escasez de recompensas en la síntesis de programas. Al aplicar CodeIt al conjunto de datos ARC, demostramos que la reproducción retrospectiva priorizada, junto con el preentrenamiento y la aumentación de datos, conduce a una generalización exitosa entre tareas. CodeIt es el primer enfoque neuro-simbólico que escala al conjunto completo de datos de evaluación ARC. Nuestro método resuelve el 15% de las tareas de evaluación de ARC, logrando un rendimiento de vanguardia y superando a los enfoques neuronales y simbólicos existentes.
Las atenciones lineales han demostrado potencial para mejorar la eficiencia de los Transformers, reduciendo la complejidad cuadrática de la atención a lineal en la longitud de la secuencia. Esto ofrece perspectivas emocionantes para (1) entrenar Transformers lineales desde cero, (2) la "conversión ajustada" de Transformers específicos para tareas en versiones lineales que recuperen el rendimiento de la tarea, y (3) la "conversión preentrenada" de Transformers, como modelos de lenguaje grandes, en versiones lineales ajustables para tareas posteriores. Sin embargo, las atenciones lineales a menudo tienen un rendimiento inferior al de la atención softmax estándar en términos de calidad. Para cerrar esta brecha de rendimiento, encontramos que las atenciones lineales previas carecen de propiedades clave de la atención softmax vinculadas a un buen rendimiento: pesos de baja entropía (o "puntiagudos") y monotonicidad del producto escalar. Además, observamos mapas de características sorprendentemente simples que conservan estas propiedades y coinciden con el rendimiento de softmax, pero son ineficientes de calcular en la atención lineal. Por lo tanto, proponemos Hedgehog, una atención lineal aprendible que conserva las propiedades puntiagudas y monótonas de la atención softmax mientras mantiene la complejidad lineal. Hedgehog utiliza MLPs entrenables simples para producir pesos de atención que imitan la atención softmax. Los experimentos muestran que Hedgehog recupera más del 99% de la calidad del Transformer estándar en configuraciones de entrenamiento desde cero y conversión ajustada, superando a las atenciones lineales previas hasta en 6 puntos de perplejidad en WikiText-103 con GPTs causales, y hasta en 8.7 puntos de puntuación GLUE en BERTs bidireccionales ajustados. Hedgehog también permite la conversión preentrenada. Convertir un GPT-2 preentrenado en una variante de atención lineal logra un estado del arte de 16.7 de perplejidad en WikiText-103 para modelos decodificadores subcuadráticos de 125M. Finalmente, convertimos un Llama-2 7B preentrenado en un Llama viable con atención lineal. Con adaptación de bajo rango, Hedgehog-Llama2 7B logra 28.1 puntos ROUGE-1 más altos que el modelo base de atención estándar, donde las atenciones lineales previas provocan caídas de 16.5 puntos.
Generar audio estéreo de larga duración a 44.1 kHz a partir de indicaciones de texto puede ser computacionalmente exigente. Además, la mayoría de los trabajos anteriores no abordan que la música y los efectos de sonido varían naturalmente en su duración. Nuestra investigación se centra en la generación eficiente de música y sonidos estéreo de larga duración y longitud variable a 44.1 kHz utilizando indicaciones de texto con un modelo generativo. Stable Audio se basa en difusión latente, con su espacio latente definido por un autoencoder variacional completamente convolucional. Está condicionado por indicaciones de texto, así como por incrustaciones de tiempo, lo que permite un control preciso tanto del contenido como de la duración de la música y los sonidos generados. Stable Audio es capaz de renderizar señales estéreo de hasta 95 segundos a 44.1 kHz en 8 segundos en una GPU A100. A pesar de su eficiencia computacional y su inferencia rápida, es uno de los mejores en dos benchmarks públicos de texto a música y audio y, a diferencia de los modelos más avanzados, puede generar música con estructura y sonidos estéreo.
En este artículo, presentamos un método novedoso que reduce la latencia de inferencia del modelo durante el despliegue distribuido de Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Nuestra contribución es un esquema de despliegue de inferencia optimizado que aborda las limitaciones actuales de los núcleos de cuantización de última generación cuando se utilizan junto con Paralelismo de Tensores (TP, por sus siglas en inglés). Nuestro método preserva la localidad de los datos en los patrones de acceso a la memoria de la GPU y aprovecha el conocimiento a priori del TP para reducir la comunicación global. Demostramos una aceleración de hasta 1.81x sobre los métodos existentes para Llama-70B y hasta 1.78x para los tamaños de problema de la capa MLP de Granite-20B de IBM WatsonX en sistemas NVIDIA DGX A100 y H100 para una variedad de configuraciones de TP.
La esparsidad estructurada N:M ha generado un interés significativo debido a su sobrecarga relativamente modesta y a la mejora en la eficiencia. Además, esta forma de esparsidad resulta particularmente atractiva para reducir la huella de memoria, gracias a su representación con baja sobrecarga. Se han realizado esfuerzos para desarrollar métodos de entrenamiento para la esparsidad estructurada N:M, centrándose principalmente en regiones de baja esparsidad (∼50%). Sin embargo, el rendimiento de los modelos entrenados con estos enfoques tiende a disminuir cuando se enfrentan a regiones de alta esparsidad (>80%). En este trabajo, estudiamos la efectividad de las técnicas existentes de entrenamiento esparso en regiones de alta esparsidad y argumentamos que estos métodos no logran mantener la calidad del modelo al nivel de las regiones de baja esparsidad. Demostramos que el factor principal que contribuye a esta disparidad es la presencia de niveles elevados de ruido inducido en las magnitudes de los gradientes. Para mitigar este efecto indeseable, empleamos mecanismos de decaimiento para restringir progresivamente el flujo de gradientes hacia los elementos podados. Nuestro enfoque mejora la calidad del modelo hasta en un 2% y un 5% en modelos de visión y lenguaje, respectivamente, en regímenes de alta esparsidad. También evaluamos la relación entre la precisión del modelo y el costo computacional del entrenamiento en términos de FLOPs. Con un número equivalente de FLOPs de entrenamiento, nuestro método ofrece un mejor rendimiento en comparación con las técnicas convencionales de entrenamiento esparso, mostrando una mejora en la precisión de hasta un 2%. El código fuente está disponible en https://github.com/abhibambhaniya/progressive_gradient_flow_nm_sparsity.