Artículos de investigación en IA seleccionados diariamente con traducciones
El creciente tamaño de los modelos de lenguaje grandes ha planteado desafíos para su implementación y ha generado preocupaciones sobre el impacto ambiental debido al alto consumo de energía. En este trabajo, presentamos BitNet, una arquitectura Transformer escalable y estable de 1 bit diseñada para modelos de lenguaje grandes. Específicamente, introducimos BitLinear como un reemplazo directo de la capa nn.Linear para entrenar pesos de 1 bit desde cero. Los resultados experimentales en modelado de lenguaje muestran que BitNet logra un rendimiento competitivo mientras reduce sustancialmente la huella de memoria y el consumo de energía, en comparación con los métodos de cuantización de 8 bits más avanzados y los baselines Transformer FP16. Además, BitNet exhibe una ley de escalado similar a los Transformers de precisión completa, lo que sugiere su potencial para escalar eficazmente a modelos de lenguaje aún más grandes, manteniendo los beneficios de eficiencia y rendimiento.
Este artículo se enfoca en la síntesis de vistas en tiempo real y alta fidelidad de escenas 3D dinámicas en resolución 4K. Recientemente, algunos métodos para la síntesis de vistas dinámicas han mostrado una calidad de renderizado impresionante. Sin embargo, su velocidad sigue siendo limitada al renderizar imágenes de alta resolución. Para superar este problema, proponemos 4K4D, una representación de nube de puntos 4D que admite rasterización por hardware y permite una velocidad de renderizado sin precedentes. Nuestra representación se basa en una cuadrícula de características 4D, de modo que los puntos están naturalmente regularizados y pueden optimizarse de manera robusta. Además, diseñamos un novedoso modelo híbrido de apariencia que mejora significativamente la calidad del renderizado mientras mantiene la eficiencia. Asimismo, desarrollamos un algoritmo diferenciable de pelado de profundidad para aprender efectivamente el modelo propuesto a partir de videos RGB. Los experimentos muestran que nuestra representación puede renderizarse a más de 400 FPS en el conjunto de datos DNA-Rendering en resolución 1080p y a 80 FPS en el conjunto de datos ENeRF-Outdoor en resolución 4K utilizando una GPU RTX 4090, lo cual es 30 veces más rápido que los métodos anteriores y alcanza la calidad de renderizado más avanzada. Liberaremos el código para garantizar la reproducibilidad.
La adaptación de bajo rango (LoRA) es un método popular que reduce el número de parámetros entrenables al ajustar modelos de lenguaje grandes, pero aún enfrenta desafíos significativos de almacenamiento al escalar a modelos aún más grandes o al implementar numerosos modelos adaptados por usuario o por tarea. En este trabajo, presentamos la Adaptación de Matriz Aleatoria Basada en Vectores (VeRA), que reduce el número de parámetros entrenables en 10 veces en comparación con LoRA, manteniendo el mismo rendimiento. Esto se logra utilizando un único par de matrices de bajo rango compartidas en todas las capas y aprendiendo pequeños vectores de escalado en su lugar. Demostramos su efectividad en los puntos de referencia GLUE y E2E, y mostramos su aplicación en el seguimiento de instrucciones con solo 1.4 millones de parámetros utilizando el modelo Llama2 de 7B.
Presentamos Set-of-Mark (SoM), un nuevo método de indicación visual para liberar las capacidades de anclaje visual de los modelos multimodales grandes (LMMs), como GPT-4V. Como se ilustra en la Fig. 1 (derecha), utilizamos modelos de segmentación interactiva disponibles comercialmente, como SAM, para dividir una imagen en regiones con diferentes niveles de granularidad, y superponemos estas regiones con un conjunto de marcas, por ejemplo, alfanuméricos, máscaras, cuadros. Utilizando la imagen marcada como entrada, GPT-4V puede responder preguntas que requieren anclaje visual. Realizamos un estudio empírico exhaustivo para validar la efectividad de SoM en una amplia gama de tareas visuales y multimodales de grano fino. Por ejemplo, nuestros experimentos muestran que GPT-4V con SoM supera al modelo de segmentación referencial completamente ajustado más avanzado en RefCOCOg en un entorno de cero disparos.
Los modelos generativos de visión y lenguaje han experimentado un crecimiento exponencial en los últimos años. Para la generación de videos, se han lanzado diversos modelos de código abierto y servicios disponibles públicamente que permiten crear videos de alta calidad visual. Sin embargo, estos métodos suelen utilizar métricas académicas limitadas, como FVD o IS, para evaluar el rendimiento. Argumentamos que es difícil juzgar los modelos generativos condicionales de gran escala a partir de métricas simples, ya que estos modelos suelen entrenarse con conjuntos de datos muy grandes y poseen capacidades multifacéticas. Por ello, proponemos un nuevo marco y una metodología para evaluar exhaustivamente el rendimiento de los videos generados. Para lograrlo, primero elaboramos una nueva lista de prompts para la generación de texto a video, analizando listas de prompts del mundo real con la ayuda de un modelo de lenguaje grande. Luego, evaluamos los modelos generativos de video más avanzados en nuestros benchmarks cuidadosamente diseñados, considerando la calidad visual, la calidad del contenido, la calidad del movimiento y la alineación entre el texto y la descripción, utilizando alrededor de 18 métricas objetivas. Para obtener la clasificación final de los modelos, también ajustamos una serie de coeficientes para alinear las métricas objetivas con las opiniones de los usuarios. Basándonos en el método propuesto de alineación de opiniones, nuestra puntuación final muestra una mayor correlación que el simple promedio de las métricas, demostrando la efectividad del método de evaluación propuesto.
Los modelos de lenguaje de gran escala como ChatGPT demuestran una capacidad notable para aprender nuevos conceptos durante la inferencia sin necesidad de ajuste fino. Sin embargo, los modelos visuales entrenados para detectar nuevos objetos durante la inferencia no han podido replicar esta habilidad, y en su lugar, o bien tienen un rendimiento deficiente o requieren meta-entrenamiento y/o ajuste fino en objetos similares. En este trabajo, proponemos un algoritmo de meta-aprendizaje que emula a los modelos de lenguaje de gran escala al aprender nuevos conceptos visuales durante la inferencia sin ajuste fino. Nuestro enfoque aprovecha un extractor de características preentrenado y congelado, y, de manera análoga al aprendizaje en contexto, reformula el meta-aprendizaje como un modelado de secuencias sobre puntos de datos con etiquetas conocidas y un punto de prueba con una etiqueta desconocida. En 8 de 11 benchmarks de meta-aprendizaje, nuestro enfoque —sin meta-entrenamiento ni ajuste fino— supera o iguala al algoritmo de última generación, P>M>F, que está meta-entrenado en estos benchmarks.
¿Cómo reducir los requisitos de cómputo y memoria de las redes neuronales (NNs) sin sacrificar su rendimiento? Muchos trabajos recientes utilizan Mezclas de Expertos (MoEs) dispersas para construir modelos de lenguaje (LMs) grandes y eficientes en recursos. Aquí presentamos varias perspectivas novedosas sobre los MoEs, introduciendo un marco general que unifica diversos métodos para aproximar NNs de dos capas (por ejemplo, bloques de avance de los Transformers), incluyendo memorias de claves de producto (PKMs). Aprovechando las ideas de este marco, proponemos métodos para mejorar tanto los MoEs como las PKMs. A diferencia de trabajos previos que comparan los MoEs con líneas base densas bajo la condición de cómputo igual, nuestra condición de evaluación es de parámetros iguales, lo cual es crucial para evaluar adecuadamente los LMs. Demostramos que nuestros MoEs son competitivos con el Transformer-XL denso en los conjuntos de datos WikiText-103 y enwiki8 a dos escalas diferentes, siendo mucho más eficientes en recursos. Esto demuestra que los MoEs son relevantes no solo para LMs extremadamente grandes, sino también para LMs eficientes en recursos de cualquier escala. Nuestro código es público.
A medida que los modelos de lenguaje de gran escala (LLMs) se vuelven más prevalentes, existe una creciente necesidad de nuevos y mejorados métodos de cuantización que puedan satisfacer las demandas computacionales de estas arquitecturas modernas mientras mantienen la precisión. En este artículo, presentamos TEQ, una transformación equivalente entrenable que preserva la precisión FP32 de la salida del modelo mientras aprovecha la cuantización de baja precisión, especialmente la cuantización de solo pesos de 3 y 4 bits. El proceso de entrenamiento es ligero, requiriendo solo 1K pasos y menos del 0.1 por ciento de los parámetros entrenables del modelo original. Además, la transformación no añade ningún sobrecosto computacional durante la inferencia. Nuestros resultados están a la par con los métodos más avanzados (SOTA) en LLMs típicos. Nuestro enfoque puede combinarse con otros métodos para lograr un rendimiento aún mejor. El código está disponible en https://github.com/intel/neural-compressor.
Con los impresionantes avances en la generación de imágenes basada en difusión a partir de texto, extender esta poderosa capacidad generativa al ámbito de texto a video ha captado una enorme atención. Los métodos existentes requieren ya sea pares de texto-video a gran escala y una cantidad considerable de recursos de entrenamiento, o bien aprenden movimientos que están precisamente alineados con videos plantilla. No es trivial equilibrar un compromiso entre el grado de libertad de generación y los costos de recursos para la generación de video. En nuestro estudio, presentamos un marco de ajuste basado en pocos ejemplos, LAMP, que permite a un modelo de difusión de texto a imagen aprender un patrón de movimiento específico con 8~16 videos en una sola GPU. Específicamente, diseñamos una canalización condicionada por el primer fotograma que utiliza un modelo de texto a imagen disponible comercialmente para la generación de contenido, de modo que nuestro modelo de difusión de video ajustado se enfoque principalmente en el aprendizaje de movimiento. Las técnicas bien desarrolladas de texto a imagen pueden proporcionar contenido visualmente atractivo y diverso como condiciones de generación, lo que mejora significativamente la calidad del video y la libertad de generación. Para capturar las características de la dimensión temporal, expandimos las capas de convolución 2D preentrenadas del modelo T2I a nuestras novedosas capas de aprendizaje de movimiento espacio-temporal y modificamos los bloques de atención al nivel temporal. Además, desarrollamos un truco de inferencia efectivo, el muestreo de ruido compartido, que puede mejorar la estabilidad de los videos con costos computacionales. Nuestro método también puede aplicarse de manera flexible a otras tareas, como la animación de imágenes del mundo real y la edición de videos. Experimentos extensos demuestran que LAMP puede aprender efectivamente el patrón de movimiento con datos limitados y generar videos de alta calidad. El código y los modelos están disponibles en https://rq-wu.github.io/projects/LAMP.
Los modelos de completado de código han logrado avances significativos en los últimos años, sin embargo, los conjuntos de datos de evaluación populares actuales, como HumanEval y MBPP, se centran predominantemente en tareas de completado de código dentro de un solo archivo. Este escenario excesivamente simplificado no representa adecuadamente el escenario real de desarrollo de software, donde los repositorios abarcan múltiples archivos con numerosas dependencias entre archivos, y a menudo es necesario acceder y comprender el contexto entre archivos para completar el código correctamente. Para llenar este vacío, proponemos CrossCodeEval, un benchmark diverso y multilingüe para el completado de código que requiere una comprensión profunda del contexto entre archivos para completar el código con precisión. CrossCodeEval se construye sobre un conjunto diverso de repositorios de código abierto del mundo real, con licencias permisivas, en cuatro lenguajes de programación populares: Python, Java, TypeScript y C#. Para crear ejemplos que requieran estrictamente el contexto entre archivos para un completado preciso, proponemos un enfoque sencillo pero eficiente basado en análisis estático para identificar el uso de contexto entre archivos dentro del archivo actual. Experimentos extensos con modelos de lenguaje de código de última generación como CodeGen y StarCoder demuestran que CrossCodeEval es extremadamente desafiante cuando el contexto relevante entre archivos está ausente, y observamos mejoras claras al agregar este contexto al prompt. Sin embargo, a pesar de estas mejoras, el máximo rendimiento no se alcanza ni siquiera con el modelo de mayor rendimiento, lo que indica que CrossCodeEval también es capaz de evaluar la capacidad del modelo para aprovechar un contexto extenso y realizar un mejor completado de código. Finalmente, evaluamos varios métodos para recuperar el contexto entre archivos y demostramos que CrossCodeEval también puede utilizarse para medir la capacidad de los recuperadores de código.