Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala se han convertido en la piedra angular del procesamiento del lenguaje natural, pero su uso conlleva costos significativos en términos de recursos de cómputo y memoria. La esparsificación ofrece una solución para aliviar estas limitaciones de recursos, y trabajos recientes han demostrado que los modelos entrenados pueden esparsificarse a posteriori. Las técnicas de esparsificación existentes enfrentan desafíos, ya que requieren estructuras de datos adicionales y ofrecen una aceleración limitada con el hardware actual. En este artículo presentamos SliceGPT, un nuevo esquema de esparsificación post-entrenamiento que reemplaza cada matriz de pesos con una matriz más pequeña (densa), reduciendo la dimensión de incrustación de la red. A través de una experimentación extensa, demostramos que SliceGPT puede eliminar hasta el 25% de los parámetros del modelo (incluyendo las incrustaciones) para los modelos LLAMA2-70B, OPT 66B y Phi-2, manteniendo un rendimiento en tareas de cero disparos del 99%, 99% y 90% del modelo denso, respectivamente. Nuestros modelos esparsificados se ejecutan en menos GPUs y son más rápidos sin necesidad de optimización adicional de código: en GPUs de consumo de 24GB reducimos el cómputo total para la inferencia en LLAMA2-70B al 64% del modelo denso; en GPUs A100 de 40GB lo reducimos al 66%. Ofrecemos una nueva perspectiva, la invariancia computacional en redes transformadoras, que posibilita SliceGPT y esperamos que inspire y habilite futuras vías para reducir las demandas de memoria y cómputo en modelos preentrenados. El código está disponible en: https://github.com/microsoft/TransformerCompression.
El meta-aprendizaje ha surgido como un enfoque poderoso para entrenar redes neuronales a aprender nuevas tareas rápidamente a partir de datos limitados. La exposición amplia a diferentes tareas conduce a representaciones versátiles que permiten la resolución general de problemas. Pero, ¿cuáles son los límites del meta-aprendizaje? En este trabajo, exploramos el potencial de amortizar el predictor universal más poderoso, es decir, la Inducción de Solomonoff (SI), en redes neuronales mediante el aprovechamiento del meta-aprendizaje hasta sus límites. Utilizamos Máquinas de Turing Universales (MTUs) para generar datos de entrenamiento que exponen a las redes a una amplia gama de patrones. Proporcionamos un análisis teórico de los procesos de generación de datos de MTU y los protocolos de meta-entrenamiento. Realizamos experimentos exhaustivos con arquitecturas neuronales (por ejemplo, LSTMs, Transformers) y generadores de datos algorítmicos de complejidad y universalidad variables. Nuestros resultados sugieren que los datos de MTU son un recurso valioso para el meta-aprendizaje y que pueden usarse para entrenar redes neuronales capaces de aprender estrategias de predicción universales.
La decodificación auto-regresiva hace que la inferencia de los Modelos de Lenguaje de Gran Escala (LLMs) sea lenta. Proponemos un marco simple, EAGLE (Algoritmo de Extrapolación para una Mayor Eficiencia en Modelos de Lenguaje), para una aceleración sin pérdidas. A diferencia de los métodos tradicionales de muestreo especulativo, EAGLE opera el proceso de borrador de manera auto-regresiva en el nivel de características más regular (segunda capa superior) y aborda los problemas de incertidumbre en el muestreo en la predicción de la siguiente característica mediante la integración de tokens de un paso de tiempo adelante. La aceleración proporcionada por EAGLE es sin pérdidas: no implica ajuste fino del LLM objetivo, y el texto generado mantiene la misma distribución que la decodificación auto-regresiva convencional. Al momento de la presentación de este artículo, EAGLE es el marco más rápido conocido dentro de la familia de muestreo especulativo. En MT-bench, EAGLE es 3 veces más rápido que la decodificación convencional, 2 veces más rápido que Lookahead y 1.6 veces más rápido que Medusa. Utilizando gpt-fast, EAGLE alcanza en promedio 160 tokens/s con LLaMA2-Chat 13B en una sola GPU RTX 3090, en comparación con los 24 tokens/s de las implementaciones de Huggingface.
Los recientes avances en los modelos de texto a imagen han mejorado significativamente las capacidades de generación de imágenes, pero persiste una notable brecha en los modelos de código abierto con soporte para idiomas bilingües o chino. Para abordar esta necesidad, presentamos Taiyi-Diffusion-XL, un nuevo modelo bilingüe chino-inglés de texto a imagen, desarrollado mediante la extensión de las capacidades de CLIP y Stable-Diffusion-XL a través de un proceso de preentrenamiento continuo bilingüe. Este enfoque incluye la expansión eficiente del vocabulario mediante la integración de los caracteres chinos más utilizados en el tokenizador y las capas de embedding de CLIP, junto con una expansión de la codificación de posición absoluta. Además, enriquecemos las indicaciones de texto mediante un modelo de visión y lenguaje a gran escala, lo que resulta en mejores descripciones de imágenes y una mayor calidad visual. Estas mejoras se aplican posteriormente a los modelos de texto a imagen descendentes. Nuestros resultados empíricos indican que el modelo CLIP desarrollado sobresale en la recuperación bilingüe de imágenes y texto. Además, las capacidades de generación de imágenes bilingües de Taiyi-Diffusion-XL superan a los modelos anteriores. Esta investigación conduce al desarrollo y la publicación en código abierto del modelo Taiyi-Diffusion-XL, representando un avance notable en el campo de la generación de imágenes, particularmente para aplicaciones en idioma chino. Esta contribución es un paso adelante para abordar la necesidad de un soporte más diverso de idiomas en la investigación multimodal. El modelo y la demostración están disponibles públicamente en https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-XL-3.5B/{este enlace}, fomentando una mayor investigación y colaboración en este dominio.
La edición de escenas 3D basada en texto ha ganado una atención significativa debido a su conveniencia y facilidad de uso. Sin embargo, los métodos existentes aún carecen de un control preciso sobre la apariencia y la ubicación especificadas del resultado de la edición, debido a las limitaciones inherentes de la descripción textual. Para abordar esto, proponemos un marco de edición de escenas 3D, TIPEditor, que acepta tanto indicaciones de texto como de imagen, junto con una caja delimitadora 3D para especificar la región de edición. Con la indicación de imagen, los usuarios pueden especificar de manera conveniente la apariencia/estilo detallada del contenido objetivo, complementando la descripción textual y permitiendo un control preciso de la apariencia. Específicamente, TIPEditor emplea una estrategia de personalización 2D paso a paso para aprender mejor la representación de la escena existente y la imagen de referencia, en la cual se propone una pérdida de localización para fomentar la colocación correcta del objeto según lo especificado por la caja delimitadora. Además, TIPEditor utiliza el splatting de Gaussianas 3D explícito y flexible como representación 3D para facilitar la edición local mientras se mantiene el fondo sin cambios. Experimentos extensivos han demostrado que TIPEditor realiza ediciones precisas siguiendo las indicaciones de texto e imagen en la región de la caja delimitadora especificada, superando consistentemente a los métodos base en calidad de edición y alineación con las indicaciones, tanto cualitativa como cuantitativamente.
Las personas emplean comportamientos expresivos para comunicarse y coordinar sus acciones de manera efectiva con otros, como asentir para reconocer a alguien que los mira o decir "con permiso" para pasar entre la gente en un corredor concurrido. Nos gustaría que los robots también demostraran comportamientos expresivos en la interacción humano-robot. Trabajos previos proponen métodos basados en reglas que tienen dificultades para escalar a nuevas modalidades de comunicación o situaciones sociales, mientras que los métodos basados en datos requieren conjuntos de datos especializados para cada situación social en la que se utiliza el robot. Proponemos aprovechar el rico contexto social disponible en los grandes modelos de lenguaje (LLMs, por sus siglas en inglés) y su capacidad para generar movimiento basado en instrucciones o preferencias del usuario, para generar movimientos expresivos del robot que sean adaptables y componibles, construyéndose unos sobre otros. Nuestro enfoque utiliza el prompting de cadena de pensamiento con pocos ejemplos para traducir instrucciones en lenguaje humano a código de control parametrizado utilizando las habilidades disponibles y aprendidas del robot. A través de estudios con usuarios y experimentos de simulación, demostramos que nuestro enfoque produce comportamientos que los usuarios consideraron competentes y fáciles de entender. El material complementario se puede encontrar en https://generative-expressive-motion.github.io/.