Artículos de investigación en IA seleccionados diariamente con traducciones
El reciente auge de los Modelos de Lenguaje de Gran Escala (LLMs) de código abierto, como LLaMA, Falcon y Mistral, ofrece diversas opciones para profesionales e investigadores en IA. Sin embargo, la mayoría de los LLMs solo han publicado artefactos parciales, como los pesos finales del modelo o el código de inferencia, y los informes técnicos cada vez limitan más su alcance a elecciones de diseño de alto nivel y estadísticas superficiales. Estas decisiones obstaculizan el progreso en el campo al reducir la transparencia en el entrenamiento de los LLMs y obligar a los equipos a redescubrir muchos detalles del proceso de entrenamiento. Presentamos LLM360, una iniciativa para abrir completamente el código de los LLMs, que aboga por que todo el código y datos de entrenamiento, los puntos de control del modelo y los resultados intermedios estén disponibles para la comunidad. El objetivo de LLM360 es apoyar la investigación en IA abierta y colaborativa, haciendo que el proceso de entrenamiento de LLMs de principio a fin sea transparente y reproducible para todos. Como primer paso de LLM360, lanzamos dos LLMs de 7B parámetros preentrenados desde cero, Amber y CrystalCoder, incluyendo su código de entrenamiento, datos, puntos de control intermedios y análisis (disponibles en https://www.llm360.ai). Estamos comprometidos a seguir ampliando los límites de los LLMs a través de este esfuerzo de código abierto. Más modelos a gran escala y más potentes están en desarrollo y serán lanzados en el futuro.
El ajuste fino de modelos de lenguaje~(LMs) en datos generados por humanos sigue siendo una práctica predominante. Sin embargo, el rendimiento de dichos modelos a menudo se ve limitado por la cantidad y diversidad de datos humanos de alta calidad. En este artículo, exploramos si podemos ir más allá de los datos humanos en tareas donde tenemos acceso a retroalimentación escalar, por ejemplo, en problemas matemáticos donde se puede verificar la corrección. Para ello, investigamos un método simple de autoentrenamiento basado en maximización de expectativas, que denominamos ReST^{EM}, donde (1) generamos muestras del modelo y las filtramos utilizando retroalimentación binaria, (2) ajustamos el modelo en estas muestras, y (3) repetimos este proceso varias veces. Al evaluar en puntos de referencia avanzados de razonamiento matemático (MATH) y codificación (APPS) utilizando modelos PaLM-2, encontramos que ReST^{EM} escala favorablemente con el tamaño del modelo y supera significativamente el ajuste fino realizado únicamente con datos humanos. En general, nuestros hallazgos sugieren que el autoentrenamiento con retroalimentación puede reducir sustancialmente la dependencia de los datos generados por humanos.
Presentamos W.A.L.T, un enfoque basado en transformadores para la generación de videos fotorrealistas mediante modelado de difusión. Nuestro enfoque tiene dos decisiones clave de diseño. Primero, utilizamos un codificador causal para comprimir conjuntamente imágenes y videos dentro de un espacio latente unificado, lo que permite el entrenamiento y la generación a través de modalidades. Segundo, para la eficiencia de memoria y entrenamiento, utilizamos una arquitectura de atención por ventanas diseñada específicamente para el modelado generativo conjunto espacial y espacio-temporal. En conjunto, estas decisiones de diseño nos permiten alcanzar un rendimiento de vanguardia en los benchmarks establecidos de generación de videos (UCF-101 y Kinetics-600) e imágenes (ImageNet) sin utilizar guía libre de clasificador. Finalmente, también entrenamos una cascada de tres modelos para la tarea de generación de texto a video, que consiste en un modelo base de difusión latente de video y dos modelos de difusión de super-resolución de video para generar videos de 512 por 896 píxeles de resolución a 8 fotogramas por segundo.
Recientemente, la creación de contenido 3D a partir de indicaciones de texto ha demostrado un progreso notable al utilizar modelos de difusión 2D y 3D. Si bien los modelos de difusión 3D garantizan una gran consistencia multi-vista, su capacidad para generar activos 3D de alta calidad y diversidad se ve limitada por la escasez de datos 3D. En contraste, los modelos de difusión 2D adoptan un enfoque de destilación que logra una excelente generalización y detalles ricos sin necesidad de datos 3D. Sin embargo, los métodos de elevación 2D sufren de una ambigüedad inherente agnóstica a la vista, lo que conduce a serios problemas de múltiples caras (Janus), donde las indicaciones de texto no proporcionan suficiente orientación para aprender resultados 3D coherentes. En lugar de reentrenar un costoso modelo consciente del punto de vista, estudiamos cómo explotar completamente el conocimiento 3D grueso de fácil acceso para mejorar las indicaciones y guiar la optimización de elevación 2D para su refinamiento. En este artículo, proponemos Sherpa3D, un nuevo marco de texto a 3D que logra simultáneamente alta fidelidad, generalización y consistencia geométrica. Específicamente, diseñamos un par de estrategias de guía derivadas del conocimiento 3D grueso generado por el modelo de difusión 3D: una guía estructural para la fidelidad geométrica y una guía semántica para la coherencia 3D. Al emplear estos dos tipos de guía, el modelo de difusión 2D enriquece el contenido 3D con resultados diversificados y de alta calidad. Experimentos extensos muestran la superioridad de nuestro Sherpa3D sobre los métodos de texto a 3D más avanzados en términos de calidad y consistencia 3D.
Los Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) modernos utilizan el mismo vocabulario visual: CLIP, que puede cubrir la mayoría de las tareas visuales comunes. Sin embargo, para algunas tareas visuales especiales que requieren una percepción visual densa y detallada, como el OCR a nivel de documento o la comprensión de gráficos, especialmente en escenarios no angloparlantes, el vocabulario de estilo CLIP puede presentar baja eficiencia al tokenizar el conocimiento visual e incluso sufrir problemas de palabras fuera de vocabulario. En consecuencia, proponemos Vary, un método eficiente y efectivo para ampliar el vocabulario visual de los LVLMs. Los procedimientos de Vary se dividen naturalmente en dos partes: la generación e integración de un nuevo vocabulario visual. En la primera fase, diseñamos una red de vocabulario junto con un pequeño transformador de solo decodificación para producir el vocabulario deseado mediante autoregresión. En la siguiente, ampliamos el vocabulario visual original fusionándolo con el nuevo (CLIP), permitiendo que los LVLMs adquieran rápidamente nuevas características. En comparación con los populares BLIP-2, MiniGPT4 y LLaVA, Vary puede mantener sus capacidades originales mientras disfruta de una excelente capacidad de percepción y comprensión detallada. Específicamente, Vary es competente en nuevas funciones de análisis de documentos (OCR o conversión a markdown) mientras alcanza un 78.2% de ANLS en DocVQA y un 36.2% en MMVet. Nuestro código estará disponible públicamente en la página principal.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen la notable capacidad de resolver nuevas tareas con solo unos pocos ejemplos, pero necesitan acceso a las herramientas adecuadas. La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) aborda este problema recuperando una lista de herramientas relevantes para una tarea dada. Sin embargo, el paso de recuperación de herramientas de RAG requiere que toda la información necesaria esté explícitamente presente en la consulta. Esto es una limitación, ya que la búsqueda semántica, el método de recuperación de herramientas ampliamente adoptado, puede fallar cuando la consulta está incompleta o carece de contexto. Para abordar esta limitación, proponemos el Ajuste de Contexto para RAG, que emplea un sistema inteligente de recuperación de contexto para obtener información relevante que mejora tanto la recuperación de herramientas como la generación de planes. Nuestro modelo ligero de recuperación de contexto utiliza señales numéricas, categóricas y de uso habitual para recuperar y clasificar elementos de contexto. Nuestros resultados empíricos demuestran que el ajuste de contexto mejora significativamente la búsqueda semántica, logrando una mejora de 3.5 veces y 1.5 veces en Recall@K para las tareas de recuperación de contexto y recuperación de herramientas, respectivamente, y resultando en un aumento del 11.6% en la precisión del planificador basado en LLM. Además, mostramos que nuestro modelo ligero propuesto, que utiliza Fusión de Rango Recíproco (RRF) con LambdaMART, supera a la recuperación basada en GPT-4. Asimismo, observamos que la ampliación de contexto en la generación de planes, incluso después de la recuperación de herramientas, reduce la alucinación.
Informamos sobre el desarrollo de Alter3, un robot humanoide capaz de generar movimiento espontáneo utilizando un Modelo de Lenguaje de Gran Escala (LLM), específicamente GPT-4. Este logro se consiguió al integrar GPT-4 en nuestro androide propietario, Alter3, logrando así conectar efectivamente el LLM con el movimiento corporal de Alter. Normalmente, el control de bajo nivel de los robots depende del hardware y queda fuera del alcance de los corpus de los LLM, lo que presenta desafíos para el control directo de robots basado en LLM. Sin embargo, en el caso de robots humanoides como Alter3, el control directo es factible al mapear las expresiones lingüísticas de las acciones humanas en el cuerpo del robot mediante código de programación. Notablemente, este enfoque permite que Alter3 adopte diversas poses, como una postura de "selfie" o "fingir ser un fantasma", y genere secuencias de acciones a lo largo del tiempo sin necesidad de programación explícita para cada parte del cuerpo. Esto demuestra las capacidades de aprendizaje de cero disparos del robot. Además, la retroalimentación verbal puede ajustar las poses, eliminando la necesidad de ajustes finos. Un video de los movimientos generados por Alter3 está disponible en https://tnoinkwms.github.io/ALTER-LLM/.
Los Modelos de Difusión Latente (LDMs, por sus siglas en inglés) capturan la evolución dinámica de variables latentes a lo largo del tiempo, combinando patrones y multimodalidad en un sistema generativo. A pesar de la eficacia de los LDMs en diversas aplicaciones, como la generación de imágenes a partir de texto, facilitada por codificadores de texto robustos y un autoencoder variacional, la necesidad crítica de implementar modelos generativos grandes en dispositivos de borde impulsa la búsqueda de alternativas más compactas pero igualmente efectivas. La Cuantización Post Entrenamiento (PTQ, por sus siglas en inglés), un método para comprimir el tamaño operativo de los modelos de aprendizaje profundo, enfrenta desafíos cuando se aplica a los LDMs debido a sus complejidades temporales y estructurales. Este estudio propone una estrategia de cuantización que cuantiza eficientemente los LDMs, utilizando la Relación Señal-Ruido de Cuantización (SQNR, por sus siglas en inglés) como métrica fundamental para la evaluación. Al tratar la discrepancia de cuantización como ruido relativo e identificar las partes sensibles del modelo, proponemos un enfoque de cuantización eficiente que abarca tanto estrategias globales como locales. El proceso de cuantización global mitiga el ruido de cuantización relativo al iniciar una cuantización de mayor precisión en los bloques sensibles, mientras que los tratamientos locales abordan desafíos específicos en módulos sensibles a la cuantización y al tiempo. Los resultados de nuestros experimentos revelan que la implementación de tratamientos tanto globales como locales produce una Cuantización Post Entrenamiento (PTQ) altamente eficiente y efectiva para los LDMs.
Presentamos Llama Guard, un modelo de protección de entrada-salida basado en LLM orientado a casos de uso de conversación Humano-IA. Nuestro modelo incorpora una taxonomía de riesgos de seguridad, una herramienta valiosa para categorizar un conjunto específico de riesgos de seguridad presentes en los prompts de LLM (es decir, clasificación de prompts). Esta taxonomía también es fundamental para clasificar las respuestas generadas por los LLM a estos prompts, un proceso que denominamos clasificación de respuestas. Con el propósito de realizar tanto la clasificación de prompts como de respuestas, hemos recopilado meticulosamente un conjunto de datos de alta calidad. Llama Guard, un modelo Llama2-7b ajustado mediante instrucciones en nuestro conjunto de datos recopilado, aunque de bajo volumen, demuestra un rendimiento sólido en benchmarks existentes como el conjunto de datos de Evaluación de Moderación de OpenAI y ToxicChat, donde su rendimiento iguala o supera al de las herramientas de moderación de contenido actualmente disponibles. Llama Guard funciona como un modelo de lenguaje, realizando clasificación multiclase y generando puntuaciones de decisión binaria. Además, el ajuste fino mediante instrucciones de Llama Guard permite la personalización de tareas y la adaptación de formatos de salida. Esta característica mejora las capacidades del modelo, como permitir el ajuste de las categorías de la taxonomía para alinearse con casos de uso específicos, y facilitar el prompting zero-shot o few-shot con diversas taxonomías en la entrada. Estamos poniendo a disposición los pesos del modelo Llama Guard y alentamos a los investigadores a seguir desarrollándolos y adaptándolos para satisfacer las necesidades en evolución de la comunidad en materia de seguridad de la IA.
Los grandes modelos de lenguaje preentrenados (LLMs, por sus siglas en inglés) requieren ajuste fino para mejorar su capacidad de respuesta a instrucciones en lenguaje natural. El aprendizaje federado (FL, por sus siglas en inglés) ofrece una forma de realizar este ajuste utilizando los abundantes datos en dispositivos finales sin comprometer la privacidad de los datos. La mayoría de los métodos existentes de ajuste fino federado para LLMs se basan en técnicas de ajuste fino eficiente en parámetros, que pueden no alcanzar los niveles de rendimiento posibles con el ajuste de todos los parámetros. Sin embargo, la sobrecarga de comunicación asociada con el ajuste de todos los parámetros es prohibitivamente alta tanto para servidores como para clientes. Este trabajo introduce FedKSeed, un enfoque novedoso que emplea optimización de orden cero (ZOO, por sus siglas en inglés) con un conjunto de semillas aleatorias. Permite el ajuste federado de todos los parámetros de LLMs de miles de millones de parámetros directamente en los dispositivos. Nuestro método reduce significativamente los requisitos de transmisión entre el servidor y los clientes a solo unos pocos gradientes escalares y semillas aleatorias, lo que equivale a solo unos pocos miles de bytes. Sobre esta base, desarrollamos una estrategia para evaluar la importancia de las perturbaciones ZOO para FL, permitiendo un muestreo de semillas diferenciado por probabilidad. Esto prioriza las perturbaciones que tienen un mayor impacto en la precisión del modelo. Los experimentos en seis escenarios con diferentes LLMs, conjuntos de datos y particiones de datos demuestran que nuestro enfoque supera a los métodos existentes de ajuste fino federado de LLMs en términos de eficiencia de comunicación y generalización a nuevas tareas.
Se han propuesto diversos métodos para utilizar Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) en la conducción autónoma. Una estrategia para emplear LLMs en este ámbito consiste en introducir los objetos circundantes como indicaciones de texto en los LLMs, junto con su información de coordenadas y velocidad, para luego generar los movimientos subsiguientes del vehículo. Al utilizar LLMs para estos fines, capacidades como el reconocimiento espacial y la planificación son esenciales. En particular, se requieren dos habilidades fundamentales: (1) la toma de decisiones consciente del espacio, que es la capacidad de reconocer el espacio a partir de la información de coordenadas y tomar decisiones para evitar colisiones, y (2) la capacidad de cumplir con las normas de tráfico. Sin embargo, no se ha realizado investigación cuantitativa sobre qué tan precisamente diferentes tipos de LLMs pueden manejar estos problemas. En este estudio, evaluamos cuantitativamente estas dos habilidades de los LLMs en el contexto de la conducción autónoma. Además, para llevar a cabo una Prueba de Concepto (POC, por sus siglas en inglés) sobre la viabilidad de implementar estas habilidades en vehículos reales, desarrollamos un sistema que utiliza LLMs para conducir un vehículo.
Captum es una biblioteca integral para la explicabilidad de modelos en PyTorch, que ofrece una variedad de métodos de la literatura sobre interpretabilidad para mejorar la comprensión de los usuarios sobre los modelos de PyTorch. En este artículo, presentamos nuevas características en Captum que están específicamente diseñadas para analizar el comportamiento de los modelos generativos de lenguaje. Proporcionamos una visión general de las funcionalidades disponibles y ejemplos de aplicaciones que demuestran su potencial para comprender las asociaciones aprendidas dentro de los modelos generativos de lenguaje.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una poderosa capacidad para la generación de texto. Sin embargo, lograr resultados óptimos con una indicación o instrucción dada puede ser un desafío, especialmente en modelos de miles de millones de parámetros. Además, pueden manifestarse comportamientos no deseados, como toxicidad o alucinaciones. Aunque modelos mucho más grandes (por ejemplo, ChatGPT) pueden mostrar fortalezas para mitigar estos problemas, aún no existe una garantía de prevención completa. En este trabajo, proponemos formalizar la generación de texto como un problema de generación con restricciones futuras para minimizar comportamientos indeseables y asegurar la fidelidad a las instrucciones. La estimación del cumplimiento de las restricciones futuras, realizada utilizando LLMs, guía el proceso de generación de texto. Nuestros extensos experimentos demuestran la efectividad del enfoque propuesto en tres tareas distintas de generación de texto: generación con restricciones de palabras clave (Lin et al., 2020), reducción de toxicidad (Gehman et al., 2020) y corrección factual en tareas de respuesta a preguntas (Gao et al., 2023).
En este artículo, estudiamos empíricamente la dinámica de optimización del aprendizaje multitarea, centrándonos especialmente en aquellas que gobiernan un conjunto de tareas con un desequilibrio significativo en los datos. Presentamos un método simple pero efectivo que consiste en un preentrenamiento en tareas con muchos recursos, seguido de un ajuste fino en una mezcla de tareas con recursos altos/bajos. Ofrecemos un estudio empírico exhaustivo y un análisis de los beneficios de este método, demostrando que logra mejoras consistentes en relación con el perfil de compensación de rendimiento de la ponderación estática estándar. Analizamos bajo qué regímenes de datos este método es aplicable y mostramos sus mejoras empíricamente en traducción automática neuronal (NMT) y modelado de lenguaje multilingüe.
MEGA es una arquitectura reciente basada en transformadores que utiliza un operador recurrente lineal cuya computación paralela, basada en la FFT, escala como O(LlogL), donde L es la longitud de la secuencia. Nos basamos en su enfoque al reemplazar la recurrencia lineal con una red convolucional temporal especial que permite un mayor tamaño de campo receptivo con redes más superficiales y reduce la complejidad computacional a O(L). El modelo resultante se llama TCNCA, una Red Convolucional Temporal con Atención Segmentada. Evaluamos TCNCA en modelado de lenguaje EnWik8, clasificación de secuencias en el long-range-arena (LRA), así como en un benchmark sintético de razonamiento de recuerdo asociativo. En EnWik8, TCNCA supera a MEGA, alcanzando una pérdida menor con un paso hacia adelante/hacia atrás 1.37 veces/1.24 veces más rápido durante el entrenamiento. Las convoluciones dilatadas utilizadas en TCNCA son operaciones consistentemente y significativamente más rápidas que la recurrencia paralelizada basada en FFT en GPUs, lo que las convierte en un candidato escalable para manejar secuencias muy largas: son hasta 7.07 veces/2.86 veces más rápidas en el paso hacia adelante/hacia atrás para secuencias de hasta 131k. Además, en LRA, TCNCA logra, en promedio, una aceleración de 1.28 veces durante la inferencia con una precisión similar a la de MEGA. En el recuerdo asociativo, encontramos que incluso una versión simplificada de TCNCA, sin interacciones multiplicativas y aditivas excesivas, sigue siendo superior o competitiva frente a MEGA en un rango de longitudes de secuencia y tamaños de vocabulario.