Artículos de investigación en IA seleccionados diariamente con traducciones
El ajuste por instrucción de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) sigue siendo una tarea desafiante, debido a la complejidad de la selección de hiperparámetros y las dificultades involucradas en la evaluación de los modelos ajustados. Para determinar los hiperparámetros óptimos, es esencial contar con un punto de referencia de evaluación automático, robusto y confiable. Sin embargo, establecer dicho punto de referencia no es una tarea trivial debido a los desafíos asociados con la precisión de la evaluación y la protección de la privacidad. En respuesta a estos desafíos, presentamos un modelo de lenguaje grande juez, denominado PandaLM, que está entrenado para distinguir el modelo superior entre varios LLMs. El enfoque de PandaLM va más allá de la corrección objetiva de las respuestas, que es el principal enfoque de los conjuntos de datos de evaluación tradicionales. Aborda factores subjetivos cruciales, como la concisión relativa, la claridad, el cumplimiento de las instrucciones, la exhaustividad y la formalidad. Para garantizar la confiabilidad de PandaLM, recopilamos un conjunto de datos de prueba diverso y anotado por humanos, donde todos los contextos son generados por humanos y las etiquetas están alineadas con las preferencias humanas. Nuestros resultados indican que PandaLM-7B alcanza el 93,75% de la capacidad de evaluación de GPT-3.5 y el 88,28% de GPT-4 en términos de puntuación F1 en nuestro conjunto de datos de prueba. PandaLM permite que la evaluación de LLM sea más justa pero con menos costos, como lo demuestran las mejoras significativas logradas por los modelos ajustados a través de PandaLM en comparación con sus contrapartes entrenadas con los hiperparámetros predeterminados de Alpaca. Además, PandaLM no depende de evaluaciones basadas en API, evitando así posibles fugas de datos. Todos los recursos de PandaLM están disponibles en https://github.com/WeOpenML/PandaLM.
Los modelos de lenguaje grande ajustados por instrucciones han revolucionado el procesamiento del lenguaje natural y han demostrado un gran potencial en aplicaciones como los agentes conversacionales. Estos modelos, como GPT-4, no solo dominan el lenguaje, sino que también resuelven tareas complejas en áreas como matemáticas, programación, medicina y derecho. A pesar de sus impresionantes capacidades, aún falta una comprensión integral de su potencial total, principalmente debido a la naturaleza de caja negra de muchos modelos y la ausencia de estudios de evaluación holísticos. Para abordar estos desafíos, presentamos INSTRUCTEVAL, una suite de evaluación más completa diseñada específicamente para modelos de lenguaje grande ajustados por instrucciones. A diferencia de trabajos anteriores, nuestra evaluación implica una valoración rigurosa de los modelos basada en la resolución de problemas, la capacidad de escritura y la alineación con los valores humanos. Adoptamos un enfoque holístico para analizar diversos factores que afectan el rendimiento del modelo, incluyendo la base de preentrenamiento, los datos de ajuste por instrucciones y los métodos de entrenamiento. Nuestros hallazgos revelan que la calidad de los datos de instrucción es el factor más crucial para escalar el rendimiento del modelo. Si bien los modelos de código abierto demuestran habilidades impresionantes en escritura, hay un margen sustancial de mejora en la resolución de problemas y la alineación. Nos alienta el rápido desarrollo de modelos por parte de la comunidad de código abierto, pero también destacamos la necesidad de una evaluación rigurosa para respaldar las afirmaciones hechas sobre estos modelos. A través de INSTRUCTEVAL, buscamos fomentar una comprensión más profunda de los modelos ajustados por instrucciones y avances en sus capacidades. INSTRUCTEVAL está disponible públicamente en https://github.com/declare-lab/instruct-eval.
Los modelos de lenguaje a gran escala (LLMs, por sus siglas en inglés) se han desplegado para uso cotidiano y están posicionados para producir grandes cantidades de texto en la próxima década. El texto generado por máquinas podría desplazar al texto escrito por humanos en internet y tiene el potencial de ser utilizado con fines maliciosos, como ataques de spearphishing y bots en redes sociales. La marca de agua es una estrategia simple y efectiva para mitigar estos daños, ya que permite la detección y documentación del texto generado por LLMs. Sin embargo, una pregunta crucial persiste: ¿Qué tan confiable es la marca de agua en entornos realistas en el mundo real? Allí, el texto con marca de agua podría mezclarse con otras fuentes de texto, ser parafraseado por escritores humanos u otros modelos de lenguaje, y utilizado en una amplia variedad de dominios, tanto sociales como técnicos. En este artículo, exploramos diferentes esquemas de detección, cuantificamos su capacidad para detectar marcas de agua y determinamos cuánto texto generado por máquinas necesita observarse en cada escenario para detectar la marca de agua de manera confiable. Destacamos especialmente nuestro estudio con humanos, donde investigamos la confiabilidad de la marca de agua frente al parafraseo humano. Comparamos la detección basada en marcas de agua con otras estrategias de detección, concluyendo que, en general, la marca de agua es una solución confiable, especialmente debido a su complejidad de muestreo: para todos los ataques que consideramos, la evidencia de la marca de agua se acumula cuanto más ejemplos se proporcionan, y la marca de agua eventualmente se detecta.
En este trabajo exploramos los avances recientes en el ajuste por instrucción de modelos de lenguaje en una variedad de conjuntos de datos abiertos de seguimiento de instrucciones. A pesar de las afirmaciones recientes de que los modelos abiertos pueden estar a la par con los modelos propietarios de última generación, estas afirmaciones suelen ir acompañadas de evaluaciones limitadas, lo que dificulta la comparación exhaustiva de los modelos y la determinación de la utilidad de diversos recursos. Proporcionamos un amplio conjunto de modelos ajustados por instrucciones que van desde 6.7B hasta 65B parámetros, entrenados en 12 conjuntos de datos de instrucciones que van desde datos curados manualmente (por ejemplo, OpenAssistant) hasta datos sintéticos y destilados (por ejemplo, Alpaca), y los evaluamos sistemáticamente en su conocimiento factual, razonamiento, multilingüismo, codificación y habilidades de seguimiento de instrucciones abiertas mediante una colección de métricas automáticas, basadas en modelos y humanas. Además, presentamos T\"ulu, nuestra suite de modelos ajustados por instrucciones de mejor rendimiento, afinada en una combinación de recursos abiertos de alta calidad. Nuestros experimentos muestran que diferentes conjuntos de datos de ajuste por instrucciones pueden descubrir o mejorar habilidades específicas, mientras que ningún conjunto de datos individual (o combinación) proporciona el mejor rendimiento en todas las evaluaciones. Curiosamente, encontramos que las evaluaciones basadas en preferencias de modelos y humanos no reflejan las diferencias en las capacidades de los modelos expuestas por las evaluaciones basadas en benchmarks, lo que sugiere la necesidad del tipo de evaluación sistémica realizada en este trabajo. Nuestras evaluaciones muestran que el mejor modelo en cualquier evaluación dada alcanza en promedio el 83% del rendimiento de ChatGPT y el 68% del rendimiento de GPT-4, lo que sugiere que se requiere una mayor inversión en la construcción de mejores modelos base y datos de ajuste por instrucciones para cerrar la brecha. Publicamos nuestros modelos ajustados por instrucciones, incluido un T\"ulu de 65B completamente afinado, junto con nuestro código, datos y marco de evaluación en https://github.com/allenai/open-instruct para facilitar futuras investigaciones.
Proporcionamos nuevas estimaciones de un límite superior asintótico para la entropía del inglés utilizando el modelo de lenguaje grande LLaMA-7B como predictor del siguiente token dado una ventana de tokens anteriores. Esta estimación es significativamente menor que las estimaciones actualmente disponibles en cover1978convergent y lutati2023focus. Un subproducto natural es un algoritmo para la compresión sin pérdida de texto en inglés que combina la predicción del modelo de lenguaje grande con un esquema de compresión sin pérdida. Los resultados preliminares de experimentos limitados sugieren que nuestro esquema supera a los esquemas de compresión de texto más avanzados, como BSC, ZPAQ y paq8h.
Estimar formas articuladas en 3D, como cuerpos de animales, a partir de imágenes monoculares es inherentemente desafiante debido a las ambigüedades del punto de vista de la cámara, la pose, la textura, la iluminación, etc. Proponemos ARTIC3D, un marco de trabajo autosupervisado para reconstruir formas 3D por instancia a partir de una colección dispersa de imágenes en entornos no controlados. Específicamente, ARTIC3D se basa en una representación de superficie basada en esqueletos y está guiado por prioridades de difusión 2D de Stable Diffusion. Primero, mejoramos las imágenes de entrada con oclusiones/truncamientos mediante difusión 2D para obtener estimaciones de máscaras más limpias y características semánticas. Segundo, realizamos una optimización 3D guiada por difusión para estimar la forma y la textura, logrando resultados de alta fidelidad y fieles a las imágenes de entrada. También proponemos una técnica novedosa para calcular gradientes a nivel de imagen más estables mediante modelos de difusión en comparación con alternativas existentes. Finalmente, producimos animaciones realistas ajustando la forma y la textura renderizadas bajo transformaciones rígidas de las partes. Evaluaciones exhaustivas en múltiples conjuntos de datos existentes, así como en nuevas colecciones de imágenes web ruidosas con oclusiones y truncamientos, demuestran que los resultados de ARTIC3D son más robustos frente a imágenes ruidosas, de mayor calidad en términos de detalles de forma y textura, y más realistas cuando se animan. Página del proyecto: https://chhankyao.github.io/artic3d/
StableDiffusion es un revolucionario generador de texto a imagen que está causando un gran impacto en el mundo de la generación y edición de imágenes. A diferencia de los métodos tradicionales que aprenden un modelo de difusión en el espacio de píxeles, StableDiffusion aprende un modelo de difusión en el espacio latente a través de un VQGAN, garantizando tanto eficiencia como calidad. No solo admite tareas de generación de imágenes, sino que también permite la edición de imágenes reales, como la restauración de imágenes y la edición local. Sin embargo, hemos observado que el VQGAN estándar utilizado en StableDiffusion provoca una pérdida significativa de información, generando artefactos de distorsión incluso en regiones de la imagen no editadas. Para abordar este problema, proponemos un nuevo VQGAN asimétrico con dos diseños simples. En primer lugar, además de la entrada del codificador, el decodificador contiene una rama condicional que incorpora información de conocimientos previos específicos de la tarea, como la región de la imagen no enmascarada en la restauración. En segundo lugar, el decodificador es mucho más robusto que el codificador, permitiendo una recuperación más detallada mientras solo aumenta ligeramente el costo total de inferencia. El costo de entrenamiento de nuestro VQGAN asimétrico es bajo, y solo necesitamos reentrenar un nuevo decodificador asimétrico manteniendo el codificador VQGAN estándar y StableDiffusion sin cambios. Nuestro VQGAN asimétrico puede ser ampliamente utilizado en métodos de restauración y edición local basados en StableDiffusion. Experimentos exhaustivos demuestran que puede mejorar significativamente el rendimiento en tareas de restauración y edición, manteniendo al mismo tiempo la capacidad original de generación de texto a imagen. El código está disponible en https://github.com/buxiangzhiren/Asymmetric_VQGAN.
La creciente dependencia de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en el ámbito académico e industrial hace necesario un entendimiento exhaustivo de su robustez frente a los prompts. En respuesta a esta necesidad crucial, presentamos PromptBench, un benchmark de robustez diseñado para medir la resistencia de los LLMs ante prompts adversarios. Este estudio utiliza una amplia variedad de ataques textuales adversarios dirigidos a prompts en múltiples niveles: carácter, palabra, oración y semántica. Estos prompts se emplean luego en diversas tareas, como análisis de sentimientos, inferencia en lenguaje natural, comprensión lectora, traducción automática y resolución de problemas matemáticos. Nuestro estudio genera 4,032 prompts adversarios, evaluados meticulosamente en 8 tareas y 13 conjuntos de datos, con un total de 567,084 muestras de prueba. Nuestros hallazgos demuestran que los LLMs contemporáneos son vulnerables a los prompts adversarios. Además, presentamos un análisis exhaustivo para comprender el misterio detrás de la robustez de los prompts y su transferibilidad. Luego, ofrecemos un análisis perspicaz de la robustez y recomendaciones pragmáticas para la composición de prompts, beneficiosas tanto para investigadores como para usuarios cotidianos. Hacemos que nuestro código, prompts y metodologías para generar prompts adversarios sean de acceso público, fomentando así la exploración colaborativa en este campo crucial: https://github.com/microsoft/promptbench.
La implementación de modelos de traducción automática neuronal (NMT) en dispositivos móviles es esencial para garantizar privacidad, baja latencia y funcionamiento en escenarios sin conexión. Sin embargo, los modelos NMT de alta capacidad suelen ser bastante grandes. Ejecutar estos modelos en dispositivos con almacenamiento, memoria, capacidad de cómputo y consumo de energía limitados representa un desafío. Los trabajos existentes se centran únicamente en una métrica específica, como los FLOPs, o en motores generales que no son óptimos para el decodificado auto-regresivo. En este artículo, presentamos MobileNMT, un sistema capaz de traducir en 15 MB y 30 ms en dispositivos. Proponemos una serie de principios para la compresión de modelos combinada con cuantización. Además, implementamos un motor compatible con INT8 y optimizado para el decodificado. Gracias al diseño conjunto del modelo y el motor, en comparación con los sistemas existentes, logramos una aceleración de 47.0x y un ahorro del 99.5% en memoria, con solo una pérdida del 11.6% en la métrica BLEU. El código está disponible públicamente en https://github.com/zjersey/Lightseq-ARM.
Para fomentar el desarrollo del preentrenamiento visión-lenguaje (VLP) y los modelos de lenguaje multimodal de gran escala (LLM) en la comunidad china, presentamos inicialmente el mayor conjunto de datos público de alta calidad en chino para video-lenguaje, denominado Youku-mPLUG. Este conjunto de datos se ha recopilado de Youku, un conocido sitio web chino de intercambio de videos, aplicando criterios estrictos de seguridad, diversidad y calidad. Youku-mPLUG contiene 10 millones de pares video-texto en chino, filtrados a partir de 400 millones de videos brutos que abarcan un amplio espectro de 45 categorías diversas, destinados a preentrenamiento a gran escala. Además, para facilitar una evaluación exhaustiva de los modelos video-lenguaje, hemos construido cuidadosamente los mayores benchmarks chinos anotados manualmente, que cubren tres tareas populares de video-lenguaje: recuperación multimodal, generación de subtítulos para videos y clasificación de categorías de video. Youku-mPLUG permite a los investigadores realizar estudios multimodales más profundos y desarrollar mejores aplicaciones en el futuro. Asimismo, publicamos modelos populares de preentrenamiento video-lenguaje, ALPRO y mPLUG-2, junto con nuestro modelo propuesto de decodificador modularizado mPLUG-video, preentrenado en Youku-mPLUG. Los experimentos muestran que los modelos preentrenados en Youku-mPLUG obtienen una mejora de hasta el 23.1% en la clasificación de categorías de video. Además, mPLUG-video alcanza un nuevo estado del arte en estos benchmarks, con un 80.5% de precisión top-1 en la clasificación de categorías de video y un puntaje CIDEr de 68.9 en la generación de subtítulos para videos, respectivamente. Finalmente, escalamos mPLUG-video basándonos en Bloomz congelado, utilizando solo el 1.7% de parámetros entrenables como LLM multimodal en chino, demostrando una impresionante capacidad de comprensión de instrucciones y videos. El experimento de comprensión de instrucciones en modo zero-shot indica que el preentrenamiento con Youku-mPLUG puede mejorar la capacidad de comprender semántica visual general y detallada, reconocer texto en escenas y aprovechar conocimiento de dominio abierto.