Artículos de investigación en IA seleccionados diariamente con traducciones
Los conjuntos de datos son fundamentales para muchos avances en la inteligencia artificial moderna. Muchos de los logros recientes en el ámbito del procesamiento del lenguaje natural (PLN) pueden atribuirse al ajuste fino de modelos preentrenados en un conjunto diverso de tareas que permite a un modelo de lenguaje grande (LLM, por sus siglas en inglés) responder a instrucciones. El ajuste fino basado en instrucciones (IFT, por sus siglas en inglés) requiere conjuntos de datos específicamente construidos y anotados. Sin embargo, los conjuntos de datos existentes están casi todos en inglés. En este trabajo, nuestro objetivo principal es cerrar la brecha lingüística mediante la creación de un conjunto de datos de seguimiento de instrucciones curado por humanos que abarca 65 idiomas. Trabajamos con hablantes fluidos de idiomas de todo el mundo para recopilar ejemplos naturales de instrucciones y sus respuestas. Además, creamos la colección multilingüe más extensa hasta la fecha, que comprende 513 millones de instancias mediante la creación de plantillas y la traducción de conjuntos de datos existentes en 114 idiomas. En total, contribuimos con cuatro recursos clave: desarrollamos y publicamos la Plataforma de Anotación Aya, el Conjunto de Datos Aya, la Colección Aya y el Kit de Evaluación Aya. La iniciativa Aya también sirve como un valioso estudio de caso en investigación participativa, involucrando a colaboradores de 119 países. Vemos esto como un marco valioso para futuras colaboraciones de investigación que busquen cerrar brechas en los recursos.
Las habilidades matemáticas de los modelos de lenguaje de gran escala pueden representar su capacidad de razonamiento abstracto. En este artículo, presentamos y liberamos nuestros modelos de lenguaje de razonamiento matemático InternLM-Math, los cuales se han preentrenado continuamente a partir de InternLM2. Unificamos el razonamiento de cadena de pensamiento, el modelado de recompensas, el razonamiento formal, la ampliación de datos y el intérprete de código en un formato seq2seq unificado, y supervisamos nuestro modelo para que sea un razonador, verificador, demostrador y ampliador matemático versátil. Estas habilidades pueden utilizarse para desarrollar los próximos modelos de lenguaje matemático o para la auto-iteración. InternLM-Math obtiene un rendimiento de vanguardia de código abierto en el contexto de aprendizaje en contexto, ajuste fino supervisado y razonamiento asistido por código en varios puntos de referencia informales y formales, incluyendo GSM8K, MATH, el examen de matemáticas de Hungría, MathBench-ZH y MiniF2F. Nuestro modelo preentrenado alcanza un puntaje de 30.3 en el conjunto de pruebas MiniF2F sin ajuste fino. Además, exploramos cómo utilizar LEAN para resolver problemas matemáticos y estudiamos su rendimiento en el contexto de aprendizaje multitarea, lo que muestra la posibilidad de usar LEAN como una plataforma unificada para resolver y demostrar en matemáticas. Nuestros modelos, códigos y datos están disponibles en https://github.com/InternLM/InternLM-Math.
La creación de avatares digitales a partir de indicaciones textuales ha sido durante mucho tiempo una tarea deseable pero desafiante. A pesar de los resultados prometedores obtenidos mediante el uso de priores de difusión 2D en trabajos recientes, los métodos actuales enfrentan dificultades para lograr avatares de alta calidad y animados de manera efectiva. En este artículo, presentamos HeadStudio, un marco novedoso que utiliza el splatting de Gaussianas 3D para generar avatares realistas y animados a partir de indicaciones textuales. Nuestro método impulsa semánticamente las Gaussianas 3D para crear una apariencia flexible y alcanzable a través de la representación intermedia FLAME. Específicamente, incorporamos FLAME tanto en la representación 3D como en la destilación de puntuaciones: 1) Splatting de Gaussianas 3D basado en FLAME, impulsando puntos de Gaussianas 3D al vincular cada punto a una malla FLAME. 2) Muestreo de destilación de puntuación basado en FLAME, utilizando una señal de control detallada basada en FLAME para guiar la destilación de puntuación a partir de la indicación textual. Experimentos extensos demuestran la eficacia de HeadStudio en la generación de avatares animables a partir de indicaciones textuales, exhibiendo apariencias visualmente atractivas. Los avatares son capaces de renderizar vistas novedosas de alta calidad en tiempo real (geq 40 fps) con una resolución de 1024. Pueden ser controlados suavemente mediante el habla y el video del mundo real. Esperamos que HeadStudio pueda avanzar en la creación de avatares digitales y que el método presente pueda aplicarse ampliamente en diversos dominios.
Los recientes avances en los modelos de generación de texto a música han abierto nuevas vías en la creatividad musical. Sin embargo, la generación de música suele implicar refinamientos iterativos, y cómo editar la música generada sigue siendo un desafío significativo. Este artículo introduce un enfoque novedoso para la edición de música generada por dichos modelos, permitiendo la modificación de atributos específicos, como el género, el estado de ánimo y los instrumentos, mientras se mantienen inalterados otros aspectos. Nuestro método transforma la edición de texto en manipulación del espacio latente, añadiendo una restricción adicional para garantizar la coherencia. Se integra perfectamente con los modelos de difusión de texto a música preentrenados existentes sin requerir entrenamiento adicional. Los resultados experimentales demuestran un rendimiento superior tanto en comparación con enfoques de cero disparos como con ciertas líneas base supervisadas en evaluaciones de transferencia de estilo y timbre. Además, mostramos la aplicabilidad práctica de nuestro enfoque en escenarios reales de edición musical.
Al combinar la comprensión del lenguaje natural y las capacidades de generación y amplitud de conocimiento de los modelos de lenguaje de gran escala con la percepción visual, los recientes modelos de lenguaje y visión de gran escala (LVLMs, por sus siglas en inglés) han demostrado capacidades de razonamiento sin precedentes en el mundo real. Sin embargo, el texto generado a menudo sufre de una conexión imprecisa con la entrada visual, lo que resulta en errores como la alucinación de elementos de la escena que no existen, la omisión de partes significativas de la escena y la inferencia incorrecta de atributos y relaciones entre objetos. Para abordar estos problemas, presentamos un marco novedoso, ViGoR (Visual Grounding Through Fine-Grained Reward Modeling), que utiliza un modelado de recompensas de grano fino para mejorar significativamente la conexión visual de los LVLMs en comparación con líneas base preentrenadas. Esta mejora se logra de manera eficiente utilizando evaluaciones humanas mucho más económicas en lugar de supervisiones completas, así como métodos automatizados. Demostramos la efectividad de nuestro enfoque a través de numerosas métricas en varios puntos de referencia. Además, construimos un conjunto de datos completo y desafiante específicamente diseñado para validar las capacidades de conexión visual de los LVLMs. Finalmente, planeamos publicar nuestras anotaciones humanas que comprenden aproximadamente 16,000 pares de imágenes y texto generado con evaluaciones de grano fino para contribuir a la investigación relacionada en la comunidad.
Introducimos la edición de modelos con ejemplos canónicos, un escenario en el que (1) se proporciona un único ejemplo de aprendizaje por cada comportamiento deseado, (2) la evaluación se realiza exclusivamente fuera de distribución, y (3) la desviación de un modelo inicial está estrictamente limitada. Un ejemplo canónico es una instancia simple de buen comportamiento, por ejemplo, "La capital de Mauricio es Port Louis", o de mal comportamiento, por ejemplo, "Un aspecto de los investigadores es ser insensibles". El conjunto de evaluación contiene ejemplos más complejos de cada comportamiento (como un párrafo en el que se menciona la capital de Mauricio). Creamos tres conjuntos de datos y modificamos tres más para la edición de modelos con ejemplos canónicos, cubriendo mejoras intensivas en conocimiento, mitigación de sesgos sociales y casos límite sintácticos. En nuestros experimentos con modelos de lenguaje Pythia, encontramos que LoRA supera al ajuste fino completo y a MEMIT. Luego, nos enfocamos en la arquitectura del modelo de lenguaje Backpack porque está diseñada para permitir mejoras específicas. El Backpack define un gran banco de vectores de sentido—una descomposición de los diferentes usos de cada palabra—que se ponderan y suman para formar los logits de salida del modelo. Proponemos el ajuste fino de sentido, que selecciona y ajusta unos pocos (aproximadamente 10) vectores de sentido para cada ejemplo canónico, y encontramos que supera a otros métodos de ajuste fino, por ejemplo, una mejora del 4.8% frente al 0.3%. Finalmente, mejoramos GPT-J-6B mediante un ensamble en tiempo de inferencia con solo los cambios del ajuste fino de sentido de un Backpack 35 veces más pequeño, en un escenario superando la edición del propio GPT-J (4.1% frente a 1.0%).
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienen el potencial de impactar una amplia gama de dominios creativos, pero la aplicación de LLMs a la animación está poco explorada y presenta desafíos novedosos, como cómo los usuarios podrían describir efectivamente el movimiento en lenguaje natural. En este artículo, presentamos Keyframer, una herramienta de diseño para animar imágenes estáticas (SVGs) con lenguaje natural. Basado en entrevistas con diseñadores de animación e ingenieros profesionales, Keyframer facilita la exploración y refinamiento de animaciones mediante la combinación de indicaciones (prompts) y la edición directa de los resultados generados. El sistema también permite a los usuarios solicitar variantes de diseño, apoyando la comparación y la ideación. A través de un estudio de usuarios con 13 participantes, contribuimos con una caracterización de las estrategias de indicación de los usuarios, incluyendo una taxonomía de tipos de indicaciones semánticas para describir el movimiento y un estilo de indicación 'descompuesta' donde los usuarios adaptan continuamente sus objetivos en respuesta a los resultados generados. Compartimos cómo la edición directa junto con las indicaciones permite iterar más allá de las interfaces de indicación única comunes en las herramientas generativas actuales. A través de este trabajo, proponemos cómo los LLMs podrían empoderar a una variedad de audiencias para involucrarse en la creación de animaciones.
A pesar del notable éxito de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), sus extensos requisitos de memoria plantean desafíos para su implementación en la generación de tokens de contexto largo. La considerable huella de memoria de los decodificadores de LLMs surge de la necesidad de almacenar todos los tokens anteriores en el módulo de atención, un requisito impuesto por el almacenamiento en caché de pares clave-valor (KV). En este trabajo, nuestro enfoque se centra en desarrollar una técnica de compresión eficiente para la caché KV. La evidencia empírica indica una tendencia significativa de agrupamiento dentro de los embeddings de clave en el módulo de atención. Basándonos en esta observación clave, hemos diseñado un nuevo método de almacenamiento en caché con complejidad sublineal, empleando agrupamiento en línea en los tokens clave y muestreo en línea de ell_2 en los valores. El resultado es un algoritmo de decodificación de atención precisa y eficiente, denominado SubGen. Este algoritmo no solo garantiza una huella de memoria sublineal y una complejidad temporal sublineal, sino que también establecemos un límite de error ajustado para nuestro enfoque. Las evaluaciones empíricas en tareas de respuesta a preguntas de contexto largo demuestran que SubGen supera significativamente a los métodos existentes y de vanguardia de compresión de caché KV en términos de rendimiento y eficiencia.
Los métodos existentes para controlar modelos de lenguaje, como RLHF y Constitutional AI, implican determinar qué comportamientos de los LLM son deseables y entrenarlos en un modelo de lenguaje. Sin embargo, en muchos casos, es deseable que los LLM sean controlables en tiempo de inferencia, para que puedan usarse en múltiples contextos con necesidades diversas. Ilustramos esto con el Problema del Elefante Rosa: instruir a un LLM para que evite discutir una cierta entidad (un "Elefante Rosa") y, en su lugar, discuta una entidad preferida ("Elefante Gris"). Aplicamos una novedosa simplificación de Constitutional AI, Direct Principle Feedback, que omite la clasificación de respuestas y utiliza DPO directamente en críticas y revisiones. Nuestros resultados muestran que, después del ajuste fino con DPF en nuestro conjunto de datos sintéticos de Elefantes Rosas, nuestro modelo LLaMA 2 de 13B ajustado supera significativamente a Llama-2-13B-Chat y a una línea base basada en indicaciones, y tiene un rendimiento similar al de GPT-4 en nuestro conjunto de pruebas curadas que evalúa el Problema del Elefante Rosa.
Presentamos Premier-TACO, un enfoque de aprendizaje de representación de características multitarea diseñado para mejorar la eficiencia del aprendizaje de políticas con pocos ejemplos en tareas de toma de decisiones secuenciales. Premier-TACO aprovecha un subconjunto de conjuntos de datos multitarea fuera de línea para el preentrenamiento de una representación de características general, que captura dinámicas críticas del entorno y se ajusta utilizando demostraciones expertas mínimas. Este método avanza el objetivo de aprendizaje contrastivo de acciones temporales (TACO), conocido por sus resultados de vanguardia en tareas de control visual, al incorporar una nueva estrategia de muestreo de ejemplos negativos. Esta estrategia es crucial para aumentar significativamente la eficiencia computacional de TACO, haciendo factible el preentrenamiento multitarea fuera de línea a gran escala. Nuestra evaluación empírica exhaustiva en un conjunto diverso de benchmarks de control continuo, que incluyen Deepmind Control Suite, MetaWorld y LIBERO, demuestra la efectividad de Premier-TACO en el preentrenamiento de representaciones visuales, mejorando significativamente el aprendizaje por imitación con pocos ejemplos en tareas novedosas. Nuestro código, datos de preentrenamiento, así como los puntos de control de modelos preentrenados, se publicarán en https://github.com/PremierTACO/premier-taco.
Presentamos pegatinas animadas, un modelo de difusión de video que genera una animación condicionada por un texto descriptivo y una imagen estática de pegatina. Nuestro modelo se construye sobre el modelo de texto a imagen Emu, de última generación, con la adición de capas temporales para modelar el movimiento. Debido a la brecha de dominio, es decir, las diferencias en el estilo visual y de movimiento, un modelo que funcionaba bien en la generación de videos naturales ya no puede generar videos vívidos cuando se aplica a pegatinas. Para cerrar esta brecha, empleamos una canalización de ajuste fino en dos etapas: primero con datos débilmente dentro del dominio, seguido de una estrategia de humano en el bucle (HITL) que denominamos conjunto-de-maestros. Esta estrategia destila las mejores cualidades de múltiples maestros en un modelo estudiante más pequeño. Demostramos que esta estrategia nos permite mejorar específicamente la calidad del movimiento mientras mantenemos el estilo de la imagen estática. Con optimizaciones en la inferencia, nuestro modelo es capaz de generar un video de ocho fotogramas con movimiento de alta calidad, interesante y relevante en menos de un segundo.
Hoy en día, se espera que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) generen contenido alineado con las preferencias humanas. El trabajo actual se centra en la alineación durante el entrenamiento del modelo, mediante técnicas como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés). Sin embargo, no está claro si estos métodos son una elección efectiva para enseñar objetivos de alineación al modelo. En primer lugar, la incapacidad de incorporar múltiples recompensas personalizadas y la dependencia de la visión del desarrollador del modelo sobre principios universales y estáticos son limitaciones clave. En segundo lugar, los vacíos residuales en el entrenamiento del modelo y la fiabilidad de tales enfoques también son cuestionables (por ejemplo, la susceptibilidad a ser "jailbreak" incluso después del entrenamiento de seguridad). Para abordar estos problemas, proponemos DeAL, un marco que permite al usuario personalizar funciones de recompensa y habilita la Alineación en Tiempo de Decodificación de LLMs (DeAL). En esencia, vemos la decodificación como un proceso de búsqueda guiada por heurísticas y facilitamos el uso de una amplia variedad de objetivos de alineación. Nuestros experimentos con restricciones programáticas, como restricciones de palabras clave y longitud (ampliamente estudiadas en la era pre-LLM), y objetivos abstractos como la inocuidad y la utilidad (propuestos en la era post-LLM), muestran que podemos manejar compensaciones detalladas, mejorar la adherencia a los objetivos de alineación y abordar los vacíos residuales en los LLMs. Por último, aunque DeAL puede combinarse eficazmente con técnicas de RLHF y "prompting", su generalidad hace que la decodificación sea más lenta, una optimización que dejamos para trabajo futuro.
Los avances recientes en aplicaciones del mundo real del aprendizaje por refuerzo (RL, por sus siglas en inglés) han dependido de la capacidad de simular sistemas con precisión a gran escala. Sin embargo, dominios como los sistemas de dinámica de fluidos exhiben fenómenos dinámicos complejos que son difíciles de simular a altas tasas de integración, lo que limita la aplicación directa de los algoritmos modernos de RL profundo a hardware que a menudo es costoso o crítico para la seguridad. En este trabajo, presentamos "Box o Flows", un novedoso sistema experimental de control de banco para evaluar sistemáticamente algoritmos de RL en escenarios dinámicos del mundo real. Describimos los componentes clave de Box o Flows y, mediante una serie de experimentos, demostramos cómo los algoritmos de RL sin modelo de última generación pueden sintetizar una variedad de comportamientos complejos mediante especificaciones de recompensa simples. Además, exploramos el papel del RL fuera de línea en pruebas de hipótesis eficientes en datos mediante la reutilización de experiencias pasadas. Creemos que las ideas obtenidas de este estudio preliminar y la disponibilidad de sistemas como Box o Flows respaldan el camino hacia el desarrollo de algoritmos de RL sistemáticos que puedan aplicarse de manera general a sistemas dinámicos complejos. El material complementario y los videos de los experimentos están disponibles en https://sites.google.com/view/box-o-flows/home.