Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances significativos en los últimos años, alcanzando un rendimiento sin precedentes en diversas tareas. Sin embargo, debido a intereses comerciales, los modelos más competitivos, como GPT, Gemini y Claude, han sido restringidos detrás de interfaces propietarias sin revelar los detalles de su entrenamiento. Recientemente, muchas instituciones han liberado varios LLMs potentes, como LLaMA-3, comparables a los LLMs de código cerrado existentes. No obstante, solo se proporcionan los pesos del modelo, mientras que la mayoría de los detalles (por ejemplo, puntos de control intermedios, corpus de preentrenamiento y código de entrenamiento, etc.) permanecen sin divulgar. Para mejorar la transparencia de los LLMs, la comunidad de investigación se ha unido para liberar LLMs verdaderamente abiertos (por ejemplo, Pythia, Amber, OLMo), donde se están proporcionando más detalles (como el corpus de preentrenamiento y el código de entrenamiento). Estos modelos han avanzado enormemente el estudio científico de estos modelos de gran escala, incluyendo sus fortalezas, debilidades, sesgos y riesgos. Sin embargo, observamos que los LLMs verdaderamente abiertos existentes en tareas de razonamiento, conocimiento y codificación aún son inferiores a los LLMs de última generación con tamaños de modelo similares. Con este fin, liberamos MAP-Neo, un modelo de lenguaje bilingüe altamente capaz y transparente con 7B de parámetros, entrenado desde cero con 4.5T de tokens de alta calidad. Nuestro MAP-Neo es el primer LLM bilingüe completamente de código abierto con un rendimiento comparable al de los LLMs de última generación existentes. Además, liberamos todos los detalles para reproducir nuestro MAP-Neo, proporcionando el corpus de preentrenamiento limpio, la pipeline de limpieza de datos, los puntos de control y un marco de entrenamiento/evaluación bien optimizado. Finalmente, esperamos que nuestro MAP-Neo fortalezca y enriquezca la comunidad de investigación abierta e inspire más innovaciones y creatividades para facilitar mejoras adicionales en los LLMs.
La optimización de preferencias, particularmente a través del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), ha logrado un éxito significativo en alinear los Modelos de Lenguaje de Gran Escala (LLMs) para que se adhieran a las intenciones humanas. A diferencia de la alineación offline con un conjunto de datos fijo, la recopilación de retroalimentación online de humanos o IA sobre las generaciones del modelo generalmente conduce a modelos de recompensa más capaces y LLMs mejor alineados mediante un proceso iterativo. Sin embargo, lograr un modelo de recompensa globalmente preciso requiere una exploración sistemática para generar respuestas diversas que abarquen el vasto espacio del lenguaje natural. El muestreo aleatorio de LLMs estándar que maximizan la recompensa por sí solo es insuficiente para cumplir con este requisito. Para abordar este problema, proponemos un objetivo de dos niveles optimistamente sesgado hacia respuestas potencialmente de alta recompensa para explorar activamente regiones fuera de la distribución. Al resolver el problema del nivel interno con la función de recompensa reparametrizada, el algoritmo resultante, denominado Modelos de Lenguaje de Autoexploración (SELM), elimina la necesidad de un modelo de recompensa (RM) separado y actualiza iterativamente el LLM con un objetivo directo. En comparación con la Optimización Directa de Preferencias (DPO), el objetivo de SELM reduce la preferencia indiscriminada por extrapolaciones no vistas y mejora la eficiencia de la exploración. Nuestros resultados experimentales demuestran que, al ajustarse en los modelos Zephyr-7B-SFT y Llama-3-8B-Instruct, SELM aumenta significativamente el rendimiento en benchmarks de seguimiento de instrucciones como MT-Bench y AlpacaEval 2.0, así como en varios benchmarks académicos estándar en diferentes configuraciones. Nuestro código y modelos están disponibles en https://github.com/shenao-zhang/SELM.
Los modelos de texto a vídeo (T2V) basados en difusión han logrado un éxito significativo, pero siguen enfrentándose a la limitación de la velocidad lenta de muestreo debido a sus procesos iterativos. Para abordar este desafío, se han propuesto modelos de consistencia que permiten una inferencia rápida, aunque a costa de la calidad de las muestras. En este trabajo, nuestro objetivo es superar el cuello de botella de calidad en un modelo de consistencia de vídeo (VCM) para lograr una generación de vídeo tanto rápida como de alta calidad. Presentamos T2V-Turbo, que integra retroalimentación de una mezcla de modelos de recompensa diferenciables en el proceso de destilación de consistencia (CD) de un modelo T2V preentrenado. Destacamos que optimizamos directamente las recompensas asociadas con generaciones de un solo paso que surgen naturalmente al calcular la pérdida de CD, evitando eficazmente las limitaciones de memoria impuestas por la retropropagación de gradientes a través de un proceso de muestreo iterativo. Notablemente, las generaciones de 4 pasos de nuestro T2V-Turbo alcanzan la puntuación total más alta en VBench, superando incluso a Gen-2 y Pika. Además, realizamos evaluaciones humanas para corroborar los resultados, validando que las generaciones de 4 pasos de nuestro T2V-Turbo son preferidas sobre las muestras de 50 pasos DDIM de sus modelos maestros, lo que representa una aceleración de más de diez veces mientras se mejora la calidad de la generación de vídeo.
Este artículo examina hasta qué punto los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han desarrollado una teoría de la mente (ToM, por sus siglas en inglés) de orden superior; la capacidad humana de razonar sobre múltiples estados mentales y emocionales de manera recursiva (por ejemplo, "pienso que tú crees que ella sabe"). Este trabajo se basa en investigaciones previas al introducir un conjunto de pruebas escritas a mano -- Preguntas y Respuestas sobre Teoría de la Mente de Múltiples Órdenes -- y utilizarlo para comparar el rendimiento de cinco LLMs con un nuevo punto de referencia recopilado de adultos humanos. Encontramos que GPT-4 y Flan-PaLM alcanzan un rendimiento a nivel de adulto y cercano al de adulto en tareas de ToM en general, y que GPT-4 supera el rendimiento humano en inferencias de sexto orden. Nuestros resultados sugieren que existe una interacción entre el tamaño del modelo y el ajuste fino para la realización de habilidades de ToM, y que los LLMs con mejor rendimiento han desarrollado una capacidad generalizada para la ToM. Dado el papel que desempeña la ToM de orden superior en una amplia gama de comportamientos humanos cooperativos y competitivos, estos hallazgos tienen implicaciones significativas para las aplicaciones de LLMs orientadas al usuario.
The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data. This involves building datasets where each element is a quadruplet composed of a prompt, two independent responses (completions of the prompt) and a human preference between the two independent responses, yielding a preferred and a dis-preferred response. Such data is typically scarce and expensive to collect. On the other hand, single-trajectory datasets where each element is a triplet composed of a prompt, a response and a human feedback is naturally more abundant. The canonical element of such datasets is for instance an LLM's response to a user's prompt followed by a user's feedback such as a thumbs-up/down. Consequently, in this work, we propose DRO, or Direct Reward Optimisation, as a framework and associated algorithms that do not require pairwise preferences. DRO uses a simple mean-squared objective that can be implemented in various ways. We validate our findings empirically, using T5 encoder-decoder language models, and show DRO's performance over selected baselines such as Kahneman-Tversky Optimization (KTO). Thus, we confirm that DRO is a simple and empirically compelling method for single-trajectory policy optimisation.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a menudo alucinan y carecen de la capacidad de proporcionar atribución para sus generaciones. Los modelos de lenguaje semi-paramétricos, como kNN-LM, abordan estas limitaciones refinando la salida de un LM para una instrucción dada utilizando sus coincidencias más cercanas en un almacén de datos no paramétrico. Sin embargo, estos modelos suelen exhibir velocidades de inferencia lentas y producen textos poco fluidos. En este artículo, presentamos Nearest Neighbor Speculative Decoding (NEST), un novedoso enfoque de modelado de lenguaje semi-paramétrico que es capaz de incorporar fragmentos de texto del mundo real de longitud arbitraria en las generaciones del LM y proporcionar atribución a sus fuentes. NEST realiza recuperación a nivel de token en cada paso de inferencia para calcular una distribución de mezcla semi-paramétrica e identificar continuaciones prometedoras de fragmentos en un corpus. Luego, utiliza un procedimiento de decodificación especulativa aproximada que acepta un prefijo del fragmento recuperado o genera un nuevo token. NEST mejora significativamente la calidad de la generación y la tasa de atribución del LM base en una variedad de tareas intensivas en conocimiento, superando el método convencional kNN-LM y compitiendo con la mejora de recuperación en contexto. Además, NEST mejora sustancialmente la velocidad de generación, logrando una aceleración de 1.8x en el tiempo de inferencia cuando se aplica a Llama-2-Chat 70B.
Este artículo presenta EasyAnimate, un método avanzado para la generación de videos que aprovecha la potencia de la arquitectura transformer para obtener resultados de alto rendimiento. Hemos ampliado el marco DiT, originalmente diseñado para la síntesis de imágenes 2D, para adaptarlo a las complejidades de la generación de videos 3D mediante la incorporación de un bloque de módulo de movimiento. Este se utiliza para capturar la dinámica temporal, asegurando así la producción de fotogramas consistentes y transiciones de movimiento fluidas. El módulo de movimiento puede adaptarse a varios métodos base de DiT para generar videos con diferentes estilos. También puede generar videos con diferentes tasas de fotogramas y resoluciones durante las fases de entrenamiento e inferencia, siendo adecuado tanto para imágenes como para videos. Además, introducimos slice VAE, un enfoque novedoso para condensar el eje temporal, facilitando la generación de videos de larga duración. Actualmente, EasyAnimate demuestra la capacidad de generar videos con 144 fotogramas. Ofrecemos un ecosistema integral para la producción de videos basado en DiT, que abarca aspectos como el preprocesamiento de datos, el entrenamiento de VAE, el entrenamiento de modelos DiT (tanto el modelo base como el modelo LoRA) y la inferencia de video de extremo a extremo. El código está disponible en: https://github.com/aigc-apps/EasyAnimate. Continuamos trabajando para mejorar el rendimiento de nuestro método.
La integración de múltiples modelos generativos fundamentales, especialmente aquellos entrenados en diferentes modalidades, en algo mayor que la suma de sus partes, plantea desafíos significativos. Dos obstáculos clave son la disponibilidad de datos alineados (conceptos que contienen un significado similar pero se expresan de manera diferente en distintas modalidades) y el aprovechamiento efectivo de las representaciones unimodales en tareas generativas de dominio cruzado, sin comprometer sus capacidades unimodales originales. Proponemos Zipper, una arquitectura de decodificador multi-torre que aborda estas preocupaciones mediante el uso de atención cruzada para componer de manera flexible modelos generativos multimodales a partir de decodificadores unimodales preentrenados de forma independiente. En nuestros experimentos que fusionan las modalidades de habla y texto, demostramos que la arquitectura propuesta tiene un desempeño muy competitivo en escenarios con datos limitados de texto-habla alineados. También mostramos la flexibilidad de nuestro modelo para mantener selectivamente el rendimiento de generación unimodal (por ejemplo, generación de texto a texto) al congelar la torre modal correspondiente (por ejemplo, texto). En tareas de modalidad cruzada como el reconocimiento automático de habla (ASR), donde la modalidad de salida es texto, demostramos que congelar la columna vertebral de texto resulta en una degradación de rendimiento insignificante. En tareas de modalidad cruzada como la generación de texto a voz (TTS), donde la modalidad de salida es habla, mostramos que el uso de una columna vertebral de habla preentrenada ofrece un rendimiento superior al de la línea base.
La creación de versiones digitales de alta fidelidad de cabezas humanas representa un paso importante en el proceso de integrar componentes virtuales en nuestra vida cotidiana. Construir tales avatares es un problema de investigación desafiante, debido a la alta demanda de fotorrealismo y rendimiento de renderizado en tiempo real. En este trabajo, proponemos Avatares Gaussianos Paramétricos Neuronales (NPGA), un enfoque basado en datos para crear avatares de alta fidelidad y controlables a partir de grabaciones de video multicámara. Construimos nuestro método alrededor de *3D Gaussian Splatting* por su renderizado altamente eficiente y para heredar la flexibilidad topológica de las nubes de puntos. A diferencia de trabajos anteriores, condicionamos la dinámica de nuestros avatares en el espacio de expresiones rico de los modelos de cabeza paramétricos neuronales (NPHM), en lugar de en modelos 3DMM basados en mallas. Para ello, destilamos el campo de deformación inversa de nuestro NPHM subyacente en deformaciones directas compatibles con el renderizado basado en rasterización. Todos los detalles finos dependientes de la expresión se aprenden a partir de los videos multicámara. Para aumentar la capacidad representativa de nuestros avatares, aumentamos la nube de puntos gaussiana canónica utilizando características latentes por primitiva que gobiernan su comportamiento dinámico. Para regular esta mayor expresividad dinámica, proponemos términos de Laplaciano sobre las características latentes y las dinámicas predichas. Evaluamos nuestro método en el conjunto de datos público NeRSemble, demostrando que NPGA supera significativamente a los avatares de última generación anteriores en la tarea de auto-recreación con una mejora de 2.6 PSNR. Además, demostramos capacidades precisas de animación a partir de videos monoculares del mundo real.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) ha demostrado un gran potencial para alinear modelos de lenguaje de gran escala (LLMs) con las preferencias humanas. Dependiendo de la disponibilidad de datos de preferencia, tanto el RLHF en línea como fuera de línea son áreas activas de investigación. Un cuello de botella clave es comprender cómo incorporar la estimación de incertidumbre en la función de recompensa aprendida a partir de los datos de preferencia para RLHF, independientemente de cómo se recopilen dichos datos. Si bien los principios de optimismo o pesimismo bajo incertidumbre están bien establecidos en el aprendizaje por refuerzo estándar (RL), aún no está disponible una forma práctica y teóricamente fundamentada que sea adecuada para modelos de lenguaje de gran escala, ya que las técnicas estándar para construir intervalos de confianza se vuelven intratables bajo parametrizaciones arbitrarias de políticas. En este artículo, presentamos un enfoque unificado para RLHF en línea y fuera de línea: la optimización de preferencias incentivadas por valor (VPO, por sus siglas en inglés), que regulariza la estimación de máxima verosimilitud de la función de recompensa con la función de valor correspondiente, modulada por un signo que indica si se elige el optimismo o el pesimismo. VPO también optimiza directamente la política con modelado implícito de recompensas y, por lo tanto, comparte una canalización de RLHF más simple, similar a la optimización directa de preferencias. Se proporcionan garantías teóricas para VPO en ambos entornos, en línea y fuera de línea, que coinciden con las tasas de sus contrapartes estándar de RL. Además, los experimentos en resumen de texto y diálogo verifican la practicidad y efectividad de VPO.
El contenido sonoro es un elemento indispensable para obras multimedia como videojuegos, música y películas. Los recientes modelos de generación de sonido basados en difusión de alta calidad pueden servir como herramientas valiosas para los creadores. Sin embargo, a pesar de producir sonidos de alta calidad, estos modelos suelen tener velocidades de inferencia lentas. Este inconveniente supone una carga para los creadores, quienes normalmente refinan sus sonidos mediante prueba y error para alinearlos con sus intenciones artísticas. Para abordar este problema, presentamos los Modelos de Trayectoria de Consistencia de Sonido (SoundCTM). Nuestro modelo permite transiciones flexibles entre la generación de sonido de un paso de alta calidad y una calidad de sonido superior mediante generación de múltiples pasos. Esto permite a los creadores controlar inicialmente los sonidos con muestras de un paso antes de refinarlos a través de la generación de múltiples pasos. Aunque CTM logra fundamentalmente una generación flexible de un paso y múltiples pasos, su impresionante rendimiento depende en gran medida de un extractor de características preentrenado adicional y una pérdida adversarial, que son costosos de entrenar y no siempre están disponibles en otros dominios. Por lo tanto, reformulamos el marco de entrenamiento de CTM e introducimos una nueva distancia de características utilizando la red del profesor para una pérdida de destilación. Además, mientras destilamos trayectorias guiadas sin clasificador, entrenamos modelos de estudiante condicionales e incondicionales simultáneamente e interpolamos entre estos modelos durante la inferencia. También proponemos marcos de control entrenables sin entrenamiento para SoundCTM, aprovechando su capacidad de muestreo flexible. SoundCTM logra tanto una prometedora generación de sonido en tiempo real de un paso como de múltiples pasos sin utilizar ninguna red adicional preexistente. Además, demostramos la capacidad de SoundCTM para la generación de sonido controlable de manera entrenable sin entrenamiento.
Los métodos existentes de generación de texto a 3D basados en difusión se centran principalmente en producir formas y apariencias visualmente realistas, a menudo descuidando las restricciones físicas necesarias para tareas posteriores. Los modelos generados frecuentemente no mantienen el equilibrio cuando se colocan en simulaciones basadas en física o se imprimen en 3D. Este equilibrio es crucial para satisfacer las intenciones de diseño del usuario en juegos interactivos, IA encarnada y robótica, donde se necesitan modelos estables para una interacción confiable. Además, los modelos estables garantizan que los objetos impresos en 3D, como figuras para decoración del hogar, puedan mantenerse en pie por sí mismos sin requerir soportes adicionales. Para llenar este vacío, presentamos Atlas3D, un método automático y fácil de implementar que mejora las herramientas existentes de texto a 3D basadas en Score Distillation Sampling (SDS). Atlas3D asegura la generación de modelos 3D autosoportados que se adhieren a las leyes físicas de estabilidad bajo gravedad, contacto y fricción. Nuestro enfoque combina una novedosa función de pérdida basada en simulación diferenciable con regularización inspirada en la física, sirviendo como un módulo de refinamiento o post-procesamiento para marcos existentes. Verificamos la eficacia de Atlas3D a través de extensas tareas de generación y validamos los modelos 3D resultantes tanto en entornos simulados como en el mundo real.