Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos SELF-DISCOVER, un marco general para que los modelos de lenguaje grandes (LLMs) descubran por sí mismos las estructuras de razonamiento intrínsecas a la tarea, con el fin de abordar problemas de razonamiento complejos que resultan desafiantes para los métodos de prompting tradicionales. El núcleo del marco es un proceso de autodescubrimiento en el que los LLMs seleccionan múltiples módulos de razonamiento atómico, como el pensamiento crítico y el razonamiento paso a paso, y los componen en una estructura de razonamiento explícita para que los LLMs sigan durante la decodificación. SELF-DISCOVER mejora sustancialmente el rendimiento de GPT-4 y PaLM 2 en benchmarks de razonamiento desafiantes como BigBench-Hard, razonamiento de agentes fundamentados y MATH, hasta en un 32% en comparación con Chain of Thought (CoT). Además, SELF-DISCOVER supera a métodos intensivos en inferencia como CoT-Self-Consistency en más de un 20%, mientras requiere entre 10 y 40 veces menos cómputo de inferencia. Finalmente, demostramos que las estructuras de razonamiento autodescubiertas son universalmente aplicables entre familias de modelos: desde PaLM 2-L hasta GPT-4, y desde GPT-4 hasta Llama2, y comparten similitudes con los patrones de razonamiento humano.
Los modelos de lenguaje preentrenados de gran escala (LLMs) exhiben capacidades excepcionales de procesamiento general del lenguaje, pero conllevan demandas significativas de memoria y recursos computacionales. Como una potente tecnología de compresión, la binarización puede reducir extremadamente los pesos del modelo a tan solo 1 bit, disminuyendo los costosos requisitos de computación y memoria. Sin embargo, las técnicas de cuantificación existentes no logran mantener el rendimiento de los LLMs bajo anchos de bits ultra bajos. En respuesta a este desafío, presentamos BiLLM, un esquema innovador de cuantificación post-entrenamiento de 1 bit diseñado específicamente para LLMs preentrenados. Basándose en la distribución de pesos de los LLMs, BiLLM primero identifica y selecciona estructuralmente los pesos más relevantes, y minimiza la pérdida de compresión mediante una estrategia efectiva de aproximación residual binaria. Además, considerando la distribución en forma de campana de los pesos no relevantes, proponemos una búsqueda de división óptima para agruparlos y binarizarlos con precisión. BiLLM logra por primera vez una inferencia de alta precisión (por ejemplo, 8.41 de perplejidad en LLaMA2-70B) con pesos de solo 1.08 bits en diversas familias de LLMs y métricas de evaluación, superando significativamente a los métodos de cuantificación SOTA para LLMs. Además, BiLLM permite el proceso de binarización de un LLM con 7 mil millones de pesos en menos de 0.5 horas en una sola GPU, demostrando una eficiencia temporal satisfactoria.
Los modelos de espacio de estados (SSMs, por sus siglas en inglés), como Mamba Gu & Dao (2034), se han propuesto como alternativas a las redes Transformer en el modelado del lenguaje, al incorporar mecanismos de compuerta, convoluciones y selección de tokens dependiente de la entrada para mitigar el costo cuadrático de la atención multi-cabeza. Aunque los SSMs muestran un rendimiento competitivo, sus capacidades de aprendizaje en contexto (ICL, por sus siglas en inglés), una propiedad emergente notable de los modelos de lenguaje modernos que permite la ejecución de tareas sin optimización de parámetros, siguen siendo menos exploradas en comparación con los Transformers. En este estudio, evaluamos el rendimiento en ICL de los SSMs, centrándonos en Mamba, frente a los modelos Transformer en diversas tareas. Nuestros resultados muestran que los SSMs tienen un desempeño comparable al de los Transformers en tareas estándar de regresión en ICL, mientras que los superan en tareas como el aprendizaje de paridad dispersa. Sin embargo, los SSMs se quedan cortos en tareas que involucran funcionalidades de recuperación no estándar. Para abordar estas limitaciones, introducimos un modelo híbrido, \variant, que combina Mamba con bloques de atención, superando a los modelos individuales en tareas donde estos tienen dificultades por separado. Nuestros hallazgos sugieren que las arquitecturas híbridas ofrecen vías prometedoras para mejorar el ICL en los modelos de lenguaje.
La ampliación del entrenamiento previo de lenguaje-imagen contrastivo (CLIP) es crucial para potenciar tanto los modelos de visión como los multimodales. Presentamos EVA-CLIP-18B, el modelo CLIP de código abierto más grande y potente hasta la fecha, con 18 mil millones de parámetros. Con solo 6 mil millones de muestras de entrenamiento vistas, EVA-CLIP-18B logra un excepcional 80.7% de precisión top-1 en clasificación de imágenes sin ajuste previo, promediado en 27 benchmarks ampliamente reconocidos, superando por un amplio margen a su predecesor EVA-CLIP (5 mil millones de parámetros) y a otros modelos CLIP de código abierto. Notablemente, observamos una mejora consistente en el rendimiento con el escalado del tamaño del modelo EVA-CLIP, a pesar de mantener un conjunto de entrenamiento constante de 2 mil millones de pares imagen-texto de LAION-2B y COYO-700M. Este conjunto de datos está disponible públicamente y es mucho más pequeño que los conjuntos de datos internos (por ejemplo, DFN-5B, WebLI-10B) utilizados en otros modelos CLIP de última generación. EVA-CLIP-18B demuestra el potencial del escalado de modelos visuales de débil a fuerte al estilo EVA. Al hacer públicos los pesos de nuestro modelo, esperamos facilitar futuras investigaciones en modelos fundamentales de visión y multimodales.
La generación de imagen a video (I2V) tiene como objetivo utilizar el fotograma inicial (junto con un texto de entrada) para crear una secuencia de video. Un gran desafío en la generación I2V es mantener la consistencia visual a lo largo del video: los métodos existentes suelen tener dificultades para preservar la integridad del sujeto, el fondo y el estilo del primer fotograma, así como para garantizar una progresión fluida y lógica dentro de la narrativa del video. Para mitigar estos problemas, proponemos ConsistI2V, un método basado en difusión para mejorar la consistencia visual en la generación I2V. Específicamente, introducimos (1) atención espacio-temporal sobre el primer fotograma para mantener la consistencia espacial y de movimiento, y (2) inicialización del ruido a partir de la banda de baja frecuencia del primer fotograma para mejorar la consistencia del diseño. Estos dos enfoques permiten que ConsistI2V genere videos altamente consistentes. También extendemos los enfoques propuestos para mostrar su potencial para mejorar la consistencia en la generación autoregresiva de videos largos y el control de movimiento de cámara. Para verificar la efectividad de nuestro método, proponemos I2V-Bench, un punto de referencia de evaluación integral para la generación I2V. Nuestros resultados de evaluación automática y humana demuestran la superioridad de ConsistI2V sobre los métodos existentes.
Las leyes de escalamiento proporcionan información importante que puede guiar el diseño de modelos de lenguaje a gran escala (LLMs). El trabajo existente se ha centrado principalmente en estudiar las leyes de escalamiento para la pérdida durante el preentrenamiento (fase inicial). Sin embargo, en entornos de aprendizaje por transferencia, donde los LLMs se preentrenan con un conjunto de datos no supervisado y luego se ajustan para una tarea específica, también nos interesa el rendimiento en la tarea final. En este trabajo, estudiamos el comportamiento de escalamiento en un entorno de aprendizaje por transferencia, donde los LLMs se ajustan para tareas de traducción automática. Específicamente, investigamos cómo la elección de los datos de preentrenamiento y su tamaño afectan el rendimiento final (calidad de la traducción), evaluado mediante dos métricas: la entropía cruzada final y la puntuación BLEU. Nuestros experimentos indican que el tamaño del conjunto de datos de ajuste y la alineación de la distribución entre los datos de preentrenamiento y los datos finales influyen significativamente en el comportamiento de escalamiento. Con una alineación suficiente, tanto la entropía cruzada final como la puntuación BLEU mejoran monótonamente con más datos de preentrenamiento. En tales casos, demostramos que es posible predecir la puntuación BLEU final con buena precisión utilizando una ley logarítmica. Sin embargo, también hay casos en los que una desalineación moderada hace que la puntuación BLEU fluctúe o empeore con más preentrenamiento, mientras que la entropía cruzada final mejora monótonamente. Al analizar estas observaciones, proporcionamos nuevas ideas prácticas para elegir los datos de preentrenamiento adecuados.
Proponemos MusicRL, el primer sistema de generación musical ajustado a partir de retroalimentación humana. La apreciación de los modelos de texto a música es particularmente subjetiva, ya que tanto el concepto de musicalidad como la intención específica detrás de una descripción dependen del usuario (por ejemplo, una descripción como "música animada para entrenar" puede corresponder a un solo de guitarra retro o a un ritmo de pop techno). Esto no solo hace que el entrenamiento supervisado de tales modelos sea desafiante, sino que también exige integrar retroalimentación humana continua en su ajuste posterior al despliegue. MusicRL es un modelo autoregresivo preentrenado de MusicLM (Agostinelli et al., 2023) basado en tokens de audio discretos, ajustado con aprendizaje por refuerzo para maximizar recompensas a nivel de secuencia. Diseñamos funciones de recompensa relacionadas específicamente con la adherencia al texto y la calidad del audio con la ayuda de evaluadores seleccionados, y las utilizamos para ajustar MusicLM en MusicRL-R. Desplegamos MusicLM a los usuarios y recopilamos un conjunto de datos sustancial que comprende 300,000 preferencias pareadas. Utilizando Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF), entrenamos MusicRL-U, el primer modelo de texto a música que incorpora retroalimentación humana a gran escala. Las evaluaciones humanas muestran que tanto MusicRL-R como MusicRL-U son preferidos sobre el modelo base. Finalmente, MusicRL-RU combina ambos enfoques y resulta ser el mejor modelo según los evaluadores humanos. Los estudios de ablación arrojan luz sobre los atributos musicales que influyen en las preferencias humanas, indicando que la adherencia al texto y la calidad solo explican una parte de ellas. Esto subraya la prevalencia de la subjetividad en la apreciación musical y aboga por una mayor participación de los oyentes humanos en el ajuste de los modelos de generación musical.
Presentamos MobileVLM V2, una familia de modelos de lenguaje visual significativamente mejorados sobre MobileVLM, que demuestra que una orquestación cuidadosa de un diseño arquitectónico novedoso, un esquema de entrenamiento mejorado adaptado para VLMs móviles y una curaduría de conjuntos de datos de alta calidad pueden beneficiar sustancialmente el rendimiento de los VLMs. Específicamente, MobileVLM V2 1.7B logra un rendimiento igual o superior en los puntos de referencia estándar de VLMs en comparación con VLMs mucho más grandes en la escala de 3B. Notablemente, nuestro modelo de 3B supera a una amplia variedad de VLMs en la escala de 7B+. Nuestros modelos serán liberados en https://github.com/Meituan-AutoML/MobileVLM.
Los recientes avances en los modelos de lenguaje de gran escala han despertado interés por sus capacidades extraordinarias y casi sobrehumanas, lo que ha llevado a los investigadores a explorar métodos para evaluar y optimizar estas habilidades, un área conocida como superalineación. En este contexto, nuestro artículo se adentra en el ámbito de los modelos fundamentales de visión, centrándose en el concepto de generalización de débil a fuerte, que implica utilizar un modelo más débil para supervisar a uno más fuerte, con el objetivo de mejorar las capacidades de este último más allá de los límites del primero. Introducimos una función de pérdida novedosa y adaptable para la supervisión de débil a fuerte. Nuestros experimentos exhaustivos abarcan diversos escenarios, incluyendo aprendizaje con pocos ejemplos, transferencia de aprendizaje, aprendizaje con etiquetas ruidosas y configuraciones comunes de destilación de conocimiento. Los resultados son sorprendentes: nuestro enfoque no solo supera los puntos de referencia de rendimiento establecidos por la generalización de fuerte a fuerte, sino que también supera los resultados del ajuste fino de modelos fuertes con conjuntos de datos completos. Esta evidencia convincente subraya el potencial significativo de la generalización de débil a fuerte, demostrando su capacidad para elevar sustancialmente el rendimiento de los modelos fundamentales de visión. El código está disponible en https://github.com/ggjy/vision_weak_to_strong.
CodeCompose es una herramienta de creación de código asistida por IA, impulsada por modelos de lenguaje grandes (LLMs), que ofrece sugerencias en línea a decenas de miles de desarrolladores en Meta. En este artículo, presentamos cómo escalamos el producto desde la visualización de sugerencias de una sola línea hasta sugerencias de múltiples líneas. Esta evolución requirió que superáramos varios desafíos únicos para mejorar la usabilidad de estas sugerencias para los desarrolladores. En primer lugar, discutimos cómo las sugerencias de múltiples líneas pueden tener un efecto "desconcertante", ya que las sugerencias del LLM constantemente mueven el código existente del desarrollador, lo que de otro modo resultaría en una disminución de la productividad y la satisfacción. En segundo lugar, las sugerencias de múltiples líneas tardan significativamente más en generarse; por lo tanto, presentamos varias inversiones innovadoras que realizamos para reducir la latencia percibida por los usuarios. Estas optimizaciones en el alojamiento del modelo aceleraron la latencia de las sugerencias de múltiples líneas en 2.5 veces. Finalmente, realizamos experimentos con decenas de miles de ingenieros para comprender cómo las sugerencias de múltiples líneas impactan la experiencia del usuario y contrastamos esto con las sugerencias de una sola línea. Nuestros experimentos revelan que (i) las sugerencias de múltiples líneas representan el 42% de los caracteres totales aceptados (a pesar de representar solo el 16% de las sugerencias mostradas) (ii) las sugerencias de múltiples líneas casi duplicaron el porcentaje de pulsaciones de teclas ahorradas para los usuarios, del 9% al 17%. CodeCompose con sugerencias de múltiples líneas se ha implementado para todos los ingenieros en Meta, y menos del 1% de los ingenieros han optado por no recibir sugerencias de múltiples líneas.
Para la captura y análisis del movimiento facial, las soluciones predominantes generalmente se basan en señales visuales, las cuales no protegen la privacidad y son vulnerables a oclusiones. Las unidades de medición inercial (IMUs, por sus siglas en inglés) representan una posible solución, aunque principalmente se han adoptado para la captura de movimiento corporal completo. En este artículo, proponemos IMUSIC para llenar este vacío, un enfoque novedoso para la captura de expresiones faciales utilizando únicamente señales de IMU, significativamente distante de las soluciones visuales previas. El diseño clave en nuestro IMUSIC es una trilogía. Primero, diseñamos micro-IMUs adaptadas para la captura facial, acompañadas de un esquema de colocación de IMU basado en la anatomía. Luego, contribuimos con un nuevo conjunto de datos IMU-ARKit, que proporciona señales visuales y de IMU emparejadas para diversas expresiones y actuaciones faciales. Esta multimodalidad única ofrece un gran potencial para futuras direcciones, como el análisis del comportamiento facial basado en IMU. Además, utilizando IMU-ARKit, introducimos un enfoque de referencia sólido para predecir con precisión los parámetros de blendshape facial a partir de señales de IMU puras. Específicamente, adaptamos un modelo de difusión Transformer con una estrategia de entrenamiento en dos etapas para esta nueva tarea de seguimiento. El marco IMUSIC nos permite realizar una captura facial precisa en escenarios donde los métodos visuales fallan, al mismo tiempo que salvaguarda la privacidad del usuario. Realizamos experimentos exhaustivos tanto sobre la configuración de IMU como sobre los componentes técnicos para validar la efectividad de nuestro enfoque IMUSIC. Notablemente, IMUSIC habilita diversas aplicaciones potenciales y novedosas, como la captura facial que protege la privacidad, la captura híbrida contra oclusiones o la detección de movimientos faciales mínimos que a menudo son invisibles a través de señales visuales. Publicaremos nuestro conjunto de datos e implementaciones para enriquecer las posibilidades de captura y análisis facial en nuestra comunidad.
Proponemos el ajuste fino de modelos de lenguaje grandes para la generación de materiales estables. Aunque poco convencional, el ajuste fino de modelos de lenguaje grandes en datos atomísticos codificados en texto es simple de implementar y confiable, con aproximadamente el 90% de las estructuras muestreadas cumpliendo las restricciones físicas sobre las posiciones y cargas de los átomos. Utilizando cálculos de energía sobre el casco tanto de potenciales de aprendizaje automático aprendidos como de cálculos DFT de referencia, demostramos que nuestro modelo más potente (LLaMA-2 70B ajustado fino) puede generar materiales predichos como metaestables a aproximadamente el doble de la tasa (49% frente a 28%) que CDVAE, un modelo de difusión competidor. Debido a la flexibilidad inherente de los prompts de texto, nuestros modelos pueden usarse simultáneamente para la generación incondicional de materiales estables, el relleno de estructuras parciales y la generación condicionada por texto. Finalmente, mostramos que la capacidad de los modelos de lenguaje para capturar simetrías clave de las estructuras cristalinas mejora con la escala del modelo, sugiriendo que los sesgos de los LLM preentrenados son sorprendentemente adecuados para datos atomísticos.
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado su viabilidad generalizada gracias a un entrenamiento extenso en la alineación de instrucciones visuales con respuestas. Sin embargo, esta alineación concluyente lleva a los modelos a ignorar razonamientos visuales críticos, lo que resulta en fallos en problemas visuales meticulosos y respuestas poco fieles. En este artículo, proponemos la Cadena de Manipulaciones, un mecanismo que permite a los VLMs resolver problemas mediante una serie de manipulaciones, donde cada manipulación se refiere a una operación sobre la entrada visual, ya sea a partir de habilidades intrínsecas (por ejemplo, localización) adquiridas mediante entrenamiento previo o de la imitación de comportamientos humanos (por ejemplo, hacer zoom). Este mecanismo fomenta que los VLMs generen respuestas fieles con razonamientos visuales basados en evidencia, y permite a los usuarios rastrear las causas de errores en rutas interpretables. Así, entrenamos CogCoM, un VLM general de 17B con una arquitectura compatible basada en memoria, dotado de este mecanismo de razonamiento. Los experimentos muestran que nuestro modelo alcanza un rendimiento de vanguardia en 8 benchmarks de 3 categorías, y un número limitado de pasos de entrenamiento con los datos obtiene rápidamente un rendimiento competitivo. El código y los datos están disponibles públicamente en https://github.com/THUDM/CogCoM.
Presentamos EscherNet, un modelo de difusión condicionado por múltiples vistas para la síntesis de vistas. EscherNet aprende representaciones implícitas y generativas en 3D, junto con una codificación especializada de la posición de la cámara, lo que permite un control preciso y continuo de la transformación de la cámara entre un número arbitrario de vistas de referencia y vistas objetivo. EscherNet ofrece una excepcional generalidad, flexibilidad y escalabilidad en la síntesis de vistas: puede generar más de 100 vistas objetivo consistentes simultáneamente en una sola GPU de consumo, a pesar de haber sido entrenado con un número fijo de 3 vistas de referencia a 3 vistas objetivo. Como resultado, EscherNet no solo aborda la síntesis de vistas novedosas en modo zero-shot, sino que también unifica de manera natural la reconstrucción 3D a partir de una y múltiples imágenes, combinando estas diversas tareas en un único marco cohesivo. Nuestros extensos experimentos demuestran que EscherNet alcanza un rendimiento de vanguardia en múltiples benchmarks, incluso en comparación con métodos específicamente diseñados para cada problema individual. Esta notable versatilidad abre nuevas direcciones para el diseño de arquitecturas neuronales escalables en visión 3D. Página del proyecto: https://kxhit.github.io/EscherNet.
Presentamos el Modelo de Mundo de Difusión (DWM, por sus siglas en inglés), un modelo de difusión condicional capaz de predecir estados futuros y recompensas en múltiples pasos de manera concurrente. A diferencia de los modelos dinámicos tradicionales de un solo paso, DWM ofrece predicciones a largo horizonte en una única pasada hacia adelante, eliminando la necesidad de consultas recursivas. Integramos DWM en la estimación de valores basada en modelos, donde el retorno a corto plazo se simula mediante trayectorias futuras muestreadas desde DWM. En el contexto del aprendizaje por refuerzo offline, DWM puede verse como una regularización conservadora de valores a través de modelado generativo. Alternativamente, puede considerarse como una fuente de datos que permite el aprendizaje Q offline con datos sintéticos. Nuestros experimentos en el conjunto de datos D4RL confirman la robustez de DWM para la simulación a largo horizonte. En términos de rendimiento absoluto, DWM supera significativamente a los modelos dinámicos de un solo paso con una mejora del 44% en el rendimiento y logra un rendimiento de vanguardia.