Artículos de investigación en IA seleccionados diariamente con traducciones
Postulamos que para lograr agentes superhumanos, los modelos futuros requieren retroalimentación superhumana para proporcionar una señal de entrenamiento adecuada. Los enfoques actuales comúnmente entrenan modelos de recompensa a partir de preferencias humanas, lo que puede verse limitado por el nivel de desempeño humano, y en segundo lugar, estos modelos de recompensa separados y congelados no pueden aprender a mejorar durante el entrenamiento de LLM. En este trabajo, estudiamos los Modelos de Lenguaje Autorecompensados, donde el propio modelo de lenguaje se utiliza mediante el enfoque de LLM-como-Juez para proporcionar sus propias recompensas durante el entrenamiento. Demostramos que durante el entrenamiento iterativo con DPO no solo mejora la capacidad de seguimiento de instrucciones, sino también la capacidad de proporcionar recompensas de alta calidad a sí mismo. El ajuste fino de Llama 2 70B en tres iteraciones de nuestro enfoque produce un modelo que supera a muchos sistemas existentes en el ranking de AlpacaEval 2.0, incluyendo Claude 2, Gemini Pro y GPT-4 0613. Aunque es solo un estudio preliminar, este trabajo abre la puerta a la posibilidad de modelos que puedan mejorar continuamente en ambos ejes.
Recientemente, los modelos de espacio de estados (SSMs) con diseños eficientes orientados al hardware, como Mamba, han demostrado un gran potencial para el modelado de secuencias largas. Construir backbones visuales eficientes y genéricos basados únicamente en SSMs es una dirección atractiva. Sin embargo, representar datos visuales es un desafío para los SSMs debido a la sensibilidad a la posición de los datos visuales y la necesidad de contexto global para la comprensión visual. En este artículo, mostramos que la dependencia del aprendizaje de representaciones visuales en la autoatención no es necesaria y proponemos un nuevo backbone visual genérico con bloques bidireccionales de Mamba (Vim), que marca las secuencias de imágenes con incrustaciones de posición y comprime la representación visual con modelos de espacio de estados bidireccionales. En tareas de clasificación en ImageNet, detección de objetos en COCO y segmentación semántica en ADE20k, Vim logra un rendimiento superior en comparación con transformadores visuales bien establecidos como DeiT, además de demostrar una eficiencia computacional y de memoria significativamente mejorada. Por ejemplo, Vim es 2.8 veces más rápido que DeiT y ahorra un 86.8% de memoria GPU al realizar inferencias por lotes para extraer características en imágenes con una resolución de 1248x1248. Los resultados demuestran que Vim es capaz de superar las limitaciones de computación y memoria al realizar una comprensión al estilo Transformer para imágenes de alta resolución y tiene un gran potencial para convertirse en el backbone de próxima generación para modelos fundamentales de visión. El código está disponible en https://github.com/hustvl/Vim.
En este trabajo, presentamos ChatQA, una familia de modelos de respuesta a preguntas conversacionales (QA, por sus siglas en inglés) que alcanzan niveles de precisión comparables a GPT-4. Específicamente, proponemos un método de ajuste instruccional en dos etapas que puede mejorar significativamente los resultados de QA conversacional en modo zero-shot en modelos de lenguaje de gran escala (LLMs). Para manejar la recuperación de información en QA conversacional, ajustamos un recuperador denso en un conjunto de datos de QA de múltiples turnos, lo que proporciona resultados comparables al uso del modelo de reescritura de consultas más avanzado, reduciendo considerablemente los costos de implementación. Destacablemente, nuestro ChatQA-70B supera a GPT-4 en términos de puntuación promedio en 10 conjuntos de datos de QA conversacional (54.14 frente a 53.90), sin depender de ningún dato sintético generado por modelos GPT de OpenAI.
Una forma de mejorar la capacidad de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) es realizar un Ajuste Fino Supervisado (SFT, por sus siglas en inglés) utilizando anotaciones de Cadena de Pensamiento (CoT, por sus siglas en inglés). Sin embargo, este enfoque no muestra una capacidad de generalización lo suficientemente sólida, ya que el entrenamiento solo depende de los datos CoT proporcionados. En la resolución de problemas matemáticos, por ejemplo, generalmente solo hay una ruta de razonamiento anotada para cada pregunta en los datos de entrenamiento. Intuitivamente, sería mejor que el algoritmo aprendiera de múltiples rutas de razonamiento anotadas para una misma pregunta. Para abordar este problema, proponemos un enfoque simple pero efectivo llamado Ajuste Fino Reforzado (ReFT, por sus siglas en inglés) para mejorar la generalización del aprendizaje de LLMs en tareas de razonamiento, utilizando la resolución de problemas matemáticos como ejemplo. ReFT primero calienta el modelo con SFT y luego emplea aprendizaje por refuerzo en línea, específicamente el algoritmo PPO en este trabajo, para ajustar aún más el modelo, donde se muestrean automáticamente abundantes rutas de razonamiento para cada pregunta y las recompensas se derivan naturalmente de las respuestas correctas. Experimentos extensos en los conjuntos de datos GSM8K, MathQA y SVAMP muestran que ReFT supera significativamente a SFT, y el rendimiento puede mejorarse aún más combinando estrategias en tiempo de inferencia, como la votación por mayoría y la reordenación. Cabe destacar que ReFT obtiene esta mejora aprendiendo de las mismas preguntas de entrenamiento que SFT, sin depender de preguntas adicionales o aumentadas. Esto indica una capacidad de generalización superior para ReFT.
La agrupación es inherentemente ambigua debido a los múltiples niveles de granularidad en los que se puede descomponer una escena: ¿deberían las ruedas de una excavadora considerarse separadas o parte del todo? Presentamos Group Anything with Radiance Fields (GARField), un enfoque para descomponer escenas 3D en una jerarquía de grupos semánticamente significativos a partir de entradas de imágenes posicionadas. Para lograrlo, abrazamos la ambigüedad de la agrupación a través de la escala física: al optimizar un campo de características de afinidad 3D condicionado por la escala, un punto en el mundo puede pertenecer a diferentes grupos de distintos tamaños. Optimizamos este campo a partir de un conjunto de máscaras 2D proporcionadas por Segment Anything (SAM) de una manera que respeta la jerarquía de lo grueso a lo fino, utilizando la escala para fusionar consistentemente máscaras conflictivas desde diferentes puntos de vista. A partir de este campo, podemos derivar una jerarquía de posibles agrupaciones mediante la construcción automática de árboles o la interacción del usuario. Evaluamos GARField en una variedad de escenas del mundo real y encontramos que extrae efectivamente grupos en muchos niveles: agrupaciones de objetos, objetos y varias subpartes. GARField representa inherentemente agrupaciones consistentes en múltiples vistas y produce grupos de mayor fidelidad que las máscaras de entrada de SAM. La agrupación jerárquica de GARField podría tener aplicaciones emocionantes, como la extracción de activos 3D o la comprensión dinámica de escenas. Visite el sitio web del proyecto en https://www.garfield.studio/.
La vinculación visión-lenguaje en 3D, que se centra en alinear el lenguaje con el entorno físico tridimensional, constituye un pilar fundamental en el desarrollo de agentes corporizados. En comparación con los avances recientes en el dominio 2D, la vinculación del lenguaje en escenas 3D enfrenta varios desafíos significativos: (i) la complejidad inherente de las escenas 3D debido a las diversas configuraciones de objetos, sus atributos ricos y las relaciones intrincadas; (ii) la escasez de datos emparejados de visión-lenguaje en 3D para apoyar el aprendizaje fundamentado; y (iii) la ausencia de un marco de aprendizaje unificado para destilar conocimiento a partir de datos 3D fundamentados. En este trabajo, buscamos abordar estos tres desafíos principales en la vinculación visión-lenguaje en 3D examinando el potencial de escalar sistemáticamente el aprendizaje de visión-lenguaje en 3D en entornos interiores. Introducimos el primer conjunto de datos de visión-lenguaje en 3D a escala de millones, SceneVerse, que abarca alrededor de 68K escenas interiores en 3D y comprende 2.5M pares visión-lenguaje derivados tanto de anotaciones humanas como de nuestro enfoque escalable basado en grafos de escenas. Demostramos que este escalamiento permite un marco de pre-entrenamiento unificado, Pre-entrenamiento Fundamentado para Escenas (GPS, por sus siglas en inglés), para el aprendizaje de visión-lenguaje en 3D. A través de experimentos exhaustivos, mostramos la efectividad de GPS al lograr un rendimiento de vanguardia en todos los puntos de referencia existentes de vinculación visual en 3D. El vasto potencial de SceneVerse y GPS se revela mediante experimentos de transferencia zero-shot en tareas desafiantes de vinculación visión-lenguaje en 3D. Sitio web del proyecto: https://scene-verse.github.io.
Los modelos del mundo desempeñan un papel crucial en la comprensión y predicción de las dinámicas del mundo, lo cual es esencial para la generación de vídeos. Sin embargo, los modelos del mundo existentes se limitan a escenarios específicos, como juegos o conducción, lo que restringe su capacidad para capturar la complejidad de los entornos dinámicos generales del mundo. Por ello, presentamos WorldDreamer, un modelo del mundo pionero que fomenta una comprensión integral de la física y los movimientos generales del mundo, lo que mejora significativamente las capacidades de generación de vídeos. Inspirándonos en el éxito de los modelos de lenguaje a gran escala, WorldDreamer aborda el modelado del mundo como un desafío de modelado de secuencias visuales no supervisado. Esto se logra mapeando entradas visuales a tokens discretos y prediciendo los que están enmascarados. Durante este proceso, incorporamos indicaciones multimodales para facilitar la interacción dentro del modelo del mundo. Nuestros experimentos muestran que WorldDreamer sobresale en la generación de vídeos en diferentes escenarios, incluyendo entornos naturales y de conducción. WorldDreamer demuestra versatilidad al ejecutar tareas como la conversión de texto a vídeo, la síntesis de imagen a vídeo y la edición de vídeos. Estos resultados subrayan la eficacia de WorldDreamer para capturar elementos dinámicos en diversos entornos generales del mundo.
La generación de videos basada en difusión ha recibido una atención considerable y ha logrado un éxito notable tanto en la comunidad académica como en la industrial. Sin embargo, los esfuerzos actuales se concentran principalmente en la generación de videos de un solo objetivo o tarea única, como la generación impulsada por texto, por imagen o por una combinación de texto e imagen. Esto no puede satisfacer completamente las necesidades de los escenarios de aplicación del mundo real, ya que es probable que los usuarios ingresen condiciones de imágenes y texto de manera flexible, ya sea individualmente o en combinación. Para abordar esto, proponemos un sistema de Generación de Video Unimodal (Unified-modal Video Generation) capaz de manejar múltiples tareas de generación de video a través de las modalidades de texto e imagen. Con este fin, revisamos las diversas tareas de generación de video dentro de nuestro sistema desde la perspectiva de la libertad generativa, y las clasificamos en categorías de generación de video de alta libertad y baja libertad. Para la generación de video de alta libertad, empleamos Atención Cruzada Multicondición (Multi-condition Cross Attention) para generar videos que se alineen con la semántica de las imágenes o textos de entrada. Para la generación de video de baja libertad, introducimos Ruido Gaussiano Sesgado (Biased Gaussian Noise) para reemplazar el Ruido Gaussiano puramente aleatorio, lo que ayuda a preservar mejor el contenido de las condiciones de entrada. Nuestro método logra la menor Distancia de Video Fréchet (FVD) en el punto de referencia académico público MSR-VTT, supera a los métodos de código abierto actuales en evaluaciones humanas y está a la par con el método de código cerrado actual Gen2. Para más ejemplos, visite https://univg-baidu.github.io.
El despliegue y escalado de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) se ha vuelto crucial a medida que estos se integran en diversas aplicaciones, exigiendo sistemas de servicio de alto rendimiento y baja latencia. Los marcos existentes luchan por equilibrar estos requisitos, especialmente para cargas de trabajo con prompts largos. Este artículo presenta DeepSpeed-FastGen, un sistema que emplea Dynamic SplitFuse, una novedosa estrategia de composición de prompts y generación, para ofrecer hasta 2.3 veces mayor rendimiento efectivo, 2 veces menor latencia en promedio y hasta 3.7 veces menor latencia en el peor caso (a nivel de tokens), en comparación con sistemas de vanguardia como vLLM. Aprovechamos una combinación sinérgica de DeepSpeed-MII y DeepSpeed-Inference para proporcionar un sistema de servicio eficiente y fácil de usar para LLMs. La implementación avanzada de DeepSpeed-FastGen admite una variedad de modelos y ofrece opciones de despliegue tanto no persistentes como persistentes, adaptándose a diversos escenarios de uso, desde sesiones interactivas hasta aplicaciones de larga duración. Presentamos una metodología detallada de evaluación comparativa, analizamos el rendimiento mediante curvas de latencia-rendimiento e investigamos la escalabilidad mediante el equilibrio de carga. Nuestras evaluaciones demuestran mejoras sustanciales en rendimiento y latencia en varios modelos y configuraciones de hardware. Discutimos nuestra hoja de ruta para futuras mejoras, incluyendo un mayor soporte de modelos y nuevos backends de hardware. El código de DeepSpeed-FastGen está disponible para la participación y contribución de la comunidad.
La generación de texto a video tiene como objetivo producir un video basado en un texto descriptivo dado. Recientemente, varios modelos comerciales de video han sido capaces de generar videos plausibles con ruido mínimo, detalles excelentes y puntuaciones estéticas altas. Sin embargo, estos modelos dependen de videos a gran escala, bien filtrados y de alta calidad que no están accesibles para la comunidad. Muchos trabajos de investigación existentes, que entrenan modelos utilizando el conjunto de datos de baja calidad WebVid-10M, tienen dificultades para generar videos de alta calidad porque los modelos están optimizados para ajustarse a WebVid-10M. En este trabajo, exploramos el esquema de entrenamiento de modelos de video extendidos a partir de Stable Diffusion e investigamos la viabilidad de aprovechar videos de baja calidad e imágenes sintetizadas de alta calidad para obtener un modelo de video de alta calidad. Primero analizamos la conexión entre los módulos espaciales y temporales de los modelos de video y el cambio de distribución hacia videos de baja calidad. Observamos que el entrenamiento completo de todos los módulos resulta en un acoplamiento más fuerte entre los módulos espaciales y temporales que solo entrenar los módulos temporales. Basándonos en este acoplamiento más fuerte, cambiamos la distribución hacia una mayor calidad sin degradación del movimiento mediante el ajuste fino de los módulos espaciales con imágenes de alta calidad, lo que resulta en un modelo de video genérico de alta calidad. Se realizan evaluaciones para demostrar la superioridad del método propuesto, particularmente en calidad de imagen, movimiento y composición de conceptos.
Presentamos los Transformadores de Interpolación Escalables (SiT), una familia de modelos generativos construidos sobre la base de los Transformadores de Difusión (DiT). El marco de interpolación, que permite conectar dos distribuciones de manera más flexible que los modelos de difusión estándar, posibilita un estudio modular de diversas decisiones de diseño que impactan en los modelos generativos basados en transporte dinámico: el uso de aprendizaje en tiempo discreto frente a continuo, la elección del objetivo que el modelo debe aprender, la selección del interpolante que conecta las distribuciones y la implementación de un muestreador determinista o estocástico. Al introducir cuidadosamente los elementos mencionados, SiT supera a DiT de manera uniforme en todos los tamaños de modelos en el benchmark condicional de ImageNet 256x256 utilizando exactamente la misma arquitectura base, número de parámetros y GFLOPs. Al explorar varios coeficientes de difusión, que pueden ajustarse de forma independiente al aprendizaje, SiT alcanza un puntaje FID-50K de 2.06.
Presentamos TextureDreamer, un novedoso método de síntesis de texturas guiado por imágenes para transferir texturas relumbrantes desde un pequeño número de imágenes de entrada (3 a 5) a formas 3D objetivo en categorías arbitrarias. La creación de texturas es un desafío fundamental en visión y gráficos. Las empresas industriales contratan artistas experimentados para elaborar manualmente texturas para activos 3D. Los métodos clásicos requieren vistas muestreadas densamente y geometría alineada con precisión, mientras que los métodos basados en aprendizaje están limitados a formas específicas de categorías dentro del conjunto de datos. En contraste, TextureDreamer puede transferir texturas altamente detalladas e intrincadas desde entornos del mundo real a objetos arbitrarios con solo unas pocas imágenes capturadas casualmente, democratizando potencialmente de manera significativa la creación de texturas. Nuestra idea central, la destilación de puntuación geométrica personalizada (PGSD), se inspira en avances recientes en modelos difusos, incluyendo modelado personalizado para la extracción de información de texturas, destilación de puntuación variacional para la síntesis de apariencia detallada y guía geométrica explícita con ControlNet. Nuestra integración y varias modificaciones esenciales mejoran sustancialmente la calidad de las texturas. Los experimentos con imágenes reales que abarcan diferentes categorías muestran que TextureDreamer puede transferir con éxito texturas altamente realistas y semánticamente significativas a objetos arbitrarios, superando la calidad visual de los métodos anteriores más avanzados.
El descenso de gradiente estocástico local (Local-SGD), también conocido como promediado federado, es un enfoque de optimización distribuida en el que cada dispositivo realiza más de una actualización de SGD por comunicación. Este trabajo presenta un estudio empírico del Local-SGD {\it asíncrono} para entrenar modelos de lenguaje; es decir, cada trabajador actualiza los parámetros globales tan pronto como termina sus pasos de SGD. Realizamos una investigación exhaustiva examinando cómo la heterogeneidad del hardware de los trabajadores, el tamaño del modelo, el número de trabajadores y el optimizador podrían afectar el rendimiento del aprendizaje. Descubrimos que, con implementaciones ingenuas, el Local-SGD asíncrono requiere más iteraciones para converger que su contraparte síncrona, a pesar de actualizar los parámetros del modelo (global) con mayor frecuencia. Identificamos la aceleración por momento en los parámetros globales cuando los gradientes de los trabajadores están desactualizados como un desafío clave. Proponemos un método novedoso que utiliza una actualización de momento de Nesterov retrasada y ajusta los pasos de entrenamiento local de los trabajadores según su velocidad de cálculo. Este enfoque, evaluado con modelos de hasta 150 millones de parámetros en el conjunto de datos C4, iguala el rendimiento del Local-SGD síncrono en términos de perplejidad por paso de actualización y lo supera significativamente en términos de tiempo de reloj.
Para abordar las limitaciones del texto como fuente de representación precisa del diseño en modelos de difusión condicionados por texto, muchas investigaciones incorporan señales adicionales para condicionar ciertos atributos dentro de una imagen generada. Aunque exitosos, trabajos previos no consideran la localización específica de dichos atributos extendida al plano tridimensional. En este contexto, presentamos un modelo de difusión condicional que integra control sobre la colocación tridimensional de objetos con representaciones desentrelazadas de semántica estilística global a partir de múltiples imágenes de ejemplo. Específicamente, primero introducimos un entrenamiento de desentrelazamiento de profundidad para aprovechar la profundidad relativa de los objetos como estimador, permitiendo que el modelo identifique las posiciones absolutas de objetos no vistos mediante el uso de trillizos de imágenes sintéticas. También presentamos la guía suave, un método para imponer semántica global en regiones específicas sin el uso de señales de localización adicionales. Nuestro marco integrado, Compose and Conquer (CnC), unifica estas técnicas para localizar múltiples condiciones de manera desentrelazada. Demostramos que nuestro enfoque permite la percepción de objetos a diferentes profundidades, ofreciendo un marco versátil para componer objetos localizados con diferentes semánticas globales. Código: https://github.com/tomtom1103/compose-and-conquer/
Los Campos de Radiancia Neural (NeRF) exhiben un rendimiento notable para la Síntesis de Nuevas Vistas (NVS) dado un conjunto de imágenes 2D. Sin embargo, el entrenamiento de NeRF requiere poses de cámara precisas para cada vista de entrada, que generalmente se obtienen mediante pipelines de Estructura a partir del Movimiento (SfM). Trabajos recientes han intentado relajar esta restricción, pero aún suelen depender de poses iniciales decentes que pueden refinar. Aquí buscamos eliminar el requisito de inicialización de poses. Presentamos ICON (CONfianza INcremental), un procedimiento de optimización para entrenar NeRF a partir de fotogramas de video 2D. ICON solo asume un movimiento suave de la cámara para estimar una suposición inicial de las poses. Además, ICON introduce la "confianza": una medida adaptativa de la calidad del modelo utilizada para reajustar dinámicamente los gradientes. ICON se basa en poses de alta confianza para aprender NeRF y en una estructura 3D de alta confianza (codificada por NeRF) para aprender poses. Demostramos que ICON, sin inicialización previa de poses, logra un rendimiento superior tanto en CO3D como en HO3D en comparación con los métodos que utilizan poses de SfM.