Artículos de investigación en IA seleccionados diariamente con traducciones
La complejidad del problema de alineación surge del hecho de que los métodos existentes son inestables. Los investigadores inventan continuamente diversos trucos para abordar esta limitación. Por ejemplo, en la técnica fundamental de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) para la alineación de modelos de lenguaje, además de la maximización de la recompensa, se minimiza la divergencia de Kullback-Leibler entre la política entrenable y la política SFT. Esta adición evita que el modelo se sobreajuste al Modelo de Recompensa (RM) y genere textos que estén fuera del dominio del RM. El método de Optimización Directa de Preferencias (DPO) reformula la tarea de optimización de RLHF y elimina el Modelo de Recompensa, manteniendo tácitamente el requisito de que la política esté cerca de la política SFT. En nuestro artículo, argumentamos que esta limitación implícita en el método DPO conduce a resultados subóptimos. Proponemos un nuevo método llamado Optimización Directa de Preferencias con Región de Confianza (TR-DPO), que actualiza la política de referencia durante el entrenamiento. Con esta actualización directa, demostramos la efectividad de TR-DPO frente a DPO en los conjuntos de datos Anthropic HH y TLDR. Mostramos que TR-DPO supera a DPO hasta en un 19%, medido mediante evaluación automática con GPT-4. El nuevo enfoque de alineación que proponemos nos permite mejorar la calidad de los modelos en varios parámetros simultáneamente, como coherencia, corrección, nivel de detalle, utilidad y ausencia de daño.
La complejidad cuadrática y la débil extrapolación de longitud de los Transformers limitan su capacidad para escalar a secuencias largas, y aunque existen soluciones subcuadráticas como la atención lineal y los modelos de espacio de estados, empíricamente tienen un rendimiento inferior al de los Transformers en eficiencia de preentrenamiento y precisión en tareas posteriores. Presentamos Megalodon, una arquitectura neuronal para el modelado eficiente de secuencias con longitud de contexto ilimitada. Megalodon hereda la arquitectura de Mega (media móvil exponencial con atención gated), e introduce además múltiples componentes técnicos para mejorar su capacidad y estabilidad, incluyendo la media móvil exponencial compleja (CEMA), la capa de normalización por paso de tiempo, el mecanismo de atención normalizada y el pre-norm con configuración residual de dos saltos. En una comparación controlada cara a cara con Llama2, Megalodon logra una mejor eficiencia que Transformer en la escala de 7 mil millones de parámetros y 2 billones de tokens de entrenamiento. Megalodon alcanza una pérdida de entrenamiento de 1.70, situándose a medio camino entre Llama2-7B (1.75) y 13B (1.67). Código: https://github.com/XuezheMax/megalodon
Si bien los Transformers han revolucionado el aprendizaje profundo, su complejidad cuadrática de atención limita su capacidad para procesar entradas de longitud infinita. Proponemos Feedback Attention Memory (FAM), una arquitectura novedosa de Transformer que aprovecha un bucle de retroalimentación para permitir que la red atienda a sus propias representaciones latentes. Este diseño fomenta la aparición de memoria de trabajo dentro del Transformer, permitiéndole procesar secuencias de longitud indefinida. TransformerFAM no requiere pesos adicionales, lo que permite una integración perfecta con modelos preentrenados. Nuestros experimentos muestran que TransformerFAM mejora significativamente el rendimiento de los Transformers en tareas de contexto largo en varios tamaños de modelos (1B, 8B y 24B). Estos resultados demuestran el potencial para capacitar a los Modelos de Lenguaje de Gran Escala (LLMs) para procesar secuencias de longitud ilimitada.
La creación de entornos virtuales de alta calidad e interactivos, como juegos y simuladores, a menudo implica procesos de modelado manual complejos y costosos. En este artículo, presentamos Video2Game, un enfoque novedoso que convierte automáticamente videos de escenas del mundo real en entornos de juego realistas e interactivos. En el núcleo de nuestro sistema se encuentran tres componentes principales: (i) un módulo de campos de radiancia neural (NeRF) que captura eficazmente la geometría y la apariencia visual de la escena; (ii) un módulo de malla que destila el conocimiento de NeRF para una renderización más rápida; y (iii) un módulo de física que modela las interacciones y la dinámica física entre los objetos. Siguiendo la pipeline cuidadosamente diseñada, es posible construir una réplica digital interactiva y accionable del mundo real. Evaluamos nuestro sistema tanto en escenas interiores como en exteriores a gran escala. Demostramos que no solo podemos producir renderizados altamente realistas en tiempo real, sino también construir juegos interactivos sobre ellos.
Existe la creencia de que aprender a comprimir bien conducirá a la inteligencia. Recientemente, se ha demostrado que el modelado del lenguaje es equivalente a la compresión, lo que ofrece un argumento convincente para el éxito de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés): el desarrollo de modelos de lenguaje más avanzados esencialmente mejora la compresión, lo que facilita la inteligencia. A pesar de estas discusiones atractivas, hay poca evidencia empírica sobre la interacción entre la compresión y la inteligencia. En este trabajo, examinamos su relación en el contexto de los LLMs, tratando a estos como compresores de datos. Dado el concepto abstracto de "inteligencia", adoptamos las puntuaciones promedio en benchmarks de tareas posteriores como un sustituto, enfocándonos específicamente en la inteligencia relacionada con el conocimiento y el sentido común, la codificación y el razonamiento matemático. A lo largo de 12 benchmarks, nuestro estudio reúne 30 LLMs públicos que provienen de diversas organizaciones. Notablemente, encontramos que la inteligencia de los LLMs — reflejada por las puntuaciones promedio en los benchmarks — se correlaciona casi linealmente con su capacidad para comprimir corpus de texto externos. Estos resultados proporcionan evidencia concreta que respalda la creencia de que una compresión superior indica una mayor inteligencia. Además, nuestros hallazgos sugieren que la eficiencia de compresión, como una métrica no supervisada derivada de corpus de texto en bruto, sirve como una medida de evaluación confiable que está linealmente asociada con las capacidades del modelo. Hemos hecho públicos nuestros conjuntos de datos de compresión, así como nuestras canalizaciones de recopilación de datos, para facilitar que futuros investigadores evalúen la compresión de manera adecuada.
Los ControlNets son ampliamente utilizados para agregar control espacial en la generación de imágenes con diferentes condiciones, como mapas de profundidad, bordes canny y poses humanas. Sin embargo, existen varios desafíos al aprovechar los ControlNets preentrenados para la generación controlada de videos. Primero, el ControlNet preentrenado no puede integrarse directamente en nuevos modelos backbone debido a la incompatibilidad de los espacios de características, y el costo de entrenar ControlNets para nuevos backbones representa una gran carga. Segundo, las características del ControlNet para diferentes fotogramas podrían no manejar eficazmente la consistencia temporal. Para abordar estos desafíos, presentamos Ctrl-Adapter, un marco eficiente y versátil que agrega diversos controles a cualquier modelo de difusión de imágenes/videos, adaptando ControlNets preentrenados (y mejorando la alineación temporal para videos). Ctrl-Adapter ofrece diversas capacidades, incluyendo control de imágenes, control de videos, control de videos con fotogramas dispersos, control multi-condición, compatibilidad con diferentes backbones, adaptación a condiciones de control no vistas y edición de videos. En Ctrl-Adapter, entrenamos capas adaptadoras que fusionan las características de los ControlNets preentrenados con diferentes modelos de difusión de imágenes/videos, manteniendo congelados los parámetros de los ControlNets y los modelos de difusión. Ctrl-Adapter consta de módulos temporales y espaciales para manejar eficazmente la consistencia temporal de los videos. También proponemos el salto latente y el muestreo inverso de pasos de tiempo para una adaptación robusta y control disperso. Además, Ctrl-Adapter permite el control desde múltiples condiciones simplemente tomando el promedio (ponderado) de las salidas del ControlNet. Con diversos backbones de difusión de imágenes/videos (SDXL, Hotshot-XL, I2VGen-XL y SVD), Ctrl-Adapter iguala al ControlNet en el control de imágenes y supera a todas las líneas base en el control de videos (logrando la precisión SOTA en el conjunto de datos DAVIS 2017) con costos computacionales significativamente menores (menos de 10 horas de GPU).
Este estudio presenta HQ-Edit, un conjunto de datos de edición de imágenes basado en instrucciones de alta calidad con alrededor de 200,000 ediciones. A diferencia de enfoques previos que dependen de guías de atributos o retroalimentación humana para construir conjuntos de datos, diseñamos una canalización escalable de recopilación de datos que aprovecha modelos base avanzados, específicamente GPT-4V y DALL-E 3. Para garantizar su alta calidad, primero se recopilan diversos ejemplos en línea, se expanden y luego se utilizan para crear dípticos de alta calidad que presentan imágenes de entrada y salida con indicaciones de texto detalladas, seguidas de una alineación precisa asegurada mediante postprocesamiento. Además, proponemos dos métricas de evaluación, Alineación y Coherencia, para evaluar cuantitativamente la calidad de pares de edición de imágenes utilizando GPT-4V. Las imágenes de alta resolución de HQ-Edit, ricas en detalles y acompañadas de indicaciones de edición completas, mejoran sustancialmente las capacidades de los modelos de edición de imágenes existentes. Por ejemplo, un InstructPix2Pix ajustado con HQ-Edit puede alcanzar un rendimiento de edición de imágenes de vanguardia, superando incluso a aquellos modelos ajustados con datos anotados por humanos. La página del proyecto es https://thefllood.github.io/HQEdit_web.
La inferencia con Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) es lenta debido a su arquitectura basada en modelos de lenguaje grandes, que sufre de un cuello de botella en el ancho de banda de memoria y genera tokens de manera autorregresiva. En este artículo, exploramos la aplicación de decodificación especulativa para mejorar la eficiencia de inferencia de los MLLMs, específicamente el modelo LLaVA 7B. Demostramos que un modelo de lenguaje exclusivo puede servir como un buen modelo borrador para la decodificación especulativa con LLaVA 7B, evitando la necesidad de tokens de imagen y sus componentes de procesamiento asociados en el modelo borrador. Nuestros experimentos en tres tareas diferentes muestran que la decodificación especulativa puede lograr una aceleración limitada por la memoria de hasta 2.37 veces utilizando un modelo de lenguaje de 115M parámetros que entrenamos desde cero. Además, introducimos un modelo borrador compacto de LLaVA que incorpora un adaptador de imagen, el cual muestra mejoras marginales en la generación de descripciones de imágenes mientras mantiene resultados comparables en otras tareas.
El contenido multimodal generativo es cada vez más prevalente en gran parte del ámbito de la creación de contenido, ya que tiene el potencial de permitir a artistas y profesionales de los medios crear maquetas de preproducción al dar vida rápidamente a sus ideas. La generación de audio a partir de indicaciones de texto es un aspecto importante de estos procesos en la industria de la música y el cine. Muchos de los modelos recientes basados en difusión para convertir texto en audio se centran en entrenar modelos de difusión cada vez más sofisticados en un gran conjunto de datos de pares de indicaciones-audio. Estos modelos no se enfocan explícitamente en la presencia de conceptos o eventos y su orden temporal en el audio de salida con respecto a la indicación de entrada. Nuestra hipótesis es que centrarse en estos aspectos de la generación de audio podría mejorar el rendimiento de la generación de audio en presencia de datos limitados. Por ello, en este trabajo, utilizando un modelo existente de texto a audio llamado Tango, creamos sintéticamente un conjunto de datos de preferencias donde cada indicación tiene una salida de audio ganadora y algunas salidas de audio perdedoras para que el modelo de difusión aprenda de ellas. En teoría, las salidas perdedoras tienen algunos conceptos de la indicación ausentes o en un orden incorrecto. Ajustamos el modelo de texto a audio Tango, disponible públicamente, utilizando la pérdida de optimización directa de preferencias (diffusion-DPO) en nuestro conjunto de datos de preferencias y demostramos que esto conduce a una mejora en la salida de audio en comparación con Tango y AudioLDM2, tanto en términos de métricas de evaluación automática como manual.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han mostrado resultados impresionantes en diversas tareas multimodales. Sin embargo, la mayoría de los MLLMs existentes no están bien adaptados para tareas orientadas a documentos, las cuales requieren una percepción de imágenes detallada y compresión de información. En este artículo, presentamos TextHawk, un MLLM diseñado específicamente para tareas orientadas a documentos, mientras preserva las capacidades generales de los MLLMs. TextHawk tiene como objetivo explorar una percepción detallada eficiente mediante el diseño de cuatro componentes dedicados. En primer lugar, se propone un módulo de ReMuestreo y Reorganización (ReSA) para reducir la redundancia en los textos de los documentos y disminuir el costo computacional del MLLM. Exploramos la codificación de las posiciones de cada característica local mediante la presentación de Incrustaciones Posicionales Escalables (SPEs), que pueden preservar la escalabilidad de varios tamaños de imagen. Luego, se adopta una Red de Propuesta de Consultas (QPN) para inicializar dinámicamente las consultas entre diferentes subimágenes. Para mejorar aún más la capacidad de percepción visual detallada del MLLM, diseñamos un mecanismo de Atención Cruzada Multinivel (MLCA) que captura la estructura jerárquica y las relaciones semánticas de las imágenes de documentos. Además, creamos un nuevo conjunto de datos de ajuste por instrucciones para tareas orientadas a documentos enriqueciendo los datos multimodales de documentos con Gemini Pro. Realizamos experimentos exhaustivos en puntos de referencia generales y orientados a documentos para MLLMs, y demostramos que TextHawk supera a los métodos más avanzados, mostrando su efectividad y superioridad en la percepción detallada de documentos y en sus capacidades generales.
Neural Radiance Field (NeRF) es una representación para la reconstrucción 3D a partir de imágenes multivista. A pesar de que algunos trabajos recientes han mostrado un éxito preliminar en la edición de un NeRF reconstruido con un prior de difusión, siguen teniendo dificultades para sintetizar geometrías razonables en regiones completamente descubiertas. Una razón principal es la alta diversidad de contenidos sintéticos generados por el modelo de difusión, lo que impide que el campo de radiancia converja hacia una geometría nítida y determinista. Además, la aplicación de modelos de difusión latente en datos reales a menudo produce un cambio textural incoherente con la condición de la imagen debido a errores de auto-codificación. Estos dos problemas se ven reforzados con el uso de pérdidas basadas en distancia de píxeles. Para abordar estos problemas, proponemos moderar la estocasticidad del modelo de difusión mediante personalización por escena y mitigar el cambio textural con entrenamiento adversarial enmascarado. Durante los análisis, también descubrimos que las pérdidas de píxeles y perceptuales comúnmente utilizadas son perjudiciales en la tarea de inpaint de NeRF. A través de experimentos rigurosos, nuestro marco de trabajo produce resultados de inpaint de NeRF de última generación en diversas escenas del mundo real. Página del proyecto: https://hubert0527.github.io/MALD-NeRF.
El splatting gaussiano, reconocido por su excepcional calidad de renderizado y eficiencia, ha surgido como una técnica destacada en la representación de escenas 3D. Sin embargo, el volumen sustancial de datos del splatting gaussiano dificulta su utilidad práctica en aplicaciones del mundo real. En este trabajo, proponemos una representación eficiente de escenas 3D, denominada Compressed Gaussian Splatting (CompGS), que aprovecha primitivas gaussianas compactas para modelar fielmente escenas 3D con un tamaño de datos notablemente reducido. Para garantizar la compacidad de las primitivas gaussianas, diseñamos una estructura híbrida de primitivas que captura relaciones predictivas entre ellas. Luego, utilizamos un pequeño conjunto de primitivas ancla para la predicción, permitiendo que la mayoría de las primitivas se encapsulen en formas residuales altamente compactas. Además, desarrollamos un esquema de optimización con restricción de tasa para eliminar redundancias dentro de estas primitivas híbridas, orientando nuestro CompGS hacia un equilibrio óptimo entre el consumo de bitrate y la eficacia de la representación. Los resultados experimentales muestran que el CompGS propuesto supera significativamente a los métodos existentes, logrando una compacidad superior en la representación de escenas 3D sin comprometer la precisión del modelo ni la calidad del renderizado. Nuestro código será publicado en GitHub para futuras investigaciones.