Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos Magicoder, una serie de Modelos de Lenguaje de Gran Escala (LLMs) completamente de código abierto (código, pesos y datos) para programación que reduce significativamente la brecha con los mejores modelos de código, a pesar de no superar los 7 mil millones de parámetros. Los modelos Magicoder se entrenan con 75 mil datos de instrucción sintéticos utilizando OSS-Instruct, un enfoque novedoso que ilumina a los LLMs con fragmentos de código de código abierto para generar datos de instrucción de alta calidad para programación. Nuestra principal motivación es mitigar el sesgo inherente de los datos sintéticos generados por LLMs, dotándolos de una amplia variedad de referencias de código abierto para producir datos más diversos, realistas y controlables. La ortogonalidad de OSS-Instruct con otros métodos de generación de datos, como Evol-Instruct, nos permite además construir una versión mejorada, MagicoderS. Tanto Magicoder como MagicoderS superan sustancialmente a los modelos de código más avanzados de tamaños similares o incluso mayores en una amplia gama de benchmarks de programación, incluyendo generación de código a partir de texto en Python, programación multilingüe y completado de programas de ciencia de datos. Destacablemente, MagicoderS-CL-7B, basado en CodeLlama, incluso supera al destacado ChatGPT en HumanEval+ (66.5 vs. 65.9 en pass@1). En general, OSS-Instruct abre una nueva dirección para el ajuste de instrucciones de bajo sesgo y alta calidad utilizando abundantes referencias de código abierto.
Los modelos de difusión de texto a video han avanzado significativamente en la generación de videos. Sin embargo, personalizar estos modelos para generar videos con movimientos específicos representa un desafío considerable. En particular, enfrentan obstáculos en (a) reproducir con precisión el movimiento de un video objetivo y (b) crear variaciones visuales diversas. Por ejemplo, las extensiones directas de los métodos de personalización de imágenes estáticas al video a menudo resultan en enredos complejos entre los datos de apariencia y movimiento. Para abordar esto, presentamos el marco de Personalización de Movimiento de Video (VMC, por sus siglas en inglés), un enfoque novedoso de ajuste en una sola toma diseñado para adaptar las capas de atención temporal dentro de los modelos de difusión de video. Nuestro enfoque introduce un objetivo novedoso de destilación de movimiento utilizando vectores residuales entre fotogramas consecutivos como referencia de movimiento. El proceso de difusión preserva las trayectorias de movimiento de baja frecuencia mientras mitiga el ruido de alta frecuencia no relacionado con el movimiento en el espacio de la imagen. Validamos nuestro método frente a los modelos generativos de video más avanzados en diversos movimientos y contextos del mundo real. Nuestros códigos, datos y la demostración del proyecto se pueden encontrar en https://video-motion-customization.github.io.
El proceso de ajuste de alineación de los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) generalmente implica el aprendizaje por instrucciones mediante ajuste fino supervisado (SFT) y el ajuste de preferencias a través del aprendizaje por refuerzo con retroalimentación humana (RLHF). Un estudio reciente, LIMA (Zhou et al. 2023), muestra que utilizando apenas 1,000 ejemplos para SFT también se puede lograr un rendimiento significativo en la alineación, lo que sugiere que el efecto del ajuste de alineación podría ser "superficial". Esto plantea preguntas sobre cómo exactamente el ajuste de alineación transforma un LLM base. Analizamos el efecto del ajuste de alineación examinando el cambio en la distribución de tokens entre los LLMs base y sus versiones alineadas. Nuestros hallazgos revelan que los LLMs base y sus versiones ajustadas para alineación se desempeñan de manera casi idéntica en la decodificación en la mayoría de las posiciones de tokens. La mayoría de los cambios en la distribución ocurren con tokens estilísticos. Esta evidencia directa respalda firmemente la Hipótesis de Alineación Superficial sugerida por LIMA. Basándonos en estos hallazgos, reconsideramos la alineación de los LLMs planteando la pregunta de investigación: ¿qué tan efectivamente podemos alinear LLMs base sin SFT o RLHF? Para abordar esto, introducimos un método simple y sin ajuste para la alineación, llamado URIAL. URIAL logra una alineación efectiva únicamente a través del aprendizaje en contexto (ICL) con LLMs base, requiriendo tan solo tres ejemplos estilísticos constantes y un mensaje de sistema. Realizamos una evaluación detallada e interpretable en un conjunto diverso de ejemplos, denominado JUST-EVAL-INSTRUCT. Los resultados demuestran que los LLMs base con URIAL pueden igualar o incluso superar el rendimiento de los LLMs alineados con SFT o SFT+RLHF. Mostramos que la brecha entre los métodos de alineación sin ajuste y con ajuste puede reducirse significativamente mediante estrategias de indicación e ICL. Nuestros hallazgos sobre la naturaleza superficial del ajuste de alineación y los resultados con URIAL sugieren que un análisis más profundo y una comprensión teórica de la alineación son cruciales para la investigación futura de LLMs.
Este estudio investiga la síntesis de imágenes que preservan la identidad, una tarea fascinante en la generación de imágenes que busca mantener la identidad de un sujeto mientras añade un toque personalizado y estilístico. Métodos tradicionales, como Textual Inversion y DreamBooth, han logrado avances en la creación de imágenes personalizadas, pero presentan inconvenientes significativos. Estos incluyen la necesidad de recursos y tiempo extensos para el ajuste fino, así como el requisito de múltiples imágenes de referencia. Para superar estos desafíos, nuestra investigación introduce un enfoque novedoso para la síntesis que preserva la identidad, con un enfoque particular en imágenes humanas. Nuestro modelo aprovecha un mecanismo de alimentación directa, evitando la necesidad de un ajuste fino intensivo, lo que facilita una generación de imágenes rápida y eficiente. Central a nuestra innovación es un marco de guía híbrido, que combina imágenes estilizadas, imágenes faciales y indicaciones textuales para guiar el proceso de generación de imágenes. Esta combinación única permite a nuestro modelo producir una variedad de aplicaciones, como retratos artísticos e imágenes con identidad mezclada. Nuestros resultados experimentales, que incluyen evaluaciones cualitativas y cuantitativas, demuestran la superioridad de nuestro método sobre los modelos de referencia existentes y trabajos previos, particularmente en su notable eficiencia y capacidad para preservar la identidad del sujeto con alta fidelidad.
Los modelos de difusión han ganado recientemente una atención sin precedentes en el campo de la síntesis de imágenes debido a sus notables capacidades generativas. A pesar de su destreza, estos modelos suelen incurrir en costos computacionales sustanciales, atribuidos principalmente al proceso secuencial de eliminación de ruido y al tamaño engorroso del modelo. Los métodos tradicionales para comprimir modelos de difusión generalmente implican un extenso reentrenamiento, lo que presenta desafíos de costo y viabilidad. En este artículo, presentamos DeepCache, un paradigma novedoso que acelera los modelos de difusión desde la perspectiva de la arquitectura del modelo sin necesidad de entrenamiento adicional. DeepCache aprovecha la redundancia temporal inherente observada en los pasos secuenciales de eliminación de ruido de los modelos de difusión, almacenando y recuperando características entre etapas adyacentes de eliminación de ruido, reduciendo así los cálculos redundantes. Utilizando la propiedad de la U-Net, reutilizamos las características de alto nivel mientras actualizamos las de bajo nivel de manera muy económica. Esta estrategia innovadora permite un factor de aceleración de 2.3 veces para Stable Diffusion v1.5 con solo un descenso de 0.05 en el CLIP Score, y 4.1 veces para LDM-4-G con una ligera disminución de 0.22 en el FID en ImageNet. Nuestros experimentos también demuestran la superioridad de DeepCache sobre los métodos existentes de poda y destilación que requieren reentrenamiento, así como su compatibilidad con las técnicas de muestreo actuales. Además, encontramos que, con el mismo rendimiento, DeepCache logra resultados comparables o incluso ligeramente mejorados con DDIM o PLMS. El código está disponible en https://github.com/horseee/DeepCache.
La edición de vídeo basada en difusión actual se centra principalmente en la edición con preservación de estructura, utilizando diversas correspondencias densas para garantizar la consistencia temporal y la alineación del movimiento. Sin embargo, estos enfoques suelen ser ineficaces cuando la edición objetivo implica un cambio de forma. Para abordar la edición de vídeo con cambio de forma, en este trabajo exploramos el intercambio personalizado de sujetos en vídeos, donde nuestro objetivo es reemplazar el sujeto principal en un vídeo fuente con un sujeto objetivo que tenga una identidad distinta y potencialmente una forma diferente. A diferencia de métodos anteriores que dependen de correspondencias densas, presentamos el marco VideoSwap, que aprovecha las correspondencias de puntos semánticos, inspirado por nuestra observación de que solo se necesita un pequeño número de puntos semánticos para alinear la trayectoria de movimiento del sujeto y modificar su forma. También introducimos diversas interacciones de puntos por parte del usuario (\por ejemplo, eliminar puntos y arrastrar puntos) para abordar diferentes correspondencias de puntos semánticos. Experimentos extensos demuestran resultados de vanguardia en el intercambio de sujetos en vídeos en una variedad de vídeos del mundo real.
Proponemos un método para equipar eficientemente al Segment Anything Model (SAM) con la capacidad de generar descripciones regionales. SAM presenta una fuerte generalización para segmentar cualquier cosa, pero carece de comprensión semántica. Al introducir un mezclador de características basado en consultas ligero, alineamos las características específicas de la región con el espacio de incrustación de los modelos de lenguaje para la posterior generación de descripciones. Dado que el número de parámetros entrenables es pequeño (típicamente del orden de decenas de millones), se requiere menos computación, menos uso de memoria y menos ancho de banda de comunicación, lo que resulta en un entrenamiento rápido y escalable. Para abordar el problema de escasez de datos de descripciones regionales, proponemos primero preentrenar nuestro modelo en tareas de detección y segmentación de objetos. Llamamos a este paso preentrenamiento con supervisión débil, ya que los datos de preentrenamiento solo contienen nombres de categorías en lugar de descripciones completas. El preentrenamiento con supervisión débil nos permite aprovechar muchos conjuntos de datos de detección y segmentación de objetos disponibles públicamente. Realizamos extensos experimentos para demostrar la superioridad de nuestro método y validar cada elección de diseño. Este trabajo sirve como un paso hacia la ampliación de datos de descripciones regionales y arroja luz sobre la exploración de formas eficientes de aumentar SAM con semántica regional. La página del proyecto, junto con el código asociado, se puede acceder a través del siguiente enlace: https://xk-huang.github.io/segment-caption-anything/.
A pesar de los recientes avances en la generación de texto a video, los estudios existentes suelen pasar por alto el problema de que solo los contenidos espaciales, pero no los movimientos temporales, en los videos sintetizados están bajo el control del texto. Ante este desafío, este trabajo presenta un sistema práctico, denominado LivePhoto, que permite a los usuarios animar una imagen de su interés con descripciones textuales. Primero establecemos una base sólida que ayuda a un generador de texto a imagen bien entrenado (es decir, Stable Diffusion) a tomar una imagen como una entrada adicional. Luego, equipamos el generador mejorado con un módulo de movimiento para el modelado temporal y proponemos una pipeline de entrenamiento cuidadosamente diseñada para vincular mejor los textos y los movimientos. En particular, considerando los hechos de que (1) el texto solo puede describir los movimientos de manera aproximada (por ejemplo, sin tener en cuenta la velocidad del movimiento) y (2) el texto puede incluir tanto descripciones de contenido como de movimiento, introducimos un módulo de estimación de intensidad de movimiento, así como un módulo de re-ponderación de texto para reducir la ambigüedad del mapeo de texto a movimiento. La evidencia empírica sugiere que nuestro enfoque es capaz de decodificar bien las instrucciones textuales relacionadas con el movimiento en videos, como acciones, movimientos de cámara o incluso conjurar nuevos contenidos de la nada (por ejemplo, verter agua en un vaso vacío). Curiosamente, gracias al mecanismo de aprendizaje de intensidad propuesto, nuestro sistema ofrece a los usuarios una señal de control adicional (es decir, la intensidad del movimiento) además del texto para la personalización del video.
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF, por sus siglas en inglés) ha surgido como el paradigma principal para alinear los modelos de lenguaje de gran escala (LLMs) con las preferencias humanas. Típicamente, RLHF implica un primer paso de aprendizaje de un modelo de recompensa a partir de la retroalimentación humana, a menudo expresada como preferencias entre pares de generaciones de texto producidas por un LLM preentrenado. Posteriormente, la política del LLM se ajusta optimizándola para maximizar el modelo de recompensa mediante un algoritmo de aprendizaje por refuerzo. Sin embargo, una limitación inherente de los modelos de recompensa actuales es su incapacidad para representar plenamente la riqueza de las preferencias humanas y su dependencia de la distribución de muestreo. En este estudio, presentamos una alternativa para el ajuste fino de LLMs utilizando retroalimentación humana por pares. Nuestro enfoque implica el aprendizaje inicial de un modelo de preferencias, el cual se condiciona a dos entradas dadas una instrucción, seguido de la búsqueda de una política que genere consistentemente respuestas preferidas sobre aquellas generadas por cualquier política competidora, definiendo así el equilibrio de Nash de este modelo de preferencias. Denominamos a este enfoque aprendizaje de Nash a partir de retroalimentación humana (NLHF, por sus siglas en inglés). En el contexto de una representación tabular de políticas, presentamos una solución algorítmica novedosa, Nash-MD, basada en los principios del descenso de espejo. Este algoritmo produce una secuencia de políticas, con la última iteración convergiendo al equilibrio de Nash regularizado. Además, exploramos representaciones paramétricas de políticas e introducimos algoritmos de descenso de gradiente para arquitecturas de aprendizaje profundo. Para demostrar la efectividad de nuestro enfoque, presentamos resultados experimentales que involucran el ajuste fino de un LLM para una tarea de resumen de texto. Creemos que NLHF ofrece una vía convincente para el aprendizaje de preferencias y la optimización de políticas, con el potencial de avanzar en el campo de la alineación de LLMs con las preferencias humanas.
¿En qué se diferencian dos conjuntos de imágenes? Discernir diferencias a nivel de conjunto es crucial para comprender los comportamientos de los modelos y analizar conjuntos de datos, aunque revisar manualmente miles de imágenes resulta poco práctico. Para facilitar este proceso de descubrimiento, exploramos la tarea de describir automáticamente las diferencias entre dos conjuntos de imágenes, a la que denominamos Captación de Diferencias de Conjunto (Set Difference Captioning). Esta tarea toma como entrada los conjuntos de imágenes D_A y D_B y genera una descripción que es más frecuentemente cierta en D_A que en D_B. Proponemos un enfoque de dos etapas que primero sugiere descripciones candidatas de diferencias a partir de los conjuntos de imágenes y luego las reordena verificando qué tan bien pueden diferenciar los dos conjuntos. Presentamos VisDiff, que primero genera descripciones de las imágenes y solicita a un modelo de lenguaje que proponga descripciones candidatas, luego reordena estas descripciones utilizando CLIP. Para evaluar VisDiff, recopilamos VisDiffBench, un conjunto de datos con 187 pares de conjuntos de imágenes y descripciones de diferencias de referencia. Aplicamos VisDiff en diversos dominios, como la comparación de conjuntos de datos (por ejemplo, ImageNet vs. ImageNetV2), la comparación de modelos de clasificación (por ejemplo, CLIP de cero disparos vs. ResNet supervisado), la resumen de modos de fallo de modelos (ResNet supervisado), la caracterización de diferencias entre modelos generativos (por ejemplo, StableDiffusionV1 y V2) y el descubrimiento de qué hace que las imágenes sean memorables. Utilizando VisDiff, logramos encontrar diferencias interesantes y previamente desconocidas en conjuntos de datos y modelos, demostrando su utilidad para revelar insights matizados.
Los modelos de difusión, con su potente expresividad y alta calidad de muestras, han permitido muchas nuevas aplicaciones y casos de uso en diversos dominios. Para la generación de muestras, estos modelos dependen de una red neuronal de eliminación de ruido que genera imágenes mediante un proceso iterativo de desruido. Sin embargo, el papel de la arquitectura de la red de desruido no ha sido bien estudiado, ya que la mayoría de los esfuerzos se basan en U-Nets residuales convolucionales. En este artículo, estudiamos la efectividad de los transformadores de visión en el aprendizaje generativo basado en difusión. Específicamente, proponemos un nuevo modelo, denominado Transformadores de Visión de Difusión (DiffiT), que consiste en una arquitectura híbrida jerárquica con un codificador y decodificador en forma de U. Introducimos un nuevo módulo de autoatención dependiente del tiempo que permite a las capas de atención adaptar su comportamiento en diferentes etapas del proceso de desruido de manera eficiente. También presentamos DiffiT latente, que consiste en un modelo de transformador con las capas de autoatención propuestas, para la generación de imágenes de alta resolución. Nuestros resultados muestran que DiffiT es sorprendentemente efectivo en la generación de imágenes de alta fidelidad y alcanza puntos de referencia de última generación (SOTA) en una variedad de tareas de síntesis condicional y no condicional por clases. En el espacio latente, DiffiT logra un nuevo puntaje FID SOTA de 1.73 en el conjunto de datos ImageNet-256. Repositorio: https://github.com/NVlabs/DiffiT
Los rerankers listwise basados en grandes modelos de lenguaje (LLM) representan el estado del arte en enfoques zero-shot. Sin embargo, los trabajos actuales en esta dirección dependen exclusivamente de los modelos GPT, lo que los convierte en un punto único de fallo para la reproducibilidad científica. Además, esto plantea la preocupación de que los hallazgos de investigación actuales solo sean válidos para los modelos GPT y no para los LLM en general. En este trabajo, eliminamos este prerrequisito y construimos, por primera vez, rerankers listwise efectivos sin ninguna forma de dependencia de GPT. Nuestros experimentos de recuperación de pasajes muestran que nuestro mejor reranker listwise supera a los rerankers listwise basados en GPT-3.5 en un 13% y alcanza un 97% de la efectividad de aquellos construidos sobre GPT-4. Nuestros resultados también indican que los conjuntos de datos de entrenamiento existentes, que fueron construidos específicamente para ranking pointwise, son insuficientes para desarrollar este tipo de rerankers listwise. En su lugar, se requieren y son cruciales datos de alta calidad para ranking listwise, lo que subraya la necesidad de seguir trabajando en la creación de recursos de datos listwise anotados por humanos.
Con los recientes avances significativos en los modelos multimodales de gran escala (LMMs), la importancia de su capacidad de anclaje en el chat visual es cada vez más reconocida. A pesar de los esfuerzos recientes para permitir que los LMMs admitan el anclaje, sus capacidades para el anclaje y el chat suelen estar separadas, y su rendimiento en el chat disminuye drásticamente cuando se les pide que realicen anclajes. El problema radica en la falta de un conjunto de datos para el chat visual anclado (GVC). Los conjuntos de datos de anclaje existentes solo contienen descripciones breves. Para abordar este problema, hemos creado datos GVC que permiten la combinación de capacidades de anclaje y chat. Para evaluar mejor las capacidades de GVC, hemos introducido un punto de referencia llamado Grounding-Bench. Además, hemos propuesto un diseño de modelo que puede admitir GVC y varios tipos de indicaciones visuales mediante la conexión de modelos de segmentación con modelos de lenguaje. Los resultados experimentales demuestran que nuestro modelo supera a otros LMMs en Grounding-Bench. Además, nuestro modelo logra un rendimiento competitivo en puntos de referencia clásicos de anclaje como RefCOCO/+/g y Flickr30K Entities. Nuestro código se publicará en https://github.com/UX-Decoder/LLaVA-Grounding.
Presentamos un nuevo enfoque, denominado GPS-Gaussian, para sintetizar vistas novedosas de un personaje en tiempo real. El método propuesto permite la renderización en resolución 2K bajo una configuración de cámaras de vistas escasas. A diferencia de los métodos originales de Gaussian Splatting o renderización implícita neuronal que requieren optimizaciones por sujeto, introducimos mapas de parámetros Gaussianos definidos en las vistas de origen y regresamos directamente las propiedades de Gaussian Splatting para la síntesis instantánea de vistas novedosas sin necesidad de ajustes finos u optimización. Para ello, entrenamos nuestro módulo de regresión de parámetros Gaussianos con una gran cantidad de datos de escaneos humanos, junto con un módulo de estimación de profundidad para elevar los mapas de parámetros 2D al espacio 3D. El marco propuesto es completamente diferenciable, y los experimentos en varios conjuntos de datos demuestran que nuestro método supera a los métodos más avanzados mientras logra una velocidad de renderización excepcional.
Presentamos un enfoque para plantear el reconocimiento de objetos como la predicción del siguiente token. La idea es aplicar un decodificador de lenguaje que predice de manera autorregresiva los tokens de texto a partir de incrustaciones de imágenes para formar etiquetas. Para fundamentar este proceso de predicción en la autorregresión, personalizamos una máscara de atención no causal para el decodificador, incorporando dos características clave: modelar los tokens de diferentes etiquetas como independientes y tratar los tokens de imagen como un prefijo. Este mecanismo de enmascaramiento inspira un método eficiente: el muestreo en una sola pasada (one-shot sampling), que permite muestrear simultáneamente los tokens de múltiples etiquetas en paralelo y clasificar las etiquetas generadas por sus probabilidades durante la inferencia. Para mejorar aún más la eficiencia, proponemos una estrategia simple para construir un decodificador compacto descartando simplemente los bloques intermedios de un modelo de lenguaje preentrenado. Este enfoque produce un decodificador que iguala el rendimiento del modelo completo mientras es notablemente más eficiente. El código está disponible en https://github.com/kaiyuyue/nxtp.
La generación de texto a video ha mostrado resultados prometedores. Sin embargo, al utilizar únicamente lenguajes naturales como entrada, los usuarios a menudo enfrentan dificultades para proporcionar información detallada que permita controlar con precisión la salida del modelo. En este trabajo, proponemos la generación de video controlable de grano fino (FACTOR) para lograr un control detallado. Específicamente, FACTOR busca controlar las apariencias y el contexto de los objetos, incluyendo su ubicación y categoría, en conjunto con el texto de entrada. Para lograr un control detallado, proponemos un marco unificado que inyecta conjuntamente señales de control en el modelo existente de texto a video. Nuestro modelo consiste en un codificador conjunto y capas de atención cruzada adaptativa. Al optimizar el codificador y la capa insertada, adaptamos el modelo para generar videos que están alineados tanto con los textos de entrada como con el control de grano fino. En comparación con los métodos existentes que dependen de señales de control densas, como mapas de bordes, proporcionamos una interfaz más intuitiva y fácil de usar que permite un control de grano fino a nivel de objeto. Nuestro método logra la controlabilidad de las apariencias de los objetos sin necesidad de ajuste fino, lo que reduce el esfuerzo de optimización por sujeto para los usuarios. Experimentos extensos en conjuntos de datos de referencia estándar y entradas proporcionadas por usuarios validan que nuestro modelo obtiene una mejora del 70% en métricas de controlabilidad sobre líneas base competitivas.
Presentamos los transformadores generativos de vocabulario infinito (GIVT, por sus siglas en inglés), los cuales generan secuencias de vectores con entradas de valores reales, en lugar de tokens discretos de un vocabulario finito. Para ello, proponemos dos modificaciones sorprendentemente simples a los transformadores de solo decodificación: 1) en la entrada, reemplazamos la tabla de búsqueda de vocabulario finito con una proyección lineal de los vectores de entrada; y 2) en la salida, sustituimos la predicción de logits (que normalmente se mapea a una distribución categórica) con los parámetros de un modelo de mezcla gaussiana multivariado. Inspirados por el paradigma de generación de imágenes de VQ-GAN y MaskGIT, donde los transformadores se utilizan para modelar secuencias latentes discretas de un VQ-VAE, empleamos GIVT para modelar secuencias latentes de valores reales no cuantizadas de un VAE. Al aplicar GIVT a la generación de imágenes condicionadas por clase con modelado enmascarado iterativo, mostramos resultados competitivos con MaskGIT, mientras que nuestro enfoque supera tanto a VQ-GAN como a MaskGIT cuando se utiliza para modelado causal. Finalmente, obtenemos resultados competitivos fuera del ámbito de la generación de imágenes al aplicar nuestro enfoque a la segmentación panóptica y la estimación de profundidad con una variante basada en VAE del marco UViM.
La síntesis de nuevas vistas a partir de un video en condiciones naturales es un desafío debido a problemas como la dinámica de la escena y la falta de paralaje. Aunque los métodos existentes han mostrado resultados prometedores con campos de radiancia neurales implícitos, son lentos para entrenar y renderizar. Este artículo revisa las representaciones explícitas de video para sintetizar eficientemente vistas novedosas de alta calidad a partir de un video monocular. Tratamos el contenido estático y dinámico del video por separado. Específicamente, construimos un modelo global de escena estática utilizando una representación extendida basada en planos para sintetizar video novedoso temporalmente coherente. Nuestra representación de escena basada en planos se complementa con armónicos esféricos y mapas de desplazamiento para capturar efectos dependientes de la vista y modelar geometrías de superficie complejas no planas. Optamos por representar el contenido dinámico como nubes de puntos por fotograma para mayor eficiencia. Aunque tales representaciones son propensas a inconsistencias, las pequeñas inconsistencias temporales se enmascaran perceptualmente debido al movimiento. Desarrollamos un método para estimar rápidamente esta representación híbrida de video y renderizar nuevas vistas en tiempo real. Nuestros experimentos muestran que nuestro método puede renderizar vistas novedosas de alta calidad a partir de un video en condiciones naturales con una calidad comparable a los métodos más avanzados, siendo 100 veces más rápido en entrenamiento y permitiendo renderizado en tiempo real.
Los modelos de Texto a Imagen (T2I) a gran escala han ganado rápidamente prominencia en campos creativos, generando resultados visualmente atractivos a partir de indicaciones textuales. Sin embargo, controlar estos modelos para garantizar un estilo consistente sigue siendo un desafío, ya que los métodos existentes requieren ajustes finos e intervención manual para separar contenido y estilo. En este artículo, presentamos StyleAligned, una técnica novedosa diseñada para establecer la alineación de estilo en una serie de imágenes generadas. Al emplear un mínimo de "compartición de atención" durante el proceso de difusión, nuestro método mantiene la consistencia de estilo entre las imágenes dentro de los modelos T2I. Este enfoque permite la creación de imágenes con estilo consistente utilizando un estilo de referencia a través de una operación de inversión sencilla. La evaluación de nuestro método en diversos estilos y indicaciones textuales demuestra una síntesis de alta calidad y fidelidad, destacando su eficacia para lograr un estilo consistente en diversas entradas.
Las herramientas tradicionales de creación de contenido 3D permiten a los usuarios dar vida a su imaginación al otorgarles control directo sobre la geometría, apariencia, movimiento y trayectoria de la cámara de una escena. Sin embargo, la creación de videos generados por computadora es un proceso manual tedioso, que puede automatizarse mediante los emergentes modelos de difusión de texto a video. A pesar de su gran potencial, los modelos de difusión de video son difíciles de controlar, lo que limita la capacidad del usuario para aplicar su propia creatividad en lugar de amplificarla. Para abordar este desafío, presentamos un enfoque novedoso que combina la capacidad de control de las mallas dinámicas 3D con la expresividad y editabilidad de los modelos de difusión emergentes. Para ello, nuestro enfoque toma como entrada una malla animada y renderizada de baja fidelidad e inyecta la información de correspondencia obtenida de la malla dinámica en varias etapas de un modelo preentrenado de generación de imágenes a partir de texto, para producir fotogramas de alta calidad y temporalmente consistentes. Demostramos nuestro enfoque en varios ejemplos donde el movimiento puede obtenerse animando activos rigueados o modificando la trayectoria de la cámara.
En el ámbito de la generación de texto a 3D, el uso de modelos de difusión 2D a través del muestreo por destilación de puntuación (SDS, por sus siglas en inglés) frecuentemente conduce a problemas como apariencias borrosas y geometrías multifacéticas, principalmente debido a la naturaleza intrínsecamente ruidosa de la pérdida SDS. Nuestro análisis identifica el núcleo de estos desafíos en la interacción entre los niveles de ruido en el proceso de difusión 2D, la arquitectura de la red de difusión y la representación del modelo 3D. Para superar estas limitaciones, presentamos StableDreamer, una metodología que incorpora tres avances. Primero, inspirados por InstructNeRF2NeRF, formalizamos la equivalencia del prior generativo SDS y una simple pérdida de reconstrucción supervisada L2. Este hallazgo proporciona una herramienta novedosa para depurar SDS, que utilizamos para demostrar el impacto de los niveles de ruido con atenuación temporal en la reducción de geometrías multifacéticas. Segundo, nuestro análisis muestra que, aunque la difusión en el espacio de imagen contribuye a la precisión geométrica, la difusión en el espacio latente es crucial para una reproducción de colores vívida. Basándonos en esta observación, StableDreamer introduce una estrategia de entrenamiento en dos etapas que combina efectivamente estos aspectos, resultando en modelos 3D de alta fidelidad. Tercero, adoptamos una representación de gaussianas 3D anisotrópicas, reemplazando los Campos de Radiancia Neural (NeRFs), para mejorar la calidad general, reducir el uso de memoria durante el entrenamiento, acelerar las velocidades de renderizado y capturar mejor objetos semitransparentes. StableDreamer reduce las geometrías multifacéticas, genera detalles finos y converge de manera estable.
La segmentación interactiva en 3D dentro de campos de radiancia es una tarea atractiva debido a su importancia en la comprensión y manipulación de escenas 3D. Sin embargo, los métodos existentes enfrentan desafíos para lograr una segmentación de grano fino y multi-granularidad o para manejar la sobrecarga computacional significativa, lo que dificulta la interacción en tiempo real. En este artículo, presentamos Segment Any 3D GAussians (SAGA), un novedoso enfoque de segmentación interactiva en 3D que combina de manera fluida un modelo base de segmentación 2D con el reciente avance en campos de radiancia conocido como 3D Gaussian Splatting (3DGS). SAGA integra eficientemente los resultados de segmentación 2D multi-granularidad generados por el modelo base de segmentación en las características de puntos Gaussianos 3D mediante un entrenamiento contrastivo bien diseñado. La evaluación en benchmarks existentes demuestra que SAGA puede alcanzar un rendimiento competitivo con los métodos más avanzados. Además, SAGA logra una segmentación multi-granularidad y se adapta a varios tipos de indicaciones, incluyendo puntos, trazos y máscaras 2D. Es destacable que SAGA puede completar la segmentación 3D en milisegundos, logrando una aceleración de casi 1000x en comparación con los métodos SOTA anteriores. La página del proyecto se encuentra en https://jumpat.github.io/SAGA.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) resuelven problemas con mayor precisión y capacidad de interpretación cuando se les instruye para trabajar en la respuesta paso a paso utilizando un prompt de "cadena de pensamiento" (CoT, por sus siglas en inglés). También se puede mejorar el rendimiento de los LLMs en una tarea específica mediante ajuste fino supervisado, es decir, utilizando el ascenso de gradiente sobre algunos parámetros ajustables para maximizar la log-verosimilitud promedio de las respuestas correctas en un conjunto de entrenamiento etiquetado. Combinar de manera ingenua CoT con el ajuste supervisado requiere supervisión no solo de las respuestas correctas, sino también de las razones detalladas que llevan a esas respuestas; estas razones son costosas de producir manualmente. En su lugar, proponemos una estrategia de ajuste fino que intenta maximizar la log-verosimilitud marginal de generar una respuesta correcta utilizando el prompt CoT, promediando aproximadamente sobre todas las razones posibles. El desafío principal es muestrear a partir de la distribución posterior sobre las razones condicionadas a la respuesta correcta; lo abordamos utilizando un algoritmo simple de maximización de expectativas (EM) basado en cadenas de Markov Monte Carlo (MCMC), inspirado en el razonador autodidacta (STaR), el método de sueño-memorización (memoized wake-sleep), la escalada de puntuación markoviana y la divergencia contrastiva persistente. Este algoritmo también admite una técnica novedosa de control de variación que reduce la varianza de nuestras estimaciones de gradiente a cero a medida que el modelo mejora. Al aplicar nuestra técnica a GSM8K y a las tareas de BIG-Bench Hard, encontramos que este método de ajuste fino MCMC-EM generalmente mejora la precisión del modelo en ejemplos de prueba más que STaR o el ajuste de prompts con o sin CoT.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han destacado en la comprensión y generación de imágenes 2D a partir de texto, pero su comprensión del mundo 3D es notablemente deficiente, lo que limita el avance en la comprensión y generación de lenguaje en 3D. Para resolver este problema, presentamos GPT4Point, un innovador y revolucionario modelo multimodal punto-lenguaje diseñado específicamente para la comprensión y generación unificada de objetos 3D dentro del marco de los MLLMs. GPT4Point, como un potente MLLM 3D, puede ejecutar de manera fluida una variedad de tareas de referencia punto-texto, como la descripción de nubes de puntos y preguntas y respuestas. Además, GPT4Point está equipado con capacidades avanzadas para la generación controlada en 3D, pudiendo obtener resultados de alta calidad a partir de características punto-texto de baja calidad, manteniendo las formas geométricas y los colores. Para satisfacer las amplias necesidades de pares objeto-texto en 3D, desarrollamos Pyramid-XL, un motor de anotación de datos punto-lenguaje. Este construye una base de datos a gran escala con más de 1 millón de objetos de diversos niveles de granularidad textual a partir del conjunto de datos Objaverse-XL, esencial para entrenar GPT4Point. Se ha propuesto un benchmark exhaustivo para evaluar las capacidades de comprensión punto-lenguaje en 3D. En evaluaciones extensivas, GPT4Point ha demostrado un rendimiento superior en comprensión y generación.
Las notables capacidades de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) como GPT-4 se derivan en parte de procesos posteriores al entrenamiento, como el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF, por sus siglas en inglés), que incorpora preferencias humanas codificadas en un modelo de recompensa. Sin embargo, estos modelos de recompensa (RMs, por sus siglas en inglés) a menudo carecen de conocimiento directo sobre por qué, o bajo qué principios, se realizaron las anotaciones de preferencias. En este estudio, identificamos principios que guían a los RMs para alinearse mejor con las preferencias humanas y luego desarrollamos un marco axiomático para generar una amplia variedad de señales de preferencia que los respalden. Utilizamos estas señales axiomáticas para entrenar un modelo que califica respuestas a preguntas de formato extenso. Nuestro enfoque produce un Modelo de Preferencia con solo alrededor de 220 millones de parámetros que coincide con las etiquetas de preferencia anotadas por humanos de referencia con mayor frecuencia que GPT-4. Las contribuciones de este trabajo incluyen: entrenar un modelo de preferencia independiente que puede calificar respuestas generadas por humanos y LLMs en la misma escala; desarrollar un marco axiomático para generar pares de datos de entrenamiento adaptados a ciertos principios; y demostrar que una pequeña cantidad de señales axiomáticas puede ayudar a que modelos pequeños superen a GPT-4 en la calificación de preferencias. Publicamos nuestro modelo en huggingface: https://huggingface.co/corbyrosset/axiomatic_preference_model.
El entrenamiento con múltiples modalidades de entrada puede ampliar las capacidades de un modelo de lenguaje. Aquí, nos preguntamos si dicho régimen de entrenamiento también puede mejorar la calidad y eficiencia de estos sistemas. Nos enfocamos en texto-audio e introducimos Whisbert, que está inspirado en el enfoque texto-imagen de FLAVA (singh_flava_2022). Siguiendo las pautas de Babylm (warstadt2023papers), preentrenamos Whisbert en un conjunto de datos que comprende solo 100 millones de palabras junto con su habla correspondiente, extraída de la versión alineada por palabras del conjunto de datos People's Speech (galvez_peoples_2021). Para evaluar el impacto de la multimodalidad, comparamos versiones del modelo que se entrenan únicamente con texto y con audio y texto simultáneamente. Descubrimos que, aunque Whisbert es capaz de desempeñarse bien en el modelado enmascarado multimodal y supera los puntos de referencia de Babylm en la mayoría de las tareas de evaluación, tiene dificultades para optimizar su objetivo complejo y superar su línea base de Whisbert entrenado solo con texto.
Los Campos de Radiancia Neural (NeRFs) sobresalen en la representación fotorrealista de escenas estáticas. Sin embargo, renderizar campos de radiancia dinámicos y de larga duración en dispositivos ubicuos sigue siendo un desafío, debido a las limitaciones de almacenamiento de datos y capacidad computacional. En este artículo, presentamos VideoRF, el primer enfoque que permite la transmisión y renderizado en tiempo real de campos de radiancia dinámicos en plataformas móviles. En su núcleo se encuentra un flujo de imágenes de características 2D serializadas que representan el campo de radiancia 4D en su totalidad. Introducimos un esquema de entrenamiento personalizado aplicado directamente a este dominio 2D para imponer la redundancia temporal y espacial del flujo de imágenes de características. Al aprovechar esta redundancia, demostramos que el flujo de imágenes de características puede comprimirse eficientemente mediante códecs de video 2D, lo que nos permite utilizar aceleradores de hardware de video para lograr una decodificación en tiempo real. Por otro lado, basándonos en el flujo de imágenes de características, proponemos una nueva canalización de renderizado para VideoRF, que cuenta con mapeos espaciales especializados para consultar las propiedades de radiancia de manera eficiente. Combinado con un modelo de sombreado diferido, VideoRF tiene la capacidad de renderizado en tiempo real en dispositivos móviles gracias a su eficiencia. Hemos desarrollado un reproductor interactivo en tiempo real que permite la transmisión y renderizado en línea de escenas dinámicas, ofreciendo una experiencia inmersiva y fluida de visualización libre en una variedad de dispositivos, desde computadoras de escritorio hasta teléfonos móviles.
Presentamos un método que utiliza un modelo de texto a imagen para generar contenido consistente a través de múltiples escalas de imagen, permitiendo zooms semánticos extremos en una escena, por ejemplo, desde una vista panorámica de un bosque hasta un plano macro de un insecto posado en una de las ramas de los árboles. Logramos esto mediante un enfoque de muestreo de difusión multi-escala conjunta que fomenta la consistencia entre diferentes escalas mientras preserva la integridad de cada proceso de muestreo individual. Dado que cada escala generada está guiada por un prompt de texto diferente, nuestro método permite niveles de zoom más profundos que los métodos tradicionales de super-resolución, los cuales pueden tener dificultades para crear nueva estructura contextual en escalas muy diferentes. Comparamos cualitativamente nuestro método con técnicas alternativas en super-resolución de imágenes y outpaint, y demostramos que nuestro método es más efectivo para generar contenido multi-escala consistente.
Recientemente, el Segment Anything Model (SAM) ha demostrado capacidades notables en la segmentación zero-shot, mientras que NeRF (Neural Radiance Fields) ha ganado popularidad como un método para diversos problemas 3D más allá de la síntesis de nuevas vistas. Aunque existen intentos iniciales de incorporar estos dos métodos en la segmentación 3D, enfrentan el desafío de segmentar objetos de manera precisa y consistente en escenarios complejos. En este artículo, presentamos el Segment Anything for NeRF in High Quality (SANeRF-HQ) para lograr una segmentación 3D de alta calidad de cualquier objeto en una escena dada. SANeRF-HQ utiliza SAM para la segmentación de objetos en un mundo abierto guiada por indicaciones proporcionadas por el usuario, mientras aprovecha NeRF para agregar información desde diferentes puntos de vista. Para superar los desafíos mencionados, empleamos el campo de densidad y la similitud RGB para mejorar la precisión del límite de segmentación durante la agregación. Haciendo hincapié en la precisión de la segmentación, evaluamos cuantitativamente nuestro método en múltiples conjuntos de datos NeRF donde están disponibles o se han anotado manualmente verdades de alta calidad. SANeRF-HQ muestra una mejora significativa en la calidad sobre los métodos anteriores más avanzados en la segmentación de objetos NeRF, ofrece una mayor flexibilidad para la localización de objetos y permite una segmentación de objetos más consistente en múltiples vistas. Puede encontrar información adicional en https://lyclyc52.github.io/SANeRF-HQ/.
Este artículo mejora iGPT (image-GPT), uno de los trabajos pioneros que introducen el preentrenamiento autorregresivo para predecir píxeles siguientes en el aprendizaje de representaciones visuales. Se realizan dos cambios simples pero esenciales. Primero, desplazamos el objetivo de predicción de los píxeles brutos a tokens semánticos, permitiendo una comprensión de mayor nivel del contenido visual. Segundo, complementamos el modelado autorregresivo instruyendo al modelo para predecir no solo los siguientes tokens, sino también los tokens visibles. Este enfoque es particularmente efectivo cuando los tokens semánticos están codificados por modelos entrenados de manera discriminativa, como CLIP. Introducimos este novedoso enfoque como D-iGPT. Experimentos extensivos demuestran que D-iGPT sobresale como un fuerte aprendiz de representaciones visuales: un logro notable de D-iGPT es su rendimiento convincente en el conjunto de datos ImageNet-1K -- al entrenar con conjuntos de datos públicamente disponibles, D-iGPT alcanza un 89.5\% de precisión top-1 con un modelo ViT-Large estándar. Este modelo también muestra una fuerte generalización en tareas posteriores y robustez en muestras fuera de distribución. El código está disponible en https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
En este artículo, abordamos la tarea de edición adaptativa de escenas 3D impulsada por una fuente, proponiendo un modelo CustomNeRF que unifica una descripción textual o una imagen de referencia como indicación de edición. Sin embargo, obtener resultados de edición deseados que se ajusten a la indicación no es trivial, ya que existen dos desafíos significativos: la edición precisa de solo las regiones en primer plano y la consistencia multi-vista dada una imagen de referencia de una sola vista. Para abordar el primer desafío, proponemos un esquema de entrenamiento de Edición Iterativa Local-Global (LGIE) que alterna entre la edición de regiones en primer plano y la edición de la imagen completa, con el objetivo de manipular solo el primer plano mientras se preserva el fondo. Para el segundo desafío, también diseñamos una regularización guiada por clases que aprovecha los conocimientos previos de clases dentro del modelo de generación para mitigar el problema de inconsistencia entre diferentes vistas en la edición impulsada por imágenes. Experimentos exhaustivos muestran que nuestro CustomNeRF produce resultados de edición precisos en diversas escenas reales, tanto en configuraciones impulsadas por texto como por imágenes.
Encontrar formas de acelerar la entrada de texto para personas con discapacidades motoras severas ha sido un área de investigación de larga data. Reducir la brecha de velocidad en dispositivos de comunicación aumentativa y alternativa (CAA), como los teclados de seguimiento ocular, es crucial para mejorar la calidad de vida de estas personas. Los avances recientes en redes neuronales de lenguaje natural presentan nuevas oportunidades para replantear estrategias e interfaces de usuario que mejoren la entrada de texto para usuarios de CAA. En este artículo, presentamos SpeakFaster, que combina modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) y una interfaz de usuario co-diseñada para la entrada de texto en forma altamente abreviada, permitiendo ahorrar un 57% más de acciones motoras en comparación con los teclados predictivos tradicionales en simulaciones fuera de línea. Un estudio piloto con 19 participantes sin discapacidad motora que escribieron en un dispositivo móvil manualmente mostró ganancias en ahorro motor consistentes con la simulación fuera de línea, mientras que introdujo efectos relativamente pequeños en la velocidad general de escritura. Pruebas de laboratorio y en campo con dos usuarios de escritura por seguimiento ocular con esclerosis lateral amiotrófica (ELA) demostraron tasas de entrada de texto entre un 29% y un 60% más rápidas que los métodos tradicionales, gracias al ahorro significativo de pulsaciones costosas logrado mediante predicciones de frases y palabras basadas en LLMs conscientes del contexto. Estos hallazgos proporcionan una base sólida para seguir explorando la comunicación textual sustancialmente acelerada para usuarios con discapacidades motoras y demuestran una dirección para aplicar LLMs en interfaces de usuario basadas en texto.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han atraído un enorme interés en aplicaciones prácticas debido a sus respuestas cada vez más precisas y sus capacidades de razonamiento coherente. Dada su naturaleza como cajas negras que utilizan procesos de razonamiento complejos sobre sus entradas, es inevitable que la demanda de explicaciones escalables y fieles para el contenido generado por los LLMs continúe creciendo. Ha habido avances significativos en la explicabilidad de los modelos de redes neuronales durante la última década. Entre ellos, los métodos de explicabilidad post-hoc, especialmente los valores de Shapley, han demostrado ser efectivos para interpretar modelos de aprendizaje profundo. Sin embargo, existen grandes desafíos al escalar los valores de Shapley para los LLMs, particularmente al tratar con contextos de entrada largos que contienen miles de tokens y secuencias de salida generadas de manera autoregresiva. Además, a menudo no está claro cómo utilizar de manera efectiva las explicaciones generadas para mejorar el rendimiento de los LLMs. En este artículo, presentamos TextGenSHAP, un método de explicación post-hoc eficiente que incorpora técnicas específicas para modelos de lenguaje. Demostramos que esto conduce a aumentos significativos en la velocidad en comparación con los cálculos convencionales de valores de Shapley, reduciendo los tiempos de procesamiento de horas a minutos para explicaciones a nivel de token, y a solo segundos para explicaciones a nivel de documento. Además, demostramos cómo los valores de Shapley en tiempo real pueden utilizarse en dos escenarios importantes: proporcionando una mejor comprensión de la respuesta a preguntas en documentos largos mediante la localización de palabras y oraciones importantes; y mejorando los sistemas existentes de recuperación de documentos al aumentar la precisión de los pasajes seleccionados y, en última instancia, las respuestas finales.