Artículos de investigación en IA seleccionados diariamente con traducciones
Trabajos recientes han propuesto la hipótesis de la representación lineal: que los modelos de lenguaje realizan cálculos manipulando representaciones unidimensionales de conceptos ("características") en el espacio de activaciones. En contraste, exploramos si algunas representaciones de los modelos de lenguaje podrían ser inherentemente multidimensionales. Comenzamos desarrollando una definición rigurosa de características multidimensionales irreducibles basada en si pueden descomponerse en características de menor dimensión independientes o no concurrentes. Motivados por estas definiciones, diseñamos un método escalable que utiliza autoencoders dispersos para encontrar automáticamente características multidimensionales en GPT-2 y Mistral 7B. Estas características descubiertas automáticamente incluyen ejemplos notablemente interpretables, como características circulares que representan los días de la semana y los meses del año. Identificamos tareas en las que estos círculos exactos se utilizan para resolver problemas computacionales que involucran aritmética modular en días de la semana y meses del año. Finalmente, proporcionamos evidencia de que estas características circulares son efectivamente la unidad fundamental de cálculo en estas tareas mediante experimentos de intervención en Mistral 7B y Llama 3 8B, y encontramos representaciones circulares adicionales al descomponer los estados ocultos para estas tareas en componentes interpretables.
Los asistentes de pruebas como Lean han revolucionado la verificación de demostraciones matemáticas, garantizando una alta precisión y fiabilidad. Aunque los modelos de lenguaje extenso (LLMs) muestran potencial en el razonamiento matemático, su avance en la demostración formal de teoremas se ve obstaculizado por la falta de datos de entrenamiento. Para abordar este problema, presentamos un enfoque para generar datos extensos de pruebas en Lean 4 derivados de problemas de competiciones matemáticas de nivel secundario y universitario. Este enfoque implica traducir problemas en lenguaje natural a enunciados formales, filtrar enunciados de baja calidad y generar pruebas para crear datos sintéticos. Tras ajustar el modelo DeepSeekMath 7B en este conjunto de datos sintéticos, que comprende 8 millones de enunciados formales con pruebas, nuestro modelo logró precisiones en la generación de pruebas completas del 46.3% con 64 muestras y del 52% acumulativamente en la prueba miniF2F de Lean 4, superando la línea base de GPT-4 con un 23.0% con 64 muestras y un método de aprendizaje por refuerzo con búsqueda en árbol con un 41.0%. Además, nuestro modelo demostró con éxito 5 de 148 problemas en el benchmark Formalized International Mathematical Olympiad (FIMO) de Lean 4, mientras que GPT-4 no logró demostrar ninguno. Estos resultados demuestran el potencial de aprovechar datos sintéticos a gran escala para mejorar las capacidades de demostración de teoremas en LLMs. Tanto el conjunto de datos sintéticos como el modelo estarán disponibles para facilitar futuras investigaciones en este prometedor campo.
A pesar de los avances significativos en la generación y edición de videos utilizando modelos de difusión, lograr una edición de video precisa y localizada sigue siendo un desafío considerable. Además, la mayoría de los métodos existentes de edición de video se centran principalmente en alterar el contenido visual, con una investigación limitada dedicada a la edición de movimiento. En este artículo, presentamos un nuevo enfoque para Rehacer un Video (ReVideo) que se distingue de los métodos existentes al permitir una edición precisa de video en áreas específicas mediante la especificación tanto del contenido como del movimiento. La edición de contenido se facilita modificando el primer fotograma, mientras que el control de movimiento basado en trayectorias ofrece una experiencia de interacción intuitiva para el usuario. ReVideo aborda una nueva tarea que implica el acoplamiento y el desequilibrio en el entrenamiento entre el control de contenido y movimiento. Para abordar esto, desarrollamos una estrategia de entrenamiento en tres etapas que desacopla progresivamente estos dos aspectos de lo general a lo específico. Además, proponemos un módulo de fusión espacio-temporal adaptativa para integrar el control de contenido y movimiento en varios pasos de muestreo y ubicaciones espaciales. Experimentos extensos demuestran que nuestro ReVideo tiene un rendimiento prometedor en varias aplicaciones de edición precisa de video, es decir, (1) cambiar localmente el contenido del video manteniendo el movimiento constante, (2) mantener el contenido sin cambios y personalizar nuevas trayectorias de movimiento, (3) modificar tanto el contenido como las trayectorias de movimiento. Nuestro método también puede extender sin problemas estas aplicaciones a la edición de múltiples áreas sin un entrenamiento específico, demostrando su flexibilidad y robustez.
¿Estamos aprovechando plenamente el potencial del codificador visual en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs)? El reciente desempeño sobresaliente de los MLLMs en la comprensión multimodal ha captado una amplia atención tanto en la academia como en la industria. En la actual carrera por desarrollar MLLMs, el enfoque parece estar predominantemente en el aspecto lingüístico. Observamos el surgimiento de conjuntos de datos de instrucción más grandes y de mayor calidad, así como la participación de LLMs de mayor tamaño. Sin embargo, se ha prestado poca atención a las señales visuales utilizadas por los MLLMs, que a menudo se asumen como las características de alto nivel finales extraídas por un codificador visual congelado. En este artículo, presentamos el Conector Denso, un conector visión-lenguaje simple, efectivo y plug-and-play que mejora significativamente los MLLMs existentes al aprovechar características visuales multicapa, con un mínimo costo computacional adicional. Además, nuestro modelo, entrenado únicamente con imágenes, muestra capacidades notables de comprensión de video en modo zero-shot. Los resultados experimentales en varios codificadores visuales, resoluciones de imagen, escalas de conjuntos de datos de entrenamiento, tamaños variables de LLMs (2.7B->70B) y diversas arquitecturas de MLLMs (por ejemplo, LLaVA y Mini-Gemini) validan la versatilidad y escalabilidad de nuestro enfoque, logrando un rendimiento de vanguardia en 19 benchmarks de imagen y video. Esperamos que este trabajo proporcione una experiencia valiosa y sirva como un módulo básico para el desarrollo futuro de MLLMs.
Los avances en los modelos de difusión latente (LDMs, por sus siglas en inglés) han revolucionado la generación de imágenes de alta resolución, pero el espacio de diseño del autoencoder, que es fundamental para estos sistemas, sigue siendo poco explorado. En este artículo, presentamos LiteVAE, una familia de autoencoders para LDMs que aprovechan la transformada discreta de wavelets en 2D para mejorar la escalabilidad y la eficiencia computacional en comparación con los autoencoders variacionales (VAEs) estándar, sin sacrificar la calidad de la salida. También investigamos las metodologías de entrenamiento y la arquitectura del decodificador de LiteVAE, y proponemos varias mejoras que optimizan la dinámica del entrenamiento y la calidad de la reconstrucción. Nuestro modelo base de LiteVAE iguala la calidad de los VAEs establecidos en los LDMs actuales con una reducción de seis veces en los parámetros del codificador, lo que resulta en un entrenamiento más rápido y menores requisitos de memoria en la GPU, mientras que nuestro modelo más grande supera a los VAEs de complejidad comparable en todas las métricas evaluadas (rFID, LPIPS, PSNR y SSIM).
Acelerar la inferencia de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) es un desafío importante en la inteligencia artificial. Este artículo introduce la inferencia especulativa distribuida (DSI, por sus siglas en inglés), un novedoso algoritmo de inferencia distribuida que es demostrablemente más rápido que la inferencia especulativa (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] y la inferencia autoregresiva tradicional (no SI). Al igual que otros algoritmos de SI, DSI funciona en LLMs congelados, sin requerir entrenamiento ni modificaciones arquitectónicas, y preserva la distribución objetivo. Estudios previos sobre SI han demostrado aceleraciones empíricas (en comparación con no SI) pero requieren un LLM "draft" rápido y preciso. En la práctica, los LLMs disponibles a menudo no tienen "drafts" coincidentes que sean lo suficientemente rápidos y precisos. Mostramos una brecha: SI se vuelve más lento que no SI cuando se utilizan "drafts" más lentos o menos precisos. Cerramos esta brecha demostrando que DSI es más rápido que tanto SI como no SI con cualquier "draft". Al orquestar múltiples instancias del modelo objetivo y los "drafts", DSI no solo es más rápido que SI, sino que también admite LLMs que no pueden acelerarse con SI. Nuestras simulaciones muestran aceleraciones de LLMs disponibles en entornos realistas: DSI es 1.29-1.92 veces más rápido que SI.
Los modelos de difusión han logrado un gran éxito en la generación de imágenes, con la arquitectura principal evolucionando desde U-Net hasta Transformers de Visión. Sin embargo, el costo computacional de los Transformers es cuadrático respecto al número de tokens, lo que plantea desafíos significativos al trabajar con imágenes de alta resolución. En este trabajo, proponemos Diffusion Mamba (DiM), que combina la eficiencia de Mamba, un modelo de secuencias basado en Modelos de Espacio de Estados (SSM), con el poder expresivo de los modelos de difusión para una síntesis eficiente de imágenes de alta resolución. Para abordar el desafío de que Mamba no puede generalizar a señales 2D, realizamos varios diseños arquitectónicos, incluyendo escaneos multidireccionales, tokens de relleno aprendibles al final de cada fila y columna, y mejora ligera de características locales. Nuestra arquitectura DiM logra eficiencia en tiempo de inferencia para imágenes de alta resolución. Además, para mejorar aún más la eficiencia en el entrenamiento para la generación de imágenes de alta resolución con DiM, investigamos una estrategia de entrenamiento "de débil a fuerte" que preentrena DiM en imágenes de baja resolución (256x256) y luego lo ajusta en imágenes de alta resolución (512x512). También exploramos estrategias de aumento de resolución sin entrenamiento para permitir que el modelo genere imágenes de mayor resolución (por ejemplo, 1024x1024 y 1536x1536) sin necesidad de ajustes adicionales. Los experimentos demuestran la efectividad y eficiencia de nuestro DiM.
Los métodos de entrenamiento de segundo orden tienen mejores propiedades de convergencia que el descenso de gradiente, pero rara vez se utilizan en la práctica para entrenamiento a gran escala debido a su sobrecarga computacional. Esto puede verse como una limitación de hardware (impuesta por las computadoras digitales). Aquí demostramos que el descenso de gradiente natural (NGD, por sus siglas en inglés), un método de segundo orden, puede tener una complejidad computacional por iteración similar a la de un método de primer orden cuando se emplea el hardware adecuado. Presentamos un nuevo algoritmo híbrido digital-analógico para entrenar redes neuronales que es equivalente al NGD en un régimen de parámetros específico, pero evita la resolución de sistemas lineales prohibitivamente costosa. Nuestro algoritmo aprovecha las propiedades termodinámicas de un sistema analógico en equilibrio y, por lo tanto, requiere una computadora termodinámica analógica. El entrenamiento ocurre en un bucle híbrido digital-analógico, donde el gradiente y la matriz de información de Fisher (o cualquier otra matriz de curvatura semidefinida positiva) se calculan en intervalos de tiempo determinados mientras tienen lugar las dinámicas analógicas. Demostramos numéricamente la superioridad de este enfoque sobre los métodos de entrenamiento digital de primer y segundo orden más avanzados en tareas de clasificación y ajuste fino de modelos de lenguaje.
Los enfoques recientes han mostrado avances prometedores al destilar modelos de difusión en generadores eficientes de un solo paso. Entre ellos, la Destilación por Coincidencia de Distribución (DMD, por sus siglas en inglés) produce generadores de un solo paso que coinciden con su modelo maestro en distribución, sin imponer una correspondencia uno a uno con las trayectorias de muestreo de sus maestros. Sin embargo, para garantizar un entrenamiento estable, DMD requiere una pérdida de regresión adicional calculada utilizando un gran conjunto de pares ruido-imagen generados por el maestro con muchos pasos de un muestreador determinista. Esto es costoso para la síntesis de texto a imagen a gran escala y limita la calidad del estudiante, vinculándolo demasiado estrechamente a las rutas de muestreo originales del maestro. Introducimos DMD2, un conjunto de técnicas que eliminan esta limitación y mejoran el entrenamiento de DMD. Primero, eliminamos la pérdida de regresión y la necesidad de una construcción costosa de conjuntos de datos. Mostramos que la inestabilidad resultante se debe a que el crítico falso no estima con precisión la distribución de las muestras generadas y proponemos una regla de actualización de dos escalas temporales como solución. Segundo, integramos una pérdida GAN en el procedimiento de destilación, discriminando entre muestras generadas e imágenes reales. Esto nos permite entrenar el modelo estudiante con datos reales, mitigando la estimación imperfecta de puntuaciones reales del modelo maestro y mejorando la calidad. Por último, modificamos el procedimiento de entrenamiento para habilitar el muestreo de múltiples pasos. Identificamos y abordamos el problema de desajuste de entrada entre entrenamiento e inferencia en este escenario, simulando muestras del generador durante el tiempo de inferencia en el entrenamiento. En conjunto, nuestras mejoras establecen nuevos referentes en la generación de imágenes de un solo paso, con puntuaciones FID de 1.28 en ImageNet-64x64 y 8.35 en COCO 2014 de cero disparos, superando al maestro original a pesar de una reducción de 500X en el costo de inferencia. Además, mostramos que nuestro enfoque puede generar imágenes de megapíxeles al destilar SDXL, demostrando una calidad visual excepcional entre los métodos de pocos pasos.
En los últimos años, con resultados de generación realistas y una amplia gama de aplicaciones personalizadas, los modelos generativos basados en difusión han captado una enorme atención tanto en el ámbito de la generación visual como en el de la generación de audio. En comparación con los avances considerables en la generación de texto a imagen o texto a audio, la investigación en la generación de audio a visual o visual a audio ha sido relativamente lenta. Los métodos recientes de generación audiovisual suelen recurrir a grandes modelos de lenguaje o modelos de difusión componibles. En lugar de diseñar otro modelo gigante para la generación audiovisual, en este artículo damos un paso atrás y mostramos que un transformador generativo simple y ligero, que no ha sido completamente explorado en la generación multimodal, puede lograr resultados excelentes en la generación de imagen a audio. El transformador opera en el espacio discreto de audio y visual de GANs Vector-Quantized, y se entrena en un esquema de desenmascaramiento de ruido. Después del entrenamiento, la guía sin clasificador puede implementarse directamente, logrando un mejor rendimiento sin necesidad de entrenamiento adicional o modificaciones. Dado que el modelo de transformador es simétrico en cuanto a modalidades, también puede implementarse directamente para la generación de audio a imagen y la cogeneración. En los experimentos, demostramos que nuestro método simple supera a los métodos recientes de generación de imagen a audio. Las muestras de audio generadas pueden encontrarse en https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) son ampliamente considerados como cruciales en la exploración de la Inteligencia General Artificial (AGI). El núcleo de los MLLMs radica en su capacidad para lograr una alineación multimodal. Para alcanzar este objetivo, los MLLMs actuales suelen seguir un paradigma de entrenamiento en dos fases: la fase de preentrenamiento y la fase de ajuste por instrucciones. A pesar de su éxito, existen deficiencias en la modelización de las capacidades de alineación dentro de estos modelos. En primer lugar, durante la fase de preentrenamiento, el modelo generalmente asume que todos los pares de imagen-texto están uniformemente alineados, pero, de hecho, el grado de alineación entre diferentes pares de imagen-texto es inconsistente. En segundo lugar, las instrucciones utilizadas actualmente para el ajuste incorporan una variedad de tareas, y las instrucciones de diferentes tareas suelen requerir diferentes niveles de capacidades de alineación, pero los MLLMs anteriores pasan por alto estas necesidades de alineación diferenciadas. Para abordar estos problemas, proponemos un nuevo modelo de lenguaje multimodal de gran escala llamado AlignGPT. En la etapa de preentrenamiento, en lugar de tratar todos los pares de imagen-texto por igual, asignamos diferentes niveles de capacidades de alineación a diferentes pares de imagen-texto. Luego, en la fase de ajuste por instrucciones, combinamos de manera adaptativa estos diferentes niveles de capacidades de alineación para satisfacer las necesidades dinámicas de alineación de diferentes instrucciones. Los resultados experimentales extensos muestran que nuestro modelo logra un rendimiento competitivo en 12 benchmarks.
Personalizar modelos de difusión para generar imágenes que preserven la identidad a partir de imágenes de referencia proporcionadas por el usuario es un problema nuevo e intrigante. Los enfoques predominantes suelen requerir entrenamiento con un extenso conjunto de imágenes específicas del dominio para lograr la preservación de la identidad, lo que carece de flexibilidad en diferentes casos de uso. Para abordar este problema, aprovechamos la guía de clasificadores, una técnica libre de entrenamiento que dirige modelos de difusión utilizando un clasificador existente, para la generación de imágenes personalizadas. Nuestro estudio muestra que, basándose en un marco reciente de flujo rectificado, la principal limitación de la guía de clasificadores estándar, que requiere un clasificador especial, puede resolverse con una solución simple de punto fijo, permitiendo una personalización flexible con discriminadores de imágenes disponibles comercialmente. Además, su procedimiento de resolución demuestra ser estable cuando se ancla a una trayectoria de flujo de referencia, con una garantía de convergencia. El método derivado se implementa en flujo rectificado con diferentes discriminadores de imágenes disponibles comercialmente, ofreciendo resultados de personalización ventajosos para rostros humanos, sujetos vivos y ciertos objetos. El código está disponible en https://github.com/feifeiobama/RectifID.
Extendemos los transformadores multimodales para incluir el movimiento de cámara 3D como una señal de condicionamiento en la tarea de generación de video. Los modelos generativos de video están volviéndose cada vez más potentes, lo que enfoca los esfuerzos de investigación en métodos para controlar la salida de dichos modelos. Proponemos añadir controles virtuales de cámara 3D a los métodos generativos de video condicionando el video generado en una codificación del movimiento tridimensional de la cámara a lo largo del video generado. Los resultados demuestran que (1) somos capaces de controlar exitosamente la cámara durante la generación de video, partiendo de un solo fotograma y una señal de cámara, y (2) demostramos la precisión de las trayectorias de cámara 3D generadas utilizando métodos tradicionales de visión por computadora.
Investigamos la tarea de adaptar modelos generativos de imágenes a diferentes conjuntos de datos sin necesidad de ajuste fino. Para ello, presentamos Semantica, un modelo de difusión condicionado por imágenes capaz de generar imágenes basadas en la semántica de una imagen de condicionamiento. Semantica se entrena exclusivamente con pares de imágenes a escala web, es decir, recibe una imagen aleatoria de una página web como entrada condicional y modela otra imagen aleatoria de la misma página web. Nuestros experimentos destacan la expresividad de los codificadores de imágenes preentrenados y la necesidad de un filtrado de datos basado en semántica para lograr una generación de imágenes de alta calidad. Una vez entrenado, puede generar adaptativamente nuevas imágenes de un conjunto de datos simplemente utilizando imágenes de ese conjunto como entrada. Estudiamos las propiedades de transferencia de Semantica en ImageNet, LSUN Churches, LSUN Bedroom y SUN397.
Los Campos de Radiancia Neural (NeRFs, por sus siglas en inglés) suelen tener dificultades para reconstruir y renderizar objetos altamente especulares, cuya apariencia varía rápidamente con cambios en el punto de vista. Trabajos recientes han mejorado la capacidad de los NeRFs para renderizar la apariencia especular detallada de la iluminación ambiental distante, pero no logran sintetizar reflejos consistentes de contenido más cercano. Además, estas técnicas dependen de redes neuronales grandes y computacionalmente costosas para modelar la radiancia saliente, lo que limita severamente la velocidad de optimización y renderizado. Abordamos estos problemas con un enfoque basado en trazado de rayos: en lugar de consultar una red neuronal costosa para obtener la radiancia dependiente de la vista en puntos a lo largo de cada rayo de la cámara, nuestro modelo lanza rayos de reflexión desde estos puntos y los traza a través de la representación NeRF para renderizar vectores de características que se decodifican en color utilizando una red pequeña y económica. Demostramos que nuestro modelo supera a métodos anteriores en la síntesis de vistas de escenas que contienen objetos brillantes, y que es el único método NeRF existente capaz de sintetizar apariencia especular y reflejos fotorrealistas en escenas del mundo real, mientras requiere un tiempo de optimización comparable a los modelos de síntesis de vistas más avanzados actualmente.
La síntesis de nuevas vistas de objetos especulares como metales brillantes o pinturas lustrosas sigue siendo un desafío significativo. No solo la apariencia brillante, sino también los efectos de iluminación global, incluyendo los reflejos de otros objetos en el entorno, son componentes críticos para reproducir fielmente una escena. En este artículo, presentamos Neural Directional Encoding (NDE), una codificación de apariencia dependiente de la vista para campos de radiancia neurales (NeRF) destinada a renderizar objetos especulares. NDE traslada el concepto de codificación espacial basada en grillas de características al dominio angular, mejorando significativamente la capacidad de modelar señales angulares de alta frecuencia. A diferencia de métodos anteriores que utilizan funciones de codificación con solo entrada angular, adicionalmente realizamos un trazado cónico de características espaciales para obtener una codificación direccional que varía espacialmente, abordando así los desafiantes efectos de interreflexión. Experimentos extensivos en conjuntos de datos tanto sintéticos como reales muestran que un modelo NeRF con NDE (1) supera al estado del arte en la síntesis de vistas de objetos especulares, y (2) funciona con redes pequeñas para permitir inferencia rápida (en tiempo real). La página web del proyecto y el código fuente están disponibles en: https://lwwu2.github.io/nde/.
En este artículo, presentamos un sistema de telepresencia bidireccional de bajo costo y alta autenticidad, Tele-Aloha, dirigido a escenarios de comunicación entre pares. En comparación con sistemas anteriores, Tele-Aloha utiliza solo cuatro cámaras RGB dispersas, una GPU de consumo y una pantalla autoestereoscópica para lograr una comunicación a distancia de alta resolución (2048x2048), en tiempo real (30 fps), baja latencia (menos de 150 ms) y robusta. Como núcleo de Tele-Aloha, proponemos un algoritmo eficiente de síntesis de vistas novedosas para la parte superior del cuerpo. En primer lugar, diseñamos un estimador de disparidad en cascada para obtener una señal geométrica robusta. Además, se introduce un rasterizador neuronal mediante Gaussian Splatting para proyectar características latentes en la vista objetivo y decodificarlas en una resolución reducida. Asimismo, aprovechando los datos capturados de alta calidad, utilizamos un mecanismo de mezcla ponderada para refinar la imagen decodificada a la resolución final de 2K. Aprovechando una pantalla autoestereoscópica líder en el mundo y un seguimiento de iris de baja latencia, los usuarios pueden experimentar una fuerte sensación tridimensional sin necesidad de ningún dispositivo de visualización montado en la cabeza. En conjunto, nuestro sistema de telepresencia demuestra la sensación de copresencia en experimentos de la vida real, inspirando la próxima generación de comunicación.