Artículos de investigación en IA seleccionados diariamente con traducciones
Estudiamos empíricamente una estrategia simple de poda de capas para familias populares de modelos de lenguaje preentrenados (LLMs) de pesos abiertos, encontrando una degradación mínima del rendimiento en diferentes benchmarks de preguntas y respuestas hasta después de eliminar una gran fracción (hasta la mitad) de las capas. Para podar estos modelos, identificamos el bloque óptimo de capas a eliminar considerando la similitud entre las capas; luego, para "sanar" el daño, realizamos una pequeña cantidad de ajuste fino. En particular, utilizamos métodos de ajuste fino eficiente en parámetros (PEFT), específicamente cuantización y adaptadores de bajo rango (QLoRA), de modo que cada uno de nuestros experimentos pueda realizarse en una sola GPU A100. Desde una perspectiva práctica, estos resultados sugieren que los métodos de poda de capas pueden complementar otras estrategias PEFT para reducir aún más los recursos computacionales del ajuste fino, por un lado, y pueden mejorar la memoria y la latencia de la inferencia, por otro lado. Desde una perspectiva científica, la robustez de estos LLMs a la eliminación de capas implica que los métodos actuales de preentrenamiento no están aprovechando adecuadamente los parámetros en las capas más profundas de la red o que las capas superficiales desempeñan un papel crítico en el almacenamiento de conocimiento.
La evolución de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como ChatGPT y GPT-4 ha generado discusiones sobre el advenimiento de la Inteligencia Artificial General (AGI). Sin embargo, replicar tales avances en modelos de código abierto ha sido un desafío. Este artículo presenta InternLM2, un LLM de código abierto que supera a sus predecesores en evaluaciones integrales en 6 dimensiones y 30 benchmarks, modelado de contexto largo y evaluaciones subjetivas de respuesta abierta, gracias a técnicas innovadoras de preentrenamiento y optimización. El proceso de preentrenamiento de InternLM2 se detalla meticulosamente, destacando la preparación de diversos tipos de datos, incluyendo texto, código y datos de contexto largo. InternLM2 captura eficientemente dependencias a largo plazo, entrenándose inicialmente con 4k tokens antes de avanzar a 32k tokens en las etapas de preentrenamiento y ajuste fino, mostrando un rendimiento notable en la prueba de 200k "Needle-in-a-Haystack". InternLM2 se alinea adicionalmente mediante Ajuste Fino Supervisado (SFT) y una novedosa estrategia de Aprendizaje por Refuerzo en Línea Condicional a partir de Retroalimentación Humana (COOL RLHF), que aborda preferencias humanas conflictivas y el hackeo de recompensas. Al liberar modelos de InternLM2 en diferentes etapas de entrenamiento y tamaños de modelo, proporcionamos a la comunidad información valiosa sobre la evolución del modelo.
El 3D Gaussian Splatting (3DGS) ha revolucionado recientemente la reconstrucción de campos de radiancia, logrando una síntesis de nuevas vistas de alta calidad y una velocidad de renderizado rápida sin necesidad de preprocesamiento. Sin embargo, el 3DGS no logra representar superficies con precisión debido a la naturaleza inconsistente en múltiples vistas de los Gaussianos 3D. Presentamos el 2D Gaussian Splatting (2DGS), un enfoque novedoso para modelar y reconstruir campos de radiancia geométricamente precisos a partir de imágenes multivista. Nuestra idea clave es colapsar el volumen 3D en un conjunto de discos Gaussianos 2D orientados en planos. A diferencia de los Gaussianos 3D, los Gaussianos 2D proporcionan una geometría consistente en todas las vistas mientras modelan superficies de manera intrínseca. Para recuperar con precisión superficies delgadas y lograr una optimización estable, introducimos un proceso de splatting 2D preciso en perspectiva que utiliza la intersección rayo-splat y la rasterización. Además, incorporamos términos de distorsión de profundidad y consistencia de normales para mejorar aún más la calidad de las reconstrucciones. Demostramos que nuestro renderizador diferenciado permite una reconstrucción de geometría detallada y libre de ruido, manteniendo una calidad de apariencia competitiva, una velocidad de entrenamiento rápida y un renderizado en tiempo real. Nuestro código estará disponible públicamente.
Los impresionantes avances en los modelos generativos de texto a imagen (T2I) han dado lugar a una plétora de modelos de alto rendimiento capaces de generar imágenes estéticamente atractivas y fotorrealistas. A pesar del progreso, estos modelos aún luchan por producir imágenes consistentes con la indicación de entrada, a menudo fallando en capturar correctamente las cantidades, relaciones y atributos de los objetos. Las soluciones existentes para mejorar la consistencia entre la indicación y la imagen enfrentan los siguientes desafíos: (1) a menudo requieren ajustes finos del modelo, (2) se centran únicamente en muestras cercanas de la indicación, y (3) se ven afectadas por compensaciones desfavorables entre la calidad de la imagen, la diversidad de representación y la consistencia entre la indicación y la imagen. En este artículo, abordamos estos desafíos e introducimos un marco de optimización por indicación para T2I, OPT2I, que aprovecha un modelo de lenguaje grande (LLM) para mejorar la consistencia entre la indicación y la imagen en los modelos T2I. Nuestro marco comienza con una indicación del usuario y genera iterativamente indicaciones revisadas con el objetivo de maximizar una puntuación de consistencia. Nuestra extensa validación en dos conjuntos de datos, MSCOCO y PartiPrompts, muestra que OPT2I puede aumentar la puntuación inicial de consistencia hasta en un 24.9% en términos de la puntuación DSG, mientras preserva el FID y aumenta la recuperación entre los datos generados y los reales. Nuestro trabajo allana el camino hacia la construcción de sistemas T2I más confiables y robustos aprovechando el poder de los LLMs.
Las técnicas recientes para la generación de texto a 4D sintetizan escenas 3D dinámicas utilizando supervisión de modelos preentrenados de texto a video. Sin embargo, las representaciones existentes para el movimiento, como los modelos de deformación o las representaciones neuronales dependientes del tiempo, están limitadas en la cantidad de movimiento que pueden generar: no pueden sintetizar movimientos que se extiendan más allá del cuadro delimitador utilizado para el renderizado volumétrico. La falta de un modelo de movimiento más flexible contribuye a la brecha en el realismo entre los métodos de generación 4D y los modelos recientes de generación de video casi fotorealistas. Aquí, proponemos TC4D: generación de texto a 4D condicionada por trayectorias, que descompone el movimiento en componentes globales y locales. Representamos el movimiento global del cuadro delimitador de una escena utilizando transformaciones rígidas a lo largo de una trayectoria parametrizada por un spline. Aprendemos deformaciones locales que se ajustan a la trayectoria global utilizando supervisión de un modelo de texto a video. Nuestro enfoque permite la síntesis de escenas animadas a lo largo de trayectorias arbitrarias, la generación composicional de escenas y mejoras significativas en el realismo y la cantidad de movimiento generado, lo cual evaluamos cualitativamente y mediante un estudio de usuarios. Los resultados en video pueden verse en nuestro sitio web: https://sherwinbahmani.github.io/tc4d.
El reciente método de splatting con Gaussianas 3D (3D-GS) ha demostrado una notable fidelidad y eficiencia en la renderización en comparación con las representaciones de escenas neuronales basadas en NeRF. Aunque muestra potencial para la renderización en tiempo real, 3D-GS enfrenta cuellos de botella en escenas grandes con detalles complejos debido a un número excesivo de primitivas Gaussianas ubicadas dentro del frustum de visión. Esta limitación es particularmente notable en vistas alejadas y puede llevar a velocidades de renderización inconsistentes en escenas con distintos niveles de detalle. Además, a menudo tiene dificultades para capturar el nivel de detalle correspondiente en diferentes escalas con su operación heurística de control de densidad. Inspirados por las técnicas de Nivel de Detalle (LOD), presentamos Octree-GS, que incorpora un enfoque de Gaussianas 3D estructurado en LOD, permitiendo la descomposición de niveles de detalle para la representación de escenas que contribuyen a los resultados finales de renderización. Nuestro modelo selecciona dinámicamente el nivel apropiado de un conjunto de puntos de anclaje multiresolución, asegurando un rendimiento de renderización consistente con ajustes adaptativos de LOD mientras mantiene resultados de alta fidelidad.
En este estudio, proponemos AniPortrait, un marco novedoso para generar animaciones de alta calidad impulsadas por audio y una imagen de retrato de referencia. Nuestra metodología se divide en dos etapas. Inicialmente, extraemos representaciones intermedias en 3D a partir del audio y las proyectamos en una secuencia de puntos faciales en 2D. Posteriormente, empleamos un modelo de difusión robusto, junto con un módulo de movimiento, para convertir la secuencia de puntos en una animación de retrato fotorrealista y temporalmente consistente. Los resultados experimentales demuestran la superioridad de AniPortrait en términos de naturalidad facial, diversidad de poses y calidad visual, ofreciendo así una experiencia perceptiva mejorada. Además, nuestra metodología muestra un potencial considerable en términos de flexibilidad y controlabilidad, lo que puede aplicarse eficazmente en áreas como la edición de movimiento facial o la recreación facial. Publicamos el código y los pesos del modelo en https://github.com/scutzzj/AniPortrait.
Presentamos DreamPolisher, un novedoso método basado en Gaussian Splatting con guía geométrica, diseñado para aprender consistencia entre vistas y detalles intrincados a partir de descripciones textuales. Si bien los avances recientes en métodos de generación de texto a 3D han sido prometedores, los enfoques predominantes a menudo no logran garantizar la consistencia entre vistas y la riqueza textural. Este problema se vuelve particularmente evidente en los métodos que trabajan únicamente con entrada de texto. Para abordar esto, proponemos un enfoque en dos etapas basado en Gaussian Splatting que refuerza la consistencia geométrica entre vistas. Inicialmente, una generación 3D aproximada se somete a un refinamiento mediante optimización geométrica. Posteriormente, utilizamos un refinador impulsado por ControlNet, acoplado con un término de consistencia geométrica, para mejorar tanto la fidelidad textural como la consistencia general del activo 3D generado. Evaluaciones empíricas en diversos prompts textuales que abarcan varias categorías de objetos demuestran la eficacia de DreamPolisher en la generación de objetos 3D consistentes y realistas, alineándose estrechamente con la semántica de las instrucciones textuales.
Este artículo presenta una implementación en SYCL de Perceptrones Multicapa (MLPs), diseñada y optimizada para la GPU Intel Data Center GPU Max 1550. Para mejorar el rendimiento, nuestra implementación minimiza los accesos lentos a la memoria global maximizando la reutilización de datos dentro del archivo de registros generales y la memoria local compartida, fusionando las operaciones en cada capa del MLP. Mediante un modelo simple de techo de rendimiento, demostramos que esto resulta en un aumento significativo de la intensidad aritmética, lo que conduce a una mejora en el rendimiento, especialmente en inferencia. Comparamos nuestro enfoque con una implementación similar en CUDA para MLPs y mostramos que nuestra implementación en la GPU Intel supera a la implementación en CUDA en la GPU H100 de Nvidia por un factor de hasta 2.84 en inferencia y 1.75 en entrenamiento. El artículo también destaca la eficiencia de nuestra implementación en SYCL en tres áreas significativas: Compresión de Imágenes, Campos de Radiancia Neural y Aprendizaje Automático Basado en Física. En todos los casos, nuestra implementación supera a la implementación estándar de Intel Extension for PyTorch (IPEX) en la misma GPU Intel por un factor de hasta 30, y a la versión de PyTorch en CUDA en la GPU H100 de Nvidia por un factor de hasta 19. El código está disponible en https://github.com/intel/tiny-dpcpp-nn.