Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje basados en Transformers distribuyen los FLOPs de manera uniforme a lo largo de las secuencias de entrada. En este trabajo demostramos que, en cambio, los Transformers pueden aprender a asignar dinámicamente FLOPs (o cómputo) a posiciones específicas de una secuencia, optimizando la asignación a lo largo de la secuencia para diferentes capas a través de la profundidad del modelo. Nuestro método impone un presupuesto total de cómputo limitando el número de tokens (k) que pueden participar en los cálculos de autoatención y MLP en una capa dada. Los tokens que se procesan son determinados por la red mediante un mecanismo de enrutamiento top-k. Dado que k se define a priori, este procedimiento simple utiliza un gráfico de cálculo estático con tamaños de tensor conocidos, a diferencia de otras técnicas de cómputo condicional. Sin embargo, dado que las identidades de los k tokens son fluidas, este método puede gastar FLOPs de manera no uniforme a lo largo de las dimensiones de tiempo y profundidad del modelo. Por lo tanto, el gasto de cómputo es completamente predecible en su totalidad, pero dinámico y sensible al contexto a nivel de token. No solo los modelos entrenados de esta manera aprenden a asignar cómputo dinámicamente, sino que lo hacen de manera eficiente. Estos modelos igualan el rendimiento de referencia para FLOPs y tiempos de entrenamiento equivalentes, pero requieren una fracción de los FLOPs por paso hacia adelante y pueden ser hasta un 50\% más rápidos durante el muestreo posterior al entrenamiento.
Presentamos el modelado Visual AutoRegresivo (VAR), un nuevo paradigma generativo que redefine el aprendizaje autorregresivo en imágenes como una predicción "de grueso a fino" o "de siguiente resolución", divergiendo de la predicción estándar "de siguiente token" en escaneo raster. Esta metodología simple e intuitiva permite que los transformadores autorregresivos (AR) aprendan distribuciones visuales rápidamente y generalicen bien: VAR, por primera vez, hace que los modelos AR superen a los transformadores de difusión en la generación de imágenes. En el benchmark de ImageNet 256x256, VAR mejora significativamente la línea base AR al mejorar la distancia de Fréchet Inception (FID) de 18.65 a 1.80 y el puntaje de Inception (IS) de 80.4 a 356.4, con una velocidad de inferencia aproximadamente 20 veces más rápida. También se verifica empíricamente que VAR supera al Transformador de Difusión (DiT) en múltiples dimensiones, incluyendo calidad de imagen, velocidad de inferencia, eficiencia de datos y escalabilidad. Escalar los modelos VAR exhibe claras leyes de escalamiento de ley de potencia similares a las observadas en los LLM, con coeficientes de correlación lineal cercanos a -0.998 como evidencia sólida. VAR además demuestra capacidad de generalización zero-shot en tareas posteriores como in-painting, out-painting y edición de imágenes. Estos resultados sugieren que VAR ha emulado inicialmente las dos propiedades importantes de los LLM: Leyes de Escalamiento y generalización zero-shot de tareas. Hemos liberado todos los modelos y códigos para promover la exploración de modelos AR/VAR para la generación visual y el aprendizaje unificado.
El razonamiento algorítmico se refiere a la capacidad de comprender los patrones complejos detrás de un problema y descomponerlos en una secuencia de pasos de razonamiento hacia la solución. Esta naturaleza del razonamiento algorítmico lo convierte en un desafío para los modelos de lenguaje grandes (LLMs, por sus siglas en inglés), a pesar de que han demostrado un rendimiento prometedor en otras tareas de razonamiento. En este contexto, algunos estudios recientes utilizan lenguajes de programación (por ejemplo, Python) para expresar la lógica necesaria para resolver una instancia/pregunta dada (por ejemplo, Program-of-Thought), inspirados por su sintaxis estricta y precisa. Sin embargo, no es trivial escribir un código ejecutable que exprese la lógica correcta sobre la marcha dentro de una única llamada de inferencia. Además, el código generado específicamente para una instancia no puede reutilizarse para otras, incluso si pertenecen a la misma tarea y podrían requerir una lógica idéntica para resolverse. Este artículo presenta Think-and-Execute, un marco novedoso que descompone el proceso de razonamiento de los modelos de lenguaje en dos pasos. (1) En Think, descubrimos una lógica a nivel de tarea que es compartida por todas las instancias para resolver una tarea dada y luego expresamos dicha lógica con pseudocódigo; (2) En Execute, adaptamos aún más el pseudocódigo generado a cada instancia y simulamos la ejecución del código. Con experimentos extensos en siete tareas de razonamiento algorítmico, demostramos la efectividad de Think-and-Execute. Nuestro enfoque mejora mejor el razonamiento de los modelos de lenguaje en comparación con varias líneas base sólidas que realizan razonamiento específico por instancia (por ejemplo, CoT y PoT), lo que sugiere la utilidad de descubrir una lógica a nivel de tarea. Además, mostramos que, en comparación con el lenguaje natural, el pseudocódigo puede guiar mejor el razonamiento de los modelos de lenguaje, a pesar de que están entrenados para seguir instrucciones en lenguaje natural.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un dominio excelente del lenguaje humano, pero aún enfrentan dificultades en aplicaciones del mundo real que requieren resolución de problemas matemáticos. Aunque se han desarrollado muchas estrategias y conjuntos de datos para mejorar las capacidades matemáticas de los LLMs, sigue siendo un desafío mantener y mejorar simultáneamente tanto las habilidades lingüísticas como las matemáticas en sistemas LLMs implementados. En este trabajo, adaptamos la canalización de Autocrítica (Self-Critique), que aborda este desafío en la etapa de aprendizaje por retroalimentación durante la alineación de los LLMs. Primero, entrenamos un modelo general de Crítica Matemática (Math-Critique) a partir del propio LLM para proporcionar señales de retroalimentación. Luego, aplicamos secuencialmente un ajuste fino de rechazo y una optimización de preferencias directas sobre las generaciones propias del LLM para la recopilación de datos. Basándonos en ChatGLM3-32B, realizamos una serie de experimentos tanto en conjuntos de datos académicos como en nuestro nuevo y desafiante conjunto de datos, MathUserEval. Los resultados muestran que nuestra canalización mejora significativamente la resolución de problemas matemáticos del LLM, al mismo tiempo que sigue mejorando su capacidad lingüística, superando a LLMs que podrían ser dos veces más grandes. Las técnicas relacionadas se han implementado en ChatGLM\url{https://chatglm.cn}, un LLM en servicio en línea. El conjunto de datos de evaluación relacionado y los scripts se han publicado en https://github.com/THUDM/ChatGLM-Math.
Los modelos basados en difusión sin ajuste han demostrado un potencial significativo en el ámbito de la personalización y adaptación de imágenes. Sin embargo, a pesar de este notable progreso, los modelos actuales siguen enfrentándose a varios desafíos complejos en la generación de imágenes con estilo consistente. En primer lugar, el concepto de estilo es inherentemente indeterminado, abarcando una multitud de elementos como el color, el material, la atmósfera, el diseño y la estructura, entre otros. En segundo lugar, los métodos basados en inversión son propensos a la degradación del estilo, lo que a menudo resulta en la pérdida de detalles finos. Por último, los enfoques basados en adaptadores frecuentemente requieren un ajuste meticuloso de los pesos para cada imagen de referencia con el fin de lograr un equilibrio entre la intensidad del estilo y la controlabilidad del texto. En este artículo, comenzamos examinando varias observaciones convincentes pero frecuentemente pasadas por alto. Luego, presentamos InstantStyle, un marco diseñado para abordar estos problemas mediante la implementación de dos estrategias clave: 1) Un mecanismo sencillo que desacopla el estilo y el contenido de las imágenes de referencia dentro del espacio de características, basado en la suposición de que las características dentro del mismo espacio pueden sumarse o restarse entre sí. 2) La inyección de características de la imagen de referencia exclusivamente en bloques específicos de estilo, evitando así fugas de estilo y prescindiendo de la necesidad de un ajuste engorroso de pesos, que a menudo caracteriza a diseños con más parámetros. Nuestro trabajo demuestra resultados superiores en la estilización visual, logrando un equilibrio óptimo entre la intensidad del estilo y la controlabilidad de los elementos textuales. Nuestros códigos estarán disponibles en https://github.com/InstantStyle/InstantStyle.
El aumento en el tamaño de los modelos y los datos ha sido bastante exitoso para la evolución de los LLM (Modelos de Lenguaje de Gran Escala). Sin embargo, la ley de escalamiento para los modelos de texto a imagen (T2I) basados en difusión no ha sido completamente explorada. Además, no está claro cómo escalar eficientemente el modelo para obtener un mejor rendimiento a un costo reducido. Los diferentes ajustes de entrenamiento y el elevado costo del mismo hacen que una comparación justa entre modelos sea extremadamente difícil. En este trabajo, estudiamos empíricamente las propiedades de escalamiento de los modelos T2I basados en difusión mediante la realización de extensas y rigurosas ablaciones sobre el escalamiento tanto de los backbones de eliminación de ruido como del conjunto de entrenamiento, incluyendo el entrenamiento de variantes escaladas de UNet y Transformer que van desde 0.4B hasta 4B de parámetros en conjuntos de datos de hasta 600M de imágenes. Para el escalamiento del modelo, encontramos que la ubicación y la cantidad de atención cruzada distinguen el rendimiento de los diseños existentes de UNet. Además, aumentar los bloques de transformadores es más eficiente en términos de parámetros para mejorar la alineación texto-imagen que aumentar el número de canales. Luego, identificamos una variante eficiente de UNet, que es un 45% más pequeña y un 28% más rápida que la UNet de SDXL. En cuanto al escalamiento de datos, demostramos que la calidad y la diversidad del conjunto de entrenamiento importan más que simplemente el tamaño del conjunto de datos. Aumentar la densidad y diversidad de los textos descriptivos mejora el rendimiento de la alineación texto-imagen y la eficiencia del aprendizaje. Finalmente, proporcionamos funciones de escalamiento para predecir el rendimiento de la alineación texto-imagen como funciones de la escala del tamaño del modelo, el cómputo y el tamaño del conjunto de datos.
Este estudio explora el papel de la atención cruzada durante la inferencia en modelos de difusión condicionados por texto. Descubrimos que las salidas de la atención cruzada convergen a un punto fijo después de pocos pasos de inferencia. En consecuencia, el momento de convergencia divide naturalmente todo el proceso de inferencia en dos etapas: una etapa inicial de planificación semántica, durante la cual el modelo se basa en la atención cruzada para planificar semánticas visuales orientadas al texto, y una etapa posterior de mejora de la fidelidad, durante la cual el modelo intenta generar imágenes a partir de las semánticas previamente planificadas. Sorprendentemente, ignorar las condiciones de texto en la etapa de mejora de la fidelidad no solo reduce la complejidad computacional, sino que también mantiene el rendimiento del modelo. Esto da lugar a un método simple y sin necesidad de entrenamiento llamado TGATE para la generación eficiente, que almacena en caché la salida de la atención cruzada una vez que converge y la mantiene fija durante los pasos restantes de inferencia. Nuestro estudio empírico en el conjunto de validación de MS-COCO confirma su efectividad. El código fuente de TGATE está disponible en https://github.com/HaozheLiu-ST/T-GATE.
Este artículo permite la edición de alta fidelidad y transferible de NeRF mediante la descomposición en frecuencias. Los flujos de trabajo recientes para la edición de NeRF trasladan resultados de estilización 2D a escenas 3D, pero sufren de resultados borrosos y no logran capturar estructuras detalladas debido a la inconsistencia entre las ediciones 2D. Nuestra idea clave es que los componentes de baja frecuencia de las imágenes son más consistentes en múltiples vistas después de la edición en comparación con sus partes de alta frecuencia. Además, el estilo de apariencia se manifiesta principalmente en los componentes de baja frecuencia, mientras que los detalles del contenido residen especialmente en las partes de alta frecuencia. Esto nos motiva a realizar la edición en los componentes de baja frecuencia, lo que resulta en escenas editadas de alta fidelidad. Adicionalmente, la edición se realiza en el espacio de características de baja frecuencia, permitiendo un control estable de la intensidad y la transferencia a nuevas escenas. Experimentos exhaustivos realizados en conjuntos de datos fotorealistas demuestran el rendimiento superior de la edición de NeRF de alta fidelidad y transferible. La página del proyecto se encuentra en https://aigc3d.github.io/freditor.