Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos mais avançados de texto para imagem (T2I) exigem custos significativos de treinamento (por exemplo, milhões de horas de GPU), o que dificulta seriamente a inovação fundamental para a comunidade de AIGC (Artificial Intelligence Generated Content) enquanto aumenta as emissões de CO2. Este artigo apresenta o PIXART-α, um modelo de difusão T2I baseado em Transformer, cuja qualidade de geração de imagens é competitiva com os geradores de imagem mais avançados (por exemplo, Imagen, SDXL e até mesmo Midjourney), atingindo padrões próximos aos de aplicações comerciais. Além disso, ele suporta a síntese de imagens de alta resolução de até 1024px com baixo custo de treinamento, conforme mostrado nas Figuras 1 e 2. Para alcançar esse objetivo, três projetos principais são propostos: (1) Decomposição da estratégia de treinamento: Desenvolvemos três etapas distintas de treinamento que otimizam separadamente a dependência de pixels, o alinhamento texto-imagem e a qualidade estética da imagem; (2) Transformer T2I eficiente: Incorporamos módulos de atenção cruzada no Diffusion Transformer (DiT) para injetar condições de texto e simplificar o ramo computacionalmente intensivo de condicionamento por classe; (3) Dados altamente informativos: Enfatizamos a importância da densidade conceitual em pares texto-imagem e utilizamos um grande modelo de Visão-Linguagem para rotular automaticamente legendas pseudo-densas, auxiliando o aprendizado de alinhamento texto-imagem. Como resultado, a velocidade de treinamento do PIXART-α supera significativamente os modelos T2I de grande escala existentes. Por exemplo, o PIXART-α leva apenas 10,8% do tempo de treinamento do Stable Diffusion v1.5 (675 vs. 6.250 dias de GPU A100), economizando cerca de \$300.000 (\$26.000 vs. \$320.000) e reduzindo 90% das emissões de CO2. Além disso, em comparação com um modelo SOTA maior, o RAPHAEL, nosso custo de treinamento é de apenas 1%. Experimentos extensivos demonstram que o PIXART-α se destaca em qualidade de imagem, artisticidade e controle semântico. Esperamos que o PIXART-α forneça novos insights para a comunidade de AIGC e startups, acelerando a construção de seus próprios modelos generativos de alta qualidade e baixo custo a partir do zero.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em tarefas de geração de texto aberto. No entanto, a natureza inerentemente aberta dessas tarefas implica que há sempre espaço para melhorias na qualidade das respostas dos modelos. Para enfrentar esse desafio, várias abordagens foram propostas para aprimorar o desempenho dos LLMs. Tem havido um foco crescente em permitir que os LLMs melhorem por si mesmos a qualidade de suas respostas, reduzindo assim a dependência de extensos esforços de anotação humana para coletar dados de treinamento diversos e de alta qualidade. Recentemente, métodos baseados em _prompting_ têm sido amplamente explorados entre os métodos de autoaperfeiçoamento devido à sua eficácia, eficiência e conveniência. No entanto, esses métodos geralmente exigem rubricas explicitamente e minuciosamente escritas como entradas para os LLMs. É caro e desafiador derivar e fornecer manualmente todas as rubricas necessárias para um objetivo complexo de melhoria no mundo real (por exemplo, ser mais útil e menos prejudicial). Para isso, propomos um framework de Autoaperfeiçoamento Implícito (PIT) que aprende implicitamente o objetivo de melhoria a partir de dados de preferência humana. O PIT requer apenas dados de preferência usados para treinar modelos de recompensa, sem esforços humanos adicionais. Especificamente, reformulamos o objetivo de treinamento do Aprendizado por Reforço com Feedback Humano (RLHF) — em vez de maximizar a qualidade da resposta para uma determinada entrada, maximizamos a diferença de qualidade da resposta condicionada a uma resposta de referência. Dessa forma, o PIT é implicitamente treinado com o objetivo de melhor alinhamento com as preferências humanas. Experimentos em dois conjuntos de dados do mundo real e um conjunto de dados sintético mostram que nosso método supera significativamente os métodos baseados em _prompting_.
Modelos generativos de difusão fornecem fortes priors para geração de texto-para-imagem e, assim, servem como base para tarefas de geração condicional, como edição de imagem, restauração e super-resolução. No entanto, uma grande limitação dos modelos de difusão é o seu tempo de amostragem lento. Para enfrentar esse desafio, apresentamos um novo método de destilação condicional projetado para complementar os priors de difusão com a ajuda de condições de imagem, permitindo amostragem condicional com muito poucos passos. Destilamos diretamente o pré-treinamento incondicional em um único estágio por meio de aprendizado conjunto, simplificando substancialmente os procedimentos anteriores em dois estágios que envolviam destilação e ajuste fino condicional separadamente. Além disso, nosso método permite um novo mecanismo de destilação eficiente em parâmetros que destila cada tarefa com apenas um pequeno número de parâmetros adicionais combinados com a estrutura incondicional compartilhada e congelada. Experimentos em várias tarefas, incluindo super-resolução, edição de imagem e geração de imagem a partir de profundidade, demonstram que nosso método supera as técnicas de destilação existentes para o mesmo tempo de amostragem. Notavelmente, nosso método é a primeira estratégia de destilação que pode igualar o desempenho dos modelos de difusão condicional ajustados finamente, que são muito mais lentos.