Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem baseados em Transformers distribuem FLOPs uniformemente ao longo das sequências de entrada. Neste trabalho, demonstramos que os Transformers podem, em vez disso, aprender a alocar dinamicamente FLOPs (ou computação) para posições específicas em uma sequência, otimizando a alocação ao longo da sequência para diferentes camadas ao longo da profundidade do modelo. Nosso método impõe um orçamento total de computação limitando o número de tokens (k) que podem participar dos cálculos de self-attention e MLP em uma determinada camada. Os tokens a serem processados são determinados pela rede usando um mecanismo de roteamento top-k. Como k é definido a priori, este procedimento simples utiliza um grafo de computação estático com tamanhos de tensor conhecidos, ao contrário de outras técnicas de computação condicional. No entanto, como as identidades dos k tokens são fluidas, este método pode gastar FLOPs de forma não uniforme ao longo das dimensões de tempo e profundidade do modelo. Assim, o gasto de computação é totalmente previsível no total, mas dinâmico e sensível ao contexto no nível do token. Não apenas os modelos treinados dessa forma aprendem a alocar computação dinamicamente, mas o fazem de forma eficiente. Esses modelos correspondem ao desempenho de linha de base para FLOPs e tempos de treinamento equivalentes, mas exigem uma fração dos FLOPs por passagem direta e podem ser até 50% mais rápidos para avançar durante a amostragem pós-treinamento.
Apresentamos a modelagem Visual AutoRegressiva (VAR), um novo paradigma de geração que redefine o aprendizado autoregressivo em imagens como uma "previsão de próxima escala" ou "previsão de próxima resolução" de forma grossa para fina, divergindo da previsão padrão "próximo token" em varredura raster. Essa metodologia simples e intuitiva permite que transformadores autoregressivos (AR) aprendam distribuições visuais rapidamente e generalizem bem: o VAR, pela primeira vez, faz com que modelos AR superem os transformadores de difusão na geração de imagens. No benchmark ImageNet 256x256, o VAR melhora significativamente a linha de base AR, melhorando a distância de Frechet inception (FID) de 18,65 para 1,80 e o score de inception (IS) de 80,4 para 356,4, com uma velocidade de inferência cerca de 20 vezes mais rápida. Também foi empiricamente verificado que o VAR supera o Transformador de Difusão (DiT) em múltiplas dimensões, incluindo qualidade de imagem, velocidade de inferência, eficiência de dados e escalabilidade. A ampliação dos modelos VAR exibe claras leis de escalonamento em lei de potência, semelhantes às observadas em LLMs, com coeficientes de correlação linear próximos a -0,998 como evidência sólida. O VAR ainda demonstra capacidade de generalização zero-shot em tarefas subsequentes, incluindo preenchimento de imagens, extensão de imagens e edição. Esses resultados sugerem que o VAR inicialmente emulou duas propriedades importantes dos LLMs: Leis de Escalonamento e generalização de tarefas zero-shot. Liberamos todos os modelos e códigos para promover a exploração de modelos AR/VAR para geração visual e aprendizado unificado.
O raciocínio algorítmico refere-se à capacidade de compreender os padrões complexos por trás de um problema e decompô-los em uma sequência de etapas de raciocínio que levam à solução. Essa natureza do raciocínio algorítmico o torna um desafio para grandes modelos de linguagem (LLMs), mesmo que eles tenham demonstrado desempenho promissor em outras tarefas de raciocínio. Nesse contexto, alguns estudos recentes utilizam linguagens de programação (por exemplo, Python) para expressar a lógica necessária para resolver uma instância/pergunta específica (por exemplo, Program-of-Thought), inspirados por suas sintaxes rigorosas e precisas. No entanto, não é trivial escrever um código executável que expresse a lógica correta de forma imediata em uma única chamada de inferência. Além disso, o código gerado especificamente para uma instância não pode ser reutilizado para outras, mesmo que sejam da mesma tarefa e possam exigir lógica idêntica para serem resolvidas. Este artigo apresenta o Think-and-Execute, uma estrutura inovadora que decompõe o processo de raciocínio dos modelos de linguagem em duas etapas. (1) No Think, descobrimos uma lógica em nível de tarefa que é compartilhada por todas as instâncias para resolver uma determinada tarefa e, em seguida, expressamos essa lógica em pseudocódigo; (2) No Execute, adaptamos ainda mais o pseudocódigo gerado para cada instância e simulamos a execução do código. Com experimentos extensos em sete tarefas de raciocínio algorítmico, demonstramos a eficácia do Think-and-Execute. Nossa abordagem melhora significativamente o raciocínio dos LLMs em comparação com várias linhas de base fortes que realizam raciocínio específico para instâncias (por exemplo, CoT e PoT), sugerindo a utilidade de descobrir a lógica em nível de tarefa. Além disso, mostramos que, em comparação com a linguagem natural, o pseudocódigo pode orientar melhor o raciocínio dos LLMs, mesmo que eles sejam treinados para seguir instruções em linguagem natural.
Os grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) têm demonstrado um excelente domínio da linguagem humana, mas ainda enfrentam dificuldades em aplicações do mundo real que exigem resolução de problemas matemáticos. Embora muitas estratégias e conjuntos de dados para aprimorar a capacidade matemática dos LLMs tenham sido desenvolvidos, ainda é um desafio manter e melhorar simultaneamente tanto as capacidades linguísticas quanto as matemáticas em sistemas LLMs implantados. Neste trabalho, adaptamos o pipeline de *Self-Critique*, que aborda o desafio na etapa de aprendizado por feedback do alinhamento de LLMs. Primeiro, treinamos um modelo geral de *Math-Critique* a partir do próprio LLM para fornecer sinais de feedback. Em seguida, empregamos sequencialmente o ajuste fino rejeitivo e a otimização de preferência direta sobre as gerações do próprio LLM para coleta de dados. Com base no ChatGLM3-32B, realizamos uma série de experimentos tanto em conjuntos de dados acadêmicos quanto em nosso novo conjunto de dados desafiador, o MathUserEval. Os resultados mostram que nosso pipeline melhora significativamente a capacidade de resolução de problemas matemáticos do LLM, ao mesmo tempo em que aprimora sua habilidade linguística, superando LLMs que podem ser duas vezes maiores. Técnicas relacionadas foram implantadas no ChatGLM\url{https://chatglm.cn}, um LLM em serviço online. O conjunto de dados de avaliação e os scripts relacionados estão disponíveis em https://github.com/THUDM/ChatGLM-Math.
Modelos baseados em difusão que dispensam ajustes finos têm demonstrado um potencial significativo no âmbito da personalização e customização de imagens. No entanto, apesar desse progresso notável, os modelos atuais continuam a enfrentar diversos desafios complexos na geração de imagens com consistência de estilo. Em primeiro lugar, o conceito de estilo é intrinsecamente subdeterminado, abrangendo uma multiplicidade de elementos, como cor, material, atmosfera, design e estrutura, entre outros. Em segundo lugar, métodos baseados em inversão são propensos à degradação de estilo, frequentemente resultando na perda de detalhes refinados. Por fim, abordagens baseadas em adaptadores geralmente exigem um ajuste meticuloso de pesos para cada imagem de referência, a fim de alcançar um equilíbrio entre a intensidade do estilo e a controlabilidade textual. Neste artigo, começamos examinando várias observações convincentes, porém frequentemente negligenciadas. Em seguida, apresentamos o InstantStyle, um framework projetado para abordar essas questões por meio da implementação de duas estratégias principais: 1) Um mecanismo simples que desacopla estilo e conteúdo de imagens de referência no espaço de características, baseado na premissa de que características dentro do mesmo espaço podem ser somadas ou subtraídas umas das outras. 2) A injeção de características da imagem de referência exclusivamente em blocos específicos de estilo, prevenindo assim vazamentos de estilo e eliminando a necessidade de ajustes de peso complicados, que frequentemente caracterizam designs mais pesados em parâmetros. Nosso trabalho demonstra resultados superiores de estilização visual, alcançando um equilíbrio ideal entre a intensidade do estilo e a controlabilidade dos elementos textuais. Nossos códigos estarão disponíveis em https://github.com/InstantStyle/InstantStyle.
A ampliação do tamanho dos modelos e dos conjuntos de dados tem sido bastante bem-sucedida para a evolução dos LLMs (Modelos de Linguagem de Grande Escala). No entanto, a lei de escalonamento para modelos de texto para imagem (T2I) baseados em difusão ainda não foi totalmente explorada. Também não está claro como escalonar o modelo de forma eficiente para obter melhor desempenho com custo reduzido. As diferentes configurações de treinamento e o alto custo do processo tornam extremamente difícil uma comparação justa entre modelos. Neste trabalho, estudamos empiricamente as propriedades de escalonamento dos modelos T2I baseados em difusão, realizando extensas e rigorosas ablações no escalonamento tanto das arquiteturas de desruído quanto dos conjuntos de treinamento, incluindo o treinamento de variantes escalonadas de UNet e Transformer com parâmetros variando de 0,4B a 4B em conjuntos de dados de até 600M de imagens. Para o escalonamento de modelos, descobrimos que a localização e a quantidade de atenção cruzada distinguem o desempenho dos designs de UNet existentes. Além disso, aumentar o número de blocos de transformer é mais eficiente em termos de parâmetros para melhorar o alinhamento texto-imagem do que aumentar o número de canais. Identificamos então uma variante eficiente de UNet, que é 45% menor e 28% mais rápida que a UNet do SDXL. No lado do escalonamento de dados, mostramos que a qualidade e a diversidade do conjunto de treinamento importam mais do que simplesmente o tamanho do conjunto de dados. Aumentar a densidade e a diversidade das legendas melhora o desempenho do alinhamento texto-imagem e a eficiência de aprendizado. Por fim, fornecemos funções de escalonamento para prever o desempenho do alinhamento texto-imagem como funções da escala do tamanho do modelo, do poder computacional e do tamanho do conjunto de dados.
Este estudo explora o papel da atenção cruzada durante a inferência em modelos de difusão condicionados por texto. Descobrimos que as saídas da atenção cruzada convergem para um ponto fixo após poucos passos de inferência. Consequentemente, o momento da convergência naturalmente divide todo o processo de inferência em dois estágios: um estágio inicial de planejamento semântico, durante o qual o modelo depende da atenção cruzada para planejar semânticas visuais orientadas pelo texto, e um estágio subsequente de melhoria de fidelidade, durante o qual o modelo tenta gerar imagens a partir das semânticas previamente planejadas. Surpreendentemente, ignorar as condições de texto no estágio de melhoria de fidelidade não apenas reduz a complexidade computacional, mas também mantém o desempenho do modelo. Isso resulta em um método simples e livre de treinamento chamado TGATE para geração eficiente, que armazena em cache a saída da atenção cruzada assim que ela converge e a mantém fixa durante os passos restantes de inferência. Nosso estudo empírico no conjunto de validação do MS-COCO confirma sua eficácia. O código-fonte do TGATE está disponível em https://github.com/HaozheLiu-ST/T-GATE.
Este artigo possibilita a edição de NeRF de alta fidelidade e transferível por meio de decomposição de frequência. Os pipelines recentes de edição de NeRF elevam resultados de estilização 2D para cenas 3D, mas sofrem com resultados borrados e falham em capturar estruturas detalhadas devido à inconsistência entre as edições 2D. Nossa percepção crítica é que os componentes de baixa frequência das imagens são mais consistentes em múltiplas visualizações após a edição em comparação com suas partes de alta frequência. Além disso, o estilo de aparência é principalmente exibido nos componentes de baixa frequência, enquanto os detalhes de conteúdo residem especialmente nas partes de alta frequência. Isso nos motiva a realizar a edição nos componentes de baixa frequência, resultando em cenas editadas de alta fidelidade. Adicionalmente, a edição é realizada no espaço de características de baixa frequência, permitindo controle estável de intensidade e transferência de cenas inéditas. Experimentos abrangentes conduzidos em conjuntos de dados foto-realísticos demonstram o desempenho superior da edição de NeRF de alta fidelidade e transferível. A página do projeto está em https://aigc3d.github.io/freditor.