Artigos de pesquisa em IA selecionados diariamente com traduções
O aprendizado contrastivo emergiu como um método transformador para aprender representações visuais eficazes por meio do alinhamento de embeddings de imagem e texto. No entanto, o cálculo de similaridade em pares na função de perda contrastiva entre pares de imagem e texto apresenta desafios computacionais. Este artigo apresenta uma nova abordagem de pré-treinamento fracamente supervisionado de modelos de visão em dados de imagem-texto em escala web. O método proposto reformula o pré-treinamento em dados de imagem-texto como uma tarefa de classificação. Consequentemente, elimina a necessidade de cálculos de similaridade em pares na função de perda contrastiva, alcançando uma aceleração notável de 2,7 vezes na velocidade de treinamento em comparação com o aprendizado contrastivo em dados de escala web. Por meio de extensos experimentos abrangendo diversas tarefas de visão, incluindo detecção e segmentação, demonstramos que o método proposto mantém uma alta qualidade de representação. Nosso código-fonte, juntamente com os pesos dos modelos pré-treinados e as receitas de treinamento, está disponível em https://github.com/apple/corenet.
Propomos o PuLID (Pure and Lightning ID Customization), um novo método de personalização de ID sem ajuste para geração de texto em imagem. Ao incorporar um ramo Lightning T2I com um ramo de difusão padrão, o PuLID introduz tanto uma perda de alinhamento contrastante quanto uma perda de ID precisa, minimizando a interrupção do modelo original e garantindo alta fidelidade de ID. Experimentos mostram que o PuLID alcança desempenho superior tanto em fidelidade de ID quanto em editabilidade. Outra propriedade atraente do PuLID é que os elementos da imagem (por exemplo, fundo, iluminação, composição e estilo) antes e após a inserção do ID são mantidos o mais consistentes possível. Códigos e modelos estarão disponíveis em https://github.com/ToTheBeginning/PuLID.
O sucesso do pré-treinamento contrastivo de linguagem-imagem (CLIP) depende da supervisão proveniente do emparelhamento entre imagens e legendas, que tende a ser ruidoso em dados obtidos da web. Apresentamos o Mixture of Data Experts (MoDE) e aprendemos um sistema de especialistas em dados CLIP por meio de agrupamento. Cada especialista em dados é treinado em um cluster de dados, sendo menos sensível a ruídos de falsos negativos em outros clusters. No momento da inferência, combinamos suas saídas aplicando pesos determinados pela correlação entre metadados da tarefa e condições dos clusters. Para estimar a correlação com precisão, as amostras em um cluster devem ser semanticamente semelhantes, mas o número de especialistas em dados ainda deve ser razoável para treinamento e inferência. Assim, consideramos a ontologia na linguagem humana e propomos usar centros de clusters de granularidade fina para representar cada especialista em dados em um nível de granularidade grossa. Estudos experimentais mostram que quatro especialistas em dados CLIP no ViT-B/16 superam o ViT-L/14 do OpenAI CLIP e do OpenCLIP na classificação de imagens zero-shot, mas com um custo de treinamento menor (<35%). Enquanto isso, o MoDE pode treinar todos os especialistas em dados de forma assíncrona e pode incluir novos especialistas em dados de maneira flexível. O código está disponível em https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
O rápido desenvolvimento dos modelos de difusão tem impulsionado diversas aplicações. A geração de imagens a partir de texto com preservação de identidade (ID-T2I) tem recebido atenção significativa devido à sua ampla gama de cenários de aplicação, como retratos gerados por IA e publicidade. Embora os métodos existentes de ID-T2I tenham demonstrado resultados impressionantes, vários desafios-chave permanecem: (1) É difícil manter com precisão as características de identidade dos retratos de referência, (2) As imagens geradas carecem de apelo estético, especialmente ao impor a retenção de identidade, e (3) Existe uma limitação que não permite compatibilidade simultânea com métodos baseados em LoRA e Adapter. Para abordar essas questões, apresentamos o ID-Aligner, uma estrutura de aprendizado por feedback geral para melhorar o desempenho do ID-T2I. Para resolver a perda de características de identidade, introduzimos o ajuste fino de recompensa de consistência de identidade, utilizando o feedback de modelos de detecção e reconhecimento facial para melhorar a preservação da identidade gerada. Além disso, propomos o ajuste fino de recompensa estética de identidade, aproveitando recompensas de dados de preferência anotados por humanos e feedback automaticamente construído sobre a geração de estrutura de personagens para fornecer sinais de ajuste estético. Graças à sua estrutura universal de ajuste fino por feedback, nosso método pode ser facilmente aplicado a modelos LoRA e Adapter, alcançando ganhos consistentes de desempenho. Experimentos extensivos nos modelos de difusão SD1.5 e SDXL validam a eficácia da nossa abordagem. Página do Projeto: \url{https://idaligner.github.io/}
O surgimento dos modelos de difusão impulsionou significativamente o progresso na geração de imagens e vídeos. Recentemente, alguns esforços foram feitos na geração controlada de vídeos, incluindo a geração de texto para vídeo e o controle de movimento em vídeos, entre os quais o controle de movimento da câmera é um tópico importante. No entanto, os métodos existentes de controle de movimento da câmera dependem do treinamento de um módulo temporal da câmera e exigem recursos computacionais substanciais devido à grande quantidade de parâmetros nos modelos de geração de vídeo. Além disso, os métodos existentes predefinem tipos de movimento da câmera durante o treinamento, o que limita sua flexibilidade no controle da câmera. Portanto, para reduzir os custos de treinamento e alcançar um controle flexível da câmera, propomos o COMD, um novo modelo de transferência de movimento em vídeo sem necessidade de treinamento, que separa os movimentos da câmera e os movimentos dos objetos em vídeos de origem e transfere os movimentos da câmera extraídos para novos vídeos. Primeiro, propomos um método de separação de movimento da câmera em um único vídeo para extrair o movimento da câmera de um único vídeo de origem, que separa os objetos em movimento do fundo e estima o movimento da câmera na região dos objetos em movimento com base no movimento do fundo, resolvendo uma equação de Poisson. Além disso, propomos um método de separação de movimento da câmera com poucos exemplos para extrair o movimento comum da câmera de múltiplos vídeos com movimentos de câmera semelhantes, que emprega uma técnica de agrupamento baseada em janelas para extrair as características comuns nos mapas de atenção temporal de múltiplos vídeos. Por fim, propomos um método de combinação de movimentos para combinar diferentes tipos de movimentos da câmera, permitindo que nosso modelo tenha um controle de câmera mais controlável e flexível. Experimentos extensivos demonstram que nossa abordagem sem necessidade de treinamento pode efetivamente desacoplar o movimento câmera-objeto e aplicar o movimento da câmera desacoplado a uma ampla gama de tarefas de geração controlada de vídeos, alcançando um controle de movimento da câmera flexível e diversificado.
A matização humana é uma tarefa fundamental no processamento de imagens e vídeos, na qual os pixels do primeiro plano humano são extraídos da entrada. Trabalhos anteriores buscam melhorar a precisão por meio de orientações adicionais ou aprimorar a consistência temporal de uma única instância ao longo dos quadros. Propomos um novo framework, o MaGGIe (Masked Guided Gradual Human Instance Matting), que prevê matizes alfa progressivamente para cada instância humana, mantendo o custo computacional, a precisão e a consistência. Nosso método aproveita arquiteturas modernas, incluindo atenção de transformers e convolução esparsa, para gerar todas as matizes de instância simultaneamente sem aumentar excessivamente a memória e a latência. Embora mantenha custos de inferência constantes no cenário de múltiplas instâncias, nosso framework alcança um desempenho robusto e versátil em nossos benchmarks sintetizados propostos. Com benchmarks de matização de imagem e vídeo de maior qualidade, introduzimos uma nova abordagem de síntese de múltiplas instâncias a partir de fontes publicamente disponíveis para aumentar a generalização dos modelos em cenários do mundo real.
Os modelos de difusão têm alcançado avanços significativos em tarefas de síntese guiada por texto. No entanto, a edição de imagens fornecidas pelo usuário continua sendo um desafio, pois o espaço de entrada de ruído de alta dimensionalidade dos modelos de difusão não é naturalmente adequado para inversão de imagem ou edição espacial. Neste trabalho, propomos uma representação de imagem que promove a edição espacial de imagens de entrada usando um modelo de difusão. Concretamente, aprendemos a codificar uma entrada em "elementos de imagem" que podem reconstruir fielmente uma imagem de entrada. Esses elementos podem ser editados intuitivamente por um usuário e são decodificados por um modelo de difusão em imagens realistas. Demonstramos a eficácia de nossa representação em várias tarefas de edição de imagem, como redimensionamento de objetos, rearranjo, arrastar, desoclusão, remoção, variação e composição de imagens. Página do projeto: https://jitengmu.github.io/Editable_Image_Elements/
A decodificação especulativa surgiu como um método poderoso para melhorar a latência e a taxa de transferência na hospedagem de grandes modelos de linguagem. No entanto, a maioria das implementações existentes foca na geração de uma única sequência. Aplicações reais de IA generativa frequentemente exigem múltiplas respostas, e como realizar a decodificação especulativa em um cenário de processamento em lote, preservando seus benefícios de latência, apresenta desafios não triviais. Este artigo descreve um sistema de decodificação especulativa em lote que estabelece um novo estado da arte em latência de geração de múltiplas sequências e demonstra superior utilização da GPU, bem como qualidade de gerações dentro de um limite de tempo. Por exemplo, para um modelo de 7,8B em uma única GPU A100 e com um tamanho de lote de 8, cada sequência é gerada a uma velocidade média de 5,8ms por token, com uma taxa de transferência geral de 1,1K tokens por segundo. Esses resultados representam a latência mais avançada e uma aceleração de 2,15X em relação à decodificação regular otimizada. Dentro de um limite de tempo em que a decodificação regular não consegue terminar, nosso sistema é capaz de gerar sequências com HumanEval Pass@First de 43% e Pass@All de 61%, superando em muito o que é viável com a decodificação especulativa de sequência única. Nossa utilização máxima da GPU durante a decodificação chega a 15,8%, mais de 3X a maior utilização da decodificação regular e cerca de 10X a da decodificação especulativa de sequência única.
Abordagens de aprendizado em contexto (ICL, na sigla em inglês) geralmente utilizam técnicas de _prompting_ para condicionar a geração de modelos de linguagem _decoder-only_ com base em informações de referência. O processamento em tempo real de um contexto é ineficiente devido ao custo quadrático das operações de auto-atenção, tornando o armazenamento em cache desejável. No entanto, o armazenamento em cache dos estados do _transformer_ pode facilmente exigir quase tanto espaço quanto os parâmetros do modelo. Quando o contexto correto não é conhecido antecipadamente, o armazenamento em cache para ICL pode ser desafiador. Este trabalho aborda essas limitações ao introduzir modelos que, inspirados na arquitetura _encoder-decoder_, utilizam atenção cruzada para condicionar a geração em texto de referência sem o uso de _prompts_. Mais precisamente, aproveitamos modelos _decoder-only_ pré-treinados e treinamos apenas um pequeno número de camadas adicionais. Utilizamos tarefas de Pergunta-Resposta (QA) como um ambiente de teste para avaliar a capacidade de nossos modelos de realizar geração condicional e observamos que eles superam o ICL, são comparáveis a LLMs ajustados com _prompts_ e reduzem drasticamente a pegada de espaço em relação ao armazenamento padrão de chave-valor (KV) em duas ordens de magnitude.