Artigos de pesquisa em IA selecionados diariamente com traduções
Descobrimos que os cronogramas de ruído comuns em difusão não garantem que o último passo temporal tenha uma razão sinal-ruído (SNR) zero, e algumas implementações de amostradores de difusão não começam a partir do último passo temporal. Esses projetos são falhos e não refletem o fato de que o modelo recebe ruído gaussiano puro durante a inferência, criando uma discrepância entre o treinamento e a inferência. Mostramos que o projeto falho causa problemas reais em implementações existentes. No Stable Diffusion, ele limita severamente o modelo a gerar apenas imagens com brilho médio e impede a geração de amostras muito claras ou escuras. Propomos algumas correções simples: (1) redimensionar o cronograma de ruído para garantir SNR terminal zero; (2) treinar o modelo com predição de v; (3) alterar o amostrador para sempre começar a partir do último passo temporal; (4) redimensionar a orientação livre de classificador para evitar superexposição. Essas mudanças simples garantem que o processo de difusão seja congruente entre treinamento e inferência e permitem que o modelo gere amostras mais fiéis à distribuição original dos dados.
Neste artigo, apresentamos o FitMe, um modelo de reflectância facial e um pipeline de otimização de renderização diferenciável, que pode ser utilizado para adquirir avatares humanos renderizáveis de alta fidelidade a partir de uma ou múltiplas imagens. O modelo consiste em um gerador baseado em estilo multimodal, que captura a aparência facial em termos de reflectância difusa e especular, e um modelo de forma baseado em PCA. Empregamos um processo de renderização diferenciável rápido que pode ser usado em um pipeline de otimização, ao mesmo tempo em que alcança sombreamento facial fotorrealista. Nosso processo de otimização captura com precisão tanto a reflectância quanto a forma facial em alto detalhe, explorando a expressividade da representação latente baseada em estilo e do nosso modelo de forma. O FitMe alcança a aquisição de reflectância e preservação de identidade de última geração em imagens faciais únicas "in-the-wild", enquanto produz resultados impressionantes semelhantes a escaneamentos quando recebe múltiplas imagens faciais não restritas pertencentes à mesma identidade. Em contraste com reconstruções recentes de avatares implícitos, o FitMe requer apenas um minuto e produz avatares reluzentes baseados em malha e textura, que podem ser utilizados por aplicações de usuário final.
Determinar automaticamente se um texto e uma imagem correspondente estão semanticamente alinhados é um desafio significativo para modelos de visão e linguagem, com aplicações em tarefas generativas de texto-para-imagem e imagem-para-texto. Neste trabalho, estudamos métodos para avaliação automática do alinhamento texto-imagem. Primeiro, apresentamos o SeeTRUE: um conjunto de avaliação abrangente, abrangendo múltiplos conjuntos de dados de tarefas de geração de texto-para-imagem e imagem-para-texto, com julgamentos humanos sobre se um determinado par texto-imagem está semanticamente alinhado. Em seguida, descrevemos dois métodos automáticos para determinar o alinhamento: o primeiro envolvendo um pipeline baseado em geração de perguntas e modelos de resposta a perguntas visuais, e o segundo empregando uma abordagem de classificação de ponta a ponta por meio do ajuste fino de modelos pré-treinados multimodais. Ambos os métodos superam abordagens anteriores em várias tarefas de alinhamento texto-imagem, com melhorias significativas em casos desafiadores que envolvem composição complexa ou imagens não naturais. Por fim, demonstramos como nossas abordagens podem localizar desalinhamentos específicos entre uma imagem e um texto dado, e como podem ser usadas para reclassificar automaticamente candidatos na geração de texto-para-imagem.
Os seres humanos podem facilmente compreender uma única imagem como representando múltiplos objetos potenciais que permitem interação. Utilizamos essa habilidade para planejar nossas interações com o mundo e acelerar a compreensão de novos objetos sem precisar engajar em interações. Neste artigo, gostaríamos de dotar as máquinas com uma habilidade similar, para que agentes inteligentes possam explorar melhor a cena 3D ou manipular objetos. Nossa abordagem é um modelo baseado em transformers que prevê a localização 3D, propriedades físicas e affordances dos objetos. Para alimentar esse modelo, coletamos um conjunto de dados com vídeos da internet, vídeos egocêntricos e imagens de ambientes internos para treinar e validar nossa abordagem. Nosso modelo apresenta um desempenho robusto em nossos dados e generaliza bem para dados de robótica.
Os modelos de difusão se destacam na geração de imagens a partir de texto, especialmente na geração orientada por sujeitos para imagens personalizadas. No entanto, os métodos existentes são ineficientes devido ao ajuste fino específico para cada sujeito, que é computacionalmente intensivo e dificulta a implantação eficiente. Além disso, os métodos atuais enfrentam dificuldades na geração de múltiplos sujeitos, pois frequentemente misturam características entre eles. Apresentamos o FastComposer, que permite a geração eficiente, personalizada e de múltiplos sujeitos de imagens a partir de texto sem a necessidade de ajuste fino. O FastComposer utiliza embeddings de sujeitos extraídos por um codificador de imagem para aumentar o condicionamento textual genérico em modelos de difusão, permitindo a geração de imagens personalizadas com base em imagens de sujeitos e instruções textuais apenas com passagens diretas. Para resolver o problema de mistura de identidades na geração de múltiplos sujeitos, o FastComposer propõe a supervisão de localização de atenção cruzada durante o treinamento, forçando a atenção dos sujeitos de referência a se localizar nas regiões corretas das imagens alvo. O condicionamento direto em embeddings de sujeitos resulta em sobreajuste. O FastComposer propõe o condicionamento atrasado de sujeitos na etapa de remoção de ruído para manter tanto a identidade quanto a editabilidade na geração de imagens orientada por sujeitos. O FastComposer gera imagens de múltiplos indivíduos não vistos anteriormente com diferentes estilos, ações e contextos. Ele alcança uma aceleração de 300 a 2500 vezes em comparação com métodos baseados em ajuste fino e não requer armazenamento extra para novos sujeitos. O FastComposer abre caminho para a criação eficiente, personalizada e de alta qualidade de imagens com múltiplos sujeitos. Código, modelo e conjunto de dados estão disponíveis em https://github.com/mit-han-lab/fastcomposer.
A pesquisa em aprendizado contínuo online (OCL) tem se concentrado principalmente em mitigar o esquecimento catastrófico com alocação fixa e limitada de armazenamento ao longo da vida do agente. No entanto, a crescente acessibilidade do armazenamento de dados destaca uma ampla gama de aplicações que não seguem essas premissas. Nesses casos, a principal preocupação reside em gerenciar os gastos computacionais, em vez do armazenamento. Neste artigo, direcionamos nossa atenção para tais cenários, investigando o problema do aprendizado contínuo online ao relaxar as restrições de armazenamento e enfatizar um orçamento econômico fixo e limitado. Apresentamos um algoritmo simples que pode armazenar de forma compacta e utilizar a totalidade do fluxo de dados recebido sob orçamentos computacionais mínimos, utilizando um classificador kNN e extratoras de características pré-treinadas universais. Nosso algoritmo oferece uma propriedade de consistência atraente para o aprendizado contínuo: ele nunca esquecerá os dados vistos anteriormente. Estabelecemos um novo estado da arte em dois grandes conjuntos de dados OCL: Continual LOCalization (CLOC), que possui 39 milhões de imagens em 712 classes, e Continual Google Landmarks V2 (CGLM), que possui 580 mil imagens em 10.788 classes — superando métodos com orçamentos computacionais muito maiores que o nosso, tanto em termos de redução do esquecimento catastrófico de dados passados quanto na rápida adaptação a fluxos de dados em constante mudança. Disponibilizamos o código para reproduzir nossos resultados em https://github.com/drimpossible/ACM.