Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Kandinsky 3.0, um modelo de geração de imagens a partir de texto em larga escala baseado em difusão latente, dando continuidade à série de modelos Kandinsky de texto para imagem e refletindo nosso progresso para alcançar maior qualidade e realismo na geração de imagens. Em comparação com as versões anteriores do Kandinsky 2.x, o Kandinsky 3.0 utiliza uma arquitetura U-Net duas vezes maior, um codificador de texto dez vezes maior e elimina o mapeamento de difusão. Descrevemos a arquitetura do modelo, o procedimento de coleta de dados, a técnica de treinamento e o sistema de produção para interação do usuário. Focamos nos componentes-chave que, conforme identificamos como resultado de um grande número de experimentos, tiveram o impacto mais significativo na melhoria da qualidade do nosso modelo em comparação com os demais. Por meio de nossas comparações lado a lado, o Kandinsky se torna melhor na compreensão de texto e funciona melhor em domínios específicos. Página do projeto: https://ai-forever.github.io/Kandinsky-3
Na síntese de texto para fala (TTS, do inglês Text-to-Speech), os modelos de difusão têm alcançado uma qualidade de geração promissora. No entanto, devido ao processo de difusão pré-definido de dados para ruído, sua distribuição anterior é restrita a uma representação ruidosa, que fornece pouca informação sobre o alvo de geração. Neste trabalho, apresentamos um novo sistema TTS, o Bridge-TTS, que faz a primeira tentativa de substituir o anterior Gaussiano ruidoso em métodos TTS baseados em difusão por um anterior limpo e determinístico, que fornece forte informação estrutural do alvo. Especificamente, aproveitamos a representação latente obtida a partir da entrada de texto como nosso anterior e construímos uma ponte de Schrödinger totalmente tratável entre ela e o mel-espectrograma de referência, resultando em um processo de dados para dados. Além disso, a tratabilidade e flexibilidade de nossa formulação nos permitem estudar empiricamente espaços de design, como cronogramas de ruído, bem como desenvolver amostradores estocásticos e determinísticos. Os resultados experimentais no conjunto de dados LJ-Speech ilustram a eficácia de nosso método em termos de qualidade de síntese e eficiência de amostragem, superando significativamente nossa contraparte de difusão, o Grad-TTS, na síntese de 50 passos/1000 passos, e modelos TTS rápidos e robustos em cenários de poucos passos. Página do projeto: https://bridge-tts.github.io/
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) desempenha um papel essencial na extração de informações valiosas de conteúdo de imagens em diversas tarefas. Ele alinha as modalidades textual e visual para compreender a imagem inteira, incluindo todos os detalhes, mesmo aqueles irrelevantes para tarefas específicas. No entanto, para uma compreensão mais refinada e edição controlada de imagens, torna-se crucial focar em regiões específicas de interesse, que podem ser indicadas como pontos, máscaras ou caixas por humanos ou modelos de percepção. Para atender a esses requisitos, apresentamos o Alpha-CLIP, uma versão aprimorada do CLIP com um canal alfa auxiliar para sugerir regiões atentivas e ajustada com milhões de pares de região-texto RGBA construídos. O Alpha-CLIP não apenas preserva a capacidade de reconhecimento visual do CLIP, mas também permite um controle preciso sobre a ênfase do conteúdo da imagem. Ele demonstra eficácia em várias tarefas, incluindo, mas não se limitando a, reconhecimento de mundo aberto, modelos de linguagem multimodal de grande escala e geração condicional 2D/3D. Ele tem um forte potencial para servir como uma ferramenta versátil para tarefas relacionadas a imagens.
O código fornece uma estrutura sintática geral para construir programas complexos e realizar computações precisas quando combinado com um interpretador de código -- nós hipotetizamos que modelos de linguagem (LMs) podem aproveitar a escrita de código para aprimorar o raciocínio em Cadeia de Pensamento (Chain of Thought) não apenas para tarefas de lógica e aritmética, mas também para tarefas linguísticas (e, em particular, aquelas que são uma mistura de ambas). Por exemplo, considere solicitar a um LM que escreva um código que conte o número de vezes que ele detecta sarcasmo em um ensaio: o LM pode ter dificuldade em escrever uma implementação para "detect_sarcasm(string)" que possa ser executada pelo interpretador (lidar com os casos extremos seria insuperável). No entanto, os LMs ainda podem produzir uma solução válida se forem usados não apenas para escrever o código, mas também para "emular" seletivamente o interpretador, gerando a saída esperada de "detect_sarcasm(string)" e outras linhas de código (por exemplo, que o interpretador não conseguiu compilar). Neste trabalho, propomos a Cadeia de Código (Chain of Code, CoT), uma extensão simples, mas surpreendentemente eficaz, que melhora o raciocínio orientado por código dos LMs. A ideia principal é incentivar os LMs a formatar sub-tarefas linguísticas em um programa como pseudocódigo flexível, onde o compilador pode capturar explicitamente comportamentos indefinidos e repassá-los para simulação com um LM (como um "LMulator"). Experimentos demonstram que a Cadeia de Código supera a Cadeia de Pensamento e outras abordagens de referência em uma variedade de benchmarks; no BIG-Bench Hard, a Cadeia de Código alcança 84%, um ganho de 12% em relação à Cadeia de Pensamento. A CoT escala bem tanto com modelos grandes quanto pequenos e amplia o escopo de questões de raciocínio que os LMs podem responder corretamente ao "pensar em código". Página do projeto: https://chain-of-code.github.io/.
A criação de avatares 3D de cabeça de alta fidelidade sempre foi um tópico de pesquisa relevante, mas ainda há um grande desafio em configurações leves com visões esparsas. Neste artigo, propomos o Gaussian Head Avatar, representado por Gaussians 3D controláveis para a modelagem de avatares de cabeça de alta fidelidade. Otimizamos os Gaussians 3D neutros e um campo de deformação baseado em MLP totalmente aprendido para capturar expressões complexas. As duas partes se beneficiam mutuamente, permitindo que nosso método modele detalhes dinâmicos refinados enquanto garante a precisão das expressões. Além disso, desenvolvemos uma estratégia de inicialização bem projetada, guiada por geometria e baseada em SDF implícito e Deep Marching Tetrahedra, para garantir a estabilidade e convergência do processo de treinamento. Experimentos mostram que nossa abordagem supera outros métodos state-of-the-art de visão esparsa, alcançando qualidade de renderização ultra alta em resolução 2K, mesmo sob expressões exageradas.
Os movimentos em um vídeo consistem principalmente em movimento da câmera, induzido pelo deslocamento da câmera, e movimento de objetos, resultante do deslocamento dos objetos. O controle preciso tanto do movimento da câmera quanto do movimento dos objetos é essencial para a geração de vídeos. No entanto, os trabalhos existentes ou se concentram principalmente em um tipo de movimento ou não distinguem claramente entre os dois, limitando suas capacidades de controle e diversidade. Portanto, este artigo apresenta o MotionCtrl, um controlador de movimento unificado e flexível para geração de vídeos, projetado para controlar de forma eficaz e independente o movimento da câmera e o movimento dos objetos. A arquitetura e a estratégia de treinamento do MotionCtrl são cuidadosamente elaboradas, levando em consideração as propriedades inerentes do movimento da câmera, do movimento dos objetos e dos dados de treinamento imperfeitos. Em comparação com métodos anteriores, o MotionCtrl oferece três vantagens principais: 1) Controla de forma eficaz e independente o movimento da câmera e o movimento dos objetos, permitindo um controle de movimento mais refinado e facilitando combinações flexíveis e diversas de ambos os tipos de movimento. 2) Suas condições de movimento são determinadas por poses e trajetórias da câmera, que são livres de aparência e têm impacto mínimo na aparência ou forma dos objetos nos vídeos gerados. 3) É um modelo relativamente generalizável que pode se adaptar a uma ampla variedade de poses e trajetórias da câmera após o treinamento. Experimentos qualitativos e quantitativos extensivos foram conduzidos para demonstrar a superioridade do MotionCtrl em relação aos métodos existentes.
Este artigo apresenta uma análise aprofundada dos Modelos de Linguagem de Grande Escala (LLMs), com foco no LLaMA, um modelo fundamental de código aberto proeminente no processamento de linguagem natural. Em vez de avaliar o LLaMA por meio de sua saída gerativa, projetamos tarefas de múltipla escolha para investigar sua compreensão intrínseca em tarefas de alta complexidade, como raciocínio e computação. Examinamos o modelo horizontalmente, comparando diferentes tamanhos, e verticalmente, avaliando diferentes camadas. Revelamos várias descobertas importantes e incomuns com base nas tarefas de investigação projetadas: (1) Horizontalmente, aumentar o tamanho dos modelos quase não consegue automaticamente conferir conhecimento adicional ou habilidade computacional. Em vez disso, pode aprimorar habilidades de raciocínio, especialmente na resolução de problemas matemáticos, e ajuda a reduzir alucinações, mas apenas além de certos limiares de tamanho; (2) Na análise vertical, as camadas inferiores do LLaMA carecem de conhecimento aritmético e factual substancial, exibindo pensamento lógico, habilidades multilingues e de reconhecimento, com as camadas superiores abrigando a maior parte do poder computacional e do conhecimento do mundo real.
Recentemente, temos observado progressos significativos na modelagem e renderização foto-realista de humanos. No entanto, a renderização eficiente de performances humanas realistas e sua integração no pipeline de rasterização continua sendo um desafio. Neste artigo, apresentamos o HiFi4G, uma abordagem explícita e compacta baseada em Gaussianas para a renderização de alta fidelidade de performances humanas a partir de gravações densas. Nossa intuição central é combinar a representação de Gaussianas 3D com rastreamento não rígido, alcançando uma representação compacta e favorável à compressão. Primeiro, propomos um mecanismo de duplo grafo para obter priors de movimento, com um grafo de deformação grosseiro para inicialização eficaz e um grafo de Gaussianas refinado para impor restrições subsequentes. Em seguida, utilizamos um esquema de otimização de Gaussianas 4D com regularizadores espaço-temporais adaptativos para equilibrar efetivamente o prior não rígido e a atualização das Gaussianas. Também apresentamos um esquema de compressão complementar com compensação residual para experiências imersivas em diversas plataformas. Isso alcança uma taxa de compressão substancial de aproximadamente 25 vezes, com menos de 2MB de armazenamento por quadro. Experimentos extensivos demonstram a eficácia de nossa abordagem, que supera significativamente as abordagens existentes em termos de velocidade de otimização, qualidade de renderização e sobrecarga de armazenamento.
Propomos o Context Diffusion, um framework baseado em difusão que permite que modelos de geração de imagens aprendam a partir de exemplos visuais apresentados em contexto. Trabalhos recentes abordam esse aprendizado em contexto para geração de imagens, onde uma imagem de consulta é fornecida juntamente com exemplos de contexto e prompts de texto. No entanto, a qualidade e a fidelidade das imagens geradas se deterioram quando o prompt não está presente, demonstrando que esses modelos não são capazes de aprender verdadeiramente com o contexto visual. Para resolver isso, propomos um novo framework que separa a codificação do contexto visual e a preservação da estrutura das imagens de consulta. Isso resulta na capacidade de aprender tanto com o contexto visual e prompts de texto, quanto com apenas um deles. Além disso, capacitamos nosso modelo a lidar com configurações de poucos exemplos (few-shot), para abordar efetivamente diversos cenários de aprendizado em contexto. Nossos experimentos e estudo com usuários demonstram que o Context Diffusion se destaca tanto em tarefas dentro do domínio quanto fora dele, resultando em uma melhoria geral na qualidade e fidelidade das imagens em comparação com modelos concorrentes.
Modelos de linguagem de grande escala (LLMs), como o ChatGPT, têm recebido enorme interesse devido à sua capacidade de compreensão linguística de propósito geral e, em particular, à sua habilidade de gerar texto ou código de computador de alta qualidade. Para muitas profissões, os LLMs representam uma ferramenta inestimável que pode acelerar e melhorar a qualidade do trabalho. Nesta nota, discutimos até que ponto eles podem auxiliar matemáticos profissionais. Primeiro, fornecemos uma descrição matemática do modelo de transformador utilizado em todos os modelos de linguagem modernos. Com base em estudos recentes, delineamos as melhores práticas e potenciais problemas e relatamos as habilidades matemáticas dos modelos de linguagem. Por fim, esclarecemos o potencial dos LLMs para mudar a forma como os matemáticos trabalham.
A edição de vídeo baseada em texto tem recentemente atraído considerável interesse na alteração de estilo ou substituição de objetos com uma estrutura semelhante. Além disso, demonstramos que propriedades como forma, tamanho, localização, movimento, etc., também podem ser editadas em vídeos. Nossa principal percepção é que as transformações de quadros-chave de características internas específicas (por exemplo, mapas de borda de objetos ou pose humana) podem facilmente se propagar para outros quadros, fornecendo orientação para a geração. Assim, propomos o MagicStick, um método de edição de vídeo controlável que edita as propriedades do vídeo utilizando a transformação nos sinais de controle internos extraídos. Em detalhes, para manter a aparência, expandimos tanto o modelo de difusão de imagens pré-treinado quanto o ControlNet para a dimensão temporal e treinamos camadas de adaptação de baixa classificação (LORA) para se ajustar a cenas específicas. Em seguida, na edição, realizamos uma estrutura de inversão e edição. Diferentemente, o ControlNet ajustado é introduzido tanto na inversão quanto na geração para orientação de atenção com a mistura de atenção proposta entre os mapas de atenção espacial da inversão e da edição. Apesar de sucinto, nosso método é o primeiro a mostrar a capacidade de edição de propriedades de vídeo a partir de um modelo pré-treinado de texto para imagem. Apresentamos experimentos em diversos exemplos dentro de nossa estrutura unificada. Também comparamos com a edição baseada em texto consciente da forma e a geração de vídeo de movimento artesanal, demonstrando nossa superior consistência temporal e capacidade de edição em relação a trabalhos anteriores. O código e os modelos serão disponibilizados publicamente.
Este artigo apresenta o Generation Condicionado por Representação (RCG, do inglês Representation-Conditioned image Generation), um framework simples, porém eficaz, para geração de imagens que estabelece um novo padrão na geração de imagens sem condicionamento de classe. O RCG não se baseia em nenhuma anotação humana. Em vez disso, ele se condiciona a uma distribuição de representações auto-supervisionadas, que é mapeada a partir da distribuição de imagens usando um codificador pré-treinado. Durante a geração, o RCG amostra dessa distribuição de representações usando um modelo de difusão de representações (RDM, do inglês Representation Diffusion Model) e emprega um gerador de pixels para criar os pixels da imagem condicionados à representação amostrada. Esse design fornece uma orientação substancial durante o processo generativo, resultando em geração de imagens de alta qualidade. Testado no ImageNet 256×256, o RCG alcança uma Distância de Fréchet Inception (FID) de 3,31 e um Índice Inception (IS) de 253,4. Esses resultados não apenas melhoram significativamente o estado da arte na geração de imagens sem condicionamento de classe, mas também rivalizam com os principais métodos atuais na geração de imagens com condicionamento de classe, reduzindo a longa lacuna de desempenho entre essas duas tarefas. O código está disponível em https://github.com/LTH14/rcg.
Utilizando modelos generativos 2D de grande escala pré-treinados, trabalhos recentes são capazes de gerar novas visões de alta qualidade a partir de uma única imagem capturada em cenários reais. No entanto, devido à falta de informações de múltiplas visões, esses trabalhos enfrentam dificuldades na geração de novas visões controláveis. Neste artigo, apresentamos o DreamComposer, uma estrutura flexível e escalável que pode aprimorar modelos de difusão conscientes da visão existentes, injetando condições de múltiplas visões. Especificamente, o DreamComposer primeiro utiliza um módulo de elevação 3D consciente da visão para obter representações 3D de um objeto a partir de múltiplas visões. Em seguida, ele renderiza as características latentes da visão alvo a partir das representações 3D com o módulo de fusão de características de múltiplas visões. Por fim, as características da visão alvo extraídas das entradas de múltiplas visões são injetadas em um modelo de difusão pré-treinado. Experimentos mostram que o DreamComposer é compatível com modelos de difusão state-of-the-art para síntese de novas visões zero-shot, aprimorando-os ainda mais para gerar imagens de novas visões de alta fidelidade com condições de múltiplas visões, prontas para reconstrução 3D controlável de objetos e várias outras aplicações.
Apresentamos a nova tarefa de gerar Instruções Ilustradas, ou seja, instruções visuais personalizadas de acordo com as necessidades do usuário. Identificamos requisitos específicos para essa tarefa e a formalizamos por meio de um conjunto de métricas de avaliação automáticas e humanas, projetadas para medir a validade, consistência e eficácia das gerações. Combinamos o poder dos grandes modelos de linguagem (LLMs) com modelos de difusão fortes de geração de texto para imagem para propor uma abordagem simples chamada StackedDiffusion, que gera tais instruções ilustradas a partir de um texto de entrada. O modelo resultante supera significativamente abordagens de linha de base e LLMs multimodais de última geração; e, em 30% dos casos, os usuários até preferem as instruções geradas pelo modelo em vez de artigos criados por humanos. Mais notavelmente, ele possibilita diversas aplicações novas e empolgantes que vão muito além do que artigos estáticos na web podem oferecer, como instruções personalizadas completas com etapas intermediárias e imagens em resposta à situação individual do usuário.
Apresentamos o Efficient Monotonic Multihead Attention (EMMA), um modelo de tradução simultânea de última geração com estimativa de alinhamento monotônico numericamente estável e não tendenciosa. Além disso, apresentamos estratégias aprimoradas de treinamento e inferência, incluindo ajuste fino simultâneo a partir de um modelo de tradução offline e redução da variância do alinhamento monotônico. Os resultados experimentais demonstram que o modelo proposto alcança desempenho de última geração na tradução simultânea de fala para texto na tarefa de tradução entre espanhol e inglês.
Campos de radiação neural oferecem qualidade de síntese de visão de última geração, mas tendem a ser lentos para renderizar. Uma razão para isso é que eles utilizam renderização volumétrica, exigindo muitas amostras (e consultas ao modelo) por raio durante a renderização. Embora essa representação seja flexível e fácil de otimizar, a maioria dos objetos do mundo real pode ser modelada de forma mais eficiente com superfícies em vez de volumes, exigindo muito menos amostras por raio. Essa observação impulsionou um progresso considerável em representações de superfície, como funções de distância assinada, mas essas podem ter dificuldade em modelar estruturas semitransparentes e finas. Propomos um método, o HybridNeRF, que aproveita os pontos fortes de ambas as representações, renderizando a maioria dos objetos como superfícies enquanto modela volumetricamente a (geralmente) pequena fração de regiões desafiadoras. Avaliamos o HybridNeRF contra o desafiador conjunto de dados Eyeful Tower, juntamente com outros conjuntos de dados comumente usados para síntese de visão. Ao comparar com baselines de última geração, incluindo abordagens recentes baseadas em rasterização, reduzimos as taxas de erro em 15-30% enquanto alcançamos taxas de quadros em tempo real (pelo menos 36 FPS) para resoluções de realidade virtual (2Kx2K).
A geração de imagens instrucionais de ações humanas diárias a partir de uma perspectiva egocêntrica representa um passo crucial para a transferência eficiente de habilidades. Neste artigo, introduzimos um novo problema -- a geração de quadros de ação egocêntricos. O objetivo é sintetizar o quadro de ação condicionado à pergunta do usuário e a uma imagem egocêntrica de entrada que captura o ambiente do usuário. Notavelmente, os conjuntos de dados egocêntricos existentes carecem de anotações detalhadas que descrevam a execução das ações. Além disso, os modelos de manipulação de imagens baseados em difusão falham em controlar a mudança de estado de uma ação dentro do espaço de pixels correspondente da imagem egocêntrica. Para isso, ajustamos um modelo de linguagem visual de grande escala (VLLM, do inglês Visual Large Language Model) por meio de ajuste fino de instruções visuais para curar descrições de ações enriquecidas que abordem o problema proposto. Além disso, propomos a geração de quadros de ação Learn EGOcentric (LEGO) utilizando embeddings de imagem e texto do VLLM como condicionamento adicional. Validamos nosso modelo proposto em dois conjuntos de dados egocêntricos -- Ego4D e Epic-Kitchens. Nossos experimentos mostram uma melhoria significativa em relação aos modelos anteriores de manipulação de imagens, tanto na avaliação quantitativa quanto na qualitativa. Também realizamos estudos de ablação detalhados e análises para fornecer insights sobre nosso método.