Artigos de pesquisa em IA selecionados diariamente com traduções
A arquitetura Transformer possui dois principais componentes não relacionados a embeddings: o Mecanismo de Atenção e a Rede Feed Forward (FFN). O Mecanismo de Atenção captura interdependências entre as palavras, independentemente de suas posições, enquanto a FFN transforma de forma não linear cada token de entrada de maneira independente. Neste trabalho, exploramos o papel da FFN e descobrimos que, apesar de ocupar uma fração significativa dos parâmetros do modelo, ela é altamente redundante. Concretamente, conseguimos reduzir substancialmente o número de parâmetros com apenas uma modesta queda na precisão, removendo a FFN das camadas do decodificador e compartilhando uma única FFN no codificador. Por fim, escalamos essa arquitetura de volta ao seu tamanho original, aumentando a dimensão oculta da FFN compartilhada, alcançando ganhos substanciais tanto em precisão quanto em latência em relação ao Transformer Big original.
GANs 3D animáveis anteriores para geração de humanos focaram principalmente ou na cabeça ou no corpo inteiro. No entanto, vídeos apenas da cabeça são relativamente incomuns na vida real, e a geração do corpo inteiro geralmente não lida com o controle de expressões faciais e ainda enfrenta desafios na geração de resultados de alta qualidade. Visando avatares de vídeo aplicáveis, apresentamos uma GAN 3D animável que gera imagens de retrato com controle de expressão facial, pose da cabeça e movimentos dos ombros. É um modelo generativo treinado em coleções de imagens 2D não estruturadas sem o uso de dados 3D ou de vídeo. Para a nova tarefa, baseamos nosso método na representação de variedade de radiância generativa e a equipamos com deformações faciais e cabeça-ombros aprendíveis. Um esquema de renderização com câmera dupla e aprendizado adversário é proposto para melhorar a qualidade das faces geradas, o que é crítico para imagens de retrato. Uma rede de processamento de deformação de pose é desenvolvida para gerar deformações plausíveis em regiões desafiadoras, como cabelos longos. Experimentos mostram que nosso método, treinado em imagens 2D não estruturadas, pode gerar retratos 3D diversos e de alta qualidade com controle desejado sobre diferentes propriedades.
Modelos de linguagem de grande escala (LLMs) demonstraram recentemente capacidades notáveis para compreender intenções humanas, engajar-se em raciocínio e projetar comportamentos semelhantes a planejamento. Para liberar ainda mais o poder dos LLMs na realização de tarefas complexas, há uma tendência crescente de construir frameworks de agentes que equipam LLMs, como o ChatGPT, com habilidades de uso de ferramentas para se conectar a APIs externas massivas. Neste trabalho, apresentamos o ModelScope-Agent, um framework de agente geral e personalizável para aplicações do mundo real, baseado em LLMs de código aberto como controladores. Ele fornece uma biblioteca de sistema amigável ao usuário, com design de motor personalizável para suportar o treinamento de modelos em múltiplos LLMs de código aberto, ao mesmo tempo em que permite a integração perfeita com APIs de modelos e APIs comuns de forma unificada. Para equipar os LLMs com habilidades de uso de ferramentas, foi proposto um framework abrangente que abrange coleta de dados de uso de ferramentas, recuperação de ferramentas, registro de ferramentas, controle de memória, treinamento de modelos personalizados e avaliação para aplicações práticas do mundo real. Por fim, apresentamos o ModelScopeGPT, um assistente inteligente do mundo real da Comunidade ModelScope baseado no framework ModelScope-Agent, que é capaz de conectar LLMs de código aberto com mais de 1000 modelos de IA públicos e conhecimento localizado da comunidade no ModelScope. A biblioteca ModelScope-Agent https://github.com/modelscope/modelscope-agent e a demonstração online https://modelscope.cn/studios/damo/ModelScopeGPT/summary estão agora publicamente disponíveis.
A reconstrução de materiais a partir de uma fotografia é um componente fundamental para a democratização da criação de conteúdo 3D. Propomos formular esse problema mal definido como uma síntese controlada, aproveitando os recentes avanços em redes neurais profundas generativas. Apresentamos o ControlMat, um método que, dada uma única fotografia com iluminação não controlada como entrada, condiciona um modelo de difusão para gerar materiais digitais plausíveis, repetíveis, de alta resolução e baseados em física. Analisamos cuidadosamente o comportamento dos modelos de difusão para saídas multicanal, adaptamos o processo de amostragem para fundir informações em múltiplas escalas e introduzimos a difusão enrolada para permitir tanto a repetibilidade quanto a difusão em patches para saídas de alta resolução. Nossa abordagem generativa ainda permite a exploração de uma variedade de materiais que poderiam corresponder à imagem de entrada, mitigando as condições de iluminação desconhecidas. Demonstramos que nossa abordagem supera métodos recentes de inferência e otimização no espaço latente, e validamos cuidadosamente as escolhas de design do nosso processo de difusão. Materiais suplementares e detalhes adicionais estão disponíveis em: https://gvecchio.com/controlmat/.
O Aprendizado por Reforço com Feedback Humano (RLHF) revolucionou a modelagem de linguagem ao alinhar modelos com as preferências humanas. No entanto, a etapa de RL, o Proximal Policy Optimization (PPO), requer mais de 3 vezes a memória do Ajuste Fino Supervisionado (SFT), tornando-o inviável para a maioria dos profissionais. Para resolver esse problema, apresentamos uma análise abrangente do uso de memória, desempenho e tempo de treinamento de técnicas de economia de memória para o PPO. Introduzimos o Hydra-RLHF, primeiro integrando os modelos SFT e de Recompensa e, em seguida, desativando dinamicamente o LoRA durante o treinamento. Nossos experimentos mostram: 1. O uso do LoRA durante o PPO reduz seu uso de memória para menos que o SFT, enquanto melhora o alinhamento em quatro benchmarks públicos, e 2. O Hydra-PPO reduz a latência por amostra do LoRA-PPO em até 65%, mantendo seu desempenho. Nossos resultados demonstram que o Hydra-PPO é uma solução simples e promissora para permitir um uso mais amplo do RLHF.
A fala transmite mais informações do que apenas texto, pois a mesma palavra pode ser pronunciada em diversas vozes para transmitir informações variadas. Em comparação com os métodos tradicionais de conversão de texto em fala (TTS) que dependem de prompts de fala (fala de referência) para variabilidade de voz, o uso de prompts de texto (descrições) é mais amigável ao usuário, já que os prompts de fala podem ser difíceis de encontrar ou podem nem existir. As abordagens de TTS baseadas em prompts de texto enfrentam dois desafios: 1) o problema de um-para-muitos, onde nem todos os detalhes sobre a variabilidade de voz podem ser descritos no prompt de texto, e 2) a disponibilidade limitada de conjuntos de dados de prompts de texto, onde são necessários fornecedores e um alto custo de rotulagem de dados para escrever prompts de texto para fala. Neste trabalho, apresentamos o PromptTTS 2 para abordar esses desafios com uma rede de variação para fornecer informações de variabilidade de voz não capturadas pelos prompts de texto, e um pipeline de geração de prompts para utilizar modelos de linguagem de grande escala (LLM) para compor prompts de texto de alta qualidade. Especificamente, a rede de variação prevê a representação extraída da fala de referência (que contém todas as informações sobre a voz) com base na representação do prompt de texto. Para o pipeline de geração de prompts, ele gera prompts de texto para fala com um modelo de compreensão de fala para reconhecer atributos de voz (por exemplo, gênero, velocidade) a partir da fala e um modelo de linguagem de grande escala para formular o prompt de texto com base nos resultados do reconhecimento. Experimentos em um conjunto de dados de fala em larga escala (44 mil horas) demonstram que, em comparação com trabalhos anteriores, o PromptTTS 2 gera vozes mais consistentes com os prompts de texto e suporta a amostragem de diversas variabilidades de voz, oferecendo aos usuários mais opções na geração de voz. Além disso, o pipeline de geração de prompts produz prompts de alta qualidade, eliminando o alto custo de rotulagem. A página de demonstração do PromptTTS 2 está disponível online em https://speechresearch.github.io/prompttts2.
O video outpainting visa preencher adequadamente áreas ausentes nas bordas de quadros de vídeo. Em comparação com o image outpainting, ele apresenta um desafio adicional, pois o modelo deve manter a consistência temporal da área preenchida. Neste artigo, introduzimos um modelo de difusão 3D mascarado para video outpainting. Utilizamos a técnica de modelagem de máscara para treinar o modelo de difusão 3D. Isso nos permite usar múltiplos quadros de referência para conectar os resultados de múltiplas inferências de clipes de vídeo, garantindo assim a consistência temporal e reduzindo o tremor entre quadros adjacentes. Paralelamente, extraímos os quadros globais do vídeo como prompts e guiamos o modelo para obter informações além do clipe de vídeo atual usando atenção cruzada. Também introduzimos um pipeline de inferência híbrido de granularidade grossa para fina para aliviar o problema de acúmulo de artefatos. O pipeline existente de granularidade grossa para fina utiliza apenas a estratégia de preenchimento, o que causa degradação devido ao intervalo de tempo dos quadros esparsos ser muito grande. Nosso pipeline se beneficia do aprendizado bidirecional da modelagem de máscara e, portanto, pode empregar uma estratégia híbrida de preenchimento e interpolação ao gerar quadros esparsos. Experimentos mostram que nosso método alcança resultados de ponta em tarefas de video outpainting. Mais resultados são fornecidos em nosso https://fanfanda.github.io/M3DDM/.
Este artigo apresenta um método livre de LoRA para geração de imagens estilizadas que utiliza um prompt de texto e imagens de referência de estilo como entradas e produz uma imagem de saída em uma única passagem. Diferente dos métodos existentes que dependem do treinamento de um LoRA separado para cada estilo, nosso método pode se adaptar a diversos estilos com um modelo unificado. No entanto, isso apresenta dois desafios: 1) o prompt perde a capacidade de controle sobre o conteúdo gerado, e 2) a imagem de saída herda tanto as características semânticas quanto as de estilo da imagem de referência, comprometendo sua fidelidade de conteúdo. Para abordar esses desafios, introduzimos o StyleAdapter, um modelo que compreende dois componentes: um módulo de atenção cruzada de dois caminhos (TPCA) e três estratégias de desacoplamento. Esses componentes permitem que nosso modelo processe o prompt e as características de referência de estilo separadamente e reduza o forte acoplamento entre as informações semânticas e de estilo nas referências de estilo. O StyleAdapter pode gerar imagens de alta qualidade que correspondem ao conteúdo dos prompts e adotam o estilo das referências (mesmo para estilos não vistos) em uma única passagem, o que é mais flexível e eficiente do que os métodos anteriores. Experimentos foram conduzidos para demonstrar a superioridade do nosso método em relação aos trabalhos anteriores.
Consideramos a tarefa de desambiguação visual de determinar se um par de imagens visualmente semelhantes retrata a mesma superfície 3D ou superfícies distintas (por exemplo, o mesmo lado ou lados opostos de um edifício simétrico). Correspondências ilusórias de imagens, onde duas imagens observam superfícies 3D distintas, mas visualmente semelhantes, podem ser desafiadoras para humanos diferenciarem e também podem levar algoritmos de reconstrução 3D a produzir resultados errôneos. Propomos uma abordagem baseada em aprendizado para a desambiguação visual, formulando-a como uma tarefa de classificação binária em pares de imagens. Para isso, introduzimos um novo conjunto de dados para esse problema, chamado Doppelgangers, que inclui pares de imagens de estruturas semelhantes com rótulos de verdade fundamental. Também projetamos uma arquitetura de rede que utiliza a distribuição espacial de pontos-chave locais e correspondências como entrada, permitindo um melhor raciocínio sobre pistas locais e globais. Nossa avaliação mostra que nosso método pode distinguir correspondências ilusórias em casos difíceis e pode ser integrado em pipelines de SfM para produzir reconstruções 3D corretas e desambiguadas. Consulte nossa página do projeto para obter nosso código, conjuntos de dados e mais resultados: http://doppelgangers-3d.github.io/.
Apresentamos o Contrastive Feature Masking Vision Transformer (CFM-ViT) - uma metodologia de pré-treinamento de imagem-texto que alcança a aprendizagem simultânea de representações em nível de imagem e de região para detecção de objetos de vocabulário aberto (OVD). Nossa abordagem combina o objetivo do autoencoder mascarado (MAE) com o objetivo de aprendizagem contrastiva para melhorar a representação em tarefas de localização. Diferentemente do MAE padrão, realizamos a reconstrução no espaço de incorporação conjunta de imagem-texto, em vez do espaço de pixels, como é comum no método MAE clássico, o que faz com que o modelo aprenda melhor a semântica em nível de região. Além disso, introduzimos o Positional Embedding Dropout (PED) para lidar com a variação de escala entre o pré-treinamento de imagem-texto e o ajuste fino de detecção, descartando aleatoriamente as incorporações posicionais durante o pré-treinamento. O PED melhora o desempenho de detecção e permite o uso de um backbone ViT congelado como classificador de região, evitando o esquecimento do conhecimento de vocabulário aberto durante o ajuste fino de detecção. No benchmark de detecção de vocabulário aberto LVIS, o CFM-ViT alcança um estado da arte de 33,9 APr, superando a melhor abordagem em 7,6 pontos e obtendo uma melhor transferência de detecção zero-shot. Por fim, o CFM-ViT adquire uma forte representação em nível de imagem, superando o estado da arte em 8 de 12 métricas em benchmarks de recuperação de imagem-texto zero-shot.
Desenvolvimentos arquitetônicos recentes permitiram que redes neurais recorrentes (RNNs) alcançassem e até superassem o desempenho dos Transformers em certas tarefas de modelagem de sequências. Essas RNNs modernas apresentam um padrão de design proeminente: camadas recorrentes lineares interconectadas por caminhos feedforward com portas multiplicativas. Aqui, mostramos como RNNs equipadas com esses dois elementos de design podem implementar exatamente a autoatenção (linear), o principal bloco de construção dos Transformers. Ao fazer engenharia reversa de um conjunto de RNNs treinadas, descobrimos que o gradiente descendente, na prática, encontra nossa construção. Em particular, examinamos RNNs treinadas para resolver tarefas simples de aprendizado em contexto, nas quais os Transformers são conhecidos por se destacar, e descobrimos que o gradiente descendente instila em nossas RNNs o mesmo algoritmo de aprendizado em contexto baseado em atenção usado pelos Transformers. Nossas descobertas destacam a importância das interações multiplicativas em redes neurais e sugerem que certas RNNs podem estar, inesperadamente, implementando atenção sob o capô.
Este artigo aborda o problema de modificar a aparência visual de vídeos enquanto preserva seu movimento. Um novo framework, denominado MagicProp, é proposto, o qual desacopla o processo de edição de vídeo em dois estágios: edição de aparência e propagação de aparência com consciência de movimento. No primeiro estágio, o MagicProp seleciona um único quadro do vídeo de entrada e aplica técnicas de edição de imagem para modificar o conteúdo e/ou o estilo do quadro. A flexibilidade dessas técnicas permite a edição de regiões arbitrárias dentro do quadro. No segundo estágio, o MagicProp utiliza o quadro editado como referência de aparência e gera os quadros restantes usando uma abordagem de renderização autoregressiva. Para isso, um modelo de geração condicional baseado em difusão, chamado PropDPM, é desenvolvido, o qual sintetiza o quadro alvo condicionando-se na aparência de referência, no movimento alvo e na aparência anterior. A abordagem de edição autoregressiva garante consistência temporal nos vídeos resultantes. No geral, o MagicProp combina a flexibilidade das técnicas de edição de imagem com a superior consistência temporal da modelagem autoregressiva, permitindo a edição flexível de tipos de objetos e estilos estéticos em regiões arbitrárias de vídeos de entrada, mantendo uma boa consistência temporal entre os quadros. Experimentações extensas em diversos cenários de edição de vídeo demonstram a efetividade do MagicProp.
Este artigo apresenta uma abordagem para aprender a resolver problemas de satisfação de restrições contínuas (CCSP) no raciocínio e planejamento robóticos. Métodos anteriores dependem principalmente da engenharia manual ou da aprendizagem de geradores para tipos específicos de restrições, rejeitando as atribuições de valores quando outras restrições são violadas. Em contraste, nosso modelo, o solucionador de restrições contínuas por difusão composicional (Diffusion-CCSP), deriva soluções globais para CCSPs representando-os como grafos de fatores e combinando as energias de modelos de difusão treinados para amostrar tipos individuais de restrições. O Diffusion-CCSP exibe uma forte generalização para novas combinações de restrições conhecidas e pode ser integrado a um planejador de tarefas e movimentos para elaborar planos de longo prazo que incluem ações com parâmetros discretos e contínuos. Site do projeto: https://diffusion-ccsp.github.io/
O design inverso refere-se ao problema de otimizar a entrada de uma função objetivo para alcançar um resultado desejado. Em muitos problemas de engenharia do mundo real, a função objetivo assume a forma de um simulador que prevê como o estado do sistema evoluirá ao longo do tempo, e o desafio de design é otimizar as condições iniciais que levam a um resultado almejado. Desenvolvimentos recentes em simulação aprendida mostraram que redes neurais em grafos (GNNs) podem ser usadas para estimativas precisas, eficientes e diferenciáveis da dinâmica do simulador, além de suportar otimização de design de alta qualidade com procedimentos de otimização baseados em gradientes ou amostragem. No entanto, otimizar designs do zero requer muitas consultas caras ao modelo, e esses procedimentos apresentam falhas básicas em problemas não convexos ou de alta dimensionalidade. Neste trabalho, mostramos como modelos de difusão de remoção de ruído (DDMs) podem ser usados para resolver problemas de design inverso de forma eficiente e propomos um algoritmo de amostragem de partículas para melhorar ainda mais sua eficiência. Realizamos experimentos em vários desafios de design em dinâmica de fluidos e descobrimos que nossa abordagem reduz substancialmente o número de chamadas ao simulador em comparação com técnicas padrão.
Muitas tarefas de manipulação do mundo real consistem em uma série de subtarefas que são significativamente diferentes entre si. Essas tarefas complexas de longo horizonte destacam o potencial das mãos hábeis, que possuem adaptabilidade e versatilidade, sendo capazes de transitar de forma contínua entre diferentes modos de funcionalidade sem a necessidade de reajustar o agarramento ou utilizar ferramentas externas. No entanto, os desafios surgem devido ao espaço de ação de alta dimensionalidade da mão hábil e à dinâmica composicional complexa das tarefas de longo horizonte. Apresentamos o Sequential Dexterity, um sistema geral baseado em aprendizado por reforço (RL) que encadeia múltiplas políticas hábeis para alcançar objetivos de tarefas de longo horizonte. O núcleo do sistema é uma função de viabilidade de transição que ajusta progressivamente as subpolíticas para aumentar a taxa de sucesso no encadeamento, ao mesmo tempo que permite a troca autônoma de políticas para recuperação de falhas e a superação de estágios redundantes. Apesar de ter sido treinado apenas em simulação com alguns objetos de tarefa, nosso sistema demonstra capacidade de generalização para novas formas de objetos e é capaz de transferir de forma zero-shot para um robô do mundo real equipado com uma mão hábil. Mais detalhes e resultados em vídeo podem ser encontrados em https://sequential-dexterity.github.io.