HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

15 papers found

Um Único Feedforward Amplo é Tudo que Você Precisa
One Wide Feedforward is All You Need

Sep 4

ByTelmo Pessoa Pires, António V. Lopes, Yannick Assogba, Hendra Setiawan

A arquitetura Transformer possui dois principais componentes não relacionados a embeddings: o Mecanismo de Atenção e a Rede Feed Forward (FFN). O Mecanismo de Atenção captura interdependências entre as palavras, independentemente de suas posições, enquanto a FFN transforma de forma não linear cada token de entrada de maneira independente. Neste trabalho, exploramos o papel da FFN e descobrimos que, apesar de ocupar uma fração significativa dos parâmetros do modelo, ela é altamente redundante. Concretamente, conseguimos reduzir substancialmente o número de parâmetros com apenas uma modesta queda na precisão, removendo a FFN das camadas do decodificador e compartilhando uma única FFN no codificador. Por fim, escalamos essa arquitetura de volta ao seu tamanho original, aumentando a dimensão oculta da FFN compartilhada, alcançando ganhos substanciais tanto em precisão quanto em latência em relação ao Transformer Big original.

AniPortraitGAN: Geração de Retratos 3D Animáveis a partir de Coleções de Imagens 2D
AniPortraitGAN: Animatable 3D Portrait Generation from 2D Image Collections

Sep 5

ByYue Wu, Sicheng Xu, Jianfeng Xiang, Fangyun Wei, Qifeng Chen, Jiaolong Yang, Xin Tong

GANs 3D animáveis anteriores para geração de humanos focaram principalmente ou na cabeça ou no corpo inteiro. No entanto, vídeos apenas da cabeça são relativamente incomuns na vida real, e a geração do corpo inteiro geralmente não lida com o controle de expressões faciais e ainda enfrenta desafios na geração de resultados de alta qualidade. Visando avatares de vídeo aplicáveis, apresentamos uma GAN 3D animável que gera imagens de retrato com controle de expressão facial, pose da cabeça e movimentos dos ombros. É um modelo generativo treinado em coleções de imagens 2D não estruturadas sem o uso de dados 3D ou de vídeo. Para a nova tarefa, baseamos nosso método na representação de variedade de radiância generativa e a equipamos com deformações faciais e cabeça-ombros aprendíveis. Um esquema de renderização com câmera dupla e aprendizado adversário é proposto para melhorar a qualidade das faces geradas, o que é crítico para imagens de retrato. Uma rede de processamento de deformação de pose é desenvolvida para gerar deformações plausíveis em regiões desafiadoras, como cabelos longos. Experimentos mostram que nosso método, treinado em imagens 2D não estruturadas, pode gerar retratos 3D diversos e de alta qualidade com controle desejado sobre diferentes propriedades.

ModelScope-Agent: Construindo Seu Sistema de Agentes Personalizável com Modelos de Linguagem de Grande Escala de Código Aberto
ModelScope-Agent: Building Your Customizable Agent System with Open-source Large Language Models

Sep 2

ByChenliang Li, Hehong Chen, Ming Yan, Weizhou Shen, Haiyang Xu, Zhikai Wu, Zhicheng Zhang, Wenmeng Zhou, Yingda Chen, Chen Cheng, Hongzhu Shi, Ji Zhang, Fei Huang, Jingren Zhou

Modelos de linguagem de grande escala (LLMs) demonstraram recentemente capacidades notáveis para compreender intenções humanas, engajar-se em raciocínio e projetar comportamentos semelhantes a planejamento. Para liberar ainda mais o poder dos LLMs na realização de tarefas complexas, há uma tendência crescente de construir frameworks de agentes que equipam LLMs, como o ChatGPT, com habilidades de uso de ferramentas para se conectar a APIs externas massivas. Neste trabalho, apresentamos o ModelScope-Agent, um framework de agente geral e personalizável para aplicações do mundo real, baseado em LLMs de código aberto como controladores. Ele fornece uma biblioteca de sistema amigável ao usuário, com design de motor personalizável para suportar o treinamento de modelos em múltiplos LLMs de código aberto, ao mesmo tempo em que permite a integração perfeita com APIs de modelos e APIs comuns de forma unificada. Para equipar os LLMs com habilidades de uso de ferramentas, foi proposto um framework abrangente que abrange coleta de dados de uso de ferramentas, recuperação de ferramentas, registro de ferramentas, controle de memória, treinamento de modelos personalizados e avaliação para aplicações práticas do mundo real. Por fim, apresentamos o ModelScopeGPT, um assistente inteligente do mundo real da Comunidade ModelScope baseado no framework ModelScope-Agent, que é capaz de conectar LLMs de código aberto com mais de 1000 modelos de IA públicos e conhecimento localizado da comunidade no ModelScope. A biblioteca ModelScope-Agent https://github.com/modelscope/modelscope-agent e a demonstração online https://modelscope.cn/studios/damo/ModelScopeGPT/summary estão agora publicamente disponíveis.

ControlMat: Uma Abordagem Generativa Controlada para Captura de Materiais
ControlMat: A Controlled Generative Approach to Material Capture

Sep 4

ByGiuseppe Vecchio, Rosalie Martin, Arthur Roullier, Adrien Kaiser, Romain Rouffet, Valentin Deschaintre, Tamy Boubekeur

A reconstrução de materiais a partir de uma fotografia é um componente fundamental para a democratização da criação de conteúdo 3D. Propomos formular esse problema mal definido como uma síntese controlada, aproveitando os recentes avanços em redes neurais profundas generativas. Apresentamos o ControlMat, um método que, dada uma única fotografia com iluminação não controlada como entrada, condiciona um modelo de difusão para gerar materiais digitais plausíveis, repetíveis, de alta resolução e baseados em física. Analisamos cuidadosamente o comportamento dos modelos de difusão para saídas multicanal, adaptamos o processo de amostragem para fundir informações em múltiplas escalas e introduzimos a difusão enrolada para permitir tanto a repetibilidade quanto a difusão em patches para saídas de alta resolução. Nossa abordagem generativa ainda permite a exploração de uma variedade de materiais que poderiam corresponder à imagem de entrada, mitigando as condições de iluminação desconhecidas. Demonstramos que nossa abordagem supera métodos recentes de inferência e otimização no espaço latente, e validamos cuidadosamente as escolhas de design do nosso processo de difusão. Materiais suplementares e detalhes adicionais estão disponíveis em: https://gvecchio.com/controlmat/.

RLHF Eficiente: Reduzindo o Uso de Memória do PPO
Efficient RLHF: Reducing the Memory Usage of PPO

Sep 1

ByMichael Santacroce, Yadong Lu, Han Yu, Yuanzhi Li, Yelong Shen

O Aprendizado por Reforço com Feedback Humano (RLHF) revolucionou a modelagem de linguagem ao alinhar modelos com as preferências humanas. No entanto, a etapa de RL, o Proximal Policy Optimization (PPO), requer mais de 3 vezes a memória do Ajuste Fino Supervisionado (SFT), tornando-o inviável para a maioria dos profissionais. Para resolver esse problema, apresentamos uma análise abrangente do uso de memória, desempenho e tempo de treinamento de técnicas de economia de memória para o PPO. Introduzimos o Hydra-RLHF, primeiro integrando os modelos SFT e de Recompensa e, em seguida, desativando dinamicamente o LoRA durante o treinamento. Nossos experimentos mostram: 1. O uso do LoRA durante o PPO reduz seu uso de memória para menos que o SFT, enquanto melhora o alinhamento em quatro benchmarks públicos, e 2. O Hydra-PPO reduz a latência por amostra do LoRA-PPO em até 65%, mantendo seu desempenho. Nossos resultados demonstram que o Hydra-PPO é uma solução simples e promissora para permitir um uso mais amplo do RLHF.

PromptTTS 2: Descrevendo e Gerando Vozes com Prompt de Texto
PromptTTS 2: Describing and Generating Voices with Text Prompt

Sep 5

ByYichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian

A fala transmite mais informações do que apenas texto, pois a mesma palavra pode ser pronunciada em diversas vozes para transmitir informações variadas. Em comparação com os métodos tradicionais de conversão de texto em fala (TTS) que dependem de prompts de fala (fala de referência) para variabilidade de voz, o uso de prompts de texto (descrições) é mais amigável ao usuário, já que os prompts de fala podem ser difíceis de encontrar ou podem nem existir. As abordagens de TTS baseadas em prompts de texto enfrentam dois desafios: 1) o problema de um-para-muitos, onde nem todos os detalhes sobre a variabilidade de voz podem ser descritos no prompt de texto, e 2) a disponibilidade limitada de conjuntos de dados de prompts de texto, onde são necessários fornecedores e um alto custo de rotulagem de dados para escrever prompts de texto para fala. Neste trabalho, apresentamos o PromptTTS 2 para abordar esses desafios com uma rede de variação para fornecer informações de variabilidade de voz não capturadas pelos prompts de texto, e um pipeline de geração de prompts para utilizar modelos de linguagem de grande escala (LLM) para compor prompts de texto de alta qualidade. Especificamente, a rede de variação prevê a representação extraída da fala de referência (que contém todas as informações sobre a voz) com base na representação do prompt de texto. Para o pipeline de geração de prompts, ele gera prompts de texto para fala com um modelo de compreensão de fala para reconhecer atributos de voz (por exemplo, gênero, velocidade) a partir da fala e um modelo de linguagem de grande escala para formular o prompt de texto com base nos resultados do reconhecimento. Experimentos em um conjunto de dados de fala em larga escala (44 mil horas) demonstram que, em comparação com trabalhos anteriores, o PromptTTS 2 gera vozes mais consistentes com os prompts de texto e suporta a amostragem de diversas variabilidades de voz, oferecendo aos usuários mais opções na geração de voz. Além disso, o pipeline de geração de prompts produz prompts de alta qualidade, eliminando o alto custo de rotulagem. A página de demonstração do PromptTTS 2 está disponível online em https://speechresearch.github.io/prompttts2.

Modelo de Difusão 3D Hierárquico com Mascaramento para Extrapolação de Vídeo
Hierarchical Masked 3D Diffusion Model for Video Outpainting

Sep 5

ByFanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan

O video outpainting visa preencher adequadamente áreas ausentes nas bordas de quadros de vídeo. Em comparação com o image outpainting, ele apresenta um desafio adicional, pois o modelo deve manter a consistência temporal da área preenchida. Neste artigo, introduzimos um modelo de difusão 3D mascarado para video outpainting. Utilizamos a técnica de modelagem de máscara para treinar o modelo de difusão 3D. Isso nos permite usar múltiplos quadros de referência para conectar os resultados de múltiplas inferências de clipes de vídeo, garantindo assim a consistência temporal e reduzindo o tremor entre quadros adjacentes. Paralelamente, extraímos os quadros globais do vídeo como prompts e guiamos o modelo para obter informações além do clipe de vídeo atual usando atenção cruzada. Também introduzimos um pipeline de inferência híbrido de granularidade grossa para fina para aliviar o problema de acúmulo de artefatos. O pipeline existente de granularidade grossa para fina utiliza apenas a estratégia de preenchimento, o que causa degradação devido ao intervalo de tempo dos quadros esparsos ser muito grande. Nosso pipeline se beneficia do aprendizado bidirecional da modelagem de máscara e, portanto, pode empregar uma estratégia híbrida de preenchimento e interpolação ao gerar quadros esparsos. Experimentos mostram que nosso método alcança resultados de ponta em tarefas de video outpainting. Mais resultados são fornecidos em nosso https://fanfanda.github.io/M3DDM/.

StyleAdapter: Um Modelo de Passagem Única Sem LoRA para Geração de Imagens Estilizadas
StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation

Sep 4

ByZhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan, Wenping Wang, Ping Luo

Este artigo apresenta um método livre de LoRA para geração de imagens estilizadas que utiliza um prompt de texto e imagens de referência de estilo como entradas e produz uma imagem de saída em uma única passagem. Diferente dos métodos existentes que dependem do treinamento de um LoRA separado para cada estilo, nosso método pode se adaptar a diversos estilos com um modelo unificado. No entanto, isso apresenta dois desafios: 1) o prompt perde a capacidade de controle sobre o conteúdo gerado, e 2) a imagem de saída herda tanto as características semânticas quanto as de estilo da imagem de referência, comprometendo sua fidelidade de conteúdo. Para abordar esses desafios, introduzimos o StyleAdapter, um modelo que compreende dois componentes: um módulo de atenção cruzada de dois caminhos (TPCA) e três estratégias de desacoplamento. Esses componentes permitem que nosso modelo processe o prompt e as características de referência de estilo separadamente e reduza o forte acoplamento entre as informações semânticas e de estilo nas referências de estilo. O StyleAdapter pode gerar imagens de alta qualidade que correspondem ao conteúdo dos prompts e adotam o estilo das referências (mesmo para estilos não vistos) em uma única passagem, o que é mais flexível e eficiente do que os métodos anteriores. Experimentos foram conduzidos para demonstrar a superioridade do nosso método em relação aos trabalhos anteriores.

Doppelgangers: Aprendendo a Desambiguar Imagens de Estruturas Similares
Doppelgangers: Learning to Disambiguate Images of Similar Structures

Sep 5

ByRuojin Cai, Joseph Tung, Qianqian Wang, Hadar Averbuch-Elor, Bharath Hariharan, Noah Snavely

Consideramos a tarefa de desambiguação visual de determinar se um par de imagens visualmente semelhantes retrata a mesma superfície 3D ou superfícies distintas (por exemplo, o mesmo lado ou lados opostos de um edifício simétrico). Correspondências ilusórias de imagens, onde duas imagens observam superfícies 3D distintas, mas visualmente semelhantes, podem ser desafiadoras para humanos diferenciarem e também podem levar algoritmos de reconstrução 3D a produzir resultados errôneos. Propomos uma abordagem baseada em aprendizado para a desambiguação visual, formulando-a como uma tarefa de classificação binária em pares de imagens. Para isso, introduzimos um novo conjunto de dados para esse problema, chamado Doppelgangers, que inclui pares de imagens de estruturas semelhantes com rótulos de verdade fundamental. Também projetamos uma arquitetura de rede que utiliza a distribuição espacial de pontos-chave locais e correspondências como entrada, permitindo um melhor raciocínio sobre pistas locais e globais. Nossa avaliação mostra que nosso método pode distinguir correspondências ilusórias em casos difíceis e pode ser integrado em pipelines de SfM para produzir reconstruções 3D corretas e desambiguadas. Consulte nossa página do projeto para obter nosso código, conjuntos de dados e mais resultados: http://doppelgangers-3d.github.io/.

Transformador de Visão com Mascaramento de Características Contrastantes para Vocabulário Aberto
Contrastive Feature Masking Open-Vocabulary Vision Transformer

Sep 2

ByDahun Kim, Anelia Angelova, Weicheng Kuo

Apresentamos o Contrastive Feature Masking Vision Transformer (CFM-ViT) - uma metodologia de pré-treinamento de imagem-texto que alcança a aprendizagem simultânea de representações em nível de imagem e de região para detecção de objetos de vocabulário aberto (OVD). Nossa abordagem combina o objetivo do autoencoder mascarado (MAE) com o objetivo de aprendizagem contrastiva para melhorar a representação em tarefas de localização. Diferentemente do MAE padrão, realizamos a reconstrução no espaço de incorporação conjunta de imagem-texto, em vez do espaço de pixels, como é comum no método MAE clássico, o que faz com que o modelo aprenda melhor a semântica em nível de região. Além disso, introduzimos o Positional Embedding Dropout (PED) para lidar com a variação de escala entre o pré-treinamento de imagem-texto e o ajuste fino de detecção, descartando aleatoriamente as incorporações posicionais durante o pré-treinamento. O PED melhora o desempenho de detecção e permite o uso de um backbone ViT congelado como classificador de região, evitando o esquecimento do conhecimento de vocabulário aberto durante o ajuste fino de detecção. No benchmark de detecção de vocabulário aberto LVIS, o CFM-ViT alcança um estado da arte de 33,9 APr, superando a melhor abordagem em 7,6 pontos e obtendo uma melhor transferência de detecção zero-shot. Por fim, o CFM-ViT adquire uma forte representação em nível de imagem, superando o estado da arte em 8 de 12 métricas em benchmarks de recuperação de imagem-texto zero-shot.

Redes neurais recorrentes com portas descobrem a atenção.
Gated recurrent neural networks discover attention

Sep 4

ByNicolas Zucchet, Seijin Kobayashi, Yassir Akram, Johannes von Oswald, Maxime Larcher, Angelika Steger, João Sacramento

Desenvolvimentos arquitetônicos recentes permitiram que redes neurais recorrentes (RNNs) alcançassem e até superassem o desempenho dos Transformers em certas tarefas de modelagem de sequências. Essas RNNs modernas apresentam um padrão de design proeminente: camadas recorrentes lineares interconectadas por caminhos feedforward com portas multiplicativas. Aqui, mostramos como RNNs equipadas com esses dois elementos de design podem implementar exatamente a autoatenção (linear), o principal bloco de construção dos Transformers. Ao fazer engenharia reversa de um conjunto de RNNs treinadas, descobrimos que o gradiente descendente, na prática, encontra nossa construção. Em particular, examinamos RNNs treinadas para resolver tarefas simples de aprendizado em contexto, nas quais os Transformers são conhecidos por se destacar, e descobrimos que o gradiente descendente instila em nossas RNNs o mesmo algoritmo de aprendizado em contexto baseado em atenção usado pelos Transformers. Nossas descobertas destacam a importância das interações multiplicativas em redes neurais e sugerem que certas RNNs podem estar, inesperadamente, implementando atenção sob o capô.

MagicProp: Edição de Vídeo Baseada em Difusão via Propagação de Aparência Consciente do Movimento
MagicProp: Diffusion-based Video Editing via Motion-aware Appearance Propagation

Sep 2

ByHanshu Yan, Jun Hao Liew, Long Mai, Shanchuan Lin, Jiashi Feng

Este artigo aborda o problema de modificar a aparência visual de vídeos enquanto preserva seu movimento. Um novo framework, denominado MagicProp, é proposto, o qual desacopla o processo de edição de vídeo em dois estágios: edição de aparência e propagação de aparência com consciência de movimento. No primeiro estágio, o MagicProp seleciona um único quadro do vídeo de entrada e aplica técnicas de edição de imagem para modificar o conteúdo e/ou o estilo do quadro. A flexibilidade dessas técnicas permite a edição de regiões arbitrárias dentro do quadro. No segundo estágio, o MagicProp utiliza o quadro editado como referência de aparência e gera os quadros restantes usando uma abordagem de renderização autoregressiva. Para isso, um modelo de geração condicional baseado em difusão, chamado PropDPM, é desenvolvido, o qual sintetiza o quadro alvo condicionando-se na aparência de referência, no movimento alvo e na aparência anterior. A abordagem de edição autoregressiva garante consistência temporal nos vídeos resultantes. No geral, o MagicProp combina a flexibilidade das técnicas de edição de imagem com a superior consistência temporal da modelagem autoregressiva, permitindo a edição flexível de tipos de objetos e estilos estéticos em regiões arbitrárias de vídeos de entrada, mantendo uma boa consistência temporal entre os quadros. Experimentações extensas em diversos cenários de edição de vídeo demonstram a efetividade do MagicProp.

Solucionadores de Restrições Contínuas Baseados em Difusão Composicional
Compositional Diffusion-Based Continuous Constraint Solvers

Sep 2

ByZhutian Yang, Jiayuan Mao, Yilun Du, Jiajun Wu, Joshua B. Tenenbaum, Tomás Lozano-Pérez, Leslie Pack Kaelbling

Este artigo apresenta uma abordagem para aprender a resolver problemas de satisfação de restrições contínuas (CCSP) no raciocínio e planejamento robóticos. Métodos anteriores dependem principalmente da engenharia manual ou da aprendizagem de geradores para tipos específicos de restrições, rejeitando as atribuições de valores quando outras restrições são violadas. Em contraste, nosso modelo, o solucionador de restrições contínuas por difusão composicional (Diffusion-CCSP), deriva soluções globais para CCSPs representando-os como grafos de fatores e combinando as energias de modelos de difusão treinados para amostrar tipos individuais de restrições. O Diffusion-CCSP exibe uma forte generalização para novas combinações de restrições conhecidas e pode ser integrado a um planejador de tarefas e movimentos para elaborar planos de longo prazo que incluem ações com parâmetros discretos e contínuos. Site do projeto: https://diffusion-ccsp.github.io/

Design Generativo Inverso por Difusão
Diffusion Generative Inverse Design

Sep 5

ByMarin Vlastelica, Tatiana López-Guevara, Kelsey Allen, Peter Battaglia, Arnaud Doucet, Kimberley Stachenfeld

O design inverso refere-se ao problema de otimizar a entrada de uma função objetivo para alcançar um resultado desejado. Em muitos problemas de engenharia do mundo real, a função objetivo assume a forma de um simulador que prevê como o estado do sistema evoluirá ao longo do tempo, e o desafio de design é otimizar as condições iniciais que levam a um resultado almejado. Desenvolvimentos recentes em simulação aprendida mostraram que redes neurais em grafos (GNNs) podem ser usadas para estimativas precisas, eficientes e diferenciáveis da dinâmica do simulador, além de suportar otimização de design de alta qualidade com procedimentos de otimização baseados em gradientes ou amostragem. No entanto, otimizar designs do zero requer muitas consultas caras ao modelo, e esses procedimentos apresentam falhas básicas em problemas não convexos ou de alta dimensionalidade. Neste trabalho, mostramos como modelos de difusão de remoção de ruído (DDMs) podem ser usados para resolver problemas de design inverso de forma eficiente e propomos um algoritmo de amostragem de partículas para melhorar ainda mais sua eficiência. Realizamos experimentos em vários desafios de design em dinâmica de fluidos e descobrimos que nossa abordagem reduz substancialmente o número de chamadas ao simulador em comparação com técnicas padrão.

Destreza Sequencial: Encadeamento de Políticas de Precisão para Manipulação de Longo Horizonte
Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation

Sep 2

ByYuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu

Muitas tarefas de manipulação do mundo real consistem em uma série de subtarefas que são significativamente diferentes entre si. Essas tarefas complexas de longo horizonte destacam o potencial das mãos hábeis, que possuem adaptabilidade e versatilidade, sendo capazes de transitar de forma contínua entre diferentes modos de funcionalidade sem a necessidade de reajustar o agarramento ou utilizar ferramentas externas. No entanto, os desafios surgem devido ao espaço de ação de alta dimensionalidade da mão hábil e à dinâmica composicional complexa das tarefas de longo horizonte. Apresentamos o Sequential Dexterity, um sistema geral baseado em aprendizado por reforço (RL) que encadeia múltiplas políticas hábeis para alcançar objetivos de tarefas de longo horizonte. O núcleo do sistema é uma função de viabilidade de transição que ajusta progressivamente as subpolíticas para aumentar a taxa de sucesso no encadeamento, ao mesmo tempo que permite a troca autônoma de políticas para recuperação de falhas e a superação de estágios redundantes. Apesar de ter sido treinado apenas em simulação com alguns objetos de tarefa, nosso sistema demonstra capacidade de generalização para novas formas de objetos e é capaz de transferir de forma zero-shot para um robô do mundo real equipado com uma mão hábil. Mais detalhes e resultados em vídeo podem ser encontrados em https://sequential-dexterity.github.io.

PromptTTS 2: Descrevendo e Gerando Vozes com Prompt de Texto
PromptTTS 2: Describing and Generating Voices with Text Prompt

Sep 5

ByYichong Leng, Zhifang Guo, Kai Shen, Xu Tan, Zeqian Ju, Yanqing Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiang-Yang Li, Sheng Zhao, Tao Qin, Jiang Bian