Artigos de pesquisa em IA selecionados diariamente com traduções
A edição de imagens baseada em arrastar ganhou recentemente popularidade por sua interatividade e precisão. No entanto, apesar da capacidade dos modelos de texto-para-imagem de gerar amostras em um segundo, a edição por arrastar ainda fica para trás devido ao desafio de refletir com precisão a interação do usuário mantendo o conteúdo da imagem. Algumas abordagens existentes dependem de otimização intensiva por imagem ou métodos baseados em orientação intrincados, exigindo entradas adicionais como máscaras para regiões móveis e instruções de texto, comprometendo assim a interatividade do processo de edição. Apresentamos o InstantDrag, um pipeline sem otimização que aprimora a interatividade e a velocidade, exigindo apenas uma imagem e uma instrução de arrastar como entrada. O InstantDrag é composto por duas redes cuidadosamente projetadas: um gerador de fluxo óptico condicionado ao arrastar (FlowGen) e um modelo de difusão condicionado ao fluxo óptico (FlowDiffusion). O InstantDrag aprende dinâmicas de movimento para edição de imagens baseada em arrastar em conjuntos de dados de vídeo do mundo real, decompondo a tarefa em geração de movimento e geração de imagem condicionada ao movimento. Demonstramos a capacidade do InstantDrag de realizar edições rápidas e fotorrealistas sem máscaras ou instruções de texto por meio de experimentos em conjuntos de dados de vídeo facial e cenas gerais. Esses resultados destacam a eficiência de nossa abordagem no manuseio da edição de imagens baseada em arrastar, tornando-a uma solução promissora para aplicações interativas em tempo real.
A animação de várias ilustrações de personagens é uma tarefa envolvente de criação de conteúdo visual. Dado um único desenho de personagem, os métodos de animação existentes são limitados a movimentos 2D planos e, portanto, carecem de efeitos 3D. Uma solução alternativa é reconstruir um modelo 3D a partir de um desenho de personagem como um proxy e, em seguida, redirecionar dados de movimento 3D para ele. No entanto, os métodos existentes de imagem para 3D não funcionam bem para desenhos de personagens amadores em termos de aparência e geometria. Observamos que as linhas de contorno, comumente presentes em desenhos de personagens, poderiam introduzir ambiguidade significativa na síntese de textura devido à sua dependência de visualização. Além disso, regiões finas representadas por contornos de linha única são difíceis de reconstruir (por exemplo, membros finos de um boneco de palito) devido às suas estruturas delicadas. Para lidar com esses problemas, propomos um sistema inovador, DrawingSpinUp, para produzir animações 3D plausíveis e dar vida aos desenhos de personagens, permitindo que eles girem livremente, saltem e até mesmo realizem uma dança de hip-hop. Para melhorar a aparência, adotamos uma estratégia de remoção e restauração para primeiro remover as linhas de contorno dependentes da visualização e depois renderizá-las novamente após redirecionar o personagem reconstruído. Para o aprimoramento da geometria, desenvolvemos um algoritmo de deformação de afinamento baseado em esqueleto para refinar as estruturas finas representadas pelos contornos de linha única. As avaliações experimentais e um estudo de usuário perceptivo mostram que nosso método proposto supera os métodos de animação 2D e 3D existentes e gera animações 3D de alta qualidade a partir de um único desenho de personagem. Consulte nossa página do projeto (https://lordliang.github.io/DrawingSpinUp) para o código e as animações geradas.
A detecção de vocabulário aberto (OVD) tem como objetivo detectar objetos além de um conjunto predefinido de categorias. Como um modelo pioneiro que incorpora a série YOLO na OVD, o YOLO-World é adequado para cenários que priorizam velocidade e eficiência. No entanto, seu desempenho é prejudicado pelo mecanismo de fusão de características em seu pescoço, que causa complexidade quadrática e campos receptivos guiados limitados. Para lidar com essas limitações, apresentamos o Mamba-YOLO-World, um modelo inovador de OVD baseado no YOLO que emprega a proposta Rede de Agregação de Caminho de Fusão Mamba (MambaFusion-PAN) como sua arquitetura de pescoço. Especificamente, introduzimos um mecanismo de fusão de características baseado em Modelo de Espaço de Estados, composto por um algoritmo de Varredura Seletiva Paralela-Guiada e um algoritmo de Varredura Seletiva Serial-Guiada com complexidade linear e campos receptivos globalmente guiados. Ele aproveita sequências de entrada multimodais e estados ocultos de mamba para orientar o processo de varredura seletiva. Experimentos demonstram que nosso modelo supera o YOLO-World original nos benchmarks COCO e LVIS, tanto em configurações de zero-shot quanto de ajuste fino, mantendo parâmetros e FLOPs comparáveis. Além disso, ele ultrapassa os métodos existentes de OVD de última geração com menos parâmetros e FLOPs.
A reconstrução de campos de radiância para iluminação é severamente subdeterminada para dados de múltiplas vistas, os quais são frequentemente capturados sob uma única condição de iluminação; é especialmente desafiador para cenas completas contendo múltiplos objetos. Apresentamos um método para criar campos de radiância reluzentes utilizando tais dados de iluminação única, explorando priors extraídos de modelos de difusão de imagens 2D. Inicialmente, ajustamos um modelo de difusão 2D em um conjunto de dados de múltiplas iluminações condicionado pela direção da luz, permitindo-nos aumentar uma captura de iluminação única em um conjunto de dados de múltiplas iluminações realista - porém possivelmente inconsistente - a partir de direções de luz diretamente definidas. Utilizamos esses dados aumentados para criar um campo de radiância reluzente representado por splats Gaussianos 3D. Para permitir o controle direto da direção da luz para iluminação de baixa frequência, representamos a aparência com um perceptron de múltiplas camadas parametrizado na direção da luz. Para garantir a consistência de múltiplas vistas e superar imprecisões, otimizamos um vetor de características auxiliares por imagem. Apresentamos resultados em dados sintéticos e reais de múltiplas vistas sob iluminação única, demonstrando que nosso método aproveita com sucesso os priors do modelo de difusão 2D para permitir uma iluminação 3D realista para cenas completas. Site do projeto: https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
O vídeo volumétrico representa um avanço transformador na mídia visual, permitindo aos usuários navegar livremente por experiências virtuais imersivas e reduzindo a lacuna entre os mundos digital e real. No entanto, a necessidade de extensa intervenção manual para estabilizar sequências de malha e a geração de ativos excessivamente grandes nos fluxos de trabalho existentes impedem uma adoção mais ampla. Neste artigo, apresentamos uma abordagem inovadora baseada em Gaussianas, denominada DualGS, para reprodução em tempo real e de alta fidelidade de performances humanas complexas com excelentes taxas de compressão. A ideia principal do DualGS é representar separadamente o movimento e a aparência usando as Gaussianas de pele e de juntas correspondentes. Tal desentrelaçamento explícito pode reduzir significativamente a redundância de movimento e melhorar a coerência temporal. Começamos inicializando o DualGS e ancorando as Gaussianas de pele às Gaussianas de juntas no primeiro quadro. Posteriormente, empregamos uma estratégia de treinamento de grosso a fino para modelagem de desempenho humano quadro a quadro. Isso inclui uma fase de alinhamento grosseiro para previsão de movimento geral, bem como uma otimização detalhada para rastreamento robusto e renderização de alta fidelidade. Para integrar o vídeo volumétrico de forma transparente em ambientes de RV, comprimimos eficientemente o movimento usando codificação de entropia e a aparência usando compressão de codec combinada com um livro de códigos persistente. Nossa abordagem alcança uma taxa de compressão de até 120 vezes, exigindo apenas aproximadamente 350KB de armazenamento por quadro. Demonstramos a eficácia de nossa representação por meio de experiências fotorrealistas e de visualização livre em fones de ouvido de RV, permitindo aos usuários assistir imersivamente a músicos em performance e sentir o ritmo das notas nas pontas dos dedos dos artistas.
A restauração de áudio tornou-se cada vez mais significativa na sociedade moderna, não apenas devido à demanda por experiências auditivas de alta qualidade possibilitadas por dispositivos de reprodução avançados, mas também porque as crescentes capacidades dos modelos de áudio generativos exigem áudio de alta fidelidade. Tipicamente, a restauração de áudio é definida como uma tarefa de prever áudio não distorcido a partir de uma entrada danificada, frequentemente treinada usando um framework GAN para equilibrar percepção e distorção. Uma vez que a degradação de áudio está principalmente concentrada nas faixas de frequência média e alta, especialmente devido aos codecs, um desafio chave reside em projetar um gerador capaz de preservar informações de baixa frequência enquanto reconstrói com precisão conteúdo de alta qualidade de frequências médias e altas. Inspirado nos avanços recentes na separação de música de alta taxa de amostragem, aprimoramento de fala e modelos de codec de áudio, propomos o Apollo, um modelo generativo projetado para restauração de áudio de alta taxa de amostragem. O Apollo utiliza um módulo explícito de divisão de bandas de frequência para modelar as relações entre diferentes bandas de frequência, permitindo áudio restaurado mais coerente e de maior qualidade. Avaliado nos conjuntos de dados MUSDB18-HQ e MoisesDB, o Apollo supera consistentemente os modelos SR-GAN existentes em várias taxas de bits e gêneros musicais, destacando-se especialmente em cenários complexos envolvendo misturas de vários instrumentos e vocais. O Apollo melhora significativamente a qualidade de restauração de música mantendo a eficiência computacional. O código-fonte do Apollo está disponível publicamente em https://github.com/JusperLee/Apollo.
Os avanços recentes em modelos generativos revolucionaram a geração e edição de imagens, tornando essas tarefas acessíveis a não especialistas. Este artigo concentra-se na edição local de imagens, particularmente na tarefa de adicionar novo conteúdo a uma área vagamente especificada. Os métodos existentes frequentemente exigem uma máscara precisa ou uma descrição detalhada da localização, o que pode ser trabalhoso e propenso a erros. Propomos o Click2Mask, uma abordagem inovadora que simplifica o processo de edição local, exigindo apenas um único ponto de referência (além da descrição do conteúdo). Uma máscara é crescida dinamicamente ao redor deste ponto durante um processo de Difusão Latente Misturada (BLD), guiada por uma perda semântica baseada em CLIP mascarado. O Click2Mask supera as limitações de métodos baseados em segmentação e dependentes de ajuste fino, oferecendo uma solução mais amigável ao usuário e contextualmente precisa. Nossos experimentos demonstram que o Click2Mask não apenas minimiza o esforço do usuário, mas também oferece resultados de manipulação de imagem local competitivos ou superiores em comparação com os métodos de Estado da Arte, de acordo com tanto a avaliação humana quanto as métricas automáticas. As contribuições-chave incluem a simplificação da entrada do usuário, a capacidade de adicionar livremente objetos sem restrições por segmentos existentes e o potencial de integração de nossa abordagem de máscara dinâmica em outros métodos de edição.