Artigos de pesquisa em IA selecionados diariamente com traduções
A IA generativa tem feito avanços rápidos nos últimos anos, alcançando capacidades sem precedentes em compreensão multimodal e geração de código. Isso pode habilitar um novo paradigma de desenvolvimento front-end, no qual LLMs multimodais podem converter diretamente designs visuais em implementações de código. Neste trabalho, formalizamos isso como uma tarefa Design2Code e realizamos uma avaliação abrangente. Especificamente, criamos manualmente um benchmark de 484 páginas da web diversas do mundo real como casos de teste e desenvolvemos um conjunto de métricas de avaliação automática para medir quão bem os LLMs multimodais atuais podem gerar implementações de código que renderizam diretamente as páginas da web de referência fornecidas, tendo como entrada capturas de tela. Também complementamos as métricas automáticas com avaliações humanas abrangentes. Desenvolvemos um conjunto de métodos de prompt multimodal e demonstramos sua eficácia em GPT-4V e Gemini Pro Vision. Além disso, ajustamos um modelo open-source Design2Code-18B que iguala o desempenho do Gemini Pro Vision. Tanto a avaliação humana quanto as métricas automáticas mostram que o GPT-4V tem o melhor desempenho nessa tarefa em comparação com outros modelos. Além disso, os avaliadores consideram que as páginas da web geradas pelo GPT-4V podem substituir as páginas de referência originais em 49% dos casos em termos de aparência visual e conteúdo; e, surpreendentemente, em 64% dos casos, as páginas geradas pelo GPT-4V são consideradas melhores que as páginas de referência originais. Nossas métricas detalhadas indicam que os modelos open-source ficam principalmente atrás na recuperação de elementos visuais das páginas da web de entrada e na geração de designs de layout corretos, enquanto aspectos como conteúdo de texto e coloração podem ser drasticamente melhorados com o ajuste adequado.
Modelos de difusão criam dados a partir de ruído ao inverter os caminhos direcionais dos dados em direção ao ruído e emergiram como uma técnica poderosa de modelagem generativa para dados perceptuais de alta dimensionalidade, como imagens e vídeos. O fluxo retificado é uma formulação recente de modelo generativo que conecta dados e ruído em uma linha reta. Apesar de suas melhores propriedades teóricas e simplicidade conceitual, ele ainda não foi estabelecido de forma decisiva como prática padrão. Neste trabalho, aprimoramos as técnicas existentes de amostragem de ruído para treinar modelos de fluxo retificado, direcionando-as para escalas perceptualmente relevantes. Por meio de um estudo em larga escala, demonstramos o desempenho superior dessa abordagem em comparação com formulações de difusão estabelecidas para síntese de texto em imagem de alta resolução. Além disso, apresentamos uma nova arquitetura baseada em transformers para geração de texto em imagem que utiliza pesos separados para as duas modalidades e permite um fluxo bidirecional de informação entre tokens de imagem e texto, melhorando a compreensão do texto, a tipografia e as avaliações de preferência humana. Demonstramos que essa arquitetura segue tendências previsíveis de escalabilidade e correlaciona uma menor perda de validação com uma síntese melhorada de texto em imagem, conforme medido por várias métricas e avaliações humanas. Nossos maiores modelos superam os modelos state-of-the-art, e disponibilizaremos publicamente nossos dados experimentais, código e pesos dos modelos.
O experimento de vestuário virtual baseado em imagens (VTON), que visa gerar uma imagem de uma pessoa vestindo uma peça de roupa de loja, é uma tarefa desafiadora de síntese de imagens que exige não apenas alta fidelidade da pessoa vestida, mas também a preservação completa dos detalhes da peça. Para abordar esse problema, propomos o Outfitting over Try-on Diffusion (OOTDiffusion), aproveitando o poder dos modelos de difusão latente pré-treinados e projetando uma nova arquitetura de rede para um experimento virtual realista e controlável. Sem um processo explícito de deformação, propomos um UNet de vestuário para aprender as características detalhadas da peça e integrá-las ao corpo humano alvo por meio de nossa fusão de vestuário proposta no processo de redução de ruído dos modelos de difusão. Para aprimorar ainda mais a controlabilidade do nosso UNet de vestuário, introduzimos o dropout de vestuário no processo de treinamento, o que nos permite ajustar a intensidade das características da peça por meio de orientação livre de classificador. Nossos experimentos abrangentes nos conjuntos de dados VITON-HD e Dress Code demonstram que o OOTDiffusion gera eficientemente imagens de alta qualidade de pessoas vestidas para qualquer imagem humana e de peça de roupa, superando outros métodos VTON tanto em fidelidade quanto em controlabilidade, indicando um avanço impressionante no experimento virtual. Nosso código-fonte está disponível em https://github.com/levihsu/OOTDiffusion.
O desenvolvimento de modelos multimodais representou um avanço significativo na forma como as máquinas compreendem vídeos. Esses modelos têm mostrado potencial na análise de clipes de vídeo curtos. No entanto, quando se trata de formatos mais longos, como filmes, eles frequentemente apresentam limitações. Os principais obstáculos são a falta de dados de vídeo de alta qualidade e diversificados, além do trabalho intensivo necessário para coletar ou anotar tais dados. Diante desses desafios, propomos o MovieLLM, uma estrutura inovadora projetada para criar dados sintéticos de alta qualidade para vídeos longos. Essa estrutura aproveita o poder do GPT-4 e de modelos de texto para imagem para gerar roteiros detalhados e visuais correspondentes. Nossa abordagem se destaca por sua flexibilidade e escalabilidade, tornando-a uma alternativa superior aos métodos tradicionais de coleta de dados. Nossos extensos experimentos validam que os dados produzidos pelo MovieLLM melhoram significativamente o desempenho de modelos multimodais na compreensão de narrativas complexas em vídeos, superando as limitações dos conjuntos de dados existentes em relação à escassez e ao viés.
Recentemente, a geração de vídeo alcançou um desenvolvimento significativo e rápido com base em técnicas superiores de geração de texto para imagem. Neste trabalho, propomos uma estrutura de alta fidelidade para geração de vídeo a partir de imagens, denominada AtomoVideo. Com base na injeção de imagens em múltiplas granularidades, alcançamos uma fidelidade maior do vídeo gerado em relação à imagem fornecida. Além disso, graças a conjuntos de dados de alta qualidade e estratégias de treinamento, conseguimos uma maior intensidade de movimento enquanto mantemos uma consistência e estabilidade temporal superiores. Nossa arquitetura se estende de forma flexível para a tarefa de previsão de quadros de vídeo, permitindo a previsão de sequências longas por meio de geração iterativa. Adicionalmente, devido ao design do treinamento de adaptadores, nossa abordagem pode ser bem combinada com modelos personalizados e módulos controláveis existentes. Por meio de avaliações quantitativas e qualitativas, o AtomoVideo alcança resultados superiores em comparação com métodos populares. Mais exemplos podem ser encontrados em nosso site do projeto: https://atomo-video.github.io/.
Os grandes modelos de linguagem (LLMs) enfrentam um desafio significativo devido aos requisitos excessivos de computação e memória da arquitetura Transformer, comumente utilizada. Embora os modelos de espaço de estados (SSM) representem um novo tipo de arquitetura de rede fundamental com menor complexidade computacional, seu desempenho ainda não rivaliza plenamente com o dos Transformers. Este artigo introduz o DenseSSM, uma abordagem inovadora para aprimorar o fluxo de informações ocultas entre as camadas nos SSMs. Ao integrar seletivamente os estados ocultos das camadas superficiais em camadas mais profundas, o DenseSSM retém informações detalhadas cruciais para a saída final. As conexões densas do DenseSSM ainda mantêm a paralelizabilidade no treinamento e a eficiência na inferência. O método proposto pode ser amplamente aplicável a diversos tipos de SSM, como RetNet e Mamba. Com tamanho de modelo similar, o DenseSSM alcança melhorias significativas, exemplificado pelo DenseRetNet, que supera o RetNet original com ganhos de até 5% em precisão em benchmarks públicos.
Os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) têm experimentado avanços significativos recentemente. No entanto, desafios persistem no reconhecimento e compreensão precisos de detalhes intrincados em imagens de alta resolução. Apesar de ser indispensável para o desenvolvimento de MLLMs robustos, essa área permanece subinvestigada. Para enfrentar esse desafio, nosso trabalho introduz o InfiMM-HD, uma nova arquitetura projetada especificamente para processar imagens de diferentes resoluções com baixo custo computacional. Essa inovação facilita a expansão dos MLLMs para capacidades de maior resolução. O InfiMM-HD incorpora um módulo de atenção cruzada e janelas visuais para reduzir os custos de computação. Ao integrar esse design arquitetônico com um pipeline de treinamento em quatro estágios, nosso modelo alcança uma percepção visual aprimorada de forma eficiente e econômica. Estudos empíricos destacam a robustez e eficácia do InfiMM-HD, abrindo novas vias de exploração em áreas relacionadas. Códigos e modelos podem ser encontrados em https://huggingface.co/Infi-MM/infimm-hd.
Os recentes avanços em modelos de texto para imagem (por exemplo, Stable Diffusion) e tecnologias de personalização correspondentes (por exemplo, DreamBooth e LoRA) permitem que indivíduos gerem imagens de alta qualidade e imaginativas. No entanto, esses modelos frequentemente enfrentam limitações ao gerar imagens com resoluções fora de seu domínio de treinamento. Para superar essa limitação, apresentamos o Resolution Adapter (ResAdapter), um adaptador consistente de domínio projetado para modelos de difusão, capaz de gerar imagens com resoluções e proporções ilimitadas. Diferente de outros métodos de geração multi-resolução que processam imagens de resolução estática com operações complexas de pós-processamento, o ResAdapter gera diretamente imagens com resolução dinâmica. Especificamente, após aprender uma compreensão profunda de prioridades puras de resolução, o ResAdapter, treinado em um conjunto de dados geral, gera imagens livres de resolução com modelos de difusão personalizados, preservando seu domínio de estilo original. Experimentos abrangentes demonstram que o ResAdapter, com apenas 0,5M de parâmetros, pode processar imagens com resoluções flexíveis para modelos de difusão arbitrários. Experimentos mais extensos mostram que o ResAdapter é compatível com outros módulos (por exemplo, ControlNet, IP-Adapter e LCM-LoRA) para geração de imagens em uma ampla gama de resoluções, e pode ser integrado a outros modelos multi-resolução (por exemplo, ElasticDiffusion) para gerar eficientemente imagens de resolução mais alta. O link do projeto é https://res-adapter.github.io.
Este relatório técnico apresenta o TripoSR, um modelo de reconstrução 3D que utiliza arquitetura de transformadores para geração rápida de modelos 3D em tempo real, produzindo malhas 3D a partir de uma única imagem em menos de 0,5 segundos. Baseando-se na arquitetura da rede LRM, o TripoSR incorpora melhorias significativas no processamento de dados, no design do modelo e nas técnicas de treinamento. Avaliações em conjuntos de dados públicos demonstram que o TripoSR apresenta desempenho superior, tanto quantitativo quanto qualitativo, em comparação com outras alternativas de código aberto. Lançado sob a licença MIT, o TripoSR tem como objetivo capacitar pesquisadores, desenvolvedores e criativos com os mais recentes avanços em IA generativa 3D.
A geração de ativos 3D está recebendo uma atenção significativa, impulsionada pelo recente sucesso da criação de conteúdo 2D guiado por texto. Os métodos existentes de texto-para-3D utilizam modelos de difusão pré-treinados de texto-para-imagem em um problema de otimização ou os ajustam em dados sintéticos, o que frequentemente resulta em objetos 3D não fotorealísticos sem fundos. Neste artigo, apresentamos um método que aproveita modelos pré-treinados de texto-para-imagem como um prior e aprende a gerar imagens de múltiplas visões em um único processo de remoção de ruído a partir de dados do mundo real. Concretamente, propomos integrar camadas de renderização de volume 3D e atenção entre quadros em cada bloco da rede U-Net existente do modelo de texto-para-imagem. Além disso, projetamos uma geração autoregressiva que renderiza imagens mais consistentes em 3D em qualquer ponto de vista. Treinamos nosso modelo em conjuntos de dados do mundo real de objetos e demonstramos sua capacidade de gerar instâncias com uma variedade de formas e texturas de alta qualidade em ambientes autênticos. Em comparação com os métodos existentes, os resultados gerados pelo nosso método são consistentes e possuem qualidade visual favorável (-30% FID, -37% KID).
As tarefas de geração de imagem para vídeo (I2V) sempre enfrentam desafios para manter alta fidelidade em domínios abertos. As técnicas tradicionais de animação de imagens focam principalmente em domínios específicos, como rostos ou poses humanas, tornando difícil sua generalização para domínios abertos. Vários frameworks recentes de I2V baseados em modelos de difusão conseguem gerar conteúdo dinâmico para imagens de domínio aberto, mas falham em manter a fidelidade. Descobrimos que dois fatores principais da baixa fidelidade são a perda de detalhes da imagem e os vieses de predição de ruído durante o processo de remoção de ruído. Para isso, propomos um método eficaz que pode ser aplicado aos principais modelos de difusão de vídeo. Esse método alcança alta fidelidade com base no fornecimento de informações de imagem mais precisas e na retificação de ruído. Especificamente, dada uma imagem especificada, nosso método primeiro adiciona ruído ao latente da imagem de entrada para preservar mais detalhes, em seguida, remove o ruído do latente com a retificação adequada para mitigar os vieses de predição de ruído. Nosso método não requer ajustes e é plug-and-play. Os resultados experimentais demonstram a eficácia de nossa abordagem na melhoria da fidelidade dos vídeos gerados. Para mais resultados de geração de imagem para vídeo, consulte o site do projeto: https://noise-rectification.github.io.
A linguagem oferece uma maneira de decompor conceitos complexos em partes digeríveis. Trabalhos recentes em aprendizado por imitação de robôs utilizam políticas condicionadas por linguagem que preveem ações dadas observações visuais e a especificação da tarefa de alto nível em linguagem. Esses métodos aproveitam a estrutura da linguagem natural para compartilhar dados entre tarefas semanticamente semelhantes (por exemplo, "pegar lata de refrigerante" e "pegar uma maçã") em conjuntos de dados multitarefa. No entanto, à medida que as tarefas se tornam mais semanticamente diversas (por exemplo, "pegar lata de refrigerante" e "despejar copo"), compartilhar dados entre tarefas se torna mais difícil, de modo que aprender a mapear tarefas de alto nível para ações requer muito mais dados de demonstração. Para conectar tarefas e ações, nossa ideia é ensinar ao robô a linguagem das ações, descrevendo movimentos de baixo nível com frases mais detalhadas, como "mover braço para frente". Prever esses movimentos de linguagem como um passo intermediário entre tarefas e ações força a política a aprender a estrutura compartilhada de movimentos de baixo nível em tarefas aparentemente distintas. Além disso, uma política condicionada por movimentos de linguagem pode ser facilmente corrigida durante a execução por meio de movimentos de linguagem especificados por humanos. Isso possibilita um novo paradigma para políticas flexíveis que podem aprender com a intervenção humana em linguagem. Nosso método RT-H constrói uma hierarquia de ações usando movimentos de linguagem: ele primeiro aprende a prever movimentos de linguagem e, condicionado a isso e à tarefa de alto nível, prevê ações, utilizando contexto visual em todas as etapas. Mostramos que o RT-H aproveita essa hierarquia linguagem-ação para aprender políticas mais robustas e flexíveis, explorando efetivamente conjuntos de dados multitarefa. Demonstramos que essas políticas não apenas permitem responder a intervenções de linguagem, mas também podem aprender com tais intervenções e superar métodos que aprendem com intervenções teleoperadas. Nosso site e vídeos podem ser encontrados em https://rt-hierarchy.github.io.
Manipular objetos com duas mãos multifuncionais tem sido um desafio de longa data na robótica, atribuído à natureza rica em contato de muitas tarefas de manipulação e à complexidade inerente na coordenação de um sistema bimanual de alta dimensionalidade. Neste trabalho, consideramos o problema de girar tampas de diversos objetos semelhantes a garrafas com duas mãos, e demonstramos que políticas treinadas em simulação usando aprendizado por reforço profundo podem ser efetivamente transferidas para o mundo real. Com novas percepções de engenharia em modelagem física, percepção em tempo real e design de recompensas, a política demonstra capacidades de generalização em um conjunto diversificado de objetos não vistos, exibindo comportamentos dinâmicos e habilidosos. Nossas descobertas servem como evidência convincente de que o aprendizado por reforço profundo combinado com transferência sim-para-real continua sendo uma abordagem promissora para resolver problemas de manipulação de complexidade sem precedentes.
A construção de vídeos foto-realísticos de Visão Livre (Free-Viewpoint Videos - FVVs) de cenas dinâmicas a partir de vídeos multi-visão continua sendo um desafio significativo. Apesar dos avanços notáveis alcançados pelas técnicas atuais de renderização neural, esses métodos geralmente exigem sequências completas de vídeo para treinamento offline e não são capazes de renderização em tempo real. Para abordar essas limitações, introduzimos o 3DGStream, um método projetado para o streaming eficiente de FVVs de cenas dinâmicas do mundo real. Nosso método alcança reconstrução rápida por quadro em tempo real em menos de 12 segundos e renderização em tempo real a 200 FPS. Especificamente, utilizamos Gaussianas 3D (3DGs) para representar a cena. Em vez da abordagem ingênua de otimizar diretamente as 3DGs por quadro, empregamos um Cache de Transformação Neural (Neural Transformation Cache - NTC) compacto para modelar as translações e rotações das 3DGs, reduzindo significativamente o tempo de treinamento e o armazenamento necessário para cada quadro do FVV. Além disso, propomos uma estratégia adaptativa de adição de 3DGs para lidar com objetos emergentes em cenas dinâmicas. Experimentos demonstram que o 3DGStream alcança desempenho competitivo em termos de velocidade de renderização, qualidade de imagem, tempo de treinamento e armazenamento do modelo quando comparado com métodos state-of-the-art.