Artigos de pesquisa em IA selecionados diariamente com traduções
A geração personalizada de imagens a partir de texto emergiu como uma ferramenta poderosa e altamente desejada, capacitando os usuários a criar imagens personalizadas com base em seus conceitos e prompts específicos. No entanto, as abordagens existentes para personalização enfrentam múltiplos desafios, incluindo tempos longos de ajuste, grandes requisitos de armazenamento, a necessidade de múltiplas imagens de entrada por identidade e limitações na preservação da identidade e na editabilidade. Para superar esses obstáculos, apresentamos o PhotoVerse, uma metodologia inovadora que incorpora um mecanismo de condicionamento de duplo ramo nos domínios de texto e imagem, proporcionando controle eficaz sobre o processo de geração de imagens. Além disso, introduzimos a perda de identidade facial como um componente novo para aprimorar a preservação da identidade durante o treinamento. Notavelmente, o PhotoVerse proposto elimina a necessidade de ajuste durante o teste e depende apenas de uma única foto facial da identidade alvo, reduzindo significativamente o custo de recursos associado à geração de imagens. Após uma única fase de treinamento, nossa abordagem permite gerar imagens de alta qualidade em apenas alguns segundos. Além disso, nosso método pode produzir imagens diversas que abrangem várias cenas e estilos. A avaliação extensiva demonstra o desempenho superior de nossa abordagem, que alcança os objetivos duplos de preservar a identidade e facilitar a editabilidade. Página do projeto: https://photoverse2d.github.io/
Os modelos de difusão revolucionaram a geração de imagens a partir de texto com sua qualidade excepcional e criatividade. No entanto, seu processo de amostragem em múltiplas etapas é conhecido por ser lento, frequentemente exigindo dezenas de passos de inferência para obter resultados satisfatórios. Tentativas anteriores de melhorar sua velocidade de amostragem e reduzir custos computacionais por meio de destilação não conseguiram alcançar um modelo funcional de uma única etapa. Neste artigo, exploramos um método recente chamado Rectified Flow, que, até agora, só foi aplicado a pequenos conjuntos de dados. O cerne do Rectified Flow está em seu procedimento de reflow, que endireita as trajetórias dos fluxos de probabilidade, refina o acoplamento entre ruídos e imagens e facilita o processo de destilação com modelos estudantis. Propomos um novo pipeline condicionado por texto para transformar o Stable Diffusion (SD) em um modelo ultrarrápido de uma única etapa, no qual descobrimos que o reflow desempenha um papel crítico na melhoria da atribuição entre ruído e imagens. Aproveitando nosso novo pipeline, criamos, até onde sabemos, o primeiro gerador de imagens a partir de texto baseado em difusão de uma única etapa com qualidade de imagem no nível do SD, alcançando um FID (Frechet Inception Distance) de 23,3 no MS COCO 2017-5k, superando a técnica anterior de estado da arte, destilação progressiva, por uma margem significativa (37,2 → 23,3 em FID). Ao utilizar uma rede expandida com 1,7 bilhão de parâmetros, melhoramos ainda mais o FID para 22,4. Chamamos nossos modelos de uma única etapa de InstaFlow. No MS COCO 2014-30k, o InstaFlow produz um FID de 13,1 em apenas 0,09 segundo, o melhor no regime ≤ 0,1 segundo, superando o recente StyleGAN-T (13,9 em 0,1 segundo). Notavelmente, o treinamento do InstaFlow custa apenas 199 dias de GPU A100. Página do projeto: https://github.com/gnobitab/InstaFlow.
O atendimento de alta taxa de transferência de grandes modelos de linguagem (LLMs) requer o agrupamento de um número suficiente de solicitações de cada vez. No entanto, os sistemas existentes enfrentam dificuldades porque a memória do cache de chave-valor (KV cache) para cada solicitação é grande e cresce e diminui dinamicamente. Quando gerenciada de forma ineficiente, essa memória pode ser significativamente desperdiçada por fragmentação e duplicação redundante, limitando o tamanho do lote. Para resolver esse problema, propomos o PagedAttention, um algoritmo de atenção inspirado nas técnicas clássicas de memória virtual e paginação em sistemas operacionais. Sobre ele, construímos o vLLM, um sistema de atendimento de LLMs que alcança (1) desperdício quase zero na memória do KV cache e (2) compartilhamento flexível do KV cache dentro e entre solicitações para reduzir ainda mais o uso de memória. Nossas avaliações mostram que o vLLM melhora a taxa de transferência de LLMs populares em 2 a 4 vezes com o mesmo nível de latência em comparação com os sistemas mais avançados, como FasterTransformer e Orca. A melhoria é mais pronunciada com sequências mais longas, modelos maiores e algoritmos de decodificação mais complexos. O código-fonte do vLLM está disponível publicamente em https://github.com/vllm-project/vllm.
Modelos de linguagem de grande escala se destacam em muitas tarefas de linguagem humana, mas frequentemente falham em domínios altamente especializados, como a astronomia acadêmica. Para preencher essa lacuna, apresentamos o AstroLLaMA, um modelo de 7 bilhões de parâmetros ajustado a partir do LLaMA-2 utilizando mais de 300.000 resumos de astronomia do arXiv. Otimizado para modelagem de linguagem causal tradicional, o AstroLLaMA alcança uma perplexidade 30% menor que o LLaMA-2, demonstrando uma adaptação significativa ao domínio. Nosso modelo gera completamentos de texto mais perspicazes e cientificamente relevantes, além de extrações de embeddings mais eficazes do que os modelos de base state-of-the-art, apesar de ter significativamente menos parâmetros. O AstroLLaMA serve como um modelo robusto e específico para o domínio, com amplo potencial de ajuste fino. Sua liberação pública visa impulsionar pesquisas focadas em astronomia, incluindo a sumarização automática de artigos e o desenvolvimento de agentes conversacionais.
A manipulação hábil tem sido um desafio de longa data na robótica. Embora as técnicas de aprendizado de máquina tenham mostrado algum potencial, os resultados têm sido amplamente limitados à simulação. Isso pode ser atribuído principalmente à falta de hardware adequado. Neste artigo, apresentamos a LEAP Hand, uma mão hábil e antropomórfica de baixo custo para pesquisa em aprendizado de máquina. Em contraste com mãos anteriores, a LEAP Hand possui uma estrutura cinemática inovadora que permite máxima destreza independentemente da pose dos dedos. A LEAP Hand é de baixo custo e pode ser montada em 4 horas a um custo de 2000 USD com peças facilmente disponíveis. Ela é capaz de exercer consistentemente grandes torques por longos períodos de tempo. Mostramos que a LEAP Hand pode ser usada para realizar várias tarefas de manipulação no mundo real — desde teleoperação visual até aprendizado a partir de dados de vídeo passivos e sim2real. A LEAP Hand supera significativamente sua concorrente mais próxima, a Allegro Hand, em todos os nossos experimentos, enquanto custa 1/8 do valor. Disponibilizamos instruções detalhadas de montagem, o pipeline Sim2Real e uma plataforma de desenvolvimento com APIs úteis em nosso site em https://leap-hand.github.io/.
Grandes esforços têm sido feitos para aprender avatares humanos animáveis e fotorrealistas. Para esse fim, tanto representações 3D explícitas quanto implícitas são amplamente estudadas para uma modelagem e captura holística do ser humano completo (por exemplo, corpo, roupas, rosto e cabelo), mas nenhuma dessas representações é uma escolha ideal em termos de eficácia de representação, já que diferentes partes do avatar humano têm diferentes requisitos de modelagem. Por exemplo, malhas geralmente não são adequadas para modelar roupas e cabelos. Motivados por isso, apresentamos os Avatares Desacoplados (DELTA), que modelam humanos com representações 3D híbridas explícitas-implícitas. O DELTA recebe um vídeo RGB monocromático como entrada e produz um avatar humano com camadas separadas para o corpo e para as roupas/cabelos. Especificamente, demonstramos duas aplicações importantes para o DELTA. Na primeira, consideramos o desacoplamento do corpo humano e das roupas, e na segunda, desacoplamos o rosto e o cabelo. Para isso, o DELTA representa o corpo ou o rosto com um modelo paramétrico 3D explícito baseado em malha e as roupas ou cabelos com um campo de radiação neural implícito. Para tornar isso possível, projetamos um renderizador diferenciável de ponta a ponta que integra malhas à renderização volumétrica, permitindo que o DELTA aprenda diretamente de vídeos monocromáticos sem qualquer supervisão 3D. Por fim, mostramos como essas duas aplicações podem ser facilmente combinadas para modelar avatares de corpo inteiro, de modo que o cabelo, o rosto, o corpo e as roupas possam ser completamente desacoplados, mas renderizados em conjunto. Esse desacoplamento permite a transferência de cabelos e roupas para formas corporais arbitrárias. Validamos empiricamente a eficácia do desacoplamento do DELTA demonstrando seu desempenho promissor em reconstrução desacoplada, experimentação virtual de roupas e transferência de penteados. Para facilitar pesquisas futuras, também disponibilizamos um pipeline de código aberto para o estudo de modelagem híbrida de avatares humanos.