Artigos de pesquisa em IA selecionados diariamente com traduções
O Segment Anything Model (SAM) estabeleceu-se como um poderoso modelo de segmentação de imagens em cenário zero-shot, empregando prompts interativos como pontos para gerar máscaras. Este artigo apresenta o SAM-PT, um método que estende a capacidade do SAM para rastrear e segmentar qualquer coisa em vídeos dinâmicos. O SAM-PT utiliza técnicas robustas de seleção e propagação de pontos esparsos para a geração de máscaras, demonstrando que um rastreador de segmentação baseado no SAM pode alcançar um forte desempenho zero-shot em benchmarks populares de segmentação de objetos em vídeo, incluindo DAVIS, YouTube-VOS e MOSE. Comparado às estratégias tradicionais de propagação de máscaras centradas em objetos, utilizamos exclusivamente a propagação de pontos para explorar informações de estrutura local que são agnósticas à semântica do objeto. Destacamos os méritos do rastreamento baseado em pontos através de avaliação direta no benchmark zero-shot de Objetos de Vídeo Não Identificados (UVO) em mundo aberto. Para aprimorar ainda mais nossa abordagem, utilizamos o agrupamento K-Medoids para inicialização de pontos e rastreamos tanto pontos positivos quanto negativos para distinguir claramente o objeto alvo. Também empregamos múltiplas passagens de decodificação de máscaras para refinamento e desenvolvemos uma estratégia de reinicialização de pontos para melhorar a precisão do rastreamento. Nosso código integra diferentes rastreadores de pontos e benchmarks de segmentação de vídeo e será disponibilizado em https://github.com/SysCV/sam-pt.
Modelos recentes de difusão guiada por texto em grande escala oferecem capacidades poderosas de geração de imagens. Atualmente, um esforço significativo está sendo direcionado para permitir a modificação dessas imagens usando apenas texto como meio de oferecer edição intuitiva e versátil. No entanto, a edição se mostra difícil para esses modelos generativos devido à natureza intrínseca das técnicas de edição, que envolvem preservar certos conteúdos da imagem original. Por outro lado, em modelos baseados em texto, até mesmo pequenas modificações no prompt de texto frequentemente resultam em um resultado completamente distinto, tornando extremamente desafiador alcançar uma geração em uma única tentativa que corresponda com precisão à intenção do usuário. Além disso, para editar uma imagem real usando essas ferramentas de ponta, é necessário primeiro inverter a imagem no domínio do modelo pré-treinado - adicionando outro fator que afeta a qualidade da edição, bem como a latência. Neste relatório exploratório, propomos o LEDITS - uma abordagem leve combinada para edição de imagens reais, incorporando a técnica de inversão DDPM amigável à edição com Orientação Semântica, estendendo assim a Orientação Semântica para a edição de imagens reais, ao mesmo tempo em que aproveita as capacidades de edição da inversão DDPM. Essa abordagem alcança edições versáteis, tanto sutis quanto extensas, bem como alterações na composição e no estilo, sem exigir otimização nem extensões à arquitetura.
A IA generativa tem feito avanços significativos na área de visão computacional, particularmente na síntese de imagens/vídeos condicionada a descrições textuais. Apesar dos progressos, ainda existem desafios, especialmente na geração de conteúdo centrado em humanos, como a síntese de dança. Os métodos existentes de síntese de dança enfrentam dificuldades em reduzir a lacuna entre o conteúdo sintetizado e os cenários de dança do mundo real. Neste artigo, definimos um novo problema: a Geração de Dança Humana Referenciada, que se concentra em cenários de dança do mundo real com três propriedades importantes: (i) Fidelidade: a síntese deve preservar a aparência tanto do primeiro plano (sujeito humano) quanto do fundo da imagem de referência, e seguir precisamente a pose alvo; (ii) Generalização: o modelo deve ser capaz de generalizar para sujeitos humanos, fundos e poses não vistos anteriormente; (iii) Composicionalidade: deve permitir a composição de sujeitos, fundos e poses vistos/não vistos de diferentes fontes. Para enfrentar esses desafios, introduzimos uma nova abordagem, chamada DISCO, que inclui uma arquitetura de modelo inovadora com controle desacoplado para melhorar a fidelidade e a composicionalidade da síntese de dança, além de um pré-treinamento eficaz de atributos humanos para uma melhor generalização para humanos não vistos. Resultados qualitativos e quantitativos extensivos demonstram que o DISCO pode gerar imagens e vídeos de dança humana de alta qualidade, com aparências diversas e movimentos flexíveis. Código, demonstração, vídeo e visualizações estão disponíveis em: https://disco-dance.github.io/.
O advento dos grandes modelos de linguagem (LLMs, na sigla em inglês) revolucionou o processamento de linguagem natural, permitindo a geração de textos coerentes e contextualmente relevantes. À medida que os LLMs passam a impulsionar agentes conversacionais, a personalidade sintetizada incorporada nesses modelos, em virtude de seu treinamento com grandes quantidades de dados gerados por humanos, chama a atenção. Como a personalidade é um fator importante na determinação da eficácia da comunicação, apresentamos um método abrangente para administrar testes psicométricos validados e quantificar, analisar e moldar traços de personalidade exibidos em textos gerados por LLMs amplamente utilizados. Descobrimos que: 1) a personalidade simulada nas saídas de alguns LLMs (sob configurações específicas de prompts) é confiável e válida; 2) as evidências de confiabilidade e validade da personalidade simulada por LLMs são mais fortes em modelos maiores e ajustados por instrução; e 3) a personalidade nas saídas dos LLMs pode ser moldada ao longo de dimensões desejadas para imitar perfis de personalidade específicos. Também discutimos possíveis aplicações e implicações éticas de nossa estrutura de medição e moldagem, especialmente no que diz respeito ao uso responsável dos LLMs.
Embora os recentes avanços em modelos de visão e linguagem tenham revolucionado a compreensão multimodal, ainda não está claro se eles possuem a capacidade de compreender as imagens geradas. Em comparação com dados reais, as imagens sintéticas exibem um grau maior de diversidade tanto em conteúdo quanto em estilo, o que apresenta dificuldades significativas para os modelos compreenderem plenamente. Para isso, apresentamos um conjunto de dados em larga escala, o JourneyDB, para a compreensão visual multimodal em imagens geradas. Nosso conjunto de dados curado abrange 4 milhões de imagens geradas diversas e de alta qualidade, emparelhadas com os prompts de texto usados para produzi-las. Além disso, projetamos 4 benchmarks para quantificar o desempenho da compreensão de imagens geradas em termos de interpretação de conteúdo e estilo. Esses benchmarks incluem inversão de prompt, recuperação de estilo, descrição de imagem e resposta a perguntas visuais. Por fim, avaliamos o desempenho dos modelos multimodais mais avançados atualmente quando aplicados ao JourneyDB e fornecemos uma análise detalhada de seus pontos fortes e limitações na compreensão de conteúdo gerado. Esperamos que o conjunto de dados e os benchmarks propostos facilitem a pesquisa no campo da compreensão de conteúdo gerado. O conjunto de dados estará disponível em https://journeydb.github.io.
Este artigo apresenta o MVDiffusion, um método simples, porém eficaz, para geração de imagens multi-visão em cenários onde correspondências pixel-a-pixel estão disponíveis, como cortes perspectivos de panoramas ou imagens multi-visão com geometria fornecida (mapas de profundidade e poses). Diferente de modelos anteriores que dependem de deformação iterativa de imagens e preenchimento de lacunas, o MVDiffusion gera todas as imagens simultaneamente com uma consciência global, abrangendo alta resolução e conteúdo rico, abordando efetivamente o acúmulo de erros prevalecente em modelos anteriores. O MVDiffusion incorpora especificamente um mecanismo de atenção consciente de correspondência, permitindo uma interação eficaz entre as visões. Esse mecanismo sustenta três módulos fundamentais: 1) um módulo de geração que produz imagens de baixa resolução mantendo a correspondência global, 2) um módulo de interpolação que densifica a cobertura espacial entre as imagens, e 3) um módulo de super-resolução que amplia as imagens para saídas de alta resolução. Em termos de imagens panorâmicas, o MVDiffusion pode gerar imagens foto-realísticas de alta resolução de até 1024x1024 pixels. Para a geração de imagens multi-visão condicionadas por geometria, o MVDiffusion demonstra ser o primeiro método capaz de gerar um mapa texturizado de uma malha de cena. A página do projeto está disponível em https://mvdiffusion.github.io.
Abordagens baseadas em aprendizado para captura de movimento monocular têm mostrado recentemente resultados promissores ao aprender a regredir de maneira orientada por dados. No entanto, devido aos desafios na coleta de dados e no design das redes, ainda é difícil para as soluções existentes alcançar a captura em tempo real de todo o corpo com precisão no espaço mundial. Neste trabalho, contribuímos com um esquema sequencial de aprendizado de proxy para movimento, juntamente com um conjunto de dados proxy de sequências de esqueletos 2D e movimentos rotacionais 3D no espaço mundial. Esses dados proxy nos permitem construir uma rede baseada em aprendizado com supervisão precisa de todo o corpo, ao mesmo tempo em que mitigamos os problemas de generalização. Para previsões mais precisas e fisicamente plausíveis, propomos um módulo neural de descida de movimento consciente de contato em nossa rede, para que ela possa estar ciente do contato pé-chão e do desalinhamento de movimento com as observações proxy. Além disso, compartilhamos as informações de contexto corpo-mão em nossa rede para uma recuperação mais compatível das poses do punho com o modelo de corpo inteiro. Com a solução baseada em aprendizado proposta, demonstramos o primeiro sistema de captura monocular em tempo real de todo o corpo com contato plausível pé-chão no espaço mundial. Mais resultados em vídeo podem ser encontrados em nossa página do projeto: https://liuyebin.com/proxycap.
Modelos de linguagem de grande escala demonstram resultados impressionantes em tarefas de NLP com poucos exemplos. No entanto, esses modelos são intensivos em memória e computação. O meta-treinamento permite aproveitar modelos menores para generalização com poucos exemplos de maneira independente de domínio e tarefa; entretanto, esses métodos isoladamente resultam em modelos que podem não ter parametrização ou conhecimento suficientes para se adaptar rapidamente a uma grande variedade de tarefas. Para superar esse problema, propomos o meta-treinamento com recuperação de demonstrações, onde utilizamos um recuperador de passagens densas para recuperar demonstrações rotuladas semanticamente semelhantes a cada exemplo, proporcionando uma supervisão mais variada. Ao separar o conhecimento externo dos parâmetros do modelo, podemos usar o meta-treinamento para treinar modelos eficientes em parâmetros que generalizam bem em uma variedade maior de tarefas. Construímos um conjunto de meta-treinamento a partir do UnifiedQA e CrossFit, e propomos um banco de demonstrações baseado em tarefas do UnifiedQA. Até onde sabemos, nosso trabalho é o primeiro a combinar recuperação com meta-treinamento, a usar modelos DPR para recuperar demonstrações, e a aproveitar demonstrações de muitas tarefas simultaneamente, em vez de amostrar aleatoriamente demonstrações do conjunto de treinamento da tarefa alvo. Nossa abordagem supera uma variedade de métodos eficientes em parâmetros e aumentados por recuperação para tarefas de QA, NLI e classificação de texto (incluindo SQuAD, QNLI e TREC). Nossa abordagem pode ser meta-treinada e ajustada rapidamente em uma única GPU.
Modelos de linguagem pré-treinados (PLMs) são atualmente o principal modelo para processamento de linguagem natural. Apesar de seu desempenho impressionante em tarefas subsequentes, pode ser difícil aplicar PLMs a novos idiomas, o que representa uma barreira para tornar suas capacidades universalmente acessíveis. Embora trabalhos anteriores tenham demonstrado ser possível abordar essa questão aprendendo uma nova camada de embeddings para o novo idioma, fazer isso é ineficiente tanto em termos de dados quanto de computação. Propomos o uso de um mecanismo de esquecimento ativo durante o pré-treinamento, como uma maneira simples de criar PLMs que possam se adaptar rapidamente a novos idiomas. Concretamente, ao redefinir a camada de embeddings a cada K atualizações durante o pré-treinamento, incentivamos o PLM a melhorar sua capacidade de aprender novos embeddings dentro de um número limitado de atualizações, semelhante a um efeito de meta-aprendizado. Experimentos com o RoBERTa mostram que modelos pré-treinados com nosso mecanismo de esquecimento não apenas demonstram convergência mais rápida durante a adaptação de idiomas, mas também superam os modelos padrão em cenários de baixo volume de dados, particularmente para idiomas distantes do inglês.
Nosso objetivo é que robôs sigam instruções em linguagem natural como "coloque a toalha ao lado do micro-ondas". No entanto, obter grandes quantidades de dados rotulados, ou seja, dados que contêm demonstrações de tarefas associadas à instrução em linguagem, é proibitivo. Em contraste, obter políticas que respondem a objetivos baseados em imagens é muito mais fácil, porque qualquer tentativa autônoma ou demonstração pode ser rotulada posteriormente com seu estado final como o objetivo. Neste trabalho, contribuímos com um método que aproveita políticas condicionadas por imagem e objetivo em conjunto com linguagem, utilizando apenas uma pequena quantidade de dados linguísticos. Trabalhos anteriores fizeram progressos nessa área usando modelos de visão e linguagem ou treinando conjuntamente políticas condicionadas por linguagem e objetivo, mas até agora nenhum dos métodos escalou efetivamente para tarefas robóticas do mundo real sem anotações humanas significativas. Nosso método alcança um desempenho robusto no mundo real ao aprender uma representação a partir dos dados rotulados que alinha a linguagem não à imagem do objetivo, mas sim à mudança desejada entre as imagens inicial e final que a instrução corresponde. Em seguida, treinamos uma política nessa representação: a política se beneficia de todos os dados não rotulados, mas a representação alinhada fornece uma interface para que a linguagem direcione a política. Mostramos o seguimento de instruções em uma variedade de tarefas de manipulação em diferentes cenários, com generalização para instruções linguísticas fora dos dados rotulados. Vídeos e código da nossa abordagem podem ser encontrados em nosso site: http://tiny.cc/grif.
A modelagem de avatares 3D beneficia diversos cenários de aplicação, como AR/VR, jogos e filmagens. Os rostos dos personagens contribuem com uma diversidade e vivacidade significativas como um componente vital dos avatares. No entanto, a construção de modelos 3D de rostos de personagens geralmente exige um grande esforço com ferramentas comerciais, mesmo para artistas experientes. Diversas ferramentas existentes baseadas em esboços falham em apoiar amadores na modelagem de formas faciais diversas e detalhes geométricos ricos. Neste artigo, apresentamos o SketchMetaFace - um sistema de esboço voltado para usuários amadores para modelar rostos 3D de alta fidelidade em minutos. Projetamos cuidadosamente tanto a interface do usuário quanto o algoritmo subjacente. Primeiro, traços conscientes da curvatura são adotados para melhor apoiar a controlabilidade do entalhe de detalhes faciais. Segundo, considerando o problema-chave de mapear um esboço 2D para um modelo 3D, desenvolvemos um novo método baseado em aprendizado denominado "Modelagem de Malha Guiada por Implícito e Profundidade" (IDGMM). Ele funde as vantagens das representações de malha, implícita e de profundidade para alcançar resultados de alta qualidade com alta eficiência. Além disso, para apoiar ainda mais a usabilidade, apresentamos um design de interface de esboço 2D de grosseiro para fino e uma ferramenta de sugestão de traços baseada em dados. Estudos com usuários demonstram a superioridade do nosso sistema em relação às ferramentas de modelagem existentes em termos de facilidade de uso e qualidade visual dos resultados. Análises experimentais também mostram que o IDGMM alcança um melhor equilíbrio entre precisão e eficiência. O SketchMetaFace está disponível em https://zhongjinluo.github.io/SketchMetaFace/.