Artigos de pesquisa em IA selecionados diariamente com traduções
Os priores generativos de modelos de difusão de texto para imagem em grande escala permitem uma ampla gama de novas aplicações de geração e edição em diversas modalidades visuais. No entanto, ao adaptar esses priores a modalidades visuais complexas, frequentemente representadas como múltiplas imagens (por exemplo, vídeo), alcançar consistência entre um conjunto de imagens é um desafio. Neste artigo, abordamos esse desafio com um método inovador, a Distilação de Pontuação Colaborativa (CSD, na sigla em inglês). O CSD é baseado no Gradiente de Descida Variacional de Stein (SVGD, na sigla em inglês). Especificamente, propomos considerar múltiplas amostras como "partículas" na atualização do SVGD e combinar suas funções de pontuação para destilar priores generativos sobre um conjunto de imagens de forma síncrona. Assim, o CSD facilita a integração perfeita de informações entre imagens 2D, levando a uma síntese visual consistente em múltiplas amostras. Demonstramos a eficácia do CSD em uma variedade de tarefas, abrangendo a edição visual de imagens panorâmicas, vídeos e cenas 3D. Nossos resultados destacam a competência do CSD como um método versátil para aprimorar a consistência entre amostras, ampliando assim a aplicabilidade dos modelos de difusão de texto para imagem.
O aprendizado de máquina para equações diferenciais abre caminho para alternativas computacionalmente eficientes aos solucionadores numéricos, com impactos potencialmente amplos na ciência e engenharia. Embora os algoritmos atuais geralmente exijam dados de treinamento simulados adaptados a um cenário específico, pode-se desejar aprender informações úteis a partir de fontes heterogêneas ou de observações de sistemas dinâmicos reais que são confusas ou incompletas. Neste trabalho, aprendemos representações de propósito geral de EDPs a partir de dados heterogêneos, implementando métodos de incorporação conjunta para aprendizado auto-supervisionado (SSL), um framework para aprendizado de representação não supervisionado que obteve sucesso notável em visão computacional. Nossa representação supera abordagens baselines para tarefas invariantes, como a regressão dos coeficientes de uma EDP, ao mesmo tempo em que melhora o desempenho de solucionadores neurais em passos de tempo. Esperamos que a metodologia proposta seja útil no desenvolvimento futuro de modelos de base de propósito geral para EDPs.
Apresentamos uma abordagem inovadora para a geração de ativos 3D estáticos e articulados que tem como núcleo um autodecodificador 3D. O framework do autodecodificador 3D incorpora propriedades aprendidas do conjunto de dados alvo no espaço latente, que pode então ser decodificado em uma representação volumétrica para renderizar aparência e geometria consistentes com a visão. Em seguida, identificamos o espaço latente volumétrico intermediário apropriado e introduzimos operações robustas de normalização e desnormalização para aprender uma difusão 3D a partir de imagens 2D ou vídeos monoculares de objetos rígidos ou articulados. Nossa abordagem é flexível o suficiente para utilizar tanto supervisão de câmera existente quanto nenhuma informação de câmera — aprendendo-a de forma eficiente durante o treinamento. Nossas avaliações demonstram que nossos resultados de geração superam alternativas state-of-the-art em vários conjuntos de dados de benchmark e métricas, incluindo conjuntos de dados de imagens multi-visão de objetos sintéticos, vídeos reais de pessoas em movimento capturados em ambientes naturais e um grande conjunto de dados de vídeos reais de objetos estáticos.
Dado um conjunto de imagens calibradas de uma cena, apresentamos uma abordagem que produz uma representação 3D do mundo simples, compacta e acionável por meio de primitivos 3D. Enquanto muitas abordagens se concentram em recuperar cenas 3D de alta fidelidade, nós nos concentramos em analisar uma cena em representações 3D de nível médio, compostas por um pequeno conjunto de primitivos texturizados. Tais representações são interpretáveis, fáceis de manipular e adequadas para simulações baseadas em física. Além disso, ao contrário dos métodos existentes de decomposição de primitivos que dependem de dados de entrada 3D, nossa abordagem opera diretamente em imagens por meio de renderização diferenciável. Especificamente, modelamos os primitivos como malhas de superquadric texturizadas e otimizamos seus parâmetros do zero com uma perda de renderização de imagem. Destacamos a importância de modelar a transparência para cada primitivo, o que é crucial para a otimização e também permite lidar com números variáveis de primitivos. Mostramos que os primitivos texturizados resultantes reconstroem fielmente as imagens de entrada e modelam com precisão os pontos 3D visíveis, ao mesmo tempo que fornecem completamentos de forma amodal de regiões de objetos não vistas. Comparamos nossa abordagem com o estado da arte em diversas cenas do DTU e demonstramos sua robustez em capturas da vida real do BlendedMVS e Nerfstudio. Também mostramos como nossos resultados podem ser usados para editar uma cena ou realizar simulações físicas com facilidade. Código e resultados em vídeo estão disponíveis em https://www.tmonnier.com/DBW.
O pré-treinamento vídeo-linguagem (VLP) tem se tornado cada vez mais importante devido à sua capacidade de generalizar para diversas tarefas de visão e linguagem. No entanto, os frameworks existentes de VLP egocêntrico utilizam codificadores separados para vídeo e linguagem e aprendem informações cruzadas específicas para cada tarefa apenas durante o ajuste fino, limitando o desenvolvimento de um sistema unificado. Neste trabalho, introduzimos a segunda geração do pré-treinamento vídeo-linguagem egocêntrico (EgoVLPv2), uma melhoria significativa em relação à geração anterior, ao incorporar a fusão cruzada diretamente nos backbones de vídeo e linguagem. O EgoVLPv2 aprende representações robustas de vídeo-texto durante o pré-treinamento e reutiliza os módulos de atenção cruzada para suportar diferentes tarefas subsequentes de forma flexível e eficiente, reduzindo os custos de ajuste fino. Além disso, nossa estratégia proposta de fusão no backbone é mais leve e computacionalmente eficiente do que a adição de camadas específicas para fusão. Experimentos extensos em uma ampla gama de tarefas de VL demonstram a eficácia do EgoVLPv2 ao alcançar desempenho consistente de última geração em comparação com baselines fortes em todas as tarefas subsequentes. Nossa página do projeto pode ser encontrada em https://shramanpramanick.github.io/EgoVLPv2/.
O acesso a ativos digitais humanos 3D articulados de alta qualidade e diversidade é crucial em diversas aplicações, desde realidade virtual até plataformas sociais. Abordagens generativas, como redes generativas adversariais 3D (GANs), estão rapidamente substituindo ferramentas manuais de criação de conteúdo, que são trabalhosas. No entanto, os frameworks existentes de GANs 3D geralmente dependem de representações de cena que utilizam malhas de template, que são rápidas, mas oferecem qualidade limitada, ou volumes, que oferecem alta capacidade, mas são lentos para renderizar, limitando assim a fidelidade 3D em configurações de GAN. Neste trabalho, introduzimos volumes de superfície em camadas (LSVs, do inglês Layered Surface Volumes) como uma nova representação de objetos 3D para humanos digitais articulados. LSVs representam um corpo humano utilizando múltiplas camadas de malhas texturizadas ao redor de um template convencional. Essas camadas são renderizadas usando composição alfa com rasterização diferenciável rápida e podem ser interpretadas como uma representação volumétrica que aloca sua capacidade a uma variedade de espessura finita ao redor do template. Diferentemente dos templates convencionais de camada única, que têm dificuldade em representar detalhes finos fora da superfície, como cabelo ou acessórios, nossos volumes de superfície capturam naturalmente tais detalhes. LSVs podem ser articulados e exibem eficiência excepcional em configurações de GAN, onde um gerador 2D aprende a sintetizar as texturas RGBA para as camadas individuais. Treinado em conjuntos de dados não estruturados de imagens 2D de visão única, nosso LSV-GAN gera humanos digitais 3D articulados de alta qualidade e consistência visual sem a necessidade de redes de upsampling 2D inconsistentes em relação à visão.
Trabalhos anteriores estabeleceram o treinamento em tempo de teste (TTT) como uma estrutura geral para melhorar ainda mais um modelo treinado durante o teste. Antes de fazer uma previsão sobre cada instância de teste, o modelo é treinado na mesma instância usando uma tarefa auto-supervisionada, como a reconstrução de imagens com autoencoders mascarados. Nós estendemos o TTT para o cenário de streaming, onde múltiplas instâncias de teste - no nosso caso, quadros de vídeo - chegam em ordem temporal. Nossa extensão é o TTT online: o modelo atual é inicializado a partir do modelo anterior, então treinado no quadro atual e em uma pequena janela de quadros imediatamente anteriores. O TTT online supera significativamente a linha de base de modelo fixo em quatro tarefas, em três conjuntos de dados do mundo real. A melhoria relativa é de 45% e 66% para segmentação de instância e panóptica. Surpreendentemente, o TTT online também supera sua variante offline que acessa mais informações, treinando em todos os quadros de todo o vídeo de teste, independentemente da ordem temporal. Isso difere de descobertas anteriores usando vídeos sintéticos. Conceituamos a localidade como a vantagem do TTT online sobre o offline. Analisamos o papel da localidade com ablações e uma teoria baseada no trade-off entre viés e variância.