Artigos de pesquisa em IA selecionados diariamente com traduções
A detecção de texto gerado por modelos de linguagem modernos de grande escala é considerada difícil, pois tanto os LLMs quanto os humanos podem exibir uma ampla gama de comportamentos complexos. No entanto, descobrimos que uma pontuação baseada no contraste entre dois modelos de linguagem intimamente relacionados é altamente precisa na separação de texto gerado por humanos e texto gerado por máquinas. Com base nesse mecanismo, propomos um novo detector de LLM que requer apenas cálculos simples usando um par de LLMs pré-treinados. O método, chamado Binoculars, alcança precisão de ponta sem a necessidade de dados de treinamento. Ele é capaz de identificar texto gerado por máquinas de uma variedade de LLMs modernos sem qualquer modificação específica do modelo. Avaliamos o Binoculars de forma abrangente em várias fontes de texto e em diferentes situações. Em uma ampla variedade de tipos de documentos, o Binoculars detecta mais de 90% das amostras geradas pelo ChatGPT (e outros LLMs) com uma taxa de falsos positivos de 0,01%, apesar de não ter sido treinado com nenhum dado do ChatGPT.
Consideráveis esforços têm sido investidos para ampliar a proficiência de modelos de linguagem de grande escala (LLMs) de código aberto em role-playing, emulando contrapartes proprietárias. No entanto, postulamos que os LLMs possuem inerentemente capacidades de role-playing, devido ao extenso conhecimento de personagens e diálogos potenciais incorporados em seus vastos corpora de treinamento. Assim, neste estudo, introduzimos Ditto, um método de autoalinhamento para role-playing. Ditto aproveita o conhecimento de personagens, incentivando um LLM que segue instruções a simular diálogos de role-playing como uma variante de compreensão de leitura. Este método cria um conjunto de treinamento para role-playing composto por 4.000 personagens, superando em dez vezes a escala dos conjuntos de dados atualmente disponíveis em termos de número de papéis. Posteriormente, ajustamos o LLM usando esse conjunto de dados autogerado para aprimorar suas capacidades de role-playing. Ao avaliar nosso benchmark de role-playing meticulosamente construído e reproduzível, bem como o subconjunto de role-playing do MT-Bench, Ditto, em várias escalas de parâmetros, mantém consistentemente uma identidade de papel consistente e fornece conhecimento específico do papel de forma precisa em conversas de role-playing de múltiplos turnos. Notavelmente, ele supera todas as linhas de base de role-playing de código aberto, exibindo níveis de desempenho comparáveis a chatbots proprietários avançados. Além disso, apresentamos o primeiro experimento abrangente de alinhamento de supervisão cruzada no domínio de role-playing, revelando que as capacidades intrínsecas dos LLMs limitam o conhecimento dentro do role-playing. Enquanto isso, os estilos de role-playing podem ser facilmente adquiridos com a orientação de modelos menores. Disponibilizamos os recursos relacionados em código aberto em https://github.com/OFA-Sys/Ditto.
Apresentamos o meta-prompting, uma técnica eficaz de scaffolding projetada para aprimorar a funcionalidade de modelos de linguagem (LMs). Essa abordagem transforma um único LM em um condutor multifacetado, habilidoso em gerenciar e integrar múltiplas consultas independentes de LMs. Ao empregar instruções de alto nível, o meta-prompting orienta o LM a decompor tarefas complexas em subtarefas menores e mais gerenciáveis. Essas subtarefas são então tratadas por instâncias distintas de "especialistas" do mesmo LM, cada uma operando sob instruções específicas e personalizadas. Central a esse processo está o próprio LM, em seu papel de condutor, que garante comunicação fluida e integração eficaz das saídas desses modelos especializados. Ele também emprega seu pensamento crítico inerente e processos robustos de verificação para refinar e autenticar o resultado final. Essa abordagem colaborativa de prompting capacita um único LM a atuar simultaneamente como um orquestrador abrangente e um painel de especialistas diversos, melhorando significativamente seu desempenho em uma ampla gama de tarefas. A natureza zero-shot e agnóstica a tarefas do meta-prompting simplifica bastante a interação do usuário, eliminando a necessidade de instruções detalhadas e específicas para cada tarefa. Além disso, nossa pesquisa demonstra a integração perfeita de ferramentas externas, como um interpretador Python, no framework de meta-prompting, ampliando assim sua aplicabilidade e utilidade. Por meio de experimentação rigorosa com o GPT-4, estabelecemos a superioridade do meta-prompting sobre métodos convencionais de scaffolding: Quando calculada a média em todas as tarefas, incluindo o Jogo de 24, Xeque-mate em Um e Quebra-cabeças de Programação Python, o meta-prompting, aprimorado com a funcionalidade de interpretador Python, supera o prompting padrão em 17,1%, o prompting especializado (dinâmico) em 17,3% e o prompting multipersona em 15,2%.
Os modelos de difusão têm demonstrado desempenho excepcional na geração e edição de imagens a partir de texto. No entanto, os métodos existentes frequentemente enfrentam desafios ao lidar com prompts de texto complexos que envolvem múltiplos objetos com múltiplos atributos e relações. Neste artigo, propomos uma nova estrutura de geração/edição de imagens a partir de texto sem necessidade de treinamento, denominada Recaption, Plan and Generate (RPG), que aproveita a poderosa capacidade de raciocínio em cadeia de pensamento de LLMs multimodais para melhorar a composicionalidade dos modelos de difusão de texto para imagem. Nossa abordagem utiliza o MLLM como um planejador global para decompor o processo de geração de imagens complexas em múltiplas tarefas de geração mais simples dentro de sub-regiões. Propomos uma difusão regional complementar para permitir a geração composicional por região. Além disso, integramos a geração e edição de imagens guiada por texto dentro do RPG proposto de forma em loop fechado, aumentando assim a capacidade de generalização. Experimentos extensivos demonstram que nosso RPG supera os modelos de difusão de texto para imagem mais avançados, incluindo DALL-E 3 e SDXL, particularmente na composição de objetos de múltiplas categorias e no alinhamento semântico entre texto e imagem. Notavelmente, nossa estrutura RPG exibe ampla compatibilidade com várias arquiteturas de MLLM (por exemplo, MiniGPT-4) e backbones de difusão (por exemplo, ControlNet). Nosso código está disponível em: https://github.com/YangLing0818/RPG-DiffusionMaster
Compreender e raciocinar sobre relações espaciais é uma capacidade fundamental para a Resposta Visual a Perguntas (VQA) e para a robótica. Embora os Modelos de Linguagem Visual (VLM) tenham demonstrado desempenho notável em certos benchmarks de VQA, eles ainda carecem de capacidades de raciocínio espacial 3D, como reconhecer relações quantitativas de objetos físicos, como distâncias ou diferenças de tamanho. Nossa hipótese é que a capacidade limitada de raciocínio espacial dos VLMs se deve à falta de conhecimento espacial 3D nos dados de treinamento, e nosso objetivo é resolver esse problema treinando VLMs com dados de raciocínio espacial em escala da internet. Para isso, apresentamos um sistema que facilita essa abordagem. Primeiro, desenvolvemos um framework automático de geração de dados de VQA espacial 3D que escala até 2 bilhões de exemplos de VQA em 10 milhões de imagens do mundo real. Em seguida, investigamos vários fatores na receita de treinamento, incluindo qualidade dos dados, pipeline de treinamento e arquitetura do VLM. Nosso trabalho apresenta o primeiro conjunto de dados de raciocínio espacial 3D em escala da internet no espaço métrico. Ao treinar um VLM com esses dados, aprimoramos significativamente sua capacidade em VQA espacial tanto qualitativa quanto quantitativa. Por fim, demonstramos que esse VLM desbloqueia novas aplicações downstream em raciocínio espacial em cadeia de pensamento e robótica devido à sua capacidade de estimativa quantitativa. Site do projeto: https://spatial-vlm.github.io/
Modelos de difusão texto-imagem são uma classe de modelos generativos profundos que demonstraram uma capacidade impressionante para geração de imagens de alta qualidade. No entanto, esses modelos são suscetíveis a vieses implícitos que surgem de pares texto-imagem em escala da web e podem modelar de forma imprecisa aspectos das imagens que nos importam. Isso pode resultar em amostras subótimas, viés do modelo e imagens que não estão alinhadas com a ética e as preferências humanas. Neste artigo, apresentamos um algoritmo escalável e eficaz para melhorar modelos de difusão utilizando Aprendizado por Reforço (RL) em um conjunto diversificado de funções de recompensa, como preferência humana, composicionalidade e justiça, aplicadas a milhões de imagens. Demonstramos como nossa abordagem supera substancialmente os métodos existentes para alinhar modelos de difusão com as preferências humanas. Além disso, ilustramos como isso melhora significativamente modelos pré-treinados de Stable Diffusion (SD), gerando amostras preferidas por humanos em 80,3% das vezes em comparação com as do modelo SD base, ao mesmo tempo em que melhora tanto a composição quanto a diversidade das amostras geradas.
À medida que as capacidades dos modelos multimodais de grande escala (LMMs) continuam a avançar, surge uma necessidade crescente de avaliar o desempenho desses modelos. Além disso, existe uma lacuna ainda maior na avaliação das habilidades avançadas de conhecimento e raciocínio dos LMMs em contextos não ingleses, como o chinês. Apresentamos o CMMMU, um novo benchmark de Compreensão Multimodal Multidisciplinar em Massa em Chinês, projetado para avaliar LMMs em tarefas que exigem conhecimento de nível universitário e raciocínio deliberado em um contexto chinês. O CMMMU é inspirado e segue rigorosamente o padrão de anotação e análise do MMMU. O CMMMU inclui 12 mil questões multimodais coletadas manualmente de exames universitários, quizzes e livros didáticos, abrangendo seis disciplinas principais: Arte & Design, Negócios, Ciências, Saúde & Medicina, Humanidades & Ciências Sociais e Tecnologia & Engenharia, assim como seu companheiro, o MMMU. Essas questões abrangem 30 disciplinas e compreendem 39 tipos de imagens altamente heterogêneas, como gráficos, diagramas, mapas, tabelas, partituras musicais e estruturas químicas. O CMMMU concentra-se na percepção complexa e no raciocínio com conhecimento específico de domínio no contexto chinês. Avaliamos 11 LLMs de código aberto e um GPT-4V(ision) proprietário. Mesmo o GPT-4V alcança apenas 42% de precisão, indicando um grande espaço para melhoria. O CMMMU impulsionará a comunidade a construir a próxima geração de LMMs em direção à inteligência artificial especializada e promoverá a democratização dos LMMs ao fornecer contextos linguísticos diversos.
Radiografias de tórax (CXRs) são o exame de imagem mais frequentemente realizado na prática clínica. Avanços recentes no desenvolvimento de modelos de base (FMs) de visão e linguagem abrem a possibilidade de realizar interpretação automatizada de CXRs, o que pode auxiliar médicos na tomada de decisões clínicas e melhorar os resultados dos pacientes. No entanto, desenvolver FMs capazes de interpretar CXRs com precisão é desafiador devido (1) à disponibilidade limitada de conjuntos de dados em larga escala de visão e linguagem no domínio de imagens médicas, (2) à falta de codificadores de visão e linguagem que possam capturar as complexidades dos dados médicos, e (3) à ausência de frameworks de avaliação para comparar as habilidades dos FMs na interpretação de CXRs. Neste trabalho, abordamos esses desafios primeiro introduzindo o CheXinstruct - um conjunto de dados de ajuste fino de instruções em larga escala, curado a partir de 28 conjuntos de dados publicamente disponíveis. Em seguida, apresentamos o CheXagent - um FM ajustado por instruções capaz de analisar e resumir CXRs. Para construir o CheXagent, projetamos um modelo de linguagem de grande escala (LLM) clínico para analisar relatórios de radiologia, um codificador de visão para representar imagens de CXR e uma rede para conectar as modalidades de visão e linguagem. Por fim, introduzimos o CheXbench - um novo benchmark projetado para avaliar sistematicamente FMs em 8 tarefas clinicamente relevantes de interpretação de CXRs. Avaliações quantitativas extensas e revisões qualitativas com cinco radiologistas especialistas demonstram que o CheXagent supera FMs desenvolvidos anteriormente, tanto de domínio geral quanto médico, nas tarefas do CheXbench. Além disso, em um esforço para melhorar a transparência do modelo, realizamos uma avaliação de justiça em fatores de sexo, raça e idade para destacar possíveis disparidades de desempenho. Nosso projeto está disponível em https://stanford-aimi.github.io/chexagent.html.
Apresentamos o Hourglass Diffusion Transformer (HDiT), um modelo generativo de imagens que exibe escalonamento linear com a contagem de pixels, suportando treinamento em alta resolução (por exemplo, 1024x1024) diretamente no espaço de pixels. Baseado na arquitetura Transformer, conhecida por escalar para bilhões de parâmetros, ele preenche a lacuna entre a eficiência das U-Nets convolucionais e a escalabilidade dos Transformers. O HDiT treina com sucesso sem técnicas típicas de treinamento em alta resolução, como arquiteturas multiescala, autoencoders latentes ou autocondicionamento. Demonstramos que o HDiT tem desempenho competitivo com modelos existentes no ImageNet 256^2 e estabelece um novo estado da arte para modelos de difusão no FFHQ-1024^2.
Propomos o Diffusion Inference-Time T-Optimization (DITTO), uma estrutura geral para controlar modelos de difusão pré-treinados de texto-para-música durante o tempo de inferência por meio da otimização de latentes de ruído inicial. Nosso método pode ser usado para otimizar qualquer função de perda diferenciável de correspondência de características para alcançar uma saída (estilizada) desejada e aproveita o checkpointing de gradiente para eficiência de memória. Demonstramos uma surpreendente variedade de aplicações para geração de música, incluindo inpainting, outpainting e looping, bem como controle de intensidade, melodia e estrutura musical — tudo sem nunca ajustar o modelo subjacente. Quando comparamos nossa abordagem com métodos relacionados baseados em treinamento, orientação e otimização, descobrimos que o DITTO alcança desempenho de ponta em quase todas as tarefas, superando abordagens comparáveis em termos de controlabilidade, qualidade de áudio e eficiência computacional, abrindo assim as portas para um controle de alta qualidade, flexível e sem treinamento de modelos de difusão. Exemplos de áudio podem ser encontrados em https://DITTO-Music.github.io/web/.
Alinhar grandes modelos de linguagem (LLMs) com as preferências humanas por meio de aprendizado por reforço com feedback humano (RLHF) pode levar ao "reward hacking", onde os LLMs exploram falhas no modelo de recompensa (RM) para alcançar recompensas aparentemente altas sem atender aos objetivos subjacentes. Identificamos dois desafios principais ao projetar RMs para mitigar o reward hacking: mudanças de distribuição durante o processo de RL e inconsistências nas preferências humanas. Como solução, propomos os Weight Averaged Reward Models (WARM), que primeiro ajustam finamente múltiplos RMs e, em seguida, os combinam no espaço de pesos. Essa estratégia segue a observação de que os pesos ajustados finamente permanecem linearmente conectados em modo quando compartilham a mesma pré-treinamento. Ao calcular a média dos pesos, o WARM melhora a eficiência em comparação com o agrupamento tradicional de previsões, ao mesmo tempo em que aumenta a confiabilidade sob mudanças de distribuição e a robustez a inconsistências de preferências. Nossos experimentos em tarefas de sumarização, utilizando métodos de melhor-de-N e RL, mostram que o WARM melhora a qualidade geral e o alinhamento das previsões dos LLMs; por exemplo, uma política RL ajustada finamente com WARM tem uma taxa de vitória de 79,4% contra uma política RL ajustada finamente com um único RM.
Modelos de difusão têm recebido crescente atenção na pesquisa devido às suas notáveis habilidades de transferência em tarefas de segmentação semântica. No entanto, gerar máscaras de segmentação refinadas com modelos de difusão frequentemente requer treinamento adicional em conjuntos de dados anotados, deixando incerto até que ponto os modelos de difusão pré-treinados, por si só, compreendem as relações semânticas das imagens que geram. Para abordar essa questão, aproveitamos o conhecimento semântico extraído do Stable Diffusion (SD) e buscamos desenvolver um segmentador de imagens capaz de gerar mapas de segmentação refinados sem qualquer treinamento adicional. A principal dificuldade decorre do fato de que mapas de características semanticamente significativos geralmente existem apenas nas camadas espacialmente de menor dimensionalidade, o que representa um desafio na extração direta de relações semânticas em nível de pixel a partir desses mapas de características. Para superar esse problema, nosso framework identifica correspondências semânticas entre os pixels da imagem e as localizações espaciais dos mapas de características de baixa dimensionalidade, explorando o processo de geração do SD, e as utiliza para construir mapas de segmentação em resolução de imagem. Em experimentos extensivos, os mapas de segmentação produzidos demonstraram ser bem delineados e capturar partes detalhadas das imagens, indicando a existência de conhecimento semântico altamente preciso em nível de pixel nos modelos de difusão.
Progressos significativos foram alcançados no treinamento de grandes modelos generativos para linguagem natural e imagens. No entanto, o avanço dos modelos generativos 3D é dificultado por suas demandas substanciais de recursos para treinamento, juntamente com representações ineficientes, não compactas e menos expressivas. Este artigo apresenta o Make-A-Shape, um novo modelo generativo 3D projetado para treinamento eficiente em grande escala, capaz de utilizar 10 milhões de formas publicamente disponíveis. Tecnicamente, primeiro inovamos uma representação de árvore de wavelets para codificar formas de maneira compacta, formulando o esquema de filtragem de coeficientes de subbanda para explorar eficientemente as relações entre os coeficientes. Em seguida, tornamos a representação gerável por um modelo de difusão, desenvolvendo o esquema de empacotamento de coeficientes de subbanda para organizar a representação em uma grade de baixa resolução. Além disso, derivamos a estratégia de treinamento adaptativo de subbanda para treinar nosso modelo a aprender efetivamente a gerar coeficientes de wavelets grossos e detalhados. Por fim, estendemos nosso framework para ser controlado por condições de entrada adicionais, permitindo que ele gere formas a partir de diversas modalidades, como imagens de visão única/múltipla, nuvens de pontos e voxels de baixa resolução. Em nosso extenso conjunto de experimentos, demonstramos várias aplicações, como geração incondicional, completamento de formas e geração condicional em uma ampla gama de modalidades. Nossa abordagem não apenas supera o estado da arte na entrega de resultados de alta qualidade, mas também gera formas de maneira eficiente em poucos segundos, muitas vezes alcançando isso em apenas 2 segundos para a maioria das condições.
Neste estudo, apresentamos o Orion-14B, uma coleção de modelos de linguagem grandes multilingues com 14 bilhões de parâmetros. Utilizamos uma abordagem de agendamento de dados para treinar um modelo base em um corpus diversificado de 2,5 trilhões de tokens, provenientes de textos em inglês, chinês, japonês, coreano e outros idiomas. Além disso, ajustamos finamente uma série de modelos adaptados para aplicações conversacionais e outros casos de uso específicos. Nossos resultados de avaliação demonstram que o Orion-14B alcança desempenho de ponta em uma ampla gama de tarefas. Disponibilizamos publicamente a família de modelos Orion-14B e seu código associado em https://github.com/OrionStarAI/Orion, com o objetivo de inspirar pesquisas futuras e aplicações práticas na área.
Os avanços recentes em modelos de linguagem (LM) têm demonstrado desempenho impressionante em conversão de voz (VC) zero-shot. No entanto, os modelos de VC baseados em LM existentes geralmente aplicam a conversão offline de semântica de origem para características acústicas, exigindo o discurso de origem completo e limitando sua implantação em aplicações em tempo real. Neste artigo, apresentamos o StreamVoice, um novo modelo de streaming baseado em LM para VC zero-shot, facilitando a conversão em tempo real com prompts de falante e discurso de origem arbitrários. Especificamente, para habilitar a capacidade de streaming, o StreamVoice emprega um LM totalmente causal com consciência de contexto e um preditor acústico independente temporal, enquanto processa alternadamente características semânticas e acústicas em cada passo de tempo da autoregressão, eliminando a dependência do discurso de origem completo. Para abordar a possível degradação de desempenho devido ao contexto incompleto no processamento de streaming, aprimoramos a consciência de contexto do LM por meio de duas estratégias: 1) previsão de contexto guiada por professor, usando um modelo professor para resumir o contexto semântico presente e futuro durante o treinamento, orientando a previsão do modelo para o contexto ausente; 2) estratégia de mascaramento semântico, promovendo a predição acústica a partir de entradas semânticas e acústicas corrompidas anteriores, aprimorando a capacidade de aprendizado de contexto. Notavelmente, o StreamVoice é o primeiro modelo de VC zero-shot baseado em LM sem qualquer antecipação de futuro. Os resultados experimentais demonstram a capacidade de conversão em streaming do StreamVoice, mantendo um desempenho zero-shot comparável aos sistemas de VC não streaming.
Progressos notáveis têm sido alcançados nos últimos anos nas áreas de visão, linguagem e robótica. Atualmente, dispomos de modelos de visão capazes de reconhecer objetos com base em consultas de linguagem, sistemas de navegação que podem controlar efetivamente sistemas móveis e modelos de preensão que conseguem manipular uma ampla variedade de objetos. Apesar desses avanços, as aplicações de robótica de propósito geral ainda estão atrasadas, mesmo que dependam dessas capacidades fundamentais de reconhecimento, navegação e preensão. Neste artigo, adotamos uma abordagem de sistemas-first para desenvolver uma nova estrutura de robótica baseada em Conhecimento Aberto, chamada OK-Robot. Ao combinar Modelos de Visão-Linguagem (VLMs) para detecção de objetos, primitivas de navegação para movimento e primitivas de preensão para manipulação de objetos, o OK-Robot oferece uma solução integrada para operações de pegar e soltar sem exigir qualquer treinamento. Para avaliar seu desempenho, executamos o OK-Robot em 10 ambientes domésticos reais. Os resultados demonstram que o OK-Robot alcança uma taxa de sucesso de 58,5% em tarefas abertas de pegar e soltar, representando um novo estado da arte em Manipulação Móvel de Vocabulário Aberto (OVMM) com quase 1,8x o desempenho de trabalhos anteriores. Em ambientes mais limpos e organizados, o desempenho do OK-Robot aumenta para 82%. No entanto, o insight mais importante obtido com o OK-Robot é o papel crítico dos detalhes sutis ao combinar sistemas de Conhecimento Aberto, como VLMs, com módulos robóticos. Vídeos de nossos experimentos estão disponíveis em nosso site: https://ok-robot.github.io
Os recentes avanços na geração de avatares 3D têm ganhado atenção significativa. Esses avanços visam produzir avatares animáveis mais realistas, reduzindo a lacuna entre as experiências virtuais e do mundo real. A maioria dos trabalhos existentes emprega a perda de Amostragem de Destilação de Pontuação (SDS), combinada com um renderizador diferenciável e condição de texto, para orientar um modelo de difusão na geração de avatares 3D. No entanto, o SDS frequentemente gera resultados excessivamente suavizados com poucos detalhes faciais, carecendo da diversidade em comparação com a amostragem ancestral. Por outro lado, outros trabalhos geram avatares 3D a partir de uma única imagem, onde os desafios de efeitos de iluminação indesejados, perspectivas de visão e qualidade inferior da imagem tornam difícil reconstruir de forma confiável as malhas faciais 3D com texturas completas alinhadas. Neste artigo, propomos uma nova abordagem de geração de avatares 3D denominada UltrAvatar, com fidelidade aprimorada da geometria e qualidade superior das texturas de renderização baseada em física (PBR) sem iluminação indesejada. Para isso, a abordagem proposta apresenta um modelo de extração de cor difusa e um modelo de difusão de textura guiado por autenticidade. O primeiro remove os efeitos de iluminação indesejados para revelar as verdadeiras cores difusas, permitindo que os avatares gerados sejam renderizados sob várias condições de iluminação. O segundo segue duas orientações baseadas em gradiente para gerar texturas PBR, renderizando melhor as características e detalhes da identidade facial que se alinham com a geometria da malha 3D. Demonstramos a eficácia e robustez do método proposto, superando os métodos state-of-the-art por uma grande margem nos experimentos.
Neste artigo, apresentamos o Human-LRM, um modelo de reconstrução em grande escala (Large Reconstruction Model) de estágio único e feed-forward projetado para prever Campos de Radiação Neural (NeRF) humanos a partir de uma única imagem. Nossa abordagem demonstra uma notável adaptabilidade no treinamento utilizando extensos conjuntos de dados que incluem varreduras 3D e capturas multi-visão. Além disso, para aprimorar a aplicabilidade do modelo em cenários do mundo real, especialmente com oclusões, propomos uma nova estratégia que destila a reconstrução multi-visão em uma única visão por meio de um modelo de difusão condicional de triplano. Essa extensão generativa aborda as variações inerentes nas formas do corpo humano quando observadas a partir de uma única visão, tornando possível reconstruir o corpo humano completo a partir de uma imagem ocluída. Através de experimentos extensivos, mostramos que o Human-LRM supera métodos anteriores por uma margem significativa em diversos benchmarks.
Simular com precisão a dinâmica de objetos do mundo real é essencial para diversas aplicações, como robótica, engenharia, gráficos e design. Para capturar melhor dinâmicas complexas do mundo real, como contato e atrito, simuladores baseados em aprendizado utilizando redes de grafos têm mostrado grande potencial recentemente. No entanto, aplicar esses simuladores aprendidos a cenas reais apresenta dois grandes desafios: primeiro, escalar simuladores aprendidos para lidar com a complexidade de cenas do mundo real, que podem envolver centenas de objetos, cada um com formas 3D complicadas, e segundo, processar entradas provenientes de percepção em vez de informações de estado 3D. Aqui, introduzimos um método que reduz substancialmente a memória necessária para executar simuladores aprendidos baseados em grafos. Com base nesse modelo de simulação eficiente em memória, apresentamos uma interface perceptual na forma de NeRFs editáveis, que podem converter cenas do mundo real em uma representação estruturada que pode ser processada por um simulador de rede de grafos. Mostramos que nosso método utiliza significativamente menos memória do que simuladores baseados em grafos anteriores, mantendo sua precisão, e que os simuladores aprendidos em ambientes sintéticos podem ser aplicados a cenas do mundo real capturadas de múltiplos ângulos de câmera. Isso abre caminho para expandir a aplicação de simuladores aprendidos para cenários onde apenas informações perceptivas estão disponíveis no momento da inferência.
A Realidade Virtual (VR) promete interações sociais que podem parecer mais imersivas do que outras mídias. A chave para isso é a capacidade de animar com precisão um avatar fotorrealista que se assemelhe ao usuário enquanto ele usa um headset de VR. Embora o registro de alta qualidade de avatares específicos para cada pessoa em imagens de câmeras montadas no headset (HMC) seja possível em um ambiente offline, o desempenho de modelos genéricos em tempo real é significativamente degradado. O registro online também é desafiador devido às vistas oblíquas da câmera e às diferenças de modalidade. Neste trabalho, primeiro mostramos que a lacuna de domínio entre o avatar e as imagens da câmera do headset é uma das principais fontes de dificuldade, onde uma arquitetura baseada em transformadores alcança alta precisão em dados consistentes com o domínio, mas se degrada quando a lacuna de domínio é reintroduzida. Com base nessa descoberta, desenvolvemos um design de sistema que desacopla o problema em duas partes: 1) um módulo de refinamento iterativo que recebe entradas dentro do domínio, e 2) um módulo genérico de transferência de estilo de imagem para imagem guiado por avatar, que é condicionado à estimativa atual de expressão e pose da cabeça. Esses dois módulos se reforçam mutuamente, pois a transferência de estilo de imagem se torna mais fácil quando exemplos próximos da verdade são mostrados, e uma melhor remoção da lacuna de domínio ajuda no registro. Nosso sistema produz resultados de alta qualidade de forma eficiente, eliminando a necessidade de registro offline custoso para gerar rótulos personalizados. Validamos a precisão e eficiência de nossa abordagem por meio de extensos experimentos em um headset comercial, demonstrando melhorias significativas em relação a métodos de regressão direta, bem como ao registro offline.