Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de grande escala de texto para imagem, incluindo o Stable Diffusion, são capazes de gerar imagens de retratos fotorealistas de alta fidelidade. Há uma área de pesquisa ativa dedicada à personalização desses modelos, visando sintetizar assuntos ou estilos específicos usando conjuntos de imagens de referência fornecidos. No entanto, apesar dos resultados plausíveis desses métodos de personalização, eles tendem a produzir imagens que frequentemente não atingem o realismo e ainda não estão em um nível comercialmente viável. Isso é particularmente perceptível na geração de imagens de retratos, onde qualquer artefato não natural em rostos humanos é facilmente discernível devido ao nosso viés humano inerente. Para abordar isso, introduzimos o MagiCapture, um método de personalização para integrar conceitos de assunto e estilo a fim de gerar imagens de retrato de alta resolução usando apenas algumas referências de assunto e estilo. Por exemplo, dado um punhado de selfies aleatórias, nosso modelo ajustado pode gerar imagens de retrato de alta qualidade em estilos específicos, como fotos de passaporte ou de perfil. O principal desafio dessa tarefa é a ausência de uma verdade fundamental para os conceitos compostos, levando a uma redução na qualidade da saída final e a uma mudança de identidade do assunto original. Para abordar esses problemas, apresentamos uma nova função de perda de Reorientação de Atenção, juntamente com priores auxiliares, ambos os quais facilitam um aprendizado robusto nesse cenário de aprendizado fracamente supervisionado. Nossa pipeline também inclui etapas adicionais de pós-processamento para garantir a criação de saídas altamente realistas. O MagiCapture supera outras linhas de base em avaliações quantitativas e qualitativas e também pode ser generalizado para outros objetos não humanos.
Exploramos a aplicação inovadora de Modelos de Linguagem de Grande Escala (LLMs) na otimização de código. Apresentamos um modelo transformer de 7 bilhões de parâmetros treinado do zero para otimizar o código assembly LLVM em relação ao tamanho. O modelo recebe como entrada um assembly não otimizado e gera uma lista de opções de compilação para otimizar o programa da melhor forma. Durante o treinamento, solicitamos que o modelo preveja as contagens de instruções antes e após a otimização, bem como o código otimizado em si. Essas tarefas de aprendizado auxiliar melhoram significativamente o desempenho de otimização do modelo e aprofundam sua compreensão. Avaliamos o modelo em um amplo conjunto de programas de teste. Nossa abordagem alcança uma melhoria de 3,0% na redução das contagens de instruções em comparação com o compilador, superando duas linhas de base state-of-the-art que exigem milhares de compilações. Além disso, o modelo demonstra habilidades surpreendentemente fortes de raciocínio sobre código, gerando código compilável em 91% das vezes e emulando perfeitamente a saída do compilador em 70% das vezes.
O problema de longa data da síntese de novas visões tem muitas aplicações, notavelmente na transmissão de eventos esportivos. A síntese fotorealística de novas visões de ações de futebol, em particular, é de enorme interesse para a indústria de transmissão. No entanto, apenas algumas soluções industriais foram propostas, e ainda menos que alcançam uma qualidade próxima à de transmissão das repetições sintéticas. Com exceção da configuração de múltiplas câmeras estáticas ao redor do campo de jogo, os melhores sistemas proprietários revelam quase nenhuma informação sobre seu funcionamento interno. A utilização de múltiplas câmeras estáticas para tal tarefa, de fato, apresenta um desafio raramente abordado na literatura, devido à falta de conjuntos de dados públicos: a reconstrução de um ambiente em grande escala, majoritariamente estático, com elementos pequenos e em movimento rápido. Recentemente, o surgimento dos campos de radiação neural (NeRFs) induziu um progresso impressionante em muitas aplicações de síntese de novas visões, aproveitando os princípios de aprendizado profundo para produzir resultados fotorealísticos nos cenários mais desafiadores. Neste trabalho, investigamos a viabilidade de basear uma solução para a tarefa em NeRFs dinâmicos, ou seja, modelos neurais destinados a reconstruir conteúdo dinâmico geral. Compomos ambientes sintéticos de futebol e conduzimos múltiplos experimentos utilizando-os, identificando componentes-chave que ajudam a reconstruir cenas de futebol com NeRFs dinâmicos. Mostramos que, embora essa abordagem não possa atender completamente aos requisitos de qualidade para a aplicação alvo, ela sugere caminhos promissores em direção a uma solução automática e de baixo custo. Também disponibilizamos publicamente nosso conjunto de dados e código, com o objetivo de incentivar mais esforços da comunidade de pesquisa na tarefa de síntese de novas visões para cenas dinâmicas de futebol. Para código, dados e resultados em vídeo, consulte https://soccernerfs.isach.be.
Melhorar o alinhamento de modelos de linguagem com as preferências humanas continua sendo um desafio ativo de pesquisa. Abordagens anteriores utilizaram principalmente Aprendizado por Reforço a partir de Feedback Humano (RLHF) por meio de métodos de RL online, como a Otimização de Política Proximal (PPO). Recentemente, métodos offline, como a Calibração de Probabilidade de Sequência (SLiC) e a Otimização Direta de Preferências (DPO), surgiram como alternativas atraentes, oferecendo melhorias em estabilidade e escalabilidade enquanto mantêm desempenho competitivo. O SLiC refina sua função de perda usando pares de sequências amostrados de uma política ajustada de forma supervisionada (SFT), enquanto o DPO otimiza diretamente modelos de linguagem com base em dados de preferência, dispensando a necessidade de um modelo de recompensa separado. No entanto, o estimador de máxima verossimilhança (MLE) da política ótima alvo requer pares de preferência rotulados amostrados dessa política. A ausência de um modelo de recompensa no DPO limita sua capacidade de amostrar pares de preferência da política ótima, e o SLiC está restrito a amostrar pares de preferência apenas da política SFT. Para abordar essas limitações, introduzimos uma nova abordagem chamada Otimização por Amostragem de Rejeição Estatística (RSO), que visa obter dados de preferência da política ótima alvo usando amostragem por rejeição, permitindo uma estimativa mais precisa da política ótima. Também propomos um framework unificado que aprimora as funções de perda usadas tanto no SLiC quanto no DPO do ponto de vista da modelagem de preferências. Por meio de extensos experimentos em três tarefas diversas, demonstramos que o RSO supera consistentemente tanto o SLiC quanto o DPO em avaliações feitas por Modelos de Linguagem de Grande Escala (LLM) e avaliadores humanos.
Os recentes avanços em modelos de grande escala para geração de imagens a partir de texto têm alcançado conquistas notáveis, encontrando diversas aplicações no domínio da arte. No entanto, expressar características únicas de uma obra de arte (por exemplo, pinceladas, tonalidade de cores ou composição) apenas com prompts de texto pode enfrentar limitações devido às restrições inerentes da descrição verbal. Para isso, introduzimos o DreamStyler, uma nova estrutura projetada para síntese de imagens artísticas, proficiente tanto na síntese de texto para imagem quanto na transferência de estilo. O DreamStyler otimiza uma incorporação textual em múltiplos estágios com um prompt de texto contextualmente consciente, resultando em uma qualidade de imagem destacada. Além disso, com orientação de conteúdo e estilo, o DreamStyler exibe flexibilidade para acomodar uma variedade de referências de estilo. Resultados experimentais demonstram seu desempenho superior em múltiplos cenários, sugerindo seu potencial promissor na criação de produtos artísticos.
Nós estudamos a inferência de uma representação em estrutura de árvore a partir de uma única imagem para a sombreamento de objetos. Trabalhos anteriores geralmente utilizam representações paramétricas ou medidas para modelar o sombreamento, que não são interpretáveis nem facilmente editáveis. Propomos o uso da representação em árvore de sombreamento, que combina nós básicos de sombreamento e métodos de composição para fatorizar o sombreamento da superfície do objeto. A representação em árvore de sombreamento permite que usuários iniciantes, que não estão familiarizados com o processo físico de sombreamento, editem o sombreamento de objetos de maneira eficiente e intuitiva. Um dos principais desafios na inferência da árvore de sombreamento é que o problema de inferência envolve tanto a estrutura discreta da árvore quanto os parâmetros contínuos dos nós da árvore. Propomos uma abordagem híbrida para resolver essa questão. Introduzimos um modelo de inferência auto-regressivo para gerar uma estimativa aproximada da estrutura da árvore e dos parâmetros dos nós, e então refinamos a árvore de sombreamento inferida por meio de um algoritmo de otimização. Realizamos experimentos em imagens sintéticas, reflectância capturada, imagens reais e desenhos vetoriais não realistas, permitindo aplicações subsequentes como edição de materiais, sombreamento vetorizado e reiluminação. Site do projeto: https://chen-geng.com/inv-shade-trees
Nosso objetivo é criar um avatar facial 3D realista com cabelo e acessórios utilizando apenas uma descrição textual. Embora esse desafio tenha atraído interesse significativo recentemente, os métodos existentes ou carecem de realismo, produzem formas irreais ou não suportam edições, como modificações no penteado. Argumentamos que os métodos existentes são limitados porque empregam uma abordagem de modelagem monolítica, usando uma única representação para a cabeça, rosto, cabelo e acessórios. Nossa observação é que o cabelo e o rosto, por exemplo, possuem qualidades estruturais muito diferentes que se beneficiam de representações distintas. Com base nessa percepção, geramos avatares com um modelo composicional, no qual a cabeça, o rosto e a parte superior do corpo são representados com malhas 3D tradicionais, e o cabelo, as roupas e os acessórios com campos de radiação neural (NeRF). A representação baseada em malha fornece um forte prior geométrico para a região do rosto, melhorando o realismo e permitindo a edição da aparência da pessoa. Ao usar NeRFs para representar os componentes restantes, nosso método é capaz de modelar e sintetizar partes com geometria e aparência complexas, como cabelos cacheados e cachecóis fofos. Nosso sistema inovador sintetiza esses avatares composicionais de alta qualidade a partir de descrições textuais. Os resultados experimentais demonstram que nosso método, Geração e Edição de Avatares Composicionais Orientada por Texto (TECA), produz avatares mais realistas do que os métodos recentes, além de serem editáveis devido à sua natureza composicional. Por exemplo, nosso TECA permite a transferência perfeita de características composicionais, como penteados, cachecóis e outros acessórios entre avatares. Essa capacidade suporta aplicações como experimentação virtual.