Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Magicoder, uma série de Modelos de Linguagem de Grande Escala (LLMs) totalmente open-source (código, pesos e dados) para código que reduz significativamente a lacuna em relação aos principais modelos de código, mesmo possuindo não mais que 7 bilhões de parâmetros. Os modelos Magicoder são treinados com 75 mil dados de instrução sintéticos utilizando o OSS-Instruct, uma abordagem inovadora que capacita LLMs com snippets de código open-source para gerar dados de instrução de alta qualidade para código. Nossa principal motivação é mitigar o viés inerente dos dados sintéticos gerados por LLMs, fornecendo-lhes uma riqueza de referências open-source para a produção de dados mais diversos, realistas e controláveis. A ortogonalidade do OSS-Instruct em relação a outros métodos de geração de dados, como o Evol-Instruct, nos permite ainda construir um MagicoderS aprimorado. Tanto o Magicoder quanto o MagicoderS superam substancialmente os modelos de código state-of-the-art de tamanhos similares ou até maiores em uma ampla gama de benchmarks de codificação, incluindo geração de texto para código em Python, codificação multilíngue e conclusão de programas de ciência de dados. Notavelmente, o MagicoderS-CL-7B, baseado no CodeLlama, supera até mesmo o renomado ChatGPT no HumanEval+ (66,5 vs. 65,9 em pass@1). No geral, o OSS-Instruct abre uma nova direção para o ajuste fino de instruções com baixo viés e alta qualidade, utilizando abundantes referências open-source.
Modelos de difusão de texto para vídeo avançaram significativamente a geração de vídeos. No entanto, personalizar esses modelos para gerar vídeos com movimentos específicos apresenta um desafio substancial. Especificamente, eles enfrentam dificuldades em (a) reproduzir com precisão o movimento de um vídeo alvo e (b) criar variações visuais diversas. Por exemplo, extensões diretas de métodos de personalização de imagens estáticas para vídeo frequentemente resultam em emaranhados complexos de dados de aparência e movimento. Para enfrentar esse problema, apresentamos aqui o framework Video Motion Customization (VMC), uma abordagem inovadora de ajuste único projetada para adaptar camadas de atenção temporal em modelos de difusão de vídeo. Nossa abordagem introduz um novo objetivo de destilação de movimento utilizando vetores residuais entre quadros consecutivos como referência de movimento. O processo de difusão preserva trajetórias de movimento de baixa frequência enquanto mitiga ruídos de alta frequência não relacionados ao movimento no espaço de imagem. Validamos nosso método contra modelos generativos de vídeo state-of-the-art em diversos movimentos e contextos do mundo real. Nossos códigos, dados e a demonstração do projeto podem ser encontrados em https://video-motion-customization.github.io.
Este estudo investiga a síntese de imagens com preservação de identidade, uma tarefa intrigante na geração de imagens que busca manter a identidade de um sujeito enquanto adiciona um toque personalizado e estilizado. Métodos tradicionais, como Inversão Textual e DreamBooth, avançaram na criação de imagens personalizadas, mas apresentam desvantagens significativas. Essas incluem a necessidade de recursos e tempo extensos para ajuste fino, além da exigência de múltiplas imagens de referência. Para superar esses desafios, nossa pesquisa introduz uma abordagem inovadora para síntese com preservação de identidade, com foco particular em imagens humanas. Nosso modelo utiliza um mecanismo de alimentação direta, contornando a necessidade de ajuste fino intensivo, facilitando assim a geração rápida e eficiente de imagens. Central para nossa inovação é uma estrutura de orientação híbrida, que combina imagens estilizadas, imagens faciais e prompts textuais para guiar o processo de geração de imagens. Essa combinação única permite que nosso modelo produza uma variedade de aplicações, como retratos artísticos e imagens com identidade mesclada. Nossos resultados experimentais, incluindo avaliações qualitativas e quantitativas, demonstram a superioridade de nosso método em relação aos modelos de referência existentes e trabalhos anteriores, destacando-se especialmente por sua eficiência notável e capacidade de preservar a identidade do sujeito com alta fidelidade.
O processo de ajuste de alinhamento de grandes modelos de linguagem (LLMs, na sigla em inglês) geralmente envolve o aprendizado de instruções por meio de ajuste fino supervisionado (SFT, na sigla em inglês) e o ajuste de preferências via aprendizado por reforço com feedback humano (RLHF, na sigla em inglês). Um estudo recente, LIMA (Zhou et al. 2023), mostra que o uso de apenas 1.000 exemplos para SFT também pode alcançar um desempenho significativo de alinhamento, sugerindo que o efeito do ajuste de alinhamento pode ser "superficial". Isso levanta questões sobre como exatamente o ajuste de alinhamento transforma um LLM base. Analisamos o efeito do ajuste de alinhamento examinando a mudança na distribuição de tokens entre LLMs base e suas versões alinhadas. Nossas descobertas revelam que LLMs base e suas versões ajustadas para alinhamento têm desempenho quase idêntico na decodificação na maioria das posições de tokens. A maioria das mudanças na distribuição ocorre com tokens estilísticos. Essas evidências diretas apoiam fortemente a Hipótese de Alinhamento Superficial sugerida pelo LIMA. Com base nessas descobertas, repensamos o alinhamento de LLMs ao propor a questão de pesquisa: quão efetivamente podemos alinhar LLMs base sem SFT ou RLHF? Para abordar isso, introduzimos um método simples e sem ajuste de alinhamento, chamado URIAL. O URIAL alcança um alinhamento eficaz puramente por meio de aprendizado em contexto (ICL, na sigla em inglês) com LLMs base, exigindo apenas três exemplos estilísticos constantes e um prompt de sistema. Realizamos uma avaliação detalhada e interpretável em um conjunto diversificado de exemplos, chamado JUST-EVAL-INSTRUCT. Os resultados demonstram que LLMs base com URIAL podem igualar ou até superar o desempenho de LLMs alinhados com SFT ou SFT+RLHF. Mostramos que a diferença entre métodos de alinhamento sem ajuste e com ajuste pode ser significativamente reduzida por meio de prompts estratégicos e ICL. Nossas descobertas sobre a natureza superficial do ajuste de alinhamento e os resultados com URIAL sugerem que uma análise mais profunda e um entendimento teórico do alinhamento são cruciais para pesquisas futuras com LLMs.
Os modelos de difusão recentemente ganharam uma atenção sem precedentes no campo de síntese de imagens devido às suas notáveis capacidades generativas. Apesar de sua eficácia, esses modelos frequentemente acarretam custos computacionais substanciais, principalmente atribuídos ao processo sequencial de remoção de ruído e ao tamanho volumoso do modelo. Métodos tradicionais para comprimir modelos de difusão geralmente envolvem um extenso retreinamento, apresentando desafios de custo e viabilidade. Neste artigo, introduzimos o DeepCache, um novo paradigma livre de treinamento que acelera modelos de difusão a partir da perspectiva da arquitetura do modelo. O DeepCache aproveita a redundância temporal inerente observada nas etapas sequenciais de remoção de ruído dos modelos de difusão, armazenando e recuperando recursos entre estágios adjacentes de remoção de ruído, reduzindo assim cálculos redundantes. Utilizando a propriedade da U-Net, reutilizamos os recursos de alto nível enquanto atualizamos os recursos de baixo nível de maneira extremamente eficiente. Essa estratégia inovadora, por sua vez, permite um fator de aceleração de 2,3 vezes para o Stable Diffusion v1.5 com apenas um declínio de 0,05 no CLIP Score, e 4,1 vezes para o LDM-4-G com uma leve redução de 0,22 no FID no ImageNet. Nossos experimentos também demonstram a superioridade do DeepCache sobre métodos existentes de poda e destilação que exigem retreinamento, bem como sua compatibilidade com técnicas de amostragem atuais. Além disso, descobrimos que, sob a mesma taxa de transferência, o DeepCache efetivamente alcança resultados comparáveis ou até ligeiramente melhorados com DDIM ou PLMS. O código está disponível em https://github.com/horseee/DeepCache.
A edição de vídeo baseada em difusão atualmente concentra-se principalmente na edição com preservação de estrutura, utilizando várias correspondências densas para garantir consistência temporal e alinhamento de movimento. No entanto, essas abordagens frequentemente se mostram ineficazes quando a edição desejada envolve uma mudança de forma. Para abordar a edição de vídeo com mudança de forma, exploramos neste trabalho a substituição personalizada de objetos em vídeos, onde buscamos substituir o objeto principal em um vídeo de origem por um objeto de destino com uma identidade distinta e potencialmente uma forma diferente. Em contraste com métodos anteriores que dependem de correspondências densas, introduzimos o framework VideoSwap, que explora correspondências de pontos semânticos, inspirado pela nossa observação de que apenas um pequeno número de pontos semânticos é necessário para alinhar a trajetória de movimento do objeto e modificar sua forma. Também introduzimos várias interações de pontos pelo usuário (\eg, remover pontos e arrastar pontos) para abordar diferentes correspondências de pontos semânticos. Experimentos extensivos demonstram resultados de substituição de objetos em vídeos de última geração em uma variedade de vídeos do mundo real.
Propomos um método para equipar eficientemente o Segment Anything Model (SAM) com a capacidade de gerar legendas regionais. O SAM apresenta uma forte generalização para segmentar qualquer coisa, mas é limitado na compreensão semântica. Ao introduzir um misturador de características baseado em consultas leve, alinhamos as características específicas da região com o espaço de incorporação de modelos de linguagem para a geração posterior de legendas. Como o número de parâmetros treináveis é pequeno (tipicamente na ordem de dezenas de milhões), isso resulta em menor custo computacional, menor uso de memória e menor largura de banda de comunicação, permitindo um treinamento rápido e escalável. Para abordar o problema de escassez de dados de legendas regionais, propomos primeiro pré-treinar nosso modelo em tarefas de detecção e segmentação de objetos. Chamamos essa etapa de pré-treinamento com supervisão fraca, já que os dados de pré-treinamento contêm apenas nomes de categorias em vez de descrições completas. O pré-treinamento com supervisão fraca nos permite aproveitar muitos conjuntos de dados de detecção e segmentação de objetos disponíveis publicamente. Realizamos extensos experimentos para demonstrar a superioridade do nosso método e validar cada escolha de design. Este trabalho serve como um passo importante para ampliar os dados de legendagem regional e ilumina a exploração de maneiras eficientes de aumentar o SAM com semântica regional. A página do projeto, juntamente com o código associado, pode ser acessada através do seguinte link: https://xk-huang.github.io/segment-caption-anything/.
O aprendizado por reforço a partir de feedback humano (RLHF) emergiu como o principal paradigma para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas. Tipicamente, o RLHF envolve a etapa inicial de aprender um modelo de recompensa a partir do feedback humano, frequentemente expresso como preferências entre pares de gerações de texto produzidas por um LLM pré-treinado. Posteriormente, a política do LLM é ajustada otimizando-a para maximizar o modelo de recompensa por meio de um algoritmo de aprendizado por reforço. No entanto, uma limitação inerente dos modelos de recompensa atuais é sua incapacidade de representar plenamente a riqueza das preferências humanas e sua dependência da distribuição de amostragem. Neste estudo, introduzimos um pipeline alternativo para o ajuste fino de LLMs utilizando feedback humano em pares. Nossa abordagem envolve o aprendizado inicial de um modelo de preferência, que é condicionado a duas entradas dadas uma instrução, seguido pela busca de uma política que consistentemente gere respostas preferidas em relação àquelas geradas por qualquer política concorrente, definindo assim o equilíbrio de Nash desse modelo de preferência. Denominamos essa abordagem de aprendizado de Nash a partir de feedback humano (NLHF). No contexto de uma representação tabular de políticas, apresentamos uma nova solução algorítmica, o Nash-MD, fundamentada nos princípios do descenso de espelho. Esse algoritmo produz uma sequência de políticas, com a última iteração convergindo para o equilíbrio de Nash regularizado. Adicionalmente, exploramos representações paramétricas de políticas e introduzimos algoritmos de descenso de gradiente para arquiteturas de aprendizado profundo. Para demonstrar a eficácia de nossa abordagem, apresentamos resultados experimentais envolvendo o ajuste fino de um LLM para uma tarefa de sumarização de texto. Acreditamos que o NLHF oferece uma via promissora para o aprendizado de preferências e a otimização de políticas, com o potencial de avançar o campo do alinhamento de LLMs com as preferências humanas.
Apesar dos recentes avanços na geração de texto para vídeo, os estudos existentes geralmente negligenciam o fato de que apenas os conteúdos espaciais, e não os movimentos temporais, nos vídeos sintetizados estão sob o controle do texto. Diante desse desafio, este trabalho apresenta um sistema prático, chamado LivePhoto, que permite aos usuários animar uma imagem de seu interesse com descrições textuais. Primeiro, estabelecemos uma base sólida que ajuda um gerador de texto para imagem bem treinado (ou seja, Stable Diffusion) a receber uma imagem como entrada adicional. Em seguida, equipamos o gerador aprimorado com um módulo de movimento para modelagem temporal e propomos um pipeline de treinamento cuidadosamente projetado para melhor vincular textos e movimentos. Em particular, considerando os fatos de que (1) o texto só pode descrever movimentos de forma aproximada (por exemplo, sem considerar a velocidade do movimento) e (2) o texto pode incluir tanto descrições de conteúdo quanto de movimento, introduzimos um módulo de estimativa de intensidade de movimento, bem como um módulo de re-ponderação de texto para reduzir a ambiguidade do mapeamento de texto para movimento. Evidências empíricas sugerem que nossa abordagem é capaz de decodificar bem instruções textuais relacionadas a movimento em vídeos, como ações, movimentos de câmera ou até mesmo conjurar novos conteúdos do nada (por exemplo, despejar água em um copo vazio). Curiosamente, graças ao mecanismo de aprendizado de intensidade proposto, nosso sistema oferece aos usuários um sinal de controle adicional (ou seja, a intensidade do movimento) além do texto para personalização de vídeos.
Modelos de difusão, com sua poderosa expressividade e alta qualidade de amostras, têm possibilitado muitas novas aplicações e casos de uso em diversos domínios. Para a geração de amostras, esses modelos dependem de uma rede neural de remoção de ruído que gera imagens por meio de desruído iterativo. No entanto, o papel da arquitetura da rede de desruído não é bem estudado, com a maioria dos esforços dependendo de U-Nets residuais convolucionais. Neste artigo, estudamos a eficácia dos transformadores de visão (vision transformers) no aprendizado generativo baseado em difusão. Especificamente, propomos um novo modelo, denominado Diffusion Vision Transformers (DiffiT), que consiste em uma arquitetura hierárquica híbrida com um codificador e decodificador em forma de U. Introduzimos um novo módulo de autoatenção dependente do tempo que permite que as camadas de atenção adaptem seu comportamento em diferentes estágios do processo de desruído de maneira eficiente. Também apresentamos o DiffiT latente, que consiste em um modelo de transformador com as camadas de autoatenção propostas, para geração de imagens de alta resolução. Nossos resultados mostram que o DiffiT é surpreendentemente eficaz na geração de imagens de alta fidelidade, alcançando benchmarks de última geração (state-of-the-art, SOTA) em uma variedade de tarefas de síntese condicional e incondicional por classe. No espaço latente, o DiffiT alcança um novo recorde de pontuação FID de 1,73 no conjunto de dados ImageNet-256. Repositório: https://github.com/NVlabs/DiffiT
Como dois conjuntos de imagens diferem? Discernir diferenças em nível de conjunto é crucial para entender comportamentos de modelos e analisar datasets, mas examinar manualmente milhares de imagens é impraticável. Para auxiliar nesse processo de descoberta, exploramos a tarefa de descrever automaticamente as diferenças entre dois conjuntos de imagens, que denominamos Captioning de Diferenças de Conjunto. Essa tarefa recebe conjuntos de imagens D_A e D_B e produz uma descrição que é mais frequentemente verdadeira em D_A do que em D_B. Propomos uma abordagem em duas etapas que primeiro sugere descrições candidatas de diferenças a partir dos conjuntos de imagens e, em seguida, reclassifica os candidatos verificando o quão bem eles conseguem diferenciar os dois conjuntos. Apresentamos o VisDiff, que primeiro gera legendas para as imagens e solicita a um modelo de linguagem que proponha descrições candidatas, depois reclassifica essas descrições usando o CLIP. Para avaliar o VisDiff, coletamos o VisDiffBench, um dataset com 187 pares de conjuntos de imagens com descrições de diferenças de referência. Aplicamos o VisDiff a vários domínios, como comparar datasets (por exemplo, ImageNet vs. ImageNetV2), comparar modelos de classificação (por exemplo, CLIP zero-shot vs. ResNet supervisionado), resumir modos de falha de modelos (ResNet supervisionado), caracterizar diferenças entre modelos generativos (por exemplo, StableDiffusionV1 e V2) e descobrir o que torna as imagens memoráveis. Usando o VisDiff, conseguimos encontrar diferenças interessantes e previamente desconhecidas em datasets e modelos, demonstrando sua utilidade em revelar insights sutis.
Reordenadores listwise baseados em grandes modelos de linguagem (LLM) são o estado da arte em zero-shot. No entanto, os trabalhos atuais nessa direção dependem todos dos modelos GPT, tornando-os um ponto único de falha na reprodutibilidade científica. Além disso, isso levanta a preocupação de que as descobertas atuais da pesquisa sejam válidas apenas para modelos GPT, mas não para LLMs em geral. Neste trabalho, eliminamos essa pré-condição e construímos, pela primeira vez, reordenadores listwise eficazes sem qualquer forma de dependência do GPT. Nossos experimentos de recuperação de passagens mostram que nosso melhor reordenador listwise supera os reordenadores listwise baseados no GPT-3.5 em 13% e alcança 97% da eficácia daqueles construídos no GPT-4. Nossos resultados também mostram que os conjuntos de dados de treinamento existentes, que foram explicitamente construídos para classificação pointwise, são insuficientes para a construção de tais reordenadores listwise. Em vez disso, dados de classificação listwise de alta qualidade são necessários e cruciais, exigindo mais trabalhos na construção de recursos de dados listwise anotados por humanos.
Com os recentes avanços significativos em modelos multimodais de grande escala (LMMs), a importância de sua capacidade de ancoragem em chats visuais tem sido cada vez mais reconhecida. Apesar dos esforços recentes para permitir que os LMMs suportem ancoragem, suas capacidades para ancoragem e chat geralmente são separadas, e seu desempenho no chat cai drasticamente quando solicitados a ancorar. O problema é a falta de um conjunto de dados para chat visual ancorado (GVC). Os conjuntos de dados de ancoragem existentes contêm apenas legendas curtas. Para resolver essa questão, criamos dados GVC que permitem a combinação das capacidades de ancoragem e chat. Para avaliar melhor as capacidades GVC, introduzimos um benchmark chamado Grounding-Bench. Além disso, propusemos um design de modelo que pode suportar GVC e vários tipos de prompts visuais, conectando modelos de segmentação com modelos de linguagem. Os resultados experimentais demonstram que nosso modelo supera outros LMMs no Grounding-Bench. Além disso, nosso modelo alcança desempenho competitivo em benchmarks clássicos de ancoragem, como RefCOCO/+/g e Flickr30K Entities. Nosso código será liberado em https://github.com/UX-Decoder/LLaVA-Grounding.
Apresentamos uma abordagem para formular o reconhecimento de objetos como predição do próximo token. A ideia é aplicar um decodificador de linguagem que prevê autoregressivamente os tokens de texto a partir de embeddings de imagem para formar rótulos. Para fundamentar esse processo de predição na autoregressão, personalizamos uma máscara de atenção não causal para o decodificador, incorporando duas características principais: modelar tokens de diferentes rótulos como independentes e tratar os tokens de imagem como um prefixo. Esse mecanismo de mascaramento inspira um método eficiente - amostragem em uma única etapa - para amostrar simultaneamente tokens de múltiplos rótulos em paralelo e classificar os rótulos gerados por suas probabilidades durante a inferência. Para aprimorar ainda mais a eficiência, propomos uma estratégia simples para construir um decodificador compacto, descartando simplesmente os blocos intermediários de um modelo de linguagem pré-treinado. Essa abordagem resulta em um decodificador que corresponde ao desempenho do modelo completo, sendo notavelmente mais eficiente. O código está disponível em https://github.com/kaiyuyue/nxtp.
Apresentamos uma nova abordagem, denominada GPS-Gaussian, para sintetizar novas visões de um personagem em tempo real. O método proposto permite renderização em resolução 2K sob uma configuração de câmera com visões esparsas. Diferentemente dos métodos originais de Gaussian Splatting ou renderização neural implícita que exigem otimizações por sujeito, introduzimos mapas de parâmetros Gaussianos definidos nas visões de origem e regredimos diretamente as propriedades do Gaussian Splatting para síntese instantânea de novas visões, sem qualquer ajuste fino ou otimização. Para isso, treinamos nosso módulo de regressão de parâmetros Gaussianos em uma grande quantidade de dados de varredura humana, em conjunto com um módulo de estimativa de profundidade para elevar mapas de parâmetros 2D para o espaço 3D. O framework proposto é totalmente diferenciável, e experimentos em diversos conjuntos de dados demonstram que nosso método supera os métodos state-of-the-art enquanto alcança uma velocidade de renderização excepcional.
A geração de texto para vídeo tem demonstrado resultados promissores. No entanto, ao utilizar apenas linguagens naturais como entrada, os usuários frequentemente enfrentam dificuldades em fornecer informações detalhadas para controlar com precisão a saída do modelo. Neste trabalho, propomos a geração de vídeo controlável em nível fino (FACTOR) para alcançar um controle detalhado. Especificamente, o FACTOR visa controlar a aparência e o contexto dos objetos, incluindo sua localização e categoria, em conjunto com o prompt de texto. Para alcançar um controle detalhado, propomos uma estrutura unificada para injetar conjuntamente sinais de controle no modelo existente de texto para vídeo. Nosso modelo consiste em um codificador conjunto e camadas de atenção cruzada adaptativa. Ao otimizar o codificador e a camada inserida, adaptamos o modelo para gerar vídeos alinhados tanto com os prompts de texto quanto com o controle fino. Em comparação com métodos existentes que dependem de sinais de controle densos, como mapas de borda, fornecemos uma interface mais intuitiva e amigável ao usuário para permitir o controle fino em nível de objeto. Nosso método alcança a controlabilidade da aparência dos objetos sem ajuste fino, o que reduz os esforços de otimização por assunto para os usuários. Experimentos extensivos em conjuntos de dados de referência padrão e entradas fornecidas por usuários validam que nosso modelo obtém uma melhoria de 70% nas métricas de controlabilidade em relação às linhas de base competitivas.
Apresentamos os transformadores generativos de vocabulário infinito (GIVT), que geram sequências de vetores com entradas de valor real, em vez de tokens discretos de um vocabulário finito. Para isso, propomos duas modificações surpreendentemente simples aos transformadores de apenas decodificação: 1) na entrada, substituímos a tabela de consulta de vocabulário finito por uma projeção linear dos vetores de entrada; e 2) na saída, substituímos a previsão de logits (geralmente mapeada para uma distribuição categórica) pelos parâmetros de um modelo de mistura gaussiana multivariada. Inspirados pelo paradigma de geração de imagens do VQ-GAN e MaskGIT, onde transformadores são usados para modelar as sequências latentes discretas de um VQ-VAE, utilizamos o GIVT para modelar as sequências latentes de valor real não quantizadas de um VAE. Ao aplicar o GIVT à geração de imagens condicionadas por classe com modelagem mascarada iterativa, mostramos resultados competitivos com o MaskGIT, enquanto nossa abordagem supera tanto o VQ-GAN quanto o MaskGIT quando usada para modelagem causal. Por fim, obtemos resultados competitivos fora do domínio de geração de imagens ao aplicar nossa abordagem à segmentação panóptica e estimativa de profundidade com uma variante baseada em VAE do framework UViM.
A síntese de novas visões a partir de um vídeo capturado em ambiente natural é desafiadora devido a problemas como dinâmica da cena e falta de paralaxe. Embora métodos existentes tenham mostrado resultados promissores com campos de radiação neural implícitos, eles são lentos para treinar e renderizar. Este artigo revisita representações explícitas de vídeo para sintetizar novas visões de alta qualidade a partir de um vídeo monocular de forma eficiente. Tratamos o conteúdo estático e dinâmico do vídeo separadamente. Especificamente, construímos um modelo global de cena estática usando uma representação de cena baseada em planos estendida para sintetizar vídeos novos temporalmente coerentes. Nossa representação de cena baseada em planos é aumentada com harmônicos esféricos e mapas de deslocamento para capturar efeitos dependentes da visão e modelar geometrias complexas de superfícies não planares. Optamos por representar o conteúdo dinâmico como nuvens de pontos por quadro para eficiência. Embora tais representações sejam propensas a inconsistências, pequenas inconsistências temporais são mascaradas perceptualmente devido ao movimento. Desenvolvemos um método para estimar rapidamente essa representação híbrida de vídeo e renderizar novas visões em tempo real. Nossos experimentos mostram que nosso método pode renderizar novas visões de alta qualidade a partir de um vídeo capturado em ambiente natural com qualidade comparável aos métodos state-of-the-art, enquanto é 100x mais rápido no treinamento e permite renderização em tempo real.
As ferramentas tradicionais de criação de conteúdo 3D capacitam os usuários a dar vida à sua imaginação, oferecendo controle direto sobre a geometria, aparência, movimento e trajetória da câmera de uma cena. No entanto, a criação de vídeos gerados por computador é um processo manual tedioso, que pode ser automatizado por modelos emergentes de difusão de texto para vídeo. Apesar do grande potencial, os modelos de difusão de vídeo são difíceis de controlar, impedindo que o usuário aplique sua própria criatividade em vez de ampliá-la. Para enfrentar esse desafio, apresentamos uma abordagem inovadora que combina a controlabilidade de malhas 3D dinâmicas com a expressividade e editabilidade dos modelos emergentes de difusão. Para isso, nossa abordagem utiliza como entrada uma malha animada e renderizada com baixa fidelidade, injetando as informações de correspondência obtidas da malha dinâmica em várias etapas de um modelo pré-treinado de geração de imagem a partir de texto, para produzir quadros de alta qualidade e temporalmente consistentes. Demonstramos nossa abordagem em diversos exemplos onde o movimento pode ser obtido animando ativos rigados ou alterando a trajetória da câmera.
Modelos de linguagem de grande escala (LLMs) resolvem problemas de forma mais precisa e interpretável quando instruídos a trabalhar na resposta passo a passo usando um prompt de "cadeia de pensamento" (chain-of-thought, CoT). Também é possível melhorar o desempenho dos LLMs em uma tarefa específica por meio de ajuste fino supervisionado, ou seja, usando gradiente ascendente em alguns parâmetros ajustáveis para maximizar a média da log-verossimilhança das respostas corretas de um conjunto de treinamento rotulado. Combinar CoT com ajuste fino supervisionado de forma ingênua exige supervisão não apenas das respostas corretas, mas também das justificativas detalhadas que levam a essas respostas; essas justificativas são caras para serem produzidas manualmente. Em vez disso, propomos uma estratégia de ajuste fino que tenta maximizar a log-verossimilhança marginal de gerar uma resposta correta usando o prompt CoT, aproximadamente calculando a média sobre todas as justificativas possíveis. O desafio central é amostrar da distribuição posterior sobre as justificativas condicionadas à resposta correta; abordamos isso usando um algoritmo simples de maximização de expectativa (EM) com cadeia de Markov Monte Carlo (MCMC), inspirado no raciocínio autodidata (STaR), no método memoizado wake-sleep, na subida de pontuação markoviana e na divergência contrastiva persistente. Esse algoritmo também admite uma técnica inovadora de variável de controle que reduz a variância de nossas estimativas de gradiente a zero à medida que o modelo melhora. Aplicando nossa técnica ao GSM8K e às tarefas do BIG-Bench Hard, descobrimos que essa técnica de ajuste fino MCMC-EM geralmente melhora a precisão do modelo em exemplos de teste mais do que o STaR ou o ajuste de prompt com ou sem CoT.
No domínio da geração de texto para 3D, a utilização de modelos de difusão 2D por meio de amostragem por destilação de pontuação (SDS, na sigla em inglês) frequentemente resulta em problemas como aparências borradas e geometrias multifacetadas, principalmente devido à natureza intrinsecamente ruidosa da perda SDS. Nossa análise identifica o cerne desses desafios como a interação entre os níveis de ruído no processo de difusão 2D, a arquitetura da rede de difusão e a representação do modelo 3D. Para superar essas limitações, apresentamos o StableDreamer, uma metodologia que incorpora três avanços. Primeiro, inspirados pelo InstructNeRF2NeRF, formalizamos a equivalência do prior gerativo SDS e uma simples perda de reconstrução supervisionada L2. Essa descoberta fornece uma nova ferramenta para depurar o SDS, que usamos para mostrar o impacto dos níveis de ruído com anelamento temporal na redução de geometrias multifacetadas. Segundo, nossa análise mostra que, embora a difusão no espaço de imagem contribua para a precisão geométrica, a difusão no espaço latente é crucial para a reprodução de cores vívidas. Com base nessa observação, o StableDreamer introduz uma estratégia de treinamento em duas etapas que combina efetivamente esses aspectos, resultando em modelos 3D de alta fidelidade. Terceiro, adotamos uma representação de Gaussianas 3D anisotrópicas, substituindo os Campos de Radiança Neural (NeRFs, na sigla em inglês), para melhorar a qualidade geral, reduzir o uso de memória durante o treinamento, acelerar as velocidades de renderização e capturar melhor objetos semitransparentes. O StableDreamer reduz geometrias multifacetadas, gera detalhes refinados e converge de forma estável.
Modelos de Texto para Imagem (T2I) em larga escala rapidamente ganharam destaque em campos criativos, gerando resultados visualmente impressionantes a partir de prompts textuais. No entanto, controlar esses modelos para garantir um estilo consistente continua sendo um desafio, com métodos existentes exigindo ajustes finos e intervenção manual para separar conteúdo e estilo. Neste artigo, apresentamos o StyleAligned, uma técnica inovadora projetada para estabelecer alinhamento de estilo entre uma série de imagens geradas. Ao empregar um mínimo de "compartilhamento de atenção" durante o processo de difusão, nosso método mantém a consistência de estilo entre as imagens dentro dos modelos T2I. Essa abordagem permite a criação de imagens com estilo consistente usando um estilo de referência por meio de uma operação simples de inversão. A avaliação do nosso método em diversos estilos e prompts textuais demonstra síntese de alta qualidade e fidelidade, destacando sua eficácia em alcançar um estilo consistente em várias entradas.
A segmentação interativa 3D em campos de radiação é uma tarefa atraente devido à sua importância na compreensão e manipulação de cenas 3D. No entanto, os métodos existentes enfrentam desafios para alcançar segmentação refinada e multigranular ou para lidar com a sobrecarga computacional significativa, o que impede a interação em tempo real. Neste artigo, apresentamos o Segment Any 3D GAussians (SAGA), uma nova abordagem de segmentação interativa 3D que integra de forma harmoniosa um modelo de segmentação 2D com o Gaussian Splatting 3D (3DGS), um avanço recente em campos de radiação. O SAGA incorpora eficientemente os resultados de segmentação 2D multigranular gerados pelo modelo de segmentação em características de pontos Gaussianos 3D por meio de um treinamento contrastivo bem projetado. A avaliação em benchmarks existentes demonstra que o SAGA pode alcançar desempenho competitivo com os métodos state-of-the-art. Além disso, o SAGA realiza segmentação multigranular e acomoda vários tipos de prompts, incluindo pontos, rabiscos e máscaras 2D. Notavelmente, o SAGA pode concluir a segmentação 3D em milissegundos, alcançando uma aceleração de quase 1000x em comparação com os métodos SOTA anteriores. A página do projeto está disponível em https://jumpat.github.io/SAGA.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm se destacado na compreensão e geração de imagens 2D com texto, mas sua compreensão do mundo 3D é notavelmente deficiente, limitando o progresso na compreensão e geração de linguagem 3D. Para resolver esse problema, introduzimos o GPT4Point, um modelo multimodal inovador e revolucionário que integra pontos e linguagem, projetado especificamente para a compreensão e geração unificada de objetos 3D dentro do framework MLLM. O GPT4Point, como um poderoso MLLM 3D, pode executar de forma contínua uma variedade de tarefas de referência ponto-texto, como legendagem de nuvens de pontos e perguntas e respostas. Além disso, o GPT4Point é equipado com capacidades avançadas para geração 3D controlável, podendo obter resultados de alta qualidade através de características ponto-texto de baixa qualidade, mantendo as formas geométricas e cores. Para atender às amplas necessidades de pares objeto-texto 3D, desenvolvemos o Pyramid-XL, um mecanismo de anotação de dados ponto-linguagem. Ele constrói um banco de dados em larga escala com mais de 1 milhão de objetos de diversos níveis de granularidade de texto a partir do conjunto de dados Objaverse-XL, essencial para o treinamento do GPT4Point. Um benchmark abrangente foi proposto para avaliar as capacidades de compreensão ponto-linguagem 3D. Em avaliações extensivas, o GPT4Point demonstrou desempenho superior em compreensão e geração.
As habilidades notáveis dos grandes modelos de linguagem (LLMs), como o GPT-4, derivam parcialmente de processos pós-treinamento, como o Aprendizado por Reforço com Feedback Humano (RLHF), que envolve preferências humanas codificadas em um modelo de recompensa. No entanto, esses modelos de recompensa (RMs) frequentemente carecem de conhecimento direto sobre o porquê, ou sob quais princípios, as anotações de preferências foram feitas. Neste estudo, identificamos princípios que orientam os RMs a se alinharem melhor com as preferências humanas e, em seguida, desenvolvemos uma estrutura axiomática para gerar uma variedade rica de sinais de preferência que os sustentam. Utilizamos esses sinais axiomáticos para treinar um modelo de pontuação de respostas a perguntas de formato longo. Nossa abordagem resulta em um Modelo de Preferência com apenas cerca de 220 milhões de parâmetros que concorda com rótulos de preferência anotados por humanos mais frequentemente do que o GPT-4. As contribuições deste trabalho incluem: treinar um modelo de preferência independente que pode pontuar respostas geradas por humanos e LLMs na mesma escala; desenvolver uma estrutura axiomática para gerar pares de dados de treinamento adaptados a certos princípios; e demonstrar que uma pequena quantidade de sinais axiomáticos pode ajudar modelos menores a superar o GPT-4 na pontuação de preferências. Disponibilizamos nosso modelo no Hugging Face: https://huggingface.co/corbyrosset/axiomatic_preference_model.
Os Campos de Radiação Neural (NeRFs) se destacam na renderização fotorrealista de cenas estáticas. No entanto, renderizar campos de radiação dinâmicos e de longa duração em dispositivos ubíquos continua sendo um desafio, devido às limitações de armazenamento de dados e computação. Neste artigo, apresentamos o VideoRF, a primeira abordagem que permite a transmissão e renderização em tempo real de campos de radiação dinâmicos em plataformas móveis. No núcleo está um fluxo serializado de imagens de características 2D que representa o campo de radiação 4D em um único formato. Introduzimos um esquema de treinamento personalizado aplicado diretamente a este domínio 2D para impor a redundância temporal e espacial do fluxo de imagens de características. Ao aproveitar essa redundância, mostramos que o fluxo de imagens de características pode ser eficientemente comprimido por codecs de vídeo 2D, o que nos permite explorar aceleradores de hardware de vídeo para alcançar decodificação em tempo real. Por outro lado, com base no fluxo de imagens de características, propomos um novo pipeline de renderização para o VideoRF, que possui mapeamentos de espaço especializados para consultar as propriedades de radiação de forma eficiente. Combinado com um modelo de sombreamento adiado, o VideoRF tem a capacidade de renderização em tempo real em dispositivos móveis graças à sua eficiência. Desenvolvemos um player interativo em tempo real que permite a transmissão e renderização online de cenas dinâmicas, oferecendo uma experiência de visualização livre imersiva e contínua em uma variedade de dispositivos, desde desktops até smartphones.
Apresentamos um método que utiliza um modelo de texto para imagem para gerar conteúdo consistente em múltiplas escalas de imagem, permitindo zooms semânticos extremos em uma cena, por exemplo, variando de uma visão panorâmica de uma floresta até um close macro de um inseto pousado em um dos galhos da árvore. Isso é alcançado por meio de uma abordagem conjunta de amostragem de difusão em múltiplas escalas, que promove a consistência entre diferentes escalas enquanto preserva a integridade de cada processo de amostragem individual. Como cada escala gerada é guiada por um prompt de texto diferente, nosso método permite níveis de zoom mais profundos do que os métodos tradicionais de super-resolução, que podem ter dificuldade em criar nova estrutura contextual em escalas drasticamente diferentes. Comparamos nosso método qualitativamente com técnicas alternativas em super-resolução de imagem e expansão de cena, e demonstramos que nosso método é mais eficaz na geração de conteúdo consistente em múltiplas escalas.
O treinamento em múltiplas modalidades de entrada pode ampliar as capacidades de um modelo de linguagem. Aqui, investigamos se tal regime de treinamento pode também melhorar a qualidade e a eficiência desses sistemas. Focamos na modalidade texto-áudio e introduzimos o Whisbert, que é inspirado na abordagem texto-imagem do FLAVA (singh_flava_2022). Em conformidade com as diretrizes do Babylm (warstadt2023papers), pré-treinamos o Whisbert em um conjunto de dados composto por apenas 100 milhões de palavras, além de suas correspondentes gravações de áudio da versão alinhada por palavras do conjunto de dados People's Speech (galvez_peoples_2021). Para avaliar o impacto da multimodalidade, comparamos versões do modelo que são treinadas apenas com texto e com áudio e texto simultaneamente. Descobrimos que, embora o Whisbert seja capaz de desempenhar bem na modelagem mascarada multimodal e supere as linhas de base do Babylm na maioria das tarefas de benchmark, ele enfrenta dificuldades para otimizar seu objetivo complexo e superar sua linha de base Whisbert treinada apenas com texto.
Este artigo aprimora o iGPT (image-GPT), um dos trabalhos pioneiros que introduzem o pré-treinamento autorregressivo para prever os próximos pixels no aprendizado de representações visuais. Duas mudanças simples, porém essenciais, são propostas. Primeiro, deslocamos o alvo da previsão de pixels brutos para tokens semânticos, permitindo uma compreensão de nível superior do conteúdo visual. Segundo, complementamos a modelagem autorregressiva instruindo o modelo a prever não apenas os próximos tokens, mas também os tokens visíveis. Esse pipeline é particularmente eficaz quando os tokens semânticos são codificados por modelos treinados de forma discriminativa, como o CLIP. Introduzimos essa nova abordagem como D-iGPT. Experimentos extensivos demonstram que o D-iGPT se destaca como um forte aprendiz de representações visuais: um feito notável do D-iGPT é seu desempenho impressionante no conjunto de dados ImageNet-1K — ao treinar em conjuntos de dados publicamente disponíveis, o D-iGPT alcança 89,5% de acurácia top-1 com um modelo ViT-Large padrão. Esse modelo também mostra forte generalização em tarefas subsequentes e robustez em amostras fora da distribuição. O código está disponível em https://github.com/OliverRensu/D-iGPT{https://github.com/OliverRensu/D-iGPT}.
Recentemente, o Segment Anything Model (SAM) demonstrou capacidades notáveis de segmentação zero-shot, enquanto o NeRF (Neural Radiance Fields) ganhou popularidade como um método para diversos problemas 3D além da síntese de novas visões. Embora existam tentativas iniciais de incorporar esses dois métodos na segmentação 3D, elas enfrentam o desafio de segmentar objetos de forma precisa e consistente em cenários complexos. Neste artigo, apresentamos o Segment Anything for NeRF in High Quality (SANeRF-HQ) para alcançar uma segmentação 3D de alta qualidade de qualquer objeto em uma cena dada. O SANeRF-HQ utiliza o SAM para segmentação de objetos em mundo aberto guiada por prompts fornecidos pelo usuário, enquanto aproveita o NeRF para agregar informações de diferentes pontos de vista. Para superar os desafios mencionados, empregamos o campo de densidade e a similaridade RGB para aprimorar a precisão do limite de segmentação durante a agregação. Com foco na precisão da segmentação, avaliamos nosso método quantitativamente em múltiplos conjuntos de dados NeRF onde ground-truths de alta qualidade estão disponíveis ou foram anotados manualmente. O SANeRF-HQ mostra uma melhoria significativa de qualidade em relação aos métodos state-of-the-art anteriores na segmentação de objetos em NeRF, oferece maior flexibilidade para localização de objetos e permite uma segmentação de objetos mais consistente em múltiplas visões. Informações adicionais podem ser encontradas em https://lyclyc52.github.io/SANeRF-HQ/.
Os modelos de linguagem de grande escala (LLMs) têm atraído enorme interesse em aplicações práticas devido às suas respostas cada vez mais precisas e habilidades de raciocínio coerente. Dada a sua natureza como caixas-pretas que utilizam processos complexos de raciocínio sobre suas entradas, é inevitável que a demanda por explicações escaláveis e fiáveis para o conteúdo gerado por LLMs continue a crescer. Houve grandes avanços na explicabilidade de modelos de redes neurais na última década. Entre eles, métodos de explicabilidade pós-hoc, especialmente os valores de Shapley, provaram ser eficazes para interpretar modelos de aprendizado profundo. No entanto, existem grandes desafios em escalar os valores de Shapley para LLMs, particularmente ao lidar com contextos de entrada longos contendo milhares de tokens e sequências de saída geradas autoregressivamente. Além disso, muitas vezes não está claro como utilizar efetivamente as explicações geradas para melhorar o desempenho dos LLMs. Neste artigo, apresentamos o TextGenSHAP, um método eficiente de explicação pós-hoc que incorpora técnicas específicas para modelos de linguagem. Demonstramos que isso leva a aumentos significativos na velocidade em comparação com os cálculos convencionais de valores de Shapley, reduzindo os tempos de processamento de horas para minutos em explicações no nível de token, e para apenas segundos em explicações no nível de documento. Além disso, demonstramos como os valores de Shapley em tempo real podem ser utilizados em dois cenários importantes: proporcionando uma melhor compreensão da resposta a perguntas em documentos longos ao localizar palavras e frases importantes; e melhorando os sistemas existentes de recuperação de documentos ao aumentar a precisão das passagens selecionadas e, consequentemente, das respostas finais.
Neste artigo, abordamos a tarefa de edição adaptativa de cenas 3D orientada por fonte, propondo um modelo CustomNeRF que unifica uma descrição textual ou uma imagem de referência como prompt de edição. No entanto, obter resultados de edição desejados que estejam em conformidade com o prompt de edição não é trivial, pois existem dois desafios significativos: a edição precisa apenas das regiões de primeiro plano e a consistência multi-visão dada uma imagem de referência de visão única. Para enfrentar o primeiro desafio, propomos um esquema de treinamento de Edição Iterativa Local-Global (LGIE) que alterna entre a edição da região de primeiro plano e a edição da imagem completa, visando a manipulação apenas do primeiro plano enquanto preserva o fundo. Para o segundo desafio, também projetamos uma regularização guiada por classe que explora os priores de classe dentro do modelo de geração para aliviar o problema de inconsistência entre diferentes visões na edição orientada por imagem. Experimentos extensivos mostram que nosso CustomNeRF produz resultados de edição precisos em várias cenas reais, tanto para configurações orientadas por texto quanto por imagem.
Encontrar maneiras de acelerar a entrada de texto para indivíduos com deficiências motoras graves tem sido uma área de pesquisa de longa data. Reduzir a lacuna de velocidade em dispositivos de comunicação aumentativa e alternativa (CAA), como teclados de rastreamento ocular, é importante para melhorar a qualidade de vida desses indivíduos. Os recentes avanços em redes neurais de linguagem natural apresentam novas oportunidades para repensar estratégias e interfaces de usuário para uma entrada de texto aprimorada para usuários de CAA. Neste artigo, apresentamos o SpeakFaster, que consiste em modelos de linguagem de grande escala (LLMs, na sigla em inglês) e uma interface de usuário co-desenvolvida para entrada de texto em uma forma altamente abreviada, permitindo uma economia de 57% mais ações motoras do que teclados preditivos tradicionais em simulações offline. Um estudo piloto com 19 participantes não usuários de CAA digitando em um dispositivo móvel manualmente demonstrou ganhos na economia motora alinhados com a simulação offline, enquanto introduziu efeitos relativamente pequenos na velocidade geral de digitação. Testes em laboratório e em campo com dois usuários de digitação por rastreamento ocular com esclerose lateral amiotrófica (ELA) demonstraram taxas de entrada de texto 29-60% mais rápidas do que as linhas de base tradicionais, devido à significativa economia de teclas caras alcançada por meio de previsões de frases e palavras de LLMs cientes do contexto. Esses achados fornecem uma base sólida para uma exploração adicional da comunicação de texto substancialmente acelerada para usuários com deficiências motoras e demonstram uma direção para a aplicação de LLMs em interfaces de usuário baseadas em texto.