Artigos de pesquisa em IA selecionados diariamente com traduções
O recente advento de técnicas de pré-treinamento auto-supervisionado levou a um aumento no uso de aprendizado multimodal para a compreensão de documentos de formulários. No entanto, as abordagens existentes que estendem o modelo de linguagem mascarada para outras modalidades exigem um ajuste cuidadoso de múltiplas tarefas, designs complexos de alvos de reconstrução ou dados adicionais de pré-treinamento. No FormNetV2, introduzimos uma estratégia centralizada de aprendizado contrastivo em grafos multimodais para unificar o pré-treinamento auto-supervisionado de todas as modalidades em uma única função de perda. O objetivo contrastivo do grafo maximiza a concordância das representações multimodais, proporcionando uma interação natural para todas as modalidades sem necessidade de personalização especial. Além disso, extraímos características de imagem dentro da caixa delimitadora que une um par de tokens conectados por uma aresta do grafo, capturando pistas visuais mais direcionadas sem a necessidade de carregar um codificador de imagem sofisticado e pré-treinado separadamente. O FormNetV2 estabelece um novo estado da arte em desempenho nos benchmarks FUNSD, CORD, SROIE e Payment, com um tamanho de modelo mais compacto.
Há uma demanda crescente pela criação acessível de avatares 3D de alta qualidade que sejam animáveis e personalizáveis. Embora os modelos morfáveis 3D ofereçam controle intuitivo para edição e animação, além de robustez para reconstrução facial a partir de uma única visão, eles não conseguem capturar facilmente detalhes geométricos e de aparência. Métodos baseados em representações implícitas neurais, como funções de distância com sinal (SDF) ou campos de radiação neural, aproximam-se do foto-realismo, mas são difíceis de animar e não generalizam bem para dados não vistos. Para resolver esse problema, propomos um novo método para construir modelos faciais morfáveis 3D implícitos que são tanto generalizáveis quanto intuitivos para edição. Treinado a partir de uma coleção de escaneamentos 3D de alta qualidade, nosso modelo facial é parametrizado por códigos latentes de geometria, expressão e textura, com uma SDF aprendida e parametrização explícita de textura UV. Uma vez treinado, podemos reconstruir um avatar a partir de uma única imagem "in-the-wild" aproveitando o conhecimento prévio aprendido para projetar a imagem no espaço latente do nosso modelo. Nossos modelos faciais morfáveis implícitos podem ser usados para renderizar um avatar a partir de novas perspectivas, animar expressões faciais modificando os códigos de expressão e editar texturas pintando diretamente nos mapas de textura UV aprendidos. Demonstramos quantitativa e qualitativamente que nosso método melhora o foto-realismo, a geometria e a precisão das expressões em comparação com os métodos mais avançados atualmente.
Este artigo propõe o NeuralEditor, que permite que campos de radiação neural (NeRFs) sejam editáveis de forma nativa para tarefas gerais de edição de formas. Apesar dos resultados impressionantes na síntese de novas visões, continua sendo um desafio fundamental para os NeRFs editar a forma da cena. Nossa principal intuição é explorar a representação explícita de nuvem de pontos como a estrutura subjacente para construir NeRFs, inspirados pela interpretação intuitiva da renderização NeRF como um processo que projeta ou "plota" a nuvem de pontos 3D associada em um plano de imagem 2D. Para isso, o NeuralEditor introduz um novo esquema de renderização baseado em integração determinística dentro de voxéis adaptativos de densidade guiados por árvore K-D, que produz tanto resultados de renderização de alta qualidade quanto nuvens de pontos precisas por meio de otimização. O NeuralEditor então realiza a edição de forma mapeando pontos associados entre nuvens de pontos. Avaliações extensivas mostram que o NeuralEditor alcança desempenho de ponta tanto em tarefas de deformação de forma quanto em tarefas de morphing de cena. Notavelmente, o NeuralEditor suporta tanto inferência zero-shot quanto ajuste fino adicional sobre a cena editada. Nosso código, benchmark e vídeo de demonstração estão disponíveis em https://immortalco.github.io/NeuralEditor.
As tarefas de IA abrangem uma ampla gama de domínios e campos. Embora inúmeros modelos de IA tenham sido projetados para tarefas e aplicações específicas, eles frequentemente exigem esforços humanos consideráveis para encontrar a arquitetura de modelo ideal, o algoritmo de otimização e os hiperparâmetros adequados. Avanços recentes em modelos de linguagem de grande escala (LLMs), como o ChatGPT, demonstram capacidades notáveis em diversos aspectos de raciocínio, compreensão e interação. Consequentemente, propomos o desenvolvimento de prompts orientados por tarefas e a utilização automática de LLMs para automatizar o pipeline de treinamento. Para implementar esse conceito, apresentamos o AutoML-GPT, que emprega o GPT como ponte para diversos modelos de IA e treina modelos dinamicamente com hiperparâmetros otimizados. O AutoML-GPT recebe dinamicamente as solicitações do usuário a partir dos cartões de modelo e dados e compõe o parágrafo de prompt correspondente. Por fim, com esse parágrafo de prompt, o AutoML-GPT conduzirá automaticamente os experimentos, desde o processamento de dados até a arquitetura do modelo, o ajuste de hiperparâmetros e o registro de treinamento previsto. Ao aproveitar as robustas capacidades linguísticas do {\ours} e os modelos de IA disponíveis, o AutoML-GPT pode lidar com inúmeras tarefas complexas de IA em diversas tarefas e conjuntos de dados. Essa abordagem alcança resultados notáveis em visão computacional, processamento de linguagem natural e outras áreas desafiadoras. Experimentos extensivos e estudos de ablação demonstram que nosso método pode ser geral, eficaz e benéfico para muitas tarefas de IA.
A Tradução Automática Multilíngue promete melhorar a qualidade da tradução entre idiomas que não sejam o inglês. Isso é vantajoso por vários motivos, como menor latência (não há necessidade de traduzir duas vezes) e redução de cascatas de erros (por exemplo, evitando a perda de informações sobre gênero e formalidade ao traduzir através do inglês). Por outro lado, adicionar mais idiomas reduz a capacidade do modelo por idioma, o que geralmente é contrabalançado pelo aumento do tamanho geral do modelo, tornando o treinamento mais difícil e a inferência mais lenta. Neste trabalho, introduzimos Camadas de Transformador Específicas por Idioma (LSLs, na sigla em inglês), que nos permitem aumentar a capacidade do modelo, mantendo constante a quantidade de computação e o número de parâmetros usados na passagem direta. A ideia principal é que algumas camadas do codificador sejam específicas para o idioma de origem ou de destino, enquanto as demais camadas permanecem compartilhadas. Estudamos a melhor forma de posicionar essas camadas usando uma abordagem inspirada na busca de arquitetura neural e alcançamos uma melhoria de 1,3 pontos chrF (1,5 spBLEU) em relação ao não uso de LSLs em uma arquitetura de decodificador separado e 1,9 chrF (2,2 spBLEU) em uma arquitetura de decodificador compartilhado.
A recente melhoria nas capacidades de geração de código, decorrente do uso de modelos de linguagem de grande escala, tem beneficiado principalmente linguagens de programação de propósito geral. Linguagens específicas de domínio, como as utilizadas para automação de TI, receberam muito menos atenção, apesar de envolverem muitos desenvolvedores ativos e serem um componente essencial das plataformas de nuvem modernas. Este trabalho foca na geração de Ansible-YAML, uma linguagem de marcação amplamente utilizada para automação de TI. Apresentamos o Ansible Wisdom, uma ferramenta de geração de código de linguagem natural para Ansible-YAML, com o objetivo de melhorar a produtividade na automação de TI. O Ansible Wisdom é um modelo baseado em transformadores, estendido por meio do treinamento com um novo conjunto de dados contendo Ansible-YAML. Também desenvolvemos duas novas métricas de desempenho para YAML e Ansible, a fim de capturar as características específicas desse domínio. Os resultados mostram que o Ansible Wisdom pode gerar com precisão scripts Ansible a partir de prompts de linguagem natural, com desempenho comparável ou superior aos modelos de geração de código mais avançados existentes.
Apresentamos um sistema completo para renderização em tempo real de cenas com aparência complexa, anteriormente reservada para uso offline. Isso é alcançado por meio de uma combinação de inovações algorítmicas e em nível de sistema. Nosso modelo de aparência utiliza texturas hierárquicas aprendidas que são interpretadas por decodificadores neurais, os quais produzem valores de refletância e direções amostradas por importância. Para melhor aproveitar a capacidade de modelagem dos decodificadores, equipamos esses decodificadores com dois priors gráficos. O primeiro prior — a transformação de direções em quadros de sombreamento aprendidos — facilita a reconstrução precisa de efeitos em mesoescala. O segundo prior — uma distribuição de amostragem microfacetada — permite que o decodificador neural realize amostragem por importância de forma eficiente. O modelo de aparência resultante suporta amostragem anisotrópica e renderização com nível de detalhe, além de permitir a "baking" de grafos de materiais profundamente em camadas em uma representação neural unificada e compacta. Ao expor operações de tensor aceleradas por hardware para shaders de ray tracing, mostramos que é possível integrar e executar os decodificadores neurais de forma eficiente dentro de um path tracer em tempo real. Analisamos a escalabilidade com o aumento do número de materiais neurais e propomos melhorar o desempenho usando código otimizado para execução coerente e divergente. Nossos shaders de materiais neurais podem ser mais de uma ordem de magnitude mais rápidos do que materiais em camadas não neurais. Isso abre as portas para o uso de visuais de qualidade cinematográfica em aplicações em tempo real, como jogos e pré-visualizações ao vivo.
Modelos de linguagem grandes pré-treinados (LLMs) capturam conhecimento procedural sobre o mundo. Trabalhos recentes têm aproveitado a capacidade dos LLMs de gerar planos abstratos para simplificar tarefas de controle desafiadoras, seja por pontuação de ações ou modelagem de ações (fine-tuning). No entanto, a arquitetura transformer herda várias limitações que dificultam o uso direto do LLM como agente: por exemplo, comprimentos de entrada limitados, ineficiência no fine-tuning, viés do pré-treinamento e incompatibilidade com ambientes não textuais. Para manter a compatibilidade com um ator treinável de baixo nível, propomos usar o conhecimento nos LLMs para simplificar o problema de controle, em vez de resolvê-lo diretamente. Propomos o framework Plan, Eliminate, and Track (PET). O módulo Plan traduz uma descrição de tarefa em uma lista de sub-tarefas de alto nível. O módulo Eliminate mascara objetos e recipientes irrelevantes da observação para a sub-tarefa atual. Por fim, o módulo Track determina se o agente concluiu cada sub-tarefa. No benchmark AlfWorld de seguimento de instruções, o framework PET resulta em uma melhoria significativa de 15% em relação ao estado da arte (SOTA) para generalização em especificações de metas humanas.
Rastrear objetos com persistência em ambientes desordenados e dinâmicos continua sendo um desafio difícil para sistemas de visão computacional. Neste artigo, apresentamos o TCOW, um novo benchmark e modelo para rastreamento visual em situações de oclusão intensa e contenção. Definimos uma tarefa em que o objetivo é, dada uma sequência de vídeo, segmentar tanto a extensão projetada do objeto alvo quanto o recipiente ou oclusor circundante, sempre que existir. Para estudar essa tarefa, criamos uma mistura de conjuntos de dados sintéticos e reais anotados para apoiar tanto o aprendizado supervisionado quanto a avaliação estruturada do desempenho do modelo sob várias formas de variação da tarefa, como contenção móvel ou aninhada. Avaliamos dois modelos recentes de vídeo baseados em transformers e descobrimos que, embora eles possam ser surpreendentemente capazes de rastrear alvos em certas configurações de variação da tarefa, ainda há uma lacuna considerável de desempenho antes que possamos afirmar que um modelo de rastreamento adquiriu uma noção verdadeira de permanência do objeto.
Nós nos concentramos na reconstrução de campos de radiação de alta fidelidade de cabeças humanas, capturando suas animações ao longo do tempo e sintetizando re-renderizações a partir de novos pontos de vista em passos de tempo arbitrários. Para isso, propomos uma nova configuração de captura multi-visão composta por 16 câmeras de visão máquina calibradas que registram imagens sincronizadas no tempo com resolução de 7,1 MP e 73 quadros por segundo. Com nossa configuração, coletamos um novo conjunto de dados com mais de 4700 sequências de alta resolução e alta taxa de quadros de mais de 220 cabeças humanas, a partir do qual introduzimos um novo benchmark de reconstrução de cabeças humanas. As sequências gravadas abrangem uma ampla gama de dinâmicas faciais, incluindo movimentos da cabeça, expressões naturais, emoções e linguagem falada. Para reconstruir cabeças humanas de alta fidelidade, propomos Campos de Radiação Neural Dinâmicos usando Conjuntos de Hash (NeRSemble). Representamos a dinâmica da cena combinando um campo de deformação e um conjunto de codificações de hash 3D multi-resolução. O campo de deformação permite a modelagem precisa de movimentos simples da cena, enquanto o conjunto de codificações de hash ajuda a representar dinâmicas complexas. Como resultado, obtemos representações de campos de radiação de cabeças humanas que capturam o movimento ao longo do tempo e facilitam a re-renderização de novos pontos de vista arbitrários. Em uma série de experimentos, exploramos as escolhas de design de nosso método e demonstramos que nossa abordagem supera significativamente as abordagens de campos de radiação dinâmicos state-of-the-art.
Modelos de linguagem de grande escala (LLMs) impulsionam muitos sistemas de ponta em processamento de linguagem natural. No entanto, esses modelos são extremamente caros computacionalmente, mesmo no momento da inferência, levantando a questão natural: quando o custo adicional de implantar um modelo maior vale o aumento esperado nas capacidades? Compreender melhor essa compensação fundamentalmente poderia se beneficiar de uma métrica de eficiência de inferência que seja (i) facilmente comparável entre modelos de diferentes provedores e (ii) representativa do custo real de executar consultas em um ambiente de desempenho isolado. Infelizmente, o acesso a LLMs hoje é amplamente restrito a APIs de geração de texto em caixa preta, e tempos de execução brutos medidos por meio dessa interface não atendem a esses requisitos: provedores de modelos podem aplicar várias otimizações de software e hardware ortogonais ao modelo, e modelos servidos em infraestrutura compartilhada estão sujeitos a contenção de desempenho. Para contornar esses problemas, propomos uma nova métrica para comparar a eficiência de inferência entre modelos. Essa métrica coloca os modelos em pé de igualdade, como se fossem servidos (i) em hardware e software uniformes e (ii) sem contenção de desempenho. Chamamos essa métrica de tempo de execução idealizado e propomos uma metodologia para estimar eficientemente essa métrica para modelos de Transformers autoregressivos. Também propomos variantes conscientes do custo que incorporam o número de aceleradores necessários para servir o modelo. Usando essas métricas, comparamos dez LLMs de ponta para fornecer a primeira análise das compensações entre eficiência de inferência e capacidade; fazemos várias observações a partir dessa análise, incluindo o fato de que o desempenho superior de tempo de execução de inferência de certas APIs é frequentemente um subproduto de otimizações dentro da API, em vez do modelo subjacente. Nossa metodologia também facilita a comparação eficiente de diferentes pilhas de software e hardware.
Recentemente, o DeepNorm escalona Transformers para profundidades extremas (ou seja, 1000 camadas) e revela o potencial promissor do escalonamento profundo. Para estabilizar o treinamento de modelos profundos, o DeepNorm (Wang et al., 2022) tenta restringir a atualização do modelo a um valor constante. Embora a aplicação de tal restrição possa beneficiar o estágio inicial do treinamento do modelo, ela pode levar a modelos subtreinados durante todo o procedimento de treinamento. Neste artigo, propomos o BranchNorm, que redimensiona dinamicamente o ramo não residual do Transformer de acordo com o período de treinamento. O BranchNorm não apenas estabiliza teoricamente o treinamento com normas de gradiente suaves no estágio inicial, mas também incentiva uma melhor convergência no estágio subsequente de treinamento. Resultados experimentais em múltiplas tarefas de tradução demonstram que o BranchNorm alcança um melhor equilíbrio entre estabilidade de treinamento e desempenho de convergência.
As texturas são um aspecto vital para a criação de modelos 3D visualmente atraentes e realistas. Neste artigo, estudamos o problema de gerar texturas de alta fidelidade dadas as formas de ativos 3D, um tópico que tem sido relativamente menos explorado em comparação com a modelagem genérica de formas 3D. Nosso objetivo é facilitar um processo de geração de texturas controlável, de modo que um código de textura possa corresponder a um estilo de aparência específico, independentemente de qualquer forma de entrada de uma categoria. Introduzimos os Campos de Radiação UV de Textura (Texture UV Radiance Fields, TUVF), que geram texturas em um espaço esférico UV aprendível, em vez de diretamente na forma 3D. Isso permite que a textura seja desacoplada da forma subjacente e transferível para outras formas que compartilham o mesmo espaço UV, ou seja, da mesma categoria. Integramos o espaço esférico UV com o campo de radiação, o que fornece uma representação mais eficiente e precisa das texturas em comparação com os mapas de textura tradicionais. Realizamos nossos experimentos em conjuntos de dados de objetos do mundo real, onde alcançamos não apenas sínteses realistas, mas também melhorias substanciais em relação ao estado da arte no controle e edição de texturas. Página do Projeto: https://www.anjiecheng.me/TUVF
Apresentamos os Modelos de Trajetória Mascarada (MTM) como uma abstração genérica para tomada de decisão sequencial. O MTM recebe uma trajetória, como uma sequência de estado-ação, e visa reconstruir a trajetória condicionada a subconjuntos aleatórios da mesma trajetória. Ao treinar com um padrão de mascaramento altamente randomizado, o MTM aprende redes versáteis que podem assumir diferentes papéis ou capacidades, simplesmente escolhendo máscaras apropriadas no momento da inferência. Por exemplo, a mesma rede MTM pode ser usada como um modelo de dinâmica direta, modelo de dinâmica inversa ou até mesmo como um agente de RL offline. Por meio de extensos experimentos em várias tarefas de controle contínuo, mostramos que a mesma rede MTM — ou seja, com os mesmos pesos — pode igualar ou superar redes especializadas treinadas para as capacidades mencionadas. Além disso, descobrimos que as representações de estado aprendidas pelo MTM podem acelerar significativamente a velocidade de aprendizado de algoritmos tradicionais de RL. Por fim, em benchmarks de RL offline, constatamos que o MTM é competitivo com algoritmos especializados de RL offline, apesar de o MTM ser um método genérico de aprendizado autossupervisionado sem nenhum componente explícito de RL. O código está disponível em https://github.com/facebookresearch/mtm.