Artigos de pesquisa em IA selecionados diariamente com traduções
O recente desenvolvimento de modelos multimodais de grande escala (LMMs), especialmente o GPT-4V(ision) e o Gemini, tem expandido rapidamente os limites de capacidade dos modelos multimodais além de tarefas tradicionais como geração de legendas para imagens e respostas a perguntas visuais. Neste trabalho, exploramos o potencial de LMMs como o GPT-4V como um agente web generalista que pode seguir instruções em linguagem natural para completar tarefas em qualquer site dado. Propomos o SEEACT, um agente web generalista que aproveita o poder dos LMMs para compreensão visual integrada e ação na web. Avaliamos no recente benchmark MIND2WEB. Além da avaliação offline padrão em sites armazenados em cache, habilitamos um novo cenário de avaliação online desenvolvendo uma ferramenta que permite executar agentes web em sites ao vivo. Mostramos que o GPT-4V apresenta um grande potencial para agentes web - ele pode completar com sucesso 50% das tarefas em sites ao vivo se manualmente fundamentarmos seus planos textuais em ações nos sites. Isso supera substancialmente LLMs baseados apenas em texto, como o GPT-4, ou modelos menores (FLAN-T5 e BLIP-2) especificamente ajustados para agentes web. No entanto, a fundamentação ainda permanece um grande desafio. Estratégias existentes de fundamentação de LMMs, como o prompting de conjunto de marcas, mostram-se ineficazes para agentes web, e a melhor estratégia de fundamentação que desenvolvemos neste artigo aproveita tanto o texto HTML quanto os elementos visuais. Ainda assim, há uma lacuna substancial em relação à fundamentação oráculo, deixando amplo espaço para melhorias futuras.
A maioria dos modelos de difusão de vídeo (VDMs) existentes é limitada a meras condições de texto. Consequentemente, eles geralmente carecem de controle sobre a aparência visual e a estrutura geométrica dos vídeos gerados. Este trabalho apresenta o Moonshot, um novo modelo de geração de vídeo que condiciona simultaneamente em entradas multimodais de imagem e texto. O modelo é construído sobre um módulo central, chamado bloco de vídeo multimodal (MVB), que consiste em camadas espaço-temporais convencionais para representar características de vídeo, e uma camada de atenção cruzada desacoplada para processar entradas de imagem e texto para condicionamento de aparência. Além disso, projetamos cuidadosamente a arquitetura do modelo de forma que ele possa integrar-se opcionalmente com módulos ControlNet de imagem pré-treinados para condições visuais de geometria, sem a necessidade de sobrecarga de treinamento adicional, ao contrário de métodos anteriores. Experimentos mostram que, com mecanismos de condicionamento multimodal versáteis, o Moonshot demonstra uma melhoria significativa na qualidade visual e consistência temporal em comparação com modelos existentes. Além disso, o modelo pode ser facilmente adaptado para uma variedade de aplicações generativas, como geração de vídeo personalizado, animação de imagem e edição de vídeo, revelando seu potencial para servir como uma arquitetura fundamental para geração de vídeo controlável. Os modelos serão disponibilizados publicamente em https://github.com/salesforce/LAVIS.
Apresentamos um modelo diferenciável que modela explicitamente limites -- incluindo contornos, cantos e junções -- utilizando um novo mecanismo que denominamos atenção a limites. Demonstramos que nosso modelo fornece resultados precisos mesmo quando o sinal de limite é muito fraco ou está submerso em ruído. Em comparação com métodos clássicos anteriores para detectar limites tênues, nosso modelo possui as vantagens de ser diferenciável; ser escalável para imagens maiores; e se adaptar automaticamente a um nível apropriado de detalhe geométrico em cada parte de uma imagem. Em comparação com métodos profundos anteriores para encontrar limites via treinamento de ponta a ponta, ele possui as vantagens de fornecer precisão subpixel, ser mais resiliente ao ruído e ser capaz de processar qualquer imagem em sua resolução e proporção nativas.
Apresentamos o En3D, um esquema generativo aprimorado para esculpir avatares humanos 3D de alta qualidade. Diferentemente de trabalhos anteriores que dependem de conjuntos de dados 3D escassos ou coleções 2D limitadas com ângulos de visão desequilibrados e priores de pose imprecisos, nossa abordagem visa desenvolver um esquema generativo 3D zero-shot capaz de produzir humanos 3D visualmente realistas, geometricamente precisos e diversificados em conteúdo, sem depender de ativos 3D ou 2D pré-existentes. Para enfrentar esse desafio, introduzimos um fluxo de trabalho meticulosamente elaborado que implementa modelagem física precisa para aprender o modelo generativo 3D aprimorado a partir de dados 2D sintéticos. Durante a inferência, integramos módulos de otimização para preencher a lacuna entre aparências realistas e formas 3D grosseiras. Especificamente, o En3D compreende três módulos: um gerador 3D que modela com precisão humanos 3D generalizáveis com aparência realista a partir de imagens humanas sintetizadas, balanceadas, diversificadas e estruturadas; um escultor de geometria que aprimora a qualidade da forma usando restrições de normais multi-visão para anatomia humana detalhada; e um módulo de texturização que desacopla mapas de textura explícitos com fidelidade e editabilidade, aproveitando particionamento semântico UV e um rasterizador diferenciável. Resultados experimentais mostram que nossa abordagem supera significativamente trabalhos anteriores em termos de qualidade de imagem, precisão geométrica e diversidade de conteúdo. Também demonstramos a aplicabilidade de nossos avatares gerados para animação e edição, bem como a escalabilidade de nossa abordagem para adaptação livre de conteúdo e estilo.
À medida que os grandes modelos de linguagem (LLMs) ajustados por instruções ganham adoção global, sua capacidade de seguir instruções em múltiplos idiomas torna-se cada vez mais crucial. Uma abordagem promissora é a transferência translinguística, em que um modelo adquire funcionalidades específicas em um idioma por meio de ajuste fino em outro idioma. Neste trabalho, investigamos como a multilingüidade durante o ajuste por instruções de um LLM multilíngue afeta o seguimento de instruções entre idiomas. Primeiro, mostramos que muitos idiomas transferem algumas capacidades de seguir instruções para outros idiomas, mesmo com ajuste monolíngue. Além disso, descobrimos que apenas 40 exemplos multilíngues em um conjunto de ajuste em inglês melhoram substancialmente o seguimento de instruções multilíngues, tanto em idiomas vistos quanto não vistos durante o ajuste. Em geral, observamos que modelos ajustados em misturas multilíngues exibem desempenho comparável ou superior em vários idiomas em comparação com modelos ajustados monolingualmente, apesar de serem treinados com 10 vezes menos exemplos nesses idiomas. Por fim, descobrimos que aumentar o número de idiomas no conjunto de ajuste por instruções de 1 para apenas 2, 3 ou 4 aumenta a generalização translinguística. Nossos resultados sugerem que a construção de modelos massivamente multilíngues ajustados por instruções pode ser feita com apenas um conjunto muito pequeno de pares de instrução-resposta multilíngues.
O que aprender a modelar relações entre strings ensina aos grandes modelos de linguagem (LLMs) sobre o mundo visual? Avaliamos sistematicamente as habilidades dos LLMs para gerar e reconhecer uma variedade de conceitos visuais de complexidade crescente e, em seguida, demonstramos como um sistema preliminar de aprendizado de representação visual pode ser treinado usando modelos de texto. Como os modelos de linguagem não têm a capacidade de consumir ou produzir informações visuais em pixels, usamos código para representar imagens em nosso estudo. Embora as imagens geradas por LLMs não se pareçam com imagens naturais, os resultados na geração de imagens e a capacidade dos modelos de corrigir essas imagens geradas indicam que a modelagem precisa de strings pode ensinar aos modelos de linguagem diversos aspectos do mundo visual. Além disso, experimentos sobre aprendizado autossupervisionado de representação visual, utilizando imagens geradas com modelos de texto, destacam o potencial de treinar modelos de visão capazes de fazer avaliações semânticas de imagens naturais usando apenas LLMs.
Apesar do desempenho notável da destilação de pontuação na geração de texto para 3D, essas técnicas são notoriamente afetadas por problemas de inconsistência de visão, também conhecidos como artefato "Janus", onde os objetos gerados simulam cada visão com múltiplas faces frontais. Embora métodos empiricamente eficazes tenham abordado esse problema por meio de correção de viés de pontuação ou engenharia de prompts, uma perspectiva mais rigorosa para explicar e resolver esse problema ainda permanece elusiva. Neste artigo, revelamos que as estruturas existentes de geração de texto para 3D baseadas em destilação de pontuação degeneram para a busca de máxima verossimilhança em cada visão de forma independente e, portanto, sofrem com o problema de colapso de modos, manifestando-se como o artefato Janus na prática. Para controlar o colapso de modos, melhoramos a destilação de pontuação ao restabelecer um termo de entropia no objetivo variacional correspondente, que é aplicado à distribuição de imagens renderizadas. Maximizar a entropia incentiva a diversidade entre diferentes visões nos ativos 3D gerados, mitigando assim o problema Janus. Com base nesse novo objetivo, derivamos uma nova regra de atualização para a destilação de pontuação 3D, denominada Destilação de Pontuação Entrópica (ESD, na sigla em inglês). Teoricamente, revelamos que a ESD pode ser simplificada e implementada simplesmente adotando o truque de orientação sem classificador sobre a destilação de pontuação variacional. Embora seja incrivelmente direta, nossos extensos experimentos demonstram com sucesso que a ESD pode ser um tratamento eficaz para artefatos Janus na destilação de pontuação.
Este artigo apresenta a API WordArt Designer, uma nova estrutura para síntese de tipografia artística orientada pelo usuário, utilizando Modelos de Linguagem de Grande Escala (LLMs) no ModelScope. Abordamos o desafio de simplificar a tipografia artística para não profissionais, oferecendo uma alternativa dinâmica, adaptativa e computacionalmente eficiente aos modelos rígidos tradicionais. Nossa abordagem aproveita o poder dos LLMs para compreender e interpretar a entrada do usuário, facilitando um processo de design mais intuitivo. Através de diversos estudos de caso, demonstramos como os usuários podem articular suas preferências estéticas e requisitos funcionais, que o sistema então traduz em designs tipográficos únicos e criativos. Nossas avaliações indicam melhorias significativas na satisfação do usuário, flexibilidade de design e expressão criativa em comparação com os sistemas existentes. A API WordArt Designer não apenas democratiza a arte da tipografia, mas também abre novas possibilidades para comunicação digital personalizada e design.