Artigos de pesquisa em IA selecionados diariamente com traduções
Avanços recentes em modelos de linguagem de grande escala (LLMs) levaram à criação de agentes inteligentes capazes de realizar tarefas complexas. Este artigo apresenta uma nova estrutura de agente multimodal baseada em LLM, projetada para operar aplicativos de smartphone. Nossa estrutura permite que o agente opere aplicativos de smartphone por meio de um espaço de ação simplificado, imitando interações humanas, como toques e deslizes. Essa abordagem inovadora elimina a necessidade de acesso ao back-end do sistema, ampliando assim sua aplicabilidade em diversos aplicativos. Central para a funcionalidade do nosso agente é o seu método de aprendizado inovador. O agente aprende a navegar e usar novos aplicativos por meio de exploração autônoma ou observando demonstrações humanas. Esse processo gera uma base de conhecimento que o agente consulta para executar tarefas complexas em diferentes aplicativos. Para demonstrar a praticidade do nosso agente, realizamos testes extensivos em 50 tarefas em 10 aplicativos diferentes, incluindo redes sociais, e-mail, mapas, compras e ferramentas sofisticadas de edição de imagens. Os resultados confirmam a proficiência do nosso agente no manuseio de uma ampla variedade de tarefas de alto nível.
Este artigo apresenta o Paint3D, uma nova estrutura generativa de abordagem grossa-para-fina que é capaz de produzir mapas de textura UV 2K de alta resolução, sem iluminação e diversos para malhas 3D não texturizadas, condicionadas por entradas de texto ou imagem. O principal desafio abordado é a geração de texturas de alta qualidade sem informações de iluminação embutidas, o que permite que as texturas sejam reiluminadas ou reeditadas em pipelines gráficos modernos. Para alcançar isso, nosso método primeiro utiliza um modelo de difusão 2D pré-treinado e consciente da profundidade para gerar imagens condicionadas à visão e realizar a fusão de texturas multi-visão, produzindo um mapa de textura inicial grosseiro. No entanto, como modelos 2D não podem representar totalmente formas 3D e desabilitam efeitos de iluminação, o mapa de textura grosseiro exibe áreas incompletas e artefatos de iluminação. Para resolver isso, treinamos modelos de difusão UV Inpainting e UVHD especializados no refinamento consciente da forma de áreas incompletas e na remoção de artefatos de iluminação. Através desse processo de abordagem grossa-para-fina, o Paint3D pode produzir texturas UV 2K de alta qualidade que mantêm consistência semântica enquanto são livres de iluminação, avançando significativamente o estado da arte na texturização de objetos 3D.
Avanços recentes em modelos personalizados de texto para imagem (T2I) revolucionaram a criação de conteúdo, capacitando não especialistas a gerar imagens impressionantes com estilos únicos. Embora promissores, a adição de movimentos realistas a essas imagens personalizadas por meio de texto apresenta desafios significativos na preservação de estilos distintos, detalhes de alta fidelidade e na obtenção de controlabilidade de movimento por texto. Neste artigo, apresentamos o PIA, um Animador de Imagens Personalizado que se destaca no alinhamento com imagens de condição, na obtenção de controlabilidade de movimento por texto e na compatibilidade com vários modelos personalizados de T2I sem ajustes específicos. Para alcançar esses objetivos, o PIA se baseia em um modelo T2I básico com camadas de alinhamento temporal bem treinadas, permitindo a transformação contínua de qualquer modelo personalizado de T2I em um modelo de animação de imagens. Um componente-chave do PIA é a introdução do módulo de condição, que utiliza o quadro de condição e a afinidade interquadros como entrada para transferir informações de aparência guiadas pela dica de afinidade para a síntese de quadros individuais no espaço latente. Esse design mitiga os desafios de alinhamento de imagem relacionados à aparência e permite um foco mais forte no alinhamento com orientações relacionadas ao movimento.
A síntese semântica de imagens, ou seja, a geração de imagens a partir de mapas de rótulos semânticos fornecidos pelo usuário, é uma importante tarefa de geração condicional de imagens, pois permite controlar tanto o conteúdo quanto o layout espacial das imagens geradas. Embora os modelos de difusão tenham avançado o estado da arte na modelagem generativa de imagens, a natureza iterativa de seu processo de inferência os torna computacionalmente exigentes. Outras abordagens, como GANs, são mais eficientes, pois exigem apenas uma única passagem feed-forward para geração, mas a qualidade da imagem tende a sofrer em conjuntos de dados grandes e diversos. Neste trabalho, propomos uma nova classe de discriminadores GAN para síntese semântica de imagens que gera imagens altamente realistas ao explorar redes de backbone de recursos pré-treinadas para tarefas como classificação de imagens. Também introduzimos uma nova arquitetura de gerador com melhor modelagem de contexto e usando atenção cruzada para injetar ruído em variáveis latentes, resultando em imagens geradas mais diversas. Nosso modelo, que denominamos DP-SIMS, alcança resultados de última geração em termos de qualidade de imagem e consistência com os mapas de rótulos de entrada em ADE-20K, COCO-Stuff e Cityscapes, superando modelos de difusão recentes enquanto requer duas ordens de magnitude a menos de computação para inferência.
A síntese de visão de vídeo, permitindo a criação de quadros visualmente atraentes a partir de pontos de vista e tempos arbitrários, oferece experiências de visualização imersivas. Os campos de radiação neural, particularmente o NeRF, inicialmente desenvolvidos para cenas estáticas, impulsionaram a criação de diversos métodos para síntese de visão de vídeo. No entanto, o desafio para a síntese de visão de vídeo surge do borrão de movimento, uma consequência do movimento do objeto ou da câmera durante a exposição, o que dificulta a síntese precisa de visões espaço-temporais nítidas. Em resposta, propomos uma nova estrutura de NeRF dinâmico para desborramento de vídeo monocromático borrado, chamada DyBluRF, composta por uma etapa de Refinamento de Raios Intercalados (IRR) e uma etapa de Desborramento Baseado em Decomposição de Movimento (MDD). Nosso DyBluRF é o primeiro que aborda e lida com a síntese de novas visões para vídeo monocromático borrado. A etapa IRR reconstrói conjuntamente cenas 3D dinâmicas e refina as informações imprecisas da pose da câmera para combater as informações de pose inexatas extraídas dos quadros borrados fornecidos. A etapa MDD é uma nova abordagem de previsão incremental de raios nítidos latentes (ILSP) para os quadros de vídeo monocromático borrado, decompondo os raios nítidos latentes em componentes de movimento global da câmera e movimento local do objeto. Resultados experimentais extensivos demonstram que nosso DyBluRF supera qualitativamente e quantitativamente os métodos mais recentes e avançados. Nossa página do projeto, incluindo códigos-fonte e modelo pré-treinado, está publicamente disponível em https://kaist-viclab.github.io/dyblurf-site/.