Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de visão e linguagem (VLMs) têm alcançado progressos significativos em percepção e raciocínio multimodal. Além disso, quando integrados de forma contínua a um agente incorporado, isso representa um passo crucial para a criação de sistemas autônomos e conscientes do contexto, capazes de formular planos e executar comandos com precisão. Neste artigo, apresentamos o Octopus, um novo VLM projetado para decifrar com proficiência os objetivos visuais e textuais de uma tarefa de um agente e para formular sequências de ações complexas e gerar código executável. Nosso design permite que o agente lide habilmente com uma ampla gama de tarefas, desde tarefas cotidianas simples em simuladores até interações sofisticadas em jogos complexos. O Octopus é treinado utilizando o GPT-4 para controlar um agente exploratório e gerar dados de treinamento, ou seja, planos de ação e o código executável correspondente, dentro de nosso ambiente experimental chamado OctoVerse. Também coletamos feedback que permite o esquema de treinamento aprimorado de Aprendizado por Reforço com Feedback Ambiental (RLEF). Por meio de uma série de experimentos, elucidamos a funcionalidade do Octopus e apresentamos resultados convincentes, e o RLEF proposto demonstra refinar a tomada de decisão do agente. Ao disponibilizar publicamente nossa arquitetura de modelo, simulador e conjunto de dados, aspiramos a estimular mais inovações e fomentar aplicações colaborativas dentro da comunidade mais ampla de IA incorporada.
Apresentamos Lemur e Lemur-Chat, modelos de linguagem de acesso aberto otimizados tanto para capacidades de linguagem natural quanto de codificação, servindo como a base para agentes de linguagem versáteis. A evolução de modelos de chat de linguagem para agentes de linguagem funcionais exige que os modelos não apenas dominem a interação humana, o raciocínio e o planejamento, mas também garantam uma fundamentação nos ambientes relevantes. Isso requer uma combinação harmoniosa de capacidades de linguagem e codificação nos modelos. Lemur e Lemur-Chat são propostos para atender a essa necessidade, demonstrando proficiências equilibradas em ambos os domínios, ao contrário dos modelos de código aberto existentes que tendem a se especializar em um ou outro. Por meio de um pré-treinamento meticuloso utilizando um corpus intensivo em código e um ajuste fino de instruções em dados de texto e código, nossos modelos alcançam um desempenho médio de ponta em diversos benchmarks de texto e codificação entre os modelos de código aberto. Experimentos abrangentes demonstram a superioridade do Lemur sobre os modelos de código aberto existentes e sua proficiência em várias tarefas de agentes envolvendo comunicação humana, uso de ferramentas e interação em ambientes totalmente e parcialmente observáveis. A harmonização entre linguagens naturais e de programação permite que o Lemur-Chat reduza significativamente a lacuna com modelos proprietários em habilidades de agentes, fornecendo insights importantes para o desenvolvimento de agentes de código aberto avançados, hábeis em raciocinar, planejar e operar de forma contínua entre ambientes. https://github.com/OpenLemur/Lemur
Recentemente, a geração de ativos 3D a partir de prompts de texto tem apresentado resultados impressionantes. Tanto os modelos de difusão 2D quanto 3D são capazes de gerar objetos 3D de qualidade decente com base em prompts. Os modelos de difusão 3D possuem boa consistência tridimensional, mas sua qualidade e generalização são limitadas, já que dados 3D treináveis são caros e difíceis de obter. Os modelos de difusão 2D, por outro lado, possuem forte capacidade de generalização e geração refinada, mas a consistência 3D é difícil de garantir. Este artigo busca unir o poder desses dois tipos de modelos de difusão por meio da recente representação explícita e eficiente de splatting com Gaussianas 3D. Um framework rápido de geração 3D, denominado \name, é proposto, onde o modelo de difusão 3D fornece priors de nuvem de pontos para inicialização, e o modelo de difusão 2D enriquece a geometria e a aparência. Operações de crescimento de pontos ruidosos e perturbação de cor são introduzidas para aprimorar as Gaussianas inicializadas. Nosso \name é capaz de gerar uma instância 3D de alta qualidade em menos de 25 minutos em uma GPU, muito mais rápido que métodos anteriores, enquanto as instâncias geradas podem ser renderizadas diretamente em tempo real. Demonstrações e código estão disponíveis em https://taoranyi.com/gaussiandreamer/.
Apresentamos o ``Idea to Image'', um sistema que permite a autorrefinamento multimodal iterativo com GPT-4V(ision) para o design e geração automática de imagens. Humanos podem identificar rapidamente as características de diferentes modelos de texto para imagem (T2I) por meio de explorações iterativas. Isso permite que eles convertam de forma eficiente suas ideias de geração de alto nível em prompts T2I eficazes que podem produzir boas imagens. Investigamos se sistemas baseados em modelos multimodais de grande escala (LMMs) podem desenvolver habilidades análogas de autorrefinamento multimodal que permitam explorar modelos ou ambientes desconhecidos por meio de tentativas de autorrefinamento. O Idea2Img gera ciclicamente prompts T2I revisados para sintetizar imagens preliminares e fornece feedback direcional para a revisão dos prompts, ambos condicionados à sua memória das características do modelo T2I investigado. O autorrefinamento iterativo confere ao Idea2Img várias vantagens em relação aos modelos T2I convencionais. Notavelmente, o Idea2Img pode processar ideias de entrada com sequências intercaladas de texto e imagem, seguir ideias com instruções de design e gerar imagens com melhor qualidade semântica e visual. O estudo de preferência do usuário valida a eficácia do autorrefinamento multimodal iterativo no design e geração automática de imagens.
Apesar dos avanços significativos nos modelos de geração de imagens a partir de texto em grande escala, alcançar a geração hiper-realista de imagens humanas continua sendo uma tarefa desejada, mas ainda não resolvida. Modelos existentes como o Stable Diffusion e o DALL-E 2 tendem a gerar imagens humanas com partes incoerentes ou poses não naturais. Para enfrentar esses desafios, nossa principal percepção é que a imagem humana é inerentemente estrutural em múltiplas granularidades, desde o esqueleto corporal em nível grosseiro até a geometria espacial em nível detalhado. Portanto, capturar essas correlações entre a aparência explícita e a estrutura latente em um único modelo é essencial para gerar imagens humanas coerentes e naturais. Para isso, propomos um framework unificado, o HyperHuman, que gera imagens humanas em cenários diversos com alto realismo. Especificamente, 1) primeiro construímos um grande conjunto de dados centrado em humanos, chamado HumanVerse, que consiste em 340 milhões de imagens com anotações abrangentes, como pose humana, profundidade e normal de superfície. 2) Em seguida, propomos um Modelo de Difusão Estrutural Latente que simultaneamente remove ruídos da profundidade e da normal de superfície junto com a imagem RGB sintetizada. Nosso modelo reforça a aprendizagem conjunta da aparência da imagem, da relação espacial e da geometria em uma rede unificada, onde cada ramo do modelo se complementa com consciência estrutural e riqueza textural. 3) Por fim, para aprimorar ainda mais a qualidade visual, propomos um Refinador Guiado por Estrutura para compor as condições previstas para uma geração mais detalhada em resolução mais alta. Experimentos extensivos demonstram que nosso framework alcança o estado da arte, gerando imagens humanas hiper-realistas em diversos cenários. Página do Projeto: https://snap-research.github.io/HyperHuman/
Modelos de difusão pré-treinados em grande escala têm demonstrado capacidades notáveis em diversas gerações de vídeos. Dado um conjunto de clipes de vídeo do mesmo conceito de movimento, a tarefa de Personalização de Movimento consiste em adaptar os modelos de difusão de texto para vídeo existentes para gerar vídeos com esse movimento. Por exemplo, gerar um vídeo com um carro se movendo de uma maneira prescrita sob movimentos específicos da câmera para criar um filme, ou um vídeo ilustrando como um urso levantaria pesos para inspirar criadores. Métodos de adaptação foram desenvolvidos para personalizar aparências, como sujeito ou estilo, mas ainda não foram explorados para movimento. É direto estender os principais métodos de adaptação para personalização de movimento, incluindo ajuste completo do modelo, ajuste eficiente em parâmetros de camadas adicionais e Adaptações de Baixa Classificação (LoRAs). No entanto, o conceito de movimento aprendido por esses métodos frequentemente está acoplado às aparências limitadas nos vídeos de treinamento, dificultando a generalização do movimento personalizado para outras aparências. Para superar esse desafio, propomos o MotionDirector, com uma arquitetura de LoRAs de caminho duplo para desacoplar o aprendizado de aparência e movimento. Além disso, projetamos uma nova função de perda temporal com viés reduzido de aparência para mitigar a influência da aparência no objetivo de treinamento temporal. Resultados experimentais mostram que o método proposto pode gerar vídeos de diversas aparências para os movimentos personalizados. Nosso método também suporta várias aplicações subsequentes, como a mistura de diferentes vídeos com suas aparências e movimentos respectivamente, e a animação de uma única imagem com movimentos personalizados. Nosso código e pesos do modelo serão disponibilizados.