Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o InternLM-XComposer2, um modelo de última geração em visão e linguagem que se destaca na composição e compreensão de texto e imagem de forma livre. Este modelo vai além da compreensão convencional entre visão e linguagem, criando habilmente conteúdo intercalado de texto e imagem a partir de diversas entradas, como esboços, especificações textuais detalhadas e imagens de referência, permitindo a criação de conteúdo altamente personalizável. O InternLM-XComposer2 propõe uma abordagem Partial LoRA (PLoRA) que aplica parâmetros LoRA adicionais exclusivamente aos tokens de imagem, preservando a integridade do conhecimento linguístico pré-treinado, equilibrando a compreensão precisa da visão com a composição de texto e talento literário. Resultados experimentais demonstram a superioridade do InternLM-XComposer2, baseado no InternLM2-7B, na produção de conteúdo multimodal de texto longo de alta qualidade e seu desempenho excepcional na compreensão de visão e linguagem em vários benchmarks, onde não apenas supera significativamente os modelos multimodais existentes, mas também iguala ou até supera o GPT-4V e o Gemini Pro em determinadas avaliações. Isso destaca sua notável proficiência no domínio da compreensão multimodal. A série de modelos InternLM-XComposer2 com 7 bilhões de parâmetros está disponível publicamente em https://github.com/InternLM/InternLM-XComposer.
Para os Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês), escalar o modelo pode efetivamente melhorar o desempenho. No entanto, expandir os parâmetros do modelo aumenta significativamente os custos de treinamento e inferência, já que todos os parâmetros do modelo são ativados para cada token no cálculo. Neste trabalho, propomos uma nova estratégia de treinamento chamada MoE-tuning para LVLMs, que pode construir um modelo esparso com um número extraordinário de parâmetros, mas com um custo computacional constante, e aborda efetivamente a degradação de desempenho tipicamente associada ao aprendizado multimodal e à esparsidade do modelo. Além disso, apresentamos o framework MoE-LLaVA, uma arquitetura de LVLM esparsa baseada em MoE. Esse framework ativa exclusivamente os k melhores especialistas por meio de roteadores durante a implantação, mantendo os demais especialistas inativos. Nossos extensos experimentos destacam as excelentes capacidades do MoE-LLaVA em compreensão visual e seu potencial para reduzir alucinações nas saídas do modelo. Notavelmente, com apenas 3 bilhões de parâmetros esparsamente ativados, o MoE-LLaVA demonstra desempenho comparável ao LLaVA-1.5-7B em vários conjuntos de dados de compreensão visual e até supera o LLaVA-1.5-13B em benchmarks de alucinação de objetos. Por meio do MoE-LLaVA, nosso objetivo é estabelecer uma base para LVLMs esparsos e fornecer insights valiosos para pesquisas futuras no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes. O código está disponível em https://github.com/PKU-YuanGroup/MoE-LLaVA.
Modelos de linguagem de grande escala são treinados em grandes extrações da web, que frequentemente são desestruturadas, ruidosas e mal formuladas. As leis de escalonamento atuais mostram que aprender a partir desses dados requer uma abundância tanto de poder computacional quanto de dados, que crescem com o tamanho do modelo sendo treinado. Isso é inviável tanto devido aos altos custos computacionais e à duração associada ao pré-treinamento, quanto à iminente escassez de dados de alta qualidade na web. Neste trabalho, propomos o Pré-treinamento Aumentado com Reformulação da Web (WRAP, na sigla em inglês), que utiliza um modelo ajustado por instruções pronto para uso, solicitado a parafrasear documentos da web em estilos específicos, como "semelhante à Wikipedia" ou em "formato de pergunta-resposta", para pré-treinar conjuntamente modelos de linguagem de grande escala (LLMs) em reformulações reais e sintéticas. Primeiro, mostramos que o uso do WRAP no conjunto de dados C4, que é naturalmente ruidoso, acelera o pré-treinamento em aproximadamente 3 vezes. Com o mesmo orçamento computacional de pré-treinamento, ele melhora a perplexidade em mais de 10% em média em diferentes subconjuntos do Pile e aumenta a precisão de resposta a perguntas zero-shot em 13 tarefas em mais de 2%. Segundo, investigamos o impacto do estilo de reformulação no desempenho do modelo, oferecendo insights sobre como a composição dos dados de treinamento pode afetar o desempenho dos LLMs em cenários fora da distribuição (OOD). Nossos ganhos são atribuídos ao fato de que os dados sintéticos reformulados têm maior utilidade do que apenas dados reais, pois (i) incorporam diversidade de estilo que reflete de perto o estilo de avaliação a jusante, e (ii) têm maior "qualidade" do que os dados extraídos da web.
Apresentamos o Motion-I2V, uma nova estrutura para geração consistente e controlável de vídeo a partir de imagens (I2V). Diferentemente de métodos anteriores que aprendem diretamente o mapeamento complexo de imagem para vídeo, o Motion-I2V divide o I2V em dois estágios com modelagem explícita de movimento. Para o primeiro estágio, propomos um preditor de campo de movimento baseado em difusão, que se concentra em deduzir as trajetórias dos pixels da imagem de referência. Para o segundo estágio, propomos uma atenção temporal aumentada por movimento para aprimorar a limitada atenção temporal unidimensional em modelos de difusão latente de vídeo. Esse módulo pode propagar efetivamente as características da imagem de referência para os quadros sintetizados com a orientação das trajetórias previstas no primeiro estágio. Em comparação com métodos existentes, o Motion-I2V pode gerar vídeos mais consistentes, mesmo na presença de grandes variações de movimento e ponto de vista. Ao treinar um ControlNet de trajetória esparsa para o primeiro estágio, o Motion-I2V permite que os usuários controlem com precisão as trajetórias e regiões de movimento com anotações esparsas de trajetória e região. Isso oferece maior controlabilidade do processo I2V do que depender apenas de instruções textuais. Além disso, o segundo estágio do Motion-I2V suporta naturalmente a tradução de vídeo para vídeo zero-shot. Comparações qualitativas e quantitativas demonstram as vantagens do Motion-I2V sobre abordagens anteriores na geração consistente e controlável de vídeo a partir de imagens.
Nos últimos anos, foram feitos progressos significativos no campo do aprendizado por reforço (RL) robótico, permitindo métodos que lidam com observações complexas de imagens, treinam no mundo real e incorporam dados auxiliares, como demonstrações e experiências prévias. No entanto, apesar desses avanços, o RL robótico continua sendo difícil de usar. É reconhecido entre os profissionais que os detalhes específicos de implementação desses algoritmos são frequentemente tão importantes (se não mais) para o desempenho quanto a escolha do algoritmo. Nós propomos que um desafio significativo para a adoção generalizada do RL robótico, bem como para o desenvolvimento adicional de métodos de RL robótico, é a relativa inacessibilidade desses métodos. Para enfrentar esse desafio, desenvolvemos uma biblioteca cuidadosamente implementada contendo um método eficiente de RL profundo off-policy, juntamente com métodos para calcular recompensas e reiniciar o ambiente, um controlador de alta qualidade para um robô amplamente adotado e uma série de tarefas de exemplo desafiadoras. Disponibilizamos essa biblioteca como um recurso para a comunidade, descrevemos suas escolhas de design e apresentamos resultados experimentais. Talvez surpreendentemente, descobrimos que nossa implementação pode alcançar um aprendizado muito eficiente, adquirindo políticas para montagem de placas de circuito impresso, roteamento de cabos e realocação de objetos entre 25 a 50 minutos de treinamento por política, em média, superando os resultados de ponta relatados para tarefas semelhantes na literatura. Essas políticas alcançam taxas de sucesso perfeitas ou quase perfeitas, extrema robustez mesmo sob perturbações e exibem comportamentos emergentes de recuperação e correção. Esperamos que esses resultados promissores e nossa implementação de código aberto de alta qualidade forneçam uma ferramenta para a comunidade de robótica facilitar novos desenvolvimentos no RL robótico. Nosso código, documentação e vídeos podem ser encontrados em https://serl-robot.github.io/
A síntese de animações faciais 3D a partir da fala tem atraído considerável atenção. Devido à escassez de dados faciais 4D de alta qualidade e à falta de anotações abundantes e precisas de múltiplas modalidades, os métodos anteriores frequentemente sofrem com realismo limitado e uma falta de condicionamento flexível. Abordamos esse desafio por meio de uma trilogia. Primeiro, introduzimos o Generalized Neural Parametric Facial Asset (GNPFA), um autoencoder variacional eficiente que mapeia a geometria facial e imagens para um espaço latente de expressão altamente generalizado, desacoplando expressões e identidades. Em seguida, utilizamos o GNPFA para extrair expressões de alta qualidade e poses precisas da cabeça de uma grande variedade de vídeos. Isso resulta no conjunto de dados M2F-D, um grande e diversificado conjunto de dados de animação facial 3D sincronizada com a fala, com anotações precisas de emoções e estilos. Por fim, propomos o Media2Face, um modelo de difusão no espaço latente do GNPFA para a geração de animações faciais sincronizadas com a fala, que aceita orientações ricas de múltiplas modalidades, como áudio, texto e imagem. Experimentos extensivos demonstram que nosso modelo não apenas alcança alta fidelidade na síntese de animações faciais, mas também amplia o escopo de expressividade e adaptabilidade de estilos em animações faciais 3D.
O agente de dispositivo móvel baseado em Modelos de Linguagem Multimodais de Grande Escala (MLLM) está se tornando uma aplicação popular. Neste artigo, apresentamos o Mobile-Agent, um agente autônomo multimodal para dispositivos móveis. O Mobile-Agent primeiro utiliza ferramentas de percepção visual para identificar e localizar com precisão os elementos visuais e textuais na interface frontal do aplicativo. Com base no contexto visual percebido, ele então planeja e decompõe autonomamente a tarefa de operação complexa, e navega pelos aplicativos móveis por meio de operações passo a passo. Diferente de soluções anteriores que dependem de arquivos XML dos aplicativos ou metadados do sistema móvel, o Mobile-Agent permite uma maior adaptabilidade em diversos ambientes operacionais móveis de forma centrada na visão, eliminando assim a necessidade de customizações específicas para cada sistema. Para avaliar o desempenho do Mobile-Agent, introduzimos o Mobile-Eval, um benchmark para avaliar operações em dispositivos móveis. Com base no Mobile-Eval, realizamos uma avaliação abrangente do Mobile-Agent. Os resultados experimentais indicam que o Mobile-Agent alcançou taxas notáveis de precisão e conclusão. Mesmo com instruções desafiadoras, como operações envolvendo múltiplos aplicativos, o Mobile-Agent ainda consegue cumprir os requisitos. O código e o modelo serão disponibilizados em https://github.com/X-PLUG/MobileAgent.
Avanços recentes em grandes modelos pré-treinados de texto para imagem demonstraram capacidades sem precedentes para geração de alta qualidade centrada em humanos, no entanto, a personalização da identidade facial ainda é um problema intratável. Os métodos existentes não conseguem garantir a preservação estável da identidade e a flexibilidade de edição, mesmo com várias imagens de cada indivíduo durante o treinamento. Neste trabalho, propomos o StableIdentity, que permite a recontextualização consistente da identidade com apenas uma imagem facial. Mais especificamente, empregamos um codificador facial com um prior de identidade para codificar o rosto de entrada e, em seguida, posicionamos a representação facial em um espaço com um prior de editabilidade, que é construído a partir de nomes de celebridades. Ao incorporar o prior de identidade e o prior de editabilidade, a identidade aprendida pode ser injetada em qualquer lugar com diversos contextos. Além disso, projetamos uma perda de difusão em duas fases com máscara para aumentar a percepção em nível de pixel do rosto de entrada e manter a diversidade da geração. Experimentos extensivos demonstram que nosso método supera os métodos de personalização anteriores. Além disso, a identidade aprendida pode ser combinada de forma flexível com módulos prontos para uso, como o ControlNet. Notavelmente, até onde sabemos, somos os primeiros a injetar diretamente a identidade aprendida de uma única imagem na geração de vídeo/3D sem ajuste fino. Acreditamos que o StableIdentity proposto é um passo importante para unificar modelos de geração personalizada de imagem, vídeo e 3D.
À medida que os modelos de geração de texto para imagem em grande escala têm feito progressos notáveis no campo da geração de texto para imagem, muitos métodos de ajuste fino foram propostos. No entanto, esses modelos frequentemente enfrentam dificuldades com objetos novos, especialmente em cenários de "one-shot". Nosso método proposto visa abordar os desafios de generalização e fidelidade de maneira orientada a objetos, utilizando apenas uma única imagem de entrada e as regiões de interesse específicas do objeto. Para melhorar a generalização e mitigar o sobreajuste, em nosso paradigma, uma incorporação prototípica é inicializada com base na aparência do objeto e em sua classe, antes de ajustar o modelo de difusão. E durante o ajuste fino, propomos uma regularização de caracterização de classe para preservar o conhecimento prévio das classes de objetos. Para melhorar ainda mais a fidelidade, introduzimos uma perda específica do objeto, que também pode ser usada para implantar múltiplos objetos. No geral, nosso método orientado a objetos para implantar novos objetos pode se integrar perfeitamente com conceitos existentes, além de oferecer alta fidelidade e generalização. Nosso método supera vários trabalhos existentes. O código será liberado.
Apesar dos avanços significativos nos modelos de texto-para-imagem para geração de imagens de alta qualidade, esses métodos ainda enfrentam dificuldades para garantir a controlabilidade das instruções de texto sobre as imagens no contexto de instruções complexas, especialmente quando se trata de reter atributos e relações de objetos. Neste artigo, propomos o CompAgent, uma abordagem livre de treinamento para geração composicional de texto-para-imagem, com um agente de modelo de linguagem de grande escala (LLM) como núcleo. A ideia fundamental por trás do CompAgent baseia-se em uma metodologia de dividir e conquistar. Dada uma instrução de texto complexa contendo múltiplos conceitos, incluindo objetos, atributos e relações, o agente LLM inicialmente a decompõe, o que envolve a extração de objetos individuais, seus atributos associados e a previsão de um layout de cena coerente. Esses objetos individuais podem então ser conquistados de forma independente. Posteriormente, o agente realiza raciocínio ao analisar o texto, planeja e emprega ferramentas para compor esses objetos isolados. O mecanismo de verificação e feedback humano é finalmente incorporado ao nosso agente para corrigir possíveis erros de atributos e refinar as imagens geradas. Guiado pelo agente LLM, propomos um modelo de personalização de múltiplos conceitos sem ajuste e um modelo de geração de layout-para-imagem como ferramentas para composição de conceitos, além de um método de edição local de imagens como ferramenta para interagir com o agente para verificação. O layout da cena controla o processo de geração de imagens entre essas ferramentas para evitar confusão entre múltiplos objetos. Experimentos extensivos demonstram a superioridade de nossa abordagem para geração composicional de texto-para-imagem: o CompAgent alcança uma melhoria de mais de 10% no T2I-CompBench, um benchmark abrangente para geração composicional de T2I em mundo aberto. A extensão para várias tarefas relacionadas também ilustra a flexibilidade do nosso CompAgent para aplicações potenciais.
Os modelos visão-linguagem existentes exibem forte generalização em uma variedade de domínios visuais e tarefas. No entanto, esses modelos realizam principalmente reconhecimento zero-shot de maneira de conjunto fechado e, portanto, lutam para lidar com conceitos visuais de domínio aberto por design. Existem métodos recentes de ajuste fino, como o aprendizado de prompts, que não apenas estudam a discriminação entre amostras dentro da distribuição (ID) e fora da distribuição (OOD), mas também mostram algumas melhorias nas precisões tanto ID quanto OOD. Neste artigo, primeiro demonstramos que modelos visão-linguagem, após ajuste fino suficientemente longo, mas sem regularização adequada, tendem a sobreajustar as classes conhecidas no conjunto de dados fornecido, com desempenho degradado em classes desconhecidas. Em seguida, propomos uma nova abordagem chamada OGEN para abordar essa falha, com o foco principal em melhorar a generalização OOD de modelos ajustados. Especificamente, um gerador de características condicionado por classe é introduzido para sintetizar características OOD usando apenas o nome da classe de qualquer classe desconhecida. Essas características sintetizadas fornecerão conhecimento útil sobre as desconhecidas e ajudarão a regularizar a fronteira de decisão entre dados ID e OOD quando otimizadas em conjunto. Igualmente importante é nosso mecanismo de auto-distilação adaptativa para regularizar nosso modelo de geração de características durante a otimização conjunta, ou seja, transferir conhecimento de forma adaptativa entre estados do modelo para prevenir ainda mais o sobreajuste. Experimentos validam que nosso método produz ganhos convincentes no desempenho de generalização OOD em diferentes configurações.