Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Consistência Latente (LCMs) alcançaram desempenho impressionante na aceleração de tarefas gerativas de texto para imagem, produzindo imagens de alta qualidade com um número mínimo de passos de inferência. Os LCMs são destilados a partir de modelos de difusão latente (LDMs) pré-treinados, exigindo apenas cerca de 32 horas de treinamento em GPUs A100. Este relatório expande ainda mais o potencial dos LCMs em dois aspectos: Primeiro, ao aplicar a destilação LoRA a modelos Stable-Diffusion, incluindo SD-V1.5, SSD-1B e SDXL, ampliamos o escopo dos LCMs para modelos maiores com consumo de memória significativamente menor, alcançando qualidade superior na geração de imagens. Segundo, identificamos os parâmetros LoRA obtidos por meio da destilação LCM como um módulo universal de aceleração para Stable-Diffusion, denominado LCM-LoRA. O LCM-LoRA pode ser diretamente integrado a diversos modelos Stable-Diffusion ajustados ou LoRAs sem necessidade de treinamento, representando assim um acelerador universalmente aplicável para diversas tarefas de geração de imagens. Em comparação com solucionadores numéricos anteriores de PF-ODE, como DDIM e DPM-Solver, o LCM-LoRA pode ser visto como um solucionador neural plug-in de PF-ODE que possui fortes habilidades de generalização. Página do projeto: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus é um assistente multimodal de propósito geral que amplia as capacidades de grandes modelos multimodais. Ele mantém um repositório de habilidades de modelos pré-treinados de visão e visão-linguagem e pode ativar ferramentas relevantes com base nas entradas dos usuários para realizar tarefas do mundo real. O LLaVA-Plus é treinado em dados de instrução multimodal para adquirir a capacidade de usar ferramentas, abrangendo compreensão visual, geração, recuperação de conhecimento externo e composições. Resultados empíricos mostram que o LLaVA-Plus supera o LLaVA em capacidades existentes e exibe novas habilidades. Ele se destaca pelo fato de que a consulta de imagem é diretamente fundamentada e ativamente engajada durante toda a sessão de interação humano-IA, melhorando significativamente o desempenho no uso de ferramentas e permitindo novos cenários.
Apresentamos o Prompt Cache, uma abordagem para acelerar a inferência em modelos de linguagem de grande escala (LLM) por meio da reutilização de estados de atenção entre diferentes prompts de LLM. Muitos prompts de entrada possuem segmentos de texto sobrepostos, como mensagens de sistema, modelos de prompt e documentos fornecidos como contexto. Nossa principal percepção é que, ao pré-computar e armazenar os estados de atenção desses segmentos de texto que ocorrem frequentemente no servidor de inferência, podemos reutilizá-los de forma eficiente quando esses segmentos aparecem em prompts de usuários. O Prompt Cache emprega um esquema para definir explicitamente esses segmentos de texto reutilizáveis, chamados de módulos de prompt. O esquema garante a precisão posicional durante a reutilização dos estados de atenção e fornece aos usuários uma interface para acessar os estados armazenados em cache em seus prompts. Utilizando uma implementação protótipo, avaliamos o Prompt Cache em vários LLMs. Demonstramos que o Prompt Cache reduz significativamente a latência no tempo para o primeiro token, especialmente para prompts mais longos, como respostas a perguntas baseadas em documentos e recomendações. As melhorias variam de 8x para inferência baseada em GPU a 60x para inferência baseada em CPU, tudo isso mantendo a precisão da saída e sem a necessidade de modificações nos parâmetros do modelo.
Modelos de linguagem de grande escala (LLMs, na sigla em inglês) recentemente alcançaram desempenho em nível humano em uma variedade de benchmarks profissionais e acadêmicos. No entanto, a acessibilidade a esses modelos tem ficado aquém de seu desempenho. Os LLMs de última geração exigem infraestrutura cara; estão disponíveis apenas por meio de interfaces web com limitação de taxa, bloqueio geográfico e censura; e carecem de código e relatórios técnicos disponíveis publicamente. Neste artigo, contamos a história do GPT4All, um repositório de código aberto popular que visa democratizar o acesso aos LLMs. Descrevemos os detalhes técnicos da família original de modelos GPT4All, bem como a evolução do projeto GPT4All, de um único modelo para um ecossistema de código aberto totalmente desenvolvido. Esperamos que este artigo sirva tanto como uma visão geral técnica dos modelos originais GPT4All quanto como um estudo de caso sobre o crescimento subsequente do ecossistema de código aberto GPT4All.
Avanços recentes, como o LLaVA e o Mini-GPT4, integraram com sucesso informações visuais em LLMs, gerando resultados inspiradores e dando origem a uma nova geração de LLMs multimodais, ou MLLMs. No entanto, esses métodos enfrentam desafios com alucinações e a interferência mútua entre tarefas. Para resolver esses problemas, propomos uma abordagem eficiente e precisa para adaptação a tarefas subsequentes, utilizando o LLM como uma ponte para conectar múltiplos modelos especializados, denominada u-LLaVA. Primeiramente, incorporamos o módulo de alinhamento de modalidades e os módulos multitarefa ao LLM. Em seguida, reorganizamos ou reconstruímos conjuntos de dados públicos de múltiplos tipos para permitir um alinhamento eficiente de modalidades e o seguimento de instruções. Por fim, informações específicas da tarefa são extraídas do LLM treinado e fornecidas a diferentes módulos para a resolução de tarefas subsequentes. O framework geral é simples, eficaz e alcança desempenho de ponta em múltiplos benchmarks. Também disponibilizamos publicamente nosso modelo, os dados gerados e a base de código.
A busca pela tecnologia de condução autônoma depende da integração sofisticada de sistemas de percepção, tomada de decisão e controle. As abordagens tradicionais, tanto baseadas em dados quanto em regras, têm sido limitadas pela incapacidade de compreender as nuances de ambientes de condução complexos e as intenções de outros usuários da via. Isso tem sido um gargalo significativo, especialmente no desenvolvimento do raciocínio de senso comum e da compreensão contextualizada de cenas necessários para uma condução autônoma segura e confiável. O advento dos Modelos de Linguagem Visual (VLM) representa uma nova fronteira na realização da condução totalmente autônoma de veículos. Este relatório fornece uma avaliação exaustiva do mais recente estado da arte em VLM, \modelnamefull, e sua aplicação em cenários de condução autônoma. Exploramos as capacidades do modelo para compreender e raciocinar sobre cenas de condução, tomar decisões e, finalmente, agir no papel de um motorista. Nossos testes abrangentes variam desde o reconhecimento básico de cenas até o raciocínio causal complexo e a tomada de decisão em tempo real sob diversas condições. Nossas descobertas revelam que o \modelname demonstra desempenho superior na compreensão de cenas e no raciocínio causal em comparação com os sistemas autônomos existentes. Ele mostra o potencial para lidar com cenários fora da distribuição, reconhecer intenções e tomar decisões informadas em contextos reais de condução. No entanto, desafios permanecem, particularmente na discernimento de direção, reconhecimento de semáforos, fundamentação visual e tarefas de raciocínio espacial. Essas limitações destacam a necessidade de mais pesquisa e desenvolvimento. O projeto agora está disponível no GitHub para partes interessadas acessarem e utilizarem: https://github.com/PJLab-ADG/GPT4V-AD-Exploration.