Artigos de pesquisa em IA selecionados diariamente com traduções
As camadas de auto-atenção dispendiosas nos Transformers modernos exigem memória e computação quadráticas em relação ao comprimento da sequência. Os métodos de aproximação existentes geralmente têm desempenho inferior e não conseguem obter ganhos significativos de velocidade na prática. Aqui apresentamos o SwitchHead - um método inovador que reduz tanto os requisitos de computação quanto de memória e alcança aceleração em tempo real, enquanto iguala o desempenho de modelagem de linguagem dos Transformers de base com o mesmo orçamento de parâmetros. O SwitchHead utiliza camadas de Mistura de Especialistas (MoE) para as projeções de valor e saída e requer de 4 a 8 vezes menos matrizes de atenção do que os Transformers padrão. Nossa nova abordagem de atenção também pode ser combinada com camadas MLP MoE, resultando em um modelo Transformer totalmente MoE eficiente, chamado "SwitchAll". Nosso código é público.
Embora a geração de vídeos baseada em difusão tenha testemunhado progressos rápidos, os resultados de inferência dos modelos existentes ainda exibem consistência temporal insatisfatória e dinâmicas não naturais. Neste artigo, investigamos profundamente a inicialização de ruído em modelos de difusão de vídeo e descobrimos uma lacuna implícita entre treinamento e inferência que contribui para a qualidade insatisfatória da inferência. Nossas principais descobertas são: 1) a distribuição de frequência espaço-temporal do latente inicial na inferência é intrinsecamente diferente daquela usada no treinamento, e 2) o processo de remoção de ruído é significativamente influenciado pelos componentes de baixa frequência do ruído inicial. Motivados por essas observações, propomos uma estratégia de amostragem de inferência concisa, porém eficaz, chamada FreeInit, que melhora significativamente a consistência temporal dos vídeos gerados por modelos de difusão. Ao refinar iterativamente os componentes de baixa frequência espaço-temporal do latente inicial durante a inferência, o FreeInit é capaz de compensar a lacuna de inicialização entre treinamento e inferência, melhorando efetivamente a aparência do sujeito e a consistência temporal dos resultados gerados. Experimentos extensivos demonstram que o FreeInit melhora consistentemente os resultados de geração de diversos modelos de geração de texto para vídeo sem a necessidade de treinamento adicional.
Os modelos de linguagem visual (VLMs) avançaram rapidamente com o recente sucesso dos grandes modelos de linguagem (LLMs). Tem havido esforços crescentes no ajuste de instruções visuais para estender o LLM com entradas visuais, mas falta um estudo aprofundado do processo de pré-treinamento de linguagem visual, onde o modelo aprende a realizar modelagem conjunta em ambas as modalidades. Neste trabalho, examinamos as opções de design para o pré-treinamento de VLM ao aprimorar o LLM em direção ao VLM por meio de comparações controladas passo a passo. Apresentamos três principais descobertas: (1) congelar LLMs durante o pré-treinamento pode alcançar um desempenho zero-shot decente, mas falta capacidade de aprendizado em contexto, o que requer descongelar o LLM; (2) dados de pré-treinamento intercalados são benéficos, enquanto pares de imagem-texto sozinhos não são ideais; (3) reutilizar dados de instrução apenas em texto para dados de imagem-texto durante o ajuste fino de instruções não apenas corrige a degradação de tarefas apenas de texto, mas também aumenta a precisão das tarefas de VLM. Com uma receita aprimorada de pré-treinamento, construímos VILA, uma família de modelos de linguagem visual que consistentemente supera os modelos state-of-the-art, por exemplo, LLaVA-1.5, nos principais benchmarks sem recursos adicionais. O pré-treinamento multimodal também ajuda a revelar propriedades atraentes do VILA, incluindo raciocínio com múltiplas imagens, aprendizado em contexto aprimorado e melhor conhecimento do mundo.
Os modelos de difusão alcançaram uma qualidade notável na geração de imagens, superando modelos generativos anteriores. No entanto, uma limitação significativa dos modelos de difusão, em comparação com GANs, é a dificuldade em interpolar suavemente entre duas amostras de imagem, devido ao seu espaço latente altamente não estruturado. Essa interpolação suave é intrigante, pois naturalmente serve como uma solução para a tarefa de morphing de imagens, com muitas aplicações. Neste trabalho, apresentamos o DiffMorpher, a primeira abordagem que permite uma interpolação suave e natural de imagens usando modelos de difusão. Nossa ideia principal é capturar a semântica das duas imagens ajustando dois LoRAs a elas, respectivamente, e interpolar tanto os parâmetros dos LoRAs quanto os ruídos latentes para garantir uma transição semântica suave, onde a correspondência emerge automaticamente sem a necessidade de anotação. Além disso, propomos uma técnica de interpolação e injeção de atenção e um novo cronograma de amostragem para aprimorar ainda mais a suavidade entre imagens consecutivas. Experimentos extensivos demonstram que o DiffMorpher alcança efeitos de morphing de imagem significativamente melhores do que métodos anteriores em uma variedade de categorias de objetos, preenchendo uma lacuna funcional crítica que distinguia os modelos de difusão das GANs.
Abordagens recentes, como o ControlNet, oferecem aos usuários controle espacial refinado sobre modelos de difusão de texto para imagem (T2I). No entanto, módulos auxiliares precisam ser treinados para cada tipo de condição espacial, arquitetura de modelo e checkpoint, o que os coloca em desacordo com as diversas intenções e preferências que um designer humano gostaria de transmitir aos modelos de IA durante o processo de criação de conteúdo. Neste trabalho, apresentamos o FreeControl, uma abordagem sem treinamento para geração controlada de T2I que suporta múltiplas condições, arquiteturas e checkpoints simultaneamente. O FreeControl projeta orientação de estrutura para facilitar o alinhamento estrutural com uma imagem de referência e orientação de aparência para permitir o compartilhamento de aparência entre imagens geradas usando a mesma semente. Experimentos qualitativos e quantitativos extensivos demonstram o desempenho superior do FreeControl em uma variedade de modelos T2I pré-treinados. Em particular, o FreeControl facilita o controle conveniente sem treinamento sobre muitas arquiteturas e checkpoints diferentes, permite condições de entrada desafiadoras nas quais a maioria dos métodos existentes sem treinamento falha e alcança qualidade de síntese competitiva com abordagens baseadas em treinamento.
A avaliação de modelos de linguagem de grande escala (LLMs) é crucial para mensurar seu desempenho e mitigar possíveis riscos de segurança. Neste artigo, apresentamos o PromptBench, uma biblioteca unificada para avaliar LLMs. Ele consiste em vários componentes-chave que são facilmente utilizados e estendidos por pesquisadores: construção de prompts, engenharia de prompts, carregamento de datasets e modelos, ataques adversariais de prompts, protocolos de avaliação dinâmica e ferramentas de análise. O PromptBench foi projetado para ser uma base de código aberta, geral e flexível para fins de pesquisa, capaz de facilitar estudos originais na criação de novos benchmarks, implantação de aplicações downstream e design de novos protocolos de avaliação. O código está disponível em: https://github.com/microsoft/promptbench e será continuamente suportado.
Neste artigo, investigamos as aplicações de modelos de base pré-treinados (foundation models) na robótica. Tradicionalmente, os modelos de aprendizado profundo em robótica são treinados em conjuntos de dados pequenos e específicos para tarefas particulares, o que limita sua adaptabilidade em diversas aplicações. Em contraste, os modelos de base pré-treinados com dados em escala da internet parecem possuir capacidades de generalização superiores e, em alguns casos, demonstram uma habilidade emergente de encontrar soluções zero-shot para problemas que não estão presentes nos dados de treinamento. Esses modelos podem ter o potencial de aprimorar diversos componentes da pilha de autonomia robótica, desde a percepção até a tomada de decisão e o controle. Por exemplo, modelos de linguagem de grande escala podem gerar código ou fornecer raciocínio de senso comum, enquanto modelos visão-linguagem permitem o reconhecimento visual de vocabulário aberto. No entanto, desafios significativos de pesquisa permanecem em aberto, especialmente em relação à escassez de dados de treinamento relevantes para robótica, garantias de segurança e quantificação de incerteza, e execução em tempo real. Nesta revisão, estudamos artigos recentes que utilizaram ou desenvolveram modelos de base para resolver problemas de robótica. Exploramos como esses modelos contribuem para melhorar as capacidades dos robôs nas áreas de percepção, tomada de decisão e controle. Discutimos os desafios que impedem a adoção de modelos de base na autonomia robótica e apresentamos oportunidades e caminhos potenciais para avanços futuros. O projeto no GitHub correspondente a este artigo (Lançamento preliminar. Estamos comprometidos em aprimorar e atualizar este trabalho para garantir sua qualidade e relevância) pode ser encontrado aqui: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models.
Devido à escala substancial dos Modelos de Linguagem de Grande Porte (LLMs, na sigla em inglês), a aplicação direta de metodologias convencionais de compressão mostra-se impraticável. As demandas computacionais associadas até mesmo a atualizações mínimas de gradientes apresentam desafios, especialmente em hardware de nível consumidor. Este artigo introduz uma abordagem inovadora para a compressão paramétrica e prática de LLMs baseada em modelagem de ordem reduzida, que envolve decomposição de baixa classificação no espaço de características e reparametrização no espaço de pesos. Notavelmente, essa técnica de compressão opera de maneira camada por camada, dispensando a necessidade de um dispositivo GPU e permitindo a compressão de modelos em escala de bilhões dentro de restrições rigorosas de memória e tempo. Nosso método representa um avanço significativo na compressão de modelos ao aproveitar a decomposição matricial, demonstrando eficácia superior em comparação com o método predominante de poda estruturada do estado da arte.
Pesquisas recentes têm feito avanços significativos na aplicação de técnicas de alinhamento para aprimorar a utilidade e a segurança de grandes modelos de linguagem (LLMs) de acordo com as intenções humanas. Neste artigo, defendemos a importância do alinhamento para a honestidade, garantindo que os LLMs se recusem proativamente a responder perguntas quando não possuem conhecimento, sem se tornarem excessivamente conservadores. No entanto, um aspecto crucial do alinhamento para a honestidade envolve discernir os limites do conhecimento de um LLM, o que está longe de ser simples. Esse desafio exige soluções abrangentes em termos de desenvolvimento de métricas, criação de benchmarks e metodologias de treinamento. Neste artigo, abordamos esses desafios primeiro estabelecendo uma definição precisa do problema e definindo "honestidade" inspirada nos Analectos de Confúcio. Isso serve como uma base para o desenvolvimento de métricas que medem efetivamente a honestidade de um LLM, quantificando seu progresso após o alinhamento. Além disso, introduzimos um framework de treinamento flexível que é posteriormente instanciado por várias técnicas eficientes de fine-tuning que enfatizam a honestidade sem sacrificar o desempenho em outras tarefas. Nossos experimentos extensivos revelam que esses modelos alinhados mostram um aumento significativo na honestidade, conforme indicado pelas métricas propostas. Disponibilizamos uma série de recursos para facilitar pesquisas futuras em https://github.com/GAIR-NLP/alignment-for-honesty, incluindo modelos alinhados para honestidade, conjuntos de dados de treinamento e avaliação para alinhamento de honestidade, glossário de conceitos, bem como todo o código-fonte relevante.
Em Modelos de Linguagem Multimodais de Grande Escala (MLLMs), um projetor visual desempenha um papel crucial ao conectar codificadores de visão pré-treinados com LLMs, permitindo um profundo entendimento visual enquanto aproveita as robustas capacidades dos LLMs. Apesar da importância do projetor visual, ele tem sido relativamente menos explorado. Neste estudo, primeiro identificamos duas propriedades essenciais do projetor: (i) flexibilidade no gerenciamento do número de tokens visuais, crucial para a eficiência geral dos MLLMs, e (ii) preservação do contexto local a partir de características visuais, vital para o entendimento espacial. Com base nessas descobertas, propomos um novo design de projetor que é tanto flexível quanto aprimorado em termos de localidade, satisfazendo efetivamente as duas propriedades desejáveis. Além disso, apresentamos estratégias abrangentes para utilizar de forma eficaz múltiplos e multifacetados conjuntos de dados de instrução. Por meio de extensos experimentos, examinamos o impacto de escolhas de design individuais. Por fim, nosso MLLM proposto, Honeybee, supera notavelmente os métodos anteriores de última geração em vários benchmarks, incluindo MME, MMBench, SEED-Bench e LLaVA-Bench, alcançando uma eficiência significativamente maior. Códigos e modelos estão disponíveis em https://github.com/kakaobrain/honeybee.
Apresentamos o FIND, uma interface generalizada para alinhar embeddings de modelos fundamentais. Como mostrado na figura introdutória, uma interface leve baseada em transformers, sem ajustar os pesos de nenhum modelo fundamental, é suficiente para uma compreensão unificada em nível de imagem (segmentação) e de conjunto de dados (recuperação). A interface proposta possui os seguintes atributos favoráveis: (1) Generalizável. Aplica-se a várias tarefas, como recuperação, segmentação, etc., sob a mesma arquitetura e pesos. (2) Prototipável. Diferentes tarefas podem ser implementadas por meio da prototipagem de máscaras de atenção e tipos de embeddings. (3) Extensível. A interface proposta é adaptável a novas tarefas e novos modelos. (4) Intercalável. Com o benefício do treinamento multitarefa e multimodal, a interface proposta cria um espaço de embeddings compartilhado intercalado. Em vista do espaço de embeddings intercalado, introduzimos o FIND-Bench, que adiciona novas anotações de treinamento e avaliação ao conjunto de dados COCO para segmentação e recuperação intercaladas. Nossa abordagem alcança desempenho de ponta no FIND-Bench e desempenho competitivo em configurações padrão de recuperação e segmentação. O código de treinamento, avaliação e demonstração, bem como o conjunto de dados, foram disponibilizados em https://github.com/UX-Decoder/FIND.
Os Modelos de Consistência (CMs) têm demonstrado potencial na criação de conteúdo visual de forma eficiente e com alta qualidade. No entanto, a maneira de adicionar novos controles condicionais aos CMs pré-treinados ainda não foi explorada. Neste relatório técnico, consideramos estratégias alternativas para adicionar controle condicional semelhante ao ControlNet aos CMs e apresentamos três descobertas significativas. 1) O ControlNet treinado para modelos de difusão (DMs) pode ser aplicado diretamente aos CMs para controles semânticos de alto nível, mas enfrenta dificuldades com detalhes de baixo nível e controle de realismo. 2) Os CMs funcionam como uma classe independente de modelos generativos, com base na qual o ControlNet pode ser treinado do zero usando o Treinamento de Consistência proposto por Song et al. 3) Um adaptador leve pode ser otimizado conjuntamente sob múltiplas condições por meio do Treinamento de Consistência, permitindo a transferência rápida do ControlNet baseado em DMs para os CMs. Estudamos essas três soluções em diversos controles condicionais, incluindo bordas, profundidade, pose humana, imagem de baixa resolução e imagem mascarada com modelos de consistência latente de texto para imagem.
Embora a renderização neural tenha levado a avanços impressionantes na reconstrução de cenas e na síntese de novas perspectivas, ela depende fortemente de poses de câmera pré-calculadas com precisão. Para relaxar essa restrição, diversos esforços foram feitos para treinar Campos de Radiação Neural (NeRFs) sem poses de câmera pré-processadas. No entanto, as representações implícitas dos NeRFs apresentam desafios adicionais para otimizar simultaneamente a estrutura 3D e as poses da câmera. Por outro lado, o recentemente proposto 3D Gaussian Splatting oferece novas oportunidades, dada sua representação explícita de nuvem de pontos. Este artigo aproveita tanto a representação geométrica explícita quanto a continuidade do fluxo de vídeo de entrada para realizar a síntese de novas perspectivas sem qualquer pré-processamento de SfM. Processamos os quadros de entrada de maneira sequencial e expandimos progressivamente o conjunto de Gaussianas 3D, tomando um quadro de entrada por vez, sem a necessidade de pré-calcular as poses da câmera. Nosso método melhora significativamente em relação às abordagens anteriores na síntese de perspectivas e na estimativa de poses da câmera sob grandes mudanças de movimento. Nossa página do projeto está disponível em https://oasisyang.github.io/colmap-free-3dgs.
Apresentamos o Método de Adição de Ativação Contrastiva (CAA, na sigla em inglês), uma abordagem inovadora para direcionar modelos de linguagem por meio da modificação de ativações durante seus passes de propagação. O CAA calcula "vetores de direcionamento" ao calcular a média da diferença nas ativações do fluxo residual entre pares de exemplos positivos e negativos de um comportamento específico, como respostas factuais versus alucinatórias. Durante a inferência, esses vetores de direcionamento são adicionados em todas as posições de token após o prompt do usuário com um coeficiente positivo ou negativo, permitindo um controle preciso sobre o grau do comportamento desejado. Avaliamos a eficácia do CAA no modelo Llama 2 Chat utilizando tanto conjuntos de dados de questões comportamentais de múltipla escolha quanto tarefas de geração de texto aberto. Demonstramos que o CAA altera significativamente o comportamento do modelo, supera métodos tradicionais como ajuste fino (finetuning) e prompts de poucos exemplos (few-shot), e reduz minimamente as capacidades do modelo. Além disso, ao empregar diversos métodos de interpretação do espaço de ativações, obtemos insights mais profundos sobre os mecanismos do CAA. O CAA não apenas direciona com precisão as saídas do modelo, mas também esclarece como conceitos de alto nível são representados em Modelos de Linguagem de Grande Escala (LLMs).
Recentemente, houve um progresso significativo na geração de vídeos a partir de texto, com modelos de última geração sendo capazes de produzir vídeos de alta qualidade e realistas. No entanto, esses modelos não permitem que os usuários controlem e gerem vídeos de forma interativa, o que poderia desbloquear novas áreas de aplicação. Como um primeiro passo em direção a esse objetivo, abordamos o problema de dotar modelos de geração de vídeos baseados em difusão com controle espaço-temporal interativo sobre sua saída. Para isso, nos inspiramos nos avanços recentes na literatura de segmentação para propor um novo módulo de atenção mascarada espaço-temporal - Peekaboo. Este módulo é uma adição sem custo de treinamento e sem sobrecarga de inferência a modelos de geração de vídeos prontos para uso, que permite o controle espaço-temporal. Também propomos um benchmark de avaliação para a tarefa de geração de vídeos interativos. Por meio de uma extensa avaliação qualitativa e quantitativa, demonstramos que o Peekaboo possibilita a geração de vídeos controlados e até obtém um ganho de até 3,8x em mIoU em relação aos modelos de base.
No aprendizado de máquina, a generalização contra mudanças de distribuição -- onde as condições de implantação divergem dos cenários de treinamento -- é crucial, especialmente em áreas como modelagem climática, biomedicina e direção autônoma. O surgimento de modelos de base, caracterizados por seu extenso pré-treinamento e versatilidade em tarefas, tem gerado um interesse crescente em sua adaptabilidade a mudanças de distribuição. O GPT-4V(ision) atua como o modelo de base multimodal mais avançado publicamente acessível, com amplas aplicações em diversos domínios, incluindo detecção de anomalias, compreensão de vídeo, geração de imagens e diagnóstico médico. No entanto, sua robustez contra diferentes distribuições de dados permanece amplamente inexplorada. Abordando essa lacuna, este estudo avalia rigorosamente a adaptabilidade e as capacidades de generalização do GPT-4V em ambientes dinâmicos, comparando-o com modelos proeminentes como CLIP e LLaVA. Investigamos a generalização zero-shot do GPT-4V em 13 conjuntos de dados diversos, abrangendo domínios naturais, médicos e moleculares. Além disso, exploramos sua adaptabilidade a perturbações controladas de dados e examinamos a eficácia do aprendizado em contexto como uma ferramenta para aprimorar sua adaptação. Nossos resultados delineiam os limites de capacidade do GPT-4V em mudanças de distribuição, destacando seus pontos fortes e limitações em vários cenários. Importante ressaltar que esta investigação contribui para nossa compreensão de como os modelos de base de IA generalizam para mudanças de distribuição, oferecendo insights cruciais sobre sua adaptabilidade e robustez. O código está disponível publicamente em https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Os Transformers de Difusão têm demonstrado recentemente uma eficácia notável na geração de nuvens de pontos 3D de alta qualidade. No entanto, o treinamento de modelos de difusão baseados em voxels para voxels 3D de alta resolução permanece proibitivamente caro devido à complexidade cúbica dos operadores de atenção, que surge da dimensão adicional dos voxels. Motivados pela redundância inerente do 3D em comparação com o 2D, propomos o FastDiT-3D, um novo transformer de difusão mascarado projetado para a geração eficiente de nuvens de pontos 3D, que reduz significativamente os custos de treinamento. Especificamente, inspiramo-nos em autoencoders mascarados para operar dinamicamente o processo de remoção de ruído em nuvens de pontos voxelizadas mascaradas. Também propomos uma nova estratégia de mascaramento consciente de voxels para agregar de forma adaptativa informações de fundo/primeiro plano de nuvens de pontos voxelizadas. Nosso método alcança desempenho de ponta com uma taxa de mascaramento extrema de quase 99%. Além disso, para melhorar a geração 3D de múltiplas categorias, introduzimos o Mixture-of-Expert (MoE) no modelo de difusão 3D. Cada categoria pode aprender um caminho de difusão distinto com diferentes especialistas, aliviando conflitos de gradiente. Resultados experimentais no conjunto de dados ShapeNet demonstram que nosso método alcança desempenho de ponta na geração de nuvens de pontos 3D de alta fidelidade e diversidade. Nosso FastDiT-3D melhora as métricas de Acurácia do Vizinho Mais Próximo (1-NN) e Cobertura ao gerar nuvens de pontos voxelizadas de resolução 128, utilizando apenas 6,5% do custo original de treinamento.
Um fator crítico para o sucesso dos sistemas de apoio à decisão é a modelagem precisa das preferências do usuário. Pesquisas em psicologia demonstraram que os usuários frequentemente desenvolvem suas preferências durante o processo de elicitação, destacando o papel fundamental da interação entre sistema e usuário no desenvolvimento de sistemas personalizados. Este artigo introduz uma abordagem inovadora, combinando Modelos de Linguagem de Grande Escala (LLMs) com Programação por Restrições para facilitar o apoio à decisão interativo. Estudamos essa estrutura híbrida através do contexto do agendamento de reuniões, uma atividade diária que consome tempo e é enfrentada por uma multitude de profissionais da informação. Realizamos três estudos para avaliar a nova estrutura, incluindo um estudo de diário (n=64) para caracterizar preferências contextuais de agendamento, uma avaliação quantitativa do desempenho do sistema e um estudo com usuários (n=10) utilizando um sistema protótipo. Nosso trabalho destaca o potencial de uma abordagem híbrida de LLM e otimização para a elicitação iterativa de preferências e considerações de design para a construção de sistemas que apoiam processos colaborativos de tomada de decisão entre humanos e sistemas.