Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos semelhantes ao ChatGPT revolucionaram diversas aplicações em inteligência artificial, desde sumarização e codificação até tradução, equiparando ou até superando o desempenho humano. No entanto, o cenário atual carece de um pipeline de treinamento RLHF (Reinforcement Learning with Human Feedback) acessível, eficiente e econômico para esses modelos poderosos, especialmente quando o treinamento envolve bilhões de parâmetros. Este artigo apresenta o DeepSpeed-Chat, um sistema inovador que democratiza o treinamento RLHF, tornando-o acessível à comunidade de IA. O DeepSpeed-Chat oferece três capacidades principais: uma experiência de treinamento e inferência fácil de usar para modelos semelhantes ao ChatGPT, um pipeline DeepSpeed-RLHF que replica o pipeline de treinamento do InstructGPT e um sistema robusto DeepSpeed-RLHF que combina várias otimizações para treinamento e inferência de forma unificada. O sistema proporciona eficiência e escalabilidade incomparáveis, permitindo o treinamento de modelos com centenas de bilhões de parâmetros em tempo recorde e a uma fração do custo. Com esse avanço, o DeepSpeed-Chat abre caminho para um acesso mais amplo ao treinamento RLHF avançado, mesmo para cientistas de dados com recursos limitados, promovendo assim a inovação e o desenvolvimento contínuo no campo da IA.
Arquiteturas esparsas de mistura de especialistas (MoEs) escalam a capacidade do modelo sem grandes aumentos nos custos de treinamento ou inferência. Apesar do sucesso, os MoEs sofrem com uma série de problemas: instabilidade no treinamento, descarte de tokens, incapacidade de escalar o número de especialistas ou ajuste fino ineficaz. Neste trabalho, propomos o Soft MoE, um Transformer esparso totalmente diferenciável que aborda esses desafios, mantendo os benefícios dos MoEs. O Soft MoE realiza uma atribuição implícita suave, passando diferentes combinações ponderadas de todos os tokens de entrada para cada especialista. Como em outros trabalhos de MoE, os especialistas no Soft MoE processam apenas um subconjunto dos tokens (combinados), permitindo maior capacidade do modelo com menor custo de inferência. No contexto de reconhecimento visual, o Soft MoE supera amplamente os Transformers padrão (ViTs) e variantes populares de MoE (Tokens Choice e Experts Choice). Por exemplo, o Soft MoE-Base/16 requer 10,5 vezes menos custo de inferência (5,7 vezes menos tempo de execução) do que o ViT-Huge/14, enquanto iguala seu desempenho após treinamento semelhante. O Soft MoE também escala bem: o Soft MoE Huge/14 com 128 especialistas em 16 camadas MoE tem mais de 40 vezes mais parâmetros do que o ViT Huge/14, enquanto o custo de tempo de inferência aumenta apenas 2%, e ele apresenta um desempenho substancialmente melhor.
Embora a manipulação de imagens guiada por linguagem tenha feito progressos notáveis, o desafio de como instruir o processo de manipulação de forma fiel às intenções humanas persiste. Uma descrição precisa e abrangente de uma tarefa de manipulação usando linguagem natural é trabalhosa e, às vezes, até impossível, principalmente devido à incerteza e ambiguidade inerentes às expressões linguísticas. Seria viável realizar a manipulação de imagens sem recorrer a informações externas de linguagem multimodal? Se essa possibilidade existir, a lacuna modal inerente seria eliminada sem esforço. Neste artigo, propomos uma nova metodologia de manipulação, denominada ImageBrush, que aprende instruções visuais para uma edição de imagem mais precisa. Nossa ideia central é empregar um par de imagens de transformação como instruções visuais, que não apenas capturam com precisão a intenção humana, mas também facilitam a acessibilidade em cenários do mundo real. Capturar instruções visuais é particularmente desafiador porque envolve extrair as intenções subjacentes apenas a partir de demonstrações visuais e, em seguida, aplicar essa operação a uma nova imagem. Para enfrentar esse desafio, formulamos o aprendizado de instruções visuais como um problema de inpainting baseado em difusão, onde a informação contextual é totalmente explorada por meio de um processo iterativo de geração. Um codificador de prompt visual é cuidadosamente projetado para aprimorar a capacidade do modelo em descobrir a intenção humana por trás das instruções visuais. Experimentos extensivos mostram que nosso método gera resultados de manipulação envolventes que estão em conformidade com as transformações implicadas nas demonstrações. Além disso, nosso modelo exibe capacidades robustas de generalização em várias tarefas subsequentes, como transferência de pose, tradução de imagens e inpainting de vídeo.
Nossa abordagem, que chamamos de Embeddings for Language/Image-aligned X-Rays, ou ELIXR, utiliza um codificador de imagens alinhado com linguagem combinado ou enxertado em um LLM fixo, o PaLM 2, para realizar uma ampla gama de tarefas. Treinamos essa arquitetura leve de adaptador usando imagens pareadas com relatórios radiológicos em texto livre do conjunto de dados MIMIC-CXR. O ELIXR alcançou desempenho de ponta em classificação zero-shot de radiografias de tórax (CXR) (média de AUC de 0,850 em 13 achados), classificação de CXR com uso eficiente de dados (médias de AUC de 0,893 e 0,898 em cinco achados (atelectasia, cardiomegalia, consolidação, derrame pleural e edema pulmonar) para 1% (~2.200 imagens) e 10% (~22.000 imagens) de dados de treinamento) e busca semântica (0,76 de ganho cumulativo descontado normalizado (NDCG) em dezenove consultas, incluindo recuperação perfeita em doze delas). Em comparação com métodos existentes de uso eficiente de dados, incluindo aprendizado contrastivo supervisionado (SupCon), o ELIXR exigiu duas ordens de magnitude a menos de dados para atingir desempenho similar. O ELIXR também mostrou potencial em tarefas de visão e linguagem em CXR, demonstrando acurácias gerais de 58,7% e 62,5% em tarefas de resposta a perguntas visuais e garantia de qualidade de relatórios, respectivamente. Esses resultados sugerem que o ELIXR é uma abordagem robusta e versátil para IA em CXR.
Motivados pelo fato de que abordagens baseadas em DETR estabeleceram novos recordes nos benchmarks de detecção e segmentação do COCO, muitos esforços recentes demonstram um interesse crescente em como melhorar ainda mais as abordagens baseadas em DETR por meio do pré-treinamento do Transformer de maneira auto-supervisionada, mantendo o backbone congelado. Alguns estudos já relataram melhorias significativas na precisão. Neste artigo, examinamos mais de perto a metodologia experimental desses estudos e verificamos se suas abordagens ainda são eficazes em relação aos métodos mais recentes de ponta, como o H-Deformable-DETR. Realizamos experimentos detalhados em tarefas de detecção de objetos do COCO para estudar a influência da escolha dos conjuntos de dados de pré-treinamento, da localização e dos esquemas de geração de alvos de classificação. Infelizmente, descobrimos que abordagens auto-supervisionadas representativas anteriores, como o DETReg, não conseguem impulsionar o desempenho de abordagens baseadas em DETR robustas em regimes de dados completos. Analisamos ainda as razões e descobrimos que a simples combinação de um preditor de caixas mais preciso e o benchmark Objects365 pode melhorar significativamente os resultados em experimentos subsequentes. Demonstramos a eficácia de nossa abordagem ao alcançar resultados robustos de detecção de objetos com AP=59,3% no conjunto de validação do COCO, superando o H-Deformable-DETR + Swin-L em +1,4%. Por fim, geramos uma série de conjuntos de dados sintéticos de pré-treinamento combinando os mais recentes modelos de geração de legendas de imagem para texto (LLaVA) e modelos generativos de texto para imagem (SDXL). Notavelmente, o pré-treinamento nesses conjuntos de dados sintéticos leva a melhorias significativas no desempenho da detecção de objetos. Olhando para o futuro, antecipamos vantagens substanciais com a expansão futura do conjunto de dados sintéticos de pré-treinamento.
O CLIP, como um modelo fundamental de linguagem visual, é amplamente utilizado na classificação de imagens zero-shot devido à sua capacidade de compreender diversos conceitos visuais e descrições em linguagem natural. No entanto, como aproveitar plenamente as capacidades sem precedentes de compreensão semelhante à humana do CLIP para alcançar uma melhor classificação zero-shot ainda é uma questão em aberto. Este artigo se inspira no processo de percepção visual humana: uma visão moderna da neurociência sugere que, ao classificar um objeto, os humanos primeiro inferem seus atributos independentes da classe (por exemplo, fundo e orientação), que ajudam a separar o objeto em primeiro plano do fundo, e então tomam decisões com base nessas informações. Inspirados por isso, observamos que fornecer ao CLIP atributos contextuais melhora a classificação zero-shot e mitiga a dependência de características espúrias. Também observamos que o próprio CLIP pode inferir razoavelmente os atributos de uma imagem. Com essas observações, propomos um método de classificação zero-shot em duas etapas e sem treinamento, chamado PerceptionCLIP. Dada uma imagem, ele primeiro infere atributos contextuais (por exemplo, fundo) e, em seguida, realiza a classificação do objeto condicionada a eles. Nossos experimentos mostram que o PerceptionCLIP alcança melhor generalização, robustez de grupo e maior interpretabilidade. Por exemplo, o PerceptionCLIP com ViT-L/14 melhora a precisão do pior grupo em 16,5% no conjunto de dados Waterbirds e em 3,5% no CelebA.