HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

6 papers found

DeepSpeed-Chat: Treinamento de RLHF Fácil, Rápido e Acessível para Modelos do Tipo ChatGPT em Todas as Escalas
DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales

Aug 2

ByZhewei Yao, Reza Yazdani Aminabadi, Olatunji Ruwase, Samyam Rajbhandari, Xiaoxia Wu, Ammar Ahmad Awan, Jeff Rasley, Minjia Zhang, Conglong Li, Connor Holmes, Zhongzhu Zhou, Michael Wyatt, Molly Smith, Lev Kurilenko, Heyang Qin, Masahiro Tanaka, Shuai Che, Shuaiwen Leon Song, Yuxiong He

Modelos semelhantes ao ChatGPT revolucionaram diversas aplicações em inteligência artificial, desde sumarização e codificação até tradução, equiparando ou até superando o desempenho humano. No entanto, o cenário atual carece de um pipeline de treinamento RLHF (Reinforcement Learning with Human Feedback) acessível, eficiente e econômico para esses modelos poderosos, especialmente quando o treinamento envolve bilhões de parâmetros. Este artigo apresenta o DeepSpeed-Chat, um sistema inovador que democratiza o treinamento RLHF, tornando-o acessível à comunidade de IA. O DeepSpeed-Chat oferece três capacidades principais: uma experiência de treinamento e inferência fácil de usar para modelos semelhantes ao ChatGPT, um pipeline DeepSpeed-RLHF que replica o pipeline de treinamento do InstructGPT e um sistema robusto DeepSpeed-RLHF que combina várias otimizações para treinamento e inferência de forma unificada. O sistema proporciona eficiência e escalabilidade incomparáveis, permitindo o treinamento de modelos com centenas de bilhões de parâmetros em tempo recorde e a uma fração do custo. Com esse avanço, o DeepSpeed-Chat abre caminho para um acesso mais amplo ao treinamento RLHF avançado, mesmo para cientistas de dados com recursos limitados, promovendo assim a inovação e o desenvolvimento contínuo no campo da IA.

De Misturas Especialistas Esparsas para Misturas Especialistas Suaves
From Sparse to Soft Mixtures of Experts

Aug 2

ByJoan Puigcerver, Carlos Riquelme, Basil Mustafa, Neil Houlsby

Arquiteturas esparsas de mistura de especialistas (MoEs) escalam a capacidade do modelo sem grandes aumentos nos custos de treinamento ou inferência. Apesar do sucesso, os MoEs sofrem com uma série de problemas: instabilidade no treinamento, descarte de tokens, incapacidade de escalar o número de especialistas ou ajuste fino ineficaz. Neste trabalho, propomos o Soft MoE, um Transformer esparso totalmente diferenciável que aborda esses desafios, mantendo os benefícios dos MoEs. O Soft MoE realiza uma atribuição implícita suave, passando diferentes combinações ponderadas de todos os tokens de entrada para cada especialista. Como em outros trabalhos de MoE, os especialistas no Soft MoE processam apenas um subconjunto dos tokens (combinados), permitindo maior capacidade do modelo com menor custo de inferência. No contexto de reconhecimento visual, o Soft MoE supera amplamente os Transformers padrão (ViTs) e variantes populares de MoE (Tokens Choice e Experts Choice). Por exemplo, o Soft MoE-Base/16 requer 10,5 vezes menos custo de inferência (5,7 vezes menos tempo de execução) do que o ViT-Huge/14, enquanto iguala seu desempenho após treinamento semelhante. O Soft MoE também escala bem: o Soft MoE Huge/14 com 128 especialistas em 16 camadas MoE tem mais de 40 vezes mais parâmetros do que o ViT Huge/14, enquanto o custo de tempo de inferência aumenta apenas 2%, e ele apresenta um desempenho substancialmente melhor.

ImageBrush: Aprendendo Instruções Visuais em Contexto para Manipulação de Imagens Baseada em Exemplos
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

Aug 2

ByYasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike

Embora a manipulação de imagens guiada por linguagem tenha feito progressos notáveis, o desafio de como instruir o processo de manipulação de forma fiel às intenções humanas persiste. Uma descrição precisa e abrangente de uma tarefa de manipulação usando linguagem natural é trabalhosa e, às vezes, até impossível, principalmente devido à incerteza e ambiguidade inerentes às expressões linguísticas. Seria viável realizar a manipulação de imagens sem recorrer a informações externas de linguagem multimodal? Se essa possibilidade existir, a lacuna modal inerente seria eliminada sem esforço. Neste artigo, propomos uma nova metodologia de manipulação, denominada ImageBrush, que aprende instruções visuais para uma edição de imagem mais precisa. Nossa ideia central é empregar um par de imagens de transformação como instruções visuais, que não apenas capturam com precisão a intenção humana, mas também facilitam a acessibilidade em cenários do mundo real. Capturar instruções visuais é particularmente desafiador porque envolve extrair as intenções subjacentes apenas a partir de demonstrações visuais e, em seguida, aplicar essa operação a uma nova imagem. Para enfrentar esse desafio, formulamos o aprendizado de instruções visuais como um problema de inpainting baseado em difusão, onde a informação contextual é totalmente explorada por meio de um processo iterativo de geração. Um codificador de prompt visual é cuidadosamente projetado para aprimorar a capacidade do modelo em descobrir a intenção humana por trás das instruções visuais. Experimentos extensivos mostram que nosso método gera resultados de manipulação envolventes que estão em conformidade com as transformações implicadas nas demonstrações. Além disso, nosso modelo exibe capacidades robustas de generalização em várias tarefas subsequentes, como transferência de pose, tradução de imagens e inpainting de vídeo.

ELIXR: Rumo a um sistema de inteligência artificial de propósito geral para raios-X através do alinhamento de grandes modelos de linguagem e codificadores visuais de radiologia
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders

Aug 2

ByShawn Xu, Lin Yang, Christopher Kelly, Marcin Sieniek, Timo Kohlberger, Martin Ma, Wei-Hung Weng, Attila Kiraly, Sahar Kazemzadeh, Zakkai Melamed, Jungyeon Park, Patricia Strachan, Yun Liu, Chuck Lau, Preeti Singh, Christina Chen, Mozziyar Etemadi, Sreenivasa Raju Kalidindi, Yossi Matias, Katherine Chou, Greg S. Corrado, Shravya Shetty, Daniel Tse, Shruthi Prabhakara, Daniel Golden, Rory Pilgrim, Krish Eswaran, Andrew Sellergren

Nossa abordagem, que chamamos de Embeddings for Language/Image-aligned X-Rays, ou ELIXR, utiliza um codificador de imagens alinhado com linguagem combinado ou enxertado em um LLM fixo, o PaLM 2, para realizar uma ampla gama de tarefas. Treinamos essa arquitetura leve de adaptador usando imagens pareadas com relatórios radiológicos em texto livre do conjunto de dados MIMIC-CXR. O ELIXR alcançou desempenho de ponta em classificação zero-shot de radiografias de tórax (CXR) (média de AUC de 0,850 em 13 achados), classificação de CXR com uso eficiente de dados (médias de AUC de 0,893 e 0,898 em cinco achados (atelectasia, cardiomegalia, consolidação, derrame pleural e edema pulmonar) para 1% (~2.200 imagens) e 10% (~22.000 imagens) de dados de treinamento) e busca semântica (0,76 de ganho cumulativo descontado normalizado (NDCG) em dezenove consultas, incluindo recuperação perfeita em doze delas). Em comparação com métodos existentes de uso eficiente de dados, incluindo aprendizado contrastivo supervisionado (SupCon), o ELIXR exigiu duas ordens de magnitude a menos de dados para atingir desempenho similar. O ELIXR também mostrou potencial em tarefas de visão e linguagem em CXR, demonstrando acurácias gerais de 58,7% e 62,5% em tarefas de resposta a perguntas visuais e garantia de qualidade de relatórios, respectivamente. Esses resultados sugerem que o ELIXR é uma abordagem robusta e versátil para IA em CXR.

Revisitando o Pré-treinamento do DETR para Detecção de Objetos
Revisiting DETR Pre-training for Object Detection

Aug 2

ByYan Ma, Weicong Liang, Yiduo Hao, Bohan Chen, Xiangyu Yue, Chao Zhang, Yuhui Yuan

Motivados pelo fato de que abordagens baseadas em DETR estabeleceram novos recordes nos benchmarks de detecção e segmentação do COCO, muitos esforços recentes demonstram um interesse crescente em como melhorar ainda mais as abordagens baseadas em DETR por meio do pré-treinamento do Transformer de maneira auto-supervisionada, mantendo o backbone congelado. Alguns estudos já relataram melhorias significativas na precisão. Neste artigo, examinamos mais de perto a metodologia experimental desses estudos e verificamos se suas abordagens ainda são eficazes em relação aos métodos mais recentes de ponta, como o H-Deformable-DETR. Realizamos experimentos detalhados em tarefas de detecção de objetos do COCO para estudar a influência da escolha dos conjuntos de dados de pré-treinamento, da localização e dos esquemas de geração de alvos de classificação. Infelizmente, descobrimos que abordagens auto-supervisionadas representativas anteriores, como o DETReg, não conseguem impulsionar o desempenho de abordagens baseadas em DETR robustas em regimes de dados completos. Analisamos ainda as razões e descobrimos que a simples combinação de um preditor de caixas mais preciso e o benchmark Objects365 pode melhorar significativamente os resultados em experimentos subsequentes. Demonstramos a eficácia de nossa abordagem ao alcançar resultados robustos de detecção de objetos com AP=59,3% no conjunto de validação do COCO, superando o H-Deformable-DETR + Swin-L em +1,4%. Por fim, geramos uma série de conjuntos de dados sintéticos de pré-treinamento combinando os mais recentes modelos de geração de legendas de imagem para texto (LLaVA) e modelos generativos de texto para imagem (SDXL). Notavelmente, o pré-treinamento nesses conjuntos de dados sintéticos leva a melhorias significativas no desempenho da detecção de objetos. Olhando para o futuro, antecipamos vantagens substanciais com a expansão futura do conjunto de dados sintéticos de pré-treinamento.

Mais Contexto, Menos Distração: Classificação Visual por Inferência e Condicionamento em Atributos Contextuais
More Context, Less Distraction: Visual Classification by Inferring and Conditioning on Contextual Attributes

Aug 2

ByBang An, Sicheng Zhu, Michael-Andrei Panaitescu-Liess, Chaithanya Kumar Mummadi, Furong Huang

O CLIP, como um modelo fundamental de linguagem visual, é amplamente utilizado na classificação de imagens zero-shot devido à sua capacidade de compreender diversos conceitos visuais e descrições em linguagem natural. No entanto, como aproveitar plenamente as capacidades sem precedentes de compreensão semelhante à humana do CLIP para alcançar uma melhor classificação zero-shot ainda é uma questão em aberto. Este artigo se inspira no processo de percepção visual humana: uma visão moderna da neurociência sugere que, ao classificar um objeto, os humanos primeiro inferem seus atributos independentes da classe (por exemplo, fundo e orientação), que ajudam a separar o objeto em primeiro plano do fundo, e então tomam decisões com base nessas informações. Inspirados por isso, observamos que fornecer ao CLIP atributos contextuais melhora a classificação zero-shot e mitiga a dependência de características espúrias. Também observamos que o próprio CLIP pode inferir razoavelmente os atributos de uma imagem. Com essas observações, propomos um método de classificação zero-shot em duas etapas e sem treinamento, chamado PerceptionCLIP. Dada uma imagem, ele primeiro infere atributos contextuais (por exemplo, fundo) e, em seguida, realiza a classificação do objeto condicionada a eles. Nossos experimentos mostram que o PerceptionCLIP alcança melhor generalização, robustez de grupo e maior interpretabilidade. Por exemplo, o PerceptionCLIP com ViT-L/14 melhora a precisão do pior grupo em 16,5% no conjunto de dados Waterbirds e em 3,5% no CelebA.

ImageBrush: Aprendendo Instruções Visuais em Contexto para Manipulação de Imagens Baseada em Exemplos
ImageBrush: Learning Visual In-Context Instructions for Exemplar-Based Image Manipulation

Aug 2

ByYasheng Sun, Yifan Yang, Houwen Peng, Yifei Shen, Yuqing Yang, Han Hu, Lili Qiu, Hideki Koike