Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli simili a ChatGPT hanno rivoluzionato varie applicazioni nell'intelligenza artificiale, dalla sintesi e codifica alla traduzione, eguagliando o addirittura superando le prestazioni umane. Tuttavia, lo scenario attuale manca di una pipeline di addestramento RLHF (Reinforcement Learning with Human Feedback) end-to-end accessibile, efficiente e conveniente per questi potenti modelli, specialmente quando si tratta di addestrarli su scale di miliardi di parametri. Questo articolo introduce DeepSpeed-Chat, un sistema innovativo che democratizza l'addestramento RLHF, rendendolo accessibile alla comunità AI. DeepSpeed-Chat offre tre capacità chiave: un'esperienza di addestramento e inferenza facile da usare per modelli simili a ChatGPT, una pipeline DeepSpeed-RLHF che replica il processo di addestramento di InstructGPT, e un robusto sistema DeepSpeed-RLHF che combina varie ottimizzazioni per l'addestramento e l'inferenza in modo unificato. Il sistema offre un'efficienza e scalabilità senza precedenti, consentendo l'addestramento di modelli con centinaia di miliardi di parametri in tempi record e a una frazione del costo. Con questo sviluppo, DeepSpeed-Chat apre la strada a un accesso più ampio all'addestramento RLHF avanzato, anche per data scientist con risorse limitate, favorendo così l'innovazione e ulteriori progressi nel campo dell'AI.
Le architetture sparse di mistura di esperti (MoE) aumentano la capacità del modello senza incrementi significativi dei costi di addestramento o inferenza. Nonostante il loro successo, i MoE presentano diverse problematiche: instabilità durante l'addestramento, perdita di token, incapacità di scalare il numero di esperti o fine-tuning inefficace. In questo lavoro, proponiamo Soft MoE, un Transformer sparso completamente differenziabile che affronta queste sfide, mantenendo i vantaggi dei MoE. Soft MoE esegue un'assegnazione implicita e soft passando diverse combinazioni ponderate di tutti i token di input a ciascun esperto. Come in altri lavori sui MoE, gli esperti in Soft MoE elaborano solo un sottoinsieme dei token (combinati), consentendo una maggiore capacità del modello a un costo inferiore di inferenza. Nel contesto del riconoscimento visivo, Soft MoE supera di gran lunga i Transformer standard (ViT) e le varianti popolari di MoE (Tokens Choice e Experts Choice). Ad esempio, Soft MoE-Base/16 richiede un costo di inferenza 10,5 volte inferiore (5,7 volte meno tempo di esecuzione) rispetto a ViT-Huge/14, pur eguagliandone le prestazioni dopo un addestramento simile. Soft MoE scala anche bene: Soft MoE Huge/14 con 128 esperti in 16 strati MoE ha oltre 40 volte più parametri di ViT Huge/14, mentre il costo del tempo di inferenza aumenta solo del 2%, e le prestazioni sono notevolmente migliori.
Sebbene la manipolazione di immagini guidata dal linguaggio abbia compiuto progressi notevoli, la sfida di come istruire il processo di manipolazione in modo fedele alle intenzioni umane persiste. Fornire una descrizione accurata e completa di un'attività di manipolazione utilizzando il linguaggio naturale è laborioso e talvolta persino impossibile, principalmente a causa dell'incertezza e dell'ambiguità intrinseche presenti nelle espressioni linguistiche. È possibile realizzare la manipolazione di immagini senza ricorrere a informazioni linguistiche cross-modali esterne? Se questa possibilità esiste, il divario modale intrinseco verrebbe eliminato senza sforzo. In questo articolo, proponiamo una nuova metodologia di manipolazione, denominata ImageBrush, che apprende istruzioni visive per un'editing di immagini più accurato. La nostra idea chiave è impiegare una coppia di immagini di trasformazione come istruzioni visive, che non solo catturano con precisione l'intenzione umana, ma facilitano anche l'accessibilità in scenari reali. Catturare istruzioni visive è particolarmente impegnativo perché implica estrarre le intenzioni sottostanti esclusivamente da dimostrazioni visive e poi applicare questa operazione a una nuova immagine. Per affrontare questa sfida, formuliamo l'apprendimento delle istruzioni visive come un problema di inpainting basato sulla diffusione, in cui le informazioni contestuali vengono sfruttate appieno attraverso un processo iterativo di generazione. Un encoder di prompt visivi è stato accuratamente progettato per migliorare la capacità del modello di scoprire l'intenzione umana dietro le istruzioni visive. Esperimenti estensivi dimostrano che il nostro metodo genera risultati di manipolazione coinvolgenti conformi alle trasformazioni implicite nelle dimostrazioni. Inoltre, il nostro modello mostra robuste capacità di generalizzazione su varie attività downstream come il trasferimento di pose, la traduzione di immagini e l'inpainting video.
Il nostro approccio, che chiamiamo Embeddings for Language/Image-aligned X-Rays, o ELIXR, sfrutta un codificatore di immagini allineato al linguaggio combinato o innestato su un LLM fisso, PaLM 2, per eseguire un'ampia gamma di task. Addestriamo questa architettura adattativa leggera utilizzando immagini accoppiate a corrispondenti referti radiologici in testo libero provenienti dal dataset MIMIC-CXR. ELIXR ha raggiunto prestazioni all'avanguardia nella classificazione zero-shot di radiografie del torace (CXR) (AUC medio di 0,850 su 13 reperti), nella classificazione di CXR con uso efficiente dei dati (AUC medi di 0,893 e 0,898 su cinque reperti - atelettasia, cardiomegalia, consolidamento, versamento pleurico ed edema polmonare - rispettivamente per l'1% (~2.200 immagini) e il 10% (~22.000 immagini) dei dati di training), e nella ricerca semantica (0,76 di Normalized Discounted Cumulative Gain (NDCG) su diciannove query, con recupero perfetto su dodici di esse). Rispetto ai metodi esistenti per l'uso efficiente dei dati, inclusi l'apprendimento contrastivo supervisionato (SupCon), ELIXR ha richiesto due ordini di grandezza in meno di dati per raggiungere prestazioni simili. ELIXR ha anche mostrato potenziale nei task di visione e linguaggio su CXR, dimostrando accuratezze complessive del 58,7% e del 62,5% rispettivamente nei task di risposta a domande visive e di controllo qualità dei referti. Questi risultati suggeriscono che ELIXR è un approccio robusto e versatile per l'IA applicata alle CXR.
Spinti dal fatto che gli approcci basati su DETR hanno stabilito nuovi record sui benchmark di rilevamento e segmentazione COCO, molti recenti sforzi mostrano un crescente interesse su come migliorare ulteriormente gli approcci basati su DETR pre-addestrando il Transformer in modo auto-supervisionato mantenendo congelato il backbone. Alcuni studi hanno già riportato miglioramenti significativi in termini di accuratezza. In questo articolo, esaminiamo più da vicino la loro metodologia sperimentale e verifichiamo se i loro approcci sono ancora efficaci sugli ultimi modelli all'avanguardia come H-Deformable-DETR. Condurremo esperimenti approfonditi sui task di rilevamento oggetti COCO per studiare l'influenza della scelta dei dataset di pre-addestramento, della localizzazione e degli schemi di generazione dei target di classificazione. Sfortunatamente, scopriamo che il precedente approccio rappresentativo di auto-supervisione come DETReg non riesce a migliorare le prestazioni dei forti approcci basati su DETR in regimi di dati completi. Analizziamo ulteriormente le ragioni e scopriamo che semplicemente combinando un predittore di bounding box più accurato e il benchmark Objects365 si possono ottenere miglioramenti significativi nei successivi esperimenti. Dimostriamo l'efficacia del nostro approccio ottenendo forti risultati di rilevamento oggetti con AP=59,3% sul set di validazione COCO, superando H-Deformable-DETR + Swin-L di +1,4%. Infine, generiamo una serie di dataset sintetici di pre-addestramento combinando i recenti modelli di captioning da immagine a testo (LLaVA) e i modelli generativi da testo a immagine (SDXL). È degno di nota che il pre-addestramento su questi dataset sintetici porti a miglioramenti significativi nelle prestazioni di rilevamento oggetti. Guardando al futuro, prevediamo vantaggi sostanziali attraverso l'espansione futura del dataset sintetico di pre-addestramento.
CLIP, come modello fondamentale di linguaggio visivo, è ampiamente utilizzato nella classificazione di immagini zero-shot grazie alla sua capacità di comprendere vari concetti visivi e descrizioni in linguaggio naturale. Tuttavia, come sfruttare appieno le capacità di comprensione senza precedenti, simili a quelle umane, di CLIP per ottenere una migliore classificazione zero-shot rimane una questione aperta. Questo articolo trae ispirazione dal processo di percezione visiva umana: una visione moderna delle neuroscienze suggerisce che, nel classificare un oggetto, gli esseri umani deducono prima gli attributi indipendenti dalla classe (ad esempio, lo sfondo e l'orientamento) che aiutano a separare l'oggetto in primo piano dallo sfondo, e poi prendono decisioni basate su queste informazioni. Ispirati da ciò, osserviamo che fornire a CLIP attributi contestuali migliora la classificazione zero-shot e mitiga la dipendenza da caratteristiche spurie. Osserviamo inoltre che CLIP stesso può dedurre ragionevolmente gli attributi da un'immagine. Con queste osservazioni, proponiamo un metodo di classificazione zero-shot in due fasi, senza addestramento, denominato PerceptionCLIP. Data un'immagine, esso deduce prima gli attributi contestuali (ad esempio, lo sfondo) e poi esegue la classificazione dell'oggetto condizionandoli. I nostri esperimenti dimostrano che PerceptionCLIP raggiunge una migliore generalizzazione, robustezza di gruppo e una migliore interpretabilità. Ad esempio, PerceptionCLIP con ViT-L/14 migliora l'accuratezza del gruppo peggiore del 16,5% sul dataset Waterbirds e del 3,5% su CelebA.