Dagelijks geselecteerde AI onderzoekspapers met vertalingen
ChatGPT-achtige modellen hebben een revolutie teweeggebracht in diverse toepassingen van kunstmatige intelligentie, van samenvatting en codering tot vertaling, waarbij ze menselijke prestaties evenaren of zelfs overtreffen. Het huidige landschap mist echter een toegankelijke, efficiënte en kosteneffectieve end-to-end RLHF (Reinforcement Learning with Human Feedback) trainingspijplijn voor deze krachtige modellen, met name bij het trainen op de schaal van miljarden parameters. Dit artikel introduceert DeepSpeed-Chat, een nieuw systeem dat RLHF-training democratiseert en toegankelijk maakt voor de AI-gemeenschap. DeepSpeed-Chat biedt drie belangrijke mogelijkheden: een gebruiksvriendelijke trainings- en inferentie-ervaring voor ChatGPT-achtige modellen, een DeepSpeed-RLHF-pijplijn die de trainingspijplijn van InstructGPT repliceert, en een robuust DeepSpeed-RLHF-systeem dat diverse optimalisaties voor training en inferentie op een geïntegreerde manier combineert. Het systeem biedt ongeëvenaarde efficiëntie en schaalbaarheid, waardoor het mogelijk wordt om modellen met honderden miljarden parameters in recordtijd en tegen een fractie van de kosten te trainen. Met deze ontwikkeling opent DeepSpeed-Chat de weg naar bredere toegang tot geavanceerde RLHF-training, zelfs voor datawetenschappers met beperkte middelen, en stimuleert daarmee innovatie en verdere ontwikkeling op het gebied van AI.
Sparse mixture of expert architecturen (MoEs) schalen de modelcapaciteit zonder grote toename in trainings- of inferentiekosten. Ondanks hun succes kampen MoEs met een aantal problemen: trainingsinstabiliteit, token dropping, onvermogen om het aantal experts te schalen, of ineffectieve finetuning. In dit werk stellen we Soft MoE voor, een volledig differentieerbare sparse Transformer die deze uitdagingen aanpakt, terwijl de voordelen van MoEs behouden blijven. Soft MoE voert een impliciete soft assignment uit door verschillende gewogen combinaties van alle invoertokens door te geven aan elke expert. Net als in andere MoE-werken verwerken experts in Soft MoE slechts een subset van de (gecombineerde) tokens, waardoor een grotere modelcapaciteit mogelijk is tegen lagere inferentiekosten. In de context van visuele herkenning presteert Soft MoE aanzienlijk beter dan standaard Transformers (ViTs) en populaire MoE-varianten (Tokens Choice en Experts Choice). Zo vereist Soft MoE-Base/16 10,5x lagere inferentiekosten (5,7x kortere wall-clock tijd) dan ViT-Huge/14, terwijl het dezelfde prestaties levert na vergelijkbare training. Soft MoE schaalt ook goed: Soft MoE Huge/14 met 128 experts in 16 MoE-lagen heeft meer dan 40x zoveel parameters als ViT Huge/14, terwijl de inferentietijdkosten slechts met 2% toenemen en het aanzienlijk beter presteert.
Hoewel taalgestuurde beeldmanipulatie opmerkelijke vooruitgang heeft geboekt, blijft de uitdaging bestaan hoe het manipulatieproces nauwkeurig kan worden geïnstrueerd om menselijke intenties trouw weer te geven. Een accurate en uitgebreide beschrijving van een manipulatie-taak met behulp van natuurlijke taal is arbeidsintensief en soms zelfs onmogelijk, voornamelijk vanwege de inherente onzekerheid en ambiguïteit in linguïstische uitdrukkingen. Is het haalbaar om beeldmanipulatie te bereiken zonder gebruik te maken van externe cross-modale taal-informatie? Als deze mogelijkheid bestaat, zou de inherente modale kloeffeloos worden geëlimineerd. In dit artikel stellen we een nieuwe manipulatiemethodologie voor, genaamd ImageBrush, die visuele instructies leert voor nauwkeurigere beeldbewerking. Onze kernidee is om een paar transformatiebeelden te gebruiken als visuele instructies, die niet alleen menselijke intentie precies vastleggen, maar ook toegankelijkheid in realistische scenario's vergemakkelijken. Het vastleggen van visuele instructies is bijzonder uitdagend omdat het gaat om het extraheren van de onderliggende intenties uitsluitend uit visuele demonstraties en vervolgens deze bewerking toe te passen op een nieuw beeld. Om deze uitdaging aan te pakken, formuleren we het leren van visuele instructies als een op diffusie gebaseerd inpainting-probleem, waarbij de contextuele informatie volledig wordt benut door een iteratief generatieproces. Een visuele prompting-encoder is zorgvuldig ontworpen om het vermogen van het model te vergroten om menselijke intentie achter de visuele instructies te ontdekken. Uitgebreide experimenten tonen aan dat onze methode boeiende manipulatieresultaten genereert die overeenkomen met de transformaties die in de demonstraties zijn vervat. Bovendien toont ons model robuuste generalisatiecapaciteiten op verschillende downstream taken, zoals pose-overdracht, beeldvertaling en video-inpainting.
Onze aanpak, die we Embeddings for Language/Image-aligned X-Rays (ELIXR) noemen, maakt gebruik van een taalgealigneerde beeldencoder die gecombineerd of geënt is op een vast taalmodel, PaLM 2, om een breed scala aan taken uit te voeren. We trainen deze lichtgewicht adapterarchitectuur met behulp van afbeeldingen die gepaard gaan met bijbehorende vrije-tekst radiologieverslagen uit de MIMIC-CXR-dataset. ELIXR behaalde state-of-the-art prestaties op zero-shot thoraxfoto (CXR) classificatie (gemiddelde AUC van 0.850 over 13 bevindingen), data-efficiënte CXR-classificatie (gemiddelde AUC's van 0.893 en 0.898 over vijf bevindingen (atelectase, cardiomegalie, consolidatie, pleuravocht en longoedeem) voor 1% (~2.200 afbeeldingen) en 10% (~22.000 afbeeldingen) trainingsdata), en semantisch zoeken (0.76 genormaliseerd gedisconteerd cumulatief rendement (NDCG) over negentien zoekopdrachten, inclusief perfecte retrievals op twaalf daarvan). In vergelijking met bestaande data-efficiënte methoden, waaronder supervised contrastive learning (SupCon), had ELIXR twee ordes van grootte minder data nodig om vergelijkbare prestaties te bereiken. ELIXR toonde ook belofte op CXR vision-language taken, met algemene nauwkeurigheden van 58,7% en 62,5% op visuele vraagbeantwoording en rapportkwaliteitsborgingstaken, respectievelijk. Deze resultaten suggereren dat ELIXR een robuuste en veelzijdige aanpak is voor CXR AI.
Gemotiveerd door het feit dat DETR-gebaseerde benaderingen nieuwe records hebben gevestigd op de COCO-detectie- en segmentatiebenchmarks, tonen veel recente inspanningen een groeiende interesse in hoe DETR-gebaseerde benaderingen verder kunnen worden verbeterd door de Transformer op een zelfgesuperviseerde manier voor te trainen terwijl het backbone-netwerk bevroren blijft. Sommige studies hebben al aanzienlijke verbeteringen in nauwkeurigheid geclaimd. In dit artikel nemen we hun experimentele methodologie onder de loep en controleren we of hun benaderingen nog steeds effectief zijn op de meest recente state-of-the-art, zoals H-Deformable-DETR. We voeren grondige experimenten uit op COCO-objectdetectietaken om de invloed te bestuderen van de keuze van voor-trainingsdatasets, lokalisatie- en classificatiedoelgeneratieschema's. Helaas stellen we vast dat de vorige representatieve zelfgesuperviseerde benadering, zoals DETReg, er niet in slaagt de prestaties van de sterke DETR-gebaseerde benaderingen te verbeteren in volledige dataregimes. We analyseren verder de redenen en ontdekken dat het eenvoudig combineren van een nauwkeurigere bbox-voorspeller en de Objects365-benchmark de resultaten in vervolgexperimenten aanzienlijk kan verbeteren. We demonstreren de effectiviteit van onze benadering door sterke objectdetectieresultaten te behalen van AP=59,3% op de COCO-valdataset, wat H-Deformable-DETR + Swin-L met +1,4% overtreft. Ten slotte genereren we een reeks synthetische voor-trainingsdatasets door de meest recente beeld-naar-tekst-beschrijvingsmodellen (LLaVA) en tekst-naar-beeld-generatieve modellen (SDXL) te combineren. Opmerkelijk is dat voor-trainen op deze synthetische datasets leidt tot aanzienlijke verbeteringen in de objectdetectieprestaties. Vooruitkijkend verwachten we aanzienlijke voordelen door de toekomstige uitbreiding van het synthetische voor-trainingsdataset.
CLIP, als een fundamenteel visueel-taalmodel, wordt veel gebruikt in zero-shot beeldclassificatie vanwege zijn vermogen om diverse visuele concepten en natuurlijke taal beschrijvingen te begrijpen. Echter, hoe men CLIP's ongekende, mensachtige begripsvermogen volledig kan benutten om betere zero-shot classificatie te bereiken, blijft een open vraag. Dit artikel put inspiratie uit het menselijke visuele waarnemingsproces: een moderne neurowetenschappelijke visie suggereert dat mensen bij het classificeren van een object eerst de klasse-onafhankelijke attributen (bijv. achtergrond en oriëntatie) afleiden, wat helpt om het voorgrondobject van de achtergrond te scheiden, en vervolgens beslissingen nemen op basis van deze informatie. Geïnspireerd door dit inzicht, merken we op dat het aanbieden van contextuele attributen aan CLIP de zero-shot classificatie verbetert en de afhankelijkheid van irrelevante kenmerken vermindert. We observeren ook dat CLIP zelf redelijk in staat is om de attributen uit een afbeelding af te leiden. Met deze observaties stellen we een trainingsvrije, tweestaps zero-shot classificatiemethode voor, genaamd PerceptionCLIP. Gegeven een afbeelding, leidt het eerst de contextuele attributen (bijv. achtergrond) af en voert vervolgens objectclassificatie uit op basis daarvan. Onze experimenten tonen aan dat PerceptionCLIP betere generalisatie, groep robuustheid en betere interpreteerbaarheid bereikt. Zo verbetert PerceptionCLIP met ViT-L/14 de nauwkeurigheid van de slechtste groep met 16,5% op de Waterbirds dataset en met 3,5% op CelebA.