Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Conversationele generatieve AI heeft opmerkelijke belofte getoond voor het empoweren van biomedische professionals, maar huidige onderzoeken richten zich op unimodale tekst. Multimodale conversationele AI heeft snelle vooruitgang geboekt door gebruik te maken van miljarden afbeelding-tekstparen van het openbare web, maar dergelijke algemene domein visie-taalmodellen missen nog steeds de verfijning in het begrijpen en converseren over biomedische afbeeldingen. In dit artikel stellen we een kostenefficiënte aanpak voor om een visie-taal conversationele assistent te trainen die open onderzoeksvragen over biomedische afbeeldingen kan beantwoorden. Het kernidee is om gebruik te maken van een grootschalige, breedgedekte biomedische figuur-bijschrift dataset geëxtraheerd uit PubMed Central, GPT-4 te gebruiken om zelfinstructie open instructie-volgende data uit de bijschriften te genereren, en vervolgens een groot algemeen domein visie-taalmodel te fine-tunen met behulp van een nieuwe curriculumleermethode. Specifiek leert het model eerst biomedische vocabulaire af te stemmen met behulp van de figuur-bijschriftparen zoals ze zijn, en leert vervolgens open conversationele semantiek te beheersen met behulp van GPT-4 gegenereerde instructie-volgende data, wat grofweg nabootst hoe een leek geleidelijk biomedische kennis verwerft. Dit stelt ons in staat om een Large Language and Vision Assistant for BioMedicine (LLaVA-Med) te trainen in minder dan 15 uur (met acht A100's). LLaVA-Med vertoont uitstekende multimodale conversationele capaciteiten en kan open instructies volgen om te assisteren bij vragen over een biomedische afbeelding. Op drie standaard biomedische visuele vraag-antwoord datasets presteert LLaVA-Med beter dan eerder gesuperviseerde state-of-the-art op bepaalde metrieken. Om biomedisch multimodaal onderzoek te faciliteren, zullen we onze instructie-volgende data en het LLaVA-Med model vrijgeven.
Voorgetrainde grote tekst-naar-beeldmodellen genereren indrukwekkende afbeeldingen met een passend gebruik van tekstprompts. Echter, inherente ambiguïteiten in natuurlijke taal en out-of-distribution-effecten maken het moeilijk om beeldstijlen te synthetiseren die gebruikmaken van een specifiek ontwerppatroon, textuur of materiaal. In dit artikel introduceren we StyleDrop, een methode die het mogelijk maakt om afbeeldingen te synthetiseren die trouw een specifieke stijl volgen met behulp van een tekst-naar-beeldmodel. De voorgestelde methode is uiterst veelzijdig en vangt nuances en details van een door de gebruiker aangeleverde stijl, zoals kleurenschema's, schaduw, ontwerppatronen, en lokale en globale effecten. Het leert efficiënt een nieuwe stijl door het finetunen van zeer weinig trainbare parameters (minder dan 1% van de totale modelparameters) en verbetert de kwaliteit via iteratieve training met menselijke of geautomatiseerde feedback. Nog beter, StyleDrop is in staat indrukwekkende resultaten te leveren, zelfs wanneer de gebruiker slechts één afbeelding levert die de gewenste stijl specificeert. Een uitgebreide studie toont aan dat, voor de taak van stijlaanpassing van tekst-naar-beeldmodellen, StyleDrop geïmplementeerd op Muse overtuigend beter presteert dan andere methoden, waaronder DreamBooth en tekstuele inversie op Imagen of Stable Diffusion. Meer resultaten zijn beschikbaar op onze projectwebsite: https://styledrop.github.io
We introduceren een op waarde gebaseerde RL-agent, die we BBF noemen, die bovenmenselijke prestaties behaalt in de Atari 100K-benchmark. BBF maakt gebruik van het opschalen van de neurale netwerken die worden gebruikt voor waardeschatting, evenals een aantal andere ontwerpkeuzes die deze schaalvergroting op een sample-efficiënte manier mogelijk maken. We voeren uitgebreide analyses uit van deze ontwerpkeuzes en bieden inzichten voor toekomstig werk. We sluiten af met een discussie over het bijstellen van de doelstellingen voor sample-efficiënt RL-onderzoek op de ALE. We stellen onze code en data openbaar beschikbaar op https://github.com/google-research/google-research/tree/master/bigger_better_faster.
Afbeeldingen gegenereerd door diffusiemodellen zoals Stable Diffusion worden steeds vaker gebruikt. Recente onderzoeken en zelfs rechtszaken hebben aangetoond dat deze modellen vatbaar zijn voor het repliceren van hun trainingsdata, zonder dat de gebruiker dit weet. In dit artikel analyseren we eerst dit memorisatieprobleem in tekst-naar-afbeelding diffusiemodellen. Hoewel algemeen wordt aangenomen dat gedupliceerde afbeeldingen in de trainingsset verantwoordelijk zijn voor het repliceren van inhoud tijdens inferentie, observeren we dat de tekstconditionering van het model een even belangrijke rol speelt. In feite zien we in onze experimenten dat datareplicatie vaak niet voorkomt bij onvoorwaardelijke modellen, terwijl het gebruikelijk is in het tekstgeconditioneerde geval. Gemotiveerd door onze bevindingen, stellen we vervolgens verschillende technieken voor om datareplicatie te verminderen, zowel tijdens de training als tijdens inferentie, door beeldbijschriften in de trainingsset te randomiseren en aan te vullen.
Transformers zijn uitgegroeid tot de hoeksteen van state-of-the-art modellen voor natuurlijke taalverwerking, waarbij ze uitzonderlijke prestaties laten zien in een breed scala aan AI-toepassingen. De geheugeneisen die worden gesteld door het self-attention-mechanisme en het grote feedforward-netwerk in Transformers beperken echter hun vermogen om lange sequenties te verwerken, wat uitdagingen creëert voor taken die meerdere lange sequenties of langetermijnafhankelijkheden omvatten. Wij presenteren een unieke aanpak, de Blockwise Parallel Transformer (BPT), die gebruikmaakt van bloksgewijze berekening van self-attention en de fusie van feedforward-netwerken om de geheugenkosten te minimaliseren. Door langere invoersequenties te verwerken terwijl de geheugenefficiëntie behouden blijft, maakt BPT het mogelijk om sequenties te trainen die tot 32 keer langer zijn dan bij standaard Transformers en 2 tot 4 keer langer dan bij eerdere geheugenefficiënte methoden. Uitgebreide experimenten op het gebied van taalmodellering en reinforcement learning taken demonstreren de effectiviteit van BPT in het verminderen van geheugeneisen en het verbeteren van prestaties.
Contrastive Language-Image Pre-training (CLIP) geldt als een van de meest effectieve en schaalbare methoden voor het trainen van overdraagbare vision-modellen met behulp van gepaarde afbeelding- en tekstdata. CLIP-modellen worden getraind met contrastief verlies, wat doorgaans vertrouwt op data-augmentaties om overfitting en shortcuts te voorkomen. Echter, in het CLIP-trainingsparadigma worden data-augmentaties uitsluitend toegepast op afbeeldingsinputs, terwijl taalinputs gedurende het hele trainingsproces ongewijzigd blijven, wat de blootstelling aan diverse teksten voor dezelfde afbeelding beperkt. In dit artikel introduceren we Language augmented CLIP (LaCLIP), een eenvoudige maar zeer effectieve aanpak om CLIP-training te verbeteren door middel van taalherformuleringen. Door gebruik te maken van de in-context leer-capaciteit van grote taalmodellen, herformuleren we de tekstbeschrijvingen die bij elke afbeelding horen. Deze herschreven teksten vertonen diversiteit in zinsstructuur en vocabulaire, terwijl de oorspronkelijke kernconcepten en betekenissen behouden blijven. Tijdens de training selecteert LaCLIP willekeurig ofwel de originele teksten ofwel de herschreven versies als tekstaugmentaties voor elke afbeelding. Uitgebreide experimenten op de CC3M-, CC12M-, RedCaps- en LAION-400M-datasets tonen aan dat CLIP-pre-training met taalherformuleringen de overdraagprestaties aanzienlijk verbetert zonder reken- of geheugenoverhead tijdens de training. Specifiek voor ImageNet zero-shot nauwkeurigheid presteert LaCLIP 8,2% beter dan CLIP op CC12M en 2,4% op LAION-400M. Code is beschikbaar op https://github.com/LijieFan/LaCLIP.
Gezien de snelle opkomst van grote taalmodellen (LLM's), onderzoeken we de vraag: (Hoe) kunnen grote taalmodellen helpen bij het beoordelen van wetenschappelijke artikelen of onderzoeksvoorstellen? We voeren eerst enkele pilotstudies uit waaruit blijkt dat (i) GPT-4 beter presteert dan andere LLM's (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), en (ii) het stellen van een specifieke vraag (bijvoorbeeld om fouten te identificeren) beter werkt dan simpelweg vragen om een beoordeling te schrijven. Met deze inzichten bestuderen we het gebruik van LLM's (specifiek GPT-4) voor drie taken: 1. **Fouten identificeren**: We construeren 13 korte computerwetenschappelijke artikelen, elk met een opzettelijk ingevoegde fout, en vragen het LLM om de juistheid van deze artikelen te controleren. We observeren dat het LLM fouten vindt in 7 van hen, zowel wiskundige als conceptuele fouten. 2. **Checklists verifiëren**: We laten het LLM 16 gesloten checklistvragen verifiëren in de respectievelijke secties van 15 NeurIPS 2022-artikelen. We constateren dat het LLM over 119 {checklistvraag, artikel}-paren een nauwkeurigheid van 86,6% behaalt. 3. **Het "beste" artikel kiezen**: We genereren 10 paren van samenvattingen, waarbij elk paar zodanig is ontworpen dat één samenvatting duidelijk superieur is aan de andere. Het LLM had echter moeite om deze relatief eenvoudige verschillen nauwkeurig te onderscheiden en maakte fouten in 6 van de 10 paren. Op basis van deze experimenten denken we dat LLM's een veelbelovend gebruik hebben als beoordelingsassistenten voor specifieke beoordelingstaken, maar (nog) niet voor volledige evaluaties van artikelen of voorstellen.
De afgelopen jaren hebben aanzienlijke vooruitgang geboekt bij het bewerken van afbeeldingen met tekstinstructies. Wanneer deze editors worden toegepast op het bewerken van dynamische scènes, blijkt de nieuwe scène vaak tijdelijk inconsistent te zijn vanwege het frame-voor-frame karakter van deze 2D-editors. Om dit probleem aan te pakken, stellen we Control4D voor, een nieuwe benadering voor hoogwaardige en temporeel consistente 4D-portretbewerking. Control4D is gebaseerd op een efficiënte 4D-representatie met een 2D-diffusiegebaseerde editor. In plaats van directe supervisie van de editor te gebruiken, leert onze methode een 4D GAN ervan en vermijdt zo de inconsistente supervisiesignalen. Specifiek gebruiken we een discriminator om de generatiedistributie te leren op basis van de bewerkte afbeeldingen en vervolgens de generator bij te werken met de discriminationsignalen. Voor een stabielere training wordt informatie op meerdere niveaus geëxtraheerd uit de bewerkte afbeeldingen en gebruikt om het leren van de generator te vergemakkelijken. Experimentele resultaten tonen aan dat Control4D eerdere benaderingen overtreft en meer fotorealistische en consistente 4D-bewerkingsprestaties bereikt. De link naar onze projectwebsite is https://control4darxiv.github.io.
Offline reinforcement learning (RL) heeft als doel optimale beleidsregels te leren uit offline datasets, waarbij de parametrisering van beleidsregels cruciaal is maar vaak over het hoofd wordt gezien. Onlangs heeft Diffsuion-QL de prestaties van offline RL aanzienlijk verbeterd door een beleidsregel te representeren met een diffusiemodel, waarvan het succes berust op een geparametriseerde Markov-keten met honderden stappen voor sampling. Diffusion-QL heeft echter twee kritieke beperkingen. 1) Het is rekenkundig inefficiënt om tijdens de training door de hele Markov-keten heen te gaan, zowel voorwaarts als achterwaarts. 2) Het is niet compatibel met RL-algoritmen die gebaseerd zijn op maximale waarschijnlijkheid (bijvoorbeeld beleidsgradiëntmethoden), omdat de waarschijnlijkheid van diffusiemodellen onberekenbaar is. Daarom stellen we efficient diffusion policy (EDP) voor om deze twee uitdagingen te overwinnen. EDP construeert tijdens de training acties bij benadering uit gecorrumpeerde acties om het uitvoeren van de samplingketen te vermijden. We voeren uitgebreide experimenten uit op de D4RL-benchmark. De resultaten laten zien dat EDP de trainingstijd van diffusiebeleid kan terugbrengen van 5 dagen naar 5 uur op gym-locomotietaken. Bovendien tonen we aan dat EDP compatibel is met verschillende offline RL-algoritmen (TD3, CRR en IQL) en nieuwe state-of-the-art prestaties bereikt op D4RL met grote marges ten opzichte van eerdere methoden. Onze code is beschikbaar op https://github.com/sail-sg/edp.
We presenteren een benadering om mensen te reconstrueren en ze in de tijd te volgen. Centraal in onze aanpak staat een volledig "getransformeerde" versie van een netwerk voor het herstel van menselijke mesh. Dit netwerk, HMR 2.0, verbetert de stand van de techniek en toont de mogelijkheid om ongebruikelijke houdingen te analyseren die in het verleden moeilijk te reconstrueren waren vanuit enkele afbeeldingen. Voor het analyseren van video gebruiken we 3D-reconstructies van HMR 2.0 als invoer voor een volgsysteem dat in 3D opereert. Hierdoor kunnen we omgaan met meerdere personen en identiteiten behouden tijdens occlusiegebeurtenissen. Onze complete aanpak, 4DHumans, behaalt state-of-the-art resultaten voor het volgen van mensen vanuit monoscopische video. Bovendien demonstreren we de effectiviteit van HMR 2.0 op de downstreamtaak van actieherkenning, waarbij we aanzienlijke verbeteringen behalen ten opzichte van eerdere op houding gebaseerde benaderingen voor actieherkenning. Onze code en modellen zijn beschikbaar op de projectwebsite: https://shubham-goel.github.io/4dhumans/.
Procedureel plannen, dat het opsplitsen van een hooggelegen doel in een reeks tijdelijk geordende stappen inhoudt, is een belangrijke maar complexe taak voor machines. Het vereist het integreren van gezond verstand om te redeneren over complexe, gecontextualiseerde situaties die vaak contrafeitelijk zijn, zoals "een doktersafspraak inplannen zonder telefoon". Hoewel huidige benaderingen bemoedigende resultaten laten zien met behulp van grote taalmmodellen (LLM's), worden ze gehinderd door nadelen zoals kostbare API-aanroepen en reproduceerbaarheidsproblemen. In dit artikel pleiten we voor plannen met kleinere taalmmodellen. We presenteren PlaSma, een nieuwe tweeledige aanpak om kleine taalmmodellen uit te rusten met procedurele kennis en (contrafeitelijke) planningscapaciteiten. Concreter ontwikkelen we symbolische procedurele kennisdistillatie om de impliciete kennis in kleine taalmmodellen te versterken en een inferentie-tijd algoritme om gestructureerder en nauwkeuriger redeneren te vergemakkelijken. Daarnaast introduceren we een nieuwe taak, Contrafeitelijk Plannen, die een herziening van een plan vereist om een contrafeitelijke situatie het hoofd te bieden. In zowel de oorspronkelijke als de contrafeitelijke setting laten we zien dat modellen die ordes van grootte kleiner zijn (770M-11B parameters) kunnen concurreren en vaak de capaciteiten van hun grotere leraarmodellen overtreffen.
Grote taalmmodellen (LLMs) hebben opmerkelijke successen geboekt bij een breed scala aan taken op het gebied van natuurlijke taalgeneratie, waarbij een goede ontwerp van prompts een grote impact heeft. Hoewel bestaande promptingmethoden normaal gesproken beperkt zijn tot het verstrekken van correcte informatie, moedigen we in dit artikel het model aan om te delibereren door een nieuw Deliberate then Generate (DTG) promptingframework voor te stellen, dat bestaat uit foutdetectie-instructies en kandidaten die fouten kunnen bevatten. DTG is een eenvoudige maar effectieve techniek die met minimale aanpassingen kan worden toegepast op verschillende tekstgeneratietaken. We voeren uitgebreide experimenten uit op meer dan 20 datasets voor 7 tekstgeneratietaken, waaronder samenvatting, vertaling, dialoog en meer. We laten zien dat DTG consistent beter presteert dan bestaande promptingmethoden en state-of-the-art prestaties behaalt bij meerdere tekstgeneratietaken. We bieden ook diepgaande analyses om de onderliggende mechanismen van DTG te onthullen, wat toekomstig onderzoek naar prompting voor LLMs kan inspireren.
We presenteren "Human or Not?", een online spel geïnspireerd op de Turingtest, dat het vermogen meet van AI-chatbots om mensen na te bootsen in dialogen, en van mensen om bots te onderscheiden van andere mensen. Gedurende een maand werd het spel gespeeld door meer dan 1,5 miljoen gebruikers die anonieme tweeminutengesprekken voerden met een andere mens of een AI-taalmodel dat was geprompt om zich als een mens te gedragen. De taak van de spelers was om correct te raden of ze met een persoon of een AI spraken. Deze grootste Turingtest-achtige experiment tot nu toe onthulde enkele interessante feiten. Zo raden gebruikers over het algemeen de identiteit van hun gesprekspartner in slechts 68% van de spellen correct. In de subset van spellen waarin gebruikers tegen een AI-bot speelden, hadden gebruikers een nog lager correct raadpercentage van 60% (dat wil zeggen, niet veel hoger dan toeval). Dit witboek beschrijft de ontwikkeling, implementatie en resultaten van dit unieke experiment. Hoewel dit experiment om veel uitbreidingen en verfijningen vraagt, beginnen deze bevindingen al licht te werpen op de onvermijdelijke nabije toekomst waarin mensen en AI zullen vermengen.