HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

13 papers found

LLaVA-Med: Het trainen van een grote taal-en-visie assistent voor biomedische toepassingen in één dag
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1

ByChunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao

Conversationele generatieve AI heeft opmerkelijke belofte getoond voor het empoweren van biomedische professionals, maar huidige onderzoeken richten zich op unimodale tekst. Multimodale conversationele AI heeft snelle vooruitgang geboekt door gebruik te maken van miljarden afbeelding-tekstparen van het openbare web, maar dergelijke algemene domein visie-taalmodellen missen nog steeds de verfijning in het begrijpen en converseren over biomedische afbeeldingen. In dit artikel stellen we een kostenefficiënte aanpak voor om een visie-taal conversationele assistent te trainen die open onderzoeksvragen over biomedische afbeeldingen kan beantwoorden. Het kernidee is om gebruik te maken van een grootschalige, breedgedekte biomedische figuur-bijschrift dataset geëxtraheerd uit PubMed Central, GPT-4 te gebruiken om zelfinstructie open instructie-volgende data uit de bijschriften te genereren, en vervolgens een groot algemeen domein visie-taalmodel te fine-tunen met behulp van een nieuwe curriculumleermethode. Specifiek leert het model eerst biomedische vocabulaire af te stemmen met behulp van de figuur-bijschriftparen zoals ze zijn, en leert vervolgens open conversationele semantiek te beheersen met behulp van GPT-4 gegenereerde instructie-volgende data, wat grofweg nabootst hoe een leek geleidelijk biomedische kennis verwerft. Dit stelt ons in staat om een Large Language and Vision Assistant for BioMedicine (LLaVA-Med) te trainen in minder dan 15 uur (met acht A100's). LLaVA-Med vertoont uitstekende multimodale conversationele capaciteiten en kan open instructies volgen om te assisteren bij vragen over een biomedische afbeelding. Op drie standaard biomedische visuele vraag-antwoord datasets presteert LLaVA-Med beter dan eerder gesuperviseerde state-of-the-art op bepaalde metrieken. Om biomedisch multimodaal onderzoek te faciliteren, zullen we onze instructie-volgende data en het LLaVA-Med model vrijgeven.

StyleDrop: Tekst-naar-beeldgeneratie in elke stijl
StyleDrop: Text-to-Image Generation in Any Style

Jun 1

ByKihyuk Sohn, Nataniel Ruiz, Kimin Lee, Daniel Castro Chin, Irina Blok, Huiwen Chang, Jarred Barber, Lu Jiang, Glenn Entis, Yuanzhen Li, Yuan Hao, Irfan Essa, Michael Rubinstein, Dilip Krishnan

Voorgetrainde grote tekst-naar-beeldmodellen genereren indrukwekkende afbeeldingen met een passend gebruik van tekstprompts. Echter, inherente ambiguïteiten in natuurlijke taal en out-of-distribution-effecten maken het moeilijk om beeldstijlen te synthetiseren die gebruikmaken van een specifiek ontwerppatroon, textuur of materiaal. In dit artikel introduceren we StyleDrop, een methode die het mogelijk maakt om afbeeldingen te synthetiseren die trouw een specifieke stijl volgen met behulp van een tekst-naar-beeldmodel. De voorgestelde methode is uiterst veelzijdig en vangt nuances en details van een door de gebruiker aangeleverde stijl, zoals kleurenschema's, schaduw, ontwerppatronen, en lokale en globale effecten. Het leert efficiënt een nieuwe stijl door het finetunen van zeer weinig trainbare parameters (minder dan 1% van de totale modelparameters) en verbetert de kwaliteit via iteratieve training met menselijke of geautomatiseerde feedback. Nog beter, StyleDrop is in staat indrukwekkende resultaten te leveren, zelfs wanneer de gebruiker slechts één afbeelding levert die de gewenste stijl specificeert. Een uitgebreide studie toont aan dat, voor de taak van stijlaanpassing van tekst-naar-beeldmodellen, StyleDrop geïmplementeerd op Muse overtuigend beter presteert dan andere methoden, waaronder DreamBooth en tekstuele inversie op Imagen of Stable Diffusion. Meer resultaten zijn beschikbaar op onze projectwebsite: https://styledrop.github.io

Groter, Beter, Sneller: Menselijk niveau Atari met menselijke efficiëntie
Bigger, Better, Faster: Human-level Atari with human-level efficiency

May 30

ByMax Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro

We introduceren een op waarde gebaseerde RL-agent, die we BBF noemen, die bovenmenselijke prestaties behaalt in de Atari 100K-benchmark. BBF maakt gebruik van het opschalen van de neurale netwerken die worden gebruikt voor waardeschatting, evenals een aantal andere ontwerpkeuzes die deze schaalvergroting op een sample-efficiënte manier mogelijk maken. We voeren uitgebreide analyses uit van deze ontwerpkeuzes en bieden inzichten voor toekomstig werk. We sluiten af met een discussie over het bijstellen van de doelstellingen voor sample-efficiënt RL-onderzoek op de ALE. We stellen onze code en data openbaar beschikbaar op https://github.com/google-research/google-research/tree/master/bigger_better_faster.

Begrijpen en beperken van kopieergedrag in diffusiemodellen
Understanding and Mitigating Copying in Diffusion Models

May 31

ByGowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein

Afbeeldingen gegenereerd door diffusiemodellen zoals Stable Diffusion worden steeds vaker gebruikt. Recente onderzoeken en zelfs rechtszaken hebben aangetoond dat deze modellen vatbaar zijn voor het repliceren van hun trainingsdata, zonder dat de gebruiker dit weet. In dit artikel analyseren we eerst dit memorisatieprobleem in tekst-naar-afbeelding diffusiemodellen. Hoewel algemeen wordt aangenomen dat gedupliceerde afbeeldingen in de trainingsset verantwoordelijk zijn voor het repliceren van inhoud tijdens inferentie, observeren we dat de tekstconditionering van het model een even belangrijke rol speelt. In feite zien we in onze experimenten dat datareplicatie vaak niet voorkomt bij onvoorwaardelijke modellen, terwijl het gebruikelijk is in het tekstgeconditioneerde geval. Gemotiveerd door onze bevindingen, stellen we vervolgens verschillende technieken voor om datareplicatie te verminderen, zowel tijdens de training als tijdens inferentie, door beeldbijschriften in de trainingsset te randomiseren en aan te vullen.

Blokgewijs Parallelle Transformer voor Grote Modellen met Lange Context
Blockwise Parallel Transformer for Long Context Large Models

May 30

ByHao Liu, Pieter Abbeel

Transformers zijn uitgegroeid tot de hoeksteen van state-of-the-art modellen voor natuurlijke taalverwerking, waarbij ze uitzonderlijke prestaties laten zien in een breed scala aan AI-toepassingen. De geheugeneisen die worden gesteld door het self-attention-mechanisme en het grote feedforward-netwerk in Transformers beperken echter hun vermogen om lange sequenties te verwerken, wat uitdagingen creëert voor taken die meerdere lange sequenties of langetermijnafhankelijkheden omvatten. Wij presenteren een unieke aanpak, de Blockwise Parallel Transformer (BPT), die gebruikmaakt van bloksgewijze berekening van self-attention en de fusie van feedforward-netwerken om de geheugenkosten te minimaliseren. Door langere invoersequenties te verwerken terwijl de geheugenefficiëntie behouden blijft, maakt BPT het mogelijk om sequenties te trainen die tot 32 keer langer zijn dan bij standaard Transformers en 2 tot 4 keer langer dan bij eerdere geheugenefficiënte methoden. Uitgebreide experimenten op het gebied van taalmodellering en reinforcement learning taken demonstreren de effectiviteit van BPT in het verminderen van geheugeneisen en het verbeteren van prestaties.

CLIP-training verbeteren met taalherformuleringen
Improving CLIP Training with Language Rewrites

May 31

ByLijie Fan, Dilip Krishnan, Phillip Isola, Dina Katabi, Yonglong Tian

Contrastive Language-Image Pre-training (CLIP) geldt als een van de meest effectieve en schaalbare methoden voor het trainen van overdraagbare vision-modellen met behulp van gepaarde afbeelding- en tekstdata. CLIP-modellen worden getraind met contrastief verlies, wat doorgaans vertrouwt op data-augmentaties om overfitting en shortcuts te voorkomen. Echter, in het CLIP-trainingsparadigma worden data-augmentaties uitsluitend toegepast op afbeeldingsinputs, terwijl taalinputs gedurende het hele trainingsproces ongewijzigd blijven, wat de blootstelling aan diverse teksten voor dezelfde afbeelding beperkt. In dit artikel introduceren we Language augmented CLIP (LaCLIP), een eenvoudige maar zeer effectieve aanpak om CLIP-training te verbeteren door middel van taalherformuleringen. Door gebruik te maken van de in-context leer-capaciteit van grote taalmodellen, herformuleren we de tekstbeschrijvingen die bij elke afbeelding horen. Deze herschreven teksten vertonen diversiteit in zinsstructuur en vocabulaire, terwijl de oorspronkelijke kernconcepten en betekenissen behouden blijven. Tijdens de training selecteert LaCLIP willekeurig ofwel de originele teksten ofwel de herschreven versies als tekstaugmentaties voor elke afbeelding. Uitgebreide experimenten op de CC3M-, CC12M-, RedCaps- en LAION-400M-datasets tonen aan dat CLIP-pre-training met taalherformuleringen de overdraagprestaties aanzienlijk verbetert zonder reken- of geheugenoverhead tijdens de training. Specifiek voor ImageNet zero-shot nauwkeurigheid presteert LaCLIP 8,2% beter dan CLIP op CC12M en 2,4% op LAION-400M. Code is beschikbaar op https://github.com/LijieFan/LaCLIP.

ReviewerGPT? Een verkennend onderzoek naar het gebruik van grote taalmodel- len voor het beoordelen van wetenschappelijke artikelen
ReviewerGPT? An Exploratory Study on Using Large Language Models for Paper Reviewing

Jun 1

ByRyan Liu, Nihar B. Shah

Gezien de snelle opkomst van grote taalmodellen (LLM's), onderzoeken we de vraag: (Hoe) kunnen grote taalmodellen helpen bij het beoordelen van wetenschappelijke artikelen of onderzoeksvoorstellen? We voeren eerst enkele pilotstudies uit waaruit blijkt dat (i) GPT-4 beter presteert dan andere LLM's (Bard, Vicuna, Koala, Alpaca, LLaMa, Dolly, OpenAssistant, StableLM), en (ii) het stellen van een specifieke vraag (bijvoorbeeld om fouten te identificeren) beter werkt dan simpelweg vragen om een beoordeling te schrijven. Met deze inzichten bestuderen we het gebruik van LLM's (specifiek GPT-4) voor drie taken: 1. **Fouten identificeren**: We construeren 13 korte computerwetenschappelijke artikelen, elk met een opzettelijk ingevoegde fout, en vragen het LLM om de juistheid van deze artikelen te controleren. We observeren dat het LLM fouten vindt in 7 van hen, zowel wiskundige als conceptuele fouten. 2. **Checklists verifiëren**: We laten het LLM 16 gesloten checklistvragen verifiëren in de respectievelijke secties van 15 NeurIPS 2022-artikelen. We constateren dat het LLM over 119 {checklistvraag, artikel}-paren een nauwkeurigheid van 86,6% behaalt. 3. **Het "beste" artikel kiezen**: We genereren 10 paren van samenvattingen, waarbij elk paar zodanig is ontworpen dat één samenvatting duidelijk superieur is aan de andere. Het LLM had echter moeite om deze relatief eenvoudige verschillen nauwkeurig te onderscheiden en maakte fouten in 6 van de 10 paren. Op basis van deze experimenten denken we dat LLM's een veelbelovend gebruik hebben als beoordelingsassistenten voor specifieke beoordelingstaken, maar (nog) niet voor volledige evaluaties van artikelen of voorstellen.

Control4D: Dynamische Portretbewerking door het Leren van 4D GAN uit een 2D Diffusie-gebaseerde Bewerker
Control4D: Dynamic Portrait Editing by Learning 4D GAN from 2D Diffusion-based Editor

May 31

ByRuizhi Shao, Jingxiang Sun, Cheng Peng, Zerong Zheng, Boyao Zhou, Hongwen Zhang, Yebin Liu

De afgelopen jaren hebben aanzienlijke vooruitgang geboekt bij het bewerken van afbeeldingen met tekstinstructies. Wanneer deze editors worden toegepast op het bewerken van dynamische scènes, blijkt de nieuwe scène vaak tijdelijk inconsistent te zijn vanwege het frame-voor-frame karakter van deze 2D-editors. Om dit probleem aan te pakken, stellen we Control4D voor, een nieuwe benadering voor hoogwaardige en temporeel consistente 4D-portretbewerking. Control4D is gebaseerd op een efficiënte 4D-representatie met een 2D-diffusiegebaseerde editor. In plaats van directe supervisie van de editor te gebruiken, leert onze methode een 4D GAN ervan en vermijdt zo de inconsistente supervisiesignalen. Specifiek gebruiken we een discriminator om de generatiedistributie te leren op basis van de bewerkte afbeeldingen en vervolgens de generator bij te werken met de discriminationsignalen. Voor een stabielere training wordt informatie op meerdere niveaus geëxtraheerd uit de bewerkte afbeeldingen en gebruikt om het leren van de generator te vergemakkelijken. Experimentele resultaten tonen aan dat Control4D eerdere benaderingen overtreft en meer fotorealistische en consistente 4D-bewerkingsprestaties bereikt. De link naar onze projectwebsite is https://control4darxiv.github.io.

Efficiënt Diffusiebeleid voor Offline Reinforcement Learning
Efficient Diffusion Policies for Offline Reinforcement Learning

May 31

ByBingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan

Offline reinforcement learning (RL) heeft als doel optimale beleidsregels te leren uit offline datasets, waarbij de parametrisering van beleidsregels cruciaal is maar vaak over het hoofd wordt gezien. Onlangs heeft Diffsuion-QL de prestaties van offline RL aanzienlijk verbeterd door een beleidsregel te representeren met een diffusiemodel, waarvan het succes berust op een geparametriseerde Markov-keten met honderden stappen voor sampling. Diffusion-QL heeft echter twee kritieke beperkingen. 1) Het is rekenkundig inefficiënt om tijdens de training door de hele Markov-keten heen te gaan, zowel voorwaarts als achterwaarts. 2) Het is niet compatibel met RL-algoritmen die gebaseerd zijn op maximale waarschijnlijkheid (bijvoorbeeld beleidsgradiëntmethoden), omdat de waarschijnlijkheid van diffusiemodellen onberekenbaar is. Daarom stellen we efficient diffusion policy (EDP) voor om deze twee uitdagingen te overwinnen. EDP construeert tijdens de training acties bij benadering uit gecorrumpeerde acties om het uitvoeren van de samplingketen te vermijden. We voeren uitgebreide experimenten uit op de D4RL-benchmark. De resultaten laten zien dat EDP de trainingstijd van diffusiebeleid kan terugbrengen van 5 dagen naar 5 uur op gym-locomotietaken. Bovendien tonen we aan dat EDP compatibel is met verschillende offline RL-algoritmen (TD3, CRR en IQL) en nieuwe state-of-the-art prestaties bereikt op D4RL met grote marges ten opzichte van eerdere methoden. Onze code is beschikbaar op https://github.com/sail-sg/edp.

Mensen in 4D: Reconstructie en Tracking van Mensen met Transformers
Humans in 4D: Reconstructing and Tracking Humans with Transformers

May 31

ByShubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik

We presenteren een benadering om mensen te reconstrueren en ze in de tijd te volgen. Centraal in onze aanpak staat een volledig "getransformeerde" versie van een netwerk voor het herstel van menselijke mesh. Dit netwerk, HMR 2.0, verbetert de stand van de techniek en toont de mogelijkheid om ongebruikelijke houdingen te analyseren die in het verleden moeilijk te reconstrueren waren vanuit enkele afbeeldingen. Voor het analyseren van video gebruiken we 3D-reconstructies van HMR 2.0 als invoer voor een volgsysteem dat in 3D opereert. Hierdoor kunnen we omgaan met meerdere personen en identiteiten behouden tijdens occlusiegebeurtenissen. Onze complete aanpak, 4DHumans, behaalt state-of-the-art resultaten voor het volgen van mensen vanuit monoscopische video. Bovendien demonstreren we de effectiviteit van HMR 2.0 op de downstreamtaak van actieherkenning, waarbij we aanzienlijke verbeteringen behalen ten opzichte van eerdere op houding gebaseerde benaderingen voor actieherkenning. Onze code en modellen zijn beschikbaar op de projectwebsite: https://shubham-goel.github.io/4dhumans/.

PlaSma: Het verbeteren van kleine taalmodellen tot betere procedurele kennismodellen voor (contrafactueel) plannen
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning

May 31

ByFaeze Brahman, Chandra Bhagavatula, Valentina Pyatkin, Jena D. Hwang, Xiang Lorraine Li, Hirona J. Arai, Soumya Sanyal, Keisuke Sakaguchi, Xiang Ren, Yejin Choi

Procedureel plannen, dat het opsplitsen van een hooggelegen doel in een reeks tijdelijk geordende stappen inhoudt, is een belangrijke maar complexe taak voor machines. Het vereist het integreren van gezond verstand om te redeneren over complexe, gecontextualiseerde situaties die vaak contrafeitelijk zijn, zoals "een doktersafspraak inplannen zonder telefoon". Hoewel huidige benaderingen bemoedigende resultaten laten zien met behulp van grote taalmmodellen (LLM's), worden ze gehinderd door nadelen zoals kostbare API-aanroepen en reproduceerbaarheidsproblemen. In dit artikel pleiten we voor plannen met kleinere taalmmodellen. We presenteren PlaSma, een nieuwe tweeledige aanpak om kleine taalmmodellen uit te rusten met procedurele kennis en (contrafeitelijke) planningscapaciteiten. Concreter ontwikkelen we symbolische procedurele kennisdistillatie om de impliciete kennis in kleine taalmmodellen te versterken en een inferentie-tijd algoritme om gestructureerder en nauwkeuriger redeneren te vergemakkelijken. Daarnaast introduceren we een nieuwe taak, Contrafeitelijk Plannen, die een herziening van een plan vereist om een contrafeitelijke situatie het hoofd te bieden. In zowel de oorspronkelijke als de contrafeitelijke setting laten we zien dat modellen die ordes van grootte kleiner zijn (770M-11B parameters) kunnen concurreren en vaak de capaciteiten van hun grotere leraarmodellen overtreffen.

Bedenk dan Genereer: Verbeterd Prompting Framework voor Tekstgeneratie
Deliberate then Generate: Enhanced Prompting Framework for Text Generation

May 31

ByBei Li, Rui Wang, Junliang Guo, Kaitao Song, Xu Tan, Hany Hassan, Arul Menezes, Tong Xiao, Jiang Bian, JingBo Zhu

Grote taalmmodellen (LLMs) hebben opmerkelijke successen geboekt bij een breed scala aan taken op het gebied van natuurlijke taalgeneratie, waarbij een goede ontwerp van prompts een grote impact heeft. Hoewel bestaande promptingmethoden normaal gesproken beperkt zijn tot het verstrekken van correcte informatie, moedigen we in dit artikel het model aan om te delibereren door een nieuw Deliberate then Generate (DTG) promptingframework voor te stellen, dat bestaat uit foutdetectie-instructies en kandidaten die fouten kunnen bevatten. DTG is een eenvoudige maar effectieve techniek die met minimale aanpassingen kan worden toegepast op verschillende tekstgeneratietaken. We voeren uitgebreide experimenten uit op meer dan 20 datasets voor 7 tekstgeneratietaken, waaronder samenvatting, vertaling, dialoog en meer. We laten zien dat DTG consistent beter presteert dan bestaande promptingmethoden en state-of-the-art prestaties behaalt bij meerdere tekstgeneratietaken. We bieden ook diepgaande analyses om de onderliggende mechanismen van DTG te onthullen, wat toekomstig onderzoek naar prompting voor LLMs kan inspireren.

Mens of Machine? Een Gegamificeerde Benadering van de Turingtest
Human or Not? A Gamified Approach to the Turing Test

May 31

ByDaniel Jannai, Amos Meron, Barak Lenz, Yoav Levine, Yoav Shoham

We presenteren "Human or Not?", een online spel geïnspireerd op de Turingtest, dat het vermogen meet van AI-chatbots om mensen na te bootsen in dialogen, en van mensen om bots te onderscheiden van andere mensen. Gedurende een maand werd het spel gespeeld door meer dan 1,5 miljoen gebruikers die anonieme tweeminutengesprekken voerden met een andere mens of een AI-taalmodel dat was geprompt om zich als een mens te gedragen. De taak van de spelers was om correct te raden of ze met een persoon of een AI spraken. Deze grootste Turingtest-achtige experiment tot nu toe onthulde enkele interessante feiten. Zo raden gebruikers over het algemeen de identiteit van hun gesprekspartner in slechts 68% van de spellen correct. In de subset van spellen waarin gebruikers tegen een AI-bot speelden, hadden gebruikers een nog lager correct raadpercentage van 60% (dat wil zeggen, niet veel hoger dan toeval). Dit witboek beschrijft de ontwikkeling, implementatie en resultaten van dit unieke experiment. Hoewel dit experiment om veel uitbreidingen en verfijningen vraagt, beginnen deze bevindingen al licht te werpen op de onvermijdelijke nabije toekomst waarin mensen en AI zullen vermengen.

LLaVA-Med: Het trainen van een grote taal-en-visie assistent voor biomedische toepassingen in één dag
LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

Jun 1

ByChunyuan Li, Cliff Wong, Sheng Zhang, Naoto Usuyama, Haotian Liu, Jianwei Yang, Tristan Naumann, Hoifung Poon, Jianfeng Gao