HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

19 papers found

RAPHAEL: Tekst-naar-beeldgeneratie via een grote mix van diffusiepaden
RAPHAEL: Text-to-Image Generation via Large Mixture of Diffusion Paths

May 29

ByZeyue Xue, Guanglu Song, Qiushan Guo, Boxiao Liu, Zhuofan Zong, Yu Liu, Ping Luo

Text-to-image-generatie heeft recentelijk opmerkelijke prestaties laten zien. Wij introduceren een tekst-conditioneel beelddiffusiemodel, genaamd RAPHAEL, om hoogst artistieke beelden te genereren die tekstprompts nauwkeurig weergeven, waarbij meerdere zelfstandige naamwoorden, bijvoeglijke naamwoorden en werkwoorden worden omvat. Dit wordt bereikt door tientallen mixture-of-experts (MoE)-lagen te stapelen, namelijk space-MoE en time-MoE lagen, waardoor miljarden diffusiepaden (routes) van de netwerkinvoer naar de uitvoer mogelijk worden. Elk pad fungeert intuïtief als een "schilder" voor het afbeelden van een specifiek tekstueel concept op een bepaald beeldgebied tijdens een diffusietijdstap. Uitgebreide experimenten tonen aan dat RAPHAEL recente state-of-the-art modellen, zoals Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd en DALL-E 2, overtreft in termen van zowel beeldkwaliteit als esthetische aantrekkingskracht. Ten eerste toont RAPHAEL superieure prestaties in het overschakelen van beelden tussen diverse stijlen, zoals Japanse strips, realisme, cyberpunk en inktillustraties. Ten tweede behaalt een enkel model met drie miljard parameters, getraind op 1.000 A100 GPU's gedurende twee maanden, een state-of-the-art zero-shot FID-score van 6.61 op de COCO-dataset. Bovendien overtreft RAPHAEL zijn tegenhangers aanzienlijk in menselijke evaluatie op de ViLG-300 benchmark. Wij geloven dat RAPHAEL het potentieel heeft om de grenzen van beeldgeneratieonderzoek in zowel academische als industriële context te verleggen, en zo de weg te effenen voor toekomstige doorbraken in dit snel evoluerende veld. Meer details zijn te vinden op een projectwebpagina: https://raphael-painter.github.io/.

Afbeeldingen genereren met multimodale taalmodelen
Generating Images with Multimodal Language Models

May 26

ByJing Yu Koh, Daniel Fried, Ruslan Salakhutdinov

Wij stellen een methode voor om bevroren tekst-gebaseerde grote taalmodellen (LLMs) te integreren met vooraf getrainde beeldencoder- en decoder-modellen, door een mapping tussen hun embeddingruimtes te maken. Ons model toont een breed scala aan multimodale capaciteiten: beeldretrieval, het genereren van nieuwe beelden, en multimodale dialoog. Onze aanpak is de eerste die in staat is om te conditioneren op willekeurig afgewisselde beeld- en tekstinputs om samenhangende beeld- (en tekst)outputs te genereren. Om sterke prestaties te behalen bij beeldgeneratie, stellen we een efficiënt mappingnetwerk voor om het LLM te verankeren aan een kant-en-klaar tekst-naar-beeld generatiemodel. Dit mappingnetwerk vertaalt verborgen representaties van tekst naar de embeddingruimte van de visuele modellen, waardoor we de sterke tekstrepresentaties van het LLM kunnen benutten voor visuele outputs. Onze aanpak overtreft baseline-generatiemodellen bij taken met langere en complexere taal. Naast het genereren van nieuwe beelden, is ons model ook in staat om beelden op te halen uit een vooraf gespecificeerde dataset, en beslist het tijdens de inferentie of het een beeld moet ophalen of genereren. Dit gebeurt met een geleerde beslissingsmodule die conditioneert op de verborgen representaties van het LLM. Ons model vertoont een breder scala aan capaciteiten vergeleken met eerdere multimodale taalmodellen. Het kan beeld- en tekstinputs verwerken, en opgehaalde beelden, gegenereerde beelden en gegenereerde tekst produceren – en overtreft niet-LLM-gebaseerde generatiemodellen bij verschillende tekst-naar-beeld taken die contextafhankelijkheid meten.

Modeldementie: gegenereerde data zorgt ervoor dat modellen vergeten
Model Dementia: Generated Data Makes Models Forget

May 27

ByIlia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson

Stable Diffusion heeft een revolutie teweeggebracht in het creëren van afbeeldingen uit beschrijvende tekst. GPT-2, GPT-3(.5) en GPT-4 hebben verbazingwekkende prestaties laten zien bij een verscheidenheid aan taaltaken. ChatGPT heeft dergelijke taalmodelen bij het grote publiek geïntroduceerd. Het is nu duidelijk dat grote taalmodelen (LLM's) blijvend zijn en drastische veranderingen zullen teweegbrengen in het hele ecosysteem van online tekst en afbeeldingen. In dit artikel beschouwen we wat de toekomst in petto zou kunnen hebben. Wat zal er gebeuren met GPT-{n} zodra LLM's een groot deel van de online gevonden taal gaan bijdragen? We ontdekken dat het gebruik van modelgegenereerde inhoud in training onomkeerbare defecten veroorzaakt in de resulterende modellen, waarbij de staarten van de oorspronkelijke inhoudsverdeling verdwijnen. We noemen dit effect modeldementie en tonen aan dat het kan voorkomen in Variational Autoencoders (VAE's), Gaussian Mixture Models (GMM's) en LLM's. We ontwikkelen een theoretisch inzicht achter dit fenomeen en illustreren de alomtegenwoordigheid ervan bij alle geleerde generatieve modellen. We laten zien dat het serieus genomen moet worden als we de voordelen van training op basis van grootschalige gegevens die van het web zijn geschraapt, willen behouden. Inderdaad, de waarde van gegevens die worden verzameld over authentieke menselijke interacties met systemen zal steeds waardevoller worden in de aanwezigheid van inhoud die door LLM's is gegenereerd in gegevens die van het internet zijn gecrawld.

Mix-of-Show: Gedecentraliseerde Low-Rank Aanpassing voor Multi-Concept Aanpassing van Diffusiemodellen
Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

May 29

ByYuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou

Openbare grootschalige tekst-naar-beeld diffusiemodellen, zoals Stable Diffusion, hebben aanzienlijke aandacht gekregen van de gemeenschap. Deze modellen kunnen eenvoudig worden aangepast voor nieuwe concepten met behulp van low-rank aanpassingen (LoRA's). Het gebruik van meerdere concept-LoRA's om gezamenlijk meerdere aangepaste concepten te ondersteunen, vormt echter een uitdaging. Wij verwijzen naar dit scenario als gedecentraliseerde multi-concept aanpassing, waarbij sprake is van single-client conceptafstemming en center-node conceptfusie. In dit artikel stellen we een nieuw framework voor, genaamd Mix-of-Show, dat de uitdagingen van gedecentraliseerde multi-concept aanpassing aanpakt, waaronder conceptconflicten als gevolg van bestaande single-client LoRA-afstemming en identiteitsverlies tijdens modelfusie. Mix-of-Show maakt gebruik van een embedding-gedecomposeerde LoRA (ED-LoRA) voor single-client afstemming en gradiëntfusie voor de center node om de in-domain essentie van individuele concepten te behouden en theoretisch onbeperkte conceptfusie te ondersteunen. Daarnaast introduceren we regionaal controleerbare sampling, dat ruimtelijk controleerbare sampling (bijvoorbeeld ControlNet en T2I-Adaptor) uitbreidt om attribuutbinding en ontbrekende objectproblemen in multi-concept sampling aan te pakken. Uitgebreide experimenten tonen aan dat Mix-of-Show in staat is om meerdere aangepaste concepten, waaronder personages, objecten en scènes, met hoge nauwkeurigheid samen te stellen.

BigTrans: Uitbreiding van Grote Taalmodellen met Meertalige Vertaalcapaciteit voor meer dan 100 Talen
BigTrans: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

May 29

ByWen Yang, Chong Li, Jiajun Zhang, Chengqing Zong

Grote taalmodellen (LLM's) tonen veelbelovende vertaalprestaties voor verschillende natuurlijke talen. Veel LLM's, met name de open-source modellen zoals BLOOM en LLaMA, zijn echter Engelstalig dominant en ondersteunen slechts enkele tientallen natuurlijke talen, waardoor het potentieel van LLM's voor taalvertaling minder verkend is. In dit werk presenteren we BigTrans, dat LLaMA, dat slechts 20 talen ondersteunt, aanpast en uitbreidt met meertalige vertaalcapaciteit voor meer dan 100 talen. BigTrans is gebaseerd op LLaMA-13B en wordt in drie stappen geoptimaliseerd. Eerst trainen we LLaMA verder met enorme hoeveelheden Chinese eentalige data. Vervolgens trainen we het model verder met een grootschalige parallelle dataset die 102 natuurlijke talen omvat. Ten slotte instruct-afstemmen we het basismodel met meertalige vertaalinstructies, wat resulteert in ons BigTrans-model. De eerste experimenten met meertalige vertaling laten zien dat BigTrans vergelijkbaar presteert met ChatGPT en Google Translate voor veel talen en ChatGPT zelfs overtreft voor 8 taalparen. We maken het BigTrans-model beschikbaar en hopen dat het de onderzoeksvooruitgang kan bevorderen.

Het oog van de geest reconstrueren: fMRI-naar-beeld met contrastief leren en diffusie-priors
Reconstructing the Mind's Eye: fMRI-to-Image with Contrastive Learning and Diffusion Priors

May 29

ByPaul S. Scotti, Atmadeep Banerjee, Jimmie Goode, Stepan Shabalin, Alex Nguyen, Ethan Cohen, Aidan J. Dempster, Nathalie Verlinde, Elad Yundler, David Weisberg, Kenneth A. Norman, Tanishq Mathew Abraham

We presenteren MindEye, een nieuwe fMRI-naar-beeldbenadering om bekeken afbeeldingen te herstellen en te reconstrueren uit hersenactiviteit. Ons model bestaat uit twee parallelle submodules die gespecialiseerd zijn voor herstel (met behulp van contrastief leren) en reconstructie (met behulp van een diffusieprior). MindEye kan fMRI-hersenactiviteit koppelen aan elke hoogdimensionale multimodale latente ruimte, zoals CLIP-beeldruimte, waardoor beeldreconstructie mogelijk wordt met behulp van generatieve modellen die embeddings uit deze latente ruimte accepteren. We vergelijken onze aanpak uitgebreid met andere bestaande methoden, zowel met kwalitatieve zij-aan-zij-vergelijkingen als kwantitatieve evaluaties, en laten zien dat MindEye state-of-the-art prestaties behaalt in zowel reconstructie- als hersteltaken. In het bijzonder kan MindEye de exacte originele afbeelding herstellen, zelfs tussen sterk gelijkende kandidaten, wat aangeeft dat de hersenembeddings fijnmazige, afbeelding-specifieke informatie behouden. Dit stelt ons in staat om afbeeldingen nauwkeurig te herstellen, zelfs uit grootschalige databases zoals LAION-5B. We demonstreren door middel van ablatiestudies dat de prestatieverbeteringen van MindEye ten opzichte van eerdere methoden het resultaat zijn van gespecialiseerde submodules voor herstel en reconstructie, verbeterde trainingsmethoden, en het trainen van modellen met een veel groter aantal parameters. Bovendien laten we zien dat MindEye laagniveau beeldkenmerken beter kan behouden in de reconstructies door gebruik te maken van img2img, met uitvoer van een aparte auto-encoder. Alle code is beschikbaar op GitHub.

TaleCrafter: Interactieve Storyvisualisatie met Meerdere Personages
TaleCrafter: Interactive Story Visualization with Multiple Characters

May 29

ByYuan Gong, Youxin Pang, Xiaodong Cun, Menghan Xia, Haoxin Chen, Longyue Wang, Yong Zhang, Xintao Wang, Ying Shan, Yujiu Yang

Accurate storyvisualisatie vereist verschillende noodzakelijke elementen, zoals identiteitsconsistentie tussen frames, de afstemming tussen platte tekst en visuele inhoud, en een redelijke opmaak van objecten in afbeeldingen. De meeste eerdere werken streven ernaar om aan deze vereisten te voldoen door een tekst-naar-beeld (T2I) model aan te passen op een set video's in dezelfde stijl en met dezelfde personages, bijvoorbeeld de FlintstonesSV dataset. De geleerde T2I-modellen hebben echter doorgaans moeite om zich aan te passen aan nieuwe personages, scènes en stijlen, en missen vaak de flexibiliteit om de opmaak van de gesynthetiseerde afbeeldingen te herzien. Dit artikel stelt een systeem voor voor generieke interactieve storyvisualisatie, dat in staat is om meerdere nieuwe personages te verwerken en het bewerken van opmaak en lokale structuur te ondersteunen. Het is ontwikkeld door gebruik te maken van de voorkennis van grote taal- en T2I-modellen, getraind op enorme corpora. Het systeem bestaat uit vier onderling verbonden componenten: story-naar-prompt generatie (S2P), tekst-naar-opmaak generatie (T2L), controleerbare tekst-naar-beeld generatie (C-T2I), en beeld-naar-video animatie (I2V). Eerst zet de S2P-module beknopte verhaalinformatie om in gedetailleerde prompts die vereist zijn voor de vervolgfasen. Vervolgens genereert T2L diverse en redelijke opmaken op basis van de prompts, waarbij gebruikers de mogelijkheid krijgen om de opmaak aan te passen en te verfijnen naar hun voorkeur. De kerncomponent, C-T2I, maakt het mogelijk om afbeeldingen te creëren die worden geleid door opmaken, schetsen en acteurspecifieke identificatoren om consistentie en detail in visualisaties te behouden. Ten slotte verrijkt I2V het visualisatieproces door de gegenereerde afbeeldingen te animeren. Uitgebreide experimenten en een gebruikersstudie worden uitgevoerd om de effectiviteit en flexibiliteit van interactief bewerken van het voorgestelde systeem te valideren.

GPT4Tools: Het aanleren van het gebruik van tools aan grote taalmodellen via zelfinstructie
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction

May 30

ByRui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan

Dit artikel beoogt het efficiënt mogelijk maken van het gebruik van multimodale tools door Large Language Models (LLMs). Geavanceerde propriëtaire LLMs, zoals ChatGPT en GPT-4, hebben groot potentieel getoond voor het gebruik van tools door middel van geavanceerde prompt engineering. Deze modellen zijn echter doorgaans afhankelijk van hoge computationele kosten en niet-openbaar toegankelijke data. Om deze uitdagingen aan te pakken, stellen we GPT4Tools voor, gebaseerd op self-instruct, om open-source LLMs zoals LLaMA en OPT in staat te stellen tools te gebruiken. Het genereert een instructie-volgend dataset door een geavanceerde leraar te stimuleren met verschillende multimodale contexten. Door gebruik te maken van Low-Rank Adaptation (LoRA) optimalisatie, vergemakkelijkt onze aanpak het oplossen van een reeks visuele problemen door open-source LLMs, waaronder visueel begrip en beeldgeneratie. Bovendien bieden we een benchmark om het vermogen van LLMs om tools te gebruiken te evalueren, wat zowel in zero-shot als fine-tuning manieren wordt uitgevoerd. Uitgebreide experimenten tonen de effectiviteit van onze methode aan op verschillende taalmodellen, wat niet alleen de nauwkeurigheid van het aanroepen van bekende tools aanzienlijk verbetert, maar ook de zero-shot capaciteit voor onbekende tools mogelijk maakt. De code en demo zijn beschikbaar op https://github.com/StevenGrove/GPT4Tools.

Wat kunnen GPT-modellen eigenlijk doen in de chemie? Een uitgebreide benchmark over acht taken
What indeed can GPT models do in chemistry? A comprehensive benchmark on eight tasks

May 27

ByTaicheng Guo, Kehan Guo, Bozhao nan, Zhengwen Liang, Zhichun Guo, Nitesh V. Chawla, Olaf Wiest, Xiangliang Zhang

Grote Taalmodellen (LLMs) met sterke vaardigheden in natuurlijke taalverwerkingstaken zijn opgekomen en worden snel toegepast in diverse gebieden zoals wetenschap, financiën en software engineering. Het vermogen van LLMs om het vakgebied van de chemie vooruit te helpen, blijft echter onduidelijk. In dit artikel stellen we een uitgebreide benchmark op die 8 praktische chemietaken omvat, waaronder 1) naamvoorspelling, 2) eigenschapsvoorspelling, 3) opbrengstvoorspelling, 4) reactievoorspelling, 5) retrosynthese (voorspelling van reactanten uit producten), 6) tekstgebaseerd molecuulontwerp, 7) molecuulbeschrijving en 8) reagensselectie. Onze analyse maakt gebruik van algemeen erkende datasets zoals BBBP, Tox21, PubChem, USPTO en ChEBI, wat een brede verkenning van de capaciteiten van LLMs binnen de context van praktische chemie mogelijk maakt. Drie GPT-modellen (GPT-4, GPT-3.5 en Davinci-003) worden geëvalueerd voor elke chemietaak in zero-shot en few-shot in-context leeromgevingen met zorgvuldig geselecteerde demonstratievoorbeelden en speciaal ontworpen prompts. De belangrijkste resultaten van ons onderzoek zijn: 1) GPT-4 presteert beter dan de andere twee modellen onder de drie geëvalueerde; 2) GPT-modellen vertonen minder competitieve prestaties in taken die een nauwkeurig begrip van moleculaire SMILES-representatie vereisen, zoals reactievoorspelling en retrosynthese; 3) GPT-modellen tonen sterke capaciteiten in tekstgerelateerde uitlegtaken zoals molecuulbeschrijving; en 4) GPT-modellen vertonen vergelijkbare of betere prestaties dan klassieke machine learning-modellen wanneer ze worden toegepast op chemische problemen die kunnen worden omgezet in classificatie- of rangschikkingstaken, zoals eigenschapsvoorspelling en opbrengstvoorspelling.

SwiftSage: Een Generatief Agent met Snel en Langzaam Denken voor Complexe Interactieve Taken
SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

May 27

ByBill Yuchen Lin, Yicheng Fu, Karina Yang, Prithviraj Ammanabrolu, Faeze Brahman, Shiyu Huang, Chandra Bhagavatula, Yejin Choi, Xiang Ren

We introduceren SwiftSage, een nieuw agentframework geïnspireerd op de dual-process theorie van menselijke cognitie, ontworpen om uit te blinken in actieplanning voor complexe interactieve redeneertaken. SwiftSage integreert de sterke punten van gedragsklonen en het aansturen van grote taalmodellen (LLMs) om de taakuitvoeringsprestaties te verbeteren. Het framework bestaat uit twee primaire modules: de Swift-module, die snelle en intuïtieve denkprocessen vertegenwoordigt, en de Sage-module, die bewuste denkprocessen nabootst. De Swift-module is een klein encoder-decoder LM dat is afgestemd op de actietrajecten van de orakelagent, terwijl de Sage-module LLMs zoals GPT-4 gebruikt voor subdoelplanning en gronding. We ontwikkelen een heuristische methode om de twee modules harmonieus te integreren, wat resulteert in een efficiënter en robuuster probleemoplossingsproces. In 30 taken van de ScienceWorld-benchmark presteert SwiftSage aanzienlijk beter dan andere methoden zoals SayCan, ReAct en Reflexion, wat de effectiviteit ervan aantoont bij het oplossen van complexe real-world taken.

Gen-L-Video: Multi-Tekst naar Lange Videogeneratie via Temporele Co-Ontruiming
Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising

May 29

ByFu-Yun Wang, Wenshuo Chen, Guanglu Song, Han-Jia Ye, Yu Liu, Hongsheng Li

Door gebruik te maken van grootschalige beeld-tekst datasets en vooruitgang in diffusiemodellen, hebben tekstgestuurde generatieve modellen opmerkelijke vooruitgang geboekt op het gebied van beeldgeneratie en -bewerking. Deze studie onderzoekt de mogelijkheid om de tekstgestuurde mogelijkheid uit te breiden naar de generatie en bewerking van lange video's met meerdere tekstcondities. Huidige methodologieën voor videogeneratie en -bewerking, hoewel innovatief, zijn vaak beperkt tot extreem korte video's (meestal minder dan 24 frames) en zijn beperkt tot een enkele tekstconditie. Deze beperkingen beperken hun toepassingen aanzienlijk, aangezien real-world video's meestal bestaan uit meerdere segmenten, elk met verschillende semantische informatie. Om deze uitdaging aan te pakken, introduceren we een nieuw paradigma genaamd Gen-L-Video, dat in staat is om bestaande korte videodiffusiemodellen uit te breiden voor het genereren en bewerken van video's bestaande uit honderden frames met diverse semantische segmenten zonder aanvullende training, terwijl de inhoudsconsistentie behouden blijft. We hebben drie gangbare tekstgestuurde videogeneratie- en bewerkingsmethodologieën geïmplementeerd en uitgebreid om langere video's met een verscheidenheid aan semantische segmenten te accommoderen met ons voorgestelde paradigma. Onze experimentele resultaten tonen aan dat onze aanpak de generatieve en bewerkingsmogelijkheden van videodiffusiemodellen aanzienlijk verbreedt, wat nieuwe mogelijkheden biedt voor toekomstig onderzoek en toepassingen. De code is beschikbaar op https://github.com/G-U-N/Gen-L-Video.

Beheersbare Tekst-naar-Afbeelding Generatie met GPT-4
Controllable Text-to-Image Generation with GPT-4

May 29

ByTianjun Zhang, Yi Zhang, Vibhav Vineet, Neel Joshi, Xin Wang

Huidige tekst-naar-beeldgeneratiemodellen hebben vaak moeite met het opvolgen van tekstuele instructies, vooral wanneer ruimtelijk redeneren vereist is. Aan de andere kant hebben Large Language Models (LLMs), zoals GPT-4, opmerkelijke precisie getoond in het genereren van codefragmenten om tekstuele invoer grafisch weer te geven, bijvoorbeeld via TikZ. In dit werk introduceren we Control-GPT om diffusiegebaseerde tekst-naar-beeldpijplijnen te begeleiden met programmatische schetsen die door GPT-4 zijn gegenereerd, waardoor hun vermogen om instructies op te volgen wordt verbeterd. Control-GPT werkt door GPT-4 te bevragen om TikZ-code te schrijven, en de gegenereerde schetsen worden gebruikt als referenties naast de tekstinstructies voor diffusiemodellen (bijvoorbeeld ControlNet) om foto-realistische afbeeldingen te genereren. Een grote uitdaging bij het trainen van onze pijplijn is het ontbreken van een dataset die uitgelijnde tekst, afbeeldingen en schetsen bevat. We lossen dit probleem op door instantiemaskers in bestaande datasets om te zetten in polygonen om de schetsen die tijdens de testtijd worden gebruikt na te bootsen. Als resultaat verhoogt Control-GPT de beheersbaarheid van beeldgeneratie aanzienlijk. Het vestigt een nieuwe staat-van-de-kunst op het gebied van ruimtelijke ordening en objectpositionering en verbetert de controle van gebruikers over objectposities, groottes, enz., waardoor de nauwkeurigheid van eerdere modellen bijna verdubbelt. Ons werk, als een eerste poging, toont het potentieel van het inzetten van LLMs om de prestaties in computervisietaken te verbeteren.

Taalmodellen finetunen met alleen voorwaartse passes
Fine-Tuning Language Models with Just Forward Passes

May 27

BySadhika Malladi, Tianyu Gao, Eshaan Nichani, Alex Damian, Jason D. Lee, Danqi Chen, Sanjeev Arora

Het finetunen van taalmmodellen (LMs) heeft succes opgeleverd bij diverse downstream taken, maar naarmate LMs in omvang groeien, vereist backpropagation een onpraktisch grote hoeveelheid geheugen. Zeroth-order (ZO) methoden kunnen in principe gradiënten schatten met slechts twee forward passes, maar worden theoretisch gezien als catastrofaal traag voor het optimaliseren van grote modellen. In dit werk stellen we een geheugenefficiënte zeroth-order optimizer (MeZO) voor, waarbij de klassieke ZO-SGD-methode wordt aangepast om in-place te werken, waardoor LMs kunnen worden gefinetuned met dezelfde geheugenvoetafdruk als bij inferentie. Zo kan MeZO met een enkele A100 80GB GPU een model met 30 miljard parameters trainen, terwijl finetunen met backpropagation met hetzelfde budget slechts een 2,7B LM kan trainen. We voeren uitgebreide experimenten uit over verschillende modeltypen (gemaskeerde en autoregressieve LMs), modelschalen (tot 66B), en downstream taken (classificatie, meerkeuze, en generatie). Onze resultaten tonen aan dat (1) MeZO aanzienlijk beter presteert dan in-context learning en lineair sonderen; (2) MeZO vergelijkbare prestaties bereikt als finetunen met backpropagation over meerdere taken, met een geheugenreductie tot 12x; (3) MeZO compatibel is met zowel full-parameter als parameter-efficiënte tuningtechnieken zoals LoRA en prefix tuning; (4) MeZO niet-differentieerbare doelstellingen effectief kan optimaliseren (bijvoorbeeld het maximaliseren van nauwkeurigheid of F1). We ondersteunen onze empirische bevindingen met theoretische inzichten, waarbij we benadrukken hoe adequate pre-training en taakprompts MeZO in staat stellen om enorme modellen te finetunen, ondanks klassieke ZO-analyses die anders suggereren.

Photoswap: Gepersonaliseerde onderwerpverwisseling in afbeeldingen
Photoswap: Personalized Subject Swapping in Images

May 29

ByJing Gu, Yilin Wang, Nanxuan Zhao, Tsu-Jui Fu, Wei Xiong, Qing Liu, Zhifei Zhang, He Zhang, Jianming Zhang, HyunJoon Jung, Xin Eric Wang

In een tijdperk waarin afbeeldingen en visuele inhoud onze digitale wereld domineren, is de mogelijkheid om deze afbeeldingen te manipuleren en te personaliseren een noodzaak geworden. Stel je voor dat je moeiteloos een gestreepte kat die op een zonnige vensterbank ligt in een foto kunt vervangen door je eigen speelse puppy, terwijl de oorspronkelijke charme en compositie van de afbeelding behouden blijven. Wij presenteren Photoswap, een nieuwe aanpak die deze meeslepende beeldbewerkingservaring mogelijk maakt door gepersonaliseerde onderwerpvervanging in bestaande afbeeldingen. Photoswap leert eerst het visuele concept van het onderwerp uit referentieafbeeldingen en vervangt het vervolgens in de doelafbeelding met behulp van vooraf getrainde diffusiemodellen, zonder aanvullende training. We tonen aan dat een goed geconceptualiseerd visueel onderwerp naadloos kan worden overgebracht naar elke afbeelding door middel van geschikte zelf-attentie en kruis-attentie manipulatie, waarbij de houding van het vervangen onderwerp en de algehele samenhang van de afbeelding behouden blijven. Uitgebreide experimenten onderstrepen de effectiviteit en beheersbaarheid van Photoswap bij gepersonaliseerde onderwerpvervanging. Bovendien presteert Photoswap aanzienlijk beter dan baseline-methoden in menselijke beoordelingen op het gebied van onderwerpvervanging, achtergrondbehoud en algehele kwaliteit, wat zijn brede toepassingspotentieel onthult, van entertainment tot professionele beeldbewerking.

GlyphControl: Glyph Conditionele Controle voor Visuele Tekstgeneratie
GlyphControl: Glyph Conditional Control for Visual Text Generation

May 29

ByYukang Yang, Dongnan Gui, Yuhui Yuan, Haisong Ding, Han Hu, Kai Chen

Er is recentelijk een groeiende interesse ontstaan in de ontwikkeling van diffusiegebaseerde tekst-naar-beeld generatieve modellen die in staat zijn coherente en goed gevormde visuele tekst te genereren. In dit artikel stellen we een nieuwe en efficiënte aanpak voor, genaamd GlyphControl, om deze taak aan te pakken. In tegenstelling tot bestaande methoden die vertrouwen op karakterbewuste tekstencoders zoals ByT5 en het opnieuw trainen van tekst-naar-beeld modellen vereisen, maakt onze aanpak gebruik van aanvullende glyph-conditionele informatie om de prestaties van het kant-en-klare Stable-Diffusion model te verbeteren bij het genereren van nauwkeurige visuele tekst. Door glyph-instructies te integreren, kunnen gebruikers de inhoud, locatie en grootte van de gegenereerde tekst aanpassen volgens hun specifieke vereisten. Om verder onderzoek in visuele tekstgeneratie te faciliteren, hebben we een trainingsbenchmarkdataset genaamd LAION-Glyph samengesteld. We evalueren de effectiviteit van onze aanpak door OCR-gebaseerde metrieken en CLIP-scores van de gegenereerde visuele tekst te meten. Onze empirische evaluaties tonen aan dat GlyphControl de recente DeepFloyd IF-benadering overtreft wat betreft OCR-nauwkeurigheid en CLIP-scores, wat de doeltreffendheid van onze methode onderstreept.

Chain-of-Thought Hub: Een doorlopende inspanning om het redeneervermogen van grote taalmodellen te meten
Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

May 26

ByYao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot

Naarmate grote taalmodellen (LLMs) voortdurend worden ontwikkeld, wordt hun evaluatie steeds belangrijker maar ook uitdagender. Dit werk stelt de Chain-of-Thought Hub voor, een open-source evaluatiesuite voor de multi-staps redeneervaardigheden van grote taalmodellen. Wij zijn in deze setting geïnteresseerd om twee redenen: (1) uit het gedrag van de GPT- en PaLM-modelfamilies observeren we dat complex redeneren waarschijnlijk een belangrijke onderscheidende factor is tussen zwakkere en sterkere LLMs; (2) wij voorzien dat grote taalmodellen het volgende generatie computerplatform zullen worden en een ecosysteem van nieuwe op LLM gebaseerde applicaties zullen bevorderen, wat van nature vereist dat de foundation-modellen complexe taken kunnen uitvoeren die vaak de samenstelling van linguïstische en logische operaties omvatten. Onze aanpak bestaat uit het samenstellen van een suite van uitdagende redeneerbenchmarks om de voortgang van LLMs te volgen. Onze huidige resultaten tonen aan dat: (1) modelschaal duidelijk correleert met redeneervaardigheden; (2) vanaf mei 2023 zijn Claude-v1.3 en PaLM-2 de enige twee modellen die vergelijkbaar zijn met GPT-4, terwijl open-source modellen nog achterblijven; (3) LLaMA-65B presteert dicht bij code-davinci-002, wat aangeeft dat het met succesvolle verdere ontwikkeling, zoals reinforcement learning from human feedback (RLHF), groot potentieel heeft om dicht bij GPT-3.5-Turbo te komen. Onze resultaten suggereren ook dat de gemeenschap zich, om de open-source inspanningen bij te laten halen, meer kan richten op het bouwen van betere basismodellen en het verkennen van RLHF.

Ghost in the Minecraft: Algemeen Capabele Agents voor Open-Wereld Omgevingen via Grote Taalmodellen met Tekstgebaseerde Kennis en Geheugen
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory

May 25

ByXizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai

Het boeiende domein van Minecraft heeft de afgelopen jaren aanzienlijke onderzoeksinteresse gewekt, en dient als een rijk platform voor het ontwikkelen van intelligente agents die kunnen functioneren in open-wereldomgevingen. Het huidige onderzoekslandschap richt zich echter voornamelijk op specifieke doelstellingen, zoals de populaire "ObtainDiamond"-taak, en heeft nog geen effectieve generalisatie naar een breder scala aan taken laten zien. Bovendien staat het huidige toonaangevende slagingspercentage voor de "ObtainDiamond"-taak op ongeveer 20%, wat de beperkingen benadrukt van op Reinforcement Learning (RL) gebaseerde controllers die in bestaande methoden worden gebruikt. Om deze uitdagingen aan te pakken, introduceren we Ghost in the Minecraft (GITM), een nieuw framework dat Large Language Models (LLMs) integreert met tekstgebaseerde kennis en geheugen, met als doel Generally Capable Agents (GCA's) in Minecraft te creëren. Deze agents, uitgerust met de logica en gezond-verstand-capaciteiten van LLMs, kunnen behendig navigeren in complexe, spaarzaam beloonde omgevingen met tekstgebaseerde interacties. We ontwikkelen een set gestructureerde acties en benutten LLMs om actieplannen te genereren die de agents kunnen uitvoeren. De resulterende LLM-gebaseerde agent overtreft aanzienlijk eerdere methoden, met een opmerkelijke verbetering van +47,5% in slagingspercentage voor de "ObtainDiamond"-taak, wat superieure robuustheid aantoont in vergelijking met traditionele RL-gebaseerde controllers. Opmerkelijk is dat onze agent de eerste is die alle items in de Minecraft Overworld-technologieboom verkrijgt, wat zijn uitgebreide capaciteiten aantoont. GITM heeft geen GPU nodig voor training, maar een enkele CPU-node met 32 CPU-kernen is voldoende. Dit onderzoek toont het potentieel van LLMs aan in het ontwikkelen van capabele agents voor het uitvoeren van langetermijn, complexe taken en het aanpassen aan onzekerheden in open-wereldomgevingen. Zie de projectwebsite op https://github.com/OpenGVLab/GITM.

Hoogwaardige beeldcompressie met op scores gebaseerde generatieve modellen
High-Fidelity Image Compression with Score-based Generative Models

May 26

ByEmiel Hoogeboom, Eirikur Agustsson, Fabian Mentzer, Luca Versari, George Toderici, Lucas Theis

Ondanks het enorme succes van diffusiegeneratieve modellen in tekst-naar-beeldgeneratie, is het repliceren van dit succes in het domein van beeldcompressie moeilijk gebleken. In dit artikel tonen we aan dat diffusie de perceptuele kwaliteit bij een gegeven bitrate aanzienlijk kan verbeteren, waarbij state-of-the-art benaderingen zoals PO-ELIC en HiFiC worden overtroffen, zoals gemeten door de FID-score. Dit wordt bereikt met een eenvoudige maar theoretisch onderbouwde tweefasenbenadering die een auto-encoder combineert die gericht is op MSE, gevolgd door een verdere score-gebaseerde decoder. Zoals we zullen aantonen, zijn implementatiedetails echter van cruciaal belang en kunnen de optimale ontwerpbeslissingen sterk verschillen van typische tekst-naar-beeldmodellen.

DNA-GPT: Divergente N-Gram Analyse voor Trainingsvrije Detectie van GPT-gegenereerde Tekst
DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of GPT-Generated Text

May 27

ByXianjun Yang, Wei Cheng, Linda Petzold, William Yang Wang, Haifeng Chen

Grote taalmmodellen (LLMs) hebben de vlotheid en diversiteit van machinaal gegenereerde tekst aanzienlijk verbeterd. Deze vooruitgang brengt echter ook een aanzienlijke uitdaging met zich mee bij het detecteren van de oorsprong van een bepaalde tekst, en het huidige onderzoek naar detectiemethoden blijft achter bij de snelle evolutie van LLMs. Conventionele, op training gebaseerde methoden hebben beperkingen in flexibiliteit, vooral bij het aanpassen aan nieuwe domeinen, en ze missen vaak uitlegkracht. Om dit gat te dichten, stellen we een nieuwe trainingsvrije detectiestrategie voor, genaamd Divergent N-Gram Analyse (DNA-GPT). Gegeven een tekst, knippen we deze eerst in het midden door en gebruiken we alleen het voorafgaande deel als invoer voor de LLMs om de nieuwe resterende delen opnieuw te genereren. Door de verschillen tussen de originele en nieuwe resterende delen te analyseren via N-gram analyse in black-box of waarschijnlijkheidsdivergentie in white-box, kunnen we duidelijke verschillen illustreren tussen machinaal gegenereerde en door mensen geschreven tekst. We hebben uitgebreide experimenten uitgevoerd met de meest geavanceerde LLMs van OpenAI, waaronder text-davinci-003, GPT-3.5-turbo en GPT-4, evenals open-source modellen zoals GPT-NeoX-20B en LLaMa-13B. De resultaten tonen aan dat onze zero-shot aanpak state-of-the-art prestaties vertoont in het onderscheiden van menselijke en GPT-gegenereerde tekst op vier Engelse en één Duitse dataset, en daarbij OpenAI's eigen classifier overtreft, die getraind is op miljoenen teksten. Bovendien bieden onze methoden redelijke verklaringen en bewijs om onze claim te ondersteunen, wat een uniek kenmerk is van uitlegbare detectie. Onze methode is ook robuust onder de herziene tekstaanval en kan bovendien modelsourcing oplossen. Codes zijn beschikbaar op https://github.com/Xianjun-Yang/DNA-GPT.

Ghost in the Minecraft: Algemeen Capabele Agents voor Open-Wereld Omgevingen via Grote Taalmodellen met Tekstgebaseerde Kennis en Geheugen
Ghost in the Minecraft: Generally Capable Agents for Open-World Enviroments via Large Language Models with Text-based Knowledge and Memory

May 25

ByXizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, Jifeng Dai