HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

16 papers found

DocLLM: Een layout-bewust generatief taalmodel voor multimodaal documentbegrip
DocLLM: A layout-aware generative language model for multimodal document understanding

Dec 31

ByDongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu

188

Bedrijfsdocumenten zoals formulieren, facturen, bonnen, rapporten, contracten en andere soortgelijke dossiers bevatten vaak rijke semantiek op het snijvlak van tekstuele en ruimtelijke modaliteiten. De visuele aanwijzingen die worden geboden door hun complexe lay-outs spelen een cruciale rol bij het effectief begrijpen van deze documenten. In dit artikel presenteren we DocLLM, een lichtgewicht uitbreiding van traditionele grote taalmodelen (LLMs) voor redeneren over visuele documenten, waarbij zowel tekstuele semantiek als ruimtelijke lay-out in aanmerking wordt genomen. Ons model verschilt van bestaande multimodale LLMs door dure beeldencoders te vermijden en zich uitsluitend te richten op begrenzingskaderinformatie om de ruimtelijke lay-outstructuur te integreren. Specifiek wordt de kruisalignering tussen tekst en ruimtelijke modaliteiten vastgelegd door het aandachtmechanisme in klassieke transformers te ontbinden in een set ontvlochten matrices. Bovendien ontwikkelen we een pre-trainingsdoelstelling die leert om tekstsegmenten in te vullen. Deze aanpak stelt ons in staat om onregelmatige lay-outs en heterogene inhoud die vaak voorkomen in visuele documenten aan te pakken. Het vooraf getrainde model wordt verfijnd met behulp van een grootschalige instructiedataset, die vier kern taken van documentintelligentie omvat. We tonen aan dat onze oplossing SotA LLMs overtreft op 14 van de 16 datasets voor alle taken, en goed generaliseert naar 4 van de 5 voorheen onbekende datasets.

Het verbeteren van tekstembeddingen met grote taalmodelen
Improving Text Embeddings with Large Language Models

Dec 31

ByLiang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei

In dit artikel introduceren we een nieuwe en eenvoudige methode voor het verkrijgen van hoogwaardige tekstembeddingen met alleen synthetische data en minder dan 1.000 trainingsstappen. In tegenstelling tot bestaande methoden die vaak afhankelijk zijn van meerfasige voorafgaande training met miljarden zwak begeleide tekstparen, gevolgd door fine-tuning met enkele gelabelde datasets, vereist onze methode niet het opbouwen van complexe trainingspijplijnen of het vertrouwen op handmatig verzamelde datasets die vaak beperkt zijn door taakdiversiteit en taaldekking. We maken gebruik van propriëtaire LLM's om diverse synthetische data te genereren voor honderdduizenden tekstembeddingstaken in bijna 100 talen. Vervolgens fine-tunen we open-source decoder-only LLM's op de synthetische data met behulp van standaard contrastief verlies. Experimenten tonen aan dat onze methode sterke prestaties behaalt op zeer competitieve tekstembeddingbenchmarks zonder gebruik te maken van gelabelde data. Bovendien, wanneer gefinetuned met een mix van synthetische en gelabelde data, stelt ons model nieuwe state-of-the-art resultaten op de BEIR- en MTEB-benchmarks.

Zelfspel-finetuning zet zwakke taalmodelen om in sterke taalmodelen.
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

Jan 2

ByZixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu

Het benutten van de kracht van door mensen geannoteerde gegevens via Supervised Fine-Tuning (SFT) is cruciaal voor de vooruitgang van Large Language Models (LLM's). In dit artikel onderzoeken we de mogelijkheid om een sterke LLM te ontwikkelen vanuit een zwakke, zonder de noodzaak van het verkrijgen van aanvullende door mensen geannoteerde gegevens. We stellen een nieuwe fine-tuning methode voor genaamd Self-Play fIne-tuNing (SPIN), die start vanuit een supervised fine-tuned model. De kern van SPIN ligt in een zelfspelmechanisme, waarbij de LLM zijn capaciteiten verfijnt door tegen instanties van zichzelf te spelen. Meer specifiek genereert de LLM zijn eigen trainingsgegevens vanuit zijn vorige iteraties, en verfijnt zijn beleid door deze zelf gegenereerde reacties te onderscheiden van die verkregen uit door mensen geannoteerde gegevens. Onze methode verheft de LLM progressief van een beginnend model naar een formidabel model, waarbij het volledige potentieel van door mensen geannoteerde demonstratiegegevens voor SFT wordt ontsloten. Theoretisch bewijzen we dat het globale optimum van de trainingsdoelfunctie van onze methode alleen wordt bereikt wanneer het LLM-beleid overeenkomt met de doelgegevensverdeling. Empirisch evalueren we onze methode op verschillende benchmarkdatasets, waaronder de HuggingFace Open LLM Leaderboard, MT-Bench en datasets van Big-Bench. Onze resultaten tonen aan dat SPIN de prestaties van de LLM aanzienlijk kan verbeteren over een verscheidenheid aan benchmarks en zelfs modellen kan overtreffen die zijn getraind via directe voorkeursoptimalisatie (DPO) aangevuld met extra GPT-4 voorkeursgegevens. Dit werpt licht op de belofte van zelfspel, waardoor het bereiken van menselijk prestatieniveau in LLM's mogelijk wordt zonder de noodzaak van experttegenstanders.

LLaMA Voorbij Engels: Een Empirische Studie naar Taalvaardigheidsoverdracht
LLaMA Beyond English: An Empirical Study on Language Capability Transfer

Jan 2

ByJun Zhao, Zhihao Zhang, Qi Zhang, Tao Gui, Xuanjing Huang

De laatste tijd zijn er aanzienlijke vooruitgangen geboekt in grote taalmodelen (LLMs), zoals geïllustreerd door ChatGPT, die opmerkelijke vaardigheden vertonen in een reeks complexe taken. Echter, veel gangbare LLMs (bijv. LLaMA) zijn voorgetraind op Engelstalige corpora, wat hun prestaties in andere niet-Engelse talen beperkt. In dit artikel richten we ons op hoe we de capaciteiten van taalgeneratie en het volgen van instructies effectief kunnen overbrengen naar een niet-Engelse taal. Om deze vraag te beantwoorden, voeren we een uitgebreid empirisch onderzoek uit op basis van LLaMA, waarbij we meer dan 1440 GPU-uren accumuleren. We analyseren de impact van belangrijke factoren zoals vocabulaire-uitbreiding, verdere voorpretraining en instructieafstemming op de overdracht. Om het kennisniveau van het model nauwkeurig te beoordelen, gebruiken we vier veelgebruikte gestandaardiseerde testbenchmarks: C-Eval, MMLU, AGI-Eval en GAOKAO-Bench. Daarnaast wordt een uitgebreide evaluatie van de kwaliteit van de reacties van het model uitgevoerd, waarbij aspecten zoals nauwkeurigheid, vloeiendheid, informatiefheid, logische samenhang en onschadelijkheid worden overwogen, gebaseerd op LLM-Eval, een benchmark bestaande uit instructietaken uit 17 diverse categorieën. Onze evaluatieresultaten tonen aan dat vergelijkbare prestaties met state-of-the-art overdrachtsmodellen kunnen worden bereikt met minder dan 1% van de voorpretrainingsgegevens, zowel wat betreft kennisafstemming als reactiekwaliteit. Bovendien vertonen de experimentele resultaten over de dertien talen met beperkte bronnen vergelijkbare trends. We verwachten dat de conclusies die door de experimenten worden onthuld, de gemeenschap zullen helpen bij het ontwikkelen van niet-Engelse LLMs.

Voorbij Chinchilla-Optimaal: Rekening houden met inferentie in schaalwetten voor taalmodellen
Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

Dec 31

ByNikhil Sardana, Jonathan Frankle

Schaalwetten voor grote taalmodellen (LLM's) zijn empirische formules die veranderingen in modelkwaliteit schatten als gevolg van een toenemend aantal parameters en trainingsdata. Deze formules, inclusief de populaire DeepMind Chinchilla-schaalwetten, houden echter geen rekening met de kosten van inferentie. Wij passen de Chinchilla-schaalwetten aan om het optimale aantal LLM-parameters en de optimale omvang van de pre-trainingsdata te berekenen voor het trainen en implementeren van een model met een gegeven kwaliteit en inferentievraag. We voeren onze analyse uit in termen van een rekenbudget en reële kosten, en concluderen dat LLM-onderzoekers die een redelijk grote inferentievraag verwachten (~1 miljard verzoeken), modellen kleiner en langer moeten trainen dan Chinchilla-optimaal.

LLM Misschien LongLM: Zelfuitbreiding van het LLM-contextvenster zonder afstemming
LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

Jan 2

ByHongye Jin, Xiaotian Han, Jingfeng Yang, Zhimeng Jiang, Zirui Liu, Chia-Yuan Chang, Huiyuan Chen, Xia Hu

Dit werk benut de inherente mogelijkheid van LLM's om lange contexten te verwerken zonder fine-tuning. De beperkte lengte van de trainingssequentie tijdens het trainen kan de toepassing van Large Language Models (LLM's) op lange invoersequenties voor inferentie beperken. In dit werk stellen we dat bestaande LLM's zelf inherente mogelijkheden hebben voor het verwerken van lange contexten. Op basis van dit argument suggereren we om het contextvenster van LLM's zelf uit te breiden om het inherente vermogen volledig te benutten. We stellen Self-Extend voor om het potentieel van LLM's voor het verwerken van lange contexten te stimuleren. Het basisidee is om tweelaagse aandachtinformatie te construeren: het groepsniveau en het buurniveau. De twee niveaus worden berekend door de self-attention van het oorspronkelijke model, wat betekent dat de voorgestelde methode geen training vereist. Met slechts vier regels codeaanpassing kan de voorgestelde methode moeiteloos het contextvenster van bestaande LLM's uitbreiden zonder enige fine-tuning. We voeren uitgebreide experimenten uit en de resultaten tonen aan dat de voorgestelde methode effectief de lengte van het contextvenster van bestaande LLM's kan uitbreiden.

Astraios: Parameter-efficiënte instructie-afstemming voor grote taalmodellen in code
Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

Jan 1

ByTerry Yue Zhuo, Armel Zebaze, Nitchakarn Suppattarachai, Leandro von Werra, Harm de Vries, Qian Liu, Niklas Muennighoff

De hoge kosten van volledige parameterfine-tuning (FFT) van Large Language Models (LLM's) hebben geleid tot een reeks parameter-efficiënte fine-tuningmethoden (PEFT). Het blijft echter onduidelijk welke methoden de beste balans tussen kosten en prestaties bieden bij verschillende modelschalen. Wij introduceren Astraios, een suite van 28 instructie-getunede OctoCoder-modellen die gebruikmaken van 7 tuningsmethoden en 4 modelschalen tot 16 miljard parameters. Door onderzoek over 5 taken en 8 verschillende datasets, die zowel codebegrip als codegeneratietaken omvatten, ontdekken we dat FFT over het algemeen leidt tot de beste downstreamprestaties op alle schalen, en dat PEFT-methoden aanzienlijk verschillen in hun effectiviteit afhankelijk van de modelschaal. LoRA biedt meestal de meest gunstige balans tussen kosten en prestaties. Verder onderzoek naar de effecten van deze methoden op zowel modelrobustheid als codebeveiliging onthult dat grotere modellen de neiging hebben om verminderde robuustheid en minder beveiliging te vertonen. Tot slot verkennen we de relaties tussen bijgewerkte parameters, kruis-entropieverlies en taakprestaties. We ontdekken dat de tuningeffectiviteit die wordt waargenomen bij kleine modellen goed generaliseert naar grotere modellen, en dat het validatieverlies bij instructietuning een betrouwbare indicator kan zijn van de algehele downstreamprestaties.

Een uitgebreide studie naar kennisbewerking voor grootschalige taalmodelle
A Comprehensive Study of Knowledge Editing for Large Language Models

Jan 2

ByNingyu Zhang, Yunzhi Yao, Bozhong Tian, Peng Wang, Shumin Deng, Mengru Wang, Zekun Xi, Shengyu Mao, Jintian Zhang, Yuansheng Ni, Siyuan Cheng, Ziwen Xu, Xin Xu, Jia-Chen Gu, Yong Jiang, Pengjun Xie, Fei Huang, Lei Liang, Zhiqiang Zhang, Xiaowei Zhu, Jun Zhou, Huajun Chen

Large Language Models (LLMs) hebben buitengewone capaciteiten getoond in het begrijpen en genereren van tekst die nauw aansluit bij menselijke communicatie. Een belangrijke beperking ligt echter in de aanzienlijke rekenkundige eisen tijdens de training, die voortkomen uit hun uitgebreide parameterisering. Deze uitdaging wordt verder versterkt door de dynamische aard van de wereld, waardoor frequente updates van LLMs nodig zijn om verouderde informatie te corrigeren of nieuwe kennis te integreren, zodat hun relevantie behouden blijft. Merk op dat veel toepassingen voortdurende aanpassingen van het model na de training vereisen om tekortkomingen of ongewenst gedrag aan te pakken. Er is een groeiende interesse in efficiënte, lichtgewicht methoden voor het aanpassen van modellen op de vlucht. In dit opzicht is er de laatste jaren een bloei in de technieken van kennisbewerking voor LLMs, die tot doel hebben om het gedrag van LLMs efficiënt aan te passen binnen specifieke domeinen, terwijl de algehele prestaties over verschillende inputs behouden blijven. In dit artikel definiëren we eerst het probleem van kennisbewerking en bieden we vervolgens een uitgebreid overzicht van state-of-the-art benaderingen. Geïnspireerd door onderwijs- en cognitieve onderzoeks-theorieën, stellen we een uniform categorisatiecriterium voor dat kennisbewerkingsmethoden indeelt in drie groepen: terugvallen op externe kennis, kennis integreren in het model en intrinsieke kennis bewerken. Verder introduceren we een nieuwe benchmark, KnowEdit, voor een uitgebreide empirische evaluatie van representatieve kennisbewerkingsbenaderingen. Daarnaast bieden we een diepgaande analyse van kennislocatie, die een dieper inzicht kan geven in de kennisstructuren die inherent zijn aan LLMs. Tot slot bespreken we verschillende potentiële toepassingen van kennisbewerking en schetsen we de brede en impactvolle implicaties ervan.

VideoDrafter: Content-consistente multi-scène videogeneratie met LLM
VideoDrafter: Content-Consistent Multi-Scene Video Generation with LLM

Jan 2

ByFuchen Long, Zhaofan Qiu, Ting Yao, Tao Mei

De recente innovaties en doorbraken in diffusiemodellen hebben de mogelijkheden voor het genereren van hoogwaardige video's aanzienlijk uitgebreid voor de gegeven prompts. De meeste bestaande werken richten zich op het scenario met één scène, waarbij slechts één video-evenement plaatsvindt in een enkele achtergrond. Het uitbreiden naar het genereren van multi-scène video's is echter niet triviaal en vereist een goede beheersing van de logica ertussen, terwijl de consistente visuele verschijning van de belangrijkste inhoud over de video-scènes behouden blijft. In dit artikel stellen we een nieuw framework voor, genaamd VideoDrafter, voor het genereren van inhoudsconsistente multi-scène video's. Technisch gezien maakt VideoDrafter gebruik van Large Language Models (LLM) om de invoerprompt om te zetten in een uitgebreid multi-scène script dat profiteert van de logische kennis die door LLM is geleerd. Het script voor elke scène omvat een prompt die het evenement beschrijft, de entiteiten op de voorgrond/achtergrond, evenals camerabeweging. VideoDrafter identificeert de gemeenschappelijke entiteiten in het script en vraagt LLM om elke entiteit gedetailleerd te beschrijven. De resulterende entiteitsbeschrijving wordt vervolgens ingevoerd in een tekst-naar-beeldmodel om een referentiebeeld voor elke entiteit te genereren. Ten slotte produceert VideoDrafter een multi-scène video door elke scène-video te genereren via een diffusieproces dat rekening houdt met de referentiebeelden, de beschrijvende prompt van het evenement en de camerabeweging. Het diffusiemodel neemt de referentiebeelden op als voorwaarde en uitlijning om de inhoudsconsistentie van multi-scène video's te versterken. Uitgebreide experimenten tonen aan dat VideoDrafter de state-of-the-art video-generatiemodellen overtreft op het gebied van visuele kwaliteit, inhoudsconsistentie en gebruikersvoorkeur.

COSMO: COntrastief Gestroomlijnd Multimodaal Model met Geïnterleefde Voorafgaande Training
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

Jan 1

ByAlex Jinpeng Wang, Linjie Li, Kevin Qinghong Lin, Jianfeng Wang, Kevin Lin, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

In de evolutie van Vision-Language Pre-training is de verschuiving van korte-tekstbegrip naar het omvatten van uitgebreide tekstuele contexten cruciaal. Recente autoregressieve vision-language modellen zoals Flamingo en PALME, die gebruikmaken van de lange-contextcapaciteit van Large Language Models, hebben uitblinkt in few-shot tekstgeneratietaken, maar kampen met uitdagingen in alignmenttaken. Om deze kloof te overbruggen, introduceren we het contrastieve verlies in tekstgeneratiemodellen en presenteren het COntrastive-Streamlined MultimOdal framework (\ModelName), waarbij het taalmodel strategisch wordt opgedeeld in toegewijde unimodale tekstverwerking en bekwame multimodale gegevensverwerkingscomponenten. \ModelName, ons geïntegreerde framework, combineert unimodale en multimodale elementen, wat de modelprestaties verbetert voor taken die tekstuele en visuele gegevens betreffen, terwijl het aantal leerbare parameters aanzienlijk wordt verminderd. Deze modellen vereisen echter uitgebreide lange-tekst datasets, maar de beschikbaarheid van hoogwaardige lange-tekst videodatasets blijft beperkt. Om deze kloof te overbruggen, introduceert dit werk \VideoDatasetName, een baanbrekende interleaved video-tekst dataset met uitgebreide bijschriften, wat een belangrijke stap vooruit betekent. We demonstreren de impact ervan door te illustreren hoe het de modelprestaties verbetert in beeld-tekst taken. Met 34% leerbare parameters en gebruikmakend van 72% van de beschikbare gegevens, toont ons model een aanzienlijke superioriteit ten opzichte van OpenFlamingo~openflamingo. Bijvoorbeeld, in de 4-shot Flickr-captioningtaak verbetert de prestatie aanzienlijk van 57,2% naar 65%. De bijdragen van \ModelName en \VideoDatasetName worden onderstreept door opmerkelijke prestatieverbeteringen over 14 diverse downstream datasets, die zowel beeld-tekst als video-tekst taken omvatten.

TrailBlazer: Trajectoriecontrole voor op diffusie gebaseerde videogeneratie
TrailBlazer: Trajectory Control for Diffusion-Based Video Generation

Dec 31

ByWan-Duo Kurt Ma, J. P. Lewis, W. Bastiaan Kleijn

Binnen recente benaderingen voor tekst-naar-video (T2V) generatie is het bereiken van controleerbaarheid in de gesynthetiseerde video vaak een uitdaging. Typisch wordt dit probleem aangepakt door laagniveau begeleiding per frame te bieden in de vorm van randkaarten, dieptekaarten of een bestaande video die moet worden aangepast. Het verkrijgen van dergelijke begeleiding kan echter arbeidsintensief zijn. Dit artikel richt zich op het verbeteren van controleerbaarheid in videosynthese door eenvoudige begrenzingsvakken te gebruiken om het onderwerp op verschillende manieren te sturen, zonder de noodzaak van neurale netwerktraining, finetuning, optimalisatie tijdens inferentie of het gebruik van bestaande video's. Ons algoritme, TrailBlazer, is gebouwd op een vooraf getraind (T2V) model en eenvoudig te implementeren. Het onderwerp wordt gestuurd door een begrenzingsvak via de voorgestelde ruimtelijke en temporele aandachtkaartbewerking. Bovendien introduceren we het concept van keyframing, waardoor de trajectorie van het onderwerp en het algemene uiterlijk kunnen worden gestuurd door zowel een bewegend begrenzingsvak als bijbehorende prompts, zonder dat een gedetailleerd masker nodig is. De methode is efficiënt, met verwaarloosbare extra berekening ten opzichte van het onderliggende vooraf getrainde model. Ondanks de eenvoud van de begrenzingsvakbegeleiding, is de resulterende beweging verrassend natuurlijk, met opkomende effecten zoals perspectief en beweging richting de virtuele camera naarmate de vakgrootte toeneemt.

Het Versterken van Grote Taalmodellen voor Spraaksynthese: Een Empirische Studie
Boosting Large Language Model for Speech Synthesis: An Empirical Study

Dec 30

ByHongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei

Grote taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking en breiden tegelijkertijd de taalvaardigheid uit naar andere modaliteiten, zoals spraak en visie. Desalniettemin richt het merendeel van het eerdere werk zich op het aansturen van LLMs met perceptievaardigheden zoals auditief begrip, en de effectieve aanpak voor het versterken van LLMs met spraaksynthesecapaciteiten blijft onduidelijk. In dit artikel voeren we een uitgebreid empirisch onderzoek uit naar het verbeteren van LLMs met de mogelijkheid om spraak te genereren, door het combineren van vooraf getrainde LLM LLaMA/OPT en het tekst-naar-spraaksynthesemodel VALL-E. We vergelijken drie integratiemethoden tussen LLMs en spraaksynthesemodellen, waaronder direct gefinetunde LLMs, gestapelde lagen van LLMs en VALL-E, en gekoppelde LLMs en VALL-E waarbij LLMs worden gebruikt als een krachtige tekstencoder. Experimentele resultaten tonen aan dat het gebruik van de LoRA-methode om LLMs direct te finetunen voor het verbeteren van de spraaksynthesecapaciteit niet goed werkt, en dat gestapelde LLMs en VALL-E de kwaliteit van gegenereerde spraak kunnen verbeteren, zowel in sprekersgelijkenis als in woordfoutenpercentage (WER). Van deze drie methoden presteren de gekoppelde methoden die LLMs als tekstencoder gebruiken het beste, waardoor het de originele spraaksynthesemodellen overtreft met een consistent betere sprekersgelijkenis en een significante (10,9%) vermindering van het WER.

Unicron: Economisch schaalbaar zelfherstellend LLM-trainingsproces
Unicron: Economizing Self-Healing LLM Training at Scale

Dec 30

ByTao He, Xue Li, Zhibin Wang, Kun Qian, Jingbo Xu, Wenyuan Yu, Jingren Zhou

Het trainen van grootschalige taalmodelen wordt steeds belangrijker in diverse domeinen, maar wordt belemmerd door frequente storingen, wat leidt tot aanzienlijke tijd- en economische kosten. Huidige methoden voor storingsherstel in cloudomgevingen schieten tekort in het aanpakken van de diverse en complexe scenario's die zich voordoen, waarbij ze zich beperken tot het minimaliseren van uitvaltijd voor individuele taken zonder rekening te houden met de algehele kostenimpact op een cluster. Wij introduceren Unicron, een workloadmanager die is ontworpen voor efficiënt zelfherstellend vermogen bij het trainen van grootschalige taalmodelen. Unicron optimaliseert het trainingsproces door storingsgerelateerde kosten te minimaliseren over meerdere gelijktijdige taken binnen een cluster. De belangrijkste kenmerken omvatten in-band foutdetectie voor realtime foutidentificatie zonder extra overhead, een dynamisch kostenbewust plan-generatiemechanisme voor optimale herconfiguratie, en een efficiënte overgangsstrategie om uitvaltijd tijdens staatsovergangen te verminderen. Geïmplementeerd op een gedistribueerd cluster van 128 GPU's, toont Unicron een verbetering van tot 1,9x in trainings efficiëntie vergeleken met state-of-the-art methoden, waardoor de kosten voor storingsherstel aanzienlijk worden verlaagd en de betrouwbaarheid van het trainen van grootschalige taalmodelen wordt verbeterd.

GeoGalactica: Een Wetenschappelijk Taalmodel op Grote Schaal in de Geowetenschappen
GeoGalactica: A Scientific Large Language Model in Geoscience

Dec 31

ByZhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Tao Shi, Tianyu Huang, Yiwei Xu, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Chao Ma, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou

Grote taalmodellen (LLMs) hebben enorm succes geboekt vanwege hun algemene kennis en het vermogen om een breed scala aan taken in natuurlijke taalverwerking (NLP) op te lossen. Vanwege hun indrukwekkende capaciteiten hebben LLMs licht geworpen op potentiële interdisciplinaire toepassingen om wetenschappelijke ontdekkingen in een specifiek domein te bevorderen door middel van kunstmatige intelligentie (AI for science, AI4S). Tegelijkertijd is het gebruik van NLP-technieken in geowetenschappelijk onderzoek en praktijk breed en complex, variërend van kennis extractie en documentclassificatie tot vraagbeantwoording en kennisontdekking. In dit werk zetten we de eerste stap om LLM voor wetenschap te benutten, via een vrij eenvoudige aanpak. We proberen een LLM te specialiseren in de geowetenschappen, door het model verder voor te trainen met een grote hoeveelheid teksten in de geowetenschappen, evenals door het resulterende model te verfijnen met behulp van ons zelf samengestelde instructieafstemmingsdataset (supervised fine-tuning, SFT). Deze inspanningen resulteren in een model genaamd GeoGalactica, bestaande uit 30 miljard parameters. Voor zover wij weten, is dit het grootste taalmodel voor het domein van de geowetenschappen. Meer specifiek is GeoGalactica het resultaat van verdere voor training van Galactica. We trainen GeoGalactica over een geowetenschappelijk tekstcorpus met 65 miljard tokens, samengesteld uit uitgebreide databronnen in het big science-project Deep-time Digital Earth (DDE), wat het grootste geowetenschappelijk-specifieke tekstcorpus vormt. Vervolgens verfijnen we het model met 1 miljoen paren van instructieafstemmingsdata bestaande uit vragen die professionele geowetenschappelijke kennis vereisen om te beantwoorden. In dit technische rapport zullen we alle aspecten van GeoGalactica gedetailleerd illustreren, inclusief dataverzameling, datareiniging, selectie van het basismodel, voor training, SFT en evaluatie. We maken onze data-curatietools en de checkpoints van GeoGalactica tijdens de eerste 3/4 van de voor training openbaar.

Q-Refine: Een Perceptuele Kwaliteitsverfijner voor AI-gegenereerde Afbeeldingen
Q-Refine: A Perceptual Quality Refiner for AI-Generated Image

Jan 2

ByChunyi Li, Haoning Wu, Zicheng Zhang, Hongkun Hao, Kaiwei Zhang, Lei Bai, Xiaohong Liu, Xiongkuo Min, Weisi Lin, Guangtao Zhai

Met de snelle evolutie van het Text-to-Image (T2I)-model in recente jaren is hun onbevredigende generatieresultaat een uitdaging geworden. Het uniform verfijnen van AI-gegenereerde afbeeldingen (AIGIs) van verschillende kwaliteiten beperkt echter niet alleen de optimalisatiemogelijkheden voor AIGIs van lage kwaliteit, maar brengt ook negatieve optimalisatie met zich mee voor AIGIs van hoge kwaliteit. Om dit probleem aan te pakken, is een kwaliteitsbelonende verfijner genaamd Q-Refine voorgesteld. Gebaseerd op de voorkeur van het menselijk visuele systeem (HVS), gebruikt Q-Refine voor het eerst de Image Quality Assessment (IQA)-metriek om het verfijningsproces te sturen en past het afbeeldingen van verschillende kwaliteiten aan via drie adaptieve pijplijnen. Experimenten tonen aan dat Q-Refine voor mainstream T2I-modellen effectieve optimalisatie kan uitvoeren op AIGIs van verschillende kwaliteiten. Het kan een algemene verfijner zijn om AIGIs te optimaliseren op zowel het niveau van trouwheid als esthetische kwaliteit, waardoor de toepassing van T2I-generatiemodellen wordt uitgebreid.

SteinDreamer: Variantiereductie voor tekst-naar-3D score-distillatie via Stein-identiteit
SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity

Dec 31

ByPeihao Wang, Zhiwen Fan, Dejia Xu, Dilin Wang, Sreyas Mohan, Forrest Iandola, Rakesh Ranjan, Yilei Li, Qiang Liu, Zhangyang Wang, Vikas Chandra

Score-distillatie is naar voren gekomen als een van de meest voorkomende benaderingen voor tekst-naar-3D-asset-synthese. In essentie werkt score-distillatie door 3D-parameters bij te werken door scores die gemiddeld zijn over verschillende aanzichten te liften en terug te propageren. In dit artikel laten we zien dat de schattingsgradiënt in score-distillatie inherent is aan een hoge variantie. Door de lens van variantiereductie kan de effectiviteit van SDS en VSD worden geïnterpreteerd als toepassingen van verschillende controle-variabelen op de Monte Carlo-schatter van de gedistilleerde score. Gemotiveerd door deze herziening en gebaseerd op Stein's identiteit, stellen we een meer algemene oplossing voor om de variantie voor score-distillatie te verminderen, genaamd Stein Score Distillatie (SSD). SSD integreert controle-variabelen die zijn geconstrueerd met Stein's identiteit, waardoor willekeurige basislijnfuncties mogelijk zijn. Dit stelt ons in staat om flexibele begeleidingsprioriteiten en netwerkarchitecturen op te nemen om expliciet te optimaliseren voor variantiereductie. In onze experimenten wordt de algehele pipeline, genaamd SteinDreamer, geïmplementeerd door de controle-variabele te instantiëren met een monocular diepteschatter. De resultaten suggereren dat SSD effectief de distillatievariantie kan verminderen en consistent de visuele kwaliteit verbetert voor zowel object- als scèneniveau-generatie. Bovendien tonen we aan dat SteinDreamer snellere convergentie bereikt dan bestaande methoden dankzij stabielere gradiëntupdates.

GeoGalactica: Een Wetenschappelijk Taalmodel op Grote Schaal in de Geowetenschappen
GeoGalactica: A Scientific Large Language Model in Geoscience

Dec 31