Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het trainen van Large Language Models (LLMs) brengt aanzienlijke geheugenuitdagingen met zich mee, voornamelijk door de toenemende omvang van gewichten en optimizer-statussen. Gangbare benaderingen om geheugen te reduceren, zoals low-rank adaptation (LoRA), voegen een trainbare low-rank matrix toe aan de bevroren voorgetrainde gewichten in elke laag, waardoor het aantal trainbare parameters en optimizer-statussen wordt verminderd. Dergelijke benaderingen presteren echter doorgaans minder goed dan training met full-rank gewichten, zowel in de voorafgaande training als in de fine-tuning-fase, omdat ze de parameterzoekruimte beperken tot een low-rank deelruimte en de trainingsdynamiek veranderen, en bovendien mogelijk een full-rank warm start vereisen. In dit werk stellen we Gradient Low-Rank Projection (GaLore) voor, een trainingsstrategie die volledige parameterleren mogelijk maakt, maar toch geheugenefficiënter is dan gangbare low-rank adaptatiemethoden zoals LoRA. Onze aanpak reduceert het geheugengebruik van optimizer-statussen met tot wel 65,5% terwijl zowel efficiëntie als prestaties behouden blijven voor voorafgaande training op LLaMA 1B en 7B architecturen met de C4 dataset met tot 19,7B tokens, en voor fine-tuning van RoBERTa op GLUE-taken. Onze 8-bit GaLore reduceert het geheugen van de optimizer verder met tot 82,5% en het totale trainingsgeheugen met 63,3% in vergelijking met een BF16-basislijn. Opmerkelijk is dat we voor het eerst de haalbaarheid aantonen van het vooraf trainen van een 7B-model op consumenten-GPU's met 24GB geheugen (bijv. NVIDIA RTX 4090) zonder modelparallelisme, checkpointing of offloadingstrategieën.
In dit artikel introduceren we SaulLM-7B, een groot taalmodel (LLM) dat is afgestemd op het juridische domein. Met 7 miljard parameters is SaulLM-7B het eerste LLM dat expliciet is ontworpen voor het begrijpen en genereren van juridische teksten. Gebaseerd op de Mistral 7B-architectuur, is SaulLM-7B getraind op een Engels juridisch corpus van meer dan 30 miljard tokens. SaulLM-7B toont state-of-the-art vaardigheid in het begrijpen en verwerken van juridische documenten. Daarnaast presenteren we een nieuwe methode voor instructief fine-tuning die gebruikmaakt van juridische datasets om de prestaties van SaulLM-7B in juridische taken verder te verbeteren. SaulLM-7B is vrijgegeven onder de CC-BY-SA-4.0-licentie.
Naarmate Large Language Models (LLMs) blijven verbeteren in prestaties, is hun omvang aanzienlijk toegenomen, waarbij huidige LLMs miljarden of zelfs biljoenen parameters bevatten. In deze studie hebben we echter ontdekt dat veel lagen in LLMs een hoge gelijkenis vertonen, en dat sommige lagen een verwaarloosbare rol spelen in de functionaliteit van het netwerk. Op basis van deze observatie definiëren we een metriek genaamd Block Influence (BI) om het belang van elke laag in LLMs te beoordelen. Vervolgens stellen we een eenvoudige pruningmethode voor: het verwijderen van lagen, waarbij we direct overbodige lagen in LLMs verwijderen op basis van hun BI-scores. Experimenten tonen aan dat onze methode, die we ShortGPT noemen, aanzienlijk beter presteert dan eerdere state-of-the-art (SOTA) methoden voor modelpruning. Bovendien is ShortGPT orthogonaal aan methoden zoals kwantisatie, waardoor verdere reductie van parameters en berekeningen mogelijk is. Het vermogen om betere resultaten te behalen door eenvoudige laagverwijdering, in plaats van complexere pruningtechnieken, suggereert een hoge mate van redundantie in de modelarchitectuur.
In dit artikel introduceren we PixArt-\Sigma, een Diffusion Transformer-model (DiT) dat in staat is om direct afbeeldingen te genereren met een resolutie van 4K. PixArt-\Sigma vertegenwoordigt een significante vooruitgang ten opzichte van zijn voorganger, PixArt-\alpha, en biedt afbeeldingen van aanzienlijk hogere kwaliteit en een betere afstemming op tekstprompts. Een belangrijk kenmerk van PixArt-\Sigma is de efficiëntie van de training. Door gebruik te maken van de fundamentele voorafgaande training van PixArt-\alpha, evolueert het van een 'zwakkere' baseline naar een 'sterker' model door het incorporeren van hogere kwaliteit data, een proces dat we "weak-to-strong training" noemen. De verbeteringen in PixArt-\Sigma zijn tweeledig: (1) Trainingsdata van hoge kwaliteit: PixArt-\Sigma maakt gebruik van superieure afbeeldingsdata, gekoppeld aan nauwkeurigere en gedetailleerdere beeldbeschrijvingen. (2) Efficiënte tokencompressie: we introduceren een nieuwe aandachtmodule binnen het DiT-framework die zowel sleutels als waarden comprimeert, wat de efficiëntie aanzienlijk verbetert en de generatie van ultra-hoge-resolutie afbeeldingen vergemakkelijkt. Dankzij deze verbeteringen bereikt PixArt-\Sigma superieure beeldkwaliteit en het vermogen om gebruikersprompts nauwkeurig te volgen, met een aanzienlijk kleiner model (0,6B parameters) in vergelijking met bestaande tekst-naar-beeld diffusiemodellen, zoals SDXL (2,6B parameters) en SD Cascade (5,1B parameters). Bovendien ondersteunt de mogelijkheid van PixArt-\Sigma om 4K-afbeeldingen te genereren de creatie van hoogwaardige posters en achtergronden, wat de productie van hoogwaardig visueel materiaal in industrieën zoals film en gaming efficiënt versterkt.
We stellen een methode voor om meerdere grote taalmodellen (LLM's) te leren samenwerken door hun generaties op tokenniveau te verweven. We modelleren de beslissing welk LLM de volgende token genereert als een latente variabele. Door de marginale waarschijnlijkheid van een trainingsset onder ons latente variabelenmodel te optimaliseren, leert het basis-LLM automatisch wanneer het zelf moet genereren en wanneer het een van de "assistent"-taalmodellen moet aanroepen om te genereren, allemaal zonder directe supervisie. Token-level samenwerking tijdens het decoderen maakt een fusie mogelijk van de expertise van elk model, afgestemd op de specifieke taak. Onze collaboratieve decodering is vooral nuttig in cross-domein settings waar een generalistisch basis-LLM leert om domeinexpertmodellen aan te roepen. Op instructievolgende, domeinspecifieke QA- en redeneertaken laten we zien dat de prestaties van het gezamenlijke systeem die van de individuele modellen overtreffen. Door kwalitatieve analyse van de geleerde latente beslissingen tonen we aan dat modellen die met onze methode zijn getraind, verschillende interessante samenwerkingspatronen vertonen, zoals het invullen van sjablonen. Onze code is beschikbaar op https://github.com/clinicalml/co-llm.
We stellen Strongly Supervised pre-training met Screenshots (S4) voor - een nieuw pre-trainingsparadigma voor Vision-Language Modellen met behulp van gegevens uit grootschalige web-screenshotrendering. Het gebruik van web-screenshots ontsluit een schat aan visuele en tekstuele aanwijzingen die niet aanwezig zijn bij het gebruik van beeld-tekstparen. In S4 benutten we de inherente boomstructuurhiërarchie van HTML-elementen en de ruimtelijke lokalisatie om zorgvuldig 10 pre-trainings taken te ontwerpen met grootschalige geannoteerde gegevens. Deze taken lijken op downstream taken in verschillende domeinen en de annotaties zijn goedkoop te verkrijgen. We tonen aan dat, in vergelijking met huidige pre-trainingsdoelstellingen voor screenshots, onze innovatieve pre-trainingsmethode de prestaties van beeld-naar-tekstmodellen aanzienlijk verbetert in negen uiteenlopende en populaire downstream taken - tot 76,1% verbetering bij Tabeldetectie, en minimaal 1% bij Widget Captioning.
Waardefuncties vormen een centraal onderdeel van diepe reinforcement learning (RL). Deze functies, geparametriseerd door neurale netwerken, worden getraind met een regressiedoelstelling op basis van de gemiddelde kwadratische fout om bootstrapped doelwaarden te benaderen. Het schalen van op waarde gebaseerde RL-methoden die regressie gebruiken naar grote netwerken, zoals hoogcapaciteit Transformers, is echter een uitdaging gebleken. Deze moeilijkheid staat in schril contrast met supervised learning: door gebruik te maken van een cross-entropy classificatieverlies hebben supervised methoden betrouwbaar geschaald naar massieve netwerken. Gezien dit verschil onderzoeken we in dit artikel of de schaalbaarheid van diepe RL ook kan worden verbeterd door simpelweg classificatie in plaats van regressie te gebruiken voor het trainen van waardefuncties. We tonen aan dat waardefuncties die getraind zijn met categorische cross-entropy de prestaties en schaalbaarheid aanzienlijk verbeteren in verschillende domeinen. Deze omvatten: single-task RL op Atari 2600-spellen met SoftMoEs, multi-task RL op Atari met grootschalige ResNets, robotmanipulatie met Q-transformers, het spelen van schaken zonder zoeken, en een taalagent-taak voor Wordle met hoogcapaciteit Transformers, waarbij state-of-the-art resultaten worden behaald in deze domeinen. Door zorgvuldige analyse laten we zien dat de voordelen van categorische cross-entropy voornamelijk voortkomen uit het vermogen om inherente problemen van op waarde gebaseerde RL te mitigeren, zoals ruisachtige doelen en non-stationariteit. Over het algemeen stellen we dat een eenvoudige verschuiving naar het trainen van waardefuncties met categorische cross-entropy aanzienlijke verbeteringen kan opleveren in de schaalbaarheid van diepe RL tegen weinig tot geen kosten.
Grootschalige sequentiemodellering heeft een snelle vooruitgang teweeggebracht die zich nu uitstrekt tot biologie en genomica. Het modelleren van genomische sequenties brengt echter uitdagingen met zich mee, zoals de noodzaak om langetermijninteracties tussen tokens te modelleren, de effecten van upstream- en downstream-regio's van het genoom, en de reverse complementariteit (RC) van DNA. Hier stellen we een architectuur voor die geïnspireerd is door deze uitdagingen en voortbouwt op het long-range Mamba-blok, en deze uitbreidt naar een BiMamba-component die bidirectionaliteit ondersteunt, en naar een MambaDNA-blok dat bovendien RC-equivariantie ondersteunt. We gebruiken MambaDNA als basis voor Caduceus, de eerste familie van RC-equivariante bidirectionele long-range DNA-taalmodelen, en we introduceren pre-training en fine-tuning strategieën die leiden tot Caduceus DNA foundation-modellen. Caduceus overtreft eerdere long-range modellen op downstream benchmarks; op een uitdagende long-range variant effect voorspellingstaak presteert Caduceus beter dan 10x grotere modellen die geen gebruik maken van bidirectionaliteit of equivariantie.
Imitation learning biedt een efficiënte manier om robots behendige vaardigheden aan te leren; het robuust en generaliseerbaar leren van complexe vaardigheden vereist echter meestal grote hoeveelheden menselijke demonstraties. Om dit uitdagende probleem aan te pakken, presenteren we 3D Diffusion Policy (DP3), een nieuwe benadering voor visueel imitation learning die de kracht van 3D-visuele representaties integreert in diffusiebeleidsmodellen, een klasse van conditionele actiegeneratieve modellen. De kern van het ontwerp van DP3 is het gebruik van een compacte 3D-visuele representatie, geëxtraheerd uit sparse point clouds met een efficiënte point encoder. In onze experimenten met 72 simulatietaken behandelt DP3 de meeste taken succesvol met slechts 10 demonstraties en overtreft het de baseline-methoden met een relatieve verbetering van 55,3%. In 4 taken met echte robots toont DP3 precieze controle met een hoog slagingspercentage van 85%, gegeven slechts 40 demonstraties per taak, en vertoont het uitstekende generalisatievermogen op diverse aspecten, waaronder ruimte, gezichtspunt, uiterlijk en instantie. Interessant is dat in experimenten met echte robots DP3 zelden veiligheidseisen schendt, in tegenstelling tot baseline-methoden die dit vaak doen en menselijk ingrijpen noodzakelijk maken. Onze uitgebreide evaluatie benadrukt het cruciale belang van 3D-representaties in robotleren in de echte wereld. Video's, code en gegevens zijn beschikbaar op https://3d-diffusion-policy.github.io.
Veel online contentportals stellen gebruikers in staat om vragen te stellen om hun begrip te vergroten (bijvoorbeeld van colleges). Hoewel informatieherwinningssystemen (IR-systemen) antwoorden kunnen bieden op dergelijke gebruikersvragen, helpen ze contentmakers -- zoals docenten die hun inhoud willen verbeteren -- niet direct om de segmenten te identificeren die _aanleiding gaven_ tot die vragen. Wij introduceren de taak van backtracing, waarbij systemen het tekstsegment ophalen dat naar alle waarschijnlijkheid aanleiding gaf tot een gebruikersvraag. We formaliseren drie real-world domeinen waarin backtracing belangrijk is voor het verbeteren van contentlevering en communicatie: het begrijpen van de oorzaak van (a) verwarring bij studenten in het Collegedomein, (b) nieuwsgierigheid bij lezers in het Nieuwsartikeldomein, en (c) emotie bij gebruikers in het Gespreksdomein. We evalueren de zero-shot prestaties van populaire informatieherwinningsmethoden en taalmodelleringsmethoden, waaronder bi-encoder, herrangschikkings- en waarschijnlijkheidsgebaseerde methoden en ChatGPT. Hoewel traditionele IR-systemen semantisch relevante informatie ophalen (bijvoorbeeld details over "projectiematrices" voor een vraag als "leidt meerdere keren projecteren nog steeds tot hetzelfde punt?"), missen ze vaak de causaal relevante context (bijvoorbeeld de docent die zegt "twee keer projecteren geeft me hetzelfde antwoord als één projectie"). Onze resultaten laten zien dat er ruimte is voor verbetering bij backtracing en dat het nieuwe herwinningsbenaderingen vereist. We hopen dat onze benchmark toekomstige herwinningssystemen voor backtracing verbetert, wat systemen voortbrengt die contentgeneratie verfijnen en linguïstische triggers identificeren die gebruikersvragen beïnvloeden. Onze code en data zijn openbaar beschikbaar: https://github.com/rosewang2008/backtracing.