HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

13 papers found

Meteor: Mamba-gebaseerde Traversering van Redeneringen voor Grote Taal- en Visiemodellen
Meteor: Mamba-based Traversal of Rationale for Large Language and Vision Models

May 24

ByByung-Kwan Lee, Chae Won Kim, Beomchan Park, Yong Man Ro

De snelle ontwikkeling van grote taal- en visuele modellen (LLVMs) is gedreven door vooruitgang in visuele instructieafstemming. Recentelijk hebben open-source LLVMs hoogwaardige datasets voor visuele instructieafstemming samengesteld en aanvullende visuele encoders of meerdere computervisiemodellen gebruikt om de prestatiekloof met krachtige closed-source LLVMs te verkleinen. Deze vooruitgang is te danken aan de veelzijdige informatie die nodig is voor diverse capaciteiten, waaronder fundamenteel beeldbegrip, kennis van de echte wereld over alledaagse en niet-objectgerelateerde concepten (bijv. grafieken, diagrammen, symbolen, tekens en wiskundige problemen), en stapsgewijze procedures voor het oplossen van complexe vragen. Gebaseerd op deze veelzijdige informatie presenteren we een nieuwe efficiënte LLVM, Mamba-based traversal of rationales (Meteor), die gebruikmaakt van veelzijdige redeneringen om het begrip en antwoordvermogen te verbeteren. Om uitgebreide redeneringen met veel informatie in te bedden, gebruiken we de Mamba-architectuur, die sequentiële gegevens kan verwerken met lineaire tijdcomplexiteit. We introduceren een nieuw concept van 'traversal of rationale' dat een efficiënte inbedding van redeneringen mogelijk maakt. Vervolgens wordt het multimodale taalmodel (MLM) getraind om antwoorden te genereren met behulp van redeneringen. Door deze stappen behaalt Meteor aanzienlijke verbeteringen in visuele taalprestaties op meerdere evaluatiebenchmarks die diverse capaciteiten vereisen, zonder het model te vergroten of aanvullende visuele encoders en computervisiemodellen te gebruiken.

ConvLLaVA: Hiërarchische Backbones als Visuele Encoder voor Grote Multimodale Modellen
ConvLLaVA: Hierarchical Backbones as Visual Encoder for Large Multimodal Models

May 24

ByChunjiang Ge, Sijie Cheng, Ziming Wang, Jiale Yuan, Yuan Gao, Jun Song, Shiji Song, Gao Huang, Bo Zheng

High-resolution Large Multimodal Models (LMMs) worden geconfronteerd met de uitdagingen van overmatige visuele tokens en kwadratische visuele complexiteit. Huidige high-resolution LMMs pakken de kwadratische complexiteit aan, maar genereren nog steeds te veel visuele tokens. De redundantie in visuele tokens is echter het kernprobleem, omdat dit leidt tot aanzienlijk meer rekenkracht. Om dit probleem te verlichten, stellen we ConvLLaVA voor, dat ConvNeXt, een hiërarchische backbone, gebruikt als de visuele encoder van LMM ter vervanging van Vision Transformer (ViT). ConvLLaVA comprimeert high-resolution afbeeldingen tot informatie-rijke visuele kenmerken, waardoor effectief wordt voorkomen dat er te veel visuele tokens worden gegenereerd. Om de mogelijkheden van ConvLLaVA te verbeteren, stellen we twee cruciale optimalisaties voor. Omdat de low-resolution vooraf getrainde ConvNeXt onderpresteert wanneer deze direct op hoge resolutie wordt toegepast, werken we deze bij om de kloof te overbruggen. Bovendien is de oorspronkelijke compressieverhouding van ConvNeXt ontoereikend voor veel hogere resolutie-inputs, dus trainen we een opeenvolgende fase om de visuele tokens verder te comprimeren, waardoor redundantie wordt verminderd. Deze optimalisaties stellen ConvLLaVA in staat om inputs van 1536x1536 resolutie te ondersteunen met slechts 576 visuele tokens, waardoor het afbeeldingen met willekeurige beeldverhoudingen kan verwerken. Experimentele resultaten tonen aan dat onze methode concurrerende prestaties bereikt met state-of-the-art modellen op mainstream benchmarks. De ConvLLaVA modelreeks is publiekelijk beschikbaar op https://github.com/alibaba/conv-llava.

Gegrokte Transformers zijn Impliciete Redeneerders: Een Mechanistische Reis naar de Grens van Generalisatie
Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

May 23

ByBoshi Wang, Xiang Yue, Yu Su, Huan Sun

We onderzoeken of transformers kunnen leren om impliciet te redeneren over parametrische kennis, een vaardigheid waar zelfs de meest capabele taalmodelen moeite mee hebben. Door ons te richten op twee representatieve redeneertypes, compositie en vergelijking, vinden we consistent dat transformers impliciet redeneren kunnen leren, maar alleen door middel van grokking, d.w.z. uitgebreide training ver voorbij overfitting. De niveaus van generalisatie variëren ook tussen redeneertypes: wanneer ze worden geconfronteerd met voorbeelden buiten de distributie, slagen transformers er niet in om systematisch te generaliseren voor compositie, maar wel voor vergelijking. We duiken in de interne werking van het model gedurende de training, waarbij we analytische experimenten uitvoeren die het volgende onthullen: 1) het mechanisme achter grokking, zoals de vorming van het generaliserende circuit en de relatie met de relatieve efficiëntie van generaliserende en memoriserende circuits, en 2) de verbinding tussen systematiciteit en de configuratie van het generaliserende circuit. Onze bevindingen begeleiden de opzet van data en training om impliciet redeneren beter te induceren en suggereren mogelijke verbeteringen aan de transformer-architectuur, zoals het stimuleren van kennisuitwisseling tussen lagen. Bovendien tonen we aan dat voor een uitdagende redeneertaak met een grote zoekruimte, GPT-4-Turbo en Gemini-1.5-Pro, gebaseerd op niet-parametrisch geheugen, slecht presteren ongeacht de promptstijlen of retrieval-augmentatie, terwijl een volledig gegrokked transformer bijna perfecte nauwkeurigheid kan bereiken, wat de kracht van parametrisch geheugen voor complex redeneren aantoont.

Aya 23: Open Gewicht Releases om Meertalige Vooruitgang te Bevorderen
Aya 23: Open Weight Releases to Further Multilingual Progress

May 23

ByViraat Aryabumi, John Dang, Dwarak Talupuru, Saurabh Dash, David Cairuz, Hangyu Lin, Bharat Venkitesh, Madeline Smith, Kelly Marchisio, Sebastian Ruder, Acyr Locatelli, Julia Kreutzer, Nick Frosst, Phil Blunsom, Marzieh Fadaee, Ahmet Üstün, Sara Hooker

Dit technisch rapport introduceert Aya 23, een familie van meertalige taalmodelen. Aya 23 bouwt voort op de recente release van het Aya-model (\"Ust\"un et al., 2024), met een focus op het combineren van een hoogpresterend voorgetraind model met de onlangs vrijgegeven Aya-collectie (Singh et al., 2024). Het resultaat is een krachtig meertalig groot taalmodel dat 23 talen ondersteunt, waarmee de state-of-the-art mogelijkheden op het gebied van taalmodeling worden uitgebreid tot ongeveer de helft van de wereldbevolking. Het Aya-model omvatte 101 talen, terwijl Aya 23 een experiment is in diepte versus breedte, waarbij wordt onderzocht wat het effect is van het toewijzen van meer capaciteit aan minder talen die tijdens het vooraf trainen worden meegenomen. Aya 23 presteert beter dan zowel eerdere massaal meertalige modellen zoals Aya 101 voor de talen die het ondersteunt, als veelgebruikte modellen zoals Gemma, Mistral en Mixtral op een breed scala aan discriminerende en generatieve taken. We maken de open gewichten beschikbaar voor zowel de 8B- als de 35B-modellen, als onderdeel van onze voortdurende inzet om de toegang tot meertalige vooruitgang te vergroten.

Je Transformers Stapelen: Een Diepere Blik op Modelgroei voor Efficiënte LLM Pre-training
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24

ByWenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu

LLM's zijn computationeel kostbaar om voor te trainen vanwege hun grote schaal. Modelgroei komt naar voren als een veelbelovende aanpak door kleinere modellen te gebruiken om de training van grotere modellen te versnellen. Echter, de haalbaarheid van deze modelgroei-methoden voor efficiënte LLM-voorpretraining blijft onderbelicht. Dit werk identificeert drie kritieke textit{O}bstakels: (O1) gebrek aan uitgebreide evaluatie, (O2) ongeteste haalbaarheid voor schaalbaarheid, en (O3) gebrek aan empirische richtlijnen. Om O1 aan te pakken, vatten we bestaande benaderingen samen in vier atomaire groei-operators en evalueren we deze systematisch in een gestandaardiseerde LLM-voorpretrainingsomgeving. Onze bevindingen tonen aan dat een dieptewaartse stapeloperator, genaamd G_{stack}, een opmerkelijke versnelling in de training laat zien, wat leidt tot een verminderd verlies en verbeterde algehele prestaties op acht standaard NLP-benchmarks in vergelijking met sterke baselines. Gemotiveerd door deze veelbelovende resultaten, voeren we uitgebreide experimenten uit om dieper in te gaan op G_{stack} om O2 en O3 aan te pakken. Voor O2 (ongeteste schaalbaarheid) toont onze studie aan dat G_{stack} schaalbaar is en consistent goed presteert, met experimenten tot 7B LLM's na groei en voorpretraining van LLM's met 750B tokens. Bijvoorbeeld, in vergelijking met een conventioneel getraind 7B-model met 300B tokens, convergeert ons G_{stack}-model naar hetzelfde verlies met 194B tokens, wat resulteert in een versnelling van 54,6\%. We pakken O3 (gebrek aan empirische richtlijnen) verder aan door richtlijnen te formaliseren om het groeitijdstip en de groeifactor voor G_{stack} te bepalen, waardoor het praktisch toepasbaar wordt in algemene LLM-voorpretraining. We bieden ook diepgaande discussies en uitgebreide ablatiestudies van G_{stack}. Onze code en voorgetrainde modellen zijn beschikbaar op https://llm-stacking.github.io/{https://llm-stacking.github.io/}.

AutoCoder: Enhancing Code Large Language Model with AIEV-Instruct

May 23

ByBin Lei, Yuchen Li, Qiuwu Chen

We introduce AutoCoder, the first Large Language Model to surpass GPT-4 Turbo (April 2024) and GPT-4o in pass@1 on the Human Eval benchmark test (90.9% vs. 90.2%). In addition, AutoCoder offers a more versatile code interpreter compared to GPT-4 Turbo and GPT-4o. It's code interpreter can install external packages instead of limiting to built-in packages. AutoCoder's training data is a multi-turn dialogue dataset created by a system combining agent interaction and external code execution verification, a method we term \textsc{AIEV-Instruct} (Instruction Tuning with Agent-Interaction and Execution-Verified). Compared to previous large-scale code dataset generation methods, AIEV-Instruct reduces dependence on proprietary large models and provides execution-validated code dataset. The code and the demo video is available in https://github.com/bin123apple/AutoCoder.

De Weg Minder Gepland
The Road Less Scheduled

May 24

ByAaron Defazio, Xingyu, Yang, Harsh Mehta, Konstantin Mishchenko, Ahmed Khaled, Ashok Cutkosky

Bestaande leersnelheidsschema's die geen specificatie vereisen van de optimalisatiestopstap T, worden sterk overtroffen door leersnelheidsschema's die afhankelijk zijn van T. Wij stellen een aanpak voor die de noodzaak van deze stopstap vermijdt door het gebruik van schema's volledig achterwege te laten, terwijl het state-of-the-art prestaties vertoont in vergelijking met schema's voor een breed scala aan problemen, van convexe problemen tot grootschalige deep learning-problemen. Onze Schedule-Free aanpak introduceert geen extra hyperparameters bovenop standaard optimalisatie-algoritmen met momentum. Onze methode is een direct gevolg van een nieuwe theorie die wij ontwikkelen en die schema's en iteratiegemiddelden verenigt. Een open source implementatie van onze methode is beschikbaar (https://github.com/facebookresearch/schedule_free).

CraftsMan: Hoogwaardige mesh-generatie met 3D-native generatie en interactieve geometrie-verfijning
CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner

May 23

ByWeiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long

We presenteren een nieuw generatief 3D-modelleersysteem, genaamd CraftsMan, dat hoogwaardige 3D-geometrieën kan genereren met zeer uiteenlopende vormen, regelmatige maashtopologieën en gedetailleerde oppervlakken, en dat bovendien mogelijkheden biedt om de geometrie op een interactieve manier te verfijnen. Ondanks de aanzienlijke vooruitgang in 3D-generatie, worstelen bestaande methoden nog steeds met langdurige optimalisatieprocessen, onregelmatige maashtopologieën, ruwe oppervlakken en moeilijkheden bij het aanpassen van gebruikersbewerkingen, wat hun brede adoptie en implementatie in 3D-modelleersoftware belemmert. Ons werk is geïnspireerd door de ambachtsman, die meestal eerst de algehele vorm van het werk schetst en vervolgens de oppervlaktedetails uitwerkt. Specifiek maken we gebruik van een 3D-native diffusiemodel, dat opereert op een latente ruimte die is geleerd uit latente set-gebaseerde 3D-representaties, om grove geometrieën met regelmatige maashtopologie in seconden te genereren. Dit proces neemt als invoer een tekstprompt of een referentiebeeld en maakt gebruik van een krachtig multi-view (MV) diffusiemodel om meerdere aanzichten van de grove geometrie te genereren, die vervolgens worden ingevoerd in ons MV-geconditioneerde 3D-diffusiemodel voor het genereren van de 3D-geometrie, wat de robuustheid en generaliseerbaarheid aanzienlijk verbetert. Daarna wordt een op normaal gebaseerde geometrie-verfijner gebruikt om de oppervlaktedetails aanzienlijk te verbeteren. Deze verfijning kan automatisch worden uitgevoerd, of interactief met door de gebruiker aangeleverde bewerkingen. Uitgebreide experimenten tonen aan dat onze methode een hoge effectiviteit bereikt in het produceren van hoogwaardige 3D-assets in vergelijking met bestaande methoden. HomePage: https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsMan

iVideoGPT: Interactieve VideoGPT's zijn schaalbare wereldmodellen
iVideoGPT: Interactive VideoGPTs are Scalable World Models

May 24

ByJialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long

Wereldmodellen stellen modelgebaseerde agents in staat om interactief te verkennen, redeneren en plannen binnen verbeeldde omgevingen voor besluitvorming in de echte wereld. De hoge vraag naar interactiviteit brengt echter uitdagingen met zich mee bij het benutten van recente vooruitgang in videogeneratieve modellen voor de ontwikkeling van wereldmodellen op grote schaal. Dit werk introduceert Interactive VideoGPT (iVideoGPT), een schaalbaar autoregressief transformer-raamwerk dat multimodale signalen—visuele waarnemingen, acties en beloningen—integreert in een reeks tokens, waardoor een interactieve ervaring van agents mogelijk wordt gemaakt via next-token voorspelling. iVideoGPT beschikt over een innovatieve compressieve tokenisatietechniek die hoogdimensionale visuele waarnemingen efficiënt discretiseert. Door gebruik te maken van de schaalbare architectuur kunnen we iVideoGPT vooraf trainen op miljoenen menselijke en robotische manipulatietrajecten, waardoor een veelzijdige basis wordt gecreëerd die aanpasbaar is om te dienen als interactieve wereldmodellen voor een breed scala aan downstream taken. Deze omvatten actie-geconditioneerde videovoorspelling, visuele planning en modelgebaseerde reinforcement learning, waarbij iVideoGPT competitieve prestaties behaalt in vergelijking met state-of-the-art methoden. Ons werk bevordert de ontwikkeling van interactieve algemene wereldmodellen en overbrugt de kloof tussen generatieve videomodellen en praktische modelgebaseerde reinforcement learning-toepassingen.

Automatische Datacuratie voor Zelfsupervisie Leren: Een Clustering-Gebaseerde Aanpak
Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach

May 24

ByHuy V. Vo, Vasil Khalidov, Timothée Darcet, Théo Moutakanni, Nikita Smetanin, Marc Szafraniec, Hugo Touvron, Camille Couprie, Maxime Oquab, Armand Joulin, Hervé Jégou, Patrick Labatut, Piotr Bojanowski

Zelfgesuperviseerde kenmerken vormen de hoeksteen van moderne machine learning-systemen. Ze worden doorgaans voorgetraind op gegevensverzamelingen waarvan de constructie en curatie meestal uitgebreide menselijke inspanning vereisen. Dit handmatige proces kent enkele beperkingen die vergelijkbaar zijn met die in gesuperviseerd leren, zoals de kostbare en tijdrovende crowdsourced selectie van gegevens, wat het opschalen van de datasetgrootte belemmert. In dit werk beschouwen we het probleem van de automatische curatie van hoogwaardige datasets voor zelfgesuperviseerde voorpretraining. We stellen dat dergelijke datasets groot, divers en gebalanceerd moeten zijn, en stellen een op clustering gebaseerde aanpak voor om datasets te bouwen die aan al deze criteria voldoen. Onze methode omvat opeenvolgende en hiërarchische toepassingen van k-means op een grote en diverse gegevensrepository om clusters te verkrijgen die uniform verdeeld zijn over gegevensconcepten, gevolgd door een hiërarchische, gebalanceerde steekproef uit deze clusters. Uitgebreide experimenten op drie verschillende gegevensdomeinen, waaronder webbased afbeeldingen, satellietafbeeldingen en tekst, tonen aan dat kenmerken die zijn getraind op onze automatisch gecureerde datasets beter presteren dan die getraind op ongecureerde gegevens, terwijl ze vergelijkbaar of beter zijn dan die getraind op handmatig gecureerde gegevens.

Denoising LM: De Grenzen Verleggen van Foutcorrectiemodellen voor Spraakherkenning
Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition

May 24

ByZijin Gu, Tatiana Likhomanenko, He Bai, Erik McDermott, Ronan Collobert, Navdeep Jaitly

Taalmmodellen (LMs) worden al lang gebruikt om de resultaten van automatische spraakherkenning (ASR) systemen te verbeteren, maar ze zijn zich niet bewust van de fouten die ASR-systemen maken. Foutcorrectiemodellen zijn ontworpen om ASR-fouten te corrigeren, maar ze lieten weinig verbetering zien ten opzichte van traditionele LMs, voornamelijk door het gebrek aan begeleide trainingsdata. In dit artikel presenteren we Denoising LM (DLM), een opgeschaald foutcorrectiemodel getraind met enorme hoeveelheden synthetische data, dat eerdere pogingen aanzienlijk overtreft en tegelijkertijd nieuwe state-of-the-art ASR-prestaties bereikt. We gebruiken text-to-speech (TTS) systemen om audio te synthetiseren, die vervolgens in een ASR-systeem wordt gevoerd om ruwe hypotheses te produceren, die dan worden gekoppeld aan de originele teksten om de DLM te trainen. DLM heeft verschillende belangrijke ingrediënten: (i) opgeschaald model en data; (ii) gebruik van multi-speaker TTS-systemen; (iii) combinatie van meerdere ruis-augmentatiestrategieën; en (iv) nieuwe decodeertechnieken. Met een Transformer-CTC ASR bereikt DLM een woordfoutpercentage (WER) van 1,5% op test-clean en 3,3% WER op test-other op Librispeech, wat voor zover wij weten de beste gerapporteerde resultaten zijn in de setting waar geen externe audiodata worden gebruikt en zelfs overeenkomen met zelf-begeleide methoden die externe audiodata gebruiken. Bovendien is een enkele DLM toepasbaar op verschillende ASRs en overtreft het de prestaties van conventionele LM-gebaseerde beam-search herscoren aanzienlijk. Deze resultaten geven aan dat goed onderzochte foutcorrectiemodellen het potentieel hebben om conventionele LMs te vervangen, wat de sleutel vormt naar een nieuw niveau van nauwkeurigheid in ASR-systemen.

Data Mixing Efficiënt Gemaakt: Een Bivariate Schaalwet voor Pretraining van Taalmodellen
Data Mixing Made Efficient: A Bivariate Scaling Law for Language Model Pretraining

May 23

ByCe Ge, Zhijian Ma, Daoyuan Chen, Yaliang Li, Bolin Ding

Grote taalmodellen vertonen uitzonderlijke generalisatiecapaciteiten, voornamelijk toegeschreven aan het gebruik van divers samengestelde gegevensbronnen. Echter, conventionele praktijken bij het integreren van deze diverse gegevens zijn sterk afhankelijk van heuristische schema's, waarbij theoretische onderbouwing ontbreekt. Dit onderzoek gaat deze beperkingen te lijf door strategieën te onderzoeken die gebaseerd zijn op kosteneffectieve proxies voor gegevensmengsels, met als doel het stroomlijnen van gegevenscuratie om de trainings efficiëntie te verbeteren. Specifiek stellen we een uniforme schaalwet voor, genaamd BiMix, die nauwkeurig de bivariate schaalgedragingen van zowel gegevenshoeveelheid als mengverhoudingen modelleert. We voeren systematische experimenten uit en leveren empirisch bewijs voor de voorspellende kracht en fundamentele principes van BiMix. Opmerkelijk is dat onze bevindingen aantonen dat entropie-gestuurde, trainingsvrije gegevensmengsels vergelijkbare of zelfs betere prestaties kunnen bereiken dan meer resource-intensieve methoden. We hopen dat onze kwantitatieve inzichten verder verstandig onderzoek en ontwikkeling kunnen stimuleren op het gebied van kosteneffectieve taalmodellering.

HDR-GS: Efficiënte Synthese van Nieuwe Beelden met Hoog Dynamisch Bereik met 1000x Snelheid via Gaussische Splatting
HDR-GS: Efficient High Dynamic Range Novel View Synthesis at 1000x Speed via Gaussian Splatting

May 24

ByYuanhao Cai, Zihao Xiao, Yixun Liang, Yulun Zhang, Xiaokang Yang, Yaoyao Liu, Alan Yuille

High dynamic range (HDR) novel view synthesis (NVS) heeft als doel fotorealistische beelden te creëren vanuit nieuwe gezichtspunten met behulp van HDR-beeldtechnieken. De gerenderde HDR-beelden vangen een breder bereik van helderheidsniveaus op en bevatten meer details van de scène dan normale low dynamic range (LDR)-beelden. Bestaande HDR NVS-methoden zijn voornamelijk gebaseerd op NeRF. Deze hebben last van lange trainingstijden en trage inferentiesnelheden. In dit artikel stellen we een nieuw framework voor, High Dynamic Range Gaussian Splatting (HDR-GS), dat efficiënt nieuwe HDR-beelden kan renderen en LDR-beelden kan reconstrueren met een door de gebruiker ingevoerde belichtingstijd. Specifiek ontwerpen we een Dual Dynamic Range (DDR) Gaussian point cloud-model dat sferische harmonischen gebruikt om HDR-kleuren te benaderen en een MLP-gebaseerde tone-mapper inzet om LDR-kleuren te renderen. De HDR- en LDR-kleuren worden vervolgens ingevoerd in twee Parallelle Differentieerbare Rasterisatie (PDR)-processen om HDR- en LDR-beelden te reconstrueren. Om de datafundering te leggen voor het onderzoek naar 3D Gaussian splatting-gebaseerde methoden in HDR NVS, kalibreren we de cameraparameters opnieuw en berekenen we de initiële posities voor Gaussian point clouds. Experimenten tonen aan dat onze HDR-GS de state-of-the-art NeRF-gebaseerde methode overtreft met 3,84 en 1,91 dB op LDR- en HDR NVS, terwijl het een 1000x snellere inferentiesnelheid biedt en slechts 6,3% van de trainingstijd vereist.

Je Transformers Stapelen: Een Diepere Blik op Modelgroei voor Efficiënte LLM Pre-training
Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

May 24

ByWenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu