AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

SFT Onthoudt, RL Generaliseert: Een Vergelijkende Studie van Foundation Model Post-training
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Jan 28

ByTianzhe Chu, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, Yi Ma

124

Supervised fine-tuning (SFT) en reinforcement learning (RL) zijn veelgebruikte post-trainingstechnieken voor foundation-modellen. De rol die ze spelen bij het verbeteren van de generalisatiecapaciteiten van modellen blijft echter onduidelijk. Dit artikel onderzoekt het verschil tussen SFT en RL op het gebied van generalisatie en memorisatie, met de focus op tekstuele regelvarianten en visuele varianten. We introduceren GeneralPoints, een kaartspel voor rekenkundige redenering, en maken gebruik van V-IRL, een navigatieomgeving in de echte wereld, om te beoordelen hoe modellen die zijn getraind met SFT en RL generaliseren naar ongeziene varianten in zowel tekstuele als visuele domeinen. We tonen aan dat RL, vooral wanneer getraind met een op uitkomsten gebaseerde beloning, generaliseert over zowel op regels gebaseerde tekstuele als visuele varianten. SFT daarentegen heeft de neiging om trainingsgegevens te memoriseren en worstelt met generalisatie naar out-of-distribution scenario's. Verder onderzoek onthult dat RL de onderliggende visuele herkenningscapaciteiten van het model verbetert, wat bijdraagt aan de verbeterde generalisatie in het visuele domein. Ondanks de superieure generalisatie van RL tonen we aan dat SFT essentieel blijft voor effectieve RL-training; SFT stabiliseert het uitvoerformaat van het model, waardoor daaropvolgende RL zijn prestatiewinst kan behalen. Deze bevindingen tonen de mogelijkheden van RL aan om generaliseerbare kennis te verwerven in complexe, multimodale taken.

Optimaliseren van de training van grote taalmodellen met behulp van FP4 kwantisering.
Optimizing Large Language Model Training Using FP4 Quantization

Jan 28

ByRuizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zhengjun Zha, Peng Cheng

De groeiende rekenkundige eisen van het trainen van grote taalmodellen (LLM's) vereisen efficiëntere methoden. Gekwantiseerd trainen biedt een veelbelovende oplossing door het mogelijk maken van rekenkundige bewerkingen met weinig bits om deze kosten te verlagen. Hoewel FP8 precisie haalbaarheid heeft aangetoond, blijft het benutten van FP4 een uitdaging vanwege aanzienlijke kwantisatiefouten en beperkte representatiecapaciteit. Dit werk introduceert het eerste FP4-trainingskader voor LLM's, waarbij deze uitdagingen worden aangepakt met twee belangrijke innovaties: een differentieerbare kwantisatie schatter voor nauwkeurige gewichtsupdates en een strategie voor het vastklemmen en compenseren van uitschieters om activatievervorming te voorkomen. Om stabiliteit te waarborgen, integreert het kader een trainingsregeling met gemengde precisie en kwantisatie per vector. Experimentele resultaten tonen aan dat ons FP4-kader nauwkeurigheid behaalt die vergelijkbaar is met BF16 en FP8, met minimale degradatie, en effectief schaalt naar 13B-parameter LLM's getraind op tot 100B tokens. Met de opkomst van volgende generatie hardware die FP4 ondersteunt, legt ons kader een basis voor efficiënte training met ultralage precisie.

Over-Ge-Tokeniseerde Transformer: Woordenschat is doorgaans het schalen waard.
Over-Tokenized Transformer: Vocabulary is Generally Worth Scaling

Jan 28

ByHongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Xun Zhou

Tokenisatie is een fundamenteel onderdeel van grote taalmodellen (LLM's), maar de invloed ervan op model schaalbaarheid en prestaties is nog niet volledig onderzocht. In dit artikel introduceren we Over-Getokeniseerde Transformers, een nieuw raamwerk dat de invoer- en uitvoervocabulaires ontkoppelt om de prestaties van taalmodellering te verbeteren. Specifiek schalen we de invoervocabulaires op om gebruik te maken van multi-grame tokens. Via uitgebreide experimenten ontdekken we een log-lineaire relatie tussen de grootte van het invoervocabulaire en trainingsverlies, waarbij wordt aangetoond dat grotere invoervocabulaires consequent de modelprestaties verbeteren, ongeacht de modelgrootte. Door gebruik te maken van een groot invoervocabulaire bereiken we prestaties die vergelijkbaar zijn met verdubbelde baselines zonder extra kosten. Onze bevindingen benadrukken het belang van tokenisatie in schaalwetten en bieden praktische inzichten voor het ontwerpen van tokenizers, waarmee de weg wordt vrijgemaakt voor efficiëntere en krachtigere LLM's.

DiffSplat: Hergebruik van Beeldverspreidingsmodellen voor Schaalbare Gaussische Splatgeneratie
DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation

Jan 28

ByChenguo Lin, Panwang Pan, Bangbang Yang, Zeming Li, Yadong Mu

Recente ontwikkelingen in 3D-contentgeneratie vanuit tekst of een enkele afbeelding hebben te kampen met beperkte hoogwaardige 3D-datasets en inconsistentie vanuit 2D multi-view generatie. We introduceren DiffSplat, een nieuw 3D generatief framework dat op een natuurlijke wijze 3D Gaussische splats genereert door grootschalige tekst-naar-afbeelding diffusiemodellen te temmen. Het onderscheidt zich van eerdere 3D generatieve modellen door effectief gebruik te maken van grootschalige 2D prior-kennis, terwijl het 3D consistentie behoudt in een verenigd model. Om het trainingsproces op gang te brengen, wordt een lichtgewicht reconstructiemodel voorgesteld om direct multi-view Gaussische splat-roosters te produceren voor schaalbare datasetcuratie. Samen met de reguliere diffusieverlies op deze roosters, wordt een 3D-renderverlies geïntroduceerd om 3D coherentie over willekeurige aanzichten te vergemakkelijken. De compatibiliteit met afbeeldingsdiffusiemodellen maakt naadloze aanpassingen van talrijke technieken voor afbeeldingsgeneratie naar het 3D domein mogelijk. Uitgebreide experimenten tonen de superioriteit van DiffSplat aan in tekst- en afbeelding-geconditioneerde generatietaken en downstream-toepassingen. Grondige ablatiestudies bevestigen de doeltreffendheid van elke kritieke ontwerpkeuze en bieden inzichten in het onderliggende mechanisme.

Open Problemen in Mechanistische Interpretatie
Open Problems in Mechanistic Interpretability

Jan 27

ByLee Sharkey, Bilal Chughtai, Joshua Batson, Jack Lindsey, Jeff Wu, Lucius Bushnaq, Nicholas Goldowsky-Dill, Stefan Heimersheim, Alejandro Ortega, Joseph Bloom, Stella Biderman, Adria Garriga-Alonso, Arthur Conmy, Neel Nanda, Jessica Rumbelow, Martin Wattenberg, Nandi Schoots, Joseph Miller, Eric J. Michaud, Stephen Casper, Max Tegmark, William Saunders, David Bau, Eric Todd, Atticus Geiger, Mor Geva, Jesse Hoogland, Daniel Murfet, Tom McGrath

Mechanistische interpreteerbaarheid heeft tot doel de computationele mechanismen te begrijpen die ten grondslag liggen aan de capaciteiten van neurale netwerken om concrete wetenschappelijke en technische doelen te bereiken. Vooruitgang op dit gebied belooft daarom meer zekerheid te bieden over het gedrag van AI-systemen en inzicht te verschaffen in boeiende wetenschappelijke vragen over de aard van intelligentie. Ondanks recente vooruitgang naar deze doelen, zijn er veel open problemen in het vakgebied die opgelost moeten worden voordat veel wetenschappelijke en praktische voordelen gerealiseerd kunnen worden: Onze methoden vereisen zowel conceptuele als praktische verbeteringen om diepere inzichten te onthullen; we moeten uitzoeken hoe we onze methoden het beste kunnen toepassen in het streven naar specifieke doelen; en het vakgebied moet worstelen met sociaal-technische uitdagingen die invloed hebben op en beïnvloed worden door ons werk. Deze vooruitstrevende review bespreekt de huidige grens van mechanistische interpreteerbaarheid en de open problemen waar het vakgebied baat bij kan hebben door deze prioriteit te geven.

Lage-rangadapters ontmoeten neurale architectuurzoektocht voor LLM-compressie.
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression

Jan 23

ByJ. Pablo Muñoz, Jinjie Yuan, Nilesh Jain

De snelle uitbreiding van Grote Taalmodellen (LLMs) heeft aanzienlijke uitdagingen met zich meegebracht wat betreft de benodigde rekenbronnen voor fine-tuning en implementatie. Recente ontwikkelingen in low-rank adapters hebben hun doeltreffendheid aangetoond bij het parameter-efficiënt fine-tunen (PEFT) van deze modellen. Dit retrospectieve artikel bespreekt uitgebreid innovatieve benaderingen die low-rank representaties combineren met technieken voor Neuraal Architectuur Zoeken (NAS), met name gewicht-delen super-netwerken. Robuuste oplossingen voor het comprimeren en fine-tunen van grote vooraf getrainde modellen worden ontwikkeld door deze methodologieën te integreren. Onze analyse benadrukt het potentieel van deze gecombineerde strategieën om het gebruik van LLMs te democratiseren, waardoor ze toegankelijker worden voor implementatie in omgevingen met beperkte middelen. De resulterende modellen vertonen verminderde geheugenfootprints en snellere inferentietijden, waardoor er ruimte ontstaat voor meer praktische en schaalbare toepassingen van LLMs. Modellen en code zijn beschikbaar op https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.

IndicMMLU-Pro: Benchmarken van Indische Grote Taalmodellen voor Taalbegrip in Meerdere Taken
IndicMMLU-Pro: Benchmarking Indic Large Language Models on Multi-Task Language Understanding

Jan 27

BySankalp KJ, Ashutosh Kumar, Laxmaan Balaji, Nikunj Kotecha, Vinija Jain, Aman Chadha, Sreyoshi Bhaduri

Bekend bij meer dan 1,5 miljard mensen op het Indiase subcontinent, bieden Indische talen unieke uitdagingen en kansen voor onderzoek naar natuurlijke taalverwerking (NLP) vanwege hun rijke culturele erfgoed, taalkundige diversiteit en complexe structuren. IndicMMLU-Pro is een uitgebreide benchmark ontworpen om Grote Taalmodellen (LLM's) te evalueren over Indische talen, voortbouwend op het MMLU Pro (Massive Multitask Language Understanding) framework. Met belangrijke talen zoals Hindi, Bengaals, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu en Urdu, adresseert onze benchmark de unieke uitdagingen en kansen die worden geboden door de taalkundige diversiteit van het Indiase subcontinent. Deze benchmark omvat een breed scala aan taken op het gebied van taalbegrip, redeneren en generatie, zorgvuldig ontworpen om de subtiliteiten van Indische talen vast te leggen. IndicMMLU-Pro biedt een gestandaardiseerd evaluatiekader om de onderzoeksgrenzen te verleggen in de Indische taal AI, wat de ontwikkeling van nauwkeurigere, efficiëntere en cultureel gevoelige modellen vergemakkelijkt. Dit artikel schetst de ontwerpprincipes van de benchmarks, de taak-taxonomie en de methodologie voor gegevensverzameling, en presenteert basisresultaten van toonaangevende meertalige modellen.

TAID: Tijdelijk Adaptieve Geïnterpoleerde Distillatie voor Efficiënte Kennisoverdracht in Taalmodellen
TAID: Temporally Adaptive Interpolated Distillation for Efficient Knowledge Transfer in Language Models

Jan 28

ByMakoto Shing, Kou Misaki, Han Bao, Sho Yokoi, Takuya Akiba

Causale taalmodellen hebben opmerkelijke capaciteiten aangetoond, maar hun omvang vormt aanzienlijke uitdagingen voor implementatie in omgevingen met beperkte middelen. Kennisdistillatie, een veelgebruikte techniek voor het overdragen van kennis van een groot lerend model naar een klein studentenmodel, biedt een veelbelovende benadering voor modelcompressie. Een belangrijk resterend probleem ligt in de grote verschillen tussen leraren- en studentenmodellen, namelijk het aanzienlijke capaciteitsverschil, modusgemiddelden en modusinstorting, die obstakels vormen tijdens de distillatie. Om deze problemen aan te pakken, introduceren we Temporeel Adaptieve Geïnterpoleerde Distillatie (TAID), een nieuw kennisdistillatiebenadering die dynamisch studenten- en lerarendistributies interpoleert via een adaptieve tussenliggende distributie, geleidelijk verschuivend van de initiële distributie van de student naar de distributie van de leraar. We bieden een theoretische analyse die de mogelijkheid van TAID aantoont om modusinstorting te voorkomen en tonen empirisch de effectiviteit ervan aan bij het aanpakken van het capaciteitsverschil terwijl modusgemiddelden en modusinstorting in balans worden gehouden. Onze uitgebreide experimenten tonen de superieure prestaties van TAID aan bij verschillende modelgroottes en architecturen in zowel instructie-afstemmings- als vooraf trainingscenario's. Bovendien laten we de praktische impact van TAID zien door twee toonaangevende compacte basismodellen te ontwikkelen: TAID-LLM-1.5B voor taaltaken en TAID-VLM-2B voor visie-taaltaken. Deze resultaten tonen de effectiviteit van TAID aan bij het creëren van hoogwaardige en efficiënte modellen, waardoor de ontwikkeling van meer toegankelijke AI-technologieën wordt bevorderd.

Histoires Morales: Een Franse dataset voor het beoordelen van morele afstemming.
Histoires Morales: A French Dataset for Assessing Moral Alignment

Jan 28

ByThibaud Leteno, Irina Proskurina, Antoine Gourru, Julien Velcin, Charlotte Laclau, Guillaume Metzler, Christophe Gravier

Het afstemmen van taalmodellen op menselijke waarden is cruciaal, vooral nu ze steeds meer geïntegreerd raken in het dagelijks leven. Hoewel modellen vaak worden aangepast aan de voorkeuren van gebruikers, is het even belangrijk om ervoor te zorgen dat ze in lijn zijn met morele normen en gedrag in sociale situaties in de echte wereld. Ondanks aanzienlijke vooruitgang in talen zoals Engels en Chinees, heeft het Frans weinig aandacht gekregen op dit gebied, waardoor er een lacune is in het begrip van hoe LLM's morele redenering in deze taal verwerken. Om deze lacune aan te pakken, introduceren we Histoires Morales, een Frans dataset afgeleid van Moral Stories, gecreëerd door vertaling en vervolgens verfijnd met hulp van moedertaalsprekers om grammaticale nauwkeurigheid en aanpassing aan de Franse culturele context te garanderen. We vertrouwen ook op annotaties van de morele waarden binnen de dataset om ervoor te zorgen dat ze in lijn zijn met Franse normen. Histoires Morales bestrijkt een breed scala aan sociale situaties, waaronder verschillen in fooigedrag, uitingen van eerlijkheid in relaties en verantwoordelijkheden ten opzichte van dieren. Om toekomstig onderzoek te bevorderen, voeren we ook voorlopige experimenten uit over de afstemming van meertalige modellen op Franse en Engelse data en de robuustheid van de afstemming. We constateren dat hoewel LLM's over het algemeen standaard in lijn zijn met menselijke morele normen, ze gemakkelijk beïnvloed kunnen worden met optimalisatie van gebruikersvoorkeuren voor zowel morele als immorele data.

DeepFlow: Serverloze Schaalbare Dienst voor Grote Taalmodellen
DeepFlow: Serverless Large Language Model Serving at Scale

Jan 24

ByJunhao Hu, Jiang Xu, Zhixia Liu, Yulong He, Yuetao Chen, Hao Xu, Jiang Liu, Baoquan Zhang, Shining Wan, Gengyuan Dan, Zhiyu Dong, Zhihao Ren, Jie Meng, Chao He, Changhong Liu, Tao Xie, Dayun Lin, Qin Zhang, Yue Yu, Hao Feng, Xusheng Chen, Yizhou Shan

Deze paper introduceert DeepFlow, een schaalbaar en serverless AI-platform dat is ontworpen om op efficiënte wijze grote taalmodellen (LLM's) te bedienen op grote schaal in cloudomgevingen. DeepFlow pakt belangrijke uitdagingen aan zoals resource-toewijzing, efficiëntie van dienstverlening en opstartlatenties via vier hoofdontwerponderdelen. Ten eerste maakt het gebruik van een eenvoudige serverless abstractie genaamd het verzoek-taak-model, dat helpt bij het beheren van AI-werklasten over post-training en modeldiensttaken. Ten tweede bouwt het een in-house dienstmotor FlowServe met een ontwerp geïnspireerd op microkernel, uitvoering gericht op NPU, en SPMD-gebaseerde parallelisme om de dienstverlening van LLM's te optimaliseren. Het systeem omvat ook nieuwe planningsbeleidsregels die zijn afgestemd op zowel PD-ontkoppelde als PD-gecolocatiesystemen. Met optimalisaties zoals voorverwarmde pods, DRAM-voorladen en NPU-fork kan DeepFlow opschalen tot 64 instanties in seconden. DeepFlow is al meer dan een jaar in productie, draait op een groot Ascend NPU-cluster en biedt standaard API's voor het fijnafstemmen, dienstverlening van agenten en modeldienstverlening aan onze klanten.