Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Supervised fine-tuning (SFT) en reinforcement learning (RL) zijn veelgebruikte post-trainingstechnieken voor foundation-modellen. De rol die ze spelen bij het verbeteren van de generalisatiecapaciteiten van modellen blijft echter onduidelijk. Dit artikel onderzoekt het verschil tussen SFT en RL op het gebied van generalisatie en memorisatie, met de focus op tekstuele regelvarianten en visuele varianten. We introduceren GeneralPoints, een kaartspel voor rekenkundige redenering, en maken gebruik van V-IRL, een navigatieomgeving in de echte wereld, om te beoordelen hoe modellen die zijn getraind met SFT en RL generaliseren naar ongeziene varianten in zowel tekstuele als visuele domeinen. We tonen aan dat RL, vooral wanneer getraind met een op uitkomsten gebaseerde beloning, generaliseert over zowel op regels gebaseerde tekstuele als visuele varianten. SFT daarentegen heeft de neiging om trainingsgegevens te memoriseren en worstelt met generalisatie naar out-of-distribution scenario's. Verder onderzoek onthult dat RL de onderliggende visuele herkenningscapaciteiten van het model verbetert, wat bijdraagt aan de verbeterde generalisatie in het visuele domein. Ondanks de superieure generalisatie van RL tonen we aan dat SFT essentieel blijft voor effectieve RL-training; SFT stabiliseert het uitvoerformaat van het model, waardoor daaropvolgende RL zijn prestatiewinst kan behalen. Deze bevindingen tonen de mogelijkheden van RL aan om generaliseerbare kennis te verwerven in complexe, multimodale taken.
De groeiende rekenkundige eisen van het trainen van grote taalmodellen (LLM's) vereisen efficiëntere methoden. Gekwantiseerd trainen biedt een veelbelovende oplossing door het mogelijk maken van rekenkundige bewerkingen met weinig bits om deze kosten te verlagen. Hoewel FP8 precisie haalbaarheid heeft aangetoond, blijft het benutten van FP4 een uitdaging vanwege aanzienlijke kwantisatiefouten en beperkte representatiecapaciteit. Dit werk introduceert het eerste FP4-trainingskader voor LLM's, waarbij deze uitdagingen worden aangepakt met twee belangrijke innovaties: een differentieerbare kwantisatie schatter voor nauwkeurige gewichtsupdates en een strategie voor het vastklemmen en compenseren van uitschieters om activatievervorming te voorkomen. Om stabiliteit te waarborgen, integreert het kader een trainingsregeling met gemengde precisie en kwantisatie per vector. Experimentele resultaten tonen aan dat ons FP4-kader nauwkeurigheid behaalt die vergelijkbaar is met BF16 en FP8, met minimale degradatie, en effectief schaalt naar 13B-parameter LLM's getraind op tot 100B tokens. Met de opkomst van volgende generatie hardware die FP4 ondersteunt, legt ons kader een basis voor efficiënte training met ultralage precisie.
Tokenisatie is een fundamenteel onderdeel van grote taalmodellen (LLM's), maar de invloed ervan op model schaalbaarheid en prestaties is nog niet volledig onderzocht. In dit artikel introduceren we Over-Getokeniseerde Transformers, een nieuw raamwerk dat de invoer- en uitvoervocabulaires ontkoppelt om de prestaties van taalmodellering te verbeteren. Specifiek schalen we de invoervocabulaires op om gebruik te maken van multi-grame tokens. Via uitgebreide experimenten ontdekken we een log-lineaire relatie tussen de grootte van het invoervocabulaire en trainingsverlies, waarbij wordt aangetoond dat grotere invoervocabulaires consequent de modelprestaties verbeteren, ongeacht de modelgrootte. Door gebruik te maken van een groot invoervocabulaire bereiken we prestaties die vergelijkbaar zijn met verdubbelde baselines zonder extra kosten. Onze bevindingen benadrukken het belang van tokenisatie in schaalwetten en bieden praktische inzichten voor het ontwerpen van tokenizers, waarmee de weg wordt vrijgemaakt voor efficiëntere en krachtigere LLM's.
Recente ontwikkelingen in 3D-contentgeneratie vanuit tekst of een enkele afbeelding hebben te kampen met beperkte hoogwaardige 3D-datasets en inconsistentie vanuit 2D multi-view generatie. We introduceren DiffSplat, een nieuw 3D generatief framework dat op een natuurlijke wijze 3D Gaussische splats genereert door grootschalige tekst-naar-afbeelding diffusiemodellen te temmen. Het onderscheidt zich van eerdere 3D generatieve modellen door effectief gebruik te maken van grootschalige 2D prior-kennis, terwijl het 3D consistentie behoudt in een verenigd model. Om het trainingsproces op gang te brengen, wordt een lichtgewicht reconstructiemodel voorgesteld om direct multi-view Gaussische splat-roosters te produceren voor schaalbare datasetcuratie. Samen met de reguliere diffusieverlies op deze roosters, wordt een 3D-renderverlies geïntroduceerd om 3D coherentie over willekeurige aanzichten te vergemakkelijken. De compatibiliteit met afbeeldingsdiffusiemodellen maakt naadloze aanpassingen van talrijke technieken voor afbeeldingsgeneratie naar het 3D domein mogelijk. Uitgebreide experimenten tonen de superioriteit van DiffSplat aan in tekst- en afbeelding-geconditioneerde generatietaken en downstream-toepassingen. Grondige ablatiestudies bevestigen de doeltreffendheid van elke kritieke ontwerpkeuze en bieden inzichten in het onderliggende mechanisme.
Mechanistische interpreteerbaarheid heeft tot doel de computationele mechanismen te begrijpen die ten grondslag liggen aan de capaciteiten van neurale netwerken om concrete wetenschappelijke en technische doelen te bereiken. Vooruitgang op dit gebied belooft daarom meer zekerheid te bieden over het gedrag van AI-systemen en inzicht te verschaffen in boeiende wetenschappelijke vragen over de aard van intelligentie. Ondanks recente vooruitgang naar deze doelen, zijn er veel open problemen in het vakgebied die opgelost moeten worden voordat veel wetenschappelijke en praktische voordelen gerealiseerd kunnen worden: Onze methoden vereisen zowel conceptuele als praktische verbeteringen om diepere inzichten te onthullen; we moeten uitzoeken hoe we onze methoden het beste kunnen toepassen in het streven naar specifieke doelen; en het vakgebied moet worstelen met sociaal-technische uitdagingen die invloed hebben op en beïnvloed worden door ons werk. Deze vooruitstrevende review bespreekt de huidige grens van mechanistische interpreteerbaarheid en de open problemen waar het vakgebied baat bij kan hebben door deze prioriteit te geven.
De snelle uitbreiding van Grote Taalmodellen (LLMs) heeft aanzienlijke uitdagingen met zich meegebracht wat betreft de benodigde rekenbronnen voor fine-tuning en implementatie. Recente ontwikkelingen in low-rank adapters hebben hun doeltreffendheid aangetoond bij het parameter-efficiënt fine-tunen (PEFT) van deze modellen. Dit retrospectieve artikel bespreekt uitgebreid innovatieve benaderingen die low-rank representaties combineren met technieken voor Neuraal Architectuur Zoeken (NAS), met name gewicht-delen super-netwerken. Robuuste oplossingen voor het comprimeren en fine-tunen van grote vooraf getrainde modellen worden ontwikkeld door deze methodologieën te integreren. Onze analyse benadrukt het potentieel van deze gecombineerde strategieën om het gebruik van LLMs te democratiseren, waardoor ze toegankelijker worden voor implementatie in omgevingen met beperkte middelen. De resulterende modellen vertonen verminderde geheugenfootprints en snellere inferentietijden, waardoor er ruimte ontstaat voor meer praktische en schaalbare toepassingen van LLMs. Modellen en code zijn beschikbaar op https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
Bekend bij meer dan 1,5 miljard mensen op het Indiase subcontinent, bieden Indische talen unieke uitdagingen en kansen voor onderzoek naar natuurlijke taalverwerking (NLP) vanwege hun rijke culturele erfgoed, taalkundige diversiteit en complexe structuren. IndicMMLU-Pro is een uitgebreide benchmark ontworpen om Grote Taalmodellen (LLM's) te evalueren over Indische talen, voortbouwend op het MMLU Pro (Massive Multitask Language Understanding) framework. Met belangrijke talen zoals Hindi, Bengaals, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu en Urdu, adresseert onze benchmark de unieke uitdagingen en kansen die worden geboden door de taalkundige diversiteit van het Indiase subcontinent. Deze benchmark omvat een breed scala aan taken op het gebied van taalbegrip, redeneren en generatie, zorgvuldig ontworpen om de subtiliteiten van Indische talen vast te leggen. IndicMMLU-Pro biedt een gestandaardiseerd evaluatiekader om de onderzoeksgrenzen te verleggen in de Indische taal AI, wat de ontwikkeling van nauwkeurigere, efficiëntere en cultureel gevoelige modellen vergemakkelijkt. Dit artikel schetst de ontwerpprincipes van de benchmarks, de taak-taxonomie en de methodologie voor gegevensverzameling, en presenteert basisresultaten van toonaangevende meertalige modellen.
Causale taalmodellen hebben opmerkelijke capaciteiten aangetoond, maar hun omvang vormt aanzienlijke uitdagingen voor implementatie in omgevingen met beperkte middelen. Kennisdistillatie, een veelgebruikte techniek voor het overdragen van kennis van een groot lerend model naar een klein studentenmodel, biedt een veelbelovende benadering voor modelcompressie. Een belangrijk resterend probleem ligt in de grote verschillen tussen leraren- en studentenmodellen, namelijk het aanzienlijke capaciteitsverschil, modusgemiddelden en modusinstorting, die obstakels vormen tijdens de distillatie. Om deze problemen aan te pakken, introduceren we Temporeel Adaptieve Geïnterpoleerde Distillatie (TAID), een nieuw kennisdistillatiebenadering die dynamisch studenten- en lerarendistributies interpoleert via een adaptieve tussenliggende distributie, geleidelijk verschuivend van de initiële distributie van de student naar de distributie van de leraar. We bieden een theoretische analyse die de mogelijkheid van TAID aantoont om modusinstorting te voorkomen en tonen empirisch de effectiviteit ervan aan bij het aanpakken van het capaciteitsverschil terwijl modusgemiddelden en modusinstorting in balans worden gehouden. Onze uitgebreide experimenten tonen de superieure prestaties van TAID aan bij verschillende modelgroottes en architecturen in zowel instructie-afstemmings- als vooraf trainingscenario's. Bovendien laten we de praktische impact van TAID zien door twee toonaangevende compacte basismodellen te ontwikkelen: TAID-LLM-1.5B voor taaltaken en TAID-VLM-2B voor visie-taaltaken. Deze resultaten tonen de effectiviteit van TAID aan bij het creëren van hoogwaardige en efficiënte modellen, waardoor de ontwikkeling van meer toegankelijke AI-technologieën wordt bevorderd.
Het afstemmen van taalmodellen op menselijke waarden is cruciaal, vooral nu ze steeds meer geïntegreerd raken in het dagelijks leven. Hoewel modellen vaak worden aangepast aan de voorkeuren van gebruikers, is het even belangrijk om ervoor te zorgen dat ze in lijn zijn met morele normen en gedrag in sociale situaties in de echte wereld. Ondanks aanzienlijke vooruitgang in talen zoals Engels en Chinees, heeft het Frans weinig aandacht gekregen op dit gebied, waardoor er een lacune is in het begrip van hoe LLM's morele redenering in deze taal verwerken. Om deze lacune aan te pakken, introduceren we Histoires Morales, een Frans dataset afgeleid van Moral Stories, gecreëerd door vertaling en vervolgens verfijnd met hulp van moedertaalsprekers om grammaticale nauwkeurigheid en aanpassing aan de Franse culturele context te garanderen. We vertrouwen ook op annotaties van de morele waarden binnen de dataset om ervoor te zorgen dat ze in lijn zijn met Franse normen. Histoires Morales bestrijkt een breed scala aan sociale situaties, waaronder verschillen in fooigedrag, uitingen van eerlijkheid in relaties en verantwoordelijkheden ten opzichte van dieren. Om toekomstig onderzoek te bevorderen, voeren we ook voorlopige experimenten uit over de afstemming van meertalige modellen op Franse en Engelse data en de robuustheid van de afstemming. We constateren dat hoewel LLM's over het algemeen standaard in lijn zijn met menselijke morele normen, ze gemakkelijk beïnvloed kunnen worden met optimalisatie van gebruikersvoorkeuren voor zowel morele als immorele data.
Deze paper introduceert DeepFlow, een schaalbaar en serverless AI-platform dat is ontworpen om op efficiënte wijze grote taalmodellen (LLM's) te bedienen op grote schaal in cloudomgevingen. DeepFlow pakt belangrijke uitdagingen aan zoals resource-toewijzing, efficiëntie van dienstverlening en opstartlatenties via vier hoofdontwerponderdelen. Ten eerste maakt het gebruik van een eenvoudige serverless abstractie genaamd het verzoek-taak-model, dat helpt bij het beheren van AI-werklasten over post-training en modeldiensttaken. Ten tweede bouwt het een in-house dienstmotor FlowServe met een ontwerp geïnspireerd op microkernel, uitvoering gericht op NPU, en SPMD-gebaseerde parallelisme om de dienstverlening van LLM's te optimaliseren. Het systeem omvat ook nieuwe planningsbeleidsregels die zijn afgestemd op zowel PD-ontkoppelde als PD-gecolocatiesystemen. Met optimalisaties zoals voorverwarmde pods, DRAM-voorladen en NPU-fork kan DeepFlow opschalen tot 64 instanties in seconden. DeepFlow is al meer dan een jaar in productie, draait op een groot Ascend NPU-cluster en biedt standaard API's voor het fijnafstemmen, dienstverlening van agenten en modeldienstverlening aan onze klanten.