Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het evalueren van Large Language Models (LLMs) in open-eind scenario's is uitdagend omdat bestaande benchmarks en metrieken ze niet uitgebreid kunnen meten. Om dit probleem aan te pakken, stellen we voor om LLMs te fine-tunen als schaalbare beoordelaars (JudgeLM) om LLMs efficiënt en effectief te evalueren in open-eind benchmarks. We stellen eerst een uitgebreide, grootschalige, hoogwaardige dataset voor die taakzaden, door LLMs gegenereerde antwoorden en door GPT-4 gegenereerde oordelen bevat voor het fine-tunen van hoogpresterende beoordelaars, evenals een nieuwe benchmark voor het evalueren van de beoordelaars. We trainen JudgeLM op verschillende schalen van 7B, 13B tot 33B parameters en voeren een systematische analyse uit van zijn capaciteiten en gedragingen. Vervolgens analyseren we de belangrijkste biases bij het fine-tunen van een LLM als beoordelaar en beschouwen deze als positiebias, kennisbias en formaatbias. Om deze problemen aan te pakken, introduceert JudgeLM een reeks technieken, waaronder swap-augmentatie, referentieondersteuning en referentieverwijdering, die de prestaties van de beoordelaar duidelijk verbeteren. JudgeLM behaalt de state-of-the-art beoordelaarsprestaties op zowel de bestaande PandaLM-benchmark als onze voorgestelde nieuwe benchmark. Onze JudgeLM is efficiënt en de JudgeLM-7B heeft slechts 3 minuten nodig om 5K samples te beoordelen met 8 A100 GPU's. JudgeLM bereikt een hoge overeenstemming met de leraar-beoordelaar, met een overeenstemming van meer dan 90% die zelfs de mens-tot-mens overeenstemming overtreft. JudgeLM toont ook uitgebreide capaciteiten in het beoordelen van enkelvoudige antwoorden, multimodale modellen, meerdere antwoorden en multi-turn chat.
We introduceren HyperFields, een methode voor het genereren van tekst-geconditioneerde Neural Radiance Fields (NeRFs) met een enkele forward pass en (optioneel) wat fine-tuning. Centraal in onze aanpak staan: (i) een dynamisch hypernetwerk, dat een vloeiende mapping leert van tekst-token embeddings naar de ruimte van NeRFs; (ii) NeRF-distillatietraining, die scènes die zijn gecodeerd in individuele NeRFs destilleert in één dynamisch hypernetwerk. Deze technieken maken het mogelijk dat één enkel netwerk meer dan honderd unieke scènes kan aanpassen. We demonstreren verder dat HyperFields een meer algemene mapping tussen tekst en NeRFs leert, en daardoor in staat is om nieuwe in-distributie en out-of-distributie scènes te voorspellen – zowel zero-shot als met een paar fine-tuning stappen. Fine-tuning van HyperFields profiteert van versnelde convergentie dankzij de geleerde algemene mapping, en is in staat om nieuwe scènes 5 tot 10 keer sneller te synthetiseren dan bestaande op neurale optimalisatie gebaseerde methoden. Onze ablatie-experimenten laten zien dat zowel de dynamische architectuur als NeRF-distillatie cruciaal zijn voor de expressiviteit van HyperFields.
Wij stellen controlled decoding (CD) voor, een nieuwe off-policy reinforcement learning-methode om de autoregressieve generatie van taalmodellen te sturen naar uitkomsten met een hoge beloning. CD lost een off-policy reinforcement learning-probleem op via een waardefunctie voor de beloning, die wij een prefix scorer noemen. De prefix scorer wordt tijdens inferentie gebruikt om de generatie te sturen naar uitkomsten met een hogere beloning. Wij tonen aan dat de prefix scorer getraind kan worden op (mogelijk) off-policy data om de verwachte beloning te voorspellen wanneer het decoderen wordt voortgezet vanuit een gedeeltelijk gedecodeerd antwoord. Empirisch demonstreren wij dat CD effectief is als controlemechanisme op een corpus van Reddit-gesprekken. Wij laten ook zien dat de modulariteit van het ontwerp van CD het mogelijk maakt om te sturen voor meerdere beloningen, waardoor een multi-objectief reinforcement learning-probleem effectief wordt opgelost zonder extra complexiteit. Tot slot tonen wij aan dat CD op een nieuwe blockwise-manier kan worden toegepast tijdens inferentie, opnieuw zonder dat er wijzigingen tijdens de training nodig zijn, waardoor de kloof tussen de populaire best-of-K-strategie en token-level reinforcement learning wordt overbrugd. Dit maakt CD een veelbelovende benadering voor het afstemmen van taalmodellen.
Grote taalmodelen (LLMs) met honderden miljarden parameters hebben een nieuwe golf van spannende AI-toepassingen op gang gebracht. Ze zijn echter rekenkundig kostbaar tijdens het uitvoeren van inferentie. Sparsity is een natuurlijke aanpak om deze kosten te verlagen, maar bestaande methoden vereisen ofwel kostbare hertraining, moeten afzien van het in-context leervermogen van LLMs, of leveren geen snelheidswinst in wall-clock time op moderne hardware. We stellen de hypothese op dat contextuele sparsity, waarbij kleine, invoerafhankelijke sets van aandachtskoppen en MLP-parameters ongeveer dezelfde uitvoer opleveren als het dichte model voor een gegeven invoer, deze problemen kan aanpakken. We tonen aan dat contextuele sparsity bestaat, dat deze nauwkeurig voorspeld kan worden, en dat we deze kunnen benutten om de inferentie van LLMs in wall-clock time te versnellen zonder in te leveren op de kwaliteit of het in-context leervermogen van LLMs. Op basis van deze inzichten stellen we DejaVu voor, een systeem dat een kostenefficiënt algoritme gebruikt om contextuele sparsity on-the-fly te voorspellen op basis van de invoer voor elke laag, samen met een asynchrone en hardwarebewuste implementatie die de inferentie van LLMs versnelt. We valideren dat DejaVu de inferentielatentie van OPT-175B met meer dan 2X kan verminderen in vergelijking met de state-of-the-art FasterTransformer, en met meer dan 6X in vergelijking met de veelgebruikte Hugging Face-implementatie, zonder in te leveren op modelkwaliteit. De code is beschikbaar op https://github.com/FMInference/DejaVu.