Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Stel je een ontwikkelaar voor die alleen de laatste regel code kan aanpassen; hoe vaak zou diegene een functie helemaal opnieuw moeten schrijven voordat deze correct is? Auto-regressieve modellen voor codegeneratie vanuit natuurlijke taal hebben een vergelijkbare beperking: ze maken het niet eenvoudig om eerder gegenereerde tokens te heroverwegen. Wij introduceren CodeFusion, een vooraf getraind diffusiemodel voor codegeneratie dat deze beperking aanpakt door iteratief een compleet programma te denoizen, geconditioneerd op de gecodeerde natuurlijke taal. We evalueren CodeFusion voor de taak van codegeneratie vanuit natuurlijke taal voor Bash, Python en Microsoft Excel voorwaardelijke opmaakregels (CF). Experimenten tonen aan dat CodeFusion (75M parameters) qua top-1 nauwkeurigheid gelijk presteert met state-of-the-art auto-regressieve systemen (350M-175B parameters) en deze overtreft in top-3 en top-5 nauwkeurigheid vanwege een betere balans tussen diversiteit en kwaliteit.
In dit artikel onderzoeken we FP8 low-bit dataformaten voor efficiënte training van grote taalmodelen (LLM's). Onze belangrijkste inzicht is dat de meeste variabelen, zoals gradiënten en optimizerstatussen, in LLM-training kunnen worden weergegeven in low-precision dataformaten zonder de modelnauwkeurigheid aan te tasten en zonder aanpassingen aan de hyperparameters te vereisen. Specifiek stellen we een nieuw FP8 automatisch mixed-precision framework voor voor het trainen van LLM's. Dit framework biedt drie niveaus van FP8-gebruik om mixed-precision en gedistribueerde parallelle training voor LLM's te stroomlijnen. Het integreert geleidelijk 8-bit gradiënten, optimizerstatussen en gedistribueerd leren op een incrementele manier. Experimentele resultaten tonen aan dat, tijdens de training van het GPT-175B-model op het H100 GPU-platform, ons FP8 mixed-precision trainingsframework niet alleen een opmerkelijke vermindering van 42% in het werkelijke geheugengebruik bereikte, maar ook 64% sneller liep dan het veelgebruikte BF16-framework (d.w.z. Megatron-LM), waardoor het de snelheid van de Nvidia Transformer Engine met 17% overtrof. Dit vermindert de trainingskosten voor grote foundation-modellen aanzienlijk. Bovendien is onze FP8 mixed-precision trainingsmethodologie generiek. Het kan naadloos worden toegepast op andere taken, zoals LLM-instructieafstemming en reinforcement learning met menselijke feedback, waardoor het besparingen biedt in fine-tuningkosten. Ons FP8 low-precision trainingsframework is open-source beschikbaar op {https://github.com/Azure/MS-AMP}{aka.ms/MS.AMP}.
We presenteren ControlLLM, een nieuw framework dat grote taalmodellen (LLMs) in staat stelt om multimodale tools te gebruiken voor het oplossen van complexe real-world taken. Ondanks de opmerkelijke prestaties van LLMs, hebben ze nog steeds moeite met het aanroepen van tools vanwege onduidelijke gebruikersprompts, onnauwkeurige toolselectie en parameterisatie, en inefficiënte toolscheduling. Om deze uitdagingen te overwinnen, bestaat ons framework uit drie belangrijke componenten: (1) een taakontleder die een complexe taak opsplitst in duidelijke subtaken met goed gedefinieerde invoer en uitvoer; (2) een Thoughts-on-Graph (ToG)-paradigma dat het optimale oplossingspad zoekt op een vooraf gebouwde toolgrafiek, die de parameter- en afhankelijkheidsrelaties tussen verschillende tools specificeert; en (3) een uitvoeringsengine met een uitgebreide toolbox die het oplossingspad interpreteert en de tools efficiënt uitvoert op verschillende rekenapparaten. We evalueren ons framework op diverse taken met betrekking tot beeld-, audio- en videoverwerking, waarbij we de superieure nauwkeurigheid, efficiëntie en veelzijdigheid ervan aantonen in vergelijking met bestaande methoden.
On-device learning en efficiënte fine-tuning maken continue en privacy-beschermende aanpassing mogelijk (bijvoorbeeld het lokaal fine-tunen van grote taalmodellen op gepersonaliseerde data). Bestaande trainingsframeworks zijn echter ontworpen voor cloudservers met krachtige accelerators (zoals GPU's en TPU's) en missen de optimalisaties voor leren aan de edge, wat te maken heeft met uitdagingen zoals beperkte middelen en diversiteit in edge-hardware. Wij introduceren PockEngine: een compacte, sparse en efficiënte engine om fine-tuning op diverse edge-apparaten mogelijk te maken. PockEngine ondersteunt sparse backpropagatie: het snoeit de backward-grafiek en werkt het model spaarzaam bij, wat resulteert in gemeten geheugenbesparing en latentievermindering terwijl de modelkwaliteit behouden blijft. Ten tweede is PockEngine compilation-first: de volledige trainingsgrafiek (inclusief forward, backward en optimalisatiestappen) wordt afgeleid tijdens compilatie, wat de runtime-overhead vermindert en mogelijkheden biedt voor grafiektransformaties. PockEngine integreert ook een uitgebreide set van trainingsgrafiekoptimalisaties, waardoor de trainingskosten verder kunnen worden versneld, waaronder operatorherordening en backend-switching. PockEngine ondersteunt diverse toepassingen, frontends en hardware-backends: het compileert en optimaliseert flexibel modellen die zijn gedefinieerd in PyTorch/TensorFlow/Jax en implementeert binaire bestanden op mobiele CPU's/GPU's/DSP's. We hebben PockEngine geëvalueerd op zowel vision-modellen als grote taalmodellen. PockEngine behaalt een versnelling tot 15 keer ten opzichte van standaard TensorFlow (Raspberry Pi) en een geheugenbesparing van 5,6 keer bij backpropagatie (Jetson AGX Orin). Opmerkelijk is dat PockEngine fine-tuning van LLaMav2-7B op NVIDIA Jetson AGX Orin mogelijk maakt met 550 tokens/s, 7,9 keer sneller dan PyTorch.
Grote taalmodellen (LLMs) tonen potentieel voor taken in natuurlijke taal, maar hebben moeite wanneer ze direct worden toegepast op complexe domeinen zoals financiën. LLMs vinden het moeilijk om alle relevante informatie te redeneren en te integreren. Wij stellen een data-gerichte aanpak voor om LLMs beter in staat te stellen financiële taken uit te voeren. Onze belangrijkste inzicht is dat het effectiever is om de data vooraf te verwerken en te begrijpen, in plaats van het LLM in één keer te overbelasten. We creëren een financieel LLM (FLLM) door middel van multitask prompt-gebaseerde finetuning om dataverwerking en vooraf begrip te bereiken. Gelabelde data is echter schaars voor elke taak. Om de kosten van handmatige annotatie te omzeilen, gebruiken we abductieve augmentatie-redenering (AAR) om automatisch trainingsdata te genereren door de pseudo-labels van de eigen uitvoer van het FLLM aan te passen. Experimenten tonen aan dat onze data-gerichte FLLM met AAR aanzienlijk beter presteert dan baseline financiële LLMs die zijn ontworpen voor ruwe tekst, en state-of-the-art resultaten behaalt op taken voor financiële analyse en interpretatie. We maken ook een nieuwe benchmark voor financiële analyse en interpretatie open source. Onze methodologie biedt een veelbelovende weg om het potentieel van LLMs te ontsluiten voor complexe real-world domeinen.
We presenteren een raamwerk voor de geautomatiseerde meting van verantwoorde AI (RAI)-metrieken voor grote taalmodelen (LLM's) en bijbehorende producten en diensten. Ons raamwerk voor het automatisch meten van schade door LLM's bouwt voort op bestaande technische en sociotechnische expertise en maakt gebruik van de mogelijkheden van state-of-the-art LLM's, zoals GPT-4. We gebruiken dit raamwerk om verschillende casestudies door te lopen die onderzoeken hoe verschillende LLM's een reeks RAI-gerelateerde principes kunnen schenden. Het raamwerk kan worden ingezet naast domeinspecifieke sociotechnische expertise om in de toekomst metingen te creëren voor nieuwe schadegebieden. Door dit raamwerk te implementeren, streven we ernaar om meer geavanceerde inspanningen voor het meten van schade mogelijk te maken en het verantwoorde gebruik van LLM's te bevorderen.
We introduceren een 3D-bewust diffusiemodel, ZeroNVS, voor de synthese van nieuwe aanzichten vanuit één afbeelding voor scènes in de echte wereld. Terwijl bestaande methoden zijn ontworpen voor individuele objecten met gemaskeerde achtergronden, stellen we nieuwe technieken voor om de uitdagingen aan te pakken die worden geïntroduceerd door scènes in de echte wereld met meerdere objecten en complexe achtergronden. Specifiek trainen we een generatief prior op een mix van databronnen die objectgerichte, binnen- en buitenscènes vastleggen. Om problemen door de datamix, zoals diepte-schaalambiguïteit, aan te pakken, introduceren we een nieuwe cameraconditioneringsparameterisatie en normalisatieschema. Verder observeren we dat Score Distillation Sampling (SDS) de neiging heeft om de verdeling van complexe achtergronden af te kappen tijdens de distillatie van 360-gradenscènes, en stellen we "SDS anchoring" voor om de diversiteit van gesynthetiseerde nieuwe aanzichten te verbeteren. Ons model behaalt een nieuwe state-of-the-art resultaat in LPIPS op de DTU-dataset in de zero-shot setting, en overtreft zelfs methoden die specifiek op DTU zijn getraind. We passen verder de uitdagende Mip-NeRF 360-dataset aan als een nieuwe benchmark voor de synthese van nieuwe aanzichten vanuit één afbeelding, en demonstreren sterke prestaties in deze setting. Onze code en data zijn beschikbaar op http://kylesargent.github.io/zeronvs/.
Neural Radiance Fields (NeRFs) hebben zich bewezen als krachtige 3D-representaties, in staat tot hoogwaardige synthese van nieuwe aanzichten van complexe scènes. Hoewel NeRFs zijn toegepast in grafische toepassingen, computervisie en robotica, verhinderen problemen met trage renderingsnelheden en karakteristieke visuele artefacten de adoptie in veel gebruiksscenario's. In dit werk onderzoeken we de combinatie van een autoencoder (AE) met een NeRF, waarbij latente kenmerken (in plaats van kleuren) worden gerenderd en vervolgens convolutioneel worden gedecodeerd. De resulterende latent-space NeRF kan nieuwe aanzichten produceren met een hogere kwaliteit dan standaard kleurruimte NeRFs, aangezien de AE bepaalde visuele artefacten kan corrigeren, terwijl het renderen meer dan drie keer zo snel verloopt. Ons werk staat los van andere technieken voor het verbeteren van de efficiëntie van NeRFs. Verder kunnen we de afweging tussen efficiëntie en beeldkwaliteit beheersen door de AE-architectuur te verkleinen, waardoor we een meer dan 13 keer snellere rendering bereiken met slechts een kleine prestatievermindering. We hopen dat onze aanpak de basis kan vormen voor een efficiënte, maar toch hoogwaardige 3D-scène-representatie voor downstream taken, vooral wanneer het behouden van differentieerbaarheid nuttig is, zoals in veel robotica-scenario's die continue leren vereisen.
We tonen aan dat grote taalmodellen (LLMs) kunnen worden aangepast om generaliseerbare beleidsregels te zijn voor belichaamde visuele taken. Onze aanpak, genaamd Large LAnguage model Reinforcement Learning Policy (LLaRP), past een vooraf getraind bevroren LLM aan om tekstinstructies en visuele egocentrische observaties als invoer te nemen en acties direct in de omgeving uit te voeren. Met behulp van reinforcement learning trainen we LLaRP om uitsluitend te zien en te handelen via interacties met de omgeving. We tonen aan dat LLaRP robuust is tegen complexe parafraseringen van taakinstructies en kan generaliseren naar nieuwe taken die nieuw optimaal gedrag vereisen. In het bijzonder behaalt het op 1.000 onbekende taken een slagingspercentage van 42%, wat 1,7x het slagingspercentage is van andere veelgebruikte geleerde basislijnen of zero-shot toepassingen van LLMs. Tot slot, om de gemeenschap te ondersteunen bij het bestuderen van taalgeconditioneerde, massaal multi-task, belichaamde AI-problemen, brengen we een nieuwe benchmark uit, Language Rearrangement, bestaande uit 150.000 trainings- en 1.000 testtaken voor taalgeconditioneerde herschikking. Video-voorbeelden van LLaRP in onbekende Language Rearrangement-instructies zijn te vinden op https://llm-rl.github.io.
Grote Taalmodellen worden getraind op enorme hoeveelheden tekst van het internet, dat zowel feitelijke als misleidende informatie over de wereld bevat. Kunnen taalmodelen waarheid van onwaarheid onderscheiden in deze tegenstrijdige data? Uitgaand van het idee dat LLM's verschillende agentschappen kunnen modelleren die de corpora produceren, stellen we de hypothese op dat ze waarheidsgetrouwe tekst kunnen clusteren door een waarheidsgetrouwe persona te modelleren: een groep agentschappen die waarschijnlijk waarheidsgetrouwe tekst produceren en vergelijkbare kenmerken delen. Bijvoorbeeld, betrouwbare bronnen zoals Wikipedia en wetenschappelijke artikelen gebruiken meestal formele schrijfstijlen en maken consistente beweringen. Door deze persona te modelleren, kunnen LLM's waarheidsgetrouwheid generaliseren buiten de specifieke contexten waarin elk agentschap de trainingsdata heeft gegenereerd. Zo kan het model bijvoorbeeld afleiden dat het agentschap "Wikipedia" waarheidsgetrouw zal zijn over onderwerpen die alleen door "Wetenschap" zijn gegenereerd, omdat ze een gedeelde persona hebben. We tonen eerst bewijs voor de persona-hypothese aan de hand van twee observaties: (1) we kunnen onderzoeken of het antwoord van een model waarheidsgetrouw zal zijn voordat het wordt gegenereerd; (2) het finetunen van een model op een set feiten verbetert de waarheidsgetrouwheid ervan op onbekende onderwerpen. Vervolgens laten we, met behulp van rekenkunde als een synthetische omgeving, zien dat taalmodelen ware en onware uitspraken kunnen scheiden en waarheidsgetrouwheid kunnen generaliseren over agentschappen heen; maar alleen als de agentschappen in de trainingsdata een waarheidsgetrouw generatief proces delen dat het mogelijk maakt om een waarheidsgetrouwe persona te creëren. Over het algemeen suggereren onze bevindingen dat modellen hiërarchische structuren in de data kunnen benutten om abstracte concepten zoals waarheidsgetrouwheid te leren.