Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Text-to-3D-generatie, dat als doel heeft levendige 3D-objecten te synthetiseren vanuit tekstprompts, heeft veel aandacht gekregen van de computervisie-gemeenschap. Hoewel verschillende bestaande werken indrukwekkende resultaten hebben behaald voor deze taak, baseren ze zich voornamelijk op een tijdrovend optimalisatieparadigma. Specifiek optimaliseren deze methoden een neuraal veld vanaf nul voor elke tekstprompt, wat ongeveer een uur of meer kost om één object te genereren. Deze zware en repetitieve trainingskosten belemmeren hun praktische inzetbaarheid. In dit artikel stellen we een nieuw framework voor voor snelle text-to-3D-generatie, genaamd Instant3D. Eenmaal getraind, is Instant3D in staat om een 3D-object te creëren voor een onbekende tekstprompt in minder dan één seconde met een enkele uitvoering van een feedforward-netwerk. We bereiken deze opmerkelijke snelheid door een nieuw netwerk te ontwerpen dat direct een 3D-triplane construeert vanuit een tekstprompt. De kerninnovatie van onze Instant3D ligt in onze verkenning van strategieën om tekstcondities effectief in het netwerk te injecteren. Bovendien stellen we een eenvoudige maar effectieve activatiefunctie voor, de geschaalde sigmoïde, om de oorspronkelijke sigmoïdefunctie te vervangen, wat de trainingsconvergentie meer dan tien keer versnelt. Ten slotte, om het Janus (multi-head) probleem in 3D-generatie aan te pakken, stellen we een adaptief Perp-Neg-algoritme voor dat dynamisch zijn conceptnegatieschalen kan aanpassen op basis van de ernst van het Janus-probleem tijdens de training, waardoor het multi-head-effect effectief wordt verminderd. Uitgebreide experimenten op een breed scala aan benchmarkdatasets tonen aan dat het voorgestelde algoritme kwalitatief en kwantitatief gunstig presteert ten opzichte van de state-of-the-art methoden, terwijl het aanzienlijk betere efficiëntie bereikt. De projectpagina is te vinden op https://ming1993li.github.io/Instant3DProj.
Recente vooruitgang in de generatie van 3D-objecten in open werelden is opmerkelijk, waarbij beeld-naar-3D-methoden een superieure, fijnmazige controle bieden in vergelijking met hun tekst-naar-3D-tegenhangers. De meeste bestaande modellen schieten echter tekort in het gelijktijdig bieden van snelle generatiesnelheden en een hoge trouw aan de invoerbeelden – twee kenmerken die essentieel zijn voor praktische toepassingen. In dit artikel presenteren we One-2-3-45++, een innovatieve methode die een enkel beeld omzet in een gedetailleerd 3D-textuurmesh in ongeveer één minuut. Onze aanpak is gericht op het volledig benutten van de uitgebreide kennis die is ingebed in 2D-diffusiemodellen en prioriteiten uit waardevolle maar beperkte 3D-gegevens. Dit wordt bereikt door eerst een 2D-diffusiemodel af te stemmen voor consistente multi-view beeldgeneratie, gevolgd door het verheffen van deze beelden naar 3D met behulp van multi-view geconditioneerde 3D-native diffusiemodellen. Uitgebreide experimentele evaluaties tonen aan dat onze methode hoogwaardige, diverse 3D-assets kan produceren die nauw aansluiten bij het oorspronkelijke invoerbeeld. Onze projectwebpagina: https://sudo-ai-3d.github.io/One2345plus_page.
De vloeiendheid en creativiteit van grote vooraf getrainde taalmmodellen (LLM's) hebben geleid tot hun brede toepassing, soms zelfs als vervanging van traditionele zoekmachines. Toch zijn taalmmodellen geneigd om overtuigende maar feitelijk onjuiste beweringen te maken, vaak aangeduid als 'hallucinaties'. Deze fouten kunnen onbedoeld desinformatie verspreiden of schadelijke misvattingen in stand houden. Bovendien is handmatige feitencontrole van modelreacties een tijdrovend proces, waardoor menselijke feitelijkheidslabels duur zijn om te verkrijgen. In dit werk fine-tunen we taalmmodellen om feitelijker te zijn, zonder menselijke labeling en gericht op meer open-ended generatie-instellingen dan eerder werk. Hiervoor maken we gebruik van twee belangrijke recente innovaties in NLP. Ten eerste hebben verschillende recente werken methoden voorgesteld om de feitelijkheid van open-ended tekst te beoordelen door consistentie te meten met een externe kennisbank of simpelweg de betrouwbaarheidsscores van een groot model. Ten tweede maakt het direct preference optimization-algoritme het mogelijk om taalmmodellen eenvoudig te fine-tunen op doelen anders dan gesuperviseerde imitatie, door gebruik te maken van een voorkeursrangschikking over mogelijke modelreacties. We laten zien dat leren van automatisch gegenereerde feitelijkheidsvoorkeursrangschikkingen, gegenereerd via bestaande retrievalsystemen of onze nieuwe retrieval-vrije aanpak, de feitelijkheid (het percentage gegenereerde beweringen dat correct is) van Llama-2 aanzienlijk verbetert op onderwerpen die buiten de trainingsset vallen, vergeleken met RLHF of decodeerstrategieën gericht op feitelijkheid. Op de 7B-schaal, vergeleken met Llama-2-chat, observeren we een reductie van 58% en 40% in de feitelijke foutfrequentie bij het genereren van biografieën en het beantwoorden van medische vragen, respectievelijk.
In dit werk geven we een systematisch overzicht van de recente ontwikkelingen in codeprocessing met taalmodelen, waarbij we meer dan 50 modellen, 30+ evaluatietaken en 500 gerelateerde werken behandelen. We verdelen codeprocessingmodellen in algemene taalmodelen, vertegenwoordigd door de GPT-familie, en gespecialiseerde modellen die specifiek zijn voorgetraind op code, vaak met aangepaste doelen. We bespreken de relaties en verschillen tussen deze modellen en belichten de historische overgang van codemodellering van statistische modellen en RNN's naar voorgetrainde Transformers en LLM's, wat precies dezelfde weg is die NLP heeft afgelegd. We bespreken ook codespecifieke kenmerken zoals AST, CFG en unittests, evenals hun toepassing in het trainen van codetaalmodelen, en identificeren belangrijke uitdagingen en mogelijke toekomstige richtingen in dit domein. We houden het overzicht open en up-to-date in een GitHub-repository op https://github.com/codefuse-ai/Awesome-Code-LLM.
Een kerncapaciteit van grote taalmmodellen (LLM's) is het opvolgen van natuurlijke taal instructies. De evaluatie van dergelijke vaardigheden is echter niet gestandaardiseerd: menselijke evaluaties zijn duur, traag en niet objectief reproduceerbaar, terwijl automatische evaluatie op basis van LLM's potentieel bevooroordeeld is of beperkt wordt door het vermogen van het evaluerende LLM. Om deze problemen te overwinnen, introduceren we Instruction-Following Eval (IFEval) voor grote taalmmodellen. IFEval is een eenvoudig en gemakkelijk te reproduceren evaluatiebenchmark. Het richt zich op een set van "verifieerbare instructies", zoals "schrijf in meer dan 400 woorden" en "noem het sleutelwoord AI minstens 3 keer". We hebben 25 soorten van deze verifieerbare instructies geïdentificeerd en ongeveer 500 prompts geconstrueerd, waarbij elke prompt een of meer verifieerbare instructies bevat. We presenteren evaluatieresultaten van twee breed beschikbare LLM's op de markt. Onze code en gegevens zijn te vinden op https://github.com/google-research/google-research/tree/master/instruction_following_eval.
We demonstreren een situatie waarin Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, verkeerd uitgelijnd gedrag kunnen vertonen en hun gebruikers strategisch kunnen misleiden over dit gedrag, zonder daartoe geïnstrueerd te zijn. Concreet zetten we GPT-4 in als een agent in een realistisch, gesimuleerd milieu, waar het de rol aanneemt van een autonome aandelenhandelsagent. Binnen dit milieu ontvangt het model een insider-tip over een lucratieve aandelenhandel en handelt hiernaar, ondanks dat het weet dat handelen met voorkennis wordt afgekeurd door het bedrijfsmanagement. Bij het rapporteren aan zijn manager verbergt het model consequent de werkelijke redenen achter zijn handelsbeslissing. We voeren een kort onderzoek uit naar hoe dit gedrag varieert onder veranderingen in de setting, zoals het verwijderen van de toegang van het model tot een kladblok voor redeneren, het proberen te voorkomen van het verkeerd uitgelijnde gedrag door systeeminstructies aan te passen, het veranderen van de druk waaronder het model staat, het variëren van het waargenomen risico om betrapt te worden, en het maken van andere eenvoudige aanpassingen aan de omgeving. Voor zover wij weten, is dit de eerste demonstratie van Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, die strategisch hun gebruikers misleiden in een realistische situatie zonder directe instructies of training voor misleiding.
In dit werk stellen we FastCoT voor, een model-agnostisch raamwerk gebaseerd op parallelle decodering zonder aanvullende training van een hulpmodel of aanpassingen aan het LLM zelf. FastCoT gebruikt een contextvenster met variabele grootte dat verandert met de positie om parallelle decodering en autoregressieve decodering gelijktijdig uit te voeren, waardoor de GPU-rekenbronnen optimaal worden benut. In FastCoT biedt het parallelle decoderinggedeelte het LLM een snelle blik op de toekomst, bestaande uit benaderende tokens, wat kan leiden tot snellere antwoorden vergeleken met de reguliere autoregressieve decodering die door causale transformers wordt gebruikt. We bieden ook een implementatie van parallelle decodering binnen het LLM, die KV-cache-generatie en batchverwerking ondersteunt. Door uitgebreide experimenten tonen we aan dat FastCoT de inferentietijd met bijna 20% verkort, met slechts een verwaarloosbare prestatievermindering vergeleken met de reguliere aanpak. Daarnaast laten we zien dat de grootte van het contextvenster aanzienlijke robuustheid vertoont voor verschillende taken.
Grote taalmodelen (LLM) zijn een cruciaal onderdeel geworden in veel toepassingen van machine learning. Standaardbenaderingen voor het trainen van LLM vereisen echter een groot aantal nauw met elkaar verbonden accelerators, waarbij apparaten bij elke optimalisatiestap gradiënten en andere tussenliggende staten uitwisselen. Hoewel het moeilijk is om een enkel rekencluster te bouwen en te onderhouden dat veel accelerators host, kan het gemakkelijker zijn om meerdere rekenclusters te vinden die elk een kleiner aantal apparaten hosten. In dit werk stellen we een gedistribueerd optimalisatie-algoritme voor, Distributed Low-Communication (DiLoCo), dat het mogelijk maakt om taalmodelen te trainen op eilanden van slecht verbonden apparaten. De aanpak is een variant van federated averaging, waarbij het aantal binnenstappen groot is, de binnenste optimizer AdamW is, en de buitenste optimizer Nesterov momentum is. Op de veelgebruikte C4-dataset laten we zien dat DiLoCo op 8 workers even goed presteert als volledig synchrone optimalisatie, terwijl het 500 keer minder communiceert. DiLoCo toont een grote robuustheid ten opzichte van de gegevensverdeling van elke worker. Het is ook robuust tegen het onbeschikbaar worden van bronnen over tijd, en omgekeerd kan het naadloos gebruikmaken van bronnen die tijdens het trainen beschikbaar worden.
De afgelopen jaren hebben Large Language Models (LLM's) opmerkelijke generatieve vaardigheden getoond, maar kunnen ze ook de kwaliteit van hun eigen generaties beoordelen? Een populair concept, genaamd zelfverfijning, stelt dat LLM's fouten in hun generaties kunnen detecteren en corrigeren wanneer ze daartoe worden aangezet. Recent empirisch bewijs wijst echter in de tegenovergestelde richting en suggereert dat LLM's vaak moeite hebben om fouten accuraat te identificeren wanneer redenering betrokken is. Om dit aan te pakken, stellen we een doelstelling voor redeneren met verfijning voor, genaamd ART: Ask, Refine, and Trust (Vraag, Verfijn en Vertrouw). Deze methode stelt noodzakelijke vragen om te bepalen wanneer een LLM zijn output moet verfijnen, en bevestigt of weerhoudt vertrouwen in de verfijning door de verfijning en de initiële voorspelling te rangschikken. Op twee meerstaps redeneertaken van wiskundige woordproblemen (GSM8K) en vraagbeantwoording (StrategyQA) behaalt ART een prestatieverbetering van +5 punten ten opzichte van zelfverfijningsbaselines, terwijl een veel kleiner model wordt gebruikt als besluitvormer. We tonen ook het voordeel aan van het gebruik van kleinere modellen om verfijningsbeslissingen te nemen als een kosteneffectief alternatief voor het finetunen van een groter model.
Onlangs hebben instructievolgende audio-taalmodellen brede aandacht gekregen voor audio-interactie met mensen. Het ontbreken van vooraf getrainde audiomodellen die in staat zijn om diverse audiotypen en taken te verwerken, heeft echter de vooruitgang op dit gebied belemmerd. Als gevolg hiervan hebben de meeste bestaande werken slechts een beperkt scala aan interactiemogelijkheden kunnen ondersteunen. In dit artikel ontwikkelen we het Qwen-Audio-model en pakken we deze beperking aan door de audio-taalvoorpretentie op te schalen om meer dan 30 taken en verschillende audiotypen te omvatten, zoals menselijke spraak, natuurlijke geluiden, muziek en liedjes, om universele audio-begripsvaardigheden te faciliteren. Het direct gezamenlijk trainen van alle taken en datasets kan echter leiden tot interferentieproblemen, aangezien de tekstuele labels die aan verschillende datasets zijn gekoppeld aanzienlijke variaties vertonen vanwege verschillen in taakfocus, taal, annotatiegranulariteit en tekststructuur. Om de één-op-veel-interferentie te overwinnen, ontwerpen we zorgvuldig een multi-task trainingsframework door een reeks hiërarchische tags aan de decoder te koppelen om kennisuitwisseling aan te moedigen en interferentie te vermijden door respectievelijk gedeelde en gespecificeerde tags. Opmerkelijk is dat Qwen-Audio indrukwekkende prestaties behaalt op diverse benchmarktaken zonder dat taakspecifieke fine-tuning vereist is, waardoor het zijn tegenhangers overtreft. Op basis van de mogelijkheden van Qwen-Audio ontwikkelen we verder Qwen-Audio-Chat, dat invoer van verschillende audio's en tekstinvoer mogelijk maakt, waardoor multi-turn dialogen worden gefaciliteerd en verschillende audio-centrale scenario's worden ondersteund.
Red-teaming is een gangbare praktijk om onveilige gedragingen in Large Language Models (LLM's) te beperken, waarbij LLM's grondig worden beoordeeld om potentiële tekortkomingen te identificeren en deze aan te pakken met verantwoorde en accurate reacties. Hoewel effectief, is handmatig red-teaming kostbaar, en bestaande automatische red-teaming ontdekt meestal veiligheidsrisico's zonder deze op te lossen. In dit artikel stellen we een Multi-round Automatic Red-Teaming (MART) methode voor, die zowel automatisch het schrijven van adversariële prompts als het genereren van veilige reacties omvat, waardoor de schaalbaarheid van red-teaming en de veiligheid van het doel-LLM aanzienlijk worden vergroot. Specifiek interageren een adversariële LLM en een doel-LLM op iteratieve wijze met elkaar, waarbij de adversariële LLM ernaar streeft uitdagende prompts te genereren die onveilige reacties van het doel-LLM uitlokken, terwijl het doel-LLM wordt verfijnd met veiligheidsafgestemde gegevens op deze adversariële prompts. In elke ronde ontwikkelt de adversariële LLM betere aanvallen op het bijgewerkte doel-LLM, terwijl het doel-LLM zichzelf ook verbetert door middel van veiligheidsverfijning. Op benchmarks voor adversariële prompts daalt de overtredingsratio van een LLM met beperkte veiligheidsafstemming tot wel 84,7% na 4 rondes van MART, wat vergelijkbaar is met de prestaties van LLM's met uitgebreid adversariële promptschrijven. Opmerkelijk is dat de behulpzaamheid van het model op niet-adversariële prompts stabiel blijft gedurende de iteraties, wat aangeeft dat het doel-LLM sterke prestaties blijft leveren bij het opvolgen van instructies.