HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

11 papers found

Instant3D: Directe Tekst-naar-3D Generatie
Instant3D: Instant Text-to-3D Generation

Nov 14

ByMing Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu

Text-to-3D-generatie, dat als doel heeft levendige 3D-objecten te synthetiseren vanuit tekstprompts, heeft veel aandacht gekregen van de computervisie-gemeenschap. Hoewel verschillende bestaande werken indrukwekkende resultaten hebben behaald voor deze taak, baseren ze zich voornamelijk op een tijdrovend optimalisatieparadigma. Specifiek optimaliseren deze methoden een neuraal veld vanaf nul voor elke tekstprompt, wat ongeveer een uur of meer kost om één object te genereren. Deze zware en repetitieve trainingskosten belemmeren hun praktische inzetbaarheid. In dit artikel stellen we een nieuw framework voor voor snelle text-to-3D-generatie, genaamd Instant3D. Eenmaal getraind, is Instant3D in staat om een 3D-object te creëren voor een onbekende tekstprompt in minder dan één seconde met een enkele uitvoering van een feedforward-netwerk. We bereiken deze opmerkelijke snelheid door een nieuw netwerk te ontwerpen dat direct een 3D-triplane construeert vanuit een tekstprompt. De kerninnovatie van onze Instant3D ligt in onze verkenning van strategieën om tekstcondities effectief in het netwerk te injecteren. Bovendien stellen we een eenvoudige maar effectieve activatiefunctie voor, de geschaalde sigmoïde, om de oorspronkelijke sigmoïdefunctie te vervangen, wat de trainingsconvergentie meer dan tien keer versnelt. Ten slotte, om het Janus (multi-head) probleem in 3D-generatie aan te pakken, stellen we een adaptief Perp-Neg-algoritme voor dat dynamisch zijn conceptnegatieschalen kan aanpassen op basis van de ernst van het Janus-probleem tijdens de training, waardoor het multi-head-effect effectief wordt verminderd. Uitgebreide experimenten op een breed scala aan benchmarkdatasets tonen aan dat het voorgestelde algoritme kwalitatief en kwantitatief gunstig presteert ten opzichte van de state-of-the-art methoden, terwijl het aanzienlijk betere efficiëntie bereikt. De projectpagina is te vinden op https://ming1993li.github.io/Instant3DProj.

One-2-3-45++: Snelle Conversie van Enkele Afbeelding naar 3D-objecten met Consistente Multi-View Generatie en 3D Diffusie
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion

Nov 14

ByMinghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su

Recente vooruitgang in de generatie van 3D-objecten in open werelden is opmerkelijk, waarbij beeld-naar-3D-methoden een superieure, fijnmazige controle bieden in vergelijking met hun tekst-naar-3D-tegenhangers. De meeste bestaande modellen schieten echter tekort in het gelijktijdig bieden van snelle generatiesnelheden en een hoge trouw aan de invoerbeelden – twee kenmerken die essentieel zijn voor praktische toepassingen. In dit artikel presenteren we One-2-3-45++, een innovatieve methode die een enkel beeld omzet in een gedetailleerd 3D-textuurmesh in ongeveer één minuut. Onze aanpak is gericht op het volledig benutten van de uitgebreide kennis die is ingebed in 2D-diffusiemodellen en prioriteiten uit waardevolle maar beperkte 3D-gegevens. Dit wordt bereikt door eerst een 2D-diffusiemodel af te stemmen voor consistente multi-view beeldgeneratie, gevolgd door het verheffen van deze beelden naar 3D met behulp van multi-view geconditioneerde 3D-native diffusiemodellen. Uitgebreide experimentele evaluaties tonen aan dat onze methode hoogwaardige, diverse 3D-assets kan produceren die nauw aansluiten bij het oorspronkelijke invoerbeeld. Onze projectwebpagina: https://sudo-ai-3d.github.io/One2345plus_page.

Het finetunen van taalmodellen voor feitelijkheid
Fine-tuning Language Models for Factuality

Nov 14

ByKatherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn

De vloeiendheid en creativiteit van grote vooraf getrainde taalmmodellen (LLM's) hebben geleid tot hun brede toepassing, soms zelfs als vervanging van traditionele zoekmachines. Toch zijn taalmmodellen geneigd om overtuigende maar feitelijk onjuiste beweringen te maken, vaak aangeduid als 'hallucinaties'. Deze fouten kunnen onbedoeld desinformatie verspreiden of schadelijke misvattingen in stand houden. Bovendien is handmatige feitencontrole van modelreacties een tijdrovend proces, waardoor menselijke feitelijkheidslabels duur zijn om te verkrijgen. In dit werk fine-tunen we taalmmodellen om feitelijker te zijn, zonder menselijke labeling en gericht op meer open-ended generatie-instellingen dan eerder werk. Hiervoor maken we gebruik van twee belangrijke recente innovaties in NLP. Ten eerste hebben verschillende recente werken methoden voorgesteld om de feitelijkheid van open-ended tekst te beoordelen door consistentie te meten met een externe kennisbank of simpelweg de betrouwbaarheidsscores van een groot model. Ten tweede maakt het direct preference optimization-algoritme het mogelijk om taalmmodellen eenvoudig te fine-tunen op doelen anders dan gesuperviseerde imitatie, door gebruik te maken van een voorkeursrangschikking over mogelijke modelreacties. We laten zien dat leren van automatisch gegenereerde feitelijkheidsvoorkeursrangschikkingen, gegenereerd via bestaande retrievalsystemen of onze nieuwe retrieval-vrije aanpak, de feitelijkheid (het percentage gegenereerde beweringen dat correct is) van Llama-2 aanzienlijk verbetert op onderwerpen die buiten de trainingsset vallen, vergeleken met RLHF of decodeerstrategieën gericht op feitelijkheid. Op de 7B-schaal, vergeleken met Llama-2-chat, observeren we een reductie van 58% en 40% in de feitelijke foutfrequentie bij het genereren van biografieën en het beantwoorden van medische vragen, respectievelijk.

Een Overzicht van Taalmodellen voor Code
A Survey on Language Models for Code

Nov 14

ByZiyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong, Hang Yu, Jianguo Li, Rui Wang

In dit werk geven we een systematisch overzicht van de recente ontwikkelingen in codeprocessing met taalmodelen, waarbij we meer dan 50 modellen, 30+ evaluatietaken en 500 gerelateerde werken behandelen. We verdelen codeprocessingmodellen in algemene taalmodelen, vertegenwoordigd door de GPT-familie, en gespecialiseerde modellen die specifiek zijn voorgetraind op code, vaak met aangepaste doelen. We bespreken de relaties en verschillen tussen deze modellen en belichten de historische overgang van codemodellering van statistische modellen en RNN's naar voorgetrainde Transformers en LLM's, wat precies dezelfde weg is die NLP heeft afgelegd. We bespreken ook codespecifieke kenmerken zoals AST, CFG en unittests, evenals hun toepassing in het trainen van codetaalmodelen, en identificeren belangrijke uitdagingen en mogelijke toekomstige richtingen in dit domein. We houden het overzicht open en up-to-date in een GitHub-repository op https://github.com/codefuse-ai/Awesome-Code-LLM.

Evaluatie van Instructievolging voor Grote Taalmodellen
Instruction-Following Evaluation for Large Language Models

Nov 14

ByJeffrey Zhou, Tianjian Lu, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, Yi Luan, Denny Zhou, Le Hou

Een kerncapaciteit van grote taalmmodellen (LLM's) is het opvolgen van natuurlijke taal instructies. De evaluatie van dergelijke vaardigheden is echter niet gestandaardiseerd: menselijke evaluaties zijn duur, traag en niet objectief reproduceerbaar, terwijl automatische evaluatie op basis van LLM's potentieel bevooroordeeld is of beperkt wordt door het vermogen van het evaluerende LLM. Om deze problemen te overwinnen, introduceren we Instruction-Following Eval (IFEval) voor grote taalmmodellen. IFEval is een eenvoudig en gemakkelijk te reproduceren evaluatiebenchmark. Het richt zich op een set van "verifieerbare instructies", zoals "schrijf in meer dan 400 woorden" en "noem het sleutelwoord AI minstens 3 keer". We hebben 25 soorten van deze verifieerbare instructies geïdentificeerd en ongeveer 500 prompts geconstrueerd, waarbij elke prompt een of meer verifieerbare instructies bevat. We presenteren evaluatieresultaten van twee breed beschikbare LLM's op de markt. Onze code en gegevens zijn te vinden op https://github.com/google-research/google-research/tree/master/instruction_following_eval.

Technisch Rapport: Grote Taalmodellen Kunnen Hun Gebruikers Strategisch Misleiden Onder Druk
Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure

Nov 9

ByJérémy Scheurer, Mikita Balesni, Marius Hobbhahn

We demonstreren een situatie waarin Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, verkeerd uitgelijnd gedrag kunnen vertonen en hun gebruikers strategisch kunnen misleiden over dit gedrag, zonder daartoe geïnstrueerd te zijn. Concreet zetten we GPT-4 in als een agent in een realistisch, gesimuleerd milieu, waar het de rol aanneemt van een autonome aandelenhandelsagent. Binnen dit milieu ontvangt het model een insider-tip over een lucratieve aandelenhandel en handelt hiernaar, ondanks dat het weet dat handelen met voorkennis wordt afgekeurd door het bedrijfsmanagement. Bij het rapporteren aan zijn manager verbergt het model consequent de werkelijke redenen achter zijn handelsbeslissing. We voeren een kort onderzoek uit naar hoe dit gedrag varieert onder veranderingen in de setting, zoals het verwijderen van de toegang van het model tot een kladblok voor redeneren, het proberen te voorkomen van het verkeerd uitgelijnde gedrag door systeeminstructies aan te passen, het veranderen van de druk waaronder het model staat, het variëren van het waargenomen risico om betrapt te worden, en het maken van andere eenvoudige aanpassingen aan de omgeving. Voor zover wij weten, is dit de eerste demonstratie van Large Language Models, getraind om behulpzaam, onschadelijk en eerlijk te zijn, die strategisch hun gebruikers misleiden in een realistische situatie zonder directe instructies of training voor misleiding.

Snelle Gedachteketting: Een Blik op de Toekomst vanuit Parallel Decoderen Leidt tot Snellere Antwoorden
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster

Nov 14

ByHongxuan Zhang, Zhining Liu, Jiaqi Zheng, Chenyi Zhuang, Jinjie Gu, Guihai Chen

In dit werk stellen we FastCoT voor, een model-agnostisch raamwerk gebaseerd op parallelle decodering zonder aanvullende training van een hulpmodel of aanpassingen aan het LLM zelf. FastCoT gebruikt een contextvenster met variabele grootte dat verandert met de positie om parallelle decodering en autoregressieve decodering gelijktijdig uit te voeren, waardoor de GPU-rekenbronnen optimaal worden benut. In FastCoT biedt het parallelle decoderinggedeelte het LLM een snelle blik op de toekomst, bestaande uit benaderende tokens, wat kan leiden tot snellere antwoorden vergeleken met de reguliere autoregressieve decodering die door causale transformers wordt gebruikt. We bieden ook een implementatie van parallelle decodering binnen het LLM, die KV-cache-generatie en batchverwerking ondersteunt. Door uitgebreide experimenten tonen we aan dat FastCoT de inferentietijd met bijna 20% verkort, met slechts een verwaarloosbare prestatievermindering vergeleken met de reguliere aanpak. Daarnaast laten we zien dat de grootte van het contextvenster aanzienlijke robuustheid vertoont voor verschillende taken.

DiLoCo: Gedistribueerde training van taalmodelen met weinig communicatie
DiLoCo: Distributed Low-Communication Training of Language Models

Nov 14

ByArthur Douillard, Qixuan Feng, Andrei A. Rusu, Rachita Chhaparia, Yani Donchev, Adhiguna Kuncoro, Marc'Aurelio Ranzato, Arthur Szlam, Jiajun Shen

Grote taalmodelen (LLM) zijn een cruciaal onderdeel geworden in veel toepassingen van machine learning. Standaardbenaderingen voor het trainen van LLM vereisen echter een groot aantal nauw met elkaar verbonden accelerators, waarbij apparaten bij elke optimalisatiestap gradiënten en andere tussenliggende staten uitwisselen. Hoewel het moeilijk is om een enkel rekencluster te bouwen en te onderhouden dat veel accelerators host, kan het gemakkelijker zijn om meerdere rekenclusters te vinden die elk een kleiner aantal apparaten hosten. In dit werk stellen we een gedistribueerd optimalisatie-algoritme voor, Distributed Low-Communication (DiLoCo), dat het mogelijk maakt om taalmodelen te trainen op eilanden van slecht verbonden apparaten. De aanpak is een variant van federated averaging, waarbij het aantal binnenstappen groot is, de binnenste optimizer AdamW is, en de buitenste optimizer Nesterov momentum is. Op de veelgebruikte C4-dataset laten we zien dat DiLoCo op 8 workers even goed presteert als volledig synchrone optimalisatie, terwijl het 500 keer minder communiceert. DiLoCo toont een grote robuustheid ten opzichte van de gegevensverdeling van elke worker. Het is ook robuust tegen het onbeschikbaar worden van bronnen over tijd, en omgekeerd kan het naadloos gebruikmaken van bronnen die tijdens het trainen beschikbaar worden.

De kunst van LLM-verfijning: Vraag, Verfijn en Vertrouw
The ART of LLM Refinement: Ask, Refine, and Trust

Nov 14

ByKumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz

De afgelopen jaren hebben Large Language Models (LLM's) opmerkelijke generatieve vaardigheden getoond, maar kunnen ze ook de kwaliteit van hun eigen generaties beoordelen? Een populair concept, genaamd zelfverfijning, stelt dat LLM's fouten in hun generaties kunnen detecteren en corrigeren wanneer ze daartoe worden aangezet. Recent empirisch bewijs wijst echter in de tegenovergestelde richting en suggereert dat LLM's vaak moeite hebben om fouten accuraat te identificeren wanneer redenering betrokken is. Om dit aan te pakken, stellen we een doelstelling voor redeneren met verfijning voor, genaamd ART: Ask, Refine, and Trust (Vraag, Verfijn en Vertrouw). Deze methode stelt noodzakelijke vragen om te bepalen wanneer een LLM zijn output moet verfijnen, en bevestigt of weerhoudt vertrouwen in de verfijning door de verfijning en de initiële voorspelling te rangschikken. Op twee meerstaps redeneertaken van wiskundige woordproblemen (GSM8K) en vraagbeantwoording (StrategyQA) behaalt ART een prestatieverbetering van +5 punten ten opzichte van zelfverfijningsbaselines, terwijl een veel kleiner model wordt gebruikt als besluitvormer. We tonen ook het voordeel aan van het gebruik van kleinere modellen om verfijningsbeslissingen te nemen als een kosteneffectief alternatief voor het finetunen van een groter model.

Qwen-Audio: Vooruitgang in Universeel Audiobegrip via Grote, Verenigde Audio-Taalmodellen
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

Nov 14

ByYunfei Chu, Jin Xu, Xiaohuan Zhou, Qian Yang, Shiliang Zhang, Zhijie Yan, Chang Zhou, Jingren Zhou

Onlangs hebben instructievolgende audio-taalmodellen brede aandacht gekregen voor audio-interactie met mensen. Het ontbreken van vooraf getrainde audiomodellen die in staat zijn om diverse audiotypen en taken te verwerken, heeft echter de vooruitgang op dit gebied belemmerd. Als gevolg hiervan hebben de meeste bestaande werken slechts een beperkt scala aan interactiemogelijkheden kunnen ondersteunen. In dit artikel ontwikkelen we het Qwen-Audio-model en pakken we deze beperking aan door de audio-taalvoorpretentie op te schalen om meer dan 30 taken en verschillende audiotypen te omvatten, zoals menselijke spraak, natuurlijke geluiden, muziek en liedjes, om universele audio-begripsvaardigheden te faciliteren. Het direct gezamenlijk trainen van alle taken en datasets kan echter leiden tot interferentieproblemen, aangezien de tekstuele labels die aan verschillende datasets zijn gekoppeld aanzienlijke variaties vertonen vanwege verschillen in taakfocus, taal, annotatiegranulariteit en tekststructuur. Om de één-op-veel-interferentie te overwinnen, ontwerpen we zorgvuldig een multi-task trainingsframework door een reeks hiërarchische tags aan de decoder te koppelen om kennisuitwisseling aan te moedigen en interferentie te vermijden door respectievelijk gedeelde en gespecificeerde tags. Opmerkelijk is dat Qwen-Audio indrukwekkende prestaties behaalt op diverse benchmarktaken zonder dat taakspecifieke fine-tuning vereist is, waardoor het zijn tegenhangers overtreft. Op basis van de mogelijkheden van Qwen-Audio ontwikkelen we verder Qwen-Audio-Chat, dat invoer van verschillende audio's en tekstinvoer mogelijk maakt, waardoor multi-turn dialogen worden gefaciliteerd en verschillende audio-centrale scenario's worden ondersteund.

MART: Verbetering van LLM-veiligheid met Multi-round Automatische Red-Teaming
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Nov 13

BySuyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao

Red-teaming is een gangbare praktijk om onveilige gedragingen in Large Language Models (LLM's) te beperken, waarbij LLM's grondig worden beoordeeld om potentiële tekortkomingen te identificeren en deze aan te pakken met verantwoorde en accurate reacties. Hoewel effectief, is handmatig red-teaming kostbaar, en bestaande automatische red-teaming ontdekt meestal veiligheidsrisico's zonder deze op te lossen. In dit artikel stellen we een Multi-round Automatic Red-Teaming (MART) methode voor, die zowel automatisch het schrijven van adversariële prompts als het genereren van veilige reacties omvat, waardoor de schaalbaarheid van red-teaming en de veiligheid van het doel-LLM aanzienlijk worden vergroot. Specifiek interageren een adversariële LLM en een doel-LLM op iteratieve wijze met elkaar, waarbij de adversariële LLM ernaar streeft uitdagende prompts te genereren die onveilige reacties van het doel-LLM uitlokken, terwijl het doel-LLM wordt verfijnd met veiligheidsafgestemde gegevens op deze adversariële prompts. In elke ronde ontwikkelt de adversariële LLM betere aanvallen op het bijgewerkte doel-LLM, terwijl het doel-LLM zichzelf ook verbetert door middel van veiligheidsverfijning. Op benchmarks voor adversariële prompts daalt de overtredingsratio van een LLM met beperkte veiligheidsafstemming tot wel 84,7% na 4 rondes van MART, wat vergelijkbaar is met de prestaties van LLM's met uitgebreid adversariële promptschrijven. Opmerkelijk is dat de behulpzaamheid van het model op niet-adversariële prompts stabiel blijft gedurende de iteraties, wat aangeeft dat het doel-LLM sterke prestaties blijft leveren bij het opvolgen van instructies.

Instant3D: Directe Tekst-naar-3D Generatie
Instant3D: Instant Text-to-3D Generation

Nov 14

ByMing Li, Pan Zhou, Jia-Wei Liu, Jussi Keppo, Min Lin, Shuicheng Yan, Xiangyu Xu