HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

8 papers found

Naar zelfverbetering van LLM's via verbeelding, zoeken en bekritiseren
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Apr 18

ByYe Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu

Ondanks de indrukwekkende capaciteiten van Large Language Models (LLMs) bij verschillende taken, hebben ze nog steeds moeite met scenario's die complex redeneren en plannen vereisen. Recent onderzoek stelde geavanceerde promptingtechnieken en de noodzaak van fine-tuning met hoogwaardige data voor om de redeneervaardigheden van LLMs te verbeteren. Deze benaderingen worden echter inherent beperkt door de beschikbaarheid en kwaliteit van data. Gezien dit komen zelfcorrectie en zelfleren naar voren als haalbare oplossingen, waarbij strategieën worden ingezet die LLMs in staat stellen hun uitvoer te verfijnen en te leren van zelfbeoordeelde beloningen. Toch blijft de effectiviteit van LLMs bij het zelfverfijnen van hun reacties, met name bij complexe redeneer- en plannings taken, twijfelachtig. In dit artikel introduceren we AlphaLLM voor de zelfverbetering van LLMs, dat Monte Carlo Tree Search (MCTS) integreert met LLMs om een zelfverbeterende lus te creëren, waardoor de capaciteiten van LLMs worden vergroot zonder aanvullende annotaties. Geïnspireerd door het succes van AlphaGo, behandelt AlphaLLM de unieke uitdagingen van het combineren van MCTS met LLM voor zelfverbetering, waaronder dataschaarste, de uitgestrektheid van zoekruimten bij taaltaken, en de subjectieve aard van feedback bij taaltaken. AlphaLLM bestaat uit een prompt-synthesecomponent, een efficiënte MCTS-aanpak afgestemd op taaltaken, en een trio van criticusmodellen voor precieze feedback. Onze experimentele resultaten bij wiskundige redeneertaken tonen aan dat AlphaLLM de prestaties van LLMs aanzienlijk verbetert zonder aanvullende annotaties, wat het potentieel voor zelfverbetering in LLMs aantoont.

Dynamische Typografie: Woorden tot leven brengen
Dynamic Typography: Bringing Words to Life

Apr 17

ByZichen Liu, Yihao Meng, Hao Ouyang, Yue Yu, Bolin Zhao, Daniel Cohen-Or, Huamin Qu

Tekstanimatie fungeert als een expressief medium dat statische communicatie omvormt tot dynamische ervaringen door woorden te voorzien van beweging om emoties op te roepen, betekenissen te benadrukken en boeiende verhalen te construeren. Het maken van semantisch bewuste animaties brengt aanzienlijke uitdagingen met zich mee en vereist expertise in grafisch ontwerp en animatie. Wij presenteren een geautomatiseerd tekstanimatieschema, genaamd "Dynamic Typography", dat twee uitdagende taken combineert. Het vervormt letters om semantische betekenis over te brengen en voorziet ze van levendige bewegingen op basis van gebruikersinstructies. Onze techniek maakt gebruik van vectorafbeeldingen en een end-to-end optimalisatiegebaseerd raamwerk. Dit raamwerk gebruikt neurale verplaatsingsvelden om letters om te zetten in basisvormen en past per-frame beweging toe, waardoor samenhang met het beoogde tekstuele concept wordt bevorderd. Vormbehoudtechnieken en perceptueel verliesregularisatie worden ingezet om de leesbaarheid en structurele integriteit gedurende het animatieproces te behouden. We tonen de generaliseerbaarheid van onze aanpak aan over verschillende tekst-naar-videomodellen en benadrukken de superioriteit van onze end-to-end methodologie ten opzichte van basismethoden, die mogelijk uit afzonderlijke taken bestaan. Door middel van kwantitatieve en kwalitatieve evaluaties demonstreren we de effectiviteit van ons raamwerk in het genereren van samenhangende tekstanimaties die gebruikersinstructies trouw interpreteren terwijl de leesbaarheid behouden blijft. Onze code is beschikbaar op: https://animate-your-word.github.io/demo/.

MeshLRM: Groot Reconstructiemodel voor Hoogwaardige Mesh
MeshLRM: Large Reconstruction Model for High-Quality Mesh

Apr 18

ByXinyue Wei, Kai Zhang, Sai Bi, Hao Tan, Fujun Luan, Valentin Deschaintre, Kalyan Sunkavalli, Hao Su, Zexiang Xu

Wij stellen MeshLRM voor, een nieuwe LRM-gebaseerde aanpak die in staat is om een hoogwaardig mesh te reconstrueren vanuit slechts vier invoerbeelden in minder dan één seconde. In tegenstelling tot eerdere grote reconstructiemodellen (LRMs) die zich richten op NeRF-gebaseerde reconstructie, integreert MeshLRM differentieerbare mesh-extractie en -rendering binnen het LRM-framework. Dit maakt end-to-end mesh-reconstructie mogelijk door een vooraf getrainde NeRF LRM te finetunen met mesh-rendering. Bovendien verbeteren we de LRM-architectuur door verschillende complexe ontwerpen uit eerdere LRMs te vereenvoudigen. De NeRF-initialisatie van MeshLRM wordt sequentieel getraind met afbeeldingen van lage en hoge resolutie; deze nieuwe LRM-trainingsstrategie maakt een aanzienlijk snellere convergentie mogelijk en leidt daardoor tot betere kwaliteit met minder rekenkracht. Onze aanpak bereikt state-of-the-art mesh-reconstructie vanuit sparse-view invoer en maakt ook veel downstream toepassingen mogelijk, waaronder tekst-naar-3D en enkele-afbeelding-naar-3D generatie. Projectpagina: https://sarahweiii.github.io/meshlrm/

EdgeFusion: Tekst-naar-beeldgeneratie op het apparaat
EdgeFusion: On-Device Text-to-Image Generation

Apr 18

ByThibault Castells, Hyoung-Kyu Song, Tairen Piao, Shinkook Choi, Bo-Kyeong Kim, Hanyoung Yim, Changgwun Lee, Jae Gon Kim, Tae-Ho Kim

De intensieve rekenlast van Stable Diffusion (SD) voor tekst-naar-beeldgeneratie vormt een aanzienlijke hindernis voor de praktische toepassing ervan. Om deze uitdaging aan te pakken, richt recent onderzoek zich op methoden om het aantal samplingstappen te verminderen, zoals het Latent Consistency Model (LCM), en op het toepassen van architectuuroptimalisaties, waaronder pruning en kennisdistillatie. Afwijkend van bestaande benaderingen, beginnen wij uniek met een compacte SD-variant, BK-SDM. Wij observeren dat het direct toepassen van LCM op BK-SDM met veelgebruikte gecrawlde datasets onbevredigende resultaten oplevert. Dit leidt ons tot het ontwikkelen van twee strategieën: (1) het benutten van hoogwaardige beeld-tekstparen van toonaangevende generatieve modellen en (2) het ontwerpen van een geavanceerd distillatieproces dat is afgestemd op LCM. Door onze grondige verkenning van kwantisatie, profilering en on-device-implementatie, bereiken we een snelle generatie van fotorealistische, tekstuitgelijnde beelden in slechts twee stappen, met een latentie van minder dan één seconde op resourcebeperkte edge-apparaten.

TriForce: Verliesvrije versnelling van lange sequentiegeneratie met hiërarchisch speculatief decoderen
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Apr 18

ByHanshi Sun, Zhuoming Chen, Xinyu Yang, Yuandong Tian, Beidi Chen

Met de wijdverspreide inzet van grote taalmodellen (LLMs) voor het genereren van lange inhoud is er recentelijk een toenemende vraag ontstaan naar efficiënte ondersteuning voor inferentie van lange sequenties. Echter, de key-value (KV) cache, die wordt opgeslagen om herberekening te voorkomen, is een kritieke bottleneck geworden doordat deze lineair in omvang toeneemt met de sequentielengte. Vanwege het auto-regressieve karakter van LLMs wordt de volledige KV cache geladen voor elk gegenereerd token, wat resulteert in een lage benutting van rekenkernen en hoge latentie. Hoewel verschillende compressiemethoden voor KV cache zijn voorgesteld om dit probleem te verlichten, leiden deze tot een afname in de generatiekwaliteit. Wij introduceren TriForce, een hiërarchisch speculatief decodering systeem dat schaalbaar is voor het genereren van lange sequenties. Deze aanpak maakt gebruik van de originele modelgewichten en een dynamische sparse KV cache via retrieval als een draft model, dat fungeert als een tussenlaag in de hiërarchie en verder wordt gespeculeerd door een kleiner model om de drafting latentie te verminderen. TriForce zorgt niet alleen voor indrukwekkende snelheidsverbeteringen voor Llama2-7B-128K, met een versnelling tot 2,31 keer op een A100 GPU, maar toont ook schaalbaarheid in het omgaan met nog langere contexten. Voor de offloading-instelling op twee RTX 4090 GPU's behaalt TriForce 0,108s/token—slechts half zo langzaam als de auto-regressieve baseline op een A100, die 7,78 keer haalt op ons geoptimaliseerde offloading systeem. Daarnaast presteert TriForce 4,86 keer beter dan DeepSpeed-Zero-Inference op een enkele RTX 4090 GPU. De robuustheid van TriForce wordt benadrukt door zijn consistent uitstekende prestaties bij verschillende temperaturen. De code is beschikbaar op https://github.com/Infini-AI-Lab/TriForce.

MoA: Mixture-of-Attention voor Onderwerp-Context Ontvlechting in Gepersonaliseerde Afbeeldingsgeneratie
MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

Apr 17

ByKuan-Chieh, Wang, Daniil Ostashev, Yuwei Fang, Sergey Tulyakov, Kfir Aberman

We introduceren een nieuwe architectuur voor de personalisatie van tekst-naar-beeld diffusiemodellen, genaamd Mixture-of-Attention (MoA). Geïnspireerd door het Mixture-of-Experts mechanisme dat wordt gebruikt in grote taalmodelen (LLMs), verdeelt MoA de generatiewerkbelasting tussen twee aandachtspaden: een gepersonaliseerde tak en een niet-gepersonaliseerde prior tak. MoA is ontworpen om de oorspronkelijke prior van het model te behouden door de aandachtslagen in de prior tak vast te zetten, terwijl het minimaal ingrijpt in het generatieproces met de gepersonaliseerde tak die leert om onderwerpen in te bedden in de lay-out en context gegenereerd door de prior tak. Een nieuw routeringsmechanisme beheert de verdeling van pixels in elke laag over deze takken om de mix van gepersonaliseerde en generieke contentcreatie te optimaliseren. Eenmaal getraind, vergemakkelijkt MoA het creëren van hoogwaardige, gepersonaliseerde afbeeldingen met meerdere onderwerpen met composities en interacties die zo divers zijn als die gegenereerd door het oorspronkelijke model. Cruciaal is dat MoA het onderscheid tussen de bestaande mogelijkheden van het model en de nieuw toegevoegde gepersonaliseerde interventie versterkt, waardoor een meer ontwarde controle over onderwerp-context wordt geboden die voorheen onbereikbaar was. Projectpagina: https://snap-research.github.io/mixture-of-attention

Hergebruik Je Beloningen: Overdracht van Beloningsmodellen voor Nul-Shot Cross-Linguale Afstemming
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

Apr 18

ByZhaofeng Wu, Ananth Balashankar, Yoon Kim, Jacob Eisenstein, Ahmad Beirami

Het afstemmen van taalmodelen (LMs) op basis van door mensen geannoteerde voorkeursdata is een cruciale stap om praktische en presterende LM-gebaseerde systemen te verkrijgen. Echter, meertalige voorkeursdata van mensen zijn moeilijk op grote schaal te verkrijgen, wat het uitbreiden van dit raamwerk naar diverse talen uitdagend maakt. In dit werk evalueren we een eenvoudige aanpak voor zero-shot cross-linguale afstemming, waarbij een beloningsmodel wordt getraind op voorkeursdata in één brontaal en direct wordt toegepast op andere doeltalen. Bij samenvatting en open dialooggeneratie laten we zien dat deze methode consistent succesvol is onder uitgebreide evaluatieomstandigheden, inclusief menselijke evaluatie: cross-lingueel afgestemde modellen worden door mensen verkozen boven niet-afgestemde modellen in meer dan >70% van de evaluatiegevallen. We ontdekken bovendien dat een beloningsmodel in een andere taal soms beter afgestemde modellen oplevert dan een beloningsmodel in dezelfde taal. We identificeren ook best practices wanneer er geen taalspecifieke data beschikbaar is voor zelfs supervised finetuning, een ander onderdeel in afstemming.

Introductie van v0.5 van de AI Safety Benchmark van MLCommons
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18

ByBertie Vidgen, Adarsh Agrawal, Ahmed M. Ahmed, Victor Akinwande, Namir Al-Nuaimi, Najla Alfaraj, Elie Alhajjar, Lora Aroyo, Trupti Bavalatti, Borhane Blili-Hamelin, Kurt Bollacker, Rishi Bomassani, Marisa Ferrara Boston, Siméon Campos, Kal Chakra, Canyu Chen, Cody Coleman, Zacharie Delpierre Coudert, Leon Derczynski, Debojyoti Dutta, Ian Eisenberg, James Ezick, Heather Frase, Brian Fuller, Ram Gandikota, Agasthya Gangavarapu, Ananya Gangavarapu, James Gealy, Rajat Ghosh, James Goel, Usman Gohar, Sujata Goswami, Scott A. Hale, Wiebke Hutiri, Joseph Marvin Imperial, Surgan Jandial, Nick Judd, Felix Juefei-Xu, Foutse Khomh, Bhavya Kailkhura, Hannah Rose Kirk, Kevin Klyman, Chris Knotz, Michael Kuchnik, Shachi H. Kumar, Chris Lengerich, Bo Li, Zeyi Liao, Eileen Peters Long, Victor Lu, Yifan Mai, Priyanka Mary Mammen, Kelvin Manyeki, Sean McGregor, Virendra Mehta, Shafee Mohammed, Emanuel Moss, Lama Nachman, Dinesh Jinenhally Naganna, Amin Nikanjam, Besmira Nushi, Luis Oala, Iftach Orr, Alicia Parrish, Cigdem Patlak, William Pietri, Forough Poursabzi-Sangdeh, Eleonora Presani, Fabrizio Puletti, Paul Röttger, Saurav Sahay, Tim Santos, Nino Scherrer, Alice Schoenauer Sebag, Patrick Schramowski, Abolfazl Shahbazi, Vin Sharma, Xudong Shen, Vamsi Sistla, Leonard Tang, Davide Testuggine, Vithursan Thangarasa, Elizabeth Anne Watkins, Rebecca Weiss, Chris Welty, Tyler Wilbers, Adina Williams, Carole-Jean Wu, Poonam Yadav, Xianjun Yang, Yi Zeng, Wenhui Zhang, Fedor Zhdanov, Jiacheng Zhu, Percy Liang, Peter Mattson, Joaquin Vanschoren

Dit artikel introduceert v0.5 van de AI Safety Benchmark, die is ontwikkeld door de MLCommons AI Safety Working Group. De AI Safety Benchmark is ontworpen om de veiligheidsrisico's van AI-systemen die gebruikmaken van chat-geoptimaliseerde taalmodelen te beoordelen. We introduceren een principiële aanpak voor het specificeren en construeren van de benchmark, die voor v0.5 slechts één use case omvat (een volwassene die in het Engels chat met een algemene assistent) en een beperkte set persona's (d.w.z. typische gebruikers, kwaadwillende gebruikers en kwetsbare gebruikers). We hebben een nieuwe taxonomie van 13 risicocategorieën opgesteld, waarvan er 7 tests bevatten in de v0.5-benchmark. We zijn van plan om versie 1.0 van de AI Safety Benchmark eind 2024 uit te brengen. De v1.0-benchmark zal zinvolle inzichten bieden in de veiligheid van AI-systemen. De v0.5-benchmark mag echter niet worden gebruikt om de veiligheid van AI-systemen te beoordelen. We hebben ernaar gestreefd de beperkingen, tekortkomingen en uitdagingen van v0.5 volledig te documenteren. Deze release van v0.5 van de AI Safety Benchmark omvat (1) een principiële aanpak voor het specificeren en construeren van de benchmark, die use cases, typen systemen onder test (SUTs), taal en context, persona's, tests en testitems omvat; (2) een taxonomie van 13 risicocategorieën met definities en subcategorieën; (3) tests voor zeven van de risicocategorieën, elk bestaande uit een unieke set testitems, d.w.z. prompts. Er zijn in totaal 43.090 testitems, die we hebben gemaakt met sjablonen; (4) een beoordelingssysteem voor AI-systemen tegen de benchmark; (5) een openbaar beschikbaar platform en een downloadbaar hulpmiddel, genaamd ModelBench, dat kan worden gebruikt om de veiligheid van AI-systemen op de benchmark te evalueren; (6) een voorbeeld van een evaluatierapport dat de prestaties van meer dan een dozijn openbaar beschikbare chat-geoptimaliseerde taalmodelen benchmarkt; (7) een testspecificatie voor de benchmark.

Introductie van v0.5 van de AI Safety Benchmark van MLCommons
Introducing v0.5 of the AI Safety Benchmark from MLCommons

Apr 18