Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de indrukwekkende capaciteiten van Large Language Models (LLMs) bij verschillende taken, hebben ze nog steeds moeite met scenario's die complex redeneren en plannen vereisen. Recent onderzoek stelde geavanceerde promptingtechnieken en de noodzaak van fine-tuning met hoogwaardige data voor om de redeneervaardigheden van LLMs te verbeteren. Deze benaderingen worden echter inherent beperkt door de beschikbaarheid en kwaliteit van data. Gezien dit komen zelfcorrectie en zelfleren naar voren als haalbare oplossingen, waarbij strategieën worden ingezet die LLMs in staat stellen hun uitvoer te verfijnen en te leren van zelfbeoordeelde beloningen. Toch blijft de effectiviteit van LLMs bij het zelfverfijnen van hun reacties, met name bij complexe redeneer- en plannings taken, twijfelachtig. In dit artikel introduceren we AlphaLLM voor de zelfverbetering van LLMs, dat Monte Carlo Tree Search (MCTS) integreert met LLMs om een zelfverbeterende lus te creëren, waardoor de capaciteiten van LLMs worden vergroot zonder aanvullende annotaties. Geïnspireerd door het succes van AlphaGo, behandelt AlphaLLM de unieke uitdagingen van het combineren van MCTS met LLM voor zelfverbetering, waaronder dataschaarste, de uitgestrektheid van zoekruimten bij taaltaken, en de subjectieve aard van feedback bij taaltaken. AlphaLLM bestaat uit een prompt-synthesecomponent, een efficiënte MCTS-aanpak afgestemd op taaltaken, en een trio van criticusmodellen voor precieze feedback. Onze experimentele resultaten bij wiskundige redeneertaken tonen aan dat AlphaLLM de prestaties van LLMs aanzienlijk verbetert zonder aanvullende annotaties, wat het potentieel voor zelfverbetering in LLMs aantoont.
Tekstanimatie fungeert als een expressief medium dat statische communicatie omvormt tot dynamische ervaringen door woorden te voorzien van beweging om emoties op te roepen, betekenissen te benadrukken en boeiende verhalen te construeren. Het maken van semantisch bewuste animaties brengt aanzienlijke uitdagingen met zich mee en vereist expertise in grafisch ontwerp en animatie. Wij presenteren een geautomatiseerd tekstanimatieschema, genaamd "Dynamic Typography", dat twee uitdagende taken combineert. Het vervormt letters om semantische betekenis over te brengen en voorziet ze van levendige bewegingen op basis van gebruikersinstructies. Onze techniek maakt gebruik van vectorafbeeldingen en een end-to-end optimalisatiegebaseerd raamwerk. Dit raamwerk gebruikt neurale verplaatsingsvelden om letters om te zetten in basisvormen en past per-frame beweging toe, waardoor samenhang met het beoogde tekstuele concept wordt bevorderd. Vormbehoudtechnieken en perceptueel verliesregularisatie worden ingezet om de leesbaarheid en structurele integriteit gedurende het animatieproces te behouden. We tonen de generaliseerbaarheid van onze aanpak aan over verschillende tekst-naar-videomodellen en benadrukken de superioriteit van onze end-to-end methodologie ten opzichte van basismethoden, die mogelijk uit afzonderlijke taken bestaan. Door middel van kwantitatieve en kwalitatieve evaluaties demonstreren we de effectiviteit van ons raamwerk in het genereren van samenhangende tekstanimaties die gebruikersinstructies trouw interpreteren terwijl de leesbaarheid behouden blijft. Onze code is beschikbaar op: https://animate-your-word.github.io/demo/.
Wij stellen MeshLRM voor, een nieuwe LRM-gebaseerde aanpak die in staat is om een hoogwaardig mesh te reconstrueren vanuit slechts vier invoerbeelden in minder dan één seconde. In tegenstelling tot eerdere grote reconstructiemodellen (LRMs) die zich richten op NeRF-gebaseerde reconstructie, integreert MeshLRM differentieerbare mesh-extractie en -rendering binnen het LRM-framework. Dit maakt end-to-end mesh-reconstructie mogelijk door een vooraf getrainde NeRF LRM te finetunen met mesh-rendering. Bovendien verbeteren we de LRM-architectuur door verschillende complexe ontwerpen uit eerdere LRMs te vereenvoudigen. De NeRF-initialisatie van MeshLRM wordt sequentieel getraind met afbeeldingen van lage en hoge resolutie; deze nieuwe LRM-trainingsstrategie maakt een aanzienlijk snellere convergentie mogelijk en leidt daardoor tot betere kwaliteit met minder rekenkracht. Onze aanpak bereikt state-of-the-art mesh-reconstructie vanuit sparse-view invoer en maakt ook veel downstream toepassingen mogelijk, waaronder tekst-naar-3D en enkele-afbeelding-naar-3D generatie. Projectpagina: https://sarahweiii.github.io/meshlrm/
De intensieve rekenlast van Stable Diffusion (SD) voor tekst-naar-beeldgeneratie vormt een aanzienlijke hindernis voor de praktische toepassing ervan. Om deze uitdaging aan te pakken, richt recent onderzoek zich op methoden om het aantal samplingstappen te verminderen, zoals het Latent Consistency Model (LCM), en op het toepassen van architectuuroptimalisaties, waaronder pruning en kennisdistillatie. Afwijkend van bestaande benaderingen, beginnen wij uniek met een compacte SD-variant, BK-SDM. Wij observeren dat het direct toepassen van LCM op BK-SDM met veelgebruikte gecrawlde datasets onbevredigende resultaten oplevert. Dit leidt ons tot het ontwikkelen van twee strategieën: (1) het benutten van hoogwaardige beeld-tekstparen van toonaangevende generatieve modellen en (2) het ontwerpen van een geavanceerd distillatieproces dat is afgestemd op LCM. Door onze grondige verkenning van kwantisatie, profilering en on-device-implementatie, bereiken we een snelle generatie van fotorealistische, tekstuitgelijnde beelden in slechts twee stappen, met een latentie van minder dan één seconde op resourcebeperkte edge-apparaten.
Met de wijdverspreide inzet van grote taalmodellen (LLMs) voor het genereren van lange inhoud is er recentelijk een toenemende vraag ontstaan naar efficiënte ondersteuning voor inferentie van lange sequenties. Echter, de key-value (KV) cache, die wordt opgeslagen om herberekening te voorkomen, is een kritieke bottleneck geworden doordat deze lineair in omvang toeneemt met de sequentielengte. Vanwege het auto-regressieve karakter van LLMs wordt de volledige KV cache geladen voor elk gegenereerd token, wat resulteert in een lage benutting van rekenkernen en hoge latentie. Hoewel verschillende compressiemethoden voor KV cache zijn voorgesteld om dit probleem te verlichten, leiden deze tot een afname in de generatiekwaliteit. Wij introduceren TriForce, een hiërarchisch speculatief decodering systeem dat schaalbaar is voor het genereren van lange sequenties. Deze aanpak maakt gebruik van de originele modelgewichten en een dynamische sparse KV cache via retrieval als een draft model, dat fungeert als een tussenlaag in de hiërarchie en verder wordt gespeculeerd door een kleiner model om de drafting latentie te verminderen. TriForce zorgt niet alleen voor indrukwekkende snelheidsverbeteringen voor Llama2-7B-128K, met een versnelling tot 2,31 keer op een A100 GPU, maar toont ook schaalbaarheid in het omgaan met nog langere contexten. Voor de offloading-instelling op twee RTX 4090 GPU's behaalt TriForce 0,108s/token—slechts half zo langzaam als de auto-regressieve baseline op een A100, die 7,78 keer haalt op ons geoptimaliseerde offloading systeem. Daarnaast presteert TriForce 4,86 keer beter dan DeepSpeed-Zero-Inference op een enkele RTX 4090 GPU. De robuustheid van TriForce wordt benadrukt door zijn consistent uitstekende prestaties bij verschillende temperaturen. De code is beschikbaar op https://github.com/Infini-AI-Lab/TriForce.
We introduceren een nieuwe architectuur voor de personalisatie van tekst-naar-beeld diffusiemodellen, genaamd Mixture-of-Attention (MoA). Geïnspireerd door het Mixture-of-Experts mechanisme dat wordt gebruikt in grote taalmodelen (LLMs), verdeelt MoA de generatiewerkbelasting tussen twee aandachtspaden: een gepersonaliseerde tak en een niet-gepersonaliseerde prior tak. MoA is ontworpen om de oorspronkelijke prior van het model te behouden door de aandachtslagen in de prior tak vast te zetten, terwijl het minimaal ingrijpt in het generatieproces met de gepersonaliseerde tak die leert om onderwerpen in te bedden in de lay-out en context gegenereerd door de prior tak. Een nieuw routeringsmechanisme beheert de verdeling van pixels in elke laag over deze takken om de mix van gepersonaliseerde en generieke contentcreatie te optimaliseren. Eenmaal getraind, vergemakkelijkt MoA het creëren van hoogwaardige, gepersonaliseerde afbeeldingen met meerdere onderwerpen met composities en interacties die zo divers zijn als die gegenereerd door het oorspronkelijke model. Cruciaal is dat MoA het onderscheid tussen de bestaande mogelijkheden van het model en de nieuw toegevoegde gepersonaliseerde interventie versterkt, waardoor een meer ontwarde controle over onderwerp-context wordt geboden die voorheen onbereikbaar was. Projectpagina: https://snap-research.github.io/mixture-of-attention
Het afstemmen van taalmodelen (LMs) op basis van door mensen geannoteerde voorkeursdata is een cruciale stap om praktische en presterende LM-gebaseerde systemen te verkrijgen. Echter, meertalige voorkeursdata van mensen zijn moeilijk op grote schaal te verkrijgen, wat het uitbreiden van dit raamwerk naar diverse talen uitdagend maakt. In dit werk evalueren we een eenvoudige aanpak voor zero-shot cross-linguale afstemming, waarbij een beloningsmodel wordt getraind op voorkeursdata in één brontaal en direct wordt toegepast op andere doeltalen. Bij samenvatting en open dialooggeneratie laten we zien dat deze methode consistent succesvol is onder uitgebreide evaluatieomstandigheden, inclusief menselijke evaluatie: cross-lingueel afgestemde modellen worden door mensen verkozen boven niet-afgestemde modellen in meer dan >70% van de evaluatiegevallen. We ontdekken bovendien dat een beloningsmodel in een andere taal soms beter afgestemde modellen oplevert dan een beloningsmodel in dezelfde taal. We identificeren ook best practices wanneer er geen taalspecifieke data beschikbaar is voor zelfs supervised finetuning, een ander onderdeel in afstemming.
Dit artikel introduceert v0.5 van de AI Safety Benchmark, die is ontwikkeld door de MLCommons AI Safety Working Group. De AI Safety Benchmark is ontworpen om de veiligheidsrisico's van AI-systemen die gebruikmaken van chat-geoptimaliseerde taalmodelen te beoordelen. We introduceren een principiële aanpak voor het specificeren en construeren van de benchmark, die voor v0.5 slechts één use case omvat (een volwassene die in het Engels chat met een algemene assistent) en een beperkte set persona's (d.w.z. typische gebruikers, kwaadwillende gebruikers en kwetsbare gebruikers). We hebben een nieuwe taxonomie van 13 risicocategorieën opgesteld, waarvan er 7 tests bevatten in de v0.5-benchmark. We zijn van plan om versie 1.0 van de AI Safety Benchmark eind 2024 uit te brengen. De v1.0-benchmark zal zinvolle inzichten bieden in de veiligheid van AI-systemen. De v0.5-benchmark mag echter niet worden gebruikt om de veiligheid van AI-systemen te beoordelen. We hebben ernaar gestreefd de beperkingen, tekortkomingen en uitdagingen van v0.5 volledig te documenteren. Deze release van v0.5 van de AI Safety Benchmark omvat (1) een principiële aanpak voor het specificeren en construeren van de benchmark, die use cases, typen systemen onder test (SUTs), taal en context, persona's, tests en testitems omvat; (2) een taxonomie van 13 risicocategorieën met definities en subcategorieën; (3) tests voor zeven van de risicocategorieën, elk bestaande uit een unieke set testitems, d.w.z. prompts. Er zijn in totaal 43.090 testitems, die we hebben gemaakt met sjablonen; (4) een beoordelingssysteem voor AI-systemen tegen de benchmark; (5) een openbaar beschikbaar platform en een downloadbaar hulpmiddel, genaamd ModelBench, dat kan worden gebruikt om de veiligheid van AI-systemen op de benchmark te evalueren; (6) een voorbeeld van een evaluatierapport dat de prestaties van meer dan een dozijn openbaar beschikbare chat-geoptimaliseerde taalmodelen benchmarkt; (7) een testspecificatie voor de benchmark.