Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het creëren van inhoud voor een specifieke identiteit (ID) heeft aanzienlijke interesse getoond in het veld van generatieve modellen. Op het gebied van tekst-naar-beeldgeneratie (T2I) heeft onderwerpgedreven inhoudgeneratie grote vooruitgang geboekt, waarbij de ID in de afbeeldingen controleerbaar is. Echter, het uitbreiden hiervan naar videogeneratie is nog niet goed onderzocht. In dit werk stellen we een eenvoudig maar effectief raamwerk voor voor videogeneratie met controle over de onderwerpidentiteit, genaamd Video Custom Diffusion (VCD). Met een gespecificeerde onderwerp-ID gedefinieerd door enkele afbeeldingen, versterkt VCD de extractie van identiteitsinformatie en injecteert het framegewijze correlatie in de initialisatiefase voor stabiele video-uitvoer waarbij de identiteit grotendeels behouden blijft. Om dit te bereiken, stellen we drie nieuwe componenten voor die essentieel zijn voor hoogwaardige ID-behoud: 1) een ID-module getraind met de bijgesneden identiteit door prompt-naar-segmentatie om de ID-informatie en de achtergrondruis te ontwarren voor nauwkeuriger ID-tokenleren; 2) een tekst-naar-video (T2V) VCD-module met 3D Gaussische Ruis Prior voor betere consistentie tussen frames en 3) video-naar-video (V2V) Face VCD en Tiled VCD-modules om het gezicht te ontdoen van vervaging en de video op te schalen voor een hogere resolutie. Ondanks de eenvoud hebben we uitgebreide experimenten uitgevoerd om te verifiëren dat VCD in staat is stabiele en hoogwaardige video's te genereren met een betere ID in vergelijking met geselecteerde sterke basislijnen. Bovendien, vanwege de overdraagbaarheid van de ID-module, werkt VCD ook goed met fijn afgestemde tekst-naar-beeldmodellen die publiekelijk beschikbaar zijn, wat de bruikbaarheid verder verbetert. De codes zijn beschikbaar op https://github.com/Zhen-Dong/Magic-Me.
Grote taalmodellen (LLMs) hebben opmerkelijke redeneerprestaties behaald in verschillende domeinen. Echter, in het domein van redeneertaken ontdekken we een kwetsbaarheid: LLMs zijn verrassend gevoelig voor de volgorde van de premissen, ondanks het feit dat deze volgorde de onderliggende taak niet verandert. In het bijzonder merken we op dat LLMs de beste prestaties leveren wanneer de volgorde van de premissen overeenkomt met de context die vereist is in tussenliggende redeneerstappen. Bijvoorbeeld, in deductieve redeneertaken verhoogt het presenteren van de premissen in dezelfde volgorde als het grondwaarheidsbewijs in de prompt (in tegenstelling tot een willekeurige volgorde) de nauwkeurigheid van het model aanzienlijk. We onderzoeken eerst het effect van de volgorde van premissen op deductief redeneren bij verschillende LLMs, en onze evaluatie toont aan dat het permuteren van de volgorde van premissen een prestatieverlies van meer dan 30% kan veroorzaken. Daarnaast introduceren we de benchmark R-GSM, gebaseerd op GSM8K, om het effect van de volgorde te onderzoeken bij het oplossen van wiskundige problemen, en ook hier observeren we een significante daling in nauwkeurigheid ten opzichte van de originele GSM8K-benchmark.
Diffusie-gebaseerde beeldgeneratiemodellen zoals DALL-E 3 en Stable Diffusion-XL tonen opmerkelijke capaciteiten in het genereren van afbeeldingen met realistische en unieke composities. Toch zijn deze modellen niet robuust in het precies redeneren over fysieke en ruimtelijke configuraties van objecten, vooral wanneer ze worden geïnstrueerd met onconventionele, en daarmee buiten-de-distributie beschrijvingen, zoals "een stoel met vijf poten". In dit artikel stellen we een taalagent voor met een keten-van-3D-gedachten (L3GO), een inferentie-tijdbenadering die kan redeneren over op delen gebaseerde 3D-meshgeneratie van onconventionele objecten waar huidige data-gedreven diffusiemodellen moeite mee hebben. Concreter gebruiken we grote taalmodellen als agenten om een gewenst object via trial-and-error binnen de 3D-simulatieomgeving samen te stellen. Om ons onderzoek te faciliteren, ontwikkelen we een nieuwe benchmark, Unconventionally Feasible Objects (UFO), evenals SimpleBlenv, een wrapper-omgeving gebouwd bovenop Blender waar taalagenten atomaire bouwstenen kunnen bouwen en samenstellen via API-aanroepen. Menselijke en automatische GPT-4V-evaluaties tonen aan dat onze benadering de standaard GPT-4 en andere taalagenten (bijv. ReAct en Reflexion) overtreft voor 3D-meshgeneratie op ShapeNet. Bovendien presteert onze benadering, wanneer getest op onze UFO-benchmark, beter dan andere state-of-the-art tekst-naar-2D-beeld en tekst-naar-3D-modellen op basis van menselijke evaluatie.
Reward finetuning is naar voren gekomen als een veelbelovende aanpak om foundationmodellen af te stemmen op downstreamdoelstellingen. Opmerkelijke successen zijn behaald in het taalgebied door reinforcement learning (RL) te gebruiken om beloningen te maximaliseren die menselijke voorkeuren weerspiegelen. In het visuele domein worden bestaande RL-gebaseerde reward finetuning-methoden echter beperkt door hun instabiliteit bij grootschalige training, waardoor ze niet in staat zijn om te generaliseren naar complexe, onbekende prompts. In dit artikel introduceren we Proximal Reward Difference Prediction (PRDP), waarmee voor het eerst stabiele black-box reward finetuning mogelijk wordt gemaakt voor diffusiemodellen op grootschalige promptdatasets met meer dan 100K prompts. Onze belangrijkste innovatie is het Reward Difference Prediction (RDP)-doel, dat dezelfde optimale oplossing heeft als het RL-doel, maar met betere trainingsstabiliteit. Specifiek is het RDP-doel een supervised regressiedoel dat het diffusiemodel de taak geeft om het beloningsverschil van gegenereerde beeldparen te voorspellen op basis van hun denoising-trajecten. We bewijzen theoretisch dat het diffusiemodel dat perfecte beloningsverschilvoorspelling bereikt, precies de maximalisator is van het RL-doel. We ontwikkelen verder een online algoritme met proximale updates om het RDP-doel stabiel te optimaliseren. In experimenten tonen we aan dat PRDP de beloningsmaximalisatiecapaciteit van goed ingeburgerde RL-gebaseerde methoden kan evenaren bij kleinschalige training. Bovendien bereikt PRDP door grootschalige training op tekstprompts uit het Human Preference Dataset v2 en het Pick-a-Pic v1-dataset superieure generatiekwaliteit op een diverse set van complexe, onbekende prompts, terwijl RL-gebaseerde methoden volledig falen.
Rekenkracht, of "compute", is cruciaal voor de ontwikkeling en implementatie van kunstmatige intelligentie (AI)-mogelijkheden. Als gevolg daarvan zijn overheden en bedrijven begonnen met het inzetten van rekenkracht als middel om AI te reguleren. Overheden investeren bijvoorbeeld in binnenlandse rekenkracht, controleren de stroom van rekenkracht naar concurrerende landen en subsidiëren toegang tot rekenkracht voor bepaalde sectoren. Deze inspanningen geven echter slechts een beperkt beeld van hoe rekenkracht kan worden gebruikt om de ontwikkeling en implementatie van AI te reguleren. In vergelijking met andere belangrijke inputs voor AI (data en algoritmen) is AI-relevante rekenkracht een bijzonder effectief interventiepunt: het is detecteerbaar, uitsluitbaar en kwantificeerbaar, en wordt geproduceerd via een uiterst geconcentreerde toeleveringsketen. Deze kenmerken, samen met het unieke belang van rekenkracht voor state-of-the-art AI-modellen, suggereren dat het reguleren van rekenkracht kan bijdragen aan het bereiken van gemeenschappelijke beleidsdoelen, zoals het waarborgen van de veiligheid en het nuttige gebruik van AI. Meer specifiek kunnen beleidsmakers rekenkracht gebruiken om de regelgevende zichtbaarheid van AI te vergemakkelijken, middelen toe te wijzen om gunstige resultaten te bevorderen en beperkingen af te dwingen tegen onverantwoordelijke of kwaadwillige AI-ontwikkeling en -gebruik. Hoewel op rekenkracht gebaseerde beleidsmaatregelen en technologieën potentieel hebben om op deze gebieden te helpen, is er aanzienlijke variatie in hun gereedheid voor implementatie. Sommige ideeën worden momenteel getest, terwijl andere worden belemmerd door de noodzaak van fundamenteel onderzoek. Bovendien brengen naïeve of slecht afgebakende benaderingen van rekenkrachtregulering aanzienlijke risico's met zich mee op gebieden zoals privacy, economische gevolgen en centralisatie van macht. We sluiten af met het suggereren van waarborgen om deze risico's van rekenkrachtregulering te minimaliseren.
Lengtegeneralizatie, gedefinieerd als het vermogen om te extrapoleren van kortere trainingsreeksen naar langere testreeksen, is een aanzienlijke uitdaging voor taalmodelen. Dit probleem blijft bestaan, zelfs bij grootschalige Transformers die relatief eenvoudige taken uitvoeren. In dit artikel testen we het vermogen van de Transformer tot lengtegeneralizatie met behulp van de taak van het optellen van twee gehele getallen. We laten zien dat het succes van lengtegeneralizatie nauw verbonden is met het gegevensformaat en het type positiecodering. Door de juiste combinatie van gegevensformaat en positiecoderingen te gebruiken, tonen we voor het eerst aan dat standaard Transformers kunnen extrapoleren naar een reekslengte die 2,5 keer de invoerlengte is. Desalniettemin blijft lengtegeneralizatie, in tegenstelling tot in-distributiegeneralizatie, kwetsbaar en wordt het aanzienlijk beïnvloed door factoren zoals willekeurige gewichtsinitialisatie en de volgorde van trainingsgegevens, wat leidt tot grote variaties tussen verschillende willekeurige seeds.
De noodzaak om berekeningen over talrijke nodes te schalen, benadrukt het belang van efficiënte parallelle verwerking, met name op het gebied van Message Passing Interface (MPI)-integratie. De uitdagende taak van parallel programmeren om MPI-gebaseerde parallelle programma's te genereren, is tot nu toe onontgonnen gebleven. Deze studie onderzoekt eerst de prestaties van state-of-the-art taalmodelen bij het genereren van MPI-gebaseerde parallelle programma's. De bevindingen tonen aan dat veelgebruikte modellen zoals GPT-3.5 en PolyCoder (gespecialiseerde meertalige codemodellen) een aanzienlijke prestatievermindering vertonen bij het genereren van MPI-gebaseerde programma's in vergelijking met algemene programma's. Daarentegen presteren domeinspecifieke modellen zoals MonoCoder, die zijn voorgetraind op MPI-gerelateerde programmeertalen zoals C en C++, beter dan grotere modellen. Vervolgens introduceren we een specifieke downstreamtaak voor het genereren van MPI-gebaseerde programma's door MonoCoder te finetunen op HPCorpusMPI. We noemen het resulterende model MPIrigen. We stellen een innovatieve preprocessing voor die pas na het observeren van de volledige code wordt uitgevoerd, waardoor betere voltooiing mogelijk is met een bredere context. Vergelijkende analyses tegen de zero-shot prestaties van GPT-3.5, met behulp van een nieuwe HPC-gerichte evaluatiemethode, tonen aan dat MPIrigen uitblinkt in het genereren van nauwkeurige MPI-functies met een nauwkeurigheid van tot 0,8 voor locatie- en functievoorspellingen, en meer dan 0,9 voor argumentvoorspellingen. Het succes van deze op maat gemaakte oplossing onderstreept het belang van domeinspecifieke finetuning bij het optimaliseren van taalmodelen voor het genereren van parallelle computercode, wat de weg vrijmaakt voor een nieuwe generatie automatische parallelisatietools. De bronnen van dit werk zijn beschikbaar in onze GitHub MPIrigen repository: https://github.com/Scientific-Computing-Lab-NRCN/MPI-rigen.
Grote taalmodellen (LLMs) worden steeds gebruikelijker en vinden een alomtegenwoordige toepassing in het bieden van verschillende vormen van schrijfondersteuning. Echter kunnen LLM-gestuurde schrijfsystemen gebruikers frustreren vanwege hun beperkte personalisatie en controle, wat kan worden verergerd wanneer gebruikers weinig ervaring hebben met prompt engineering. Wij zien ontwerp als een manier om deze uitdagingen aan te pakken en introduceren GhostWriter, een AI-versterkte schrijfdesignprobe waarbij gebruikers meer regie en personalisatie kunnen uitoefenen. GhostWriter maakt gebruik van LLMs om de beoogde schrijfstijl van de gebruiker impliciet te leren terwijl ze schrijven, terwijl expliciete leermomenten mogelijk zijn door handmatige stijlaanpassingen en annotaties. Wij bestuderen 18 deelnemers die GhostWriter gebruiken voor twee verschillende schrijftaken en observeren dat het gebruikers helpt om gepersonaliseerde tekstgeneraties te maken en hen in staat stelt door meerdere manieren te bieden om de schrijfstijl van het systeem te beheersen. Uit deze studie presenteren we inzichten over de relatie van mensen met AI-ondersteund schrijven en bieden we ontwerpaanbevelingen voor toekomstig werk.
Met de toenemende complexiteit van generatieve AI-modellen is post-training kwantisatie (PTQ) naar voren gekomen als een veelbelovende oplossing voor het implementeren van hyperschaalmodellen op edge-apparaten zoals mobiele apparaten en tv's. Bestaande PTQ-schema's verbruiken echter aanzienlijke tijd en middelen, wat een knelpunt kan vormen in praktijksituaties waar frequente modelupdates en meerdere hyperparameterafstemmingen vereist zijn. Als kosteneffectief alternatief zijn one-shot PTQ-schema's voorgesteld. Toch is de prestaties enigszins beperkt omdat ze de inter-laagafhankelijkheid binnen de aandachtmodule niet kunnen overwegen, wat een zeer belangrijk kenmerk is van Transformers. In dit artikel stellen we daarom een nieuw PTQ-algoritme voor dat een balans vindt tussen nauwkeurigheid en efficiëntie. De kern van het voorgestelde algoritme, genaamd aespa, is om kwantisatie laaggewijs uit te voeren voor efficiëntie, terwijl cross-laagafhankelijkheid wordt overwogen om de aandachtsscore te behouden. Door uitgebreide experimenten op verschillende taalmodelen en complexiteitsanalyse tonen we aan dat aespa nauwkeurig en efficiënt is in het kwantiseren van Transformer-modellen.