Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Tekstgestuurd beeldbewerking is in het dagelijks leven veelgevraagd, variërend van persoonlijk gebruik tot professionele toepassingen zoals Photoshop. Bestaande methoden zijn echter ofwel zero-shot of getraind op een automatisch gegenereerde dataset, die veel ruis bevat. Daarom is er in de praktijk nog steeds veel handmatige afstemming nodig om gewenste resultaten te bereiken. Om dit probleem aan te pakken, introduceren we MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), de eerste grootschalige, handmatig geannoteerde dataset voor instructiegestuurde bewerking van echte afbeeldingen, die diverse scenario's omvat: enkelvoudige, meervoudige, masker-geleverde en masker-vrije bewerkingen. MagicBrush bestaat uit meer dan 10K handmatig geannoteerde triples (bronafbeelding, instructie, doelafbeelding), die het trainen van grootschalige tekstgestuurde beeldbewerkingsmodellen ondersteunen. We fine-tunen InstructPix2Pix op MagicBrush en laten zien dat het nieuwe model aanzienlijk betere afbeeldingen kan produceren volgens menselijke evaluatie. We voeren verder uitgebreide experimenten uit om huidige beeldbewerkingsbaselines te evalueren vanuit meerdere dimensies, waaronder kwantitatieve, kwalitatieve en menselijke evaluaties. De resultaten onthullen de uitdagende aard van onze dataset en de kloof tussen huidige baselines en de behoeften van beeldbewerking in de praktijk.
Grote Taalmodellen (LLMs) hebben een revolutie teweeggebracht in Natural Language Processing (NLP), maar vereisen enorme GPU-bronnen voor training. Het verlagen van de drempel voor het trainen van LLMs zou meer deelname van onderzoekers aanmoedigen, wat zowel de academische wereld als de samenleving ten goede komt. Hoewel bestaande benaderingen zich hebben gericht op parameter-efficiënte fine-tuning, waarbij een klein aantal parameters wordt afgestemd of toegevoegd, hebben weinigen de uitdaging aangepakt om de volledige parameters van LLMs af te stemmen met beperkte middelen. In dit werk stellen we een nieuwe optimizer voor, LOw-Memory Optimization (LOMO), die de gradientberekening en de parameterupdate in één stap samenvoegt om het geheugengebruik te verminderen. Door LOMO te integreren met bestaande geheugenbesparende technieken, verminderen we het geheugengebruik tot 10,8% in vergelijking met de standaardaanpak (DeepSpeed-oplossing). Hierdoor maakt onze aanpak het mogelijk om de volledige parameter fine-tuning van een 65B-model uit te voeren op een enkele machine met 8 RTX 3090, elk met 24GB geheugen.
Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in codegeneratie, maar worstelen nog steeds met uitdagende programmeertaken. Zelfreparatie – waarbij het model fouten in zijn eigen code opspoort en corrigeert – is recentelijk een populaire methode geworden om de prestaties in deze contexten te verbeteren. Er bestaan echter slechts zeer beperkte studies in de literatuur over hoe en wanneer zelfreparatie effectief werkt, en men kan zich afvragen in hoeverre een model daadwerkelijk in staat is om accurate feedback te geven over waarom de code fout is, wanneer die code door hetzelfde model is gegenereerd. In dit artikel analyseren we het vermogen van GPT-3.5 en GPT-4 om zelfreparatie uit te voeren op APPS, een uitdagende dataset die bestaat uit diverse programmeeruitdagingen. Hiervoor introduceren we eerst een nieuwe evaluatiestrategie genaamd pass@t, die het slagingspercentage van de taken meet tegenover het totale aantal tokens dat uit het model is gesamplet, waardoor een eerlijke vergelijking met puur op sampling gebaseerde benaderingen mogelijk wordt. Met deze evaluatiestrategie ontdekken we dat de effectiviteit van zelfreparatie alleen wordt waargenomen bij GPT-4. We merken ook op dat zelfreparatie wordt beperkt door de feedbackfase; door GPT-4 te gebruiken om feedback te geven op de programma's gegenereerd door GPT-3.5 en door ervaren menselijke programmeurs feedback te laten geven op de programma's gegenereerd door GPT-4, behalen we aanzienlijke prestatieverbeteringen.
We introduceren AvatarBooth, een nieuwe methode voor het genereren van hoogwaardige 3D-avatars met behulp van tekstprompts of specifieke afbeeldingen. In tegenstelling tot eerdere benaderingen die alleen avatars kunnen synthetiseren op basis van eenvoudige tekstbeschrijvingen, maakt onze methode het mogelijk om gepersonaliseerde avatars te creëren vanuit casual vastgelegde gezichts- of lichaamsafbeeldingen, terwijl tekstgebaseerde modelgeneratie en -bewerking nog steeds worden ondersteund. Onze belangrijkste bijdrage is de precieze controle over avatar-generatie door het gebruik van duale fine-tuned diffusiemodellen, afzonderlijk voor het menselijk gezicht en lichaam. Hierdoor kunnen we gedetailleerde kenmerken van gezichtsuitdrukkingen, kleding en accessoires vastleggen, wat resulteert in zeer realistische avatar-generaties. Bovendien introduceren we een pose-consistente beperking in het optimalisatieproces om de multi-view consistentie van gesynthetiseerde hoofdafbeeldingen vanuit het diffusiemodel te verbeteren en zo interferentie door ongecontroleerde menselijke poses te elimineren. Daarnaast presenteren we een multi-resolutie renderstrategie die grof-naar-fijn toezicht op 3D-avatar-generatie vergemakkelijkt, waardoor de prestaties van het voorgestelde systeem worden verbeterd. Het resulterende avatar-model kan verder worden bewerkt met aanvullende tekstbeschrijvingen en worden aangestuurd door bewegingsreeksen. Experimenten tonen aan dat AvatarBooth eerdere tekst-naar-3D-methoden overtreft wat betreft render- en geometrische kwaliteit, zowel vanuit tekstprompts als specifieke afbeeldingen. Bezoek onze projectwebsite op https://zeng-yifei.github.io/avatarbooth_page/.
Open-vocabulary objectdetectie heeft sterk geprofiteerd van vooraf getrainde vision-language modellen, maar wordt nog steeds beperkt door de hoeveelheid beschikbare detectietrainingsdata. Hoewel detectietrainingsdata kan worden uitgebreid door webafbeelding-tekstparen als zwakke supervisie te gebruiken, is dit nog niet op schaal gedaan die vergelijkbaar is met image-level pretraining. Hier schalen we detectiedata op met zelf-training, waarbij een bestaande detector wordt gebruikt om pseudo-box annotaties te genereren op afbeelding-tekstparen. Belangrijke uitdagingen bij het opschalen van zelf-training zijn de keuze van de labelruimte, het filteren van pseudo-annotaties en de trainings efficiëntie. We presenteren het OWLv2-model en het OWL-ST zelf-trainingsrecept, dat deze uitdagingen aanpakt. OWLv2 overtreft de prestaties van eerdere state-of-the-art open-vocabulary detectors al bij vergelijkbare trainingsschalen (~10M voorbeelden). Met OWL-ST kunnen we echter opschalen naar meer dan 1B voorbeelden, wat een verdere grote verbetering oplevert: Met een L/14-architectuur verbetert OWL-ST de AP op LVIS zeldzame klassen, waarvoor het model geen menselijke boxannotaties heeft gezien, van 31,2% naar 44,6% (43% relatieve verbetering). OWL-ST maakt web-schaal training mogelijk voor open-world lokalisatie, vergelijkbaar met wat is gezien voor beeldclassificatie en taalmodellering.
We presenteren een zelfgesuperviseerde sensorimotorische voorafgaande training aanpak voor robotica. Ons model, genaamd RPT, is een Transformer die werkt op sequenties van sensorimotorische tokens. Gegeven een reeks camerabeelden, proprioceptieve robottoestanden en eerdere acties, coderen we de afgewisselde reeks in tokens, maskeren we een willekeurige subset en trainen we een model om de gemaskeerde inhoud te voorspellen. We veronderstellen dat als de robot de ontbrekende inhoud kan voorspellen, het een goed model van de fysieke wereld heeft verworven dat het in staat stelt om te handelen. RPT is ontworpen om te werken op latente visuele representaties, wat de voorspelling hanteerbaar maakt, schaalbaarheid naar 10x grotere modellen mogelijk maakt, en inferentie op 10 Hz op een echte robot. Om onze aanpak te evalueren, verzamelen we een dataset van 20.000 real-world trajecten gedurende 9 maanden met behulp van een combinatie van bewegingsplanning en modelgebaseerde grijpalgoritmen. We constateren dat voorafgaande training op deze data consistent beter presteert dan training vanaf nul, leidt tot 2x verbeteringen in de blokstapeltaak, en gunstige schaaleigenschappen heeft.
State space-modellen (SSM's) hebben indrukwekkende resultaten getoond bij taken die het modelleren van langetermijnafhankelijkheden vereisen en efficiënt schalen naar lange sequenties vanwege hun subkwadratische rekentijdcomplexiteit. Oorspronkelijk ontworpen voor continue signalen, hebben SSM's superieure prestaties getoond bij een breed scala aan taken, zowel in visuele als auditieve domeinen; echter blijven SSM's achter bij de prestaties van Transformers bij taalmodelleertaken. In dit werk stellen we een hybride laag voor, genaamd Block-State Transformer (BST), die intern een SSM-sublaag combineert voor langetermijncontextualisatie en een Block Transformer-sublaag voor kortetermijnrepresentatie van sequenties. We bestuderen drie verschillende, en volledig paralleliseerbare, varianten die SSM's en bloksgewijze aandacht integreren. We tonen aan dat ons model vergelijkbare Transformer-gebaseerde architecturen overtreft wat betreft perplexiteit bij taalmodelering en generaliseert naar langere sequenties. Daarnaast toont de Block-State Transformer een meer dan tienvoudige snelheidstoename op laagniveau vergeleken met de Block-Recurrent Transformer wanneer modelparallelisatie wordt toegepast.
Onderzoek naar schaalwetten heeft aangetoond dat grote taalmmodellen (LMs) voorspelbare verbeteringen in het totale verlies laten zien bij toenemende schaal (modelgrootte, trainingsdata en rekenkracht). Hier presenteren we bewijs voor de bewering dat LMs mogelijk inverse schaling vertonen, of slechtere taakprestaties bij toenemende schaal, bijvoorbeeld door tekortkomingen in het trainingsdoel en de data. We presenteren empirisch bewijs van inverse schaling op 11 datasets die zijn verzameld door het organiseren van een openbare wedstrijd, de Inverse Scaling Prize, met een aanzienlijk prijzengeld. Door analyse van de datasets, samen met andere voorbeelden uit de literatuur, identificeren we vier mogelijke oorzaken van inverse schaling: (i) de voorkeur om gememoriseerde sequenties te herhalen in plaats van in-context instructies te volgen, (ii) het imiteren van ongewenste patronen in de trainingsdata, (iii) taken die een eenvoudige afleidende taak bevatten waar LMs zich op kunnen richten in plaats van de moeilijkere echte taak, en (iv) correcte maar misleidende few-shot demonstraties van de taak. We publiceren de winnende datasets op https://inversescaling.com/data om verder onderzoek naar inverse schaling mogelijk te maken. Onze taken hebben bijgedragen aan de ontdekking van U-vormige en omgekeerde-U schalingstrends, waarbij een initiële trend zich omkeert, wat suggereert dat schalingstrends minder betrouwbaar zijn in het voorspellen van het gedrag van grootschalige modellen dan eerder werd aangenomen. Over het algemeen suggereren onze resultaten dat er taken zijn waarvoor alleen het vergroten van de modelschaal mogelijk niet tot vooruitgang leidt, en dat er zorgvuldiger moet worden nagedacht over de data en doelen voor het trainen van taalmmodellen.
Recent onderzoek heeft tekst-naar-audio-synthese bestudeerd met behulp van grote hoeveelheden gepaarde tekst-audio-data. Echter kunnen audio-opnames met hoogwaardige tekstannotaties moeilijk te verkrijgen zijn. In dit werk benaderen we tekst-naar-audio-synthese met behulp van ongelabelde video's en voorgetrainde taal-visie-modellen. We stellen voor om de gewenste tekst-audio-correspondentie te leren door het visuele modaliteit als brug te gebruiken. We trainen een conditioneel diffusiemodel om het audiospoor van een video te genereren, gegeven een videoframe gecodeerd door een voorgetraind contrastief taal-beeld-trainingsmodel (CLIP). Tijdens de testfase onderzoeken we eerst het uitvoeren van een zero-shot modaliteitsoverdracht en conditioneren we het diffusiemodel met een CLIP-gecodeerde tekstquery. We observeren echter een merkbare prestatievermindering ten opzichte van beeldqueries. Om deze kloof te dichten, nemen we verder een voorgetraind diffusieprior-model aan om een CLIP-beeldembedding te genereren gegeven een CLIP-tekstembedding. Onze resultaten tonen de effectiviteit van de voorgestelde methode, en dat het voorgetrainde diffusieprior-model de modaliteitsoverdrachtskloof kan verkleinen. Hoewel we ons richten op tekst-naar-audio-synthese, kan het voorgestelde model ook audio genereren vanuit beeldqueries, en het toont competitieve prestaties tegen een state-of-the-art beeld-naar-audio-synthesemodel in een subjectieve luistertest. Deze studie biedt een nieuwe richting voor het benaderen van tekst-naar-audio-synthese die gebruikmaakt van de van nature voorkomende audio-visuele correspondentie in video's en de kracht van voorgetrainde taal-visie-modellen.
Het inzetten van grote taalmodellen (LLM's) kan risico's met zich meebrengen door schadelijke uitkomsten, zoals giftige of oneerlijke uitingen. Eerder onderzoek heeft tools geïntroduceerd die schadelijke uitkomsten uitlokken om deze risico's te identificeren en te mitigeren. Hoewel dit een waardevolle stap is richting het beveiligen van taalmodellen, vertrouwen deze benaderingen doorgaans op een vooraf bestaande classifier voor ongewenste uitkomsten. Dit beperkt hun toepassing tot situaties waarin het type schadelijk gedrag van tevoren precies bekend is. Dit slaat echter een centrale uitdaging van red teaming over: het ontwikkelen van een contextueel begrip van de gedragingen die een model kan vertonen. Bovendien, wanneer zo'n classifier al bestaat, heeft red teaming beperkte toegevoegde waarde, omdat de classifier simpelweg gebruikt kan worden om trainingsdata of modeluitkomsten te filteren. In dit werk beschouwen we red teaming onder de aanname dat de tegenstander werkt vanuit een hoog niveau, abstracte specificatie van ongewenst gedrag. Het red team wordt verwacht deze specificatie te verfijnen/uit te breiden en methoden te identificeren om dit gedrag uit het model te lokken. Ons red teaming-framework bestaat uit drie stappen: 1) Het verkennen van het gedrag van het model in de gewenste context; 2) Het vaststellen van een meting van ongewenst gedrag (bijvoorbeeld een classifier getraind om menselijke evaluaties te reflecteren); en 3) Het uitbuiten van de zwaktes van het model met behulp van deze meting en een vastgestelde red teaming-methodologie. We passen deze aanpak toe om GPT-2 en GPT-3 modellen te red teamen om systematisch klassen van prompts te ontdekken die giftige en oneerlijke uitspraken uitlokken. Hierbij construeren en publiceren we ook de CommonClaim dataset van 20.000 uitspraken die door menselijke proefpersonen zijn gelabeld als algemeen bekend-waar, algemeen bekend-onwaar, of geen van beide. Code is beschikbaar op https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim is beschikbaar op https://github.com/thestephencasper/common_claim.
Mensen beschikken over het cognitieve vermogen om scènes op een compositionele manier te begrijpen. Om AI-systemen met vergelijkbare vaardigheden uit te rusten, streeft object-gecentreerde representatieleer ernaar om representaties van individuele objecten uit visuele scènes te verkrijgen zonder enige supervisie. Hoewel recente vooruitgang in object-gecentreerde representatieleer opmerkelijke progressie heeft geboekt op complexe synthetische datasets, is er een enorme uitdaging voor toepassing in complexe real-world scènes. Een van de essentiële redenen hiervoor is het gebrek aan real-world datasets die specifiek zijn afgestemd op object-gecentreerde representatieleermethoden. Om dit probleem op te lossen, stellen we een veelzijdige real-world dataset van tafelscènes voor object-gecentreerd leren voor, genaamd OCTScenes, die zorgvuldig is ontworpen om als benchmark te dienen voor het vergelijken, evalueren en analyseren van object-gecentreerde representatieleermethoden. OCTScenes bevat 5000 tafelscènes met in totaal 15 alledaagse objecten. Elke scène is vastgelegd in 60 frames die een 360-graden perspectief beslaan. Hierdoor is OCTScenes een veelzijdige benchmarkdataset die tegelijkertijd kan voldoen aan de evaluatie van object-gecentreerde representatieleermethoden voor statische scènes, dynamische scènes en multi-view scènetaken. Uitgebreide experimenten van object-gecentreerde representatieleermethoden voor statische, dynamische en multi-view scènes zijn uitgevoerd op OCTScenes. De resultaten tonen de tekortkomingen aan van state-of-the-art methoden voor het leren van betekenisvolle representaties uit real-world data, ondanks hun indrukwekkende prestaties op complexe synthetische datasets. Bovendien kan OCTScenes dienen als een katalysator voor het bevorderen van bestaande state-of-the-art methoden, waardoor ze worden geïnspireerd om zich aan te passen aan real-world scènes. Dataset en code zijn beschikbaar op https://huggingface.co/datasets/Yinxuan/OCTScenes.
We presenteren CAJun, een nieuw hiërarchisch leer- en controleframework dat potenrobots in staat stelt om continu te springen met adaptieve springafstanden. CAJun bestaat uit een hoog-niveau centroidaal beleid en een laag-niveau beencontroller. In het bijzonder gebruiken we reinforcement learning (RL) om het centroidale beleid te trainen, dat de gangtiming, basis snelheid en zwaaivoetpositie specificeert voor de beencontroller. De beencontroller optimaliseert motorcommando's voor de zwaai- en standbenen volgens de gangtiming om de zwaaivoetdoelpositie en basissnelheidscommando's te volgen met behulp van optimale controle. Daarnaast herformuleren we de standbeenoptimalisator in de beencontroller om de beleidstraining met een orde van grootte te versnellen. Ons systeem combineert de veelzijdigheid van leren met de robuustheid van optimale controle. Door RL te combineren met methoden voor optimale controle, bereikt ons systeem de veelzijdigheid van leren terwijl het profiteert van de robuustheid van controlemethoden, waardoor het gemakkelijk overdraagbaar is naar echte robots. We laten zien dat CAJun na 20 minuten training op een enkele GPU continue, lange sprongen met adaptieve afstanden kan bereiken op een Go1-robot met kleine sim-to-real verschillen. Bovendien kan de robot over gaten springen met een maximale breedte van 70 cm, wat meer dan 40% breder is dan bestaande methoden.