Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen MVDream voor, een multi-view diffusiemodel dat in staat is om geometrisch consistente multi-view afbeeldingen te genereren vanuit een gegeven tekstprompt. Door gebruik te maken van beelddiffusiemodellen die vooraf zijn getraind op grootschalige webdatasets en een multi-view dataset gegenereerd uit 3D-assets, kan het resulterende multi-view diffusiemodel zowel de generaliseerbaarheid van 2D-diffusie als de consistentie van 3D-data bereiken. Zo'n model kan daarom worden toegepast als een multi-view prior voor 3D-generatie via Score Distillation Sampling, waarbij het de stabiliteit van bestaande 2D-liftingmethoden aanzienlijk verbetert door het 3D-consistentieprobleem op te lossen. Tot slot tonen we aan dat het multi-view diffusiemodel ook kan worden afgestemd onder een few-shot instelling voor gepersonaliseerde 3D-generatie, zoals in de DreamBooth3D-toepassing, waarbij de consistentie behouden blijft na het leren van de subjectidentiteit.
Transformer-achtige modellen voor visuele taken hebben recentelijk hun effectiviteit bewezen voor een breed scala aan downstream-toepassingen, zoals segmentatie en detectie. Eerdere studies hebben aangetoond dat segmentatie-eigenschappen naar voren komen in vision transformers (ViTs) die getraind zijn met zelfsupervisie methoden zoals DINO, maar niet in modellen die getraind zijn op gesuperviseerde classificatietaken. In deze studie onderzoeken we of segmentatie in transformer-gebaseerde modellen uitsluitend ontstaat als gevolg van ingewikkelde zelfsupervisie leer-mechanismen, of dat hetzelfde effect bereikt kan worden onder veel bredere voorwaarden door een juist ontwerp van de modelarchitectuur. Door middel van uitgebreide experimentele resultaten tonen we aan dat bij het gebruik van een white-box transformer-achtige architectuur, genaamd CRATE, waarvan het ontwerp expliciet laagdimensionale structuren in de dataverdeling modelleert en nastreeft, segmentatie-eigenschappen, zowel op het niveau van het geheel als van onderdelen, al naar voren komen met een minimalistische gesuperviseerde trainingsmethode. Een fijnmazige analyse per laag onthult dat de opkomende eigenschappen sterk overeenkomen met de ontworpen wiskundige functies van het white-box netwerk. Onze resultaten suggereren een pad naar het ontwerpen van white-box foundation modellen die tegelijkertijd zeer presterend en wiskundig volledig interpreteerbaar zijn. De code is beschikbaar op https://github.com/Ma-Lab-Berkeley/CRATE.
Voorgetrainde taalmodelen zoals ChatGPT hebben de codegeneratie aanzienlijk verbeterd. Naarmate deze modellen groter worden, is er een toenemende behoefte aan uitvoer die complexere taken aankan. Bovendien stelt het genereren van functionele programma's in de bioinformatica extra uitdagingen vanwege de hoeveelheid domeinkennis, de noodzaak voor ingewikkelde data-operaties en complexe functionele afhankelijkheden tussen de operaties. Hier presenteren we BioCoder, een benchmark ontwikkeld om bestaande voorgetrainde modellen te evalueren in het genereren van bioinformatica-code. Met betrekking tot functie-codegeneratie omvat BioCoder potentiële pakketafhankelijkheden, klasse-declaraties en globale variabelen. Het bevat 1026 functies en 1243 methoden in Python en Java van GitHub en 253 voorbeelden van het Rosalind Project. BioCoder bevat een fuzz-testing framework voor evaluatie, en we hebben het toegepast om vele modellen te evalueren, waaronder InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+ en ChatGPT. Onze gedetailleerde analyse van deze modellen benadrukt het belang van domeinkennis, pragmatische codegeneratie en contextueel begrip. Onze dataset, benchmark, Docker-images en scripts die nodig zijn voor testen zijn allemaal beschikbaar op https://github.com/gersteinlab/biocoder.
Stable diffusion, een generatief model gebruikt in tekst-naar-beeldsynthese, loopt vaak tegen compositieproblemen aan die worden veroorzaakt door resolutie bij het genereren van afbeeldingen van verschillende groottes. Dit probleem komt voornamelijk voort uit het feit dat het model is getraind op paren van afbeeldingen met één schaal en hun bijbehorende tekstbeschrijvingen. Bovendien is directe training op afbeeldingen van onbeperkte groottes niet haalbaar, omdat dit een enorm aantal tekst-afbeeldingparen zou vereisen en aanzienlijke rekenkosten met zich mee zou brengen. Om deze uitdagingen te overwinnen, stellen we een tweestaps pijplijn voor genaamd Any-Size-Diffusion (ASD), die is ontworpen om efficiënt goed samengestelde afbeeldingen van elke grootte te genereren, terwijl de behoefte aan GPU-bronnen met hoog geheugen wordt geminimaliseerd. Specifiek maakt de eerste fase, genaamd Any Ratio Adaptability Diffusion (ARAD), gebruik van een geselecteerde set afbeeldingen met een beperkt bereik van verhoudingen om het tekst-conditionele diffusiemodel te optimaliseren, waardoor het vermogen om de compositie aan te passen aan diverse afbeeldingsgroottes wordt verbeterd. Om de creatie van afbeeldingen op elke gewenste grootte te ondersteunen, introduceren we in de volgende fase een techniek genaamd Fast Seamless Tiled Diffusion (FSTD). Deze methode maakt het mogelijk om de ASD-uitvoer snel te vergroten naar elke hoge-resolutiegrootte, waarbij naadartefacten of geheugenoverbelasting worden vermeden. Experimentele resultaten op de LAION-COCO en MM-CelebA-HQ benchmarks tonen aan dat ASD goed gestructureerde afbeeldingen van willekeurige groottes kan produceren, waarbij de inferentietijd wordt gehalveerd in vergelijking met het traditionele getegelde algoritme.
Wanneer menselijke programmeurs een programmeertaal beheersen, wordt het gemakkelijker om een nieuwe programmeertaal te leren. In dit rapport richten we ons op het onderzoeken of programmeertalen elkaar kunnen versterken tijdens de instructie-finetuningfase van grote taalmodellen voor code. We voeren uitgebreide experimenten uit met 8 populaire programmeertalen (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) op StarCoder. De resultaten tonen aan dat programmeertalen elkaar aanzienlijk kunnen verbeteren. Zo kan CodeM-Python 15B, getraind op Python, Java verbeteren met een absolute stijging van 17,95% pass@1 op HumanEval-X. Nog verrassender is dat CodeM-HTML 7B, getraind op het HTML-corpus, Java kan verbeteren met een absolute stijging van 15,24% pass@1. Onze trainingsdata is vrijgegeven op https://github.com/NL2Code/CodeM.
We behandelen het probleem van actieve mapping met een continu geleerde neurale scène-representatie, namelijk Actieve Neurale Mapping. De kern ligt in het actief vinden van de doelruimte die moet worden verkend met efficiënte agentbewegingen, waardoor de onzekerheid van de kaart on-the-fly wordt geminimaliseerd binnen een voorheen onbekende omgeving. In dit artikel onderzoeken we de gewichtsruimte van het continu geleerde neurale veld en tonen we empirisch aan dat de neurale variabiliteit, de voorspellingsrobustheid tegen willekeurige gewichtsverstoring, direct kan worden gebruikt om de momentane onzekerheid van de neurale kaart te meten. Samen met de continue geometrische informatie die is overgeërfd in de neurale kaart, kan de agent worden geleid om een begaanbaar pad te vinden om geleidelijk kennis van de omgeving te verkrijgen. We presenteren voor het eerst een actief mappingsysteem met een coördinaat-gebaseerde impliciete neurale representatie voor online scène-reconstructie. Experimenten in de visueel realistische Gibson- en Matterport3D-omgevingen demonstreren de effectiviteit van de voorgestelde methode.
Het is een lang bestaand probleem in de robotica om agents te ontwikkelen die in staat zijn diverse manipulatie taken uit te voeren op basis van visuele observaties in ongestructureerde, real-world omgevingen. Om dit doel te bereiken, moet de robot een uitgebreid begrip hebben van de 3D-structuur en semantiek van de scène. In dit werk presenteren we GNFactor, een visueel gedragskopieer agent voor multi-task robot manipulatie met Generaliseerbare Neurale Feature Velden. GNFactor optimaliseert gezamenlijk een generaliseerbaar neuraal veld (GNF) als reconstructiemodule en een Perceiver Transformer als besluitvormingsmodule, waarbij gebruik wordt gemaakt van een gedeelde diepe 3D voxel representatie. Om semantiek in 3D te integreren, maakt de reconstructiemodule gebruik van een vision-language foundation model (bijvoorbeeld Stable Diffusion) om rijke semantische informatie te destilleren in de diepe 3D voxel. We evalueren GNFactor op 3 echte robot taken en voeren gedetailleerde ablatie studies uit op 10 RLBench taken met een beperkt aantal demonstraties. We observeren een aanzienlijke verbetering van GNFactor ten opzichte van de huidige state-of-the-art methoden in zowel bekende als onbekende taken, wat de sterke generalisatiecapaciteit van GNFactor aantoont. Onze projectwebsite is https://yanjieze.com/GNFactor/.
We presenteren Belebele, een multiple-choice dataset voor machine reading comprehension (MRC) die 122 taalsoorten omvat. Door de taaldekking van benchmarks voor natuurlijke taalverwerking (NLU) aanzienlijk uit te breiden, maakt deze dataset het mogelijk om tekstmodellen te evalueren in talen met veel, gemiddeld en weinig bronnen. Elke vraag is gebaseerd op een kort fragment uit de Flores-200 dataset en heeft vier multiple-choice antwoorden. De vragen zijn zorgvuldig samengesteld om onderscheid te maken tussen modellen met verschillende niveaus van algemeen taalbegrip. Alleen al de Engelse dataset blijkt moeilijk genoeg om state-of-the-art taalmodelen uit te dagen. Omdat de dataset volledig parallel is, maakt deze een directe vergelijking van modelprestaties over alle talen mogelijk. We gebruiken deze dataset om de capaciteiten van meertalige masked language models (MLMs) en large language models (LLMs) te evalueren. We presenteren uitgebreide resultaten en constateren dat, ondanks aanzienlijke cross-linguale transfer in Engels-gecentreerde LLMs, veel kleinere MLMs die zijn voorgetraind op gebalanceerde meertalige data nog steeds veel meer talen begrijpen. We observeren ook dat een grotere vocabulaireomvang en bewuste vocabulaireconstructie correleren met betere prestaties op talen met weinig bronnen. Over het geheel genomen opent Belebele nieuwe mogelijkheden voor het evalueren en analyseren van de meertalige capaciteiten van NLP-systemen.
Mensgerichte video frame-interpolatie heeft een groot potentieel om de entertainmentervaring van mensen te verbeteren en commerciële toepassingen te vinden in de sportanalyse-industrie, bijvoorbeeld door het synthetiseren van slow-motion video's. Hoewel er meerdere benchmarkdatasets beschikbaar zijn in de gemeenschap, is geen daarvan specifiek gewijd aan mensgerichte scenario's. Om deze kloof te overbruggen, introduceren we SportsSloMo, een benchmark die bestaat uit meer dan 130K videoclips en 1M videoframes van hoogwaardige (≥720p) slow-motion sportvideo's die van YouTube zijn verzameld. We trainen verschillende state-of-the-art methoden opnieuw op onze benchmark, en de resultaten tonen een afname in hun nauwkeurigheid in vergelijking met andere datasets. Dit benadrukt de moeilijkheidsgraad van onze benchmark en suggereert dat het aanzienlijke uitdagingen biedt, zelfs voor de best presterende methoden, aangezien menselijke lichamen zeer vervormbaar zijn en occlusies frequent voorkomen in sportvideo's. Om de nauwkeurigheid te verbeteren, introduceren we twee verliestermen die rekening houden met mensgerichte aannames, waarbij we aanvullende supervisie toevoegen aan panoptische segmentatie en detectie van menselijke sleutelpunten, respectievelijk. De verliestermen zijn modelagnostisch en kunnen eenvoudig worden geïntegreerd in elke benadering van video frame-interpolatie. Experimentele resultaten valideren de effectiviteit van onze voorgestelde verliestermen, wat leidt tot consistente prestatieverbeteringen bij 5 bestaande modellen, die sterke basismodellen op onze benchmark vormen. De dataset en code zijn te vinden op: https://neu-vi.github.io/SportsSlomo/.