Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij stellen dat toekomstige modellen supermenselijke feedback nodig hebben om supermenselijke agents te bereiken, zodat een adequaat trainingssignaal wordt geboden. Huidige benaderingen trainen vaak beloningsmodellen op basis van menselijke voorkeuren, wat vervolgens beperkt kan worden door het prestatieniveau van mensen, en ten tweede kunnen deze afzonderlijke, bevroren beloningsmodellen niet leren om zich te verbeteren tijdens de training van het taalmodel. In dit werk bestuderen we Zelfbelonende Taalmodellen, waarbij het taalmodel zelf wordt gebruikt via LLM-as-a-Judge prompting om zijn eigen beloningen te geven tijdens de training. We laten zien dat tijdens Iteratieve DPO-training niet alleen het vermogen om instructies te volgen verbetert, maar ook het vermogen om hoogwaardige beloningen aan zichzelf te geven. Het finetunen van Llama 2 70B op drie iteraties van onze aanpak resulteert in een model dat veel bestaande systemen op de AlpacaEval 2.0-leaderboard overtreft, waaronder Claude 2, Gemini Pro en GPT-4 0613. Hoewel dit slechts een voorlopige studie is, opent dit werk de deur naar de mogelijkheid van modellen die zich continu kunnen verbeteren op beide assen.
Onlangs hebben state space models (SSMs) met efficiënte hardwarebewuste ontwerpen, zoals Mamba, groot potentieel getoond voor het modelleren van lange sequenties. Het bouwen van efficiënte en generieke visuele backbones uitsluitend gebaseerd op SSMs is een aantrekkelijke richting. Het representeren van visuele data is echter uitdagend voor SSMs vanwege de positiegevoeligheid van visuele data en de vereiste van globale context voor visueel begrip. In dit artikel tonen we aan dat de afhankelijkheid van visuele representatielearning van self-attention niet noodzakelijk is en stellen we een nieuwe generieke visuele backbone voor met bidirectionele Mamba-blokken (Vim), die de beeldsequenties markeert met position embeddings en de visuele representatie comprimeert met bidirectionele state space models. Bij ImageNet-classificatie, COCO-objectdetectie en ADE20k-semantische segmentatietaken behaalt Vim betere prestaties in vergelijking met gevestigde vision transformers zoals DeiT, terwijl het ook een aanzienlijk verbeterde rekenefficiëntie en geheugenefficiëntie demonstreert. Zo is Vim 2,8 keer sneller dan DeiT en bespaart het 86,8% GPU-geheugen bij batchinferentie om features te extraheren uit afbeeldingen met een resolutie van 1248×1248. De resultaten tonen aan dat Vim in staat is om de rekenefficiëntie- en geheugenbeperkingen te overwinnen bij het uitvoeren van Transformer-stijl begrip voor hoogresolutiebeelden en dat het groot potentieel heeft om de volgende generatie backbone te worden voor vision foundation models. Code is beschikbaar op https://github.com/hustvl/Vim.
In dit werk introduceren we ChatQA, een familie van conversatievraag-antwoordmodellen (QA) die nauwkeurigheden op GPT-4-niveau behalen. Specifiek stellen we een tweestaps instructieafstemmingsmethode voor die de zero-shot conversatie-QA-resultaten van grote taalmodellen (LLMs) aanzienlijk kan verbeteren. Om retrieval in conversatie-QA te hanteren, fine-tunen we een dense retriever op een multi-turn QA-dataset, wat vergelijkbare resultaten oplevert als het gebruik van het state-of-the-art query rewriting-model, terwijl de implementatiekosten aanzienlijk worden verlaagd. Opmerkelijk is dat onze ChatQA-70B GPT-4 kan overtreffen wat betreft gemiddelde score op 10 conversatie-QA-datasets (54,14 vs. 53,90), zonder gebruik te maken van synthetische data van OpenAI GPT-modellen.
Een manier om het redeneervermogen van Large Language Models (LLMs) te verbeteren, is door Supervised Fine-Tuning (SFT) uit te voeren met behulp van Chain-of-Thought (CoT) annotaties. Deze aanpak vertoont echter geen voldoende sterke generalisatiecapaciteit, omdat de training alleen afhankelijk is van de gegeven CoT-data. Bij het oplossen van wiskundige problemen is er bijvoorbeeld meestal slechts één geannoteerd redeneerpad voor elke vraag in de trainingsdata. Intuïtief zou het beter zijn als het algoritme leert van meerdere geannoteerde redeneerpaden bij een vraag. Om dit probleem aan te pakken, stellen we een eenvoudige maar effectieve benadering voor, genaamd Reinforced Fine-Tuning (ReFT), om de generaliseerbaarheid van het leren van LLMs voor redeneren te verbeteren, met wiskundeproblemen als voorbeeld. ReFT warmt eerst het model op met SFT, en gebruikt vervolgens online reinforcement learning, specifiek het PPO-algoritme in dit artikel, om het model verder te finetunen, waarbij een overvloed aan redeneerpaden automatisch wordt gegenereerd op basis van de vraag en de beloningen natuurlijk worden afgeleid van de juiste antwoorden. Uitgebreide experimenten op de GSM8K-, MathQA- en SVAMP-datasets laten zien dat ReFT SFT significant overtreft, en de prestaties potentieel verder kunnen worden verbeterd door inferentie-tijdstrategieën zoals meerderheidsstemming en herrangschikking te combineren. Merk op dat ReFT de verbetering behaalt door te leren van dezelfde trainingsvragen als SFT, zonder te vertrouwen op extra of uitgebreide trainingsvragen. Dit duidt op een superieure generalisatiecapaciteit voor ReFT.
3D vision-language grounding, dat zich richt op het afstemmen van taal op de 3D-fysieke omgeving, vormt een hoeksteen in de ontwikkeling van belichaamde agents. In vergelijking met recente vooruitgang in het 2D-domein, kent het grondvesten van taal in 3D-scènes enkele aanzienlijke uitdagingen: (i) de inherente complexiteit van 3D-scènes vanwege de diverse objectconfiguraties, hun rijke attributen en ingewikkelde relaties; (ii) de schaarste aan gepaarde 3D vision-language data om gegrond leren te ondersteunen; en (iii) het ontbreken van een uniform leerkader om kennis te destilleren uit gegronde 3D-data. In dit werk streven we ernaar deze drie grote uitdagingen in 3D vision-language aan te pakken door het potentieel te onderzoeken van het systematisch opschalen van 3D vision-language leren in binnenomgevingen. We introduceren de eerste miljoen-schaal 3D vision-language dataset, SceneVerse, die ongeveer 68K 3D-binnenscènes omvat en bestaat uit 2,5M vision-language paren afgeleid van zowel menselijke annotaties als onze schaalbare scene-graph-gebaseerde generatiebenadering. We tonen aan dat deze schaalvergroting een uniform pre-trainingskader mogelijk maakt, Grounded Pre-training for Scenes (GPS), voor 3D vision-language leren. Door middel van uitgebreide experimenten demonstreren we de effectiviteit van GPS door state-of-the-art prestaties te behalen op alle bestaande 3D visual grounding benchmarks. Het enorme potentieel van SceneVerse en GPS wordt onthuld door zero-shot transfer experimenten in uitdagende 3D vision-language taken. Projectwebsite: https://scene-verse.github.io.
Groepering is inherent ambigu vanwege de meerdere niveaus van granulariteit waarop men een scène kan ontbinden — moeten de wielen van een graafmachine als apart worden beschouwd of als onderdeel van het geheel? Wij presenteren Group Anything with Radiance Fields (GARField), een benadering voor het ontbinden van 3D-scènes in een hiërarchie van semantisch betekenisvolle groepen op basis van gepositioneerde beeldinvoer. Om dit te doen, omarmen we groepsambiguïteit door middel van fysieke schaal: door een schaal-geconditioneerd 3D-affiniteitskenmerkveld te optimaliseren, kan een punt in de wereld tot verschillende groepen van verschillende grootte behoren. We optimaliseren dit veld vanuit een set van 2D-maskers die door Segment Anything (SAM) worden geleverd, op een manier die een grof-naar-fijn hiërarchie respecteert, waarbij schaal wordt gebruikt om tegenstrijdige maskers vanuit verschillende gezichtspunten consistent samen te voegen. Uit dit veld kunnen we een hiërarchie van mogelijke groeperingen afleiden via automatische boomconstructie of gebruikersinteractie. We evalueren GARField op een verscheidenheid aan scènes in het wild en ontdekken dat het effectief groepen op vele niveaus extraheert: clusters van objecten, objecten en diverse onderdelen. GARField vertegenwoordigt inherent multi-view consistente groeperingen en produceert groepen van hogere kwaliteit dan de invoer-SAM-maskers. De hiërarchische groepering van GARField zou spannende downstream-toepassingen kunnen hebben, zoals 3D-assetextractie of dynamische scènebegrip. Zie de projectwebsite op https://www.garfield.studio/
Wereldmodellen spelen een cruciale rol bij het begrijpen en voorspellen van de dynamiek van de wereld, wat essentieel is voor videogeneratie. Bestaande wereldmodellen zijn echter beperkt tot specifieke scenario's zoals gaming of autorijden, wat hun vermogen om de complexiteit van algemene dynamische wereldomgevingen vast te leggen, beperkt. Daarom introduceren we WorldDreamer, een baanbrekend wereldmodel om een uitgebreid begrip van algemene wereldfysica en -bewegingen te bevorderen, wat de mogelijkheden van videogeneratie aanzienlijk verbetert. Geïnspireerd door het succes van grote taalmodellen, benadert WorldDreamer wereldmodellering als een uitdaging voor onbewaakte visuele sequentiemodellering. Dit wordt bereikt door visuele invoer te vertalen naar discrete tokens en de gemaskeerde tokens te voorspellen. Tijdens dit proces integreren we multimodale prompts om interactie binnen het wereldmodel te vergemakkelijken. Onze experimenten tonen aan dat WorldDreamer uitblinkt in het genereren van video's in verschillende scenario's, waaronder natuurlijke landschappen en autorijdomgevingen. WorldDreamer toont veelzijdigheid in het uitvoeren van taken zoals tekst-naar-video-conversie, beeld-naar-video-synthese en videobewerking. Deze resultaten onderstrepen de effectiviteit van WorldDreamer in het vastleggen van dynamische elementen binnen diverse algemene wereldomgevingen.
Diffusiegebaseerde videogeneratie heeft uitgebreide aandacht gekregen en aanzienlijk succes behaald binnen zowel de academische als de industriële gemeenschappen. Huidige inspanningen zijn echter voornamelijk gericht op videogeneratie met één doel of één taak, zoals generatie aangedreven door tekst, door afbeeldingen, of door een combinatie van tekst en afbeeldingen. Dit kan niet volledig voldoen aan de behoeften van real-world toepassingsscenario's, aangezien gebruikers waarschijnlijk afbeeldingen en tekstcondities op een flexibele manier invoeren, afzonderlijk of in combinatie. Om dit aan te pakken, stellen we een Unified-modal Video Generation-systeem voor dat in staat is om meerdere videogeneratietaken over tekst- en afbeeldingsmodaliteiten te verwerken. Hiertoe herzien we de verschillende videogeneratietaken binnen ons systeem vanuit het perspectief van generatieve vrijheid en classificeren we ze in categorieën van videogeneratie met hoge vrijheid en lage vrijheid. Voor videogeneratie met hoge vrijheid gebruiken we Multi-condition Cross Attention om video's te genereren die aansluiten bij de semantiek van de invoerafbeeldingen of tekst. Voor videogeneratie met lage vrijheid introduceren we Biased Gaussian Noise om het zuivere willekeurige Gaussiaanse ruis te vervangen, wat helpt om de inhoud van de invoercondities beter te behouden. Onze methode behaalt de laagste Fréchet Video Distance (FVD) op de openbare academische benchmark MSR-VTT, overtreft de huidige open-source methoden in menselijke evaluaties, en is vergelijkbaar met de huidige closed-source methode Gen2. Voor meer voorbeelden, bezoek https://univg-baidu.github.io.
De inzet en schaalbaarheid van grote taalmodellen (LLMs) zijn cruciaal geworden nu ze doordringen in diverse toepassingen, wat hoge doorvoer en systemen met lage latentie vereist. Bestaande frameworks hebben moeite om aan deze eisen te voldoen, vooral bij workloads met lange prompts. Dit artikel introduceert DeepSpeed-FastGen, een systeem dat gebruikmaakt van Dynamic SplitFuse, een nieuwe strategie voor het samenstellen van prompts en generatie, om tot 2,3x hogere effectieve doorvoer, gemiddeld 2x lagere latentie en tot 3,7x lagere (token-level) staartlatentie te bieden in vergelijking met state-of-the-art systemen zoals vLLM. We benutten een synergetische combinatie van DeepSpeed-MII en DeepSpeed-Inference om een efficiënt en gebruiksvriendelijk serveersysteem voor LLMs te bieden. De geavanceerde implementatie van DeepSpeed-FastGen ondersteunt een reeks modellen en biedt zowel niet-persistente als persistente implementatieopties, wat aansluit bij diverse gebruikersscenario's, van interactieve sessies tot langlopende applicaties. We presenteren een gedetailleerde benchmarkmethodologie, analyseren de prestaties via latentie-doorvoercurves en onderzoeken schaalbaarheid via load balancing. Onze evaluaties tonen aanzienlijke verbeteringen in doorvoer en latentie bij verschillende modellen en hardwareconfiguraties. We bespreken onze roadmap voor toekomstige verbeteringen, waaronder bredere modelondersteuning en nieuwe hardwarebackends. De DeepSpeed-FastGen-code is direct beschikbaar voor gemeenschapsbetrokkenheid en bijdragen.
Text-to-video-generatie heeft als doel een video te produceren op basis van een gegeven prompt. Onlangs zijn verschillende commerciële videomodellen in staat gebleken geloofwaardige video's te genereren met minimale ruis, uitstekende details en hoge esthetische scores. Deze modellen zijn echter afhankelijk van grootschalige, goed gefilterde, hoogwaardige video's die niet toegankelijk zijn voor de gemeenschap. Veel bestaande onderzoekswerken, die modellen trainen met behulp van de laagwaardige WebVid-10M-dataset, hebben moeite om hoogwaardige video's te genereren omdat de modellen zijn geoptimaliseerd om WebVid-10M te benaderen. In dit werk onderzoeken we het trainingsschema van videomodellen die zijn uitgebreid vanuit Stable Diffusion en onderzoeken we de haalbaarheid van het benutten van laagwaardige video's en gesynthetiseerde hoogwaardige afbeeldingen om een hoogwaardig videomodel te verkrijgen. We analyseren eerst de verbinding tussen de ruimtelijke en temporele modules van videomodellen en de verschuiving in distributie naar laagwaardige video's. We observeren dat volledige training van alle modules resulteert in een sterkere koppeling tussen ruimtelijke en temporele modules dan alleen het trainen van temporele modules. Op basis van deze sterkere koppeling verschuiven we de distributie naar hogere kwaliteit zonder bewegingsdegradatie door ruimtelijke modules te finetunen met hoogwaardige afbeeldingen, wat resulteert in een generiek hoogwaardig videomodel. Evaluaties worden uitgevoerd om de superioriteit van de voorgestelde methode aan te tonen, met name op het gebied van beeldkwaliteit, beweging en conceptcompositie.
We presenteren Scalable Interpolant Transformers (SiT), een familie van generatieve modellen gebouwd op de basis van Diffusion Transformers (DiT). Het interpolant-framework, dat het mogelijk maakt om twee verdelingen op een flexibelere manier te verbinden dan standaard diffusiemodellen, maakt een modulaire studie mogelijk van verschillende ontwerpkeuzes die van invloed zijn op generatieve modellen gebaseerd op dynamisch transport: het gebruik van discreet versus continu tijd leren, het bepalen van het doel voor het model om te leren, het kiezen van de interpolant die de verdelingen verbindt, en het inzetten van een deterministische of stochastische sampler. Door zorgvuldig bovenstaande componenten te introduceren, overtreft SiT DiT uniform over verschillende modelgroottes op de conditionele ImageNet 256x256 benchmark, waarbij exact dezelfde backbone, hetzelfde aantal parameters en GFLOPs worden gebruikt. Door verschillende diffusiecoëfficiënten te verkennen, die apart van het leren kunnen worden afgestemd, behaalt SiT een FID-50K score van 2,06.
Lokale stochastische gradiëntdaling (Local-SGD), ook wel federated averaging genoemd, is een benadering voor gedistribueerde optimalisatie waarbij elk apparaat meer dan één SGD-update uitvoert per communicatie. Dit werk presenteert een empirische studie van {\it asynchrone} Local-SGD voor het trainen van taalmodelen; dat wil zeggen, elke worker werkt de globale parameters bij zodra deze zijn SGD-stappen heeft voltooid. We voeren een uitgebreid onderzoek uit door te analyseren hoe hardware-heterogeniteit van workers, modelgrootte, aantal workers en de optimizer de leerprestaties kunnen beïnvloeden. We constateren dat bij naïeve implementaties asynchrone Local-SGD meer iteraties nodig heeft om te convergeren dan zijn synchrone tegenhanger, ondanks het vaker bijwerken van de (globale) modelparameters. We identificeren momentumversnelling op de globale parameters wanneer worker-gradiënten verouderd zijn als een belangrijke uitdaging. We stellen een nieuwe methode voor die gebruikmaakt van een vertraagde Nesterov-momentumupdate en de lokale trainingsstappen van de workers aanpast op basis van hun rekensnelheid. Deze aanpak, geëvalueerd met modellen tot 150M parameters op de C4-dataset, evenaart de prestaties van synchrone Local-SGD in termen van perplexiteit per update-stap en overtreft deze aanzienlijk in termen van werkelijke rekentijd.
We presenteren TextureDreamer, een nieuwe beeldgeleide textuursynthesemethode om relightbare texturen over te dragen van een klein aantal invoerbeelden (3 tot 5) naar doel-3D-vormen over willekeurige categorieën. Texturecreatie is een cruciaal vraagstuk in visie en grafische technologie. Industriële bedrijven huren ervaren artiesten in om handmatig texturen te maken voor 3D-assets. Klassieke methoden vereisen dicht bemonsterde aanzichten en nauwkeurig uitgelijnde geometrie, terwijl op leren gebaseerde methoden beperkt zijn tot categorie-specifieke vormen binnen de dataset. Daarentegen kan TextureDreamer zeer gedetailleerde, complexe texturen uit de echte wereld overbrengen naar willekeurige objecten met slechts enkele lukraak vastgelegde beelden, wat texturecreatie mogelijk aanzienlijk kan democratiseren. Onze kernidee, gepersonaliseerde geometrie-bewuste score-distillatie (PGSD), put inspiratie uit recente vooruitgang in diffuse modellen, waaronder gepersonaliseerde modellering voor textuurinformatie-extractie, variatie-score-distillatie voor gedetailleerde uiterlijk-synthese, en expliciete geometrie-begeleiding met ControlNet. Onze integratie en verschillende essentiële aanpassingen verbeteren de textuurkwaliteit aanzienlijk. Experimenten met echte beelden uit verschillende categorieën tonen aan dat TextureDreamer zeer realistische, semantisch betekenisvolle texturen succesvol kan overbrengen naar willekeurige objecten, waarbij de visuele kwaliteit van eerdere state-of-the-art methoden wordt overtroffen.
Het aanpakken van de beperkingen van tekst als bron voor nauwkeurige lay-outrepresentatie in tekst-conditionele diffusiemodellen, integreren veel werken aanvullende signalen om bepaalde attributen binnen een gegenereerde afbeelding te conditioneren. Hoewel succesvol, houden eerdere werken geen rekening met de specifieke lokalisatie van deze attributen uitgebreid naar het driedimensionale vlak. In deze context presenteren we een conditioneel diffusiemodel dat controle over driedimensionale objectplaatsing integreert met ontwarde representaties van globale stilistische semantiek uit meerdere voorbeeldafbeeldingen. Specifiek introduceren we eerst diepteontwarringstraining om de relatieve diepte van objecten te benutten als schatter, waardoor het model de absolute posities van onbekende objecten kan identificeren door het gebruik van synthetische afbeeldingstripletten. We introduceren ook zachte begeleiding, een methode voor het opleggen van globale semantiek aan gerichte regio's zonder het gebruik van aanvullende lokalisatieaanwijzingen. Ons geïntegreerde framework, Compose and Conquer (CnC), verenigt deze technieken om meerdere condities op een ontwarde manier te lokaliseren. We tonen aan dat onze aanpak de waarneming van objecten op verschillende diepten mogelijk maakt, terwijl het een veelzijdig framework biedt voor het samenstellen van gelokaliseerde objecten met verschillende globale semantiek. Code: https://github.com/tomtom1103/compose-and-conquer/
Neural Radiance Fields (NeRF) vertonen opmerkelijke prestaties voor Novel View Synthesis (NVS) op basis van een set 2D-beelden. Echter vereist NeRF-training nauwkeurige cameraposities voor elke invoerweergave, die doorgaans worden verkregen via Structure-from-Motion (SfM)-pijplijnen. Recente werken hebben geprobeerd deze beperking te versoepelen, maar ze blijven vaak afhankelijk van redelijke initiële posities die ze kunnen verfijnen. Hier streven we ernaar de vereiste voor pose-initialisatie te verwijderen. We presenteren Incremental CONfidence (ICON), een optimalisatieprocedure voor het trainen van NeRF's vanuit 2D-videoframes. ICON gaat uit van vloeiende camerabeweging om een initiële schatting voor de posities te maken. Bovendien introduceert ICON "confidence": een adaptieve maatstaf voor modelkwaliteit die wordt gebruikt om gradiënten dynamisch te herwegen. ICON vertrouwt op posities met hoge confidence om NeRF te leren, en op 3D-structuur met hoge confidence (zoals gecodeerd door NeRF) om posities te leren. We tonen aan dat ICON, zonder voorafgaande pose-initialisatie, superieure prestaties behaalt in zowel CO3D als HO3D vergeleken met methoden die SfM-posities gebruiken.