Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning from Human Feedback (RLHF) is opgekomen als een kritieke benadering voor het afstemmen van grote taalmodellen op menselijke voorkeuren, waarbij een snelle algoritmische evolutie wordt waargenomen door methoden zoals Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax, en Group Relative Policy Optimization (GRPO). We presenteren REINFORCE++, een verbeterde variant van het klassieke REINFORCE-algoritme dat belangrijke optimalisatietechnieken van PPO incorporeert terwijl de noodzaak voor een criticusnetwerk wordt geëlimineerd. REINFORCE++ bereikt drie primaire doelstellingen: (1) eenvoud, (2) verbeterde trainingsstabiliteit, en (3) verminderde computationele overhead. Door uitgebreide empirische evaluatie tonen we aan dat REINFORCE++ superieure stabiliteit vertoont in vergelijking met GRPO en een grotere computationele efficiëntie behaalt dan PPO, terwijl het vergelijkbare prestaties behoudt. De implementatie is beschikbaar op https://github.com/OpenRLHF/OpenRLHF.
Fysieke AI moet eerst digitaal worden getraind. Het heeft een digitale tweeling van zichzelf nodig, het beleidsmodel, en een digitale tweeling van de wereld, het wereldmodel. In dit artikel presenteren we het Cosmos World Foundation Model Platform om ontwikkelaars te helpen bij het bouwen van aangepaste wereldmodellen voor hun fysieke AI-opstellingen. We positioneren een wereldfoundation model als een algemeen wereldmodel dat kan worden afgestemd op aangepaste wereldmodellen voor downstream toepassingen. Ons platform omvat een videocuratiepijplijn, vooraf getrainde wereldfoundation modellen, voorbeelden van post-training van vooraf getrainde wereldfoundation modellen, en video-tokenizers. Om fysieke AI-bouwers te helpen bij het oplossen van de meest kritieke problemen van onze samenleving, maken we ons platform open-source en onze modellen open-weight met permissieve licenties beschikbaar via https://github.com/NVIDIA/Cosmos.
De opkomst van real-time grote multimodale modellen (LMM's) zoals GPT-4o heeft aanzienlijke interesse gewekt in efficiënte LMM's. LMM-frameworks coderen doorgaans visuele invoer in visuele tokens (continue representaties) en integreren deze en tekstuele instructies in de context van grote taalmodellen (LLM's), waarbij grootschalige parameters en talrijke contexttokens (voornamelijk visuele tokens) resulteren in aanzienlijke rekenkundige overhead. Eerdere inspanningen voor efficiënte LMM's richten zich altijd op het vervangen van de LLM-ruggengraat door kleinere modellen, terwijl ze het cruciale probleem van de hoeveelheid tokens verwaarlozen. In dit artikel introduceren we LLaVA-Mini, een efficiënte LMM met minimale visuele tokens. Om een hoge compressieverhouding van visuele tokens te bereiken en tegelijkertijd visuele informatie te behouden, analyseren we eerst hoe LMM's visuele tokens begrijpen en constateren we dat de meeste visuele tokens alleen een cruciale rol spelen in de vroege lagen van de LLM-ruggengraat, waar ze voornamelijk visuele informatie samenvoegen met teksttokens. Voortbouwend op deze bevinding introduceert LLaVA-Mini modaliteitsvoor-fusie om visuele informatie vooraf samen te voegen met teksttokens, waardoor de extreme compressie van visuele tokens die aan de LLM-ruggengraat worden gevoed tot één token wordt vergemakkelijkt. LLaVA-Mini is een verenigd groot multimodaal model dat het begrip van afbeeldingen, hoge-resolutieafbeeldingen en video's op een efficiënte manier kan ondersteunen. Experimenten over 11 op afbeeldingen gebaseerde en 7 op video gebaseerde benchmarks tonen aan dat LLaVA-Mini beter presteert dan LLaVA-v1.5 met slechts 1 visuele token in plaats van 576. Efficiëntieanalyses tonen aan dat LLaVA-Mini FLOP's met 77% kan verminderen, snelle reacties kan leveren binnen 40 milliseconden en meer dan 10.000 videoframes kan verwerken op de GPU-hardware met 24 GB geheugen.
Dit werk presenteert Sa2VA, het eerste verenigde model voor dichte verankerde begrip van zowel afbeeldingen als video's. In tegenstelling tot bestaande multimodale grote taalmodellen, die vaak beperkt zijn tot specifieke modaliteiten en taken, ondersteunt Sa2VA een breed scala aan beeld- en videotaken, waaronder verwijzende segmentatie en conversatie, met minimaal éénmalige instructieafstemming. Sa2VA combineert SAM-2, een basisvideosegmentatiemodel, met LLaVA, een geavanceerd visueel-taalmodel, en verenigt tekst, afbeelding en video in een gedeelde LLM-tokenruimte. Met behulp van de LLM genereert Sa2VA instructietokens die SAM-2 begeleiden bij het produceren van nauwkeurige maskers, waardoor een verankerd, multimodaal begrip van zowel statische als dynamische visuele inhoud mogelijk is. Daarnaast introduceren we Ref-SAV, een automatisch gelabelde dataset met meer dan 72k objectuitdrukkingen in complexe videoscènes, ontworpen om de modelprestaties te verbeteren. We valideren ook handmatig 2k video-objecten in de Ref-SAV-datasets om de verwijzende video-objectsegmentatie in complexe omgevingen te benchmarken. Experimenten tonen aan dat Sa2VA state-of-the-art bereikt op meerdere taken, met name in verwijzende video-objectsegmentatie, waarbij het potentieel voor complexe real-world toepassingen wordt benadrukt.
In de afgelopen jaren hebben visie-taalmodellen (VLM's) aanzienlijke vooruitgang geboekt op het gebied van videobegrip. Echter, een cruciale mogelijkheid - fijnmazig bewegingsbegrip - blijft onderbelicht in de huidige benchmarks. Om dit hiaat aan te pakken, stellen we MotionBench voor, een uitgebreide evaluatiebenchmark ontworpen om het fijnmazig bewegingsbegrip van videobegrijpende modellen te beoordelen. MotionBench evalueert het bewegingsniveau van modellen via zes primaire categorieën van bewegingsgerichte vraagtypen en bevat gegevens verzameld uit diverse bronnen, waardoor een brede representatie van real-world videomateriaal wordt gegarandeerd. Experimentele resultaten tonen aan dat bestaande VLM's slecht presteren in het begrijpen van fijnmazige bewegingen. Om de mogelijkheid van VLM's om fijnmazige beweging binnen een beperkte sequentielengte van LLM waar te nemen te verbeteren, voeren we uitgebreide experimenten uit waarbij VLM-architecturen worden beoordeeld die geoptimaliseerd zijn voor videokenmerkcompressie en stellen we een nieuw en efficiënte Door-Encoder (TE) Fusiemethode voor. Experimenten tonen aan dat hogere framesnelheid invoeren en TE Fusie verbeteringen opleveren in bewegingsbegrip, maar er is nog steeds aanzienlijke ruimte voor verbetering. Onze benchmark heeft tot doel de ontwikkeling van meer capabele videobegrijpende modellen te begeleiden en te stimuleren, waarbij de nadruk ligt op het belang van fijnmazig bewegingsbegrip. Projectpagina: https://motion-bench.github.io.
Diffusiemodellen hebben indrukwekkende prestaties aangetoond bij het genereren van hoogwaardige video's op basis van tekstprompts of afbeeldingen. Echter, precieze controle over het videogeneratieproces, zoals camerabewerking of inhoudsbewerking, blijft een aanzienlijke uitdaging. Bestaande methoden voor gecontroleerde videogeneratie zijn doorgaans beperkt tot een enkel type controle, waardoor ze niet flexibel genoeg zijn om diverse controle-eisen aan te kunnen. In dit artikel introduceren we Diffusie als Shader (DaS), een nieuw benadering die meerdere videobesturingstaken ondersteunt binnen een geünificeerde architectuur. Ons belangrijkste inzicht is dat het bereiken van veelzijdige videobesturing vereist dat er gebruik wordt gemaakt van 3D-besturingsignalen, aangezien video's in de kern 2D-weergaven zijn van dynamische 3D-inhoud. In tegenstelling tot eerdere methoden die beperkt zijn tot 2D-besturingsignalen, maakt DaS gebruik van 3D-trackingvideo's als besturingsinvoer, waardoor het videodiffusieproces inherent 3D-bewust is. Deze innovatie stelt DaS in staat om een breed scala aan videobesturingen te bereiken door eenvoudigweg de 3D-trackingvideo's te manipuleren. Een bijkomend voordeel van het gebruik van 3D-trackingvideo's is hun vermogen om frames effectief te verbinden, waardoor de temporele consistentie van de gegenereerde video's aanzienlijk wordt verbeterd. Met slechts 3 dagen fijntuning op 8 H800 GPU's met minder dan 10k video's, toont DaS sterke besturingsmogelijkheden aan over diverse taken, waaronder mesh-naar-video-generatie, camerabesturing, bewegingsoverdracht en objectmanipulatie.
Het automatisch genereren van presentaties vanuit documenten is een uitdagende taak die een balans vereist tussen inhoudskwaliteit, visueel ontwerp en structurele coherentie. Bestaande methoden richten zich voornamelijk op het verbeteren en evalueren van de inhoudskwaliteit op zichzelf, waarbij vaak het visuele ontwerp en de structurele coherentie over het hoofd worden gezien, wat hun praktische toepasbaarheid beperkt. Om deze beperkingen aan te pakken, stellen we PPTAgent voor, dat de presentatiegeneratie op een allesomvattende manier verbetert door middel van een op bewerkingen gebaseerde aanpak geïnspireerd op menselijke workflows. PPTAgent analyseert eerst referentiepresentaties om hun structurele patronen en inhoudsschema's te begrijpen, stelt dan een opzet op en genereert dia's via codeacties om consistentie en afstemming te waarborgen. Om de kwaliteit van gegenereerde presentaties uitgebreid te evalueren, introduceren we verder PPTEval, een evaluatiekader dat presentaties beoordeelt op drie dimensies: Inhoud, Ontwerp en Coherentie. Experimenten tonen aan dat PPTAgent aanzienlijk beter presteert dan traditionele methoden voor automatische presentatiegeneratie op alle drie dimensies. De code en gegevens zijn beschikbaar op https://github.com/icip-cas/PPTAgent.
Het wetenschappelijke onderzoeksparadigma ondergaat een diepgaande transformatie als gevolg van de ontwikkeling van Kunstmatige Intelligentie (AI). Recente werken tonen aan dat verschillende AI-ondersteunde onderzoeksmethoden de onderzoeksefficiëntie aanzienlijk kunnen verbeteren door de gegevensanalyse te verbeteren, berekeningen te versnellen en het genereren van nieuwe ideeën te bevorderen. Om verder te streven naar het ultieme doel (d.w.z. automatisch wetenschappelijk onderzoek), stellen we in dit artikel Dolphin voor, het eerste gesloten-lus open-ended auto-onderzoekskader om het gehele proces van menselijk wetenschappelijk onderzoek verder op te bouwen. Dolphin kan onderzoeksideeën genereren, experimenten uitvoeren en feedback krijgen van experimentele resultaten om ideeën van hogere kwaliteit te genereren. Meer specifiek genereert Dolphin eerst nieuwe ideeën op basis van relevante papers die gerangschikt zijn op basis van de onderwerp- en taakeigenschappen. Vervolgens worden de codes automatisch gegenereerd en opgeschoond met de uitzondering-traceringsgestuurde lokale codestructuur. Ten slotte analyseert Dolphin automatisch de resultaten van elk idee en geeft de resultaten terug aan de volgende ronde van ideegeneratie. Experimenten worden uitgevoerd op benchmark datasets van verschillende onderwerpen en de resultaten tonen aan dat Dolphin voortdurend nieuwe ideeën kan genereren en het experiment in een lus kan voltooien. We benadrukken dat Dolphin automatisch methoden kan voorstellen die vergelijkbaar zijn met de state-of-the-art in sommige taken zoals 2D beeldclassificatie en 3D puntclassificatie.
Recente ontwikkelingen in omnimodaal leren hebben vooruitgang geboekt in het begrijpen en genereren van beelden, tekst en spraak, zij het voornamelijk binnen eigen modellen. Beperkte omnimodale datasets en de inherente uitdagingen die gepaard gaan met het genereren van emotionele spraak in realtime hebben de voortgang van open-source projecten belemmerd. Om deze problemen aan te pakken, stellen we openomni voor, een tweefasige trainingsmethode die omnimodale afstemming en spraakgeneratie combineert om een state-of-the-art omnimodaal groot taalmodel te ontwikkelen. In de afstemmingsfase wordt een voorgeleerd spraakmodel verder getraind op tekst-beeldtaken om te generaliseren van visie naar spraak op een (bijna) zero-shot manier, waarbij modellen die zijn getraind op tri-modale datasets worden overtroffen. In de spraakgeneratiefase vergemakkelijkt een lichte decoder emotionele spraak in realtime door training op spraaktaken en voorkeursleren. Experimenten tonen aan dat openomni consequent verbeteringen laat zien bij omnimodale, visie-taal en spraak-taal evaluaties, waardoor natuurlijke, emotierijke dialogen en het genereren van emotionele spraak in realtime mogelijk worden gemaakt.
Wij presenteren Magic Mirror, een raamwerk voor het genereren van identiteit-geconserveerde video's met een cinematografisch niveau van kwaliteit en dynamische beweging. Hoewel recente ontwikkelingen in video-diffusiemodellen indrukwekkende mogelijkheden hebben laten zien in tekst-naar-video generatie, blijft het uitdagend om consistente identiteit te behouden terwijl natuurlijke beweging wordt geproduceerd. Vorige methoden vereisen ofwel fijne afstemming per persoon of worstelen met het balanceren van identiteitsbehoud met bewegingsdiversiteit. Gebaseerd op Video Diffusion Transformers, introduceert onze methode drie essentiële componenten: (1) een dubbele tak voor het extraheren van gezichtskenmerken die zowel identiteit als structurele kenmerken vastlegt, (2) een lichtgewicht cross-modale adapter met Conditioned Adaptive Normalization voor efficiënte integratie van identiteit, en (3) een tweefasige trainingsstrategie die synthetische identiteitsparen combineert met videogegevens. Uitgebreide experimenten tonen aan dat Magic Mirror effectief identiteitsconsistentie balanceert met natuurlijke beweging, bestaande methoden overtreft op meerdere metingen en minimale toegevoegde parameters vereist. De code en het model zullen openbaar beschikbaar worden gesteld op: https://github.com/dvlab-research/MagicMirror/
3D Gaussian Splatting (3DGS) heeft aanzienlijke vooruitgang geboekt in scène-representatie en neurale rendering, waarbij intensieve inspanningen gericht zijn op het aanpassen ervan voor dynamische scènes. Ondanks opmerkelijke renderingkwaliteit en snelheid te leveren, hebben bestaande methoden moeite met opslagvereisten en het representeren van complexe real-world bewegingen. Om deze problemen aan te pakken, stellen we MoDecGS voor, een geheugenefficiënt Gaussian splatting-framework dat is ontworpen voor het reconstrueren van nieuwe weergaven in uitdagende scenario's met complexe bewegingen. We introduceren GlobaltoLocal Motion Decomposition (GLMD) om dynamische bewegingen effectief op een grof-naar-fijn manier vast te leggen. Deze aanpak maakt gebruik van Global Canonical Scaffolds (Global CS) en Local Canonical Scaffolds (Local CS), waarbij de statische Scaffolding-representatie wordt uitgebreid naar dynamische videoreconstructie. Voor Global CS stellen we Global Anchor Deformation (GAD) voor om globale dynamiek efficiënt te representeren langs complexe bewegingen, door rechtstreeks de impliciete Scaffolding-attributen te vervormen, namelijk ankerpositie, offset en lokale contextkenmerken. Vervolgens passen we lokale bewegingen fijn aan via de Local Gaussian Deformation (LGD) van Local CS expliciet. Daarnaast introduceren we Temporal Interval Adjustment (TIA) om automatisch de temporale dekking van elke Local CS tijdens training te regelen, waardoor MoDecGS optimale intervaltoewijzingen kan vinden op basis van het gespecificeerde aantal temporale segmenten. Uitgebreide evaluaties tonen aan dat MoDecGS een gemiddelde vermindering van 70% in modelgrootte bereikt ten opzichte van state-of-the-art methoden voor dynamische 3D Gaussians uit real-world dynamische video's, terwijl de renderingkwaliteit behouden blijft of zelfs verbetert.
Reinforcement learning van menselijke feedback (RLHF) wordt veelvuldig toegepast om taalmodellen (LM's) af te stemmen op menselijke voorkeuren. Voorheen gebruikte RLHF-methoden namen doorgaans een bandit-formulering aan, die, hoewel intuïtief, voorbijgaat aan de sequentiële aard van LM-generatie en te maken kan krijgen met het probleem van schaarse beloningen. Terwijl recente werken dichte token-niveau RLHF voorstellen, kan het behandelen van elk token als een actie te subtiel zijn voor een juiste beloningstoewijzing. In dit artikel streven we ernaar het beste van beide te combineren door een segment-niveau beloningsmodel te trainen en te gebruiken, dat een beloning toekent aan elk semantisch volledig tekstsegment dat zich uitstrekt over een korte reeks tokens. Voor beloningsleren staat onze methode dynamische tekstsegmentatie toe en is compatibel met standaard datasets voor sequentie-voorkeur. Voor effectieve RL-gebaseerde LM-training tegen segmentbeloning generaliseren we de klassieke scalaire bandit-beloningnormalisatoren naar locatiebewuste normalisatiefuncties en interpoleren we de segmentbeloning voor verdere verdichting. Met deze ontwerpen presteert onze methode competitief op drie populaire RLHF-benchmarks voor LM-beleid: AlpacaEval 2.0, Arena-Hard en MT-Bench. Ablatiestudies worden uitgevoerd om onze methode verder te demonstreren.
We presenteren een benadering om Transformer-architecturen aan te passen door grafiekbewuste relationele redenering te integreren in het aandachtsmechanisme, waarbij concepten uit grafiekneurale netwerken en taalmodellering worden samengevoegd. Voortbouwend op de inherente verbinding tussen aandacht en grafentheorie, herformuleren we het aandachtsmechanisme van de Transformer als een grafiekoperatie en stellen Graph-Aware Isomorphic Attention voor. Deze methode maakt gebruik van geavanceerde grafiekmodelleringsstrategieën, waaronder Graph Isomorphism Networks (GIN) en Principal Neighborhood Aggregation (PNA), om de representatie van relationele structuren te verrijken. Onze benadering legt complexe afhankelijkheden vast en generaliseert over taken, zoals blijkt uit een verminderde generalisatiekloof en verbeterde leerpresentatie. Bovendien breiden we het concept van grafiekbewuste aandacht uit om Sparse GIN-Attention te introduceren, een fijnafstemmingsbenadering die schaarse GIN's gebruikt. Door aandachtsmatrices te interpreteren als schaarse adjacentiemodellen, verbetert deze techniek de aanpasbaarheid van vooraf getrainde basismodellen met minimale rekenkundige overhead, waardoor ze worden voorzien van grafiekbewuste mogelijkheden. Fijnafstemming met Sparse GIN-Attention bereikt verbeterde trainingsdynamiek en betere generalisatie in vergelijking met alternatieve methoden zoals lage-rangschikkingaanpassing (LoRA). We bespreken latente grafiekachtige structuren binnen traditionele aandachtsmechanismen, waarbij een nieuwe kijk wordt geboden op hoe Transformers kunnen worden begrepen. Door Transformers te laten evolueren als hiërarchische GIN-modellen voor relationeel redeneren. Deze benadering suggereert diepgaande implicaties voor de ontwikkeling van basismodellen, waardoor het ontwerpen van architecturen die dynamisch kunnen aanpassen aan zowel lokale als globale afhankelijkheden mogelijk wordt. Toepassingen in bio-informatica, materiaalkunde, taalmodellering en verder zouden kunnen profiteren van deze synthese van relationele en sequentiële gegevensmodellering, wat de weg vrijmaakt voor interpreteerbare en generaliseerbare modelleringsstrategieën.
We pakken het probleem van het bewerken van gezichtsuitdrukkingen aan door de relatieve variatie van gezichtsactie-eenheden (AU) van dezelfde persoon te controleren. Dit stelt ons in staat om de expressie van deze specifieke persoon op een verfijnde, continue en interpreteerbare manier te bewerken, terwijl we hun identiteit, houding, achtergrond en gedetailleerde gezichtskenmerken behouden. Kern van ons model, dat we MagicFace noemen, is een diffusiemodel geconditioneerd op AU-variabelen en een ID-encoder om gezichtsdetails met een hoge consistentie te behouden. Specifiek, om de gezichtsdetails met de invoeridentiteit te behouden, benutten we de kracht van vooraf getrainde Stable-Diffusion modellen en ontwerpen we een ID-encoder om uiterlijke kenmerken samen te voegen via zelfaandacht. Om achtergrond- en houdingsconsistentie te behouden, introduceren we een efficiënte Attribuutcontroller door het model expliciet te informeren over de huidige achtergrond en houding van het doel. Door AU-variabelen in te voegen in een denoising UNet, kan ons model willekeurige identiteiten animeren met verschillende AU-combinaties, wat resulteert in superieure resultaten bij het bewerken van expressies met een hoge nauwkeurigheid in vergelijking met andere werken voor het bewerken van gezichtsuitdrukkingen. De code is openbaar beschikbaar op https://github.com/weimengting/MagicFace.
Tekstgestuurde beeld-naar-beeld diffusiemodellen excelleren in het vertalen van afbeeldingen op basis van tekstuele aanwijzingen, waardoor nauwkeurige en creatieve visuele aanpassingen mogelijk zijn. Echter kan zo'n krachtige techniek misbruikt worden voor het verspreiden van misinformatie, inbreuk maken op auteursrechten en het ontwijken van het traceren van inhoud. Dit motiveert ons om de taak van origine-identificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen (ID^2) te introduceren, met als doel de originele afbeelding van een gegeven vertaalde query op te halen. Een eenvoudige oplossing voor ID^2 omvat het trainen van een gespecialiseerd diep insluitingsmodel om kenmerken uit zowel de query als referentieafbeeldingen te extraheren en vergelijken. Echter, vanwege visuele discrepantie over generaties geproduceerd door verschillende diffusiemodellen, faalt deze op gelijkenis gebaseerde benadering wanneer getraind wordt op afbeeldingen van het ene model en getest op die van een ander, wat de effectiviteit beperkt in real-world toepassingen. Om dit uitdaging van de voorgestelde ID^2-taak op te lossen, dragen we bij met de eerste dataset en een theoretisch gegarandeerde methode, waarbij generaliseerbaarheid benadrukt wordt. De samengestelde dataset, OriPID, bevat overvloedige Origins en begeleide Prompts, die gebruikt kunnen worden om potentiële Identificatiemodellen te trainen en testen over verschillende diffusiemodellen. In de methodensectie bewijzen we eerst het bestaan van een lineaire transformatie die de afstand minimaliseert tussen de vooraf getrainde insluitingen van de variational autoencoder (VAE) van gegenereerde samples en hun oorsprongen. Vervolgens wordt aangetoond dat zo'n eenvoudige lineaire transformatie gegeneraliseerd kan worden over verschillende diffusiemodellen. Experimentele resultaten tonen aan dat de voorgestelde methode bevredigende generalisatieprestaties behaalt, aanzienlijk beter dan op gelijkenis gebaseerde methoden (+31.6% mAP), zelfs die met generalisatieontwerpen.