Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren de Byte Latent Transformer (BLT), een nieuwe architectuur op byte-niveau voor LLM, die voor het eerst overeenkomt met de prestaties van op tokenisatie gebaseerde LLM op schaal met aanzienlijke verbeteringen in inferentie-efficiëntie en robuustheid. BLT codeert bytes in dynamisch formaat patches, die dienen als de primaire rekeneenheden. Patches worden op basis van de entropie van de volgende byte opgesplitst, waarbij meer rekencapaciteit en modelcapaciteit worden toegewezen waar verhoogde complexiteit van gegevens dit vereist. We presenteren de eerste FLOP-gecontroleerde schalingsstudie van modellen op byte-niveau tot 8B parameters en 4T trainingsbytes. Onze resultaten tonen de haalbaarheid aan van het schalen van modellen die zijn getraind op ruwe bytes zonder een vast vocabulaire. Zowel de trainings- als inferentie-efficiëntie verbeteren door dynamisch lange patches te selecteren wanneer de gegevens voorspelbaar zijn, samen met kwalitatieve verbeteringen in redenering en generalisatie naar lange staarten. Over het algemeen laat BLT aanzienlijk betere schaling zien dan op tokenisatie gebaseerde modellen voor vaste inferentiekosten, door zowel de patch- als modelgrootte tegelijkertijd te vergroten.
Recente ontwikkelingen in visuele generatieve modellen hebben hoogwaardige beeld- en videogeneratie mogelijk gemaakt, waardoor diverse toepassingen ontstaan. Het evalueren van deze modellen vereist echter vaak het monsteren van honderden of duizenden afbeeldingen of video's, wat het proces rekenkundig duur maakt, vooral voor diffusie-gebaseerde modellen met inherent trage monsterneming. Bovendien steunen bestaande evaluatiemethoden op rigide pipelines die specifieke gebruikersbehoeften over het hoofd zien en numerieke resultaten bieden zonder duidelijke uitleg. In tegenstelling hiermee kunnen mensen snel indrukken vormen van de capaciteiten van een model door slechts een paar monsters te observeren. Om dit na te bootsen, stellen we het Evaluatie Agent-framework voor, dat mensachtige strategieën gebruikt voor efficiënte, dynamische, meertraps evaluaties met slechts een paar monsters per ronde, terwijl gedetailleerde, op maat gemaakte analyses worden geboden. Het biedt vier belangrijke voordelen: 1) efficiëntie, 2) aanpasbare evaluatie afgestemd op diverse gebruikersbehoeften, 3) uitlegbaarheid voorbij enkele numerieke scores, en 4) schaalbaarheid over diverse modellen en tools. Experimenten tonen aan dat het Evaluatie Agent-framework de evaluatietijd verlaagt tot 10% van traditionele methoden terwijl vergelijkbare resultaten worden behaald. Het Evaluatie Agent-framework is volledig open source om onderzoek naar visuele generatieve modellen en hun efficiënte evaluatie te bevorderen.
Grote taalmodellen (LLM's) vertonen opmerkelijke generatieve mogelijkheden, maar hebben vaak last van hallucinaties. Ophalingsversterkte generatie (RAG) biedt een effectieve oplossing door externe kennis te incorporeren, maar bestaande methoden kampen nog steeds met verschillende beperkingen: extra implementatiekosten van afzonderlijke ophalers, overbodige invoertokens van opgehaalde tekstfragmenten en het ontbreken van gezamenlijke optimalisatie van ophaling en generatie. Om deze problemen aan te pakken, stellen we RetroLLM voor, een verenigd kader dat ophaling en generatie integreert in een enkel, samenhangend proces, waardoor LLM's rechtstreeks fijnmazig bewijsmateriaal uit de corpus kunnen genereren met beperkte decodering. Bovendien introduceren we om valse snoei in het proces van beperkte bewijsvoering te verminderen (1) hiërarchische FM-Index beperkingen, die corpusbeperkte aanwijzingen genereren om een subset van relevante documenten te identificeren vóór bewijsgeneratie, waardoor irrelevante decoderingsruimte wordt verminderd; en (2) een vooruitkijkende beperkte decoderingsstrategie, die de relevantie van toekomstige sequenties overweegt om de nauwkeurigheid van het bewijs te verbeteren. Uitgebreide experimenten op vijf open domein QA-datasets tonen de superieure prestaties van RetroLLM aan bij zowel in-domein als uit-domein taken. De code is beschikbaar op https://github.com/sunnynexus/RetroLLM.
Beeldbewerking heeft aanzienlijke vooruitgang geboekt met de ontwikkeling van diffusiemodellen die zowel op inversie gebaseerde als op instructie gebaseerde methoden gebruiken. Echter, huidige inversie-gebaseerde benaderingen worstelen met grote wijzigingen (bijv. toevoegen of verwijderen van objecten) vanwege de gestructureerde aard van inversieruis, wat aanzienlijke veranderingen belemmert. Ondertussen beperken op instructies gebaseerde methoden gebruikers vaak tot black-box bewerkingen, waardoor directe interactie voor het specificeren van bewerkingsgebieden en intensiteit wordt beperkt. Om deze beperkingen aan te pakken, stellen we BrushEdit voor, een nieuw inpaing-gebaseerd instructie-geleid beeldbewerkingsparadigma, dat gebruikmaakt van multimodale grote taalmodellen (MLLM's) en beeldinpaintingmodellen om autonome, gebruiksvriendelijke en interactieve vrije instructiebewerking mogelijk te maken. Specifiek ontwerpen we een systeem dat vrije instructiebewerking mogelijk maakt door MLLM's en een dubbelvertakkend beeldinpaintingmodel te integreren in een agent-coöperatief kader om bewerkingscategorieclassificatie, identificatie van hoofdobjecten, maskerverwerving en het inpainten van bewerkingsgebieden uit te voeren. Uitgebreide experimenten tonen aan dat ons kader effectief MLLM's en inpaintingmodellen combineert, met superieure prestaties op zeven metrieken, waaronder behoud van maskerregio's en coherentie van bewerkingseffecten.
Instructieafstemming wordt veelvuldig gebruikt om het volledige potentieel van grote taalmodellen te ontketenen. Met name complexe en diverse instructies zijn van groot belang, omdat ze modellen effectief kunnen afstemmen op verschillende taken. Huidige benaderingen voor het construeren van grootschalige instructies geven echter voornamelijk de voorkeur aan krachtige modellen zoals GPT-4 of die met meer dan 70 miljard parameters, onder de empirische veronderstelling dat dergelijke grotere taalmodellen inherent verbeterde capaciteiten bezitten. In dit onderzoek stellen we deze gangbare veronderstelling ter discussie en doen we een diepgaande verkenning naar het potentieel van kleinere taalmodellen in de context van instructie-evolutie. Uitgebreide experimenten in drie scenario's van instructie-evolutie tonen aan dat kleinere taalmodellen effectievere instructies kunnen synthetiseren dan grotere taalmodellen. Verder onderzoek toont aan dat kleinere taalmodellen een breder outputbereik hebben tijdens instructie-evolutie, resulterend in meer complexe en diverse varianten. We observeren ook dat de bestaande metrieken zich niet richten op de impact van de instructies. Daarom stellen we Instruction Complex-Aware IFD (IC-IFD) voor, dat instructiecomplexiteit introduceert in de oorspronkelijke IFD-score om de effectiviteit van instructiedata nauwkeuriger te evalueren. Onze broncode is beschikbaar op: https://github.com/HypherX/Evolution-Analysis.
Automatische kleurcodering van zwart-wit beeldreeksen met behoud van karakter en objectidentiteit is een complexe taak met aanzienlijke marktvraag, zoals bij het inkleuren van tekenfilms of stripreeksen. Ondanks vooruitgang in visuele kleurcodering met grootschalige generatieve modellen zoals diffusiemodellen, blijven uitdagingen met controleerbaarheid en identiteitsconsistentie bestaan, waardoor huidige oplossingen ongeschikt zijn voor industriële toepassingen. Om dit aan te pakken, stellen we ColorFlow voor, een op diffusie gebaseerd raamwerk in drie stadia dat is afgestemd op het inkleuren van beeldreeksen in industriële toepassingen. In tegenstelling tot bestaande methoden die fijnafstemming per ID vereisen of expliciete ID-embeddingextractie, stellen we een nieuw, robuust en generaliseerbaar Retrieval Augmented Colorization-pijplijn voor om afbeeldingen in te kleuren met relevante kleurreferenties. Onze pijplijn heeft ook een dubbele-tak ontwerp: één tak voor kleuridentiteitsextractie en de andere voor kleurcodering, waarbij gebruik wordt gemaakt van de sterke punten van diffusiemodellen. We maken gebruik van het zelfaandachtsmechanisme in diffusiemodellen voor krachtig in-context leren en kleuridentiteitsmatching. Om ons model te evalueren, introduceren we ColorFlow-Bench, een uitgebreide benchmark voor referentiegebaseerde kleurcodering. De resultaten tonen aan dat ColorFlow bestaande modellen overtreft op meerdere metingen, waarmee het een nieuwe standaard zet in sequentiële beeldkleuring en mogelijk voordelen biedt voor de kunstindustrie. We publiceren onze codes en modellen op onze projectpagina: https://zhuang2002.github.io/ColorFlow/.
We introduceren Causale Diffusie als de autoregressieve (AR) tegenhanger van Diffusiemodellen. Het is een raamwerk voor het voorspellen van volgende tokens dat vriendelijk is voor zowel discrete als continue modaliteiten en compatibel is met bestaande modellen voor het voorspellen van volgende tokens zoals LLaMA en GPT. Terwijl recente werken proberen diffusie te combineren met AR-modellen, tonen we aan dat het introduceren van sequentiële factorisatie in een diffusiemodel aanzienlijk de prestaties kan verbeteren en een soepele overgang tussen AR- en diffusiegeneratiemodi mogelijk maakt. Daarom stellen we CausalFusion voor - een decoder-only transformer die gegevens dual-factoriseert over sequentiële tokens en diffusieruisniveaus, wat leidt tot state-of-the-art resultaten op de ImageNet generatie benchmark, terwijl het ook profiteert van het AR-voordeel om een willekeurig aantal tokens te genereren voor in-context redenering. We demonstreren verder de multimodale mogelijkheden van CausalFusion door middel van een gezamenlijk model voor beeldgeneratie en bijschriften, en tonen de mogelijkheid van CausalFusion voor zero-shot in-context beeldmanipulaties. We hopen dat dit werk de gemeenschap een fris perspectief kan bieden op het trainen van multimodale modellen over discrete en continue data.
Het volgen van instructies is een fundamentele vaardigheid van taalmodellen, waarbij het model zelfs de meest subtiele vereisten in de instructies moet herkennen en nauwkeurig moet weergeven in de output. Een dergelijke vaardigheid is goed geschikt voor en wordt vaak geoptimaliseerd door voorkeursleren. Bestaande methoden monsteren echter vaak rechtstreeks meerdere onafhankelijke reacties van het model bij het creëren van voorkeursparen. Een dergelijke praktijk kan inhoudelijke variaties introduceren die niet relevant zijn voor het precies volgen van de instructie (bijv. verschillende uitdrukkingen over dezelfde betekenis), wat het doel van het leren van modellen om de belangrijkste verschillen te herkennen die leiden tot verbeterd instructievolgen, verstoort. In dit licht introduceren we SPaR, een zelfspelkader dat boomzoekzelfverfijning integreert om geldige en vergelijkbare voorkeursparen vrij van afleidingen te produceren. Door tegen zichzelf te spelen, past een LLM een boomzoekstrategie toe om zijn eerdere reacties te verfijnen met betrekking tot de instructie, terwijl onnodige variaties worden geminimaliseerd. Onze experimenten tonen aan dat een LLaMA3-8B-model, getraind over drie iteraties geleid door SPaR, GPT-4-Turbo overtreft op de IFEval-benchmark zonder algemene capaciteiten te verliezen. Bovendien toont SPaR veelbelovende schaalbaarheid en overdraagbaarheid, waarbij modellen zoals GLM-4-9B en LLaMA3-70B aanzienlijk worden verbeterd. We identificeren ook hoe schalen van inferentie in boomzoekopdrachten de prestaties van het model zouden beïnvloeden. Onze code en gegevens zijn openbaar beschikbaar op https://github.com/thu-coai/SPaR.
Deze paper behandelt een uitdagende vraag: Hoe kunnen we efficiënt hoogwaardige, breed-scope 3D-scènes creëren vanuit een enkele willekeurige afbeelding? Bestaande methoden worden geconfronteerd met verschillende beperkingen, zoals het vereisen van multi-view data, tijdrovende optimalisatie per scène, lage visuele kwaliteit in achtergronden en vervormde reconstructies in onbekende gebieden. We stellen een nieuw proces voor om deze beperkingen te overwinnen. Specifiek introduceren we een grootschalig reconstructiemodel dat latenties van een video diffusiemodel gebruikt om 3D Gaussian Splattings voor de scènes op een feed-forward manier te voorspellen. Het video diffusiemodel is ontworpen om video's precies te creëren volgens gespecificeerde cameratrajecten, waardoor het gecomprimeerde video-latenties kan genereren die multi-view informatie bevatten terwijl ze 3D consistentie behouden. We trainen het 3D reconstructiemodel om te werken in de video latente ruimte met een progressieve trainingsstrategie, waardoor de efficiënte generatie van hoogwaardige, breed-scope en generieke 3D-scènes mogelijk is. Uitgebreide evaluaties over verschillende datasets tonen aan dat ons model aanzienlijk beter presteert dan bestaande methoden voor het genereren van 3D-scènes vanuit één weergave, vooral met afbeeldingen buiten het domein. Voor het eerst tonen we aan dat een 3D reconstructiemodel effectief kan worden opgebouwd op basis van de latente ruimte van een diffusiemodel om efficiënte 3D-scène generatie te realiseren.
Video-gezichtsvervanging wordt steeds populairder in verschillende toepassingen, maar bestaande methoden richten zich voornamelijk op statische beelden en hebben moeite met video-gezichtsvervanging vanwege temporele consistentie en complexe scenario's. In dit artikel presenteren we het eerste diffusie-gebaseerde kader dat specifiek is ontworpen voor video-gezichtsvervanging. Onze aanpak introduceert een nieuw beeld-video hybride trainingskader dat zowel overvloedige statische beeldgegevens als temporele videosequenties benut, waardoor de inherente beperkingen van alleen video-training worden aangepakt. Het kader omvat een speciaal ontworpen diffusiemodel gekoppeld aan een VidFaceVAE dat effectief beide soorten gegevens verwerkt om de temporele coherentie van de gegenereerde video's beter te behouden. Om identiteits- en posekenmerken verder te ontwarren, construeren we de Attribuut-Identiteit Ontwarrende Triplet (AIDT) Dataset, waarbij elk triplet drie gezichtsbeelden heeft, waarbij twee beelden dezelfde pose delen en twee dezelfde identiteit delen. Versterkt met een uitgebreide occlusie-augmentatie, verbetert deze dataset ook de robuustheid tegen occlusies. Bovendien integreren we 3D-reconstructietechnieken als invoerconditionering voor ons netwerk om grote posevariaties aan te pakken. Uitgebreide experimenten tonen aan dat ons kader superieure prestaties behaalt op het gebied van identiteitsbehoud, temporele consistentie en visuele kwaliteit in vergelijking met bestaande methoden, met minder inferentiestappen. Onze aanpak vermindert effectief belangrijke uitdagingen bij video-gezichtsvervanging, waaronder temporeel flikkeren, identiteitsbehoud en robuustheid tegen occlusies en posevariaties.
Het schatten van fysieke eigenschappen voor visuele data is een cruciale taak in computer vision, grafische vormgeving en robotica, waarbij toepassingen zoals augmented reality, fysieke simulatie en robotgrijpen worden ondersteund. Echter, dit gebied blijft onderbelicht vanwege de inherente ambiguïteit in het schatten van fysieke eigenschappen. Om deze uitdagingen aan te pakken, introduceren we GaussianProperty, een trainingvrij raamwerk dat fysieke eigenschappen van materialen toewijst aan 3D-Gaussianen. Specifiek integreren we de segmentatiecapaciteit van SAM met de herkenningscapaciteit van GPT-4V(ision) om een globaal-lokaal redeneermodule voor fysieke eigenschappen voor 2D-beelden te formuleren. Vervolgens projecteren we de fysieke eigenschappen van multi-view 2D-beelden naar 3D-Gaussianen met behulp van een stemstrategie. We tonen aan dat 3D-Gaussianen met fysieke eigenschapannotaties toepassingen mogelijk maken in op fysica gebaseerde dynamische simulatie en robotgrijpen. Voor op fysica gebaseerde dynamische simulatie maken we gebruik van de Material Point Method (MPM) voor realistische dynamische simulatie. Voor robotgrijpen ontwikkelen we een strategie voor het voorspellen van grijpkrachten die een veilig krachtbereik schatten dat nodig is voor het grijpen van objecten op basis van de geschatte fysieke eigenschappen. Uitgebreide experimenten op materiaalsegmentatie, op fysica gebaseerde dynamische simulatie en robotgrijpen bevestigen de effectiviteit van onze voorgestelde methode, waarbij de cruciale rol ervan in het begrijpen van fysieke eigenschappen uit visuele data wordt benadrukt. Een online demo, code, meer gevallen en geannoteerde datasets zijn beschikbaar op https://Gaussian-Property.github.io.
Het vastleggen van geometrische en materiële informatie uit afbeeldingen blijft een fundamentele uitdaging in computer vision en graphics. Traditionele optimalisatiegebaseerde methoden vereisen vaak uren aan rekenwerk om geometrie, materiële eigenschappen en omgevingsverlichting te reconstrueren uit dichte multi-view invoer, terwijl ze nog steeds worstelen met inherente ambiguïteiten tussen verlichting en materiaal. Aan de andere kant maken op leermethoden gebaseerde benaderingen gebruik van rijke materiële prior-kennis uit bestaande 3D-objectdatasets, maar hebben ze moeite met het behouden van multi-view consistentie. In dit artikel introduceren we IDArb, een op diffusie gebaseerd model dat is ontworpen om intrinsieke decompositie uit te voeren op een willekeurig aantal afbeeldingen onder variërende belichting. Onze methode bereikt nauwkeurige en multi-view consistente schattingen van oppervlaktenormalen en materiële eigenschappen. Dit wordt mogelijk gemaakt door een nieuw cross-view, cross-domain aandachtsmodule en een belichting-verrijkte, view-adaptieve trainingsstrategie. Daarnaast introduceren we ARB-Objaverse, een nieuwe dataset die grootschalige multi-view intrinsieke gegevens en renderingen onder diverse lichtomstandigheden biedt, ter ondersteuning van robuuste training. Uitgebreide experimenten tonen aan dat IDArb zowel kwalitatief als kwantitatief beter presteert dan state-of-the-art methoden. Bovendien vergemakkelijkt onze aanpak een reeks downstreamtaken, waaronder herbelichting van enkele afbeeldingen, fotometrische stereo en 3D-reconstructie, waarbij de brede toepassingen ervan in realistische 3D-contentcreatie worden benadrukt.
Hoewel een kapsel een onderscheidende persoonlijkheid aangeeft, falen bestaande methoden voor het genereren van avatars om praktisch haar te modelleren vanwege de algemene of verstrengelde representatie. Wij stellen StrandHead voor, een nieuw methode voor het genereren van 3D-hoofdavatars van tekst naar 3D, die in staat is om ontkoppeld 3D-haar te genereren met een strengrepresentatie. Zonder 3D-gegevens te gebruiken voor toezicht, tonen we aan dat realistische haarstrengen kunnen worden gegenereerd vanuit aanwijzingen door 2D generatieve diffusiemodellen te destilleren. Hiertoe stellen we een reeks betrouwbare prioriteiten voor op vorminitialisatie, geometrische primitieven en statistische kapeigenschappen, wat leidt tot een stabiele optimalisatie en prestaties die zijn afgestemd op de tekst. Uitgebreide experimenten tonen aan dat StrandHead de state-of-the-art realiteit en diversiteit van gegenereerde 3D-hoofden en haar bereikt. Het gegenereerde 3D-haar kan ook eenvoudig worden geïmplementeerd in de Unreal Engine voor fysieke simulatie en andere toepassingen. De code zal beschikbaar zijn op https://xiaokunsun.github.io/StrandHead.github.io.
Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties vertoond over een breed scala van taken in natuurlijke taalverwerking. Echter, hun aanzienlijke omvang brengt aanzienlijke uitdagingen met zich mee, met name op het gebied van rekenkundige eisen en inferentiesnelheid, vanwege hun kwadratische complexiteit. In dit werk hebben we een belangrijk patroon geïdentificeerd: bepaalde ogenschijnlijk betekenisloze speciale tokens (d.w.z. scheiders) dragen onevenredig bij aan aandachtscores in vergelijking met semantisch betekenisvolle tokens. Deze observatie suggereert dat informatie van de segmenten tussen deze scheider tokens effectief gecondenseerd kan worden in de scheider tokens zelf zonder significante informatieverlies. Geleid door dit inzicht introduceren we SepLLM, een plug-and-play raamwerk dat inferentie versnelt door deze segmenten te comprimeren en overbodige tokens te elimineren. Daarnaast implementeren we efficiënte kernels voor versnelling van training. Experimentele resultaten over training-vrij, training-vanaf-nul, en post-training instellingen tonen de effectiviteit van SepLLM aan. Opmerkelijk is dat met behulp van de Llama-3-8B ruggengraat, SepLLM meer dan 50% reductie in KV-cache behaalt op de GSM8K-CoT benchmark terwijl vergelijkbare prestaties behouden blijven. Bovendien verwerkt SepLLM effectief sequenties van tot wel 4 miljoen tokens of meer in streaming instellingen, terwijl consistente taalmodelleermogelijkheden behouden blijven.
Grote taalmodellen (LLM's) markeren een belangrijke verschuiving in natuurlijke taalverwerking (NLP), waarbij ze geavanceerde tekstgeneratie, vertaling en domeinspecifieke redenering hebben bereikt. Gesloten modellen zoals GPT-4, aangedreven door eigen datasets en uitgebreide rekenbronnen, leiden momenteel met toonaangevende prestaties. Ze worden echter bekritiseerd vanwege hun "black box" aard en vanwege beperkte toegankelijkheid die reproduceerbaarheid en gelijkwaardige AI-ontwikkeling belemmert. Daarentegen richten open-source initiatieven zoals LLaMA en BLOOM zich op democratisering via door de gemeenschap gedreven ontwikkeling en rekenkundige efficiëntie. Deze modellen hebben aanzienlijk prestatieverschillen verminderd, met name op het gebied van taalkundige diversiteit en domeinspecifieke toepassingen, terwijl ze toegankelijke tools bieden voor wereldwijde onderzoekers en ontwikkelaars. Opmerkelijk is dat beide paradigma's steunen op fundamentele architectonische innovaties, zoals het Transformer-framework van Vaswani et al. (2017). Gesloten modellen excelleren door effectief op te schalen, terwijl open-source modellen zich aanpassen aan praktische toepassingen in ondervertegenwoordigde talen en domeinen. Technieken zoals Low-Rank Adaptation (LoRA) en instructie-afstemmingsdatasets stellen open-source modellen in staat om competitieve resultaten te behalen ondanks beperkte middelen. De spanning tussen gesloten en open benaderingen benadrukt een breder debat over transparantie versus eigen controle in AI. Ethische overwegingen benadrukken dit verder. Gesloten systemen beperken externe controle, terwijl open-source modellen reproduceerbaarheid en samenwerking bevorderen, maar geen gestandaardiseerde auditdocumentatiekaders hebben om vooroordelen te verminderen. Hybride benaderingen die de sterke punten van beide paradigma's benutten, zullen waarschijnlijk de toekomst van LLM-innovatie vormgeven, waarbij toegankelijkheid, concurrerende technische prestaties en ethische implementatie worden gewaarborgd.
Traditionele robotbesturingsmethoden op basis van reinforcement learning zijn vaak taakspecifiek en falen in generalisatie over diverse omgevingen of ongeziene objecten en instructies. Visuele Taalmodellen (VLM's) tonen sterke scènebegrip- en planningscapaciteiten, maar missen de mogelijkheid om actiegerichte beleidslijnen te genereren die zijn afgestemd op specifieke robotimplementaties. Om dit aan te pakken, zijn Visueel-Taal-Actie (VLA) modellen ontstaan, maar ze worden geconfronteerd met uitdagingen op het gebied van ruimtelijk redeneren op lange termijn en gefundeerde taakplanning. In dit werk stellen we het Geïncarneerde Multimodale Actiemodel met Gefundeerde Gedachteketen en Vooruitkijkend Ruimtelijk Redeneren, Emma-X, voor. Emma-X maakt gebruik van ons geconstrueerde hiërarchische implementatiedataset gebaseerd op BridgeV2, met 60.000 robotmanipulatietrajecten die automatisch zijn geannoteerd met gefundeerde taakredenering en ruimtelijke begeleiding. Daarnaast introduceren we een trajectsegmentatiestrategie op basis van grijperstanden en bewegingstrajecten, die kunnen helpen bij het verminderen van hallucinaties bij het genereren van gefundeerde subtaakredenering. Experimentele resultaten tonen aan dat Emma-X superieure prestaties behaalt ten opzichte van concurrerende baselines, met name in robotische taken in de echte wereld die ruimtelijk redeneren vereisen.
Om het foundation model efficiënter en effectiever te maken, is ons idee om sequentietransformatie en statetransformatie te combineren. Ten eerste bewijzen we de beschikbaarheid van rotatiepositie-embedding in het algoritme van de statelijke dualiteit, wat de perplexiteit van de hybride kwadratische causale zelfaandacht en statelijke dualiteit met meer dan 4% vermindert, om ervoor te zorgen dat de combinatie van sequentietransformatie de position encoding unificeert. Ten tweede stellen we dynamische maskeraandacht voor, die een nauwkeurigheid van 100% handhaaft in de uitdagendere multi-query associatieve herinneringstaak, met een verbetering van meer dan 150% in vergelijking met kwadratische causale zelfaandacht en statelijke dualiteit, om ervoor te zorgen dat de combinatie van sequentietransformatie selectief relevante informatie filtert. Ten derde ontwerpen we een cross-domain mengeling van experts, die de computationele snelheid van expertopvraging met meer dan 1024 experts 8 tot 10 keer sneller maakt dan de mengeling van experts, om ervoor te zorgen dat de combinatie van statetransformatie snel menging opvraagt. Tot slot vatten we deze matrixalgoritmen samen die het foundation model kunnen vormen: Prachtige Matrices, die een concurrent kunnen zijn van populaire modelarchitecturen.
De toenemende vraag naar meeslepende AR/VR-toepassingen en ruimtelijke intelligentie heeft de noodzaak verhoogd om hoogwaardige scène-niveau en 360-graden panoramische video's te genereren. Echter, de meeste video diffusiemodellen worden beperkt door een beperkte resolutie en beeldverhouding, wat hun toepasbaarheid beperkt tot de synthese van dynamische inhoud op scène-niveau. In dit werk stellen we de DynamicScaler voor, die deze uitdagingen aanpakt door ruimtelijk schaalbare en panoramische dynamische scène synthese mogelijk te maken die coherentie behoudt over panoramische scènes van willekeurige grootte. Specifiek introduceren we een Offset Verschuivende Denoiser, die efficiënte, synchrone en coherente denoising van panoramische dynamische scènes mogelijk maakt via een diffusiemodel met vaste resolutie door middel van een naadloos roterend Venster, dat zorgt voor naadloze overgangen van grenzen en consistentie over de gehele panoramische ruimte, waarbij verschillende resoluties en beeldverhoudingen worden ondersteund. Daarnaast maken we gebruik van een mechanisme voor Globale Bewegingsbegeleiding om zowel de lokale detailgetrouwheid als de continuïteit van de globale beweging te waarborgen. Uitgebreide experimenten tonen aan dat onze methode superieure inhouds- en bewegingskwaliteit bereikt in de generatie van panoramische scène-niveau video's, waarbij een trainingvrije, efficiënte en schaalbare oplossing wordt geboden voor het creëren van meeslepende dynamische scènes met constante VRAM-consumptie ongeacht de uitvoerresolutie van de video. Onze projectpagina is beschikbaar op https://dynamic-scaler.pages.dev/.
Het synthetiseren van nieuwe perspectieven van in-the-wild monoculaire video's is uitdagend vanwege scènedynamiek en het ontbreken van multi-view aanwijzingen. Om dit aan te pakken, stellen we SplineGS voor, een COLMAP-vrije dynamische 3D Gaussian Splatting (3DGS) framework voor hoogwaardige reconstructie en snelle rendering van monoculaire video's. In de kern ervan bevindt zich een nieuw Motion-Adaptive Spline (MAS) methode, die continue dynamische 3D Gaussian-trajecten vertegenwoordigt met behulp van kubische Hermite-splines met een klein aantal controlepunten. Voor MAS introduceren we een Motion-Adaptive Control points Pruning (MACP) methode om de vervorming van elke dynamische 3D Gaussian bij verschillende bewegingen te modelleren, waarbij controlepunten progressief worden weggesnoeid terwijl de integriteit van dynamische modellering behouden blijft. Daarnaast presenteren we een gezamenlijke optimalisatiestrategie voor schatting van cameraparameters en 3D Gaussian attributen, waarbij gebruik wordt gemaakt van fotometrische en geometrische consistentie. Dit elimineert de noodzaak voor Structure-from-Motion voorverwerking en verbetert de robuustheid van SplineGS in real-world omstandigheden. Experimenten tonen aan dat SplineGS aanzienlijk beter presteert dan state-of-the-art methoden in kwaliteit van synthese van nieuwe perspectieven voor dynamische scènes van monoculaire video's, met een renderingssnelheid die duizenden keren sneller is.
Het hergebruiken van vooraf getrainde diffusiemodellen is effectief gebleken voor NVS. Deze methoden zijn echter voornamelijk beperkt tot een enkel object; het direct toepassen van dergelijke methoden op compositorische scenario's met meerdere objecten leidt tot inferieure resultaten, vooral onjuiste objectplaatsing en inconsistente vorm en verschijning onder nieuwe gezichtspunten. Hoe de cross-view consistentie van dergelijke modellen te verbeteren en systematisch te evalueren, blijft grotendeels onontgonnen terrein. Om dit probleem aan te pakken, stellen we MOVIS voor om het structurele bewustzijn van het op zicht gebaseerde diffusiemodel voor multi-object NVS te verbeteren op het gebied van modelinputs, hulptaken en trainingsstrategie. Ten eerste injecteren we structureel bewuste kenmerken, waaronder diepte en objectmasker, in de denoising U-Net om het begrip van objectinstanties en hun ruimtelijke relaties door het model te verbeteren. Ten tweede introduceren we een hulptaak waarbij het model tegelijkertijd nieuwe objectmaskers moet voorspellen, wat de capaciteit van het model om objecten te onderscheiden en te plaatsen verder verbetert. Tot slot voeren we een diepgaande analyse uit van het diffusie-samplingproces en ontwerpen zorgvuldig een op structuur gerichte tijdstapsamplingplanner tijdens de training, die het leren van globale objectplaatsing en gedetailleerde herstel in balans brengt. Om de plausibiliteit van gesynthetiseerde beelden systematisch te evalueren, stellen we voor om de cross-view consistentie en nieuwe objectplaatsing naast bestaande NVS-metrieken op beeldniveau te beoordelen. Uitgebreide experimenten op uitdagende synthetische en realistische datasets tonen aan dat onze methode sterke generalisatiecapaciteiten vertoont en consistente synthese van nieuwe gezichtspunten produceert, waarbij het potentieel wordt benadrukt om toekomstige 3D-bewuste multi-object NVS-taken te sturen.
Het benutten van de belofte van recente ontwikkelingen in imitatieleren voor mobiele manipulatie zal vereisen dat er grote aantallen door mensen geleide demonstraties worden verzameld. Dit artikel stelt een open-source ontwerp voor voor een goedkope, robuuste en flexibele mobiele manipulator die willekeurige armen kan ondersteunen, waardoor een breed scala aan alledaagse mobiele manipulatietaken in huis mogelijk wordt. Cruciaal is dat ons ontwerp aangedreven zwenkwielen gebruikt om de mobiele basis volledig holonomisch te maken, in staat om alle vlakke vrijheidsgraden onafhankelijk en tegelijkertijd te regelen. Deze eigenschap maakt de basis wendbaarder en vereenvoudigt vele mobiele manipulatietaken, door de kinematische beperkingen te elimineren die complexe en tijdrovende bewegingen creëren in niet-holonomische bases. We rusten onze robot uit met een intuïtieve mobiele teleoperatie-interface om gemakkelijke gegevensverzameling voor imitatieleren mogelijk te maken. In onze experimenten gebruiken we deze interface om gegevens te verzamelen en laten zien dat de resulterende geleerde beleidslijnen met succes verschillende gangbare huishoudelijke mobiele manipulatietaken kunnen uitvoeren.
We stellen WHISPER-GPT voor: een generatief groot taalmodel (LLM) voor spraak en muziek dat ons in staat stelt om tegelijkertijd te werken met continue audiorepresentaties en discrete tokens als onderdeel van een enkele architectuur. Er is een enorme toename geweest in generatieve audio-, spraak- en muziekmodellen die discrete audiokens gebruiken die zijn afgeleid van neurale compressiealgoritmen, bijvoorbeeld ENCODEC. Een van de belangrijkste nadelen van deze aanpak is echter de omgang met de contextlengte. Deze wordt enorm groot voor generatieve architecturen met een hoge nauwkeurigheid als men rekening moet houden met alle audiocomponenten op verschillende frequenties voor de voorspelling van het volgende token. Door continue audiorepresentatie zoals het spectrogram en discrete akoestische tokens te combineren behouden we het beste van beide werelden: alle benodigde informatie van de audio op een specifiek tijdstip in een enkel token, maar laten we het LLM de toekomstige token voorspellen om sampling en andere voordelen van de discrete ruimte mogelijk te maken. We tonen aan hoe onze architectuur de perplexiteit en negatieve log-waarschijnlijkheidsscores voor de voorspelling van het volgende token verbetert in vergelijking met een op tokens gebaseerd LLM voor spraak en muziek.
Ondanks hun bekwaamheid in algemene taken, hebben Multi-modale Grote Taalmodellen (MLLM's) moeite met automatisch oplossen van meetkundige problemen (GPS), wat begrip van diagrammen, interpretatie van symbolen en complex redeneren vereist. Deze beperking komt voort uit hun voorafgaande training op natuurlijke afbeeldingen en teksten, samen met het gebrek aan geautomatiseerde verificatie in het probleemoplossingsproces. Bovendien worden huidige meetkundige specialisten beperkt door hun taakspecifieke ontwerpen, waardoor ze minder effectief zijn voor bredere meetkundige problemen. Om deze reden presenteren we GeoX, een multi-modale groot model dat zich richt op meetkundig begrip en redeneertaken. Gezien de aanzienlijke verschillen tussen meetkundige diagram-symbool en natuurlijke afbeelding-tekst, introduceren we unimodale voorafgaande training om een diagramencoder en symbooldecoder te ontwikkelen, waardoor het begrip van meetkundige afbeeldingen en corpora wordt verbeterd. Bovendien introduceren we meetkunde-taaluitlijning, een effectief voorafgaand trainingsparadigma dat de modaliteitskloof tussen unimodale meetkundige experts overbrugt. We stellen een Generator-En-Monster Transformer (GS-Former) voor om onderscheidende vragen te genereren en oninformatieve representaties van ongelijkmatig verdeelde meetkundige signalen te elimineren. Ten slotte profiteert GeoX van visuele instructieafstemming, waardoor het meetkundige afbeeldingen en vragen als invoer kan nemen en controleerbare oplossingen kan genereren. Experimenten tonen aan dat GeoX zowel generalisten als meetkundige specialisten overtreft op publiekelijk erkende benchmarks, zoals GeoQA, UniGeo, Geometry3K en PGPS9k.
Reinforcement learning (RL) algoritmes streven ernaar om het balanceren van het benutten van de huidige beste strategie met het verkennen van nieuwe opties die kunnen leiden tot hogere beloningen. De meeste gangbare RL-algoritmes maken gebruik van ongerichte verkenning, d.w.z. het selecteren van willekeurige sequenties van acties. Verkenning kan ook gericht worden door gebruik te maken van intrinsieke beloningen, zoals nieuwsgierigheid of model epistemische onzekerheid. Het effectief balanceren van taak- en intrinsieke beloningen is echter uitdagend en vaak afhankelijk van de taak. In dit werk introduceren we een kader, MaxInfoRL, voor het balanceren van intrinsieke en extrinsieke verkenning. MaxInfoRL stuurt verkenning naar informatieve overgangen door het maximaliseren van intrinsieke beloningen zoals de informatiewinst over de onderliggende taak. Wanneer gecombineerd met Boltzmann verkenning, ruilt deze aanpak natuurlijk de maximalisatie van de waardefunctie in voor die van de entropie over staten, beloningen en acties. We tonen aan dat onze aanpak sublineaire spijt bereikt in de vereenvoudigde setting van multi-armed bandits. Vervolgens passen we deze algemene formulering toe op een verscheidenheid van off-policy modelvrije RL-methoden voor continue toestands-actieruimtes, resulterend in nieuwe algoritmes die superieure prestaties behalen bij moeilijke verkenningstaken en complexe scenario's zoals visuele controle taken.
Recente ontwikkelingen in diffusiemodellen hebben de beeldgeneratie gerevolutioneerd, maar brengen risico's met zich mee van misbruik, zoals het repliceren van kunstwerken of het genereren van deepfakes. Bestaande methoden voor beeldbescherming, hoewel effectief, worstelen met het vinden van een balans tussen beschermingseffectiviteit, onzichtbaarheid en latentie, waardoor praktisch gebruik beperkt wordt. We introduceren verstoring voorafgaand aan training om de latentie te verminderen en stellen een benadering van mengsel van verstoringen voor die dynamisch aanpast aan invoerbeelden om prestatievermindering te minimaliseren. Onze nieuwe trainingsstrategie berekent beschermingsverlies over meerdere VAE-kenmerkruimten, terwijl adaptieve gerichte bescherming bij inferentie de robuustheid en onzichtbaarheid verbetert. Experimenten tonen vergelijkbare beschermingsprestaties met verbeterde onzichtbaarheid en aanzienlijk verminderde inferentietijd. De code en demo zijn beschikbaar op https://webtoon.github.io/impasto
De snelle vooruitgang van natuurlijke taalverwerkingstechnologieën, zoals instructie-afgestemde grote taalmodellen (LLM's), dringt aan op de ontwikkeling van moderne evaluatieprotocollen met menselijke en machinale feedback. We introduceren Evalica, een open-source toolkit die de creatie van betrouwbare en reproduceerbare modelleiderborden vergemakkelijkt. Dit artikel presenteert het ontwerp, evalueert de prestaties en demonstreert de bruikbaarheid ervan via de webinterface, command-line interface en Python API.
Verticale Gefedereerde Leer (VFL) heeft als doel om samenwerkend training van diepe leermodellen mogelijk te maken terwijl de privacy beschermd blijft. Echter, het VFL proces heeft nog steeds onderdelen die kwetsbaar zijn voor aanvallen door kwaadwillende partijen. In ons werk onderzoeken we feature reconstructie aanvallen, een veelvoorkomend risico gericht op compromitteren van invoerdata. We beweren theoretisch dat feature reconstructie aanvallen niet kunnen slagen zonder kennis van de voorafgaande verdeling van data. Bijgevolg tonen we aan dat zelfs eenvoudige modelarchitectuurtransformaties aanzienlijke invloed kunnen hebben op de bescherming van invoerdata tijdens VFL. Door deze bevindingen te bevestigen met experimentele resultaten, laten we zien dat op MLP gebaseerde modellen bestand zijn tegen geavanceerde feature reconstructie aanvallen.
Recente ontwikkelingen in robotische grondslagmodellen hebben de ontwikkeling van generalistische beleidslijnen mogelijk gemaakt die zich kunnen aanpassen aan diverse taken. Hoewel deze modellen indrukwekkende flexibiliteit tonen, is hun prestatie sterk afhankelijk van de kwaliteit van hun trainingsgegevens. In dit werk stellen we Reinforcement Learning Distilled Generalists (RLDG) voor, een methode die reinforcement learning benut om hoogwaardige trainingsgegevens te genereren voor het verfijnen van generalistische beleidslijnen. Door uitgebreide real-world experimenten op precieze manipulatietaken zoals connectorinvoeging en assemblage, tonen we aan dat generalistische beleidslijnen getraind met RL-generatie gegevens consequent beter presteren dan die getraind met menselijke demonstraties, met successpercentages tot wel 40% hoger en betere generalisatie naar nieuwe taken. We bieden ook een gedetailleerde analyse die aantoont dat deze prestatiewinst voortkomt uit zowel geoptimaliseerde actieverdelingen als verbeterde dekkingsgraad van de toestand. Onze resultaten suggereren dat het combineren van taakspecifieke RL met generalistische beleidslijndistillatie een veelbelovende aanpak biedt voor het ontwikkelen van meer capabele en efficiënte robotische manipulatiesystemen die de flexibiliteit van grondslagmodellen behouden terwijl ze de prestatie van gespecialiseerde controllers bereiken. Video's en code zijn te vinden op onze projectwebsite https://generalist-distillation.github.io