Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in video diffusiemodellen hebben uitzonderlijke vaardigheden getoond in het simuleren van dynamiek in de echte wereld en het handhaven van 3D consistentie. Deze vooruitgang inspireert ons om het potentieel van deze modellen te onderzoeken om dynamische consistentie te waarborgen over verschillende standpunten, een zeer wenselijke eigenschap voor toepassingen zoals virtueel filmen. In tegenstelling tot bestaande methoden die gericht zijn op multi-view generatie van enkele objecten voor 4D reconstructie, ligt onze interesse in het genereren van open-world video's vanuit willekeurige standpunten, waarbij 6 DoF cameraposities worden opgenomen. Om dit te bereiken, stellen we een plug-and-play module voor die een vooraf getraind tekst-naar-video model verbetert voor multi-camera video generatie, waarbij consistente inhoud over verschillende standpunten wordt gewaarborgd. Specifiek introduceren we een multi-view synchronisatiemodule om uiterlijk en geometrische consistentie over deze standpunten te handhaven. Gezien de schaarste aan hoogwaardige trainingsgegevens, ontwerpen we een hybride trainingsmethode die multi-camera beelden en monoculaire video's benut om Unreal Engine-gerenderde multi-camera video's aan te vullen. Bovendien maakt onze methode intrigerende uitbreidingen mogelijk, zoals het opnieuw renderen van een video vanuit nieuwe standpunten. We brengen ook een multi-view gesynchroniseerde videodataset uit, genaamd SynCamVideo-Dataset. Projectpagina: https://jianhongbai.github.io/SynCamMaster/.
Recente ontwikkelingen in tekst-naar-afbeelding (T2I) generatie hebben opmerkelijk succes getoond in het produceren van hoogwaardige afbeeldingen uit tekst. Echter, bestaande T2I modellen tonen verminderde prestaties in compositorische afbeeldingsgeneratie die meerdere objecten en complexe relaties omvat. We schrijven dit probleem toe aan beperkingen in bestaande datasets van afbeelding-tekst paren, die geen precieze inter-object relatie annotaties bevatten en alleen aanwijzingen bieden. Om dit probleem aan te pakken, construeren we LAION-SG, een grootschalige dataset met hoogwaardige structurele annotaties van scène grafieken (SG), die attributen en relaties van meerdere objecten nauwkeurig beschrijven en effectief de semantische structuur in complexe scènes vertegenwoordigen. Op basis van LAION-SG trainen we een nieuw basismodel SDXL-SG om structurele annotatie-informatie in het generatieproces op te nemen. Uitgebreide experimenten tonen aan dat geavanceerde modellen getraind op onze LAION-SG aanzienlijke prestatieverbeteringen laten zien in complexe scène generatie ten opzichte van modellen op bestaande datasets. We introduceren ook CompSG-Bench, een benchmark die modellen evalueert op compositorische afbeeldingsgeneratie en zo een nieuwe standaard voor dit domein vaststelt.
Visie-taalmodellen hebben recent aanzienlijke vooruitgang geboekt, waarbij ze superieure prestaties hebben laten zien op een reeks taken, zoals optische tekenherkenning en complexe diagramanalyse. Voortbouwend op deze trend introduceren we een nieuw visie-taalmodel, POINTS1.5, dat is ontworpen om uit te blinken in verschillende real-world toepassingen. POINTS1.5 is een verbetering van POINTS1.0 en bevat verschillende belangrijke innovaties: i) We vervangen de originele CLIP visie-encoder, die een vast beeldresolutie had, door een NaViT-stijl visie-encoder die native dynamische hoge resolutie ondersteunt. Hierdoor kan POINTS1.5 afbeeldingen van elke resolutie verwerken zonder ze in tegels te hoeven splitsen. ii) We voegen tweetalige ondersteuning toe aan POINTS1.5, waardoor de capaciteit in het Chinees aanzienlijk wordt verbeterd. Vanwege het gebrek aan open-source Chinese datasets voor visie-taalmodellen verzamelen we talrijke afbeeldingen van het internet en annoteren ze met behulp van een combinatie van handmatige en automatische methoden. iii) We stellen een reeks rigoureuze filtermethoden voor visuele instructie-afstemmingsdatasets voor. We evalueren al deze filtermethoden grondig en kiezen de meest effectieve om de uiteindelijke visuele instructie-afstemmingsset te verkrijgen. Dankzij deze innovaties presteert POINTS1.5 aanzienlijk beter dan POINTS1.0 en toont het sterke prestaties op een reeks real-world toepassingen. Opmerkelijk is dat POINTS1.5-7B is getraind op minder dan 4 miljard tokens en op de OpenCompass-leiderbord op de eerste plaats staat onder modellen met minder dan 10 miljard parameters.
Het genereren van controleerbare persoonsafbeeldingen heeft als doel een persoonsafbeelding te genereren op basis van referentieafbeeldingen, waardoor nauwkeurige controle over het uiterlijk of de houding van de persoon mogelijk is. Echter, eerdere methoden vervormen vaak fijngestructureerde textuurdetails van de referentieafbeelding, ondanks het behalen van een hoge algehele beeldkwaliteit. Wij schrijven deze vervormingen toe aan onvoldoende aandacht voor overeenkomstige regio's in de referentieafbeelding. Om dit aan te pakken, stellen wij daarom voor om leerstroomvelden in aandacht (Leffa) te leren, die het doelzoekende model expliciet begeleiden om tijdens de training de juiste referentiesleutel in de aandachtslaag bij te wonen. Specifiek wordt dit gerealiseerd via een regularisatieloss bovenop de aandachtskaart binnen een diffusiegebaseerde basislijn. Onze uitgebreide experimenten tonen aan dat Leffa state-of-the-art prestaties behaalt in het controleren van uiterlijk (virtueel passen) en houding (houdingsoverdracht), waarbij fijngestructureerde detailvervorming aanzienlijk wordt verminderd terwijl de hoge beeldkwaliteit behouden blijft. Daarnaast tonen we aan dat onze loss model-agnostisch is en kan worden gebruikt om de prestaties van andere diffusiemodellen te verbeteren.
Het BrowserGym-ecosysteem speelt in op de groeiende behoefte aan efficiënte evaluatie en benchmarking van webagenten, met name die gebruikmaken van automatisering en Grote Taalmodellen (LLM's) voor webinteractietaken. Veel bestaande benchmarks kampen met fragmentatie en inconsistente evaluatiemethodologieën, waardoor betrouwbare vergelijkingen en reproduceerbare resultaten lastig te realiseren zijn. BrowserGym streeft ernaar dit op te lossen door een uniforme, op een sportschool lijkende omgeving te bieden met goed gedefinieerde observatie- en actieruimtes, waardoor gestandaardiseerde evaluatie over diverse benchmarks mogelijk wordt. In combinatie met AgentLab, een aanvullend framework dat helpt bij het creëren, testen en analyseren van agenten, biedt BrowserGym flexibiliteit voor het integreren van nieuwe benchmarks, terwijl consistente evaluatie en uitgebreid experimentbeheer worden gewaarborgd. Deze gestandaardiseerde aanpak beoogt de tijd en complexiteit van het ontwikkelen van webagenten te verminderen, ondersteunt betrouwbaardere vergelijkingen en vergemakkelijkt diepgaande analyse van agentengedrag, wat zou kunnen resulteren in meer aanpasbare, capabele agenten en uiteindelijk de innovatie in LLM-gestuurde automatisering versnelt. Als ondersteunend bewijs voeren we het eerste grootschalige, multi-benchmark webagentexperiment uit en vergelijken we de prestaties van 6 toonaangevende LLM's over alle momenteel beschikbare benchmarks in BrowserGym. Onze resultaten tonen onder andere een aanzienlijk verschil aan tussen de nieuwste modellen van OpenAI en Anthropic, waarbij Claude-3.5-Sonnet de weg leidt op bijna alle benchmarks, behalve op op visie gerelateerde taken waar GPT-4o superieur is. Ondanks deze vooruitgang benadrukken onze resultaten dat het bouwen van robuuste en efficiënte webagenten een aanzienlijke uitdaging blijft, vanwege de inherente complexiteit van webomgevingen in de echte wereld en de beperkingen van huidige modellen.
Hoewel recente fundamentele videogeneratoren visueel rijke output produceren, hebben ze nog steeds moeite met verschijningsvervaging, waar objecten geleidelijk degraderen of inconsistent veranderen over frames, waardoor visuele coherentie verloren gaat. We veronderstellen dat dit komt doordat er geen expliciete supervisie is wat betreft ruimtelijke tracking op het kenmerkniveau. We stellen Track4Gen voor, een ruimtelijk bewuste videogenerator die videodiffusieverlies combineert met punttracking over frames, waardoor verbeterde ruimtelijke supervisie op de diffusiekenmerken wordt geboden. Track4Gen combineert de videogeneratie- en punttrackingtaken in een enkel netwerk door minimale wijzigingen aan te brengen in bestaande videogeneratiearchitecturen. Met behulp van Stable Video Diffusion als basis toont Track4Gen aan dat het mogelijk is om videogeneratie en punttracking te verenigen, die doorgaans als afzonderlijke taken worden behandeld. Onze uitgebreide evaluaties tonen aan dat Track4Gen effectief verschijningsvervaging vermindert, resulterend in temporeel stabiele en visueel coherente videogeneratie. Projectpagina: hyeonho99.github.io/track4gen
Stijlbeheer is populair geweest in videogeneratiemodellen. Bestaande methoden genereren vaak video's die ver van de gegeven stijl liggen, wat inhoudslekken veroorzaakt en moeite hebben om een video over te zetten naar de gewenste stijl. Onze eerste observatie is dat het stadium van stijlextractie belangrijk is, terwijl bestaande methoden de nadruk leggen op de globale stijl maar lokale texturen negeren. Om textuurkenmerken toe te voegen en tegelijkertijd inhoudslekken te voorkomen, filteren we inhoudsgerelateerde patches terwijl we stijlgerelateerde behouden op basis van prompt-patch gelijkenis; voor de extractie van de globale stijl genereren we een gepaarde stijldataset via modelillusie om contrastief leren te vergemakkelijken, wat de absolute stijlconsistentie aanzienlijk verbetert. Bovendien, om de kloof tussen afbeelding en video te overbruggen, trainen we een lichtgewicht bewegingsadapter op stilstaande video's, wat impliciet de mate van stileren verbetert en ons op afbeeldingen getrainde model in staat stelt naadloos toegepast te worden op video's. Dankzij deze inspanningen behaalt onze aanpak, StyleMaster, niet alleen aanzienlijke verbeteringen in zowel stijlgelijkheid als temporele coherentie, maar kan ook gemakkelijk generaliseren naar video-stijloverdracht met een grijze tegel ControlNet. Uitgebreide experimenten en visualisaties tonen aan dat StyleMaster aanzienlijk beter presteert dan concurrenten, door effectief hoogwaardige gestileerde video's te genereren die overeenkomen met tekstuele inhoud en nauw aansluiten bij de stijl van referentieafbeeldingen. Onze projectpagina is te vinden op https://zixuan-ye.github.io/stylemaster.
Generaliseerde feedforward Gaussische modellen hebben aanzienlijke vooruitgang geboekt in schaars beeldvorming van 3D door gebruik te maken van voorkennis uit grote multi-view datasets. Deze modellen hebben echter vaak moeite om hoge frequentiedetails weer te geven vanwege het beperkte aantal Gaussiërs. Hoewel de verdichtingsstrategie die wordt gebruikt in per-scene 3D Gaussisch spatten (3D-GS) optimalisatie kan worden aangepast aan de feedforward modellen, is deze mogelijk niet ideaal geschikt voor gegeneraliseerde scenario's. In dit artikel stellen we Generatieve Verdichting voor, een efficiënte en generaliseerbare methode om Gaussiërs gegenereerd door feedforward modellen te verdichten. In tegenstelling tot de 3D-GS verdichtingsstrategie, waarbij raw Gaussische parameters iteratief worden gesplitst en gekloond, bemonstert onze methode feature representaties van de feedforward modellen en genereert hun overeenkomstige fijne Gaussiërs in één voorwaartse stap, waarbij gebruik wordt gemaakt van de ingebedde voorkennis voor verbeterde generalisatie. Experimentele resultaten op zowel objectniveau als scèneniveau reconstructietaken tonen aan dat onze methode beter presteert dan state-of-the-art benaderingen met vergelijkbare of kleinere modelgroottes, met opmerkelijke verbeteringen in het weergeven van fijne details.
Dit artikel presenteert StreamChat, een nieuwe benadering die de interactiemogelijkheden van Grote Multimodale Modellen (LMM's) met streaming video-inhoud verbetert. In streaming interactiescenario's vertrouwen bestaande methoden uitsluitend op visuele informatie die beschikbaar is op het moment dat een vraag wordt gesteld, wat resulteert in aanzienlijke vertragingen doordat het model niet op de hoogte is van daaropvolgende veranderingen in de streaming video. StreamChat adresseert deze beperking door op innovatieve wijze de visuele context bij elke decodeerstap bij te werken, waardoor het model actuele videomateriaal gebruikt gedurende het decodeerproces. Daarnaast introduceren we een flexibele en efficiënte crossattention-gebaseerde architectuur om dynamische streaming invoer te verwerken, terwijl we de inferentie-efficiëntie voor streaming interacties behouden. Verder construeren we een nieuw dicht instructiedataset om het trainen van streaming interactiemodellen te vergemakkelijken, aangevuld met een parallel 3D-RoPE-mechanisme dat de relatieve temporele informatie van visuele en teksttokens codeert. Experimentele resultaten tonen aan dat StreamChat concurrerende prestaties behaalt op gevestigde beeld- en videobenchmarks en superieure mogelijkheden vertoont in streaming interactiescenario's in vergelijking met toonaangevende video LMM's.
Het bewerken van echte afbeeldingen met behulp van een vooraf getraind tekst-naar-afbeelding (T2I) diffusie/stroommodel omvat vaak het omkeren van de afbeelding naar zijn overeenkomstige ruiskaart. Echter, omkering op zichzelf is doorgaans onvoldoende om bevredigende resultaten te verkrijgen, en daarom grijpen veel methoden bovendien in tijdens het bemonsteringsproces. Dergelijke methoden behalen verbeterde resultaten, maar zijn niet naadloos overdraagbaar tussen modelarchitecturen. Hier introduceren we FlowEdit, een op tekst gebaseerde bewerkingsmethode voor vooraf getrainde T2I-stroommodellen, die omkeringsvrij, optimaliseringsvrij en modelagnostisch is. Onze methode construeert een ODE die direct in kaart brengt tussen de bron- en doeldistributies (overeenkomend met de bron- en doeltekstprompts) en behaalt een lagere transportkost dan de omkeringsbenadering. Dit leidt tot state-of-the-art resultaten, zoals we illustreren met Stable Diffusion 3 en FLUX. Code en voorbeelden zijn beschikbaar op de projectwebsite.
3D ruimtelijk redeneren is het vermogen om de posities, oriëntaties en ruimtelijke relaties van objecten binnen de 3D-ruimte te analyseren en interpreteren. Dit stelt modellen in staat om een uitgebreid begrip van de 3D-scene te ontwikkelen, waardoor ze toepasbaar zijn in een breder scala van gebieden, zoals autonome navigatie, robotica en AR/VR. Hoewel grote multimodale modellen (LMM's) opmerkelijke vooruitgang hebben geboekt in een breed scala van beeld- en videobegripstaken, is er minder onderzoek gedaan naar hun vermogen om 3D ruimtelijk redeneren uit te voeren op diverse natuurlijke beelden. In dit werk presenteren we het eerste uitgebreide 3D ruimtelijk redeneerbenchmark, 3DSRBench, met 2.772 handmatig geannoteerde visuele vraag-antwoordparen over 12 vraagtypen. We voeren een robuuste en grondige evaluatie uit van de 3D ruimtelijk redeneervermogens door de gegevensverdeling in balans te brengen en een nieuw FlipEval-strategie toe te passen. Om de robuustheid van 3D ruimtelijk redeneren t.o.v. camera 3D-standpunten verder te bestuderen, omvat onze 3DSRBench twee subsets met 3D ruimtelijke redeneervragen over gekoppelde beelden met gemeenschappelijke en ongebruikelijke standpunten. We beoordelen een breed scala aan open-source en eigen LMM's, waarbij we hun beperkingen blootleggen op verschillende aspecten van 3D-bewustzijn, zoals hoogte, oriëntatie, locatie en redeneren over meerdere objecten, evenals hun verminderde prestaties op beelden met ongebruikelijke camerastandpunten. Onze 3DSRBench levert waardevolle bevindingen en inzichten op over de toekomstige ontwikkeling van LMM's met sterke 3D redeneervermogens. Onze projectpagina en dataset zijn beschikbaar op https://3dsrbench.github.io.
In het veld van tekst-naar-bewegingsgeneratie produceren Bert-type Masked Modellen (MoMask, MMM) momenteel kwalitatief betere resultaten vergeleken met GPT-type autoregressieve modellen (T2M-GPT). Echter, deze Bert-type modellen missen vaak de mogelijkheid tot continue output die vereist is voor toepassingen in videogames en multimediatoepassingen, een eigenschap die inherent is aan GPT-type modellen. Daarnaast vertonen ze zwakkere prestaties bij het genereren van out-of-distribution data. Om de kwaliteit van BERT-type modellen te overtreffen en tegelijkertijd gebruik te maken van een GPT-type structuur, zonder extra verfijningsmodellen toe te voegen die het schalen van data compliceren, stellen we een nieuw architectuur voor, Mogo (Motion Only Generate Once), die hoogwaardige realistische 3D-menselijke bewegingen genereert door middel van training van een enkel transformer model. Mogo bestaat slechts uit twee hoofdcomponenten: 1) RVQ-VAE, een hiërarchische residuale vectorquantizatie variational autoencoder, die continue bewegingsreeksen discretiseert met hoge precisie; 2) Hiërarchische Causale Transformer, verantwoordelijk voor het genereren van de basale bewegingsreeksen op een autoregressieve manier terwijl tegelijkertijd residuen worden afgeleid over verschillende lagen. Experimentele resultaten tonen aan dat Mogo continue en cyclische bewegingsreeksen kan genereren tot 260 frames (13 seconden), wat de 196 frames (10 seconden) lengtebeperking van bestaande datasets zoals HumanML3D overtreft. Op de HumanML3D testset behaalt Mogo een FID-score van 0.079, wat beter is dan zowel het GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) en het BERT-type model MMM (FID = 0.080). Bovendien behaalt ons model de beste kwantitatieve prestatie bij out-of-distribution generatie.
De toenemende omvang van grote taalmodellen (LLM's) leidt tot aanzienlijke rekenkundige overhead en geheugengebruik bij het aanpassen van deze modellen aan specifieke taken of domeinen. Diverse parameter-efficiënte fine-tuning (PEFT) methoden zijn ontwikkeld om deze uitdagingen te verlichten door een klein aantal parameters te trainen voor de taakspecifieke updates van de modelgewichten. Onder de PEFT methoden valt LoRA op door zijn eenvoud en efficiëntie, wat heeft geleid tot de ontwikkeling van een reeks varianten. Echter, LoRA en zijn opvolgers verwaarlozen de kennis die ruisachtig of irrelevant is voor de beoogde taak, wat nadelig is voor de modelprestaties en leidt tot suboptimaliteit. Om deze beperking aan te pakken, introduceren wij Kennisbewuste Singular-value Adaptatie (KaSA), een PEFT methode die gebruikmaakt van singular value decompositie (SVD) met kennisbewuste singular values om kennis dynamisch te activeren op basis van de relevantie ervan voor de taak die wordt uitgevoerd. We voeren uitgebreide experimenten uit over een reeks LLM's op taken die variëren van natuurlijke taalbegrip (NLU), generatie (NLG), instructieopvolging en gezond verstand redenering. De experimentele resultaten tonen aan dat KaSA consequent beter presteert dan FFT en 14 populaire PEFT baselines over 16 benchmarks en 4 synthetische datasets, waarbij de doeltreffendheid en aanpasbaarheid van onze methode worden benadrukt. De broncode van onze methode is beschikbaar op https://github.com/juyongjiang/KaSA.
We verkennen een nieuwe video-creatie-ervaring, namelijk Video Creatie door Demonstratie. Gegeven een demonstratievideo en een contextafbeelding van een andere scène, genereren we een fysiek plausibele video die op natuurlijke wijze voortbouwt op de contextafbeelding en de actieconcepten uit de demonstratie uitvoert. Om deze mogelijkheid mogelijk te maken, presenteren we delta-Diffusion, een zelftoezichtbenadering die leert van ongelabelde video's door conditionele voorspelling van toekomstige frames. In tegenstelling tot de meeste bestaande video-generatiecontroles die zijn gebaseerd op expliciete signalen, nemen we de vorm aan van impliciete latente controle voor maximale flexibiliteit en expressiviteit die vereist is voor algemene video's. Door gebruik te maken van een videofundatiemodel met een ontwerp van een verschijningsbottleneck erbovenop, extraheren we actielatenten uit demonstratievideo's om het generatieproces te conditioneren met minimale verschijningslekken. Empirisch presteert delta-Diffusion beter dan gerelateerde baselines wat betreft zowel menselijke voorkeur als grootschalige machinale evaluaties, en toont het potentieel voor interactieve wereldsimulatie. Voorbeelden van gegenereerde videoresultaten zijn beschikbaar op https://delta-diffusion.github.io/.
Grote Taalmodellen staan bekend om het vastleggen van kennis uit de echte wereld, waardoor ze uitblinken in veel daaropvolgende taken. Ondanks recente vooruitgang zijn deze modellen nog steeds vatbaar voor wat algemeen bekend staat als hallucinaties, waardoor ze ongewenste en feitelijk onjuiste tekst produceren. In dit werk stellen we een nieuw kalibratiemethode voor die kan worden gebruikt om hallucinaties tegen te gaan. We voegen een speciaal [IDK] ("Ik weet het niet") token toe aan de woordenschat van het model en introduceren een objectieve functie die de kansmassa naar het [IDK] token verplaatst voor onjuiste voorspellingen. Deze benadering stelt het model in staat om onzekerheid in zijn output expliciet uit te drukken. We evalueren onze voorgestelde methode over meerdere modelarchitecturen en feitelijke daaropvolgende taken. We constateren dat modellen die zijn getraind met onze methode in staat zijn om onzekerheid uit te drukken op plaatsen waar ze voorheen fouten zouden maken, terwijl ze slechts een kleine verlies van gecodeerde kennis lijden. We voeren verder uitgebreide ablatiestudies uit van meerdere variaties van onze benadering en bieden een gedetailleerde analyse van de precisie-recall trade-off van onze methode.
Tekstgestuurde stijloverdracht heeft als doel de stijl van een referentieafbeelding te combineren met de inhoud die wordt beschreven door een tekstprompt. Recente ontwikkelingen in tekst-naar-afbeelding modellen hebben de nuance van stijltransformaties verbeterd, maar er blijven aanzienlijke uitdagingen bestaan, met name met betrekking tot overfitting aan referentiestijlen, beperkingen in stilistische controle en het niet goed afstemmen op tekstuele inhoud. In dit artikel stellen we drie aanvullende strategieën voor om deze problemen aan te pakken. Ten eerste introduceren we een cross-modale Adaptive Instance Normalization (AdaIN) mechanisme voor een betere integratie van stijl- en tekstkenmerken, wat de afstemming verbetert. Ten tweede ontwikkelen we een Stijlgebaseerde Classifier-Vrije Begeleiding (SCFG) benadering die selectieve controle over stilistische elementen mogelijk maakt, waardoor irrelevante invloeden worden verminderd. Tot slot nemen we een teacher model op tijdens de vroege generatiestadia om ruimtelijke lay-outs te stabiliseren en artefacten te verminderen. Onze uitgebreide evaluaties tonen significante verbeteringen in de kwaliteit van stijloverdracht en afstemming op tekstuele prompts. Bovendien kan onze benadering worden geïntegreerd in bestaande stijloverdrachtskaders zonder fijnafstemming.
Het creëren van hoogwaardige gegevens voor het trainen van robuuste taalinstructie-agenten is een langdurige uitdaging in embodied AI. In dit artikel introduceren we een Self-Refining Data Flywheel (SRDF) dat hoogwaardige en grootschalige navigatie-instructie-trajectparen genereert door iteratief de gegevenspool te verfijnen via de samenwerking tussen twee modellen, de instructiegenerator en de navigator, zonder enige menselijke annotatie in het proces. Specifiek begint SRDF met het gebruik van een basismodel om een initiële gegevenspool te creëren voor het trainen van een basenavigator, gevolgd door het toepassen van de getrainde navigator om de gegevenspool te filteren. Dit leidt tot gegevens van hogere kwaliteit om een betere generator te trainen, die op zijn beurt weer hoogwaardige gegevens kan produceren voor het trainen van de navigator in de volgende ronde. Zo'n vliegwiel vestigt een zelfverfijnend gegevensproces, resulterend in een continu verbeterde en zeer effectieve dataset voor grootschalig taalgestuurd navigatie leren. Onze experimenten tonen aan dat na verschillende rondes van het vliegwiel, de navigator de prestatiegrens verhoogt van 70% naar 78% SPL op de klassieke R2R-testset, waarbij voor het eerst de menselijke prestatie (76%) wordt overtroffen. Tegelijkertijd resulteert dit proces in een superieure generator, aangetoond door een SPICE-toename van 23,5 naar 26,2, beter dan alle eerdere VLN-instructiegeneratiemethoden. Ten slotte demonstreren we de schaalbaarheid van onze methode door de omgeving en instructie diversiteit te vergroten, en de generalisatiecapaciteit van onze vooraf getrainde navigator over verschillende downstream navigatietaken, waarbij in alle gevallen met een grote marge de state-of-the-art methoden worden overtroffen.
Beeldvertaling (IT) heeft enorm potentieel in diverse domeinen, doordat het de vertaling van tekstuele inhoud binnen afbeeldingen naar verschillende talen mogelijk maakt. Bestaande datasets kampen echter vaak met beperkingen op het gebied van schaal, diversiteit en kwaliteit, wat de ontwikkeling en evaluatie van IT-modellen belemmert. Om dit probleem aan te pakken, introduceren we MIT-10M, een grootschalig parallel corpus van meertalige beeldvertaling met meer dan 10 miljoen afbeelding-tekst paren afkomstig van real-world data, die uitgebreide datareiniging en meertalige vertalingsvalidatie hebben ondergaan. Het bevat 840.000 afbeeldingen in drie formaten, 28 categorieën, taken met drie moeilijkheidsniveaus en 14 talen afbeelding-tekst paren, wat een aanzienlijke verbetering is ten opzichte van bestaande datasets. We voeren uitgebreide experimenten uit om modellen te evalueren en trainen op MIT-10M. De experimentele resultaten geven duidelijk aan dat ons dataset een hogere aanpasbaarheid heeft als het gaat om het evalueren van de prestaties van de modellen bij het aanpakken van uitdagende en complexe beeldvertalingstaken in de echte wereld. Bovendien is de prestatie van het model dat is verfijnd met MIT-10M verdrievoudigd in vergelijking met het basismodel, wat zijn superioriteit verder bevestigt.