Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) voor code zijn onmisbaar geworden in diverse domeinen, waaronder codegeneratie, redeneertaken en agentsystemen. Hoewel open-access code-LLM's steeds meer de prestatieniveaus van propriëtaire modellen benaderen, blijven hoogwaardige code-LLM's die geschikt zijn voor rigoureus wetenschappelijk onderzoek, met name modellen met reproduceerbare dataverwerkingspijplijnen en transparante trainingsprotocollen, schaars. Deze schaarste is te wijten aan diverse uitdagingen, waaronder beperkte middelen, ethische overwegingen en het concurrentievoordeel van het geheimhouden van geavanceerde modellen. Om dit gat te dichten, introduceren we OpenCoder, een topniveau code-LLM dat niet alleen prestaties bereikt die vergelijkbaar zijn met toonaangevende modellen, maar ook dient als een "open kookboek" voor de onderzoeksgemeenschap. In tegenstelling tot de meeste eerdere inspanningen, geven we niet alleen modelgewichten en inferentiecode vrij, maar ook de reproduceerbare trainingsdata, de complete dataverwerkingspijplijn, rigoureuze experimentele ablatie-resultaten en gedetailleerde trainingsprotocollen voor open wetenschappelijk onderzoek. Door deze uitgebreide release identificeren we de sleutelingrediënten voor het bouwen van een topniveau code-LLM: (1) code-geoptimaliseerde heuristische regels voor datareiniging en methoden voor datadeduplicatie, (2) het meenemen van aan code gerelateerde tekstcorpora en (3) hoogwaardige synthetische data in zowel de annealing- als supervised fine-tuning-fases. Door dit niveau van openheid te bieden, streven we ernaar de toegang tot alle aspecten van een topniveau code-LLM te verbreden, waarbij OpenCoder dient als zowel een krachtig model als een open fundament om onderzoek te versnellen en reproduceerbare vooruitgang in code-AI mogelijk te maken.
Recent onderzoek naar 1-bit Large Language Models (LLM's), zoals BitNet b1.58, toont een veelbelovende richting voor het verlagen van de inferentiekosten van LLM's terwijl de prestaties behouden blijven. In dit werk introduceren we BitNet a4.8, waarmee 4-bit activaties voor 1-bit LLM's mogelijk worden. BitNet a4.8 gebruikt een hybride strategie van kwantisatie en sparsificatie om de kwantisatiefouten veroorzaakt door uitbijterkanalen te verminderen. Concreet passen we 4-bit activaties toe voor de inputs naar de attention- en feed-forward netwerklagen, terwijl we tussenliggende toestanden sparsificeren gevolgd door 8-bit kwantisatie. Uitgebreide experimenten tonen aan dat BitNet a4.8 prestaties bereikt die vergelijkbaar zijn met BitNet b1.58 bij gelijke trainingskosten, terwijl het sneller is in inferentie door het gebruik van 4-bit (INT4/FP4) kernels. Daarnaast activeert BitNet a4.8 slechts 55% van de parameters en ondersteunt het een 3-bit KV-cache, wat de efficiëntie van grootschalige LLM-implementatie en inferentie verder verbetert.
In dit artikel introduceren we DimensionX, een raamwerk ontworpen om fotorealistische 3D- en 4D-scènes te genereren vanuit slechts één afbeelding met behulp van videodiffusie. Onze aanpak begint met het inzicht dat zowel de ruimtelijke structuur van een 3D-scène als de temporele evolutie van een 4D-scène effectief kunnen worden gerepresenteerd door sequenties van videoframes. Hoewel recente videodiffusiemodellen opmerkelijke successen hebben geboekt in het produceren van levendige beelden, kampen ze met beperkingen bij het direct reconstrueren van 3D/4D-scènes door beperkte ruimtelijke en temporele bestuurbaarheid tijdens de generatie. Om dit te overwinnen, stellen we ST-Director voor, dat ruimtelijke en temporele facturen in videodiffusie ontkoppelt door dimensiebewuste LoRA's te leren uit dimensie-variante data. Deze bestuurbare videodiffusiebenadering maakt precieze manipulatie van ruimtelijke structuur en temporele dynamiek mogelijk, waardoor we zowel 3D- als 4D-representaties kunnen reconstrueren uit sequentiële frames met een combinatie van ruimtelijke en temporele dimensies. Daarnaast introduceren we, om de kloof tussen gegenereerde video's en real-world scènes te overbruggen, een trajectbewust mechanisme voor 3D-generatie en een identiteitbewarende denoisestrategie voor 4D-generatie. Uitgebreide experimenten op diverse real-world en synthetische datasets tonen aan dat DimensionX superieure resultaten behaalt in bestuurbare videogeneratie, evenals in 3D- en 4D-scènegeneratie, in vergelijking met eerdere methoden.
De ontwikkeling van grote taalmmodellen (LLM's) is uitgebreid naar multimodale systemen die tekst, afbeeldingen en spraak binnen een uniform raamwerk kunnen verwerken. Het trainen van deze modellen vereist aanzienlijk grotere datasets en rekenkundige middelen in vergelijking met uitsluitend op tekst gebaseerde LLM's. Om de schaalbaarheidsuitdagingen aan te pakken, introduceren we Mixture-of-Transformers (MoT), een sparse multimodale transformer-architectuur die de rekenkosten voor voorafgaande training aanzienlijk reduceert. MoT ontkoppelt de niet-embedding parameters van het model per modaliteit – waaronder feedforward-netwerken, aandachtmatrices en laagnormalisatie – waardoor modale-specifieke verwerking mogelijk wordt met globale zelf-aandacht over de volledige invoerreeks. We evalueren MoT in meerdere instellingen en modelschalen. In de Chameleon 7B-instelling (autoregressieve tekst- en afbeeldingsgeneratie) evenaart MoT de prestaties van de dichte baseline met slechts 55,8% van de FLOPs. Wanneer uitgebreid naar spraak, bereikt MoT spraakprestaties vergelijkbaar met de dichte baseline met slechts 37,2% van de FLOPs. In de Transfusie-instelling, waar tekst en afbeeldingen met verschillende doelen worden getraind, evenaart een 7B MoT-model de prestaties van de afbeeldingsmodaliteit van de dichte baseline met een derde van de FLOPs, en presteert een 760M MoT-model beter dan een 1,4B dichte baseline op belangrijke afbeeldingsgeneratiemetrics. Systeemprofilering benadrukt verder de praktische voordelen van MoT, waarbij de afbeeldingskwaliteit van de dichte baseline wordt bereikt in 47,2% van de wall-clock tijd en de tekstkwaliteit in 75,6% van de wall-clock tijd (gemeten op AWS p4de.24xlarge instances met NVIDIA A100 GPU's).
Document Visual Question Answering (DocVQA) pijplijnen die vragen over documenten beantwoorden, hebben brede toepassingen. Bestaande methoden richten zich op het verwerken van documenten met één pagina met multimodale taalmodellen (MLM's), of zijn afhankelijk van op tekst gebaseerde retrieval-augmented generation (RAG) die tekstextractietools zoals optische tekenherkenning (OCR) gebruikt. Er zijn echter moeilijkheden bij het toepassen van deze methoden in realistische scenario's: (a) vragen vereisen vaak informatie uit verschillende pagina's of documenten, waarbij MLM's niet veel lange documenten aankunnen; (b) documenten bevatten vaak belangrijke informatie in visuele elementen zoals figuren, maar tekstextractietools negeren deze. Wij introduceren M3DocRAG, een nieuw multimodaal RAG-raamwerk dat flexibel verschillende documentcontexten (gesloten domein en open domein), vraagtypen (enkelvoudig en meervoudig) en bewijsmodaliteiten (tekst, grafiek, figuur, etc.) accommodeert. M3DocRAG vindt relevante documenten en beantwoordt vragen met behulp van een multimodale retriever en een MLM, zodat het efficiënt één of vele documenten kan verwerken terwijl visuele informatie behouden blijft. Omdat eerdere DocVQA-datasets vragen stellen in de context van een specifiek document, presenteren wij ook M3DocVQA, een nieuwe benchmark voor het evalueren van open-domein DocVQA over 3.000+ PDF-documenten met 40.000+ pagina's. In drie benchmarks (M3DocVQA/MMLongBench-Doc/MP-DocVQA) tonen empirische resultaten aan dat M3DocRAG met ColPali en Qwen2-VL 7B superieure prestaties bereikt dan vele sterke baselines, inclusief state-of-the-art prestaties in MP-DocVQA. Wij bieden uitgebreide analyses van verschillende indexeringsmethoden, MLM's en retrievalmodellen. Ten slotte tonen wij kwalitatief aan dat M3DocRAG met succes verschillende scenario's aankan, zoals wanneer relevante informatie over meerdere pagina's verspreid is en wanneer bewijsmateriaal voor het antwoord alleen in afbeeldingen bestaat.
Fijnmazige afstemming tussen video's en tekst is een uitdaging vanwege de complexe ruimtelijke en temporele dynamiek in video's. Bestaande op video gebaseerde Grote Multimodale Modellen (LMM's) kunnen basale gesprekken voeren, maar hebben moeite met precieze pixelgebaseerde verankering in video's. Om dit aan te pakken, introduceren we VideoGLaMM, een LMM ontworpen voor fijnmazige pixelgebaseerde verankering in video's op basis van door de gebruiker verstrekte tekstuele invoer. Ons ontwerp verbindt naadloos drie belangrijke componenten: een Groot Taalmodel, een dubbele visie-encoder die zowel ruimtelijke als temporele details benadrukt, en een spatio-temporele decoder voor nauwkeurige maskergeneratie. Deze verbinding wordt gefaciliteerd via verstelbare V-L- en L-V-adapters die een nauwe Visie-Taal (VL)-afstemming mogelijk maken. De architectuur is getraind om zowel ruimtelijke als temporele elementen van videocontent te synchroniseren met tekstuele instructies. Om fijnmazige verankering mogelijk te maken, hebben we een multimodale dataset samengesteld met gedetailleerde visueel verankerde gesprekken met behulp van een semi-automatisch annotatiepijplijn, wat resulteert in een diverse set van 38k video-VA-triplets samen met 83k objecten en 671k maskers. We evalueren VideoGLaMM op drie uitdagende taken: Gegrond Gespreksgeneratie, Visuele Verankering en Verwijzende Videosegmentatie. Experimentele resultaten tonen aan dat ons model consequent beter presteert dan bestaande benaderingen voor alle drie de taken.
Met de introductie van transformermodellen voor visuele en talige taken, zoals LLaVA en Chameleon, is er hernieuwde interesse ontstaan in de discrete getokeniseerde representatie van beelden. Deze modellen behandelen beeldpatches vaak als discrete tokens, analoog aan woorden in natuurlijke taal, en leren gezamenlijke aligneringen tussen visuele en menselijke talen. Er is echter weinig bekend over het statistische gedrag van deze visuele talen – of ze vergelijkbare frequentieverdelingen, grammaticale structuren of topologieën volgen als natuurlijke talen. In dit artikel hanteren we een natuurlijke-taal-gerichte benadering om discrete visuele talen te analyseren en ontdekken we opvallende overeenkomsten en fundamentele verschillen. We tonen aan dat hoewel visuele talen aan Zipfiaanse verdelingen voldoen, hogere tokeninnovatie leidt tot grotere entropie en lagere compressie, waarbij tokens voornamelijk objectdelen vertegenwoordigen, wat op een intermediaire granulariteit wijst. We laten ook zien dat visuele talen cohesieve grammaticale structuren missen, wat resulteert in hogere perplexiteit en een zwakkere hiërarchische organisatie in vergelijking met natuurlijke talen. Ten slotte demonstreren we dat, hoewel visiemodellen nauwer aansluiten bij natuurlijke talen dan andere modellen, deze alignering aanzienlijk zwakker blijft dan de cohesie binnen natuurlijke talen. Door deze experimenten tonen we aan hoe inzicht in de statistische eigenschappen van discrete visuele talen het ontwerp van effectievere computervisiemodellen kan informeren.
Om de sociale binding met gesprekspartners te vergroten, verwerven mensen van nature het vermogen om gepast te reageren in een gegeven situatie door te overwegen welke gespreksvaardigheid het meest geschikt is voor de reactie – een proces dat we 'skill-of-mind' noemen. Voor op grote taalmodellen (LLM) gebaseerde gespreksagentschappen is het plannen van passende gespreksvaardigheden, zoals mensen doen, een uitdaging vanwege de complexiteit van sociale dialoog, vooral in interactieve scenario's. Om dit aan te pakken, stellen we een met 'skill-of-mind' geannoteerde gespreksdataset voor, genaamd Multifaceted Skill-of-Mind, die meerdere gesprekswendingen en veelzijdige gespreksvaardigheden omvat in diverse interactieve scenario's (bijv. langdurige gesprekken, counseling, taakgerichte gesprekken), verankerd in uiteenlopende sociale contexten (bijv. demografie, persona, vuistregels). Deze dataset bestaat uit ongeveer 100.000 gesprekken. Met behulp van deze dataset introduceren we een nieuwe familie van 'skill-of-mind'-geïnfuseerde LLM's, genaamd Thanos, met modelgroottes van 1B, 3B en 8B parameters. Uitgebreide experimenten tonen aan dat deze modellen met succes het 'skill-of-mind'-proces demonstreren en sterke generaliseerbaarheid vertonen bij het afleiden van veelzijdige vaardigheden in uiteenlopende domeinen. Bovendien laten we zien dat Thanos de kwaliteit van de door LLM-gebaseerde gespreksagentschappen gegenereerde reacties aanzienlijk verbetert en prosociaal gedrag bevordert in humane evaluaties.
Diffusiemodellen zijn bewezen zeer effectief te zijn in het genereren van hoogwaardige afbeeldingen. Naarmate deze modellen echter groter worden, vergen ze aanzienlijk meer geheugen en hebben ze last van hogere latentie, wat aanzienlijke uitdagingen oplevert voor implementatie. In dit werk streven we ernaar diffusiemodellen te versnellen door hun gewichten en activeringen te kwantiseren naar 4 bits. Op zo'n agressief niveau zijn zowel gewichten als activeringen zeer gevoelig, waarbij conventionele kwantiseringsmethoden na training voor grote taalmmodellen, zoals smoothing, ontoereikend blijken. Om deze beperking te overwinnen, stellen we SVDQuant voor, een nieuw 4-bits kwantiseringsparadigma. In tegenstelling tot smoothing, dat uitbijters herverdeelt tussen gewichten en activeringen, absorbeert onze aanpak deze uitbijters met behulp van een low-rank branch. We consolideren eerst de uitbijters door ze van activeringen naar gewichten te verplaatsen, en gebruiken vervolgens een high-precision low-rank branch om de gewichtsuitbijters op te nemen met Singular Value Decomposition (SVD). Dit proces vereenvoudigt de kwantisering aan beide kanten. Echter, wanneer de low-rank branch naïef onafhankelijk wordt uitgevoerd, ontstaat er een aanzienlijke overhead door extra dataverplaatsing van activeringen, wat de snelheidswinst door kwantisering tenietdoet. Om dit aan te pakken, co-ontwerpen we een inference-engine, Nunchaku, die de kernels van de low-rank branch fuseert met die van de low-bit branch om overbodige geheugentoegang te elimineren. Het kan ook naadloos ondersteuning bieden voor kant-en-klare low-rank adapters (LoRA's) zonder herkwantisering. Uitgebreide experimenten met SDXL, PixArt-Sigma en FLUX.1 valideren de effectiviteit van SVDQuant in het behouden van de beeldkwaliteit. We verminderen het geheugengebruik voor de 12B FLUX.1-modellen met 3,5 keer en behalen een 3,0 keer snellere snelheid vergeleken met de 4-bits alleen-gewichten gekwantiseerde baseline op een laptop met een 16GB 4090 GPU, wat de weg effent voor meer interactieve toepassingen op pc's. Onze kwantiseringbibliotheek en inference-engine zijn open source.
Naarmate de contextlimieten van Large Language Models (LLM's) toenemen, breidt het scala aan mogelijke toepassingen en downstream-functies zich uit. Bij veel taken in de praktijk zijn beslissingen afhankelijk van details die verspreid zijn over verzamelingen van vaak uiteenlopende documenten die voornamelijk irrelevante informatie bevatten. LLM's met een lange context lijken bijzonder geschikt voor deze vorm van complexe informatie-extractie en redenering, wat traditioneel kostbaar en tijdrovend is gebleken. Hoewel de ontwikkeling van modellen met een langere context de afgelopen jaren echter een snelle vooruitgang heeft geboekt, is ons begrip van hoe effectief LLM's hun context gebruiken, niet gelijk opgegaan. Om dit aan te pakken, voeren we een reeks retrieval-experimenten uit die zijn ontworpen om de capaciteiten van 17 toonaangevende LLM's te evalueren, zoals hun vermogen om informatie-draden door het contextvenster te volgen. Opvallend genoeg stellen we vast dat veel modellen opmerkelijk 'thread-safe' zijn: ze kunnen gelijktijdig meerdere draden volgen zonder significant prestatieverlies. Toch stellen we voor veel modellen vast dat de effectieve contextlimiet aanzienlijk korter is dan de ondersteunde contextlengte, waarbij de nauwkeurigheid afneemt naarmate het contextvenster groeit. Onze studie benadrukt ook het belangrijke punt dat tokentellingen van verschillende tokenizers niet direct vergeleken moeten worden – ze komen vaak overeen met aanzienlijk verschillende aantallen geschreven karakters. We geven onze code en lange-context experimentele data vrij.
Er is aanzienlijke vooruitgang geboekt op het gebied van open-vocabulary mobiele manipulatie, waarbij het doel is dat een robot taken uitvoert in elke omgeving op basis van een beschrijving in natuurlijke taal. De meeste huidige systemen gaan echter uit van een statische omgeving, wat de toepasbaarheid van het systeem beperkt in realistische scenario's waar omgevingen frequent veranderen door menselijk ingrijpen of de acties van de robot zelf. In dit werk presenteren we DynaMem, een nieuwe aanpak voor mobiele manipulatie in een open wereld die een dynamisch ruimtelijk-semantisch geheugen gebruikt om de omgeving van een robot voor te stellen. DynaMem construeert een 3D-datastructuur om een dynamisch geheugen van puntenwolken bij te houden, en beantwoordt open-vocabulary localisatievragen voor objecten met behulp van multimodale LLM's of open-vocabulary kenmerken gegenereerd door state-of-the-art vision-language modellen. Aangedreven door DynaMem kunnen onze robots nieuwe omgevingen verkennen, zoeken naar objecten die niet in het geheugen staan, en het geheugen continu updaten wanneer objecten bewegen, verschijnen of verdwijnen in de scène. We voeren uitgebreide experimenten uit met de Stretch SE3-robots in drie echte en negen offline scènes, en behalen een gemiddeld slagingspercentage van 70% voor pick-and-drop taken met niet-stationaire objecten, wat een verbetering van meer dan een factor 2 is ten opzichte van state-of-the-art statische systemen. Onze code evenals onze experiment- en implementatievideo's zijn open source en zijn te vinden op onze projectwebsite: https://dynamem.github.io/
Codemixen, de integratie van lexicale en grammaticale elementen uit meerdere talen binnen één zin, is een wijdverspreid taalkundig fenomeen, dat vooral veel voorkomt in meertalige samenlevingen. In India voeren sociale mediagebruikers vaak gemengde gesprekken in het Romeinse schrift, met name onder migrantengemeenschappen die online groepen vormen om relevante lokale informatie te delen. Dit artikel richt zich op de uitdagingen van het extraheren van relevante informatie uit gemengde gesprekken, specifiek binnen het in Romeinse transliteratie geschreven Bengaals vermengd met Engels. Deze studie presenteert een nieuwe aanpak om deze uitdagingen aan te pakken door een mechanisme te ontwikkelen om automatisch de meest relevante antwoorden uit gemengde gesprekken te identificeren. Wij hebben geëxperimenteerd met een dataset bestaande uit vragen en documenten van Facebook, en Query Relevance-bestanden (QRels) om deze taak te ondersteunen. Onze resultaten tonen de effectiviteit van onze aanpak aan bij het extraheren van relevante informatie uit complexe, gemengde digitale gesprekken, wat bijdraagt aan het bredere vakgebied van natuurlijke taalverwerking in meertalige en informele tekstomgevingen. Wij gebruiken GPT-3.5 Turbo via prompting en benutten het sequentiële karakter van relevante documenten om een wiskundig model op te stellen dat helpt bij het detecteren van relevante documenten die bij een vraag horen.
Bestaande benchmarks voor de evaluatie van foundationmodellen richten zich voornamelijk op taken met één document en alleen tekst. Echter, ze slagen er vaak niet in om de complexiteit van onderzoekswerkstromen volledig te vatten, waarbij doorgaans niet-tekstuele gegevens moeten worden geïnterpreteerd en informatie uit meerdere documenten moet worden verzameld. Om dit hiaat te adresseren, introduceren wij M3SciQA, een multimodale, multidocument benchmark voor wetenschappelijke vraagbeantwoording, ontworpen voor een meer uitgebreide evaluatie van foundationmodellen. M3SciQA bestaat uit 1.452 expert-geannoteerde vragen, verspreid over 70 paperclusters uit de natuurlijke-taalbewerking, waarbij elke cluster een primaire paper vertegenwoordigt samen met alle geciteerde documenten. Dit weerspiegelt de werkstroom van het begrijpen van een enkele paper door multimodale en multidocumentgegevens te vereisen. Met M3SciQA voeren we een uitgebreide evaluatie uit van 18 foundationmodellen. Onze resultaten tonen aan dat huidige foundationmodellen nog steeds significant onderpresteren in vergelijking met menselijke experts, zowel op het gebied van multimodale informatie-retrieval als bij redeneren over meerdere wetenschappelijke documenten. Daarnaast verkennen we de implicaties van deze bevindingen voor de toekomstige vooruitgang in de toepassing van foundationmodellen bij multimodale wetenschappelijke literatuuranalyse.
Wij presenteren GazeGen, een gebruikersinteractiesysteem dat visuele inhoud (afbeeldingen en video's) genereert voor locaties die worden aangegeven door de oogbewegingen van de gebruiker. GazeGen maakt intuïtieve manipulatie van visuele inhoud mogelijk door interessegebieden met de blik te selecteren. Met behulp van geavanceerde technieken in objectdetectie en generatieve AI voert GazeGen door de blik gestuurde handelingen uit, zoals het toevoegen/verwijderen van afbeeldingen, het herpositioneren van beeldobjecten, het wijzigen van oppervlaktematerialen, en zet het statische afbeeldingen om in video's. Centraal in GazeGen staat de DFT Gaze (Distilled and Fine-Tuned Gaze) agent, een ultralichtgewicht model met slechts 281K parameters, dat nauwkeurige realtime blikvoorspellingen uitvoert, afgestemd op de individuele ogen van gebruikers op kleine edge-apparaten. GazeGen is het eerste systeem dat visuele inhoudsgeneratie combineert met realtime blikschatting, wat uitsluitend mogelijk wordt gemaakt door DFT Gaze. Deze realtime blikschatting maakt diverse taken voor het genereren van visuele inhoud mogelijk, allemaal bestuurd door de blik van de gebruiker. De invoer voor DFT Gaze zijn de oogbeelden van de gebruiker, terwijl de invoer voor de visuele inhoudsgeneratie het gebruikersbeeld en het voorspelde blikpunt van DFT Gaze zijn. Om efficiënte blikvoorspellingen te bereiken, leiden we het kleine model af van een groot model (10x groter) via nieuwe kennisdistillatie- en persoonlijke aanpassingstechnieken. We integreren kennisdistillatie met een gemaskeerde auto-encoder, waardoor een compact maar krachtig blikschattingsmodel wordt ontwikkeld. Dit model wordt verder verfijnd met Adapters, waardoor zeer nauwkeurige en gepersonaliseerde blikvoorspellingen mogelijk zijn met minimale gebruikersinvoer. DFT Gaze zorgt voor lage latentie en precieze bliktracking, ondersteund door een breed scala aan door de blik gestuurde taken. We valideren de prestaties van DFT Gaze op AEA- en OpenEDS2020-benchmarks, waarbij een lage hoekfout in de blikschatting en lage latentie op het edge-apparaat (Raspberry Pi 4) worden aangetoond. Verder beschrijven we toepassingen van GazeGen, die de veelzijdigheid en effectiviteit ervan in verschillende gebruiksscenario's illustreren.
Methoden voor beeld-naar-video-generatie hebben indrukwekkende, fotorealistische kwaliteit bereikt. Het aanpassen van specifieke elementen in gegenereerde video's, zoals objectbeweging of camerabeweging, is echter vaak een moeizaam proces van trial-and-error, bijvoorbeeld door video's opnieuw te genereren met verschillende willekeurige seeds. Recente technieken pakken dit probleem aan door een vooraf getraind model af te stemmen om conditioneringssignalen te volgen, zoals begrenzingskaders of puntentrajecten. Deze afstemprocedure kan echter rekenintensief zijn en vereist datasets met geannoteerde objectbeweging, die moeilijk verkrijgbaar kunnen zijn. In dit werk introduceren we SG-I2V, een raamwerk voor controleerbare beeld-naar-video-generatie dat zelfgestuurd is – het biedt zero-shot-controle door uitsluitend te vertrouwen op de kennis aanwezig in een vooraf getraind beeld-naar-video-diffusiemodel, zonder afstemming of externe kennis nodig te hebben. Onze zero-shot-methode overtreft niet-gesuperviseerde basislijnen en is concurrerend met gesuperviseerde modellen wat betreft visuele kwaliteit en bewegingsnauwkeurigheid.
Naast het synthetiseren van hoogwaardige beelden tonen diffusiemodellen recent veelbelovende resultaten in dichte visuele perceptietaken. De meeste bestaande onderzoeken behandelen diffusiemodellen echter als een op zichzelf staande component voor perceptietaken, waarbij ze uitsluitend worden ingezet voor kant-en-klare data-augmentatie of als loutere feature-extractors. In tegenstelling tot deze geïsoleerde en dus suboptimale benaderingen introduceren wij een uniform, veelzijdig, op diffusie gebaseerd raamwerk, Diff-2-in-1, dat gelijktijdig zowel multimodale datageneratie als dichte visuele perceptie kan verwerken door een unieke benutting van het diffusie-denoisingproces. Binnen dit raamwerk verbeteren wij verder de discriminerende visuele perceptie via multimodale generatie, door het denoising-netwerk te gebruiken om multimodale data te creëren die de distributie van de originele trainingsset weerspiegelen. Cruciaal is dat Diff-2-in-1 het gebruik van de gecreëerde diverse en getrouwe data optimaliseert door een nieuw zelfverbeterend leermechanisme te benutten. Uitgebreide experimentele evaluaties valideren de effectiviteit van ons raamwerk, waarbij consistente prestatieverbeteringen worden aangetoond across verschillende discriminerende backbones en hoogwaardige multimodale datageneratie gekenmerkt door zowel realisme als bruikbaarheid.