Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Spatio-temporele consistentie is een cruciaal onderzoeksonderwerp in videogeneratie. Een kwalitatief hoogwaardig gegenereerd videofragment moet plotgeloofwaardigheid en samenhang waarborgen terwijl de visuele consistentie van objecten en scènes behouden blijft bij verschillende gezichtspunten. Eerder onderzoek, met name in open-sourceprojecten, richt zich voornamelijk op ofwel temporele ofwel ruimtelijke consistentie, of een basiscombinatie hiervan, zoals het toevoegen van een beschrijving van een camerabeweging na een prompt zonder de uitkomsten van deze beweging te beperken. Echter, camerabeweging kan nieuwe objecten aan de scène toevoegen of bestaande verwijderen, waardoor de voorafgaande narratief wordt overschreven en beïnvloed. Vooral in video's met talrijke camerabewegingen wordt de interactie tussen meerdere plots steeds complexer. Dit artikel introduceert en onderzoekt integrale spatio-temporele consistentie, waarbij de synergie tussen plotvoortgang en cameratechnieken, en de langetermijnimpact van eerder gegenereerde inhoud op latere generatie wordt overwogen. Ons onderzoek omvat de constructie van een dataset tot de ontwikkeling van het model. Aanvankelijk hebben we een DropletVideo-10M dataset geconstrueerd, die bestaat uit 10 miljoen video's met dynamische camerabewegingen en objectacties. Elke video is geannoteerd met een gemiddelde beschrijving van 206 woorden, waarin verschillende camerabewegingen en plotontwikkelingen worden gedetailleerd. Vervolgens hebben we het DropletVideo-model ontwikkeld en getraind, dat uitblinkt in het behouden van spatio-temporele coherentie tijdens videogeneratie. De DropletVideo dataset en het model zijn toegankelijk op https://dropletx.github.io.
Het ontwikkelen van autonome robotische agents die menselijk niveau kunnen bereiken in real-world belichaamde taken is een ultiem doel in het onderzoek naar humanoïde robots. Recente vooruitgang heeft aanzienlijke voortgang geboekt in hoogwaardige cognitie met Foundation Models (FM's) en de ontwikkeling van basale vaardigheden voor humanoïde robots. Het direct combineren van deze componenten resulteert echter vaak in slechte robuustheid en efficiëntie vanwege opstapelende fouten in langetermijntaken en de uiteenlopende latentie van verschillende modules. Wij introduceren Being-0, een hiërarchisch agentframework dat een FM integreert met een modulaire vaardighedenbibliotheek. De FM behandelt hoogwaardige cognitieve taken zoals instructiebegrip, taakplanning en redenering, terwijl de vaardighedenbibliotheek stabiele voortbeweging en behendige manipulatie biedt voor basale controle. Om de kloof tussen deze niveaus te overbruggen, stellen we een nieuwe Connector-module voor, aangedreven door een lichtgewicht vision-language model (VLM). De Connector versterkt de belichaamde capaciteiten van de FM door taalgebaseerde plannen om te zetten in uitvoerbare vaardigheidscommando's en door voortbeweging en manipulatie dynamisch te coördineren om de taaksucceskans te vergroten. Met alle componenten, behalve de FM, die op goedkope onboard rekenapparaten kunnen worden geïmplementeerd, bereikt Being-0 efficiënte, real-time prestaties op een volledige humanoïde robot uitgerust met behendige handen en actief zicht. Uitgebreide experimenten in grote binnenomgevingen demonstreren de effectiviteit van Being-0 in het oplossen van complexe, langetermijntaken die uitdagende navigatie- en manipulatiesubtaken vereisen. Voor meer details en video's, bezoek https://beingbeyond.github.io/being-0.
Beeldgeconditioneerde generatiemethoden, zoals diepte- en canny-geconditioneerde benaderingen, hebben opmerkelijke mogelijkheden getoond voor precieze beeld synthese. Bestaande modellen hebben echter nog steeds moeite om de inhoud van meerdere instanties (of regio's) nauwkeurig te controleren. Zelfs state-of-the-art modellen zoals FLUX en 3DIS kampen met uitdagingen, zoals attribuutlekkage tussen instanties, wat de gebruikerscontrole beperkt. Om deze problemen aan te pakken, introduceren we DreamRenderer, een trainingsvrije benadering gebaseerd op het FLUX-model. DreamRenderer stelt gebruikers in staat om de inhoud van elke instantie te controleren via begrenzingsvakken of maskers, terwijl de algehele visuele harmonie wordt gewaarborgd. We stellen twee belangrijke innovaties voor: 1) Bridge Image Tokens voor Hard Text Attribute Binding, die gerepliceerde beeldtokens gebruikt als brugtokens om ervoor te zorgen dat T5-tekstembeddings, alleen getraind op tekstdata, de juiste visuele attributen binden voor elke instantie tijdens Joint Attention; 2) Hard Image Attribute Binding die alleen wordt toegepast op cruciale lagen. Door onze analyse van FLUX identificeren we de kritieke lagen die verantwoordelijk zijn voor het renderen van instantie-attributen en passen we Hard Image Attribute Binding alleen toe in deze lagen, waarbij we zachte binding gebruiken in de andere. Deze benadering zorgt voor precieze controle terwijl de beeldkwaliteit behouden blijft. Evaluaties op de COCO-POS en COCO-MIG benchmarks tonen aan dat DreamRenderer de Image Success Ratio met 17,7% verbetert ten opzichte van FLUX en de prestaties van layout-naar-beeld modellen zoals GLIGEN en 3DIS met tot 26,8% verhoogt. Projectpagina: https://limuloo.github.io/DreamRenderer/.
Gepersonaliseerde beeldgeneratie heeft als doel om afbeeldingen te produceren van door de gebruiker gespecificeerde concepten, terwijl flexibele bewerking mogelijk wordt gemaakt. Recente trainingsvrije benaderingen, hoewel ze een hogere computationele efficiëntie vertonen dan trainingsgebaseerde methoden, worstelen met identiteitsbehoud, toepasbaarheid en compatibiliteit met diffusietransformers (DiTs). In dit artikel ontdekken we het onbenutte potentieel van DiT, waarbij het simpelweg vervangen van denoising-tokens door die van een referentieonderwerp zero-shot onderwerpreconstructie mogelijk maakt. Deze eenvoudige maar effectieve techniek voor feature-injectie opent de deur naar diverse scenario's, van personalisatie tot beeldbewerking. Op basis van deze observatie stellen we Personalize Anything voor, een trainingsvrij raamwerk dat gepersonaliseerde beeldgeneratie in DiT bereikt door: 1) tijdsstap-adaptieve tokenvervanging die onderwerpconsistentie afdwingt via injectie in een vroeg stadium en flexibiliteit vergroot door regularisatie in een laat stadium, en 2) patchperturbatiestrategieën om structurele diversiteit te bevorderen. Onze methode ondersteunt naadloos layout-gestuurde generatie, personalisatie van meerdere onderwerpen en maskergestuurde bewerking. Evaluaties tonen state-of-the-art prestaties in identiteitsbehoud en veelzijdigheid. Ons werk biedt nieuwe inzichten in DiTs en levert tegelijkertijd een praktisch paradigma voor efficiënte personalisatie.
Redeneren en strategisch gedrag in sociale interacties is een kenmerk van intelligentie. Deze vorm van redeneren is aanzienlijk geavanceerder dan geïsoleerde planning- of redeneertaken in statische omgevingen (bijvoorbeeld het oplossen van wiskundige problemen). In dit artikel presenteren we Strategic Planning, Interaction, and Negotiation (SPIN-Bench), een nieuwe multidomein-evaluatie die is ontworpen om de intelligentie van strategische planning en sociaal redeneren te meten. Terwijl veel bestaande benchmarks zich richten op beperkte planning of redenering door één agent, combineert SPIN-Bench klassieke PDDL-taken, competitieve bordspellen, coöperatieve kaartspellen en multi-agentonderhandelingsscenario's in één geïntegreerd raamwerk. Het raamwerk omvat zowel een benchmark als een arena om de verscheidenheid aan sociale situaties te simuleren en te evalueren, om het redeneer- en strategisch gedrag van AI-agents te testen. We formuleren de benchmark SPIN-Bench door systematisch actieruimtes, staatcomplexiteit en het aantal interagerende agents te variëren, om een verscheidenheid aan sociale situaties te simuleren waarin succes niet alleen afhangt van methodische en stapsgewijze besluitvorming, maar ook van conceptuele inferentie van andere (adversariële of coöperatieve) deelnemers. Onze experimenten tonen aan dat, hoewel hedendaagse LLM's basisgegevensophaling en kortetermijnplanning redelijk goed aankunnen, ze aanzienlijke prestatieknelpunten tegenkomen bij taken die diepgaand multi-hop redeneren over grote staatruimtes en sociaal vaardige coördinatie onder onzekerheid vereisen. We zien SPIN-Bench als een katalysator voor toekomstig onderzoek naar robuuste multi-agentplanning, sociaal redeneren en mens-AI-samenwerking.
Door het voordeel van keten-van-gedachten (CoT) redenering in mensachtige stapsgewijze processen uit te breiden naar multimodale contexten, heeft multimodale CoT (MCoT) redenering recentelijk aanzienlijke onderzoeksaandacht gekregen, met name in de integratie met multimodale grote taalmodellen (MLLMs). Bestaande MCoT-studies ontwerpen verschillende methodologieën en innovatieve redeneerparadigma's om de unieke uitdagingen van beeld, video, spraak, audio, 3D en gestructureerde data over verschillende modaliteiten aan te pakken, wat uitgebreid succes heeft opgeleverd in toepassingen zoals robotica, gezondheidszorg, autonoom rijden en multimodale generatie. MCoT biedt echter nog steeds duidelijke uitdagingen en mogelijkheden die verdere aandacht vereisen om een consistente bloei in dit veld te waarborgen, waar helaas een actueel overzicht van dit domein ontbreekt. Om deze kloof te overbruggen, presenteren we de eerste systematische survey van MCoT-redenering, waarbij we de relevante fundamentele concepten en definities verhelderen. We bieden een uitgebreide taxonomie en een diepgaande analyse van huidige methodologieën vanuit diverse perspectieven in verschillende toepassingsscenario's. Bovendien geven we inzicht in bestaande uitdagingen en toekomstige onderzoeksrichtingen, met als doel innovatie te bevorderen richting multimodale AGI.
We introduceren een nieuwe instelling, Edit Transfer, waarbij een model een transformatie leert uit slechts één bron-doelvoorbeeld en deze toepast op een nieuwe queryafbeelding. Terwijl tekstgebaseerde methoden uitblinken in semantische manipulaties via tekstuele prompts, hebben ze vaak moeite met precieze geometrische details (bijvoorbeeld houdingen en gezichtspuntveranderingen). Referentiegebaseerde bewerking richt zich daarentegen meestal op stijl of uiterlijk en faalt bij niet-rigide transformaties. Door de bewerkingstransformatie expliciet te leren uit een bron-doelpaar, vermindert Edit Transfer de beperkingen van zowel tekst- als uiterlijkgerichte referenties. Geïnspireerd door in-context learning in grote taalmodelen, stellen we een visuele relatie in-context learning paradigma voor, gebaseerd op een DiT-gebaseerd tekst-naar-beeldmodel. We ordenen het bewerkte voorbeeld en de queryafbeelding in een uniforme vierpaneelcompositie, waarna we lichtgewicht LoRA fine-tuning toepassen om complexe ruimtelijke transformaties vast te leggen uit minimale voorbeelden. Ondanks het gebruik van slechts 42 trainingsvoorbeelden, presteert Edit Transfer aanzienlijk beter dan state-of-the-art TIE- en RIE-methoden in diverse niet-rigide scenario's, wat de effectiviteit van few-shot visuele relatie learning aantoont.
Recente studies verbeteren over het algemeen de redeneervaardigheden van MLLM's via supervised fine-tuning op hoogwaardige chain-of-thought redeneergegevens, wat er vaak toe leidt dat modellen succesvolle redeneerpaden slechts imiteren zonder te begrijpen wat de verkeerde redeneerpaden zijn. In dit werk streven we ernaar om de redeneervaardigheid van MLLM's te verbeteren, verder dan het passief imiteren van positieve redeneerpaden. Hiertoe ontwerpen we Step-wise Group Relative Policy Optimization (StepGRPO), een nieuw online reinforcement learning-framework dat MLLM's in staat stelt om hun redeneervaardigheid zelf te verbeteren via eenvoudige, effectieve en dichte stap-voor-stap beloningen. Specifiek introduceert StepGRPO twee nieuwe regelgebaseerde redeneerbeloningen: Step-wise Reasoning Accuracy Reward (StepRAR) en Step-wise Reasoning Validity Reward (StepRVR). StepRAR beloont redeneerpaden die noodzakelijke tussenliggende redeneerstappen bevatten via een zachte key-step matching-techniek, terwijl StepRVR redeneerpaden beloont die een goed gestructureerd en logisch consistent redeneerproces volgen via een strategie voor redeneervolledigheid en logica-evaluatie. Met het voorgestelde StepGRPO introduceren we R1-VL, een reeks MLLM's met uitstekende vaardigheden in stap-voor-stap redeneren. Uitgebreide experimenten over 8 benchmarks demonstreren de superioriteit van onze methoden.
Element-level visuele manipulatie is essentieel in digitale contentcreatie, maar huidige op diffusie gebaseerde methoden missen de precisie en flexibiliteit van traditionele tools. In dit werk introduceren we BlobCtrl, een framework dat element-level generatie en bewerking verenigt met behulp van een probabilistische blob-gebaseerde representatie. Door blobs te gebruiken als visuele primitieven, ontkoppelt en representeert onze aanpak effectief ruimtelijke locatie, semantische inhoud en identiteitsinformatie, wat precieze element-level manipulatie mogelijk maakt. Onze belangrijkste bijdragen omvatten: 1) een dual-branch diffusiearchitectuur met hiërarchische featurefusie voor naadloze integratie van voorgrond en achtergrond; 2) een zelfgesuperviseerd trainingsparadigma met op maat gemakte data-augmentatie en scorefuncties; en 3) beheersbare dropout-strategieën om trouw en diversiteit in evenwicht te brengen. Om verder onderzoek te ondersteunen, introduceren we BlobData voor grootschalige training en BlobBench voor systematische evaluatie. Experimenten tonen aan dat BlobCtrl uitblinkt in diverse element-level manipulatietaken terwijl het rekenkundige efficiëntie behoudt, en biedt zo een praktische oplossing voor precieze en flexibele visuele contentcreatie. Projectpagina: https://liyaowei-stu.github.io/project/BlobCtrl/
Wetenschappelijk onderzoek vereist geavanceerd redeneren over multimodale data, een uitdaging die vooral prominent aanwezig is in de biologie. Ondanks recente vooruitgang in multimodale grote taalmodellen (MLLMs) voor AI-ondersteund onderzoek, richten bestaande benchmarks voor multimodaal redeneren zich alleen op moeilijkheidsgraden tot universitair niveau, terwijl benchmarks op onderzoeksniveau de nadruk leggen op perceptie op lager niveau, wat tekortschiet voor het complexe multimodale redeneren dat nodig is voor wetenschappelijke ontdekkingen. Om deze kloof te overbruggen, introduceren we MicroVQA, een visuele-vraag-antwoord (VQA) benchmark die is ontworpen om drie redeneervaardigheden te beoordelen die essentieel zijn in onderzoekswerkstromen: expertbeeldbegrip, hypothesegeneratie en experimentvoorstel. MicroVQA bestaat uit 1.042 meerkeuzevragen (MCQs) die zijn samengesteld door biologiedeskundigen over diverse microscopiemodaliteiten, waardoor VQA-monsters echte wetenschappelijke praktijk vertegenwoordigen. Bij het opstellen van de benchmark ontdekken we dat standaardmethoden voor MCQ-generatie taalverkortingen veroorzaken, wat aanleiding geeft tot een nieuwe tweefasenpijplijn: een geoptimaliseerde LLM-prompt structureert vraag-antwoordparen in MCQs; vervolgens werkt een agentgebaseerde 'RefineBot' deze bij om verkortingen te verwijderen. Benchmarking op state-of-the-art MLLMs onthult een piekprestatie van 53%; modellen met kleinere LLMs presteren slechts iets minder dan topmodellen, wat suggereert dat taalgebaseerd redeneren minder uitdagend is dan multimodaal redeneren; en afstemming met wetenschappelijke artikelen verbetert de prestaties. Expertanalyse van keten-van-gedachte-reacties toont aan dat perceptiefouten het meest frequent zijn, gevolgd door kennisfouten en daarna overgeneralisatiefouten. Deze inzichten benadrukken de uitdagingen in multimodaal wetenschappelijk redeneren en tonen aan dat MicroVQA een waardevolle bron is die AI-gedreven biomedisch onderzoek vooruithelpt. MicroVQA is beschikbaar op https://huggingface.co/datasets/jmhb/microvqa, en de projectpagina staat op https://jmhb0.github.io/microvqa.
Met de snelle ontwikkeling van 3D-reconstructietechnologie vordert ook het onderzoek naar 4D-reconstructie. Bestaande 4D-reconstructiemethoden kunnen hoogwaardige 4D-scènes genereren. Echter, vanwege de uitdagingen bij het verkrijgen van multi-view videodata, tonen de huidige 4D-reconstructiebenchmarks voornamelijk acties die ter plaatse worden uitgevoerd, zoals dansen, binnen beperkte scenario's. In praktijkscenario's omvatten veel scènes echter ruimtelijke bewegingen over een groot gebied, wat de beperkingen van bestaande 4D-reconstructiedatasets benadrukt. Bovendien vertrouwen bestaande 4D-reconstructiemethoden op vervormingsvelden om de dynamiek van 3D-objecten te schatten, maar vervormingsvelden hebben moeite met ruimtelijke bewegingen over een groot gebied, wat de mogelijkheid beperkt om hoogwaardige 4D-scènereconstructie met dergelijke bewegingen te bereiken. In dit artikel richten we ons op 4D-scènereconstructie met significante ruimtelijke bewegingen van objecten en introduceren we een nieuwe 4D-reconstructiebenchmark, WideRange4D. Deze benchmark omvat rijke 4D-scènedata met grote ruimtelijke variaties, waardoor een uitgebreidere evaluatie van de generatiecapaciteiten van 4D-generatiemethoden mogelijk is. Daarnaast introduceren we een nieuwe 4D-reconstructiemethode, Progress4D, die stabiele en hoogwaardige 4D-resultaten genereert bij diverse complexe 4D-scènereconstructietaken. We voeren zowel kwantitatieve als kwalitatieve vergelijkende experimenten uit op WideRange4D, waaruit blijkt dat onze Progress4D de bestaande state-of-the-art 4D-reconstructiemethoden overtreft. Project: https://github.com/Gen-Verse/WideRange4D
Video's, met hun unieke temporele dimensie, vereisen een nauwkeurig gegrond begrip, waarbij antwoorden direct gekoppeld zijn aan visueel, interpreteerbaar bewijs. Ondanks significante doorbraken in de redeneervaardigheden van Large Language Models, blijft multi-modale redenering - vooral voor video's - onontgonnen gebied. In dit werk introduceren we VideoMind, een innovatieve video-taalagent ontworpen voor temporeel-gegrond videobegrip. VideoMind bevat twee belangrijke innovaties: (i) We identificeren essentiële vaardigheden voor temporele video-redenering en ontwikkelen een op rollen gebaseerd agentisch werkproces, inclusief een planner voor het coördineren van verschillende rollen, een grounder voor temporele lokalisatie, een verifier om de nauwkeurigheid van temporele intervallen te beoordelen, en een answerer voor vraag-antwoordtaken. (ii) Om deze diverse rollen efficiënt te integreren, stellen we een nieuwe Chain-of-LoRA-strategie voor, die naadloze rolwisseling mogelijk maakt via lichtgewicht LoRA-adapters, terwijl de overhead van meerdere modellen wordt vermeden, waardoor efficiëntie en flexibiliteit in balans blijven. Uitgebreide experimenten op 14 publieke benchmarks tonen aan dat onze agent state-of-the-art prestaties behaalt op diverse videobegriptaken, waaronder 3 op gegrond videovraag-antwoord, 6 op temporele videolokalisatie, en 5 op algemeen videovraag-antwoord, wat de effectiviteit ervan onderstreept in het bevorderen van video-agenten en langdurige temporele redenering.
Beloningsmodellen zijn een vast onderdeel geworden van moderne NLP, en dienen niet alleen als een schaalbare tekstbeoordelaar, maar ook als een onmisbaar onderdeel in veel afstemmingsmethoden en algoritmen tijdens inferentie. Hoewel recente beloningsmodellen de prestaties op standaardbenchmarks verbeteren, kan dit deels te wijten zijn aan overfitting-effecten, wat het begrip van hun werkelijke capaciteit zou kunnen vertroebelen. In dit werk onderzoeken we de robuustheid van beloningsmodellen en de omvang van dergelijke overfitting. We bouwen **reWordBench**, dat de invoer van beloningsmodellen op een systematische manier transformeert terwijl de betekenis of rangorde behouden blijft. We tonen aan dat state-of-the-art beloningsmodellen aanzienlijke prestatievermindering ondervinden, zelfs bij kleine invoertransformaties, soms dalend tot significant onder willekeurige nauwkeurigheid, wat op broosheid wijst. Om de robuustheid van beloningsmodellen te verbeteren, stellen we voor om ze expliciet te trainen om vergelijkbare scores toe te kennen aan parafrases, en we ontdekken dat deze aanpak ook de robuustheid tegenover andere soorten transformaties verbetert. Zo vermindert ons robuuste beloningsmodel bijvoorbeeld dergelijke degradatie met ongeveer de helft voor de Chat Hard subset in RewardBench. Bovendien tonen onze robuuste beloningsmodellen, wanneer ze worden gebruikt in afstemming, een betere bruikbaarheid en leiden ze tot hogere kwaliteit uitvoer, waarbij ze in tot 59% van de gevallen winnen van een standaard getraind RM.
Mensen verwerken videoredenering in een sequentiële spatio-temporele redeneerlogica. Eerst identificeren we de relevante frames ("wanneer"), analyseren vervolgens de ruimtelijke relaties ("waar") tussen belangrijke objecten, en gebruiken ten slotte deze relaties om conclusies te trekken ("wat"). Maar kunnen Video Large Language Models (Video-LLMs) ook "redeneren via een sequentiële spatio-temporele logica" in video's? Bestaande Video-LLM-benchmarks richten zich voornamelijk op het beoordelen van objectaanwezigheid, waarbij relationeel redeneren wordt verwaarloosd. Hierdoor is het moeilijk te meten of een model daadwerkelijk de interacties tussen objecten (acties/gebeurtenissen) in video's begrijpt of slechts vertrouwt op vooraf getrainde "herinneringen" van co-voorkomens als vooroordelen bij het genereren van antwoorden. In dit werk introduceren we een Video Spatio-Temporeel Redeneren (V-STaR) benchmark om deze tekortkomingen aan te pakken. Het kernidee is om videobegrip te ontleden in een Reverse Spatio-Temporeel Redeneren (RSTR) taak die tegelijkertijd evalueert welke objecten aanwezig zijn, wanneer gebeurtenissen plaatsvinden en waar ze zich bevinden, terwijl de onderliggende Chain-of-thought (CoT) logica wordt vastgelegd. Om deze evaluatie te ondersteunen, construeren we een dataset om het ruimtelijk-temporele redeneerproces van Video-LLMs uit te lokken. Deze bevat grof-naar-fijn CoT-vragen die zijn gegenereerd door een semi-geautomatiseerde GPT-4-aangedreven pijplijn, waarbij expliciete redeneerketens zijn ingebed om menselijke cognitie na te bootsen. Experimenten met 14 Video-LLMs op onze V-STaR onthullen aanzienlijke hiaten tussen huidige Video-LLMs en de behoeften voor robuust en consistent spatio-temporeel redeneren.
Het uitvoeren van robotisch grijpen uit een rommelige bak op basis van menselijke instructies is een uitdagende taak, omdat het zowel het begrijpen van de nuances van vrije-vormtaal als de ruimtelijke relaties tussen objecten vereist. Vision-Language Models (VLMs) die getraind zijn op web-schaal data, zoals GPT-4o, hebben opmerkelijke redeneervaardigheden getoond over zowel tekst als afbeeldingen. Maar kunnen ze echt gebruikt worden voor deze taak in een zero-shot setting? En wat zijn hun beperkingen? In dit artikel onderzoeken we deze onderzoeksvragen via de vrije-vormtaal-gebaseerde robotische grijptaak, en stellen we een nieuwe methode voor, FreeGrasp, die gebruik maakt van de wereldkennis van vooraf getrainde VLMs om te redeneren over menselijke instructies en ruimtelijke objectarrangementen. Onze methode detecteert alle objecten als keypoints en gebruikt deze keypoints om annotaties op afbeeldingen aan te brengen, met als doel het zero-shot ruimtelijk redeneren van GPT-4o te vergemakkelijken. Hierdoor kan onze methode bepalen of een gevraagd object direct grijpbaar is of dat eerst andere objecten moeten worden gegrepen en verwijderd. Omdat er geen bestaande dataset specifiek voor deze taak is ontworpen, introduceren we een synthetische dataset, FreeGraspData, door de MetaGraspNetV2 dataset uit te breiden met door mensen geannoteerde instructies en grondwaarheid-grijpsequenties. We voeren uitgebreide analyses uit met zowel FreeGraspData als validatie in de echte wereld met een robotarm uitgerust met een grijper, waarbij we state-of-the-art prestaties demonstreren in grijpredenering en -uitvoering. Projectwebsite: https://tev-fbk.github.io/FreeGrasp/.
Het afstemmen van gegenereerde afbeeldingen op complexe tekstprompts en menselijke voorkeuren is een centrale uitdaging in Kunstmatige Intelligentie-Gegenereerde Inhoud (AIGC). Met beloning-versterkte diffusiedistillatie die naar voren komt als een veelbelovende aanpak die de bestuurbaarheid en nauwkeurigheid van tekst-naar-afbeelding modellen verbetert, identificeren we een fundamentele paradigmaverschuiving: naarmate de voorwaarden specifieker worden en de beloningssignalen sterker, worden de beloningen zelf de dominante kracht in de generatie. In tegenstelling daarbij dienen de diffusieverliezen als een buitensporig dure vorm van regularisatie. Om onze hypothese grondig te valideren, introduceren we R0, een nieuwe benadering voor conditionele generatie via gereguleerde beloningsmaximalisatie. In plaats van te vertrouwen op lastige diffusiedistillatieverliezen, stelt R0 een nieuw perspectief voor dat afbeeldingsgeneratie behandelt als een optimalisatieprobleem in de gegevensruimte, dat gericht is op het zoeken naar geldige afbeeldingen met hoge compositorische beloningen. Door innovatieve ontwerpen van de generatorparameterisatie en passende regularisatietechnieken trainen we state-of-the-art tekst-naar-afbeelding generatieve modellen met R0 op grote schaal. Onze resultaten dagen de conventionele wijsheid van diffusie na-training en conditionele generatie uit door aan te tonen dat beloningen een dominante rol spelen in scenario's met complexe voorwaarden. We hopen dat onze bevindingen kunnen bijdragen aan verder onderzoek naar mensgerichte en beloningsgerichte generatieparadigma's in het bredere veld van AIGC. Code is beschikbaar op https://github.com/Luo-Yihong/R0.
Video-inpainting omvat het aanpassen van lokale gebieden binnen een video, waarbij ruimtelijke en temporele consistentie wordt gewaarborgd. De meeste bestaande methoden richten zich voornamelijk op scènecompletering (d.w.z. het invullen van ontbrekende gebieden) en missen de mogelijkheid om op een controleerbare manier nieuwe objecten in een scène in te voegen. Gelukkig bieden recente vooruitgangen in tekst-naar-video (T2V) diffusiemodellen een weg naar tekstgeleide video-inpainting. Het direct aanpassen van T2V-modellen voor inpainting blijft echter beperkt in het verenigen van completerings- en invoegingstaken, mist invoercontroleerbaarheid en heeft moeite met lange video's, wat hun toepasbaarheid en flexibiliteit beperkt. Om deze uitdagingen aan te pakken, stellen we MTV-Inpaint voor, een verenigd multi-task video-inpainting framework dat zowel traditionele scènecompletering als nieuwe objectinvoegingstaken aankan. Om deze verschillende taken te verenigen, ontwerpen we een dual-branch ruimtelijke aandachtmechanisme in de T2V diffusie U-Net, waardoor naadloze integratie van scènecompletering en objectinvoeging binnen een enkel framework mogelijk wordt. Naast tekstuele begeleiding ondersteunt MTV-Inpaint multimodale controle door verschillende image-inpainting modellen te integreren via onze voorgestelde image-to-video (I2V) inpainting modus. Daarnaast stellen we een tweefasenpijplijn voor die keyframe-inpainting combineert met doorvoer van tussenliggende frames, waardoor MTV-Inpaint effectief lange video's met honderden frames kan verwerken. Uitgebreide experimenten tonen aan dat MTV-Inpaint state-of-the-art prestaties bereikt in zowel scènecompletering als objectinvoegingstaken. Bovendien toont het veelzijdigheid in afgeleide toepassingen zoals multimodale inpainting, objectbewerking, verwijdering, image-object brush en de mogelijkheid om lange video's te verwerken. Projectpagina: https://mtv-inpaint.github.io/.
Video-to-audio-synthese, waarbij gesynchroniseerde audio wordt gegenereerd voor visuele inhoud, verbetert de kijkerservaring en narratieve samenhang in film en interactieve media aanzienlijk. Echter blijft video-to-audio-nasynchronisatie voor langere content een onopgeloste uitdaging vanwege dynamische semantische verschuivingen, temporele uitlijning en het ontbreken van specifieke datasets. Hoewel bestaande methoden uitblinken in korte video's, schieten ze tekort in langere scenario's (bijv. films) vanwege gefragmenteerde synthese en onvoldoende consistentie tussen scènes. Wij stellen LVAS-Agent voor, een innovatief multi-agent raamwerk dat professionele nasynchronisatiewerkstromen nabootst door middel van collaboratieve rolspecialisatie. Onze aanpak deelt lange-video-synthese op in vier stappen, waaronder scènesegmentatie, scriptgeneratie, sounddesign en audiosynthese. Belangrijke innovaties omvatten een discussie-correctiemechanisme voor scène/scriptverfijning en een generatie-retrieval-lus voor temporeel-semantische uitlijning. Om systematische evaluatie mogelijk te maken, introduceren we LVAS-Bench, de eerste benchmark met 207 professioneel samengestelde lange video's die diverse scenario's bestrijken. Experimenten tonen superieure audio-visuele uitlijning aan in vergelijking met baseline-methoden. Projectpagina: https://lvas-agent.github.io
Vaak verschillen de behoeften en visuele vaardigheden tussen de groep annotators en de eindgebruikersgroep. Het genereren van gedetailleerde diagrambeschrijvingen voor blinde en slechtziende (BLV) gebruikers is een uitdagend domein. Zieners kunnen visuele elementen gemakkelijk beschrijven, maar bestaande studies hebben aangetoond dat directe beschrijvingen door hen kostbaar, gevoelig voor bias en volgens BLV-standaarden enigszins ontoereikend zijn. In deze studie vragen we ziende individuen om diagrambeschrijvingen te beoordelen – in plaats van te produceren – die zijn gegenereerd door vision-language modellen (VLM) die zijn begeleid met latente supervisie via een multi-pass inferentie. De beoordelingen door zienden blijken effectief en nuttig voor professionele docenten die zelf BLV zijn en visueel beperkte leerlingen onderwijzen. We brengen Sightation uit, een verzameling van diagrambeschrijvingsdatasets met 5k diagrammen en 137k samples voor voltooiing, voorkeur, retrievability, vraagbeantwoording en redeneertraining, en demonstreren hun fijnafstemmingspotentieel in verschillende downstream taken.
Video Foundation Models (VFMs) zijn recentelijk gebruikt om de echte wereld te simuleren voor het trainen van fysieke AI-systemen en het ontwikkelen van creatieve visuele ervaringen. Er zijn echter aanzienlijke uitdagingen bij het trainen van grootschalige, hoogwaardige VFMs die hoogwaardige video's kunnen genereren. Wij presenteren een schaalbare, open-source VFM-trainingspipeline met NVIDIA NeMo, die versnelde curatie van videodatasets, multimodale dataloading en parallelle training en inferentie van videodiffusiemodellen biedt. We bieden ook een uitgebreide prestatieanalyse die de beste praktijken benadrukt voor efficiënte VFM-training en inferentie.
Een verscheidenheid aan Auto-Regressieve Video Diffusie Modellen (ARVDM) heeft opmerkelijke successen behaald in het genereren van realistische lange video's. Theoretische analyses van deze modellen blijven echter schaars. In dit werk ontwikkelen we theoretische grondslagen voor deze modellen en gebruiken we onze inzichten om de prestaties van bestaande modellen te verbeteren. We ontwikkelen eerst Meta-ARVDM, een uniform raamwerk van ARVDM's dat de meeste bestaande methoden omvat. Met behulp van Meta-ARVDM analyseren we de KL-divergentie tussen de door Meta-ARVDM gegenereerde video's en de echte video's. Onze analyse onthult twee belangrijke fenomenen die inherent zijn aan ARVDM: foutaccumulatie en geheugenknelpunten. Door een informatie-theoretisch onmogelijkheidsresultaat af te leiden, tonen we aan dat het geheugenknelpuntfenomeen niet kan worden vermeden. Om het geheugenknelpunt te verzachten, ontwerpen we verschillende netwerkstructuren om expliciet meer vorige frames te gebruiken. We bereiken ook een aanzienlijk verbeterde afweging tussen het verzachten van het geheugenknelpunt en de inferentie-efficiëntie door de frames te comprimeren. Experimentele resultaten op DMLab en Minecraft valideren de effectiviteit van onze methoden. Onze experimenten tonen ook een Pareto-grens aan tussen foutaccumulatie en geheugenknelpunten bij verschillende methoden.
Stereobeelden zijn essentieel voor tal van toepassingen, waaronder extended reality (XR)-apparaten, autonoom rijden en robotica. Helaas blijft het verkrijgen van hoogwaardige stereobeelden een uitdaging vanwege de precieze kalibratie-eisen van dual-camera-opstellingen en de complexiteit van het verkrijgen van nauwkeurige, dichte dispariteitskaarten. Bestaande methoden voor stereobeeldgeneratie richten zich doorgaans op ofwel visuele kwaliteit voor weergave, ofwel geometrische nauwkeurigheid voor matching, maar niet op beide. Wij introduceren GenStereo, een op diffusie gebaseerde aanpak, om deze kloof te overbruggen. De methode omvat twee primaire innovaties: (1) het conditioneren van het diffusieproces op een dispariteitsbewuste coördinaatinbedding en een vervormd invoerbeeld, waardoor een nauwkeurigere stereo-uitlijning mogelijk is dan bij eerdere methoden, en (2) een adaptief fusiemechanisme dat het door diffusie gegenereerde beeld intelligent combineert met een vervormd beeld, waardoor zowel realisme als dispariteitsconsistentie worden verbeterd. Door uitgebreide training op 11 diverse stereodatasets toont GenStereo een sterke generalisatiecapaciteit. GenStereo behaalt state-of-the-art prestaties in zowel stereobeeldgeneratie als ongesuperviseerde stereomatching-taken. Ons framework elimineert de noodzaak van complexe hardware-opstellingen en maakt tegelijkertijd hoogwaardige stereobeeldgeneratie mogelijk, wat het waardevol maakt voor zowel real-world toepassingen als ongesuperviseerde leeromgevingen. De projectpagina is beschikbaar op https://qjizhi.github.io/genstereo.
Recent werk heeft geprobeerd de onzekerheid van grote taalmodelen te kwantificeren om modelcontrole te vergemakkelijken en het gebruikersvertrouwen te moduleren. Eerdere werken richten zich op maatstaven van onzekerheid die theoretisch onderbouwd zijn of het gemiddelde openlijke gedrag van het model weerspiegelen. In dit werk onderzoeken we een verscheidenheid aan onzekerheidsmaatstaven om maatstaven te identificeren die correleren met onzekerheid op groepsniveau bij mensen. We ontdekken dat Bayesiaanse maatstaven en een variant op entropiemaatstaven, top-k entropie, over het algemeen overeenkomen met menselijk gedrag als functie van de modelgrootte. We constateren dat sommige sterke maatstaven in menselijke gelijkenis afnemen met de modelgrootte, maar door middel van meervoudige lineaire regressie vinden we dat het combineren van meerdere onzekerheidsmaatstaven vergelijkbare menselijke afstemming biedt met verminderde afhankelijkheid van de grootte.
Traditionele white-box methoden voor het creëren van adversariële verstoringen tegen LLM's (Large Language Models) vertrouwen doorgaans alleen op gradientberekeningen van het doelmodel, waarbij de interne mechanismen die verantwoordelijk zijn voor het slagen of falen van de aanval worden genegeerd. Aan de andere kant richten interpretatiestudies die deze interne mechanismen analyseren zich vaak op theoretische inzichten zonder praktische toepassingen buiten runtime-interventies. Wij overbruggen deze kloof door een nieuwe white-box aanpak te introduceren die gebruikmaakt van mechanistische interpretatietechnieken om praktische adversariële inputs te creëren. Specifiek identificeren we eerst acceptatiesubruimtes - verzamelingen van featurevectoren die de weigeringsmechanismen van het model niet activeren - en gebruiken vervolgens gradient-gebaseerde optimalisatie om embeddings van weigeringssubruimtes naar acceptatiesubruimtes om te leiden, waardoor jailbreaks effectief worden bereikt. Deze gerichte aanpak vermindert de rekenkosten aanzienlijk en behaalt aanvalsuccespercentages van 80-95\% op state-of-the-art modellen zoals Gemma2, Llama3.2 en Qwen2.5 binnen minuten of zelfs seconden, in tegenstelling tot bestaande technieken die vaak falen of uren rekenwerk vereisen. Wij geloven dat deze aanpak een nieuwe richting opent voor zowel aanvalsonderzoek als de ontwikkeling van verdedigingsmechanismen. Bovendien toont het een praktische toepassing van mechanistische interpretatie waar andere methoden minder efficiënt zijn, wat het nut ervan benadrukt. De code en gegenereerde datasets zijn beschikbaar op https://github.com/Sckathach/subspace-rerouting.
Het vakgebied van de psychologie heeft al lang een basisniveau van categorisatie erkend dat mensen gebruiken bij het labelen van visuele stimuli, een term die in 1976 door Rosch werd geïntroduceerd. Dit categorisatieniveau blijkt het meest frequent te worden gebruikt, een hogere informatiedichtheid te hebben en visuele taaltaken bij mensen te ondersteunen door middel van priming. Hier onderzoeken we het basisniveau van categorisatie in twee recent vrijgegeven, open-source vision-language modellen (VLMs). Dit artikel toont aan dat Llama 3.2 Vision Instruct (11B) en Molmo 7B-D beide een voorkeur hebben voor basisniveau categorisatie die consistent is met menselijk gedrag. Bovendien zijn de voorkeuren van de modellen consistent met genuanceerd menselijk gedrag, zoals het biologische versus niet-biologische basisniveau effect en de goed gedocumenteerde expert basisniveau verschuiving, wat verder suggereert dat VLMs cognitieve categorisatiegedragingen verwerven uit de menselijke data waarop ze zijn getraind.
Recente snelle vooruitgang in tekst-naar-video (T2V) generatie, zoals SoRA en Kling, heeft groot potentieel getoond voor het bouwen van wereld-simulatoren. Huidige T2V-modellen hebben echter moeite met het begrijpen van abstracte fysische principes en het genereren van video's die voldoen aan fysische wetten. Deze uitdaging ontstaat voornamelijk door een gebrek aan duidelijke begeleiding over fysische informatie, veroorzaakt door een aanzienlijke kloof tussen abstracte fysische principes en generatiemodellen. Daarom introduceren we de World Simulator Assistant (WISA), een effectief raamwerk voor het ontleden en integreren van fysische principes in T2V-modellen. Specifiek deelt WISA fysische principes op in tekstuele fysische beschrijvingen, kwalitatieve fysische categorieën en kwantitatieve fysische eigenschappen. Om deze fysische attributen effectief in het generatieproces in te bedden, bevat WISA verschillende sleutelontwerpen, waaronder Mixture-of-Physical-Experts Attention (MoPA) en een Physical Classifier, die het fysica-bewustzijn van het model vergroten. Bovendien bevatten de meeste bestaande datasets video's waarin fysische verschijnselen zwak worden weergegeven of verweven zijn met meerdere gelijktijdige processen, wat hun geschiktheid als toegewijde bronnen voor het leren van expliciete fysische principes beperkt. We stellen een nieuwe videodataset voor, WISA-32K, die is verzameld op basis van kwalitatieve fysische categorieën. Deze bestaat uit 32.000 video's, die 17 fysische wetten vertegenwoordigen binnen drie domeinen van de fysica: dynamica, thermodynamica en optica. Experimentele resultaten tonen aan dat WISA de compatibiliteit van T2V-modellen met fysische wetten uit de echte wereld effectief kan verbeteren, wat resulteert in een aanzienlijke verbetering op de VideoPhy-benchmark. De visuele presentaties van WISA en WISA-32K zijn beschikbaar op https://360cvgroup.github.io/WISA/.