Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Langetermijn autoregressieve modellering heeft de taalgeneratie aanzienlijk vooruitgeholpen, maar videogeneratie heeft nog steeds moeite om uitgebreide temporele contexten volledig te benutten. Om langetermijn videomodellering te onderzoeken, introduceren we Frame AutoRegressive (FAR), een sterke basislijn voor autoregressieve videomodellering. Net zoals taalmodellen causale afhankelijkheden tussen tokens leren (d.w.z. Token AR), modelleert FAR temporele causale afhankelijkheden tussen opeenvolgende frames, wat betere convergentie oplevert dan Token AR en videodiffusietransformers. Op basis van FAR merken we dat langetermijn visuele modellering uitdagingen ondervindt door visuele redundantie. Bestaande RoPE mist effectief temporeel verval voor verre context en slaagt er niet goed in om te extrapoleren naar lange videosequenties. Bovendien is trainen op lange video's rekenkundig duur, omdat visuele tokens veel sneller groeien dan taaltokens. Om deze problemen aan te pakken, stellen we voor om lokale en langetermijn afhankelijkheden in balans te brengen. We introduceren FlexRoPE, een testtijdtechniek die flexibel temporeel verval toevoegt aan RoPE, waardoor extrapolatie naar 16x langere visuele contexten mogelijk wordt. Daarnaast stellen we langetermijn kortetermijn contextmodellering voor, waarbij een hoge-resolutie kortetermijn contextvenster fijnmazige temporele consistentie waarborgt, terwijl een onbeperkt langetermijn contextvenster langetermijn informatie codeert met minder tokens. Met deze aanpak kunnen we trainen op lange videosequenties met een beheersbare tokencontextlengte. We demonstreren dat FAR state-of-the-art prestaties behaalt in zowel korte als lange videogeneratie, en biedt zo een eenvoudige maar effectieve basislijn voor autoregressieve videomodellering.
Het waarnemen van visuele details met hoge resolutie is cruciaal voor dagelijkse taken. Huidige visuele voorafgaande training is echter nog steeds beperkt tot lage resoluties (bijv. 378 x 378 pixels) vanwege de kwadratische kosten van het verwerken van grotere afbeeldingen. Wij introduceren PS3, dat CLIP-stijl visuele voorafgaande training opschaalt naar 4K-resolutie met een bijna constante kost. In plaats van contrastief leren op globale beeldrepresentatie, wordt PS3 vooraf getraind door selectief lokale regio's te verwerken en deze te contrasteren met gedetailleerde lokale bijschriften, waardoor het leren van representaties met hoge resolutie mogelijk wordt met sterk verminderde rekenkosten. Het vooraf getrainde PS3 kan zowel het globale beeld op lage resolutie coderen als selectief lokale regio's met hoge resolutie verwerken op basis van hun opvallendheid of relevantie voor een tekstprompt. Wanneer PS3 wordt toegepast op multi-modale LLM (MLLM), verbetert het resulterende model, genaamd VILA-HD, de visuele waarneming met hoge resolutie aanzienlijk in vergelijking met baseline-modellen zonder voorafgaande training op hoge resolutie, zoals AnyRes en S^2, terwijl het tot 4,3x minder tokens gebruikt. PS3 ontgrendelt ook aantrekkelijke schaaleigenschappen van VILA-HD, waaronder het gratis opschalen van de resolutie en het opschalen van de rekentijd tijdens tests voor betere prestaties. In vergelijking met de state-of-the-art presteert VILA-HD beter dan eerdere MLLM's zoals NVILA en Qwen2-VL op meerdere benchmarks en behaalt het een betere efficiëntie dan de nieuwste token-pruning benaderingen. Tot slot constateren we dat huidige benchmarks geen waarneming op 4K-resolutie vereisen, wat ons motiveert om 4KPro voor te stellen, een nieuwe benchmark voor beeldvragen op 4K-resolutie, waarop VILA-HD alle vorige MLLM's overtreft, inclusief een verbetering van 14,5% ten opzichte van GPT-4o, en een verbetering van 3,2% en een versnelling van 2,96x ten opzichte van Qwen2-VL.
Wij stellen een schaalbenadering tijdens inferentie voor voor vooraf getrainde flowmodellen. Recentelijk heeft schaling tijdens inferentie aanzienlijke aandacht gekregen in LLM's en diffusiemodellen, waarbij de kwaliteit van samples wordt verbeterd of uitvoeringen beter worden afgestemd op gebruikersvoorkeuren door extra rekenkracht te benutten. Voor diffusiemodellen heeft deeltjesbemonstering efficiëntere schaling mogelijk gemaakt vanwege de stochastiek bij tussenliggende denoisingsstappen. Daarentegen, hoewel flowmodellen populair zijn geworden als alternatief voor diffusiemodellen—vanwege snellere generatie en hoogwaardige uitvoeringen in state-of-the-art beeld- en videogeneratieve modellen—kunnen efficiënte schalingsmethoden tijdens inferentie die voor diffusiemodellen worden gebruikt, niet direct worden toegepast vanwege hun deterministische generatieproces. Om efficiënte schaling tijdens inferentie voor flowmodellen mogelijk te maken, stellen wij drie kernideeën voor: 1) SDE-gebaseerde generatie, waardoor deeltjesbemonstering in flowmodellen mogelijk wordt, 2) Interpolantconversie, die de zoekruimte verbreedt en de diversiteit van samples vergroot, en 3) Rollover Budget Forcing (RBF), een adaptieve toewijzing van rekenbronnen over tijdstappen om het budgetgebruik te maximaliseren. Onze experimenten tonen aan dat SDE-gebaseerde generatie, met name variantiebehoudende (VP) interpolant-gebaseerde generatie, de prestaties van deeltjesbemonsteringsmethoden voor schaling tijdens inferentie in flowmodellen verbetert. Daarnaast laten wij zien dat RBF met VP-SDE de beste prestaties behaalt, en daarmee alle eerdere schalingsbenaderingen tijdens inferentie overtreft.
De hallucinatie van grote multimodale modellen (LMMs), waarbij ze antwoorden geven die correct lijken maar feitelijk onjuist zijn, beperkt hun betrouwbaarheid en toepasbaarheid. Dit artikel heeft als doel het hallucinatieprobleem van LMMs in de videomodaliteit te bestuderen, wat dynamisch en uitdagender is in vergelijking met statische modaliteiten zoals afbeeldingen en tekst. Vanuit deze motivatie presenteren we eerst een uitgebreide benchmark genaamd HAVEN voor het evalueren van hallucinaties van LMMs in videobegriptaken. Deze is gebouwd op drie dimensies, namelijk hallucinatieoorzaken, hallucinatieaspecten en vraagformaten, wat resulteert in 6K vragen. Vervolgens bestuderen we kwantitatief 7 invloedrijke factoren op hallucinaties, zoals de duur van video's, modelgroottes en modelredenering, via experimenten met 16 LMMs op de gepresenteerde benchmark. Daarnaast, geïnspireerd door recente denkmodellen zoals OpenAI o1, stellen we een video-denkmodel voor om de hallucinaties van LMMs te verminderen via supervised reasoning fine-tuning (SRFT) en direct preference optimization (TDPO) – waarbij SRFT de redeneervaardigheden verbetert en TDPO hallucinaties in het denkproces vermindert. Uitgebreide experimenten en analyses tonen de effectiviteit aan. Opmerkelijk is dat het de baseline met 7,65% in nauwkeurigheid verbetert bij de evaluatie van hallucinaties en de bias-score met 4,5% verlaagt. De code en data zijn openbaar beschikbaar op https://github.com/Hongcheng-Gao/HAVEN.
Voorgetrainde Vision Foundation Models (VFMs) bieden sterke visuele representaties voor een breed scala aan toepassingen. In dit artikel trainen we bestaande VFMs voortdurend opnieuw op een multimodale manier, zodat ze moeiteloos visuele invoer van verschillende groottes kunnen verwerken en visuele representaties kunnen produceren die beter zijn afgestemd op taalrepresentaties, ongeacht hun oorspronkelijke voorafgaande trainingsproces. Hiertoe introduceren we CoMP, een zorgvuldig ontworpen multimodale voorafgaande trainingspijplijn. CoMP gebruikt een Continual Rotary Position Embedding om native resolutie voortdurende voorafgaande training te ondersteunen, en een Alignment Loss tussen visuele en tekstuele kenmerken via taalprototypes om multimodale representaties af te stemmen. Door middel van een driedelige training behalen onze VFMs opmerkelijke verbeteringen, niet alleen in multimodaal begrip maar ook in andere downstream taken zoals classificatie en segmentatie. Opmerkelijk is dat CoMP-SigLIP scores van 66,7 op ChartQA en 75,9 op DocVQA behaalt met een 0,5B LLM, terwijl het een nauwkeurigheid van 87,4% op ImageNet-1K en een 49,5 mIoU op ADE20K behoudt onder bevroren chunk evaluatie.
Recente vooruitgang in grote taalmodellen (LLM's), zoals OpenAI-o1 en DeepSeek-R1, heeft de effectiviteit van test-time scaling aangetoond, waarbij uitgebreide redeneerprocessen de modelprestaties aanzienlijk verbeteren. Desondanks worden huidige modellen beperkt door tekortkomingen in het verwerken van lange teksten en de efficiëntie van reinforcement learning (RL)-training. Om deze problemen aan te pakken, stellen we een eenvoudige maar effectieve test-time scaling benadering voor: Multi-round Thinking. Deze methode verfijnt het redeneren van het model iteratief door eerdere antwoorden te gebruiken als prompts voor volgende rondes. Uitgebreide experimenten met meerdere modellen, waaronder QwQ-32B en DeepSeek-R1, laten consistent prestatieverbeteringen zien op verschillende benchmarks zoals AIME 2024, MATH-500, GPQA-diamond en LiveCodeBench. Zo verbeterde de nauwkeurigheid van QwQ-32B van 80,3% (Ronde 1) naar 82,1% (Ronde 2) op de AIME 2024 dataset, terwijl DeepSeek-R1 een vergelijkbare stijging liet zien van 79,7% naar 82,0%. Deze resultaten bevestigen dat Multi-round Thinking een breed toepasbare, eenvoudige benadering is om stabiele verbeteringen in modelprestaties te bereiken, wat het potentieel ervan voor toekomstige ontwikkelingen in test-time scaling technieken onderstreept. De belangrijkste prompt: {Originele vraagprompt} Het vorige antwoord van de assistent is: <antwoord> {vorig ronde antwoord} </antwoord>, en beantwoord de vraag opnieuw.
Met de snelle vooruitgang van Artificial Intelligence Generated Content (AIGC)-technologieën zijn synthetische afbeeldingen steeds vaker voorkomend in het dagelijks leven, wat nieuwe uitdagingen met zich meebrengt voor authenticiteitsbeoordeling en detectie. Ondanks de effectiviteit van bestaande methoden voor het evalueren van beeldauthenticiteit en het lokaliseren van vervalsingen, ontbreekt het deze benaderingen vaak aan menselijke interpreteerbaarheid en gaan ze niet volledig in op de toenemende complexiteit van synthetische data. Om deze uitdagingen aan te pakken, introduceren we FakeVLM, een gespecialiseerd groot multimodaal model ontworpen voor zowel algemene synthetische beelddetectie als DeepFake-detectietaken. FakeVLM blinkt niet alleen uit in het onderscheiden van echte en vervalste afbeeldingen, maar biedt ook duidelijke, natuurlijke taalverklaringen voor beeldartefacten, wat de interpreteerbaarheid vergroot. Daarnaast presenteren we FakeClue, een uitgebreide dataset met meer dan 100.000 afbeeldingen in zeven categorieën, geannoteerd met fijnmazige artefactaanwijzingen in natuurlijke taal. FakeVLM toont prestaties die vergelijkbaar zijn met expertmodellen, terwijl het de noodzaak voor aanvullende classificatoren elimineert, waardoor het een robuuste oplossing is voor synthetische datadetectie. Uitgebreide evaluaties over meerdere datasets bevestigen de superioriteit van FakeVLM in zowel authenticiteitsclassificatie als artefactverklaringstaken, waarmee een nieuwe standaard wordt gezet voor synthetische beelddetectie. De dataset en code zullen worden vrijgegeven op: https://github.com/opendatalab/FakeVLM.
Document Question Answering (DocQA) is een veelvoorkomende taak. Bestaande methoden die gebruikmaken van Large Language Models (LLMs), Large Vision Language Models (LVLMs) en Retrieval Augmented Generation (RAG) richten zich vaak op informatie uit één enkele modaliteit, waardoor ze tekstuele en visuele signalen niet effectief integreren. Deze benaderingen hebben moeite met complexe multimodale redenering, wat hun prestaties op echte documenten beperkt. Wij presenteren MDocAgent (A Multi-Modal Multi-Agent Framework for Document Understanding), een nieuw RAG- en multi-agent framework dat zowel tekst als afbeeldingen benut. Ons systeem maakt gebruik van vijf gespecialiseerde agents: een algemene agent, een kritische agent, een tekstagent, een beeldagent en een samenvattende agent. Deze agents werken samen aan multimodale contextretrieval, waarbij ze hun individuele inzichten combineren om een uitgebreider begrip van de inhoud van het document te bereiken. Deze collaboratieve aanpak stelt het systeem in staat om informatie uit zowel tekstuele als visuele componenten te synthetiseren, wat leidt tot een verbeterde nauwkeurigheid bij het beantwoorden van vragen. Voorlopige experimenten op vijf benchmarks zoals MMLongBench en LongDocURL tonen de effectiviteit van onze MDocAgent aan, met een gemiddelde verbetering van 12,1% ten opzichte van de huidige state-of-the-art methode. Dit werk draagt bij aan de ontwikkeling van robuustere en uitgebreidere DocQA-systemen die in staat zijn om de complexiteiten van echte documenten met rijke tekstuele en visuele informatie te verwerken. Onze data en code zijn beschikbaar op https://github.com/aiming-lab/MDocAgent.
Grote Taalmodellen (LLMs) hebben opmerkelijke vaardigheden getoond in redeneren, zoals geïllustreerd door het succes van OpenAI-o1 en DeepSeek-R1. Het integreren van redeneren met externe zoekprocessen blijft echter een uitdaging, vooral voor complexe meerstapsvragen die meerdere ophaalstappen vereisen. Wij stellen ReSearch voor, een nieuw framework dat LLMs traint om te Redeneren met Zoeken via reinforcement learning zonder gebruik te maken van gesuperviseerde data over redeneerstappen. Onze benadering behandelt zoekoperaties als integrale componenten van de redeneerketen, waarbij wanneer en hoe te zoeken wordt geleid door tekstgebaseerd denken, en zoekresultaten vervolgens verdere redenering beïnvloeden. We trainen ReSearch op Qwen2.5-7B(-Instruct) en Qwen2.5-32B(-Instruct) modellen en voeren uitgebreide experimenten uit. Ondanks dat ze slechts op één dataset zijn getraind, tonen onze modellen een sterke generaliseerbaarheid over verschillende benchmarks. Analyse onthult dat ReSearch van nature geavanceerde redeneervaardigheden zoals reflectie en zelfcorrectie oproept tijdens het reinforcement learning proces.
Composed Image Retrieval (CIR) is een complexe taak die gericht is op het ophalen van afbeeldingen op basis van een multimodale query. Typische trainingsgegevens bestaan uit tripletten die een referentieafbeelding, een tekstuele beschrijving van gewenste aanpassingen en de doelafbeelding bevatten, die kostbaar en tijdrovend zijn om te verkrijgen. De schaarste aan CIR-datasets heeft geleid tot zero-shot benaderingen die gebruikmaken van synthetische tripletten of vision-language modellen (VLMs) met veelvoorkomende, via het web verzamelde afbeelding-bijschrift-paren. Deze methoden hebben echter aanzienlijke beperkingen: synthetische tripletten lijden onder beperkte schaal, gebrek aan diversiteit en onnatuurlijke aanpassingsteksten, terwijl afbeelding-bijschrift-paren het leren van gezamenlijke embeddings van de multimodale query belemmeren door het ontbreken van tripletgegevens. Bovendien worstelen bestaande benaderingen met complexe en genuanceerde aanpassingsteksten die een geavanceerde fusie en begrip van visuele en taalmodaliteiten vereisen. Wij presenteren CoLLM, een alles-in-één framework dat deze beperkingen effectief aanpakt. Onze aanpak genereert tripletten on-the-fly uit afbeelding-bijschrift-paren, waardoor gesuperviseerde training mogelijk is zonder handmatige annotatie. We maken gebruik van Large Language Models (LLMs) om gezamenlijke embeddings van referentieafbeeldingen en aanpassingsteksten te genereren, wat een diepere multimodale fusie mogelijk maakt. Daarnaast introduceren we Multi-Text CIR (MTCIR), een grootschalige dataset bestaande uit 3,4 miljoen samples, en verfijnen we bestaande CIR-benchmarks (CIRR en Fashion-IQ) om de betrouwbaarheid van de evaluatie te verbeteren. Experimentele resultaten tonen aan dat CoLLM state-of-the-art prestaties behaalt op meerdere CIR-benchmarks en instellingen. MTCIR levert competitieve resultaten op, met een prestatieverbetering van tot wel 15%. Onze verfijnde benchmarks bieden betrouwbaardere evaluatiemetrics voor CIR-modellen, wat bijdraagt aan de vooruitgang van dit belangrijke vakgebied.
In dit artikel introduceren we LSRNA, een nieuw framework voor het genereren van afbeeldingen met een hogere resolutie (meer dan 1K) met behulp van diffusiemodellen door superresolutie direct in de latente ruimte toe te passen. Bestaande diffusiemodellen hebben moeite met het schalen voorbij hun trainingsresoluties, wat vaak leidt tot structurele vervormingen of inhoudsherhaling. Referentiegebaseerde methoden pakken deze problemen aan door een lage-resolutie referentie op te schalen om de generatie van hogere resoluties te begeleiden. Ze worden echter geconfronteerd met aanzienlijke uitdagingen: opschalen in de latente ruimte veroorzaakt vaak afwijkingen in het spruitstuk, wat de uitvoerkwaliteit vermindert. Aan de andere kant leidt opschalen in de RGB-ruimte vaak tot te veel uitgesmeerde resultaten. Om deze beperkingen te overwinnen, combineert LSRNA Latent Space Super-Resolution (LSR) voor spruitstukuitlijning en Region-wise Noise Addition (RNA) om hoogfrequente details te versterken. Onze uitgebreide experimenten tonen aan dat de integratie van LSRNA state-of-the-art referentiegebaseerde methoden overtreft op verschillende resoluties en metrieken, terwijl het de cruciale rol van opschalen in de latente ruimte aantoont bij het behouden van detail en scherpte. De code is beschikbaar op https://github.com/3587jjh/LSRNA.
Kennisontdekking en -verzameling zijn taken die veel intelligentie vereisen en traditioneel aanzienlijke menselijke inspanning vergen om hoogwaardige resultaten te garanderen. Recent onderzoek heeft multi-agent frameworks verkend voor het automatiseren van Wikipedia-stijl artikelgeneratie door informatie van het internet op te halen en te synthetiseren. Deze methoden richten zich echter voornamelijk op tekstuele generatie en negeren het belang van multimodale inhoud bij het vergroten van de informatiewaarde en betrokkenheid. In dit werk introduceren we WikiAutoGen, een nieuw systeem voor geautomatiseerde multimodale Wikipedia-stijl artikelgeneratie. In tegenstelling tot eerdere benaderingen, haalt en integreert WikiAutoGen relevante afbeeldingen naast tekst, waardoor zowel de diepte als de visuele aantrekkingskracht van de gegenereerde inhoud wordt verrijkt. Om de feitelijke nauwkeurigheid en volledigheid verder te verbeteren, stellen we een multi-perspectief zelfreflectiemechanisme voor, dat opgehaalde inhoud kritisch beoordeelt vanuit diverse gezichtspunten om betrouwbaarheid, breedte en samenhang te verbeteren. Daarnaast introduceren we WikiSeek, een benchmark bestaande uit Wikipedia-artikelen met onderwerpen die zowel tekstueel als visueel zijn gerepresenteerd, ontworpen om multimodale kennisgeneratie over uitdagendere onderwerpen te evalueren. Experimentele resultaten tonen aan dat WikiAutoGen eerdere methoden met 8%-29% overtreft op onze WikiSeek-benchmark, waardoor nauwkeurigere, samenhangendere en visueel verrijkte Wikipedia-stijl artikelen worden geproduceerd. We tonen enkele van onze gegenereerde voorbeelden op https://wikiautogen.github.io/.
Huidige videogeneratieve basis modellen richten zich voornamelijk op tekst-naar-video taken, wat beperkte controle biedt voor gedetailleerde videocontentcreatie. Hoewel adapter-gebaseerde benaderingen (bijvoorbeeld ControlNet) aanvullende controles mogelijk maken met minimale fine-tuning, ondervinden ze uitdagingen bij het integreren van meerdere voorwaarden, waaronder: takconflicten tussen onafhankelijk getrainde adapters, parameterredundantie die leidt tot verhoogde rekenkosten, en suboptimale prestaties in vergelijking met volledige fine-tuning. Om deze uitdagingen aan te pakken, introduceren we FullDiT, een uniform basis model voor videogeneratie dat naadloos meerdere voorwaarden integreert via uniforme volledige-attentie mechanismen. Door multi-task voorwaarden te combineren in een uniforme sequentiële representatie en gebruik te maken van het lange-context leervermogen van volledige zelf-attentie om conditiedynamiek vast te leggen, vermindert FullDiT parameteroverhead, voorkomt het conditieconflicten, en toont het schaalbaarheid en emergent vermogen. We introduceren verder FullBench voor multi-task videogeneratie evaluatie. Experimenten tonen aan dat FullDiT state-of-the-art resultaten behaalt, wat de effectiviteit van volledige-attentie in complexe multi-task videogeneratie benadrukt.
Het creëren van een fysieke digitale tweeling van een object uit de echte wereld heeft enorm potentieel in robotica, contentcreatie en XR. In dit artikel presenteren we PhysTwin, een nieuw framework dat gebruikmaakt van spaarzame video's van dynamische objecten onder interactie om een foto- en fysiek realistische, real-time interactieve virtuele replica te produceren. Onze aanpak draait om twee belangrijke componenten: (1) een fysica-geïnformeerde representatie die veer-massa modellen combineert voor realistische fysieke simulatie, generatieve vormmodellen voor geometrie, en Gaussische splats voor rendering; en (2) een nieuw, op optimalisatie gebaseerd inverse modeling framework in meerdere fasen dat complete geometrie reconstrueert, dichte fysieke eigenschappen afleidt, en een realistische weergave repliceert vanuit video's. Onze methode integreert een inverse fysica framework met visuele perceptie-aanwijzingen, waardoor hoogwaardige reconstructie mogelijk is, zelfs vanuit gedeeltelijke, verborgen en beperkte gezichtspunten. PhysTwin ondersteunt het modelleren van verschillende vervormbare objecten, waaronder touwen, knuffeldieren, stof en bezorgpakketten. Experimenten tonen aan dat PhysTwin concurrerende methoden overtreft in reconstructie, rendering, toekomstvoorspelling en simulatie onder nieuwe interacties. We demonstreren verder de toepassingen ervan in interactieve real-time simulatie en modelgebaseerde robotische bewegingsplanning.
Het genereren van hoogwaardige 360-graden weergaven van menselijke hoofden vanuit enkelvoudige afbeeldingen is essentieel voor het mogelijk maken van toegankelijke immersive telepresence-toepassingen en schaalbare gepersonaliseerde contentcreatie. Hoewel geavanceerde methoden voor het genereren van volledige hoofden beperkt zijn tot het modelleren van realistische menselijke hoofden, kunnen de nieuwste op diffusie gebaseerde benaderingen voor stijl-omnisciënte hoofdsynthese alleen frontale weergaven produceren en worstelen ze met consistentie tussen verschillende gezichtspunten, wat hun conversie naar echte 3D-modellen voor rendering vanuit willekeurige hoeken verhindert. Wij introduceren een nieuwe aanpak die volledig consistente 360-graden hoofdzichten genereert, geschikt voor menselijke, gestileerde en antropomorfe vormen, inclusief accessoires zoals brillen en hoeden. Onze methode bouwt voort op het DiffPortrait3D-framework, waarbij een aangepaste ControlNet wordt geïntegreerd voor het genereren van details aan de achterkant van het hoofd en een duale uiterlijkmodule om globale consistentie tussen voor- en achterkant te waarborgen. Door te trainen op continue gezichtsvolgordes en een referentiebeeld van de achterkant te integreren, bereikt onze aanpak een robuuste, lokaal continue synthese van gezichtspunten. Ons model kan worden gebruikt om hoogwaardige neurale stralingsvelden (NeRFs) te produceren voor real-time, vrijstandpunt-rendering, en overtreft state-of-the-art methoden in object-synthese en 360-graden hoofdsynthese voor zeer uitdagende portretinvoer.
Het genereren van scènes met 3D-assets vormt een complexe uitdaging, waarvoor zowel een hoog niveau van semantisch begrip als een laag niveau van geometrisch redeneren vereist is. Hoewel Multimodale Large Language Models (MLLMs) uitblinken in semantische taken, wordt hun toepassing op 3D-scènegeneratie belemmerd door hun beperkte verankering in 3D-geometrie. In dit artikel onderzoeken we hoe MLLMs het beste kunnen worden ingezet bij een objectplaatsingstaak. Met dit doel introduceren we een nieuw raamwerk, FirePlace, dat bestaande MLLMs toepast in (1) 3D-geometrisch redeneren en het extraheren van relevante geometrische details uit de 3D-scène, (2) het opstellen en oplossen van geometrische beperkingen op de geëxtraheerde laagniveau-geometrie, en (3) het selecteren van uiteindelijke plaatsingen die voldoen aan gezond verstand. Door geometrisch redeneren te combineren met het realistische begrip van MLLMs, kan onze methode objectplaatsingen voorstellen die zowel aan geometrische beperkingen als aan hoog niveau semantische overwegingen van gezond verstand voldoen. Onze experimenten tonen aan dat deze mogelijkheden onze methode in staat stellen om objecten effectiever te plaatsen in complexe scènes met ingewikkelde geometrie, waardoor de kwaliteit van eerder werk wordt overtroffen.
Fine-tuning maakt het mogelijk voor grote taalmodellen (LLMs) om zich aan te passen aan specifieke domeinen, maar ondermijnt vaak hun eerder vastgestelde veiligheidsuitlijning. Om de achteruitgang van modelveiligheid tijdens fine-tuning te beperken, introduceren we LookAhead Tuning, dat bestaat uit twee eenvoudige, resourcezuinige en effectieve data-gedreven methoden die trainingsdata aanpassen door gedeeltelijke antwoordvoorvoegsels te bekijken. Beide methoden zijn gericht op het behoud van de inherente veiligheidsmechanismen van het model door verstoringen van de initiële tokenverdelingen te minimaliseren. Uitgebreide experimenten tonen aan dat LookAhead Tuning effectief de modelveiligheid behoudt zonder in te leveren op robuuste prestaties bij downstream taken. Onze bevindingen positioneren LookAhead Tuning als een betrouwbare en efficiënte oplossing voor de veilige en effectieve aanpassing van LLMs. Code is vrijgegeven op https://github.com/zjunlp/LookAheadTuning.
Flow matching in het continue simplex is naar voren gekomen als een veelbelovende strategie voor DNA-sequentieontwerp, maar heeft moeite om op te schalen naar hogere simplexdimensies die nodig zijn voor peptide- en proteïnegeneratie. We introduceren Gumbel-Softmax Flow en Score Matching, een generatief framework op het simplex gebaseerd op een nieuwe Gumbel-Softmax-interpolant met een tijdsafhankelijke temperatuur. Met behulp van deze interpolant introduceren we Gumbel-Softmax Flow Matching door een geparametriseerd snelheidsveld af te leiden dat transporteert van gladde categorische verdelingen naar verdelingen geconcentreerd op een enkel hoekpunt van het simplex. We presenteren alternatief Gumbel-Softmax Score Matching, dat leert om de gradiënt van de waarschijnlijkheidsdichtheid te regresseren. Ons framework maakt hoogwaardige, diverse generatie mogelijk en schaalt efficiënt naar hoger-dimensionale simplices. Om training-vrije begeleiding mogelijk te maken, stellen we Straight-Through Guided Flows (STGFlow) voor, een classifier-gebaseerde begeleidingsmethode die straight-through estimators benut om het onvoorwaardelijke snelheidsveld te sturen naar optimale hoekpunten van het simplex. STGFlow maakt efficiënte inferentie-tijdbegeleiding mogelijk met classifiers die vooraf zijn getraind op schone sequenties, en kan worden gebruikt met elke discrete flow-methode. Samen vormen deze componenten een robuust framework voor controleerbare de novo-sequentiegeneratie. We demonstreren state-of-the-art prestaties in conditioneel DNA-promoterontwerp, sequentie-alleen proteïnegeneratie en doelbindend peptideontwerp voor de behandeling van zeldzame ziekten.
Moderne LLM's hebben moeite met efficiënte updates, aangezien elke nieuwe versie van een voorgetraind model het herhalen van kostbare afstemmingsprocessen vereist. Deze uitdaging geldt ook voor domein- of taalgespecificeerde modellen, waarbij fine-tuning op gespecialiseerde data opnieuw moet worden uitgevoerd voor elke nieuwe release van een basismodel. In dit artikel onderzoeken we de overdracht van fine-tuning-updates tussen modelversies. Specifiek leiden we de diff-vector af van één bronmodelversie, die de gewichtsveranderingen van fine-tuning vertegenwoordigt, en passen deze toe op het basismodel van een andere doelversie. Door empirische evaluaties op verschillende open-weight modelversies tonen we aan dat het overdragen van diff-vectors het doelbasismodel aanzienlijk kan verbeteren, vaak met prestaties die vergelijkbaar zijn met de fine-tuned tegenhanger. Zo leidt het hergebruik van de fine-tuning-updates van Llama 3.0 8B tot een absolute nauwkeurigheidsverbetering van 10,7% op GPQA ten opzichte van het basis Llama 3.1 8B zonder aanvullende training, wat Llama 3.1 8B Instruct overtreft. In een meertalige modelontwikkelingsomgeving laten we zien dat deze aanpak de prestaties op taalspecifieke taken aanzienlijk kan verbeteren zonder hertraining, met een absolute verbetering van 4,7% en 15,5% op Global MMLU voor respectievelijk Malagasy en Turks, vergeleken met Llama 3.1 8B Instruct. Onze gecontroleerde experimenten onthullen dat fine-tuning-overdracht het meest effectief is wanneer de bron- en doelmodellen lineair verbonden zijn in de parameterruimte. Daarnaast demonstreren we dat fine-tuning-overdracht een sterker en computationeel efficiënter uitgangspunt biedt voor verdere fine-tuning. Tot slot stellen we een iteratieve aanpak voor van recyclen en vervolgens fine-tuning voor continue modelontwikkeling, wat zowel de efficiëntie als de effectiviteit verbetert. Onze bevindingen suggereren dat fine-tuning-overdracht een haalbare strategie is om trainingskosten te verlagen terwijl de modelprestaties behouden blijven.
We presenteren een nieuwe methode voor het reconstrueren van gepersonaliseerde 3D-menselijke avatars met realistische animatie op basis van slechts enkele afbeeldingen. Vanwege de grote variaties in lichaamsvormen, houdingen en kledingtypes vereisen bestaande methoden meestal uren aan optimalisatie per proefpersoon tijdens inferentie, wat hun praktische toepassingen beperkt. In tegenstelling hiermee leren wij een universele prior van meer dan duizend geklede mensen om directe feedforward-generatie en zero-shot generalisatie te bereiken. Specifiek, in plaats van de avatar uit te rusten met gedeelde skinning-gewichten, leiden we gezamenlijk de gepersonaliseerde avatar-vorm, skinning-gewichten en pose-afhankelijke vervormingen af, wat de algehele geometrische nauwkeurigheid effectief verbetert en vervormingsartefacten vermindert. Bovendien ontwerpen we, om pose-variaties te normaliseren en de gekoppelde ambiguïteit tussen canonieke vormen en skinning-gewichten op te lossen, een 3D-canonicalisatieproces om pixel-uitgelijnde initiële condities te produceren, wat helpt bij het reconstrueren van fijnmazige geometrische details. Vervolgens stellen we een multi-frame feature-aggregatie voor om artefacten die tijdens de canonicalisatie zijn geïntroduceerd robuust te verminderen en een geloofwaardige avatar te fuseren die persoonsspecifieke identiteiten behoudt. Ten slotte trainen we het model in een end-to-end framework op een grootschalige capture-dataset, die diverse menselijke proefpersonen bevat die zijn gekoppeld aan hoogwaardige 3D-scans. Uitgebreide experimenten tonen aan dat onze methode authentiekere reconstructie en animatie genereert dan state-of-the-art methoden, en kan worden gegeneraliseerd naar invoer van casual genomen telefoonfoto's. De projectpagina en code zijn beschikbaar op https://github.com/rongakowang/FRESA.
Grote Taalmodellen (LLMs) met lange contextvensters maken krachtige toepassingen mogelijk, maar gaan gepaard met een hoge geheugenconsumptie om de Key- en Value-statussen (KV-Cache) op te slaan. Recente studies hebben geprobeerd de KV-cache van meerdere lagen samen te voegen tot gedeelde representaties, maar deze benaderingen vereisen ofwel kostbare voorafgaande training of zijn gebaseerd op aannames van hoge cosinusgelijkenis per token over lagen heen, wat in de praktijk over het algemeen niet het geval is. Wij ontdekken dat de dominante singuliere vectoren opmerkelijk goed uitgelijnd zijn over meerdere lagen van de KV-Cache. Gebruikmakend van dit inzicht, stellen we xKV voor, een eenvoudige post-trainingsmethode die Singular Value Decomposition (SVD) toepast op de KV-cache van gegroepeerde lagen. xKV consolideert de KV-cache van meerdere lagen tot een gedeelde laag-rangruimte, waardoor de grootte van de KV-cache aanzienlijk wordt verminderd. Door uitgebreide evaluaties op de RULER lange-context benchmark met veelgebruikte LLMs (bijv. Llama-3.1 en Qwen2.5), bereikt xKV tot 6,8x hogere compressiepercentages dan de state-of-the-art inter-layer techniek, terwijl de nauwkeurigheid met 2,7% wordt verbeterd. Bovendien is xKV compatibel met de opkomende Multi-Head Latent Attention (MLA) (bijv. DeepSeek-Coder-V2), wat een opmerkelijke 3x compressiepercentages oplevert bij coderings taken zonder prestatieverlies. Deze resultaten benadrukken de sterke capaciteit en veelzijdigheid van xKV bij het aanpakken van geheugenknelpunten voor lange-context LLM-inferentie. Onze code is publiekelijk beschikbaar op: https://github.com/abdelfattah-lab/xKV.
Het detecteren en volgen van meerdere onbemande luchtvaartuigen (UAV's) in thermische infraroodvideo's is van nature uitdagend vanwege het lage contrast, omgevingsruis en de kleine doelgroottes. Dit artikel biedt een eenvoudige aanpak om het volgen van meerdere UAV's in thermische infraroodvideo's aan te pakken, waarbij gebruik wordt gemaakt van recente vooruitgang in detectie en tracking. In plaats van te vertrouwen op de YOLOv5 met de DeepSORT-pipeline, presenteren we een trackingframework gebouwd op YOLOv12 en BoT-SORT, versterkt met op maat gemaakte trainings- en inferentiestrategieën. We evalueren onze aanpak aan de hand van de metrieken van de 4e Anti-UAV Challenge en laten competitieve prestaties zien. Opmerkelijk is dat we sterke resultaten behalen zonder gebruik te maken van contrastverbetering of tijdelijke informatie-fusie om UAV-kenmerken te verrijken, wat onze aanpak benadrukt als een "Sterke Basis" voor de taak van het volgen van meerdere UAV's. We bieden implementatiedetails, diepgaande experimentele analyse en een discussie over mogelijke verbeteringen. De code is beschikbaar op https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
Belichaamde besluitvorming is fundamenteel voor AI-agenten die opereren in realistische omgevingen. Hoewel Visuele Taalmodellen (VLMs) deze capaciteit hebben verbeterd, worstelen ze nog steeds met complexe beslissingen, met name in mensgerichte situaties die diepgaand redeneren over menselijke behoeften en waarden vereisen. In deze studie evalueren we systematisch open-source VLMs op multimodale, mensgerichte besluitvormingstaken. We ontdekken dat taalmodelvarianten (LLMs) die alleen tekstuele beschrijvingen ontvangen, onverwacht beter presteren dan hun VLM-tegenhangers van vergelijkbare omvang die daadwerkelijke afbeeldingen verwerken, wat suggereert dat visuele uitlijning de mogelijkheden van VLMs kan belemmeren. Om deze uitdaging aan te pakken, stellen we een nieuwe tekstgerichte trainingsmethode voor met gesynthetiseerde tekstuele data. Deze methode versterkt de taalcomponenten van VLMs en draagt de geleerde vaardigheden over naar multimodale inferentie, waardoor de noodzaak voor dure beeld-tekstgepaarde data wordt geëlimineerd. Bovendien tonen we aan dat VLMs aanzienlijke prestatieverbeteringen kunnen bereiken door zelfverbetering, waarbij ze trainingsdata gebruiken die gegenereerd is door hun LLM-tegenhangers in plaats van te vertrouwen op grotere leraarmodellen zoals GPT-4. Onze bevindingen leggen een efficiëntere en schaalbare benadering vast voor het verbeteren van de mensgerichte besluitvormingscapaciteiten van VLMs, wat nieuwe mogelijkheden opent voor het optimaliseren van VLMs via zelfverbeteringsmechanismen.
Vooruitgang in fundamentele modellen voor aardobservatie (EO) heeft het potentieel van grote satellietdatasets ontsloten om generieke representaties vanuit de ruimte te leren, wat ten goede komt aan een breed scala aan downstreamtoepassingen die cruciaal zijn voor onze planeet. De meeste bestaande inspanningen blijven echter beperkt tot vaste spectrale sensoren, richten zich uitsluitend op het aardoppervlak en negeren waardevolle metadata buiten beeldmateriaal. In dit werk zetten we een stap richting volgende-generatie EO-fundamentele modellen met drie belangrijke componenten: 1) Copernicus-Pretrain, een grootschalige pretrainingsdataset die 18,7 miljoen uitgelijnde afbeeldingen integreert van alle belangrijke Copernicus Sentinel-missies, variërend van het aardoppervlak tot de atmosfeer; 2) Copernicus-FM, een geïntegreerd fundamenteel model dat in staat is om elke spectrale of niet-spectrale sensormodaliteit te verwerken met behulp van uitgebreide dynamische hypernetwerken en flexibele metadata-codering; en 3) Copernicus-Bench, een systematische evaluatiebenchmark met 15 hiërarchische downstreamtaken, variërend van preprocessing tot gespecialiseerde toepassingen voor elke Sentinel-missie. Onze dataset, model en benchmark verbeteren aanzienlijk de schaalbaarheid, veelzijdigheid en multimodale aanpasbaarheid van EO-fundamentele modellen, terwijl ze ook nieuwe mogelijkheden creëren om aardobservatie, weer- en klimaatonderzoek met elkaar te verbinden. Codes, datasets en modellen zijn beschikbaar op https://github.com/zhu-xlab/Copernicus-FM.
Het begrijpen van menselijk gedrag vereist het meten van gedragsacties. Vanwege de complexiteit ervan, wordt gedrag het best in kaart gebracht op een rijke, semantische structuur zoals taal. De recente ontwikkeling van multi-modale grote taalmodellen (MLLMs) is een veelbelovende kandidaat voor een breed scala aan taken op het gebied van actiebegrip. In dit werk richten we ons op het evalueren en vervolgens verbeteren van MLLMs om actieherkenning uit te voeren. We herformuleren EPIC-KITCHENS-100, een van de grootste en meest uitdagende egocentrische actiedatasets, naar de vorm van video multiple question answering (EPIC-KITCHENS-100-MQA). We laten zien dat wanneer we moeilijke incorrecte antwoorden als afleiders selecteren, toonaangevende MLLMs moeite hebben om de juiste acties te herkennen. We stellen een reeks methoden voor die het vermogen van MLLMs om actieherkenning uit te voeren aanzienlijk verbeteren, wat resulteert in state-of-the-art prestaties op zowel de EPIC-KITCHENS-100 validatieset, als het overtreffen van GPT-4o met 21 punten in nauwkeurigheid op EPIC-KITCHENS-100-MQA. Tot slot laten we verbeteringen zien op andere actiegerelateerde videobenchmarks zoals EgoSchema, PerceptionTest, LongVideoBench, VideoMME en MVBench, wat suggereert dat MLLMs een veelbelovende weg voorwaarts zijn voor complexe actietaken. Code en modellen zijn beschikbaar op: https://github.com/AdaptiveMotorControlLab/LLaVAction.
We introduceren Any6D, een modelvrij raamwerk voor 6D objectpose-estimatie dat slechts één RGB-D ankerafbeelding nodig heeft om zowel de 6D pose als de grootte van onbekende objecten in nieuwe scènes te schatten. In tegenstelling tot bestaande methoden die afhankelijk zijn van textuurrijke 3D-modellen of meerdere gezichtspunten, maakt Any6D gebruik van een gezamenlijk objectuitlijningsproces om de 2D-3D-uitlijning en metrische schaalschatting te verbeteren voor een hogere pose-nauwkeurigheid. Onze aanpak integreert een render-en-vergelijk strategie om pose-hypothesen te genereren en te verfijnen, wat robuuste prestaties mogelijk maakt in scenario's met occlusies, niet-overlappende views, diverse lichtomstandigheden en grote variaties tussen omgevingen. We evalueren onze methode op vijf uitdagende datasets: REAL275, Toyota-Light, HO3D, YCBINEOAT en LM-O, en tonen aan dat deze aanzienlijk beter presteert dan state-of-the-art methoden voor pose-estimatie van nieuwe objecten. Projectpagina: https://taeyeop.com/any6d
Vision-language modellen (VLMs) tonen veelbelovende mogelijkheden voor 3D-scènebegrip, maar worden voornamelijk toegepast in binnenruimtes of autonoom rijden, met een focus op laag-niveau taken zoals segmentatie. Dit werk breidt hun toepassing uit naar stedelijke omgevingen door gebruik te maken van 3D-reconstructies op basis van multi-view luchtfoto's. Wij introduceren OpenCity3D, een benadering die zich richt op hoog-niveau taken, zoals schatting van bevolkingsdichtheid, classificatie van gebouwen op leeftijd, voorspelling van vastgoedprijzen, inschatting van criminaliteitscijfers en evaluatie van geluidsoverlast. Onze bevindingen benadrukken de indrukwekkende zero-shot en few-shot mogelijkheden van OpenCity3D, wat de aanpassingsvermogen aan nieuwe contexten aantoont. Dit onderzoek vestigt een nieuw paradigma voor taalgestuurde stedelijke analyses, wat toepassingen mogelijk maakt in planning, beleid en milieumonitoring. Bezoek onze projectpagina: opencity3d.github.io
AI-modellen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt in hun vermogen om real-world afbeeldingen te beschrijven en vragen daarover te beantwoorden. Ze hebben ook vooruitgang geboekt in het vermogen om in real-time met gebruikers te converseren via audio-invoer. Dit roept de vraag op: zijn we op het punt aangekomen waar AI-modellen, verbonden met een camera en microfoon, in real-time kunnen converseren met gebruikers over scènes en gebeurtenissen die live voor de camera plaatsvinden? Dit is een langetermijndoel in AI en een voorwaarde voor real-world AI-assistenten en humanoïde robots om in alledaagse situaties met mensen te interacteren. In dit werk introduceren we een nieuwe dataset en benchmark, het Qualcomm Interactive Video Dataset (IVD), waarmee we kunnen beoordelen in hoeverre bestaande modellen deze vaardigheden kunnen ondersteunen, en in welke mate deze capaciteiten kunnen worden aangeleerd via fine-tuning. De dataset is gebaseerd op een eenvoudige vraag-antwoordopzet, waarbij gebruikers vragen stellen die het systeem in real-time moet beantwoorden op basis van de camera- en audio-invoer. We laten zien dat bestaande modellen ver achterblijven bij menselijke prestaties bij deze taak, en we identificeren de belangrijkste bronnen van deze prestatiekloof. Echter, we tonen ook aan dat voor veel van de vereiste perceptuele vaardigheden fine-tuning op dit type data deze kloof aanzienlijk kan verkleinen.
Het gebruik van grote leraarmodellen om de training van kleinere studentmodellen te begeleiden, is het heersende paradigma geworden voor efficiënt en effectief leren. Vocabulairmismatches tussen leraar- en studenttaalmodellen vormen echter aanzienlijke uitdagingen in taalmodellering, wat leidt tot uiteenlopende tokenreeksen en uitvoerverdelingen. Om deze beperkingen te overwinnen, stellen we Vocabulary-agnostic Teacher Guided Language Modeling (VocAgnoLM) voor, een nieuwe aanpak die de kloof veroorzaakt door vocabulairmismatch overbrugt via twee sleutelmethoden: (1) Token-level Lexical Alignment, dat tokenreeksen uitlijnt over mismatchende vocabulaires, en (2) Teacher Guided Loss, dat het verlies van het leraarmodel benut om effectieve studenttraining te begeleiden. We demonstreren de effectiviteit ervan in taalmodellering met een 1B studentmodel met behulp van verschillende 7B leraarmodellen met uiteenlopende vocabulaires. Opmerkelijk is dat met Qwen2.5-Math-Instruct, een leraarmodel dat slechts ongeveer 6% van zijn vocabulaire deelt met TinyLlama, VocAgnoLM een prestatieverbetering van 46% bereikt in vergelijking met naïeve voortgezette pretraining. Bovendien tonen we aan dat VocAgnoLM consistent profiteert van sterkere leraarmodellen, wat een robuuste oplossing biedt voor vocabulairmismatches in taalmodellering.
Hoewel Dynamische Convolutie (DY-Conv) veelbelovende prestaties heeft getoond door adaptieve gewichtsselectie mogelijk te maken via meerdere parallelle gewichten gecombineerd met een aandachtmechanisme, vertoont de frequentierespons van deze gewichten vaak een hoge gelijkenis, wat resulteert in hoge parameterkosten maar beperkte aanpasbaarheid. In dit werk introduceren we Frequentie Dynamische Convolutie (FDConv), een nieuwe aanpak die deze beperkingen vermindert door een vast parameterbudget te leren in het Fourier-domein. FDConv verdeelt dit budget in frequentiegebaseerde groepen met disjuncte Fourier-indices, waardoor de constructie van frequentie-diverse gewichten mogelijk wordt zonder de parameterkosten te verhogen. Om de aanpasbaarheid verder te verbeteren, stellen we Kernel Spatial Modulation (KSM) en Frequency Band Modulation (FBM) voor. KSM past de frequentierespons van elk filter dynamisch aan op het ruimtelijke niveau, terwijl FBM gewichten ontbindt in verschillende frequentiebanden in het frequentiedomein en deze dynamisch moduleert op basis van lokale inhoud. Uitgebreide experimenten op objectdetectie, segmentatie en classificatie valideren de effectiviteit van FDConv. We tonen aan dat FDConv, wanneer toegepast op ResNet-50, superieure prestaties bereikt met een bescheiden toename van +3,6M parameters, en daarmee eerdere methoden overtreft die aanzienlijke verhogingen in parameterbudgetten vereisen (bijv. CondConv +90M, KW +76,5M). Bovendien integreert FDConv naadloos in een verscheidenheid aan architecturen, waaronder ConvNeXt en Swin-Transformer, en biedt zo een flexibele en efficiënte oplossing voor moderne visietaken. De code is publiekelijk beschikbaar op https://github.com/Linwei-Chen/FDConv.
Wij stellen een trainingsvrije methode voor voor open-vocabulary semantische segmentatie met behulp van Vision-and-Language Models (VLMs). Onze aanpak verbetert de initiële per-patch voorspellingen van VLMs door middel van labelpropagatie, waarbij voorspellingen gezamenlijk worden geoptimaliseerd door patch-naar-patch relaties te incorporeren. Aangezien VLMs primair zijn geoptimaliseerd voor cross-modale uitlijning en niet voor intra-modale gelijkenis, gebruiken wij een Vision Model (VM) waarvan is geobserveerd dat het deze relaties beter vastlegt. Wij pakken de resolutiebeperkingen aan die inherent zijn aan patch-gebaseerde encoders door labelpropagatie op pixelniveau toe te passen als een verfijningsstap, wat de segmentatienauwkeurigheid nabij klassegrenzen aanzienlijk verbetert. Onze methode, genaamd LPOSS+, voert inferentie uit over de gehele afbeelding, waardoor window-gebaseerde verwerking wordt vermeden en contextuele interacties over de volledige afbeelding worden vastgelegd. LPOSS+ behaalt state-of-the-art prestaties onder trainingsvrije methoden, over een diverse set van datasets. Code: https://github.com/vladan-stojnic/LPOSS
Spatio-temporeel redeneren is essentieel voor het begrijpen van real-world omgevingen in verschillende domeinen, zoals autonoom rijden en sportanalyses. Recente vooruitgang heeft het ruimtelijk redeneervermogen van Vision-Language Models (VLMs) verbeterd door de introductie van grootschalige data, maar deze modellen hebben nog steeds moeite met het analyseren van kinematische elementen zoals afgelegde afstand en snelheid van bewegende objecten. Om deze kloof te overbruggen, construeren we een spatio-temporeel redeneerdataset en benchmark met kinematische instructieafstemming, genaamd STKit en STKit-Bench. Deze bestaan uit real-world video's met 3D annotaties, die de bewegingsdynamiek van objecten detailleren: afgelegde afstand, snelheid, bewegingsrichting, afstandsvergelijkingen tussen objecten, en relatieve bewegingsrichting. Om de constructie van dergelijke data verder op te schalen naar video's zonder 3D labels, stellen we een automatische pipeline voor om pseudo-labels te genereren met behulp van 4D reconstructie op real-world schaal. Met onze kinematische instructieafstemmingsdata voor spatio-temporeel redeneren, presenteren we ST-VLM, een VLM versterkt voor spatio-temporeel redeneren, dat uitstekende prestaties vertoont op STKit-Bench. Bovendien laten we zien dat ST-VLM robuust generaliseert over diverse domeinen en taken, en de baseline-modellen overtreft op andere spatio-temporele benchmarks (bijv. ActivityNet, TVQA+). Ten slotte maakt ST-VLM, door het geïntegreerde spatio-temporele redeneren te combineren met bestaande vaardigheden, complexe meerstapsredenering mogelijk. Projectpagina: https://ikodoh.github.io/ST-VLM.
Het begrijpen van de geometrische en semantische eigenschappen van de omgeving is cruciaal voor autonome navigatie en vormt een bijzondere uitdaging in het geval van navigatie met onbemande luchtvaartuigen (UAV's). Dergelijke informatie kan worden verkregen door het schatten van diepte- en semantische segmentatiekaarten van de omringende omgeving, en voor praktisch gebruik in autonome navigatie moet dit proces zo dicht mogelijk bij realtime worden uitgevoerd. In dit artikel maken we gebruik van monoculaire camera's op luchtrobots om diepte- en semantische kaarten te voorspellen in ongestructureerde omgevingen op lage hoogte. We stellen een gezamenlijke deep learning-architectuur voor die beide taken nauwkeurig en snel kan uitvoeren, en valideren de effectiviteit ervan op de benchmarkdatasets MidAir en Aeroscapes. Onze gezamenlijke architectuur blijkt concurrerend of superieur te zijn ten opzichte van andere methoden met enkele of gezamenlijke architectuur, terwijl deze snel werkt met een voorspellingssnelheid van 20,2 FPS op een enkele NVIDIA Quadro P5000 GPU en een laag geheugengebruik heeft. Alle codes voor training en voorspelling zijn te vinden op deze link: https://github.com/Malga-Vision/Co-SemDepth