Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren ComfyUI-Copilot, een plugin aangedreven door een groot taalmodel, ontworpen om de bruikbaarheid en efficiëntie van ComfyUI te verbeteren, een open-source platform voor AI-gestuurde kunstcreatie. Ondanks zijn flexibiliteit en gebruiksvriendelijke interface kan ComfyUI uitdagingen bieden voor nieuwkomers, waaronder beperkte documentatie, modelmisconfiguraties en de complexiteit van workflowontwerp. ComfyUI-Copilot adresseert deze uitdagingen door intelligente aanbevelingen voor nodes en modellen te bieden, samen met geautomatiseerde éénklik workflowconstructie. De kern van het systeem maakt gebruik van een hiërarchisch multi-agent framework, bestaande uit een centrale assistent-agent voor taakdelegatie en gespecialiseerde werknemer-agenten voor verschillende toepassingen, ondersteund door onze samengestelde ComfyUI-kennisbanken om debugging en implementatie te stroomlijnen. We valideren de effectiviteit van ComfyUI-Copilot door zowel offline kwantitatieve evaluaties als online gebruikersfeedback, waaruit blijkt dat het nauwkeurig nodes aanbeveelt en workflowontwikkeling versnelt. Daarnaast illustreren use cases dat ComfyUI-Copilot de instapdrempel voor beginners verlaagt en de workflowefficiëntie voor ervaren gebruikers verbetert. Het installatiepakket van ComfyUI-Copilot en een demovideo zijn beschikbaar op https://github.com/AIDC-AI/ComfyUI-Copilot.
In dit werk introduceren we de Qwen3 Embedding-serie, een aanzienlijke vooruitgang ten opzichte van zijn voorganger, de GTE-Qwen-serie, op het gebied van tekstembedding en herrangschikkingsmogelijkheden, gebouwd op de Qwen3-basismodellen. Door gebruik te maken van de robuuste capaciteiten van de Qwen3 LLM's in meertalig tekstbegrip en -generatie, combineert onze innovatieve meerfasige trainingspijplijn grootschalige onbewaakte voorafgaande training met bewaakte afstemming op hoogwaardige datasets. Effectieve modelfusiestrategieën zorgen verder voor de robuustheid en aanpasbaarheid van de Qwen3 Embedding-serie. Tijdens het trainingsproces dienen de Qwen3 LLM's niet alleen als ruggengraatmodellen, maar spelen ze ook een cruciale rol bij het synthetiseren van hoogwaardige, rijke en diverse trainingsgegevens over meerdere domeinen en talen, waardoor de trainingspijplijn wordt versterkt. De Qwen3 Embedding-serie biedt een scala aan modelgroottes (0.6B, 4B, 8B) voor zowel embedding- als herrangschikkings taken, waardoor diverse implementatiescenario's worden aangepakt waarbij gebruikers kunnen optimaliseren voor efficiëntie of effectiviteit. Empirische evaluaties tonen aan dat de Qwen3 Embedding-serie state-of-the-art resultaten behaalt op diverse benchmarks. Opmerkelijk is dat het uitblinkt op de meertalige evaluatiebenchmark MTEB voor tekstembedding, evenals in verschillende retrievalthandelingen, waaronder codeterugwinning, cross-linguale terugwinning en meertalige terugwinning. Om reproduceerbaarheid te vergemakkelijken en gemeenschapsgedreven onderzoek en ontwikkeling te bevorderen, zijn de Qwen3 Embedding-modellen openbaar beschikbaar onder de Apache 2.0-licentie.
Recente vooruitgang in diffusiegebaseerde videorestauratie (VR) toont aanzienlijke verbeteringen in visuele kwaliteit, maar resulteert in een onhoudbaar hoge rekencapaciteit tijdens inferentie. Hoewel verschillende destillatiegebaseerde benaderingen het potentieel van eenstapsbeeldrestauratie hebben aangetoond, blijft het uitbreiden van bestaande benaderingen naar VR uitdagend en onderbelicht, vooral bij het omgaan met hoogresolutievideo in realistische omgevingen. In dit werk stellen we een eenstaps diffusiegebaseerd VR-model voor, genaamd SeedVR2, dat adversariële VR-training uitvoert tegen echte data. Om de uitdagende hoogresolutie VR in één stap te behandelen, introduceren we verschillende verbeteringen in zowel modelarchitectuur als trainingsprocedures. Specifiek wordt een adaptief venster-attentiemechanisme voorgesteld, waarbij de venstergrootte dynamisch wordt aangepast aan de uitvoerresoluties, waardoor vensterinconsistentie wordt vermeden die wordt waargenomen bij hoogresolutie VR bij gebruik van venster-attentie met een vooraf gedefinieerde venstergrootte. Om de adversariële na-training voor VR te stabiliseren en te verbeteren, verifiëren we verder de effectiviteit van een reeks verliezen, inclusief een voorgesteld kenmerk-matchingverlies zonder de trainingsefficiëntie significant op te offeren. Uitgebreide experimenten tonen aan dat SeedVR2 vergelijkbare of zelfs betere prestaties kan bereiken in vergelijking met bestaande VR-benaderingen in één stap.
Opkomende wereldmodellen genereren autoregressief videobeelden als reactie op acties, zoals camerabewegingen en tekstprompts, naast andere besturingssignalen. Door beperkte tijdelijke contextvensterformaten hebben deze modellen vaak moeite om scèneconsistentie te behouden tijdens herbezoeken, wat leidt tot ernstig vergeten van eerder gegenereerde omgevingen. Geïnspireerd door de mechanismen van het menselijk geheugen introduceren we een nieuw raamwerk om de langetermijnconsistentie van videowereldmodellen te verbeteren door middel van een geometrie-gebaseerd langetermijnruimtelijk geheugen. Ons raamwerk omvat mechanismen om informatie op te slaan en op te halen uit het langetermijnruimtelijk geheugen, en we hebben aangepaste datasets samengesteld om wereldmodellen te trainen en te evalueren met expliciet opgeslagen 3D-geheugenmechanismen. Onze evaluaties tonen verbeterde kwaliteit, consistentie en contextlengte in vergelijking met relevante referentiemodellen, wat de weg vrijmaakt voor langetermijnconsistente wereldgeneratie.
Ruimtelijke verwijzing is een fundamentele vaardigheid van belichaamde robots om te interageren met de fysieke 3D-wereld. Echter, zelfs met de krachtige vooraf getrainde visuele taalmodellen (VLMs) zijn recente benaderingen nog niet in staat om complexe 3D-scènes nauwkeurig te begrijpen en dynamisch te redeneren over de locaties die in instructies worden aangegeven voor interactie. Daarom stellen we RoboRefer voor, een 3D-bewust VLM dat eerst precieze ruimtelijke begrip kan bereiken door een ontvlochten maar toegewijde diepte-encoder te integreren via supervised fine-tuning (SFT). Bovendien bevordert RoboRefer gegeneraliseerd meerstaps ruimtelijk redeneren via reinforcement fine-tuning (RFT), met metriekgevoelige procesbeloningsfuncties die zijn afgestemd op ruimtelijke verwijzingstaken. Om SFT- en RFT-training te ondersteunen, introduceren we RefSpatial, een grootschalige dataset van 20M vraag-antwoordparen (2x meer dan voorheen), die 31 ruimtelijke relaties omvat (tegenover 15 voorheen) en complexe redeneerprocessen ondersteunt (tot 5 stappen). Daarnaast introduceren we RefSpatial-Bench, een uitdagende benchmark die de leemte opvult in het evalueren van ruimtelijke verwijzing met meerstaps redeneren. Experimenten tonen aan dat SFT-getrainde RoboRefer state-of-the-art ruimtelijk begrip bereikt, met een gemiddeld slagingspercentage van 89,6%. RFT-getrainde RoboRefer overtreft verder alle andere baseline-modellen met een grote marge, en overtreft zelfs Gemini-2.5-Pro met 17,4% in gemiddelde nauwkeurigheid op RefSpatial-Bench. Opmerkelijk is dat RoboRefer kan worden geïntegreerd met verschillende controlebeleidsregels om langetermijn, dynamische taken uit te voeren op diverse robots (bijv. UR5, G1 humanoïde) in rommelige real-world scènes.
Transformer-modellen hebben moeite met inferentie in lange contexten vanwege hun kwadratische tijdscomplexiteit en lineaire geheugencomplexiteit. Recurrent Memory Transformers (RMT's) bieden een oplossing door de asymptotische kosten te reduceren naar lineaire tijd en constant geheugengebruik. Hun geheugenupdate-mechanisme leidt echter tot sequentiële uitvoering, wat een prestatieknelpunt veroorzaakt. Wij introduceren Diagonal Batching, een planningsschema dat parallellisme mogelijk maakt tussen segmenten in RMT's terwijl exacte recurrentie behouden blijft. Deze aanpak elimineert de sequentiële beperking, waardoor efficiënte GPU-inferentie mogelijk wordt, zelfs voor enkele lange-context inputs zonder complexe batching- en pipeliningtechnieken. Omdat de techniek puur een herordening van runtime-berekeningen is, kunnen bestaande RMT-modellen deze zonder hertraining toepassen. Toegepast op een LLaMA-1B ARMT-model levert Diagonal Batching een 3,3x versnelling op ten opzichte van standaard full-attention LLaMA-1B en een 1,8x versnelling ten opzichte van de sequentiële RMT-implementatie op sequenties van 131.072 tokens. Door de sequentiële knelpunt te verwijderen, verlaagt Diagonal Batching de inferentiekosten en latentie, waardoor RMT's worden versterkt als een praktische oplossing voor real-world, lange-context toepassingen.
Grote taalmmodellen (LLMs) worden doorgaans getraind op enorme hoeveelheden niet-gelicentieerde tekst, een praktijk die onder de loep is genomen vanwege mogelijke inbreuk op intellectueel eigendom en ethische zorgen. Het trainen van LLMs op openlijk gelicentieerde tekst vormt een eerste stap om deze problemen aan te pakken, maar eerdere inspanningen voor het verzamelen van data hebben datasets opgeleverd die te klein of van te lage kwaliteit zijn om goed presterende LLMs te produceren. Om dit gat te dichten, verzamelen, cureren en publiceren wij de Common Pile v0.1, een collectie van acht terabyte aan openlijk gelicentieerde tekst die is ontworpen voor het vooraf trainen van LLMs. De Common Pile bevat content van 30 bronnen die diverse domeinen bestrijken, waaronder onderzoeksartikelen, code, boeken, encyclopedieën, educatieve materialen, audiotranscripties en meer. Cruciaal is dat we onze inspanningen valideren door twee LLMs met 7 miljard parameters te trainen op tekst uit de Common Pile: Comma v0.1-1T en Comma v0.1-2T, getraind op respectievelijk 1 en 2 biljoen tokens. Beide modellen bereiken een competitieve prestatieniveau ten opzichte van LLMs die zijn getraind op niet-gelicentieerde tekst met vergelijkbare rekenbudgetten, zoals Llama 1 en 2 7B. Naast het uitbrengen van de Common Pile v0.1 zelf, publiceren we ook de code die is gebruikt voor het maken ervan, evenals het trainingsmengsel en de checkpoints voor de Comma v0.1-modellen.
We presenteren Surfer-H, een kostenefficiënte webagent die Vision-Language Models (VLM) integreert om door gebruikers gedefinieerde taken op het web uit te voeren. We combineren deze met Holo1, een nieuwe open-weight collectie van VLMs die gespecialiseerd zijn in webnavigatie en informatie-extractie. Holo1 is getraind op zorgvuldig samengestelde databronnen, waaronder open-access webcontent, synthetische voorbeelden en zelfgeproduceerde agentische data. Holo1 scoort het hoogst op algemene User Interface (UI) benchmarks, evenals op onze nieuwe web UI-localisatiebenchmark, WebClick. Wanneer Holo1 wordt gebruikt, behaalt Surfer-H een state-of-the-art prestatie van 92,2% op WebVoyager, wat een Pareto-optimale balans tussen nauwkeurigheid en kostenefficiëntie vertegenwoordigt. Om de onderzoeksvooruitgang in agentische systemen te versnellen, maken we zowel ons WebClick-evaluatiedataset als de Holo1-modelgewichten open source.
Inferentie-schaalbaarheid wisselt efficiëntie in voor een hogere nauwkeurigheid in redenering door langere of meer parallelle sequenties te genereren. Echter, in Transformer LLM's wordt de generatiekosten beperkt door de grootte van de key-value (KV) cache, in plaats van het aantal gegenereerde tokens. Daarom onderzoeken we inferentie-hyperschaalbaarheid: door de KV cache te comprimeren, kunnen we meer tokens genereren binnen hetzelfde rekenbudget en de nauwkeurigheid van geschaalde inferentie verder verbeteren. Het succes van deze aanpak hangt echter af van het vermogen van compressiemethoden om de nauwkeurigheid te behouden, zelfs bij hoge compressieverhoudingen. Om hyperschaalbaarheid praktisch te maken, introduceren we Dynamic Memory Sparsification (DMS), een nieuwe methode voor het verspreiden van KV caches die slechts 1K trainingsstappen vereist om een 8-voudige compressie te bereiken, terwijl een betere nauwkeurigheid wordt behouden dan trainingsvrije sparse attention. In plaats van tokens voortijdig te verwijderen, stelt DMS het verwijderen van tokens uit, waarbij representaties impliciet worden samengevoegd en kritieke informatie wordt behouden. We demonstreren de effectiviteit van inferentie-hyperschaalbaarheid met DMS op meerdere families van LLM's, waarbij we aantonen dat het de nauwkeurigheid verhoogt bij vergelijkbare inferentie-runtime en geheugenbelasting. Zo verbeteren we bijvoorbeeld Qwen-R1 32B gemiddeld met 9,1 punten op AIME 24, 7,6 op GPQA en 9,6 op LiveCodeBench over verschillende rekenbudgetten.
Dit artikel presenteert een nieuw raamwerk voor het uitlijnen van leerbare latente ruimtes naar willekeurige doeldistributies door gebruik te maken van flow-gebaseerde generatieve modellen als a priori. Onze methode traint eerst een flow-model voor op de doelkenmerken om de onderliggende distributie vast te leggen. Dit vaste flow-model regulariseert vervolgens de latente ruimte via een uitlijningsverlies, dat het flow-matching doel herformuleert om de latente variabelen als optimalisatiedoelen te behandelen. We bewijzen formeel dat het minimaliseren van dit uitlijningsverlies een computationeel hanteerbaar surrogaatdoel oplevert voor het maximaliseren van een variatieel ondergrens op de log-waarschijnlijkheid van latente variabelen onder de doeldistributie. Opmerkelijk is dat de voorgestelde methode computationeel dure waarschijnlijkheidsevaluaties elimineert en het oplossen van ODE's tijdens de optimalisatie vermijdt. Als proof of concept tonen we in een gecontroleerde setting aan dat het uitlijningsverlieslandschap nauw aansluit bij de negatieve log-waarschijnlijkheid van de doeldistributie. We valideren verder de effectiviteit van onze aanpak door grootschalige beeldgeneratie-experimenten op ImageNet met diverse doeldistributies, vergezeld van gedetailleerde discussies en ablatiestudies. Met zowel theoretische als empirische validatie baant ons raamwerk een nieuwe weg voor het uitlijnen van latente ruimtes.
Wiskundig redeneren in real-world video-omgevingen vormt een fundamenteel andere uitdaging dan in statische afbeeldingen of tekst. Het vereist het interpreteren van fijnmazige visuele informatie, het nauwkeurig lezen van handgeschreven of digitale tekst, en het integreren van gesproken aanwijzingen, die vaak niet-lineair in de tijd verspreid zijn. In dergelijke multimodale contexten hangt succes niet alleen af van perceptie, maar ook van het selectief identificeren en integreren van de juiste contextuele details uit een rijke en ruisachtige stroom van inhoud. Hiertoe introduceren we VideoMathQA, een benchmark ontworpen om te evalueren of modellen dergelijk tijdelijk uitgebreid cross-modale redeneren op video's kunnen uitvoeren. De benchmark beslaat 10 diverse wiskundige domeinen, met video's variërend van 10 seconden tot meer dan 1 uur. Het vereist dat modellen gestructureerde visuele inhoud interpreteren, instructieve verhalen begrijpen, en concepten gezamenlijk verankeren over visuele, auditieve en tekstuele modaliteiten. We zetten experts op master-niveau in om een hoge kwaliteit te waarborgen, wat in totaal meer dan 920 man-uren aan annotatie oplevert. Om real-world scenario's te weerspiegelen, zijn vragen ontworpen rond drie kernredeneeruitdagingen: directe probleemoplossing, waarbij antwoorden verankerd zijn in de gepresenteerde vraag; conceptuele overdracht, die het toepassen van geleerde methoden op nieuwe problemen vereist; en diepgaand instructief begrip, waarbij multi-staps redeneren over uitgebreide uitleg en gedeeltelijk uitgewerkte oplossingen betrokken is. Elke vraag bevat multi-staps redeneerannotaties, waardoor een fijnmazige diagnose van modelcapaciteiten mogelijk is. Door deze benchmark benadrukken we de beperkingen van bestaande benaderingen en stellen we een systematisch evaluatiekader op voor modellen die moeten redeneren, in plaats van alleen maar waarnemen, over tijdelijk uitgebreide en modaal-rijke wiskundige probleemstellingen. Onze benchmark en evaluatiecode zijn beschikbaar op: https://mbzuai-oryx.github.io/VideoMathQA
Recente vooruitgang in text-to-video (T2V) diffusiemodellen heeft hoogwaardige en realistische videosynthese mogelijk gemaakt. Huidige T2V-modellen hebben echter vaak moeite om fysiek plausibele inhoud te genereren vanwege hun beperkte inherente vermogen om fysica nauwkeurig te begrijpen. We ontdekten dat hoewel de representaties binnen T2V-modellen enig vermogen hebben om fysica te begrijpen, ze aanzienlijk achterblijven bij die van recente zelfsuperviserende videoleermethoden. Daarom stellen we een nieuw framework voor, genaamd VideoREPA, dat het vermogen om fysica te begrijpen destilleert uit videobegrip-foundationmodellen en dit in T2V-modellen integreert door token-level relaties uit te lijnen. Dit overbrugt de kloof in fysicabegrip en maakt meer fysiek plausibele generatie mogelijk. Specifiek introduceren we het Token Relation Distillation (TRD) verlies, waarbij gebruik wordt gemaakt van spatio-temporele uitlijning om zachte begeleiding te bieden die geschikt is voor het finetunen van krachtige vooraf getrainde T2V-modellen, een kritisch verschil met eerdere representatie-uitlijningsmethoden (REPA). Voor zover wij weten, is VideoREPA de eerste REPA-methode die is ontworpen voor het finetunen van T2V-modellen en specifiek voor het injecteren van fysieke kennis. Empirische evaluaties tonen aan dat VideoREPA het fysieke gezond verstand van de baseline-methode, CogVideoX, aanzienlijk verbetert, met significante verbeteringen op relevante benchmarks en een sterke capaciteit demonstreert voor het genereren van video's die consistent zijn met intuïtieve fysica. Meer videoresultaten zijn beschikbaar op https://videorepa.github.io/.
Ondanks vooruitgang in videobegrip, hebben huidige MLLM's moeite met tel taken. Bestaande benchmarks zijn beperkt door korte video's, gesloten vragen, gebrek aan aanwijzing annotaties en zwakke multimodale dekking. In dit artikel introduceren we CG-AV-Counting, een handmatig geannoteerde aanwijzing-gebaseerde tel benchmark met 1.027 multimodale vragen en 5.845 geannoteerde aanwijzingen over 497 lange video's. Het ondersteunt zowel black-box als white-box evaluatie, en dient als een uitgebreide testomgeving voor zowel end-to-end als redenering-gebaseerd tellen. Om manieren te verkennen om het telvermogen van modellen te verbeteren, stellen we AV-Reasoner voor, een model getraind met GRPO en curriculum learning om telvermogen te generaliseren vanuit gerelateerde taken. AV-Reasoner behaalt state-of-the-art resultaten over meerdere benchmarks, wat de effectiviteit van reinforcement learning aantoont. Experimenten laten echter zien dat op out-of-domain benchmarks, redeneren in de taalruimte geen prestatieverbeteringen oplevert. De code en benchmark zijn vrijgegeven op https://av-reasoner.github.io.
Redeneermodellen vertegenwoordigd door de Deepseek-R1-Distill-serie zijn wijdverbreid geadopteerd door de open-sourcegemeenschap vanwege hun sterke prestaties op gebieden zoals wiskunde, wetenschap, programmeren en andere domeinen. Uit ons onderzoek blijkt echter dat hun benchmarkevaluatieresultaten onderhevig zijn aan aanzienlijke schommelingen veroorzaakt door diverse factoren. Subtiele verschillen in evaluatie- omstandigheden kunnen leiden tot grote variaties in de resultaten. Soortgelijke fenomenen worden waargenomen bij andere open-source inferentiemodellen die zijn verfijnd op basis van de Deepseek-R1-Distill-serie, evenals bij het QwQ-32B-model, waardoor hun geclaimde prestatieverbeteringen moeilijk betrouwbaar reproduceerbaar zijn. Daarom pleiten wij voor de invoering van een strenger paradigma voor het evalueren van modelprestaties en presenteren wij onze empirische beoordelingen van de Deepseek-R1-Distill-serie modellen.
Ruimtelijk cognitie is essentieel voor menselijke intelligentie, waardoor probleemoplossing mogelijk wordt door middel van visuele simulaties in plaats van uitsluitend te vertrouwen op verbale redenering. Bestaande AI-benchmarks richten zich echter voornamelijk op verbale redenering en negeren de complexiteit van non-verbale, meerstaps visuele simulaties. Wij introduceren STARE (Spatial Transformations and Reasoning Evaluation), een benchmark die is ontworpen om multimodale grote taalmodellen rigoureus te evalueren op taken die beter opgelost kunnen worden door middel van meerstaps visuele simulaties. STARE omvat 4K taken die zich uitstrekken over fundamentele geometrische transformaties (2D en 3D), geïntegreerde ruimtelijke redenering (kubusnet vouwen en tangrampuzzels), en real-world ruimtelijke redenering (perspectief en temporele redenering), wat praktische cognitieve uitdagingen weerspiegelt zoals objectassemblage, interpretatie van mechanische diagrammen en alledaagse ruimtelijke navigatie. Onze evaluaties tonen aan dat modellen uitblinken in redenering over eenvoudigere 2D-transformaties, maar presteren op bijna willekeurig niveau bij complexere taken zoals 3D-kubusnet vouwen en tangrampuzzels die meerstaps visuele simulaties vereisen. Mensen behalen bijna perfecte nauwkeurigheid maar nemen aanzienlijke tijd (tot 28,9 seconden) voor complexe taken, wat aanzienlijk versnelt (gemiddeld 7,5 seconden minder) met tussenliggende visuele simulaties. Daarentegen vertonen modellen inconsistente prestatieverbeteringen door visuele simulaties, waarbij ze op de meeste taken verbeteren maar in specifieke gevallen zoals tangrampuzzels (GPT-4o, o1) en kubusnet vouwen (Claude-3.5, Gemini-2.0 Flash) achteruitgaan, wat aangeeft dat modellen mogelijk niet weten hoe ze tussenliggende visuele informatie effectief kunnen benutten.
Zoek-versterkte taalmodellen combineren webzoeken met Large Language Models (LLM's) om de onderbouwing en actualiteit van antwoorden te verbeteren. Het analyseren van deze systemen blijft echter een uitdaging: bestaande datasets zijn beperkt in schaal en smal in scope, vaak beperkt tot statische, eenmalige feitencontrole-vragen. In dit werk introduceren we Search Arena, een grootschalige, door crowdsourcing gegenereerde dataset van meer dan 24.000 gepaarde meerzijdige gebruikersinteracties met zoek-versterkte LLM's. De dataset bestrijkt diverse intenties en talen, en bevat volledige systeemtraceringen met ongeveer 12.000 menselijke voorkeursstemmen. Onze analyse toont aan dat gebruikersvoorkeuren worden beïnvloed door het aantal citaties, zelfs wanneer de geciteerde inhoud de toegeschreven claims niet direct ondersteunt, wat een kloof blootlegt tussen waargenomen en feitelijke geloofwaardigheid. Bovendien variëren gebruikersvoorkeuren tussen geciteerde bronnen, wat aantoont dat community-gedreven platforms over het algemeen de voorkeur genieten en statische encyclopedische bronnen niet altijd geschikt en betrouwbaar zijn. Om de prestaties in verschillende omgevingen te beoordelen, voeren we cross-arena-analyses uit door zoek-versterkte LLM's te testen in een algemene chatomgeving en conventionele LLM's in zoekintensieve omgevingen. We constateren dat webzoeken de prestaties in niet-zoekomgevingen niet verslechtert en zelfs kan verbeteren; echter, de kwaliteit in zoekomgevingen wordt aanzienlijk beïnvloed als uitsluitend wordt vertrouwd op het parametrische kennis van het model. We hebben de dataset open-source gemaakt om toekomstig onderzoek in deze richting te ondersteunen. Onze dataset en code zijn beschikbaar op: https://github.com/lmarena/search-arena.
Multimodale Large Language Models (MLLMs) worden doorgaans afgeleid door vooraf getrainde Large Language Models (LLMs) uit te breiden met visuele mogelijkheden. In dit werk onderzoeken we hoe MLLMs visuele invoer verwerken door hun aandachtmechanismen te analyseren. We onthullen een verrassend sparsity-fenomeen: slechts een kleine subset (ongeveer minder dan 5%) van de aandachtskoppen in LLMs draagt actief bij aan visueel begrip, aangeduid als visuele koppen. Om deze koppen efficiënt te identificeren, ontwerpen we een trainingsvrij raamwerk dat de visuele relevantie op kopniveau kwantificeert via gerichte responsanalyse. Op basis van deze ontdekking introduceren we SparseMM, een KV-Cache optimalisatiestrategie die asymmetrische rekenbudgetten toewijst aan koppen in LLMs op basis van hun visuele scores, waarbij de sparsity van visuele koppen wordt benut om de inferentie van MLLMs te versnellen. In vergelijking met eerdere KV-Cache versnellingsmethoden die de specificiteit van visuele informatie negeren, geeft SparseMM prioriteit aan het behoud van visuele semantiek tijdens het decoderen. Uitgebreide evaluaties op mainstream multimodale benchmarks tonen aan dat SparseMM superieure nauwkeurigheid-efficiëntie afwegingen bereikt. Opmerkelijk is dat SparseMM een real-time versnelling van 1.38x en een geheugenreductie van 52% tijdens generatie biedt, terwijl de prestaties op efficiëntietests gelijk blijven. Ons project is open source beschikbaar op https://github.com/CR400AF-A/SparseMM.
Het trainen van taalmodelen op lange sequentiedata is een veeleisende vereiste voor het verbeteren van de capaciteit van het model op complexe taken, zoals lange-ketenredenering. Naarmate de sequentielengte echter toeneemt, worden de geheugenkosten voor het opslaan van activatiewaarden enorm tijdens het Backpropagation (BP)-proces, zelfs met de toepassing van de gradient checkpointing-techniek. Om deze uitdaging aan te pakken, stellen we een geheugenefficiënte en exacte BP-methode voor, genaamd StreamBP, die een lineaire decompositie van de kettingregel uitvoert langs de sequentiedimensie op een laaggewijze manier, waardoor de geheugenkosten van activatiewaarden en logits aanzienlijk worden verminderd. De voorgestelde methode is toepasbaar op veelvoorkomende doelen zoals SFT, GRPO en DPO. Vanuit een implementatieperspectief bereikt StreamBP minder rekenkundige FLOPs en een snellere BP-snelheid door gebruik te maken van de causale structuur van het taalmodel. In vergelijking met gradient checkpointing schaalt StreamBP de maximale sequentielengte van BP op tot 2,8-5,5 keer groter, terwijl vergelijkbare of zelfs minder BP-tijd wordt gebruikt. Merk op dat de sequentielengteschaalbaarheid van StreamBP direct kan worden overgedragen naar batchgrootte-schaalbaarheid voor het versnellen van de training. We ontwikkelen verder een communicatie-efficiënte gedistribueerde StreamBP om multi-GPU-training effectief te ondersteunen en de toepasbaarheid ervan te vergroten. Onze code kan eenvoudig worden geïntegreerd in de trainingspipeline van elk transformermodel en is beschikbaar op https://github.com/Ledzy/StreamBP.
De opkomst van multimodale grote taalmodellen (MLLMs) heeft doorbraken teweeggebracht in egocentrische visietoepassingen. Deze toepassingen vereisen een voortdurend, contextbewust begrip van objecten, aangezien gebruikers interactie hebben met gereedschappen in dynamische en rommelige omgevingen. Bestaande benchmarks voor belichaamde systemen richten zich echter voornamelijk op statische scèneverkenning, waarbij de nadruk ligt op het uiterlijk en de ruimtelijke eigenschappen van objecten, terwijl de beoordeling van dynamische veranderingen als gevolg van gebruikersinteracties wordt verwaarloosd. Om deze kloof te overbruggen, introduceren we EOC-Bench, een innovatieve benchmark die is ontworpen om objectgerichte belichaamde cognitie systematisch te evalueren in dynamische egocentrische scenario's. Specifiek bevat EOC-Bench 3.277 zorgvuldig geannoteerde vraag-antwoordparen, gecategoriseerd in drie temporele categorieën: Verleden, Heden en Toekomst, die 11 fijnmazige evaluatiedimensies en 3 visuele objectreferentietypen beslaan. Om een grondige beoordeling te waarborgen, ontwikkelen we een gemengd annotatiekader met menselijke betrokkenheid met vier soorten vragen en ontwerpen we een nieuwe multi-schaal temporele nauwkeurigheidsmetriek voor open-einde temporele evaluatie. Op basis van EOC-Bench voeren we uitgebreide evaluaties uit van verschillende propriëtaire, open-source en objectniveau MLLMs. EOC-Bench fungeert als een cruciaal instrument voor het bevorderen van de belichaamde objectcognitieve capaciteiten van MLLMs en legt een stevige basis voor het ontwikkelen van betrouwbare kernmodellen voor belichaamde systemen.
Texture map productie is een belangrijk onderdeel van 3D-modellering en bepaalt de renderkwaliteit. Recentelijk hebben op diffusie gebaseerde methoden een nieuwe weg geopend voor texturegeneratie. Beperkte controleflexibiliteit en beperkte promptmodaliteiten kunnen echter voorkomen dat makers de gewenste resultaten bereiken. Bovendien leiden inconsistenties tussen gegenereerde multi-view afbeeldingen vaak tot een slechte texturegeneratiekwaliteit. Om deze problemen aan te pakken, introduceren we FlexPainter, een innovatieve texturegeneratiepijplijn die flexibele multi-modale conditionele begeleiding mogelijk maakt en zeer consistente texturegeneratie bereikt. Een gedeelde conditionele inbeddingsruimte wordt geconstrueerd om flexibele aggregatie tussen verschillende invoermodaliteiten uit te voeren. Gebruikmakend van deze inbeddingsruimte, presenteren we een op afbeeldingen gebaseerde CFG-methode om structurele en stijlinformatie te decomponeren, waardoor op referentieafbeeldingen gebaseerde stilisering wordt bereikt. Door gebruik te maken van de 3D-kennis binnen de afbeeldingsdiffusieprior, genereren we eerst multi-view afbeeldingen gelijktijdig met behulp van een rasterrepresentatie om het globale begrip te verbeteren. Tegelijkertijd stellen we een viewsynchronisatie- en adaptief gewichtingsmodule voor tijdens diffusiebemonstering om de lokale consistentie verder te waarborgen. Ten slotte wordt een 3D-bewust texturecompleteringsmodel gecombineerd met een textureverbeteringsmodel gebruikt om naadloze, hoogwaardige texture maps te genereren. Uitgebreide experimenten tonen aan dat ons framework zowel in flexibiliteit als in generatiekwaliteit aanzienlijk beter presteert dan state-of-the-art methoden.
Chain-of-Thought (CoT) heeft het wiskundig redeneren in Large Language Models (LLMs) aanzienlijk verbeterd, maar het blijft een uitdaging om dit uit te breiden naar multimodale domeinen. Bestaande werken passen ofwel een vergelijkbare tekstuele redenering toe voor beeldinvoer, of proberen visuele signalen te verweven in wiskundige CoT. Ze kampen echter met drie belangrijke beperkingen bij het oplossen van wiskundige problemen: afhankelijkheid van grofkorrelige, rechthoekige beeldregio's, beperkte perceptie van visuele encoders op wiskundige inhoud, en afhankelijkheid van externe mogelijkheden voor visuele aanpassing. In dit artikel stellen we MINT-CoT voor, waarbij Mathematical INterleaved Tokens worden geïntroduceerd voor Chain-of-Thought visuele redenering. MINT-CoT verweeft adaptief relevante visuele tokens in tekstuele redeneerstappen via een Interleave Token, dat dynamisch visuele regio's van elke vorm binnen wiskundige figuren selecteert. Om deze mogelijkheid te versterken, hebben we de MINT-CoT dataset geconstrueerd, die 54K wiskundige problemen bevat waarbij elke redeneerstap op tokenniveau wordt uitgelijnd met visuele regio's, vergezeld van een rigoureuze datageneratiepipeline. We presenteren verder een driestaps MINT-CoT trainingsstrategie, waarbij progressief text-only CoT SFT, interleaved CoT SFT en interleaved CoT RL worden gecombineerd, wat resulteert in ons MINT-CoT-7B model. Uitgebreide experimenten tonen de effectiviteit van onze methode aan voor effectieve visuele verweven redenering in wiskundige domeinen, waarbij MINT-CoT-7B het baseline model overtreft met +34,08% op MathVista, +28,78% op GeoQA en +23,2% op MMStar. Onze code en data zijn beschikbaar op https://github.com/xinyan-cxy/MINT-CoT.
Dieptekaarten worden veelvuldig gebruikt in feed-forward 3D Gaussian Splatting (3DGS) pijplijnen door ze te unprojecten naar 3D-puntenwolken voor de synthese van nieuwe aanzichten. Deze aanpak biedt voordelen zoals efficiënte training, het gebruik van bekende cameraposities en nauwkeurige geometrie-schatting. Dieptediscontinuïteiten op objectgrenzen leiden echter vaak tot gefragmenteerde of schaarse puntenwolken, wat de renderkwaliteit vermindert — een bekende beperking van dieptegebaseerde representaties. Om dit probleem aan te pakken, introduceren we PM-Loss, een nieuwe regularisatieverliesfunctie gebaseerd op een puntenkaart voorspeld door een vooraf getrainde transformer. Hoewel de puntenkaart zelf minder nauwkeurig kan zijn dan de dieptekaart, dwingt deze effectief geometrische gladheid af, vooral rond objectgrenzen. Met de verbeterde dieptekaart verbetert onze methode de feed-forward 3DGS aanzienlijk over verschillende architecturen en scènes, wat consistent betere renderresultaten oplevert. Onze projectpagina: https://aim-uofa.github.io/PMLoss
Momenteel is de meest dominante benadering voor het vaststellen van taal-beeldafstemming het gezamenlijk vooraf trainen van tekst- en beeldencoders via contrastief leren, zoals CLIP en zijn varianten. In dit werk stellen we de vraag of zo'n kostbare gezamenlijke training wel noodzakelijk is. In het bijzonder onderzoeken we of een vooraf getraind vast groot taalmodel (LLM) een goede genoeg tekstencoder biedt om visuele representatieleiding te geven. Dat wil zeggen, we stellen voor om taal-beeldafstemming te leren met een vaste tekstencoder (LIFT) van een LLM door alleen de beeldencoder te trainen. Enigszins verrassend blijkt uit uitgebreide benchmark- en ablatiestudies dat dit sterk vereenvoudigde framework LIFT zeer effectief is en CLIP overtreft in de meeste scenario's die compositieel begrip en lange bijschriften betreffen, terwijl het aanzienlijke winsten in rekenkundige efficiëntie behaalt. Ons werk zet een eerste stap naar het systematisch verkennen van hoe tekstembeddingen van LLM's visueel leren kunnen begeleiden en suggereert een alternatieve ontwerpkeuze voor het leren van taalafgestemde visuele representaties.
Autoregressieve (AR) beeldgeneratiemodellen hebben steeds meer aandacht gekregen vanwege hun doorbraken in synthesekwaliteit, wat de noodzaak benadrukt van robuuste watermerktechnieken om misbruik te voorkomen. Bestaande in-generatie watermerktechnieken zijn echter voornamelijk ontworpen voor diffusiemodellen, waarbij watermerken worden ingebed in latente diffusietoestanden. Dit ontwerp brengt aanzienlijke uitdagingen met zich mee voor directe aanpassing aan AR-modellen, die beelden sequentieel genereren via tokenvoorspelling. Bovendien kunnen diffusiegebaseerde regeneratieaanvallen dergelijke watermerken effectief wissen door latente diffusietoestanden te verstoren. Om deze uitdagingen aan te pakken, stellen we Lexical Bias Watermarking (LBW) voor, een nieuw framework ontworpen voor AR-modellen dat bestand is tegen regeneratieaanvallen. LBW integreert watermerken rechtstreeks in tokenkaarten door de tokenselectie tijdens de generatie te sturen naar een vooraf gedefinieerde 'groene lijst'. Deze aanpak zorgt voor naadloze integratie met bestaande AR-modellen en breidt zich natuurlijk uit naar post-hoc watermerken. Om de beveiliging tegen white-box-aanvallen te vergroten, wordt in plaats van een enkele groene lijst de groene lijst voor elke afbeelding willekeurig geselecteerd uit een pool van groene lijsten. Watermerkdetectie wordt uitgevoerd via kwantisatie en statistische analyse van de tokenverdeling. Uitgebreide experimenten tonen aan dat LBW superieure robuustheid van watermerken bereikt, met name in het weerstaan van regeneratieaanvallen.
Het genereren en bewerken van audio-gestuurde pratende portretten geleid door multimodale invoer, waaronder tekst, afbeeldingen en video's, blijft onderbelicht. In dit artikel presenteren we SkyReels-Audio, een uniform raamwerk voor het synthetiseren van hoogwaardige en temporeel coherente pratende portretvideo's. Gebaseerd op vooraf getrainde video-diffusietransformers, ondersteunt ons raamwerk oneindige lengte generatie en bewerking, terwijl het diverse en controleerbare conditionering mogelijk maakt via multimodale invoer. We gebruiken een hybride curriculumleerstrategie om audio progressief af te stemmen op gezichtsbewegingen, waardoor fijnmazige multimodale controle over lange videosequenties mogelijk wordt. Om lokale gezichtssamenhang te verbeteren, introduceren we een gezichtsmaskerverlies en een audio-gestuurd classifier-free guidance-mechanisme. Een sliding-window denoising-benadering smelt verder latenterepresentaties samen over temporele segmenten, waardoor visuele kwaliteit en temporele consistentie over langere perioden en diverse identiteiten worden gewaarborgd. Belangrijker nog, we construeren een toegewijd datapipeline voor het samenstellen van hoogwaardige triplets bestaande uit gesynchroniseerde audio, video en tekstuele beschrijvingen. Uitgebreide benchmarkevaluaties tonen aan dat SkyReels-Audio superieure prestaties bereikt op het gebied van lip-sync nauwkeurigheid, identiteitsconsistentie en realistische gezichtsdynamiek, vooral onder complexe en uitdagende omstandigheden.
Dit artikel behandelt de uitdaging van het reconstrueren van dynamische 3D-scènes met complexe bewegingen. Sommige recente werken definiëren 3D Gaussische primitieven in de canonieke ruimte en gebruiken vervormingsvelden om canonieke primitieven naar observatieruimten af te beelden, waardoor real-time dynamische viewsynthese wordt bereikt. Deze methoden hebben echter vaak moeite met het verwerken van scènes met complexe bewegingen vanwege de moeilijkheid om vervormingsvelden te optimaliseren. Om dit probleem te overwinnen, stellen we FreeTimeGS voor, een nieuwe 4D-representatie die Gaussische primitieven in staat stelt op willekeurige tijden en locaties te verschijnen. In tegenstelling tot canonieke Gaussische primitieven, beschikt onze representatie over een grote flexibiliteit, waardoor het vermogen om dynamische 3D-scènes te modelleren wordt verbeterd. Daarnaast voorzien we elk Gaussisch primitief van een bewegingsfunctie, waardoor het in de loop van de tijd naar naburige regio's kan bewegen, wat de temporele redundantie vermindert. Experimentele resultaten op verschillende datasets laten zien dat de renderkwaliteit van onze methode recente methoden met een grote marge overtreft.
We heroverwegen de schaalwetten voor testtijd vanuit een praktisch efficiëntieperspectief, waarbij we aantonen dat de effectiviteit van kleinere modellen aanzienlijk wordt overschat. Eerdere onderzoeken, gebaseerd op compute-optimaliteit, negeren kritieke geheugentoegangsproblemen die worden geïntroduceerd door inferentie-strategieën (bijv., Best-of-N, lange CoTs). Onze holistische analyse, die modellen van 0,6B tot 32B parameters omvat, onthult een nieuwe Kinetics Schaalwet die de toewijzing van middelen beter begeleidt door zowel rekening te houden met rekenkosten als geheugentoegangskosten. De Kinetics Schaalwet suggereert dat compute tijdens testtijd effectiever is wanneer het wordt gebruikt op modellen boven een bepaalde drempel dan op kleinere modellen. Een belangrijke reden hiervoor is dat bij TTS aandacht, in plaats van het aantal parameters, de dominante kostenfactor wordt. Gemotiveerd door dit inzicht, stellen we een nieuw schaalparadigma voor dat gericht is op sparse aandacht, wat de kosten per token verlaagt en langere generaties en meer parallelle samples mogelijk maakt binnen hetzelfde resourcebudget. Empirisch tonen we aan dat modellen met sparse aandacht consistent beter presteren dan hun dichte tegenhangers, met winsten van meer dan 60 punten in low-cost regimes en meer dan 5 punten in high-cost regimes voor probleemoplossende nauwkeurigheid op AIME, inclusief evaluaties op state-of-the-art MoEs. Deze resultaten suggereren dat sparse aandacht essentieel is om het volledige potentieel van testtijd-schaling te realiseren, omdat, in tegenstelling tot training, waar parameterschaling verzadigt, de nauwkeurigheid tijdens testtijd blijft verbeteren door middel van verhoogde generatie. De code is beschikbaar op https://github.com/Infini-AI-Lab/Kinetics.
Algemene objectcompositie (GOC) heeft als doel een doelobject naadloos te integreren in een achtergrondscene met gewenste geometrische eigenschappen, terwijl tegelijkertijd de fijnmazige uiterlijke details behouden blijven. Recente benaderingen leiden semantische inbeddingen af en integreren deze in geavanceerde diffusiemodellen om geometrie-bewerkbare generatie mogelijk te maken. Deze sterk gecomprimeerde inbeddingen coderen echter alleen hoogwaardige semantische aanwijzingen en verliezen onvermijdelijk fijnmazige uiterlijke details. Wij introduceren een Disentangled Geometry-editable and Appearance-preserving Diffusion (DGAD) model dat eerst semantische inbeddingen benut om de gewenste geometrische transformaties impliciet vast te leggen en vervolgens een cross-attention retrieval-mechanisme gebruikt om fijnmazige uiterlijke kenmerken uit te lijnen met de geometrie-bewerkte representatie, waardoor zowel precieze geometriebewerking als getrouwe uiterlijke behoud in objectcompositie mogelijk wordt. Specifiek bouwt DGAD voort op CLIP/DINO-afgeleide en referentienetwerken om semantische inbeddingen en uiterlijk-behoudende representaties te extraheren, die vervolgens naadloos worden geïntegreerd in de coderings- en decoderingspijplijnen op een ontvlochten manier. We integreren eerst de semantische inbeddingen in vooraf getrainde diffusiemodellen die sterke ruimtelijke redeneervaardigheden vertonen om objectgeometrie impliciet vast te leggen, waardoor flexibele objectmanipulatie wordt gefaciliteerd en effectieve bewerkbaarheid wordt gegarandeerd. Vervolgens ontwerpen we een dicht cross-attention-mechanisme dat gebruikmaakt van de impliciet geleerde objectgeometrie om uiterlijke kenmerken op te halen en ruimtelijk uit te lijnen met hun corresponderende regio's, waardoor getrouwe uiterlijke consistentie wordt gewaarborgd. Uitgebreide experimenten op openbare benchmarks demonstreren de effectiviteit van het voorgestelde DGAD-framework.
In onderzoeken naar overdraagbaar leren worden schaalwetten verkregen voor verschillende belangrijke foundationmodellen om hun eigenschappen en prestaties op grotere schalen te voorspellen. We laten hier zien hoe de afleiding van schaalwetten ook kan worden gebruikt voor model- en datasetvergelijking, waardoor kan worden beslist welke procedure de voorkeur verdient voor pre-training. Voor het eerst worden volledige schaalwetten afgeleid op basis van dichte metingen over een breed scala aan model- en voorbeeldschalen voor twee belangrijke taal-visie leerprocedures, CLIP en MaMMUT, die respectievelijk alleen contrastief of zowel contrastief als tekstgenererend verlies gebruiken. Door voldoende voorspellingsnauwkeurigheid te garanderen voor uitgesloten punten, gebruiken we de afgeleide schaalwetten om beide modellen te vergelijken, waarbij we bewijs verkrijgen voor MaMMUT's sterkere verbetering met schaal en betere voorbeeldefficiëntie in vergelijking met standaard CLIP. Om de geldigheid van de vergelijking te versterken, tonen we schaalwetten voor verschillende downstream taken, classificatie, retrieval en segmentatie, en voor verschillende open datasets, DataComp, DFN en Re-LAION, waarbij consistent dezelfde trends worden waargenomen. We laten zien dat de vergelijking ook kan worden uitgevoerd bij het afleiden van schaalwetten met een constant leertempo schema, waardoor de rekenkosten worden verlaagd. Nauwkeurige afleiding van schaalwetten biedt dus middelen om model- en datasetvergelijkingen uit te voeren over schaalbereiken, waardoor misleidende conclusies op basis van metingen van slechts enkele referentieschalen worden vermeden, en de weg wordt geëffend voor systematische vergelijking en verbetering van open foundationmodellen en datasets voor hun creatie. We geven alle vooraf getrainde modellen vrij met hun tussenliggende checkpoints, inclusief openMaMMUT-L/14, dat een zero-shot nauwkeurigheid van 80,3% behaalt op ImageNet-1k, getraind op 12,8 miljard voorbeelden van DataComp-1.4B. Code voor het reproduceren van de experimenten in het artikel en de ruwe experimentele gegevens zijn te vinden op https://github.com/LAION-AI/scaling-laws-for-comparison.
We introduceren MedAgentGYM, de eerste publiek beschikbare trainingsomgeving die is ontworpen om coderingsgebaseerde medische redeneervaardigheden in grote taalmodelagents (LLM) te verbeteren. MedAgentGYM omvat 72.413 taakinstanties verdeeld over 129 categorieën, afgeleid van authentieke biomedische scenario's uit de echte wereld. Taken zijn ingekapseld in uitvoerbare coderingsomgevingen, elk voorzien van gedetailleerde taakbeschrijvingen, interactieve feedbackmechanismen, verifieerbare grondwaarheidannotaties en schaalbare trainingsbaangeneratie. Uitgebreide benchmarking van meer dan 30 LLM's toont een opvallend prestatieverschil tussen commerciële API-gebaseerde modellen en open-source tegenhangers. Door gebruik te maken van MedAgentGYM behaalt Med-Copilot-7B aanzienlijke prestatieverbeteringen via supervised fine-tuning (+36,44%) en voortgezet reinforcement learning (+42,47%), en positioneert zichzelf als een betaalbaar en privacybeschermend alternatief dat competitief is met gpt-4o. Door zowel een uitgebreide benchmark als toegankelijke, uitbreidbare trainingsbronnen te bieden binnen geïntegreerde uitvoeringsomgevingen, biedt MedAgentGYM een geïntegreerd platform voor de ontwikkeling van LLM-gebaseerde coderingsassistenten voor geavanceerd biomedisch onderzoek en praktijk.
De meeste bestaande vision-encoders zetten afbeeldingen om in een vaste reeks tokens, waarbij over het hoofd wordt gezien dat verschillende afbeeldingen variërende hoeveelheden informatie bevatten. Een visueel complexe afbeelding (bijvoorbeeld een rommelige kamer) bevat bijvoorbeeld van nature meer informatie en verdient daarom meer tokens dan een eenvoudige afbeelding (bijvoorbeeld een lege muur). Om deze inefficiëntie aan te pakken, stellen we DOVE voor, een dynamische vision-encoder die een variabel aantal visuele tokens (d.w.z. continue representatievectoren) produceert om elke afbeelding te reconstrueren. Onze resultaten tonen aan dat DOVE het gemiddelde aantal tokens aanzienlijk vermindert, terwijl de hoge reconstructiekwaliteit behouden blijft. In verschillende lineaire probing- en downstream multimodale taken presteert het beter dan bestaande autoencoder-gebaseerde tokenisatiemethoden, waarbij het veel minder tokens gebruikt en meer expressieve semantische kenmerken vastlegt in vergelijking met vaste-lengte-codering. We breiden DOVE verder uit met query-gestuurde tokenisatie. Door het model te begeleiden om zich te concentreren op query-relevante regio's, bereikt het een efficiëntere en gerichtere semantische extractie. Onze code en checkpoints zijn beschikbaar op https://dove-encoder.github.io/dove-encoder.
3D Gaussian Splatting (3DGS) heeft aanzienlijke aandacht gekregen vanwege zijn realtime, fotorealistische rendering in novel-view synthesis en 3D-modellering. Bestaande methoden hebben echter moeite met het nauwkeurig modelleren van scènes die worden beïnvloed door tijdelijke objecten, wat leidt tot artefacten in de gerenderde beelden. Wij constateren dat het Gaussian densification-proces, hoewel het het vastleggen van scènedetails verbetert, onbedoeld bijdraagt aan deze artefacten door extra Gaussians te laten groeien die tijdelijke verstoringen modelleren. Om dit aan te pakken, stellen wij RobustSplat voor, een robuuste oplossing gebaseerd op twee cruciale ontwerpen. Ten eerste introduceren we een vertraagde Gaussian-groeistrategie die prioriteit geeft aan het optimaliseren van de statische scènestructuur voordat Gaussian splitting/cloning wordt toegestaan, waardoor overfitting aan tijdelijke objecten in de vroege optimalisatie wordt beperkt. Ten tweede ontwerpen we een scale-cascaded mask bootstrapping-benadering die eerst gebruikmaakt van lagere-resolutie feature similarity-supervisie voor een betrouwbare initiële schatting van het tijdelijke masker, waarbij wordt geprofiteerd van de sterkere semantische consistentie en robuustheid tegen ruis, en vervolgens overgaat naar hoog-resolutie supervisie om een nauwkeurigere maskervoorspelling te bereiken. Uitgebreide experimenten op meerdere uitdagende datasets tonen aan dat onze methode de bestaande methoden overtreft, wat duidelijk de robuustheid en effectiviteit van onze methode aantoont. Onze projectpagina is https://fcyycf.github.io/RobustSplat/.
Naarmate het tijdperk van autonome agents die namens gebruikers beslissingen nemen zich ontvouwt, wordt het waarborgen van contextuele integriteit (CI) -- wat de juiste informatie is om te delen bij het uitvoeren van een bepaalde taak -- een centrale vraag in het veld. Wij stellen dat CI een vorm van redeneren vereist waarbij de agent moet nadenken over de context waarin hij opereert. Om dit te testen, laten we eerst LLM's expliciet redeneren over CI bij het beslissen welke informatie ze moeten delen. Vervolgens breiden we deze aanpak uit door een reinforcement learning (RL) framework te ontwikkelen dat de benodigde redenering verder inbouwt in modellen om CI te bereiken. Met behulp van een synthetische, automatisch gegenereerde dataset van slechts 700 voorbeelden, maar met diverse contexten en normen voor informatieverstrekking, laten we zien dat onze methode aanzienlijk minder ongepaste informatieverstrekking veroorzaakt, terwijl de taakprestaties behouden blijven over verschillende modelgroottes en -families. Belangrijk is dat de verbeteringen van deze synthetische dataset overgaan naar gevestigde CI-benchmarks zoals PrivacyLens, die menselijke annotaties bevat en de privacy-lekkage van AI-assistenten evalueert in acties en tool-aanroepen.
We introduceren Rectified Point Flow, een uniforme parameterisering die paarsgewijze puntwolkregistratie en multi-part vormassemblage formuleert als een enkel conditioneel generatief probleem. Gegeven ongepositioneerde puntwolken, leert onze methode een continu puntgewijs snelheidsveld dat ruisachtige punten naar hun doelposities transporteert, waaruit de poses van de onderdelen worden herleid. In tegenstelling tot eerder werk dat partiële poses regresseert met ad-hoc symmetriehantering, leert onze methode intrinsiek assemblagiesymmetrieën zonder symmetrielabels. Samen met een zelfgesuperviseerde encoder gericht op overlappende punten, bereikt onze methode een nieuwe state-of-the-art prestatie op zes benchmarks die paarsgewijze registratie en vormassemblage beslaan. Opmerkelijk is dat onze uniforme formulering effectieve gezamenlijke training op diverse datasets mogelijk maakt, wat het leren van gedeelde geometrische prioriteiten vergemakkelijkt en daardoor de nauwkeurigheid verhoogt. Projectpagina: https://rectified-pointflow.github.io/.
Retrieval-Augmented Generation (RAG)-systemen hebben vaak last van Kennisconflicten, waarbij opgehaalde externe kennis in tegenspraak is met de inherente, parametrische kennis van grote taalmodellen (LLM's). Dit heeft een negatieve invloed op de prestaties bij downstream taken zoals vraag-antwoord (QA). Bestaande benaderingen proberen vaak conflicten te verminderen door twee kennisbronnen direct naast elkaar te vergelijken, maar dit kan LLM's overweldigen met overbodige of langdradige contexten, wat uiteindelijk hun vermogen om inconsistenties te identificeren en te verhelpen belemmert. Om dit probleem aan te pakken, stellen we Micro-Act voor, een raamwerk met een hiërarchische actieruimte dat automatisch de complexiteit van de context waarneemt en elke kennisbron adaptief opdeelt in een reeks fijnmazige vergelijkingen. Deze vergelijkingen worden weergegeven als uitvoerbare stappen, waardoor redenering mogelijk wordt die verder gaat dan de oppervlakkige context. Door uitgebreide experimenten op vijf benchmarkdatasets behaalt Micro-Act consistent een significante toename in QA-nauwkeurigheid ten opzichte van state-of-the-art baselines op alle 5 datasets en 3 conflicttypen, vooral bij temporele en semantische typen waar alle baselines aanzienlijk tekortschieten. Belangrijker is dat Micro-Act tegelijkertijd robuuste prestaties vertoont bij niet-conflictvragen, wat het praktische nut ervan in real-world RAG-toepassingen benadrukt.
Het synthetiseren van hoogwaardige dynamische medische video's blijft een aanzienlijke uitdaging vanwege de noodzaak om zowel ruimtelijke consistentie als temporele dynamiek te modelleren. Bestaande Transformer-gebaseerde benaderingen kampen met kritieke beperkingen, waaronder onvoldoende kanaalinteracties, hoge computationele complexiteit door self-attention, en grove ruisreductiebegeleiding door timestep-embeddings bij het omgaan met variërende ruisniveaus. In dit werk stellen we FEAT voor, een full-dimensionale efficiënte aandachtstransformer, die deze problemen aanpakt via drie belangrijke innovaties: (1) een uniform paradigma met sequentiële ruimtelijk-temporeel-kanaal aandachtmechanismen om globale afhankelijkheden over alle dimensies vast te leggen, (2) een lineaire-complexiteit ontwerp voor aandachtmechanismen in elke dimensie, gebruikmakend van gewogen sleutel-waarde aandacht en globale kanaalaandacht, en (3) een residuwaarde-begeleidingsmodule die fijnmazige pixel-niveau begeleiding biedt om zich aan te passen aan verschillende ruisniveaus. We evalueren FEAT op standaard benchmarks en downstream taken, waarbij we aantonen dat FEAT-S, met slechts 23% van de parameters van het state-of-the-art model Endora, vergelijkbare of zelfs superieure prestaties bereikt. Bovendien overtreft FEAT-L alle vergelijkingsmethoden over meerdere datasets, wat zowel superieure effectiviteit als schaalbaarheid aantoont. De code is beschikbaar op https://github.com/Yaziwel/FEAT.
Het bewerken van materiaaleigenschappen van objecten in afbeeldingen op basis van voorbeeldafbeeldingen is een actief onderzoeksgebied binnen computer vision en grafische technologie. Wij stellen MARBLE voor, een methode voor het uitvoeren van materiaalmenging en het hercomponeren van fijnmazige materiaaleigenschappen door materiaal-embeddingen te vinden in de CLIP-ruimte en deze te gebruiken om vooraf getrainde tekst-naar-afbeelding-modellen aan te sturen. We verbeteren materiaalbewerking op basis van voorbeelden door een blok in de denoising UNet te identificeren dat verantwoordelijk is voor materiaaltoewijzing. Gegeven twee materiaal-voorbeeldafbeeldingen, vinden we richtingen in de CLIP-ruimte voor het mengen van de materialen. Bovendien kunnen we parametrische controle bereiken over fijnmazige materiaalattributen zoals ruwheid, metallic, transparantie en gloed door een ondiep netwerk te gebruiken om de richting voor de gewenste materiaalattribuutverandering te voorspellen. We voeren kwalitatieve en kwantitatieve analyses uit om de effectiviteit van onze voorgestelde methode aan te tonen. We presenteren ook de mogelijkheid van onze methode om meerdere bewerkingen in één enkele voorwaartse doorloop uit te voeren en de toepasbaarheid op schilderkunst. Projectpagina: https://marblecontrol.github.io/
Tekstgestuurd videobewerken heeft als doel videocontent aan te passen volgens instructies in natuurlijke taal. Hoewel recente trainingsvrije benaderingen vooruitgang hebben geboekt door gebruik te maken van vooraf getrainde diffusiemodellen, vertrouwen ze doorgaans op inversiegebaseerde technieken die invoervideo's in de latente ruimte afbeelden, wat vaak leidt tot temporele inconsistenties en verminderde structurele nauwkeurigheid. Om dit aan te pakken, stellen we FlowDirector voor, een nieuw inversievrij videobewerkingsframework. Ons framework modelleert het bewerkingsproces als een directe evolutie in de gegevensruimte, waarbij de video wordt geleid via een Gewone Differentiaalvergelijking (ODE) om soepel over te gaan langs zijn inherente spatiotemporele variëteit, waardoor temporele samenhang en structurele details behouden blijven. Om gelokaliseerde en controleerbare bewerkingen te bereiken, introduceren we een aandacht-gestuurd maskeringsmechanisme dat het ODE-snelheidsveld moduleert, waardoor niet-doelgebieden zowel ruimtelijk als temporeel behouden blijven. Bovendien presenteren we, om onvolledige bewerkingen aan te pakken en de semantische afstemming met bewerkingsinstructies te verbeteren, een begeleidingsversterkte bewerkingsstrategie geïnspireerd op Classifier-Free Guidance, die gebruikmaakt van differentiële signalen tussen meerdere kandidaatstromen om de bewerkingstrajectorie te sturen naar een sterkere semantische afstemming zonder de structurele consistentie in gevaar te brengen. Uitgebreide experimenten op benchmarks tonen aan dat FlowDirector state-of-the-art prestaties bereikt in het volgen van instructies, temporele consistentie en achtergrondbehoud, waarmee een nieuw paradigma wordt gevestigd voor efficiënte en samenhangende videobewerking zonder inversie.
Recente ontwikkelingen in langzaam denkende taalmodelen (bijv. OpenAI-o1 en DeepSeek-R1) hebben opmerkelijke vaardigheden getoond in complexe redeneertaken door menselijke reflectieve cognitie na te bootsen. Het uitbreiden van dergelijke mogelijkheden naar multimodale grote taalmodelen (MLLMs) blijft echter een uitdaging vanwege de hoge kosten van het opnieuw trainen van visie-taaluitlijningen bij het upgraden van de onderliggende redeneer-LM's. Een eenvoudige oplossing is het ontkoppelen van perceptie en redeneren, waarbij visuele invoer wordt omgezet in taalrepresentaties (bijv. bijschriften) die vervolgens worden doorgegeven aan een krachtige tekstredeneerder. Deze ontkoppeling introduceert echter een kritieke uitdaging: de visuele extractor moet beschrijvingen genereren die zowel trouw zijn aan de afbeelding als informatief genoeg om nauwkeurige downstream-redenering te ondersteunen. Om dit aan te pakken, stellen we Reasoning-Aligned Perceptual Decoupling via Caption Reward Optimization (RACRO) voor – een door redeneren geleide reinforcement learning-strategie die het bijschriftgedrag van de extractor uitlijnt met het redeneerdoel. Door de perceptie-redeneringslus te sluiten via beloningsgebaseerde optimalisatie, verbetert RACRO de visuele verankering aanzienlijk en extraheert het redeneringsgeoptimaliseerde representaties. Experimenten op multimodale wiskunde- en wetenschapsbenchmarks tonen aan dat de voorgestelde RACRO-methode state-of-the-art gemiddelde prestaties bereikt, terwijl superieure schaalbaarheid en plug-and-play-aanpassing aan geavanceerdere redeneer-LM's mogelijk wordt gemaakt zonder de noodzaak van kostbare multimodale heruitlijning.
Watermarkingtechnieken voor grote taalmodellen (LLMs) kunnen de uitvoerkwaliteit aanzienlijk beïnvloeden, maar hun effecten op waarheidsgetrouwheid, veiligheid en behulpzaamheid blijven kritisch onderbelicht. Dit artikel presenteert een systematische analyse van hoe twee populaire watermarkingbenaderingen—Gumbel en KGW—deze kernafstemmingseigenschappen beïnvloeden bij vier afgestemde LLMs. Onze experimenten onthullen twee verschillende degradatiepatronen: guard attenuation, waarbij verbeterde behulpzaamheid de modelveiligheid ondermijnt, en guard amplification, waarbij overmatige voorzichtigheid de behulpzaamheid van het model vermindert. Deze patronen ontstaan door watermark-geïnduceerde verschuivingen in de tokenverdeling, wat de fundamentele spanning tussen afstemmingsdoelstellingen blootlegt. Om deze degradaties te mitigeren, stellen we Alignment Resampling (AR) voor, een inferentie-tijd samplingmethode die een extern beloningsmodel gebruikt om de afstemming te herstellen. We stellen een theoretische ondergrens vast voor de verbetering in de verwachte beloningsscore naarmate de steekproefgrootte wordt vergroot en tonen empirisch aan dat het bemonsteren van slechts 2-4 gewatermerkte generaties effectief de baseline (niet-gewatermerkte) afstemmingsscores herstelt of overtreft. Om de beperkte responsdiversiteit van standaard Gumbel-watermarking te overwinnen, offert onze aangepaste implementatie strikte vervormingsvrijheid op terwijl robuuste detecteerbaarheid behouden blijft, wat compatibiliteit met AR garandeert. Experimentele resultaten bevestigen dat AR met succes de baseline-afstemming herstelt bij beide watermarkingbenaderingen, terwijl sterke watermarkdetecteerbaarheid behouden blijft. Dit werk onthult het kritieke evenwicht tussen watermarksterkte en modelafstemming en biedt een eenvoudige inferentie-tijdoplossing om gewatermerkte LLMs verantwoord in de praktijk te implementeren.
Nauwkeurige LiDAR-camera kalibratie is essentieel voor het samenvoegen van multimodale perceptie in autonome voertuigen en robotsystemen. Traditionele kalibratiemethoden vereisen uitgebreide dataverzameling in gecontroleerde omgevingen en kunnen geen rekening houden met transformatieveranderingen tijdens de beweging van het voertuig/de robot. In dit artikel presenteren we het eerste model dat vogelperspectief (BEV) kenmerken gebruikt om LiDAR-camera kalibratie uit te voeren op basis van ruwe data, genaamd BEVCALIB. Om dit te bereiken, extraheren we apart camera BEV kenmerken en LiDAR BEV kenmerken en voegen deze samen in een gedeelde BEV kenmerkruimte. Om de geometrische informatie uit het BEV kenmerk optimaal te benutten, introduceren we een nieuwe kenmerkselector om de belangrijkste kenmerken te filteren in de transformatiedecoder, wat het geheugengebruik vermindert en efficiënte training mogelijk maakt. Uitgebreide evaluaties op KITTI, NuScenes en onze eigen dataset tonen aan dat BEVCALIB een nieuwe standaard zet. Onder verschillende ruisomstandigheden presteert BEVCALIB beter dan de beste baseline in de literatuur met een gemiddelde van (47,08%, 82,32%) op de KITTI dataset, en (78,17%, 68,29%) op de NuScenes dataset, in termen van (translatie, rotatie), respectievelijk. In het open-source domein verbetert het de beste reproduceerbare baseline met een orde van grootte. Onze code en demo-resultaten zijn beschikbaar op https://cisl.ucr.edu/BEVCalib.
Hand-Object Interaction (HOI)-generatie heeft aanzienlijk toepassingspotentieel. Huidige benaderingen voor 3D HOI-bewegingsgeneratie zijn echter sterk afhankelijk van vooraf gedefinieerde 3D-objectmodellen en in het lab vastgelegde bewegingsdata, wat de generalisatiemogelijkheden beperkt. Tegelijkertijd richten HOI-videogeneratiemethoden zich vooral op pixelnauwkeurige visuele kwaliteit, vaak ten koste van fysieke geloofwaardigheid. Omdat visuele verschijning en bewegingspatronen in de echte wereld fundamentele fysieke wetten delen, stellen we een nieuw framework voor dat visuele priors en dynamische beperkingen combineert binnen een gesynchroniseerd diffusieproces om de HOI-video en -beweging gelijktijdig te genereren. Om de heterogene semantiek, verschijning en bewegingskenmerken te integreren, implementeert onze methode tri-modale adaptieve modulatie voor kenmerkuitlijning, gekoppeld aan 3D volledige aandacht voor het modelleren van inter- en intra-modale afhankelijkheden. Bovendien introduceren we een vision-aware 3D-interactiediffusiemodel dat expliciete 3D-interactiesequenties direct genereert vanuit de gesynchroniseerde diffusie-uitvoer, en deze vervolgens terugvoert om een gesloten feedbackcyclus te creëren. Deze architectuur elimineert de afhankelijkheid van vooraf gedefinieerde objectmodellen of expliciete pose-guidance, terwijl de consistentie tussen video en beweging aanzienlijk wordt verbeterd. Experimentele resultaten tonen de superioriteit van onze methode aan ten opzichte van state-of-the-art benaderingen in het genereren van hoogwaardige, dynamisch geloofwaardige HOI-sequenties, met opmerkelijke generalisatiemogelijkheden in onbekende real-world scenario's. Projectpagina op https://github.com/Droliven/SViMo\_project.
Het nauwkeurig voorspellen van 3D-occupatiegrids op basis van visuele invoer is cruciaal voor autonoom rijden, maar huidige discriminatieve methoden worstelen met ruis in de data, onvolledige waarnemingen en de complexe structuren die inherent zijn aan 3D-scènes. In dit werk herformuleren we 3D-occupatievoorspelling als een generatieve modelleertaak met behulp van diffusiemodellen, die de onderliggende datadistributie leren en 3D-scènepriors incorporeren. Deze aanpak verbetert de voorspellingsconsistentie, robuustheid tegen ruis en gaat beter om met de complexiteit van 3D-ruimtelijke structuren. Onze uitgebreide experimenten tonen aan dat diffusiegebaseerde generatieve modellen state-of-the-art discriminatieve benaderingen overtreffen, wat resulteert in realistischer en nauwkeurigere occupatievoorspellingen, vooral in verborgen of slecht zichtbare gebieden. Bovendien dragen de verbeterde voorspellingen significant bij aan downstream plannings taken, wat de praktische voordelen van onze methode voor real-world autonome rijdtoepassingen benadrukt.
Geautomatiseerde beoordeling van sportvaardigheden vereist het vastleggen van fundamentele bewegingspatronen die experts van beginners onderscheiden, maar huidige video-bemonsteringsmethoden verstoren de temporele continuïteit die essentieel is voor vaardigheidsbeoordeling. Daarom introduceren we Proficiency-Aware Temporal Sampling (PATS), een nieuwe bemonsteringsstrategie die complete fundamentele bewegingen binnen doorlopende temporele segmenten behoudt voor multi-view vaardigheidsbeoordeling. PATS segmentert video's adaptief om ervoor te zorgen dat elk geanalyseerd deel de volledige uitvoering van kritieke prestatiecomponenten bevat, en herhaalt dit proces over meerdere segmenten om de informatie-dekking te maximaliseren terwijl temporele samenhang behouden blijft. Geëvalueerd op de EgoExo4D-benchmark met SkillFormer, overtreft PATS de state-of-the-art nauwkeurigheid in alle bekijkingsconfiguraties (+0,65% tot +3,05%) en levert het aanzienlijke verbeteringen op in uitdagende domeinen (+26,22% boulderen, +2,39% muziek, +1,13% basketbal). Systematische analyse toont aan dat PATS zich succesvol aanpast aan diverse activiteitskenmerken – van hoogfrequente bemonstering voor dynamische sporten tot fijnmazige segmentatie voor sequentiële vaardigheden – wat de effectiviteit aantoont als een adaptieve benadering van temporele bemonstering die geautomatiseerde vaardigheidsbeoordeling voor real-world toepassingen vooruithelpt.
Geautomatiseerde interpretatie van CT-beelden - met name het lokaliseren en beschrijven van afwijkingen in multi-plane en whole-body scans - blijft een aanzienlijke uitdaging in de klinische radiologie. Dit werk heeft als doel deze uitdaging aan te pakken door middel van vier belangrijke bijdragen: (i) Op het gebied van taxonomie werken we samen met ervaren radiologen om een uitgebreid hiërarchisch classificatiesysteem voor te stellen, met 404 representatieve afwijkingen in alle lichaamsregio's; (ii) Op het gebied van data dragen we een dataset bij met meer dan 14.500 CT-beelden uit meerdere vlakken en alle menselijke lichaamsregio's, en voorzien we zorgvuldig grondige annotaties voor meer dan 19.000 afwijkingen, elk gekoppeld aan een gedetailleerde beschrijving en ingedeeld in de taxonomie; (iii) Op het gebied van modelontwikkeling stellen we OminiAbnorm-CT voor, dat automatisch afwijkingen kan lokaliseren en beschrijven in multi-plane en whole-body CT-beelden op basis van tekstuele zoekopdrachten, terwijl het ook flexibele interactie mogelijk maakt via visuele prompts; (iv) Op het gebied van benchmarks stellen we drie representatieve evaluatietaken op gebaseerd op echte klinische scenario's. Door uitgebreide experimenten tonen we aan dat OminiAbnorm-CT aanzienlijk beter presteert dan bestaande methoden op alle taken en metrieken.
Hoe taalspecifiek zijn spraakrepresentaties die worden geleerd door zelfgesuperviseerde modellen? Bestaand onderzoek heeft aangetoond dat een reeks linguïstische kenmerken succesvol kan worden gedecodeerd uit end-to-end modellen die alleen op spraakopnames zijn getraind. Het is echter minder duidelijk in hoeverre vooraf trainen op specifieke talen taalspecifieke linguïstische informatie verbetert. Hier testen we de codering van Nederlandse fonetische en lexicale informatie in interne representaties van zelfgesuperviseerde Wav2Vec2-modellen. Vooraf uitsluitend trainen op Nederlands verbetert de representatie van Nederlandse linguïstische kenmerken in vergelijking met vooraf trainen op vergelijkbare hoeveelheden Engels of grotere hoeveelheden meertalige data. Dit taalspecifieke voordeel wordt goed gedetecteerd door getrainde clustering- of classificatieprobes, en is gedeeltelijk waarneembaar met behulp van zero-shot metrieken. Bovendien komt het taalspecifieke voordeel bij de codering van linguïstische kenmerken overeen met de prestaties stroomafwaarts bij Automatische Spraakherkenning.