Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Future-KL Influenced Policy Optimization (FIPO), een reinforcement learning-algoritme ontworpen om redeneerknelpunten in grote taalmodellen te overwinnen. Hoewel training in de stijl van GRPO effectief schaalt, is deze doorgaans afhankelijk van op uitkomsten gebaseerde beloningen (ORM) die een globaal voordeel uniform verdelen over elk token in een traject. Wij stellen dat deze grove krediettoewijzing een prestatieplafond oplegt doordat kritieke logische keerpunten niet worden onderscheiden van triviale tokens. FIPO lost dit op door een verdisconteerde toekomstige KL-divergentie op te nemen in de policy-update, waardoor een dichte voordeelformulering ontstaat die tokens herwaardeert op basis van hun invloed op het daaropvolgende trajectgedrag. Empirisch gezien stelt FIPO modellen in staat om de lengtestagnatie, zoals waargenomen bij standaard-baselines, te doorbreken. Geëvalueerd op Qwen2.5-32B verlengt FIPO de gemiddelde chain-of-thought-lengte van ongeveer 4.000 naar meer dan 10.000 tokens en verhoogt het de AIME 2024 Pass@1-nauwkeurigheid van 50,0% naar een piek van 58,0% (convergerend op ongeveer 56,0%). Dit presteert beter dan zowel DeepSeek-R1-Zero-Math-32B (ongeveer 47,0%) als o1-mini (ongeveer 56,0%). Onze resultaten suggereren dat het vestigen van dichte voordeelformuleringen een essentiële weg is voor de evolutie van ORM-gebaseerde algoritmen om het volledige redeneerpotentieel van basismodellen te ontsluiten. Wij maken onze trainingsysteem, gebouwd op het verl-framework, open source.
De convergentie van lage-luchteconomieën, embodied intelligence en lucht-grondcoöperatieve systemen creëert een groeiende vraag naar simulatiefaciliteiten die in staat zijn om lucht- en grondagenten gezamenlijk te modelleren binnen één fysiek coherente omgeving. Bestaande open-sourceplatforms blijven domeingescheiden: rijsimulatoren missen aerodynamica, terwijl multirotor-simulatoren realistische grondscènes ontberen. Op bridges gebaseerde co-simulatie introduceert synchronisatieoverhead en kan geen strikte ruimtelijk-temporele consistentie garanderen. Wij presenteren CARLA-Air, een open-source infrastructuur die hoogwaardige stadsrijsimulaties en natuurkundig accurate multirotorvluchten verenigt binnen één Unreal Engine-proces. Het platform behoudt zowel de native Python-API's van CARLA en AirSim als de ROS 2-interfaces, waardoor codehergebruik zonder aanpassingen mogelijk is. Binnen een gedeelde physics-tick en renderingpipeline biedt CARLA-Air fotorealistische omgevingen met regelconform verkeer, sociaal bewuste voetgangers en aerodynamisch consistente UAV-dynamica, waarbij bij elke tick synchroon tot 18 sensormodaliteiten worden vastgelegd across alle platforms. Het platform ondersteunt representatieve lucht-grond taken voor embodied intelligence, zoals samenwerking, embodied navigatie en vision-language acties, multimodale perceptie en datasetconstructie, en op reinforcement learning gebaseerd beleidstraining. Een uitbreidbare asset-pipeline maakt integratie van aangepaste robotplatforms in de gedeelde wereld mogelijk. Door de luchtvaartcapaciteiten van AirSim – waarvan de upstream-ontwikkeling is gearchiveerd – over te nemen, zorgt CARLA-Air ervoor dat deze veelgebruikte flight stack blijft evolueren binnen een moderne infrastructuur. Uitgebracht met vooraf gebouwde binaire bestanden en volledige broncode: https://github.com/louiszengCN/CarlaAir
Het heersende Next-Token Prediction (NTP)-paradigma heeft het succes van grote taalmodellen aangedreven door middel van discrete autoregressieve modellering. Hedendaagse multimodale systemen blijven echter taalkundig centraal, waarbij niet-linguïstische modaliteiten vaak als externe aanhangsels worden behandeld, wat leidt tot gefragmenteerde architecturen en suboptimale integratie. Om deze beperking te overstijgen, introduceren wij Discrete Native Autoregressive (DiNA), een uniform raamwerk dat multimodale informatie vertegenwoordigt binnen een gedeelde discrete ruimte, waardoor een consistente en principiële autoregressieve modellering over modaliteiten heen mogelijk wordt. Een belangrijke innovatie is de Discrete Native Any-resolution Visual Transformer (dNaViT), die tokenisatie en detokenisatie op willekeurige resoluties uitvoert en continue visuele signalen omzet in hiërarchische discrete tokens. Op basis van deze fundering ontwikkelen wij LongCat-Next, een native multimodaal model dat tekst, beeld en audio verwerkt onder een enkele autoregressieve doelstelling met minimale modaliteit-specifieke ontwerpelementen. Als een industriesterkte foundationmodel blinkt het uit in zien, schilderen en praten binnen één enkel raamwerk, waarbij het sterke prestaties behaalt op een breed scala aan multimodale benchmarks. In het bijzonder doorbreekt LongCat-Next het lang bestaande prestatieplafond van discrete visuele modellering bij begripstaken en biedt het een uniforme aanpak om het conflict tussen begrip en generatie effectief te verzoenen. Als een poging richting native multimodaliteit maken wij LongCat-Next en zijn tokenizers open source, in de hoop verder onderzoek en ontwikkeling in de gemeenschap te bevorderen. GitHub: https://github.com/meituan-longcat/LongCat-Next
Het modelleren van cellulaire toestanden en het voorspellen van hun reacties op verstoringen zijn centrale uitdagingen in de computationele biologie en de ontwikkeling van virtuele cellen. Bestaande foundation-modellen voor single-cell transcriptomica bieden krachtige statische representaties, maar modelleren niet expliciet de verdeling van cellulaire toestanden voor generatieve simulatie. Hier introduceren we Lingshu-Cell, een gemaskeerd discreet diffusiemodel dat transcriptomische toestandsverdelingen leert en conditionele simulatie onder verstoring ondersteunt. Door direct te opereren in een discrete tokenruimte die compatibel is met het sparse, niet-sequentiële karakter van single-cell transcriptomische data, vangt Lingshu-Cell complexe expressie-afhankelijkheden over het gehele transcriptoom van ongeveer 18.000 genen zonder te leunen op voorafgaande genselectie, zoals filteren op hoge variabiliteit of rangschikking op expressieniveau. In diverse weefsels en soorten reproduceert Lingshu-Cell nauwkeurig transcriptomische verdelingen, marker-genexpressiepatronen en cel-subtypeverhoudingen, wat zijn vermogen aantoont om complexe cellulaire heterogeniteit te vatten. Bovendien kan Lingshu-Cell, door celtype- of donoridentiteit gezamenlijk in te bedden met verstoring, expressieveranderingen over het gehele transcriptoom voorspellen voor nieuwe combinaties van identiteit en verstoring. Het behaalt toonaangevende prestaties op de Virtual Cell Challenge H1 benchmark voor genetische verstoringen en bij het voorspellen van cytokine-geïnduceerde reacties in humane PBMC's. Gezamenlijk vestigen deze resultaten Lingshu-Cell als een flexibel cellulair wereldmodel voor in silico-simulatie van celtoestanden en verstoringsreacties, en leggen ze de basis voor een nieuw paradigma in biologische ontdekking en verstoringsscreening.
Recente multimodale generatiemodellen hebben opmerkelijke vooruitgang geboekt op algemene generatietaken, maar blijven moeite houden met complexe instructies en gespecialiseerde downstreamtaken. Geïnspireerd door het succes van geavanceerde agentframeworks zoals Claude Code, stellen we GEMS voor (Agent-Native Multimodal GEneration with Memory and Skills), een framework dat de inherente beperkingen van foundationmodellen overstijgt voor zowel algemene als downstreamtaken. GEMS is gebouwd op drie kerncomponenten. De Agent Loop introduceert een gestructureerd multi-agentframework dat de generatiekwaliteit iteratief verbetert door middel van closed-loop-optimalisatie. Agent Memory biedt een persistent, trajectniveau-geheugen dat zowel feitelijke statussen als gecomprimeerde ervaringssamenvattingen hiërarchisch opslaat, waardoor een globaal overzicht van het optimalisatieproces mogelijk is terwijl redundantie wordt verminderd. Agent Skill biedt een uitbreidbare verzameling domeinspecifieke expertise met on-demand laden, waardoor het systeem diverse downstreamtoepassingen effectief kan verwerken. Over vijf hoofdstromingtaken en vier downstreamtaken, geëvalueerd op meerdere generatieve backends, behaalt GEMS consistente significante prestatieverbeteringen. Opmerkelijk is dat het het lichtgewicht 6B-model Z-Image-Turbo in staat stelt de state-of-the-art Nano Banana 2 te overtreffen op GenEval2, wat de effectiviteit aantoont van agentsturing bij het uitbreiden van modelcapaciteiten voorbij hun oorspronkelijke limieten.
Fundamentele modellen hebben opmerkelijke successen geboekt in diverse domeinen en taken, voornamelijk dankzij de opkomst van grootschalige, diverse en hoogwaardige datasets. In het domein van medische beeldvorming is het samenstellen en cureren van dergelijke medische datasets echter zeer uitdagend vanwege de afhankelijkheid van klinische expertise en strikte ethische en privacybeperkingen. Dit resulteert in een schaarste aan grootschalige, uniforme medische datasets en belemmert de ontwikkeling van krachtige medische fundamentele modellen. In dit werk presenteren we de grootste survey tot nu toe van medische beelddatasets, waarbij meer dan 1.000 open-access datasets worden behandeld met een systematische catalogisering van hun modaliteiten, taken, anatomische gebieden, annotaties, beperkingen en integratiepotentieel. Onze analyse toont een landschap dat bescheiden is in schaal, gefragmenteerd over nauw omschreven taken, en ongelijk verdeeld over organen en modaliteiten, wat op zijn beurt de bruikbaarheid van bestaande medische beelddatasets voor het ontwikkelen van veelzijdige en robuuste medische fundamentele modellen beperkt. Om fragmentatie om te zetten in schaal, stellen we een metadata-gestuurd fusieparadigma (MDFP) voor dat openbare datasets met gedeelde modaliteiten of taken integreert, waardoor meerdere kleine databunkers worden getransformeerd in grotere, coherentere bronnen. Op basis van MDFP lanceren we een interactief discoverieportaal dat end-to-end, geautomatiseerde integratie van medische beelddatasets mogelijk maakt, en compileren we alle onderzochte datasets in een uniforme, gestructureerde tabel die hun belangrijkste kenmerken samenvat en referentielinks biedt. Dit biedt de gemeenschap een toegankelijke en uitgebreide repository. Door de huidige situatie in kaart te brengen en een principieel pad naar datasetconsolidatie te bieden, biedt onze survey een praktische routekaart voor het opschalen van medische beeldvormingscorpora, ter ondersteuning van snellere datadiscovery, meer principiële datasetcreatie en capabelere medische fundamentele modellen.
Grootschalige videodiffusiemodellen bereiken indrukwekkende visuele kwaliteit, maar slagen er vaak niet in geometrische consistentie te behouden. Eerdere benaderingen verbeteren de consistentie door de generator uit te breiden met aanvullende modules of door geometriebewuste uitlijning toe te passen. Architectuurwijzigingen kunnen echter de generalisatie van internet-schaal voorgetrainde modellen aantasten, terwijl bestaande uitlijningsmethoden beperkt zijn tot statische scènes en vertrouwen op RGB-ruimte beloningen die herhaalde VAE-decodering vereisen, wat aanzienlijke rekenkosten met zich meebrengt en niet generaliseert naar zeer dynamische real-world scènes. Om de voorgetrainde capaciteit te behouden en tegelijkertijd de geometrische consistentie te verbeteren, stellen we VGGRVO (Visual Geometry GRVO) voor, een latent geometrie-gestuurd framework voor geometriebewuste videonatraining. VGGRVO introduceert een Latent Geometrie Model (LGM) dat videodiffusielatenten verbindt met geometrie-foundationmodellen, waardoor directe decodering van scènegeometrie uit de latente ruimte mogelijk wordt. Door LGM te construeren vanuit een geometriemodel met 4D-reconstructiecapaciteit, breidt VGGRVO zich natuurlijk uit naar dynamische scènes, waardoor de beperkingen van eerdere methoden voor statische scènes worden overwonnen. Hierop voortbordurend voeren we latent-ruimte Groep Relatief Beleidsoptimalisatie uit met twee complementaire beloningen: een beloning voor vloeiende camerabeweging die schokkende trajecten penaliseert, en een beloning voor geometrische reprojectieconsistentie die kruisbeeld geometrische coherentie afdwingt. Experimenten op zowel statische als dynamische benchmarks tonen aan dat VGGRVO camerastabiliteit, geometrische consistentie en algehele kwaliteit verbetert, terwijl kostbare VAE-decodering wordt geëlimineerd, waardoor latent-ruimte geometrie-gestuurde versterkingsleren een efficiënte en flexibele aanpak wordt voor wereldconsistente videogeneratie.
Unified multimodale modellen bieden een natuurlijke en veelbelovende architectuur voor het begrijpen van diverse en complexe kennis uit de echte wereld, terwijl ze hoogwaardige afbeeldingen genereren. Ze blijven echter voornamelijk vertrouwen op bevroren parametrische kennis, waardoor ze moeite hebben met het genereren van beelden uit de echte wereld die betrekking hebben op long-tail en kennisintensieve concepten. Geïnspireerd door het brede succes van agents bij taken in de echte wereld, onderzoeken we agent-gebaseerd modelleren om deze beperking aan te pakken. Concreet presenteren we Unify-Agent, een unified multimodale agent voor wereld-gegrondde beeld-synthese, die beeldgeneratie herformuleert als een agent-gebaseerde pijplijn bestaande uit prompt-begrip, multimodaal bewijs zoeken, gegrond her-bijschrijven en uiteindelijke synthese. Om ons model te trainen, construeren we een op maat gemaakte multimodale datapijplijn en cureren we 143K hoogwaardige agent-trajecten voor wereld-gegrondde beeld-synthese, wat effectieve supervisie over het volledige agent-gebaseerde generatieproces mogelijk maakt. We introduceren verder FactIP, een benchmark die 12 categorieën van cultureel significante en long-tail feitelijke concepten bestrijkt en expliciet om gronding met externe kennis vraagt. Uitgebreide experimenten tonen aan dat onze voorgestelde Unify-Agent substantieel verbetert ten opzichte van het basale unified model over diverse benchmarks en taken voor beeldgeneratie in de echte wereld, terwijl het de wereldkennis-capaciteiten van de sterkste closed-source modellen benadert. Als een vroege verkenning van agent-gebaseerd modelleren voor wereld-gegrondde beeld-synthese, benadrukt ons werk de waarde van het nauw koppelen van redeneren, zoeken en genereren voor betrouwbare agent-gebaseerde beeld-synthese in een open wereld.
Het bewerken van videomateriaal met audiovoeging vormt een door digitale menselijke creatie gevormde kunst in hedendaagse sociale media. De tijdrovende en repetitieve aard van handmatige videobewerking is echter al lang een uitdaging voor zowel filmmakers als professionele contentmakers. In dit artikel introduceren we CutClaw, een autonoom multi-agent raamwerk ontworpen om urenlang ruw beeldmateriaal te bewerken tot betekenisvolle korte video's, dat gebruikmaakt van de capaciteiten van meerdere Multimodale Taalmodellen (MLLM's) als een agentsysteem. Het produceert video's met gesynchroniseerde muziek, die instructies volgen en een visueel aantrekkelijk uiterlijk hebben. Onze aanpak begint met een hiërarchische multimodale decompositie die zowel fijnkorrelige details als globale structuren in visueel en audiomateriaal vastlegt. Vervolgens zorgt een Playwriter Agent voor narratieve consistentie door de gehele verhaalstroom te orkestreren en het langetermijnverhaal te structureren, waarbij visuele scènes worden verankerd aan muzikale veranderingen. Ten slotte optimaliseren Editor- en Reviewer Agents gezamenlijk de uiteindelijke montage door fijnkorrelige visuele content te selecteren op basis van rigoureuze esthetische en semantische criteria. We voeren gedetailleerde experimenten uit die aantonen dat CutClaw aanzienlijk beter presteert dan state-of-the-art basismethoden in het genereren van hoogwaardige, ritme-afgestemde video's. De code is beschikbaar op: https://github.com/GVCLab/CutClaw.
De fundamentele pretrainingsfase bepaalt het plafond van de capaciteiten van een model, aangezien training-na-pretraining moeite heeft om de capaciteitsfundamenten te overwinnen die tijdens de pretraining zijn gelegd. Toch blijft deze fase cruciaal onderbelicht. Dit komt voort uit een structurele paradox: organisaties met rekenkracht opereren onder commerciële druk die transparante openbaarmaking belemmert, terwijl academische instellingen onderzoeksvrijheid hebben maar niet over rekenmiddelen op pretrainingsschaal beschikken. DaVinci-LLM bevindt zich op dit onontgonnen snijvlak, door industriële schaalgrootte te combineren met volledige onderzoeksvrijheid om de wetenschap van pretraining vooruit te helpen. Wij hanteren een volledig open paradigma dat openheid als wetenschappelijke methodologie beschouwt, waarbij we complete datapijplijnen, volledige trainingsprocessen en systematische onderzoeksresultaten vrijgeven. Omdat we erkennen dat het veld een systematische methodologie voor dataverwerking mist, gebruiken we het Data Darwinism-raamwerk, een principiële L0-L9-taxonomie van filtering tot synthese. We trainen een model met 3B parameters vanaf willekeurige initialisatie over 8T tokens met behulp van een tweefasen adaptief curriculum dat geleidelijk verschuift van fundamentele capaciteiten naar reasoning-intensieve verbetering. Door middel van meer dan 200 gecontroleerde ablatiestudies stellen we vast dat: verwerkingsdiepte capaciteiten systematisch verbetert, wat het een kritieke dimensie naast volumeschaling maakt; verschillende domeinen distincte verzadigingsdynamieken vertonen, wat adaptieve strategieën vereist, van proportie-aanpassingen tot formatverschuivingen; compositioneel evenwicht gerichte intensivering mogelijk maakt terwijl prestatiecollaps wordt voorkomen; en hoe keuzes in evaluatieprotocollen ons begrip van pretrainingsvooruitgang vormen. Door het volledige onderzoeksproces vrij te geven, stellen we de gemeenschap in staat voort te bouwen op onze bevindingen en systematische methodologieën om cumulatieve wetenschappelijke kennis over pretraining te vormen.
Grote taalmodellen (GTM's) kunnen denkketens (CoT's) genereren die niet altijd een causale verantwoordelijkheid dragen voor hun uiteindelijke uitvoer. Wanneer een dergelijke mismatch optreedt, weerspiegelt de CoT niet langer getrouw de beslissingskritieke factoren die het gedrag van het model sturen, wat leidt tot het verminderde CoT-monitorbaarheidsprobleem. Er ontbreekt echter nog steeds een uitgebreide en volledig open-source benchmark voor het bestuderen van CoT-monitorbaarheid. Om deze leemte op te vullen, stellen wij MonitorBench voor, een systematische benchmark voor het evalueren van CoT-monitorbaarheid in GTM's. MonitorBench biedt: (1) een diverse set van 1.514 testgevallen met zorgvuldig ontworpen beslissingskritieke factoren verspreid over 19 taken in 7 categorieën, om te karakteriseren wanneer CoT's kunnen worden gebruikt om de factoren die GTM-gedrag sturen te monitoren; en (2) twee stresstest-omgevingen om te kwantificeren in welke mate de CoT-monitorbaarheid kan afnemen. Uitgebreide experimenten met meerdere populaire GTM's met uiteenlopende capaciteiten tonen aan dat de CoT-monitorbaarheid hoger is wanneer het produceren van het uiteindelijke doelantwoord structureel redeneren via de beslissingskritieke factor vereist. Closed-source GTM's vertonen over het algemeen een lagere monitorbaarheid, en er bestaat een negatief verband tussen monitorbaarheid en modelcapaciteit. Bovendien kunnen zowel open- als closed-source GTM's de monitorbaarheid opzettelijk verminderen onder stresstests, waarbij de monitorbaarheid in sommige taken die geen structureel redeneren over de beslissingskritieke factoren vereisen met wel 30% daalt. Naast deze empirische inzichten biedt MonitorBench een basis voor verder onderzoek naar het evalueren van toekomstige GTM's, het bestuderen van geavanceerde monitorbaarheidstechnieken onder stresstests en het ontwikkelen van nieuwe monitoringbenaderingen.
In dit artikel presenteren we Extend3D, een trainingsvrije pijplijn voor 3D-scènegeneratie vanuit een enkele afbeelding, gebaseerd op een objectgecentreerd 3D-generatief model. Om de beperkingen van latentruimtes met vaste grootte in objectgecentreerde modellen voor het representeren van brede scènes te overwinnen, breiden we de latentruimte uit in de x- en y-richting. Vervolgens delen we de uitgebreide latentruimte in overlappende patches op en passen we het objectgecentreerde 3D-generatief model toe op elke patch, waarbij we deze op elk tijdstip koppelen. Omdat patchgewijze 3D-generatie met afbeeldingsconditionering een strikte ruimtelijke uitlijning vereist tussen afbeeldings- en latentepatches, initialiseren we de scène met een puntenwolk-prior van een monocular diepteschatter en verfijnen we occulte gebieden iteratief via SDEdit. Wij ontdekten dat het behandelen van de onvolledigheid van de 3D-structuur als ruis tijdens 3D-verfijning 3D-voltooiing mogelijk maakt via een concept dat wij *under-noising* noemen. Verder, om de suboptimaliteit van objectgecentreerde modellen voor subscènegeneratie aan te pakken, optimaliseren we de uitgebreide latentruimte tijdens de denoisering, om ervoor te zorgen dat de denoiseringstrajecten consistent blijven met de subscènedynamiek. Hiertoe introduceren we 3D-bewuste optimalisatiedoelen voor verbeterde geometrische structuur en textuurgetrouwheid. Wij tonen aan dat onze methode betere resultaten oplevert dan eerdere methoden, zoals blijkt uit menselijke voorkeur en kwantitatieve experimenten.
Het genereren van wetenschappelijke ideeën (SIG) is cruciaal voor AI-gestuurd autonoom onderzoek, maar bestaande benaderingen worden vaak beperkt door een statisch retrieval-then-generation paradigma, wat leidt tot homogene en onvoldoende divergerende ideeën. In dit werk stellen we FlowPIE voor, een nauw gekoppeld retrieval-generatie raamwerk dat literatuurverkenning en ideeëngeneratie behandelt als een co-evoluerend proces. FlowPIE breidt literatuurtrajecten uit via een Monte Carlo Tree Search (MCTS) met stroomgeleiding, geïnspireerd door GFlowNets, waarbij de kwaliteit van huidige ideeën – beoordeeld door een op een grote taalmodel (LLM) gebaseerd generatief beloningsmodel (GRM) – als supervisiesignaal dient om adaptieve retrieval aan te sturen en een diverse, hoogwaardige initiële populatie te construeren. Gebaseerd op deze populatie modelleert FlowPIE ideeëngeneratie als een testtime ideeënevolutieproces, waarbij selectie, crossover en mutatie worden toegepast volgens het isolatie-eilandparadigma en GRM-gebaseerde fitnessberekening om kruisdominante kennis te integreren. Het vermindert effectief de informatiecocons die ontstaan door overmatige afhankelijkheid van parametrische kennis en statische literatuur. Uitgebreide evaluaties tonen aan dat FlowPIE consistent ideeën produceert met hogere nieuwswaarde, haalbaarheid en diversiteit vergeleken met krachtige LLM-gebaseerde en agent-gebaseerde raamwerken, terwijl het beloningsschaling tijdens testtime mogelijk maakt.
Recente vooruitgang in redenerende Large Language Models (LLM's) heeft vooral gesteund op voorafgaand denken, waarbij de redenering plaatsvindt vóór het definitieve antwoord. Deze aanpak kampt echter met kritieke beperkingen bij codegeneratie, waar voorafgaand denken vaak ontoereikend is omdat de volledige complexiteit van problemen zich pas openbaart tijdens de implementatie van de code. Bovendien kan het niet adaptief de redeneerinspanning toewijzen gedurende het codegeneratieproces, waar de moeilijkheidsgraad aanzienlijk varieert. In dit artikel stellen we Think-Anywhere voor, een nieuwe redeneermechanisme dat LLM's in staat stelt om op elk tekenpositie tijdens de codegeneratie on-demand te redeneren. We realiseren Think-Anywhere door eerst LLM's aan te leren de redeneerpatronen te imiteren via cold-start training, en vervolgens outcome-based RL-beloningen te benutten om het model aan te sturen in zijn autonome exploratie van wanneer en waar te redeneren. Uitgebreide experimenten op vier gangbare codegeneratiebenchmarks (namelijk LeetCode, LiveCodeBench, HumanEval en MBPP) tonen aan dat Think-Anywhere state-of-the-art prestaties bereikt, zowel ten opzichte van bestaande redeneermethoden als recente post-training benaderingen, terwijl het consistente generalisatie aantoont over diverse LLM's. Onze analyse laat verder zien dat Think-Anywhere het model in staat stelt om adaptief te redeneren op posities met hoge entropie, wat een verbeterde interpreteerbaarheid biedt.
Recente vooruitgang in beeldgeneratiemodellen heeft hun toepassingen uitgebreid van esthetische beeldvorming naar praktische visuele contentcreatie. Bestaande benchmarks richten zich echter voornamelijk op de synthese van natuurlijke beelden en slagen er niet in om modellen systematisch te evalueren onder de gestructureerde en multi-constraint vereisten van real-world commerciële ontwerptaken. In dit werk introduceren we BizGenEval, een systematische benchmark voor commerciële visuele contentgeneratie. De benchmark omvat vijf representatieve documenttypen: presentaties, grafieken, webpagina's, posters en wetenschappelijke figuren, en evalueert vier belangrijke capaciteitsdimensies: tekstweergave, lay-outcontrole, attribuutbinding en op kennis gebaseerd redeneren, wat resulteert in 20 diverse evaluatietaken. BizGenEval bevat 400 zorgvuldig samengestelde prompts en 8000 door mensen geverifieerde checklistvragen om rigoureus te beoordelen of gegenereerde afbeeldingen aan complexe visuele en semantische constraints voldoen. We voeren grootschalige benchmarking uit op 26 populaire beeldgeneratiesystemen, waaronder state-of-the-art commerciële API's en toonaangevende open-source modellen. De resultaten onthullen aanzienlijke capaciteitskloof tussen huidige generatieve modellen en de vereisten van professionele visuele contentcreatie. We hopen dat BizGenEval dient als een gestandaardiseerde benchmark voor real-world commerciële visuele contentgeneratie.
Het vermogen om een plat vel om te vormen tot een complexe driedimensionale structuur is een fundamentele test van fysieke intelligentie. In tegenstelling tot het manipuleren van doek wordt origami beheerst door strikte geometrische axioma's en harde kinematische beperkingen, waarbij een enkele ongeldige vouw of botsing de gehele vouwsequentie ongeldig kan maken. Origami vereist daarom een constructief redeneerproces op lange termijn dat zowel aan precieze fysieke wetten als aan hoogwaardige semantische intentie voldoet. Bestaande benaderingen vallen uiteen in twee gescheiden paradigma's: op optimalisatie gebaseerde methoden handhaven fysieke geldigheid maar vereisen dichte, nauwkeurig gespecificeerde invoer, waardoor ze ongeschikt zijn voor schaarse beschrijvingen in natuurlijke taal, terwijl generatieve foundation-modellen uitblinken in semantische en perceptuele synthese, maar er niet in slagen om vouwprocessen op lange termijn te produceren die consistent zijn met de fysica. Bijgevolg blijft het genereren van geldige origami-vouwsequenties rechtstreeks vanuit tekst een open uitdaging. Om deze kloof te overbruggen, introduceren we Learn2Fold, een neuro-symbolisch raamwerk dat origami-vouwen formuleert als conditionele programma-inductie over een vouwpatroongrafiek. Onze belangrijkste inzicht is het ontkoppelen van semantische voorstellen en fysieke verificatie. Een groot taalmodel genereert kandidaat-vouwprogramma's vanuit abstracte tekstprompts, terwijl een geleerd grafisch gestructureerd wereldmodel dient als een differentieerbare surrogaatsimulator die de fysieke haalbaarheid en faalwijzen voorspelt vóór uitvoering. Geïntegreerd in een vooruitkijkende planningslus stelt Learn2Fold robuuste generatie van fysiek geldige vouwsequenties mogelijk voor complexe en buiten-de-verdeling patronen, wat aantoont dat effectieve ruimtelijke intelligentie voortkomt uit de synergie tussen symbolisch redeneren en gegronde fysieke simulatie.
Perceptiegerichte systemen worden doorgaans geïmplementeerd met een modulaire encoder-decoderpijplijn: een visuele backbone voor kenmerkextractie en een aparte decoder (of late-fusiemodule) voor taakvoorspelling. Dit roept een centrale vraag op: is deze architecturale scheiding essentieel, of kan een enkele early-fusionstack zowel perceptie als taakmodellering op schaal uitvoeren? Wij introduceren Falcon Perception, een verenigde dense Transformer die beeldpatches en teksttokens vanaf de eerste laag verwerkt in een gedeelde parameterruimte, gebruikmakend van een hybride aandachtspatroon (bidirectioneel tussen beeldtokens, causaal voor voorspellingstokens) om globale visuele context te combineren met autoregressieve, variabele-lengte instantiegeneratie. Om dense outputs praktisch houdbaar te maken, behoudt Falcon Perception een lichtgewicht tokeninterface en decodeert het continue ruimtelijke outputs met gespecialiseerde heads, waardoor parallelle voorspelling van hoogresolutiemaskers mogelijk wordt. Ons ontwerp bevordert eenvoud: we houden een enkele schaalbare backbone aan en verschuiven complexiteit naar data en trainingssignalen, waarbij we alleen kleine heads toevoegen waar outputs continu en dense zijn. Op SA-Co verbetert Falcon Perception de maskerkwaliteit naar 68.0 Macro-F_1 vergeleken met 62.3 van SAM3. We introduceren ook PBench, een benchmark gericht op compositionele prompts (OCR, ruimtelijke constraints, relaties) en dense long-context regimes, waar het model betere verbeteringen laat zien. Ten slotte breiden we hetzelfde early-fusionrecept uit naar Falcon OCR: een compact 300M-parameter model dat 80.3% haalt op olmOCR en 88.64 op OmniDocBench.
Grote taalmodellen falen systematisch wanneer een opvallende oppervlakte-aanwijzing botst met een onuitgesproken haalbaarheidsbeperking. Wij onderzoeken dit via een diagnoseer-meet-overbrug-behandel raamwerk. Causaal-gedragsanalyses van het "carwash-probleem" bij zes modellen onthullen ongeveer context-onafhankelijke sigmoïde heuristieken: de afstandsaanwijzing heeft 8,7 tot 38 keer meer invloed dan het doel, en token-level attributie toont patronen die meer consistent zijn met trefwoordassociaties dan met compositionele inferentie. De Heuristic Override Benchmark (HOB) – 500 instanties verspreid over 4 heuristiek- en 5 beperkingsfamilies met minimale paren en gradaties van explicietheid – toont de algemene geldigheid aan bij 14 modellen: onder strikte evaluatie (10/10 correct) haalt geen enkel model meer dan 75%, en aanwezigheidsbeperkingen zijn het moeilijkst (44%). Een minimale hint (bijvoorbeeld door het sleutelobject te benadrukken) levert gemiddeld +15 procentpunt herstel, wat suggereert dat de fout ligt in het afleiden van de beperking en niet in ontbrekende kennis; 12 van de 14 modellen presteren slechter wanneer de beperking wordt verwijderd (tot -39 pp), wat een conservatieve bias onthult. Parametrische probes bevestigen dat het sigmoïde patroon generaliseert naar kosten-, efficiëntie- en semantische-gelijkenisheuristieken; prompting met doel-decompositie herstelt +6 tot 9 pp door modellen te dwingen precondities op te sommen voor het antwoorden. Samen karakteriseren deze resultaten heuristische override als een systematische kwetsbaarheid in redeneren en bieden ze een benchmark om vooruitgang in het oplossen ervan te meten.
Continuele voortraining wordt veelvuldig gebruikt om grote taalmodelen aan te passen aan doeltalen en -domeinen, maar de mengverhouding van de trainingsgegevens blijft een gevoelige hyperparameter die kostbaar is om af te stemmen: ze moet voor aanvang van de training worden vastgesteld, en een suboptimale keuze kan weken aan rekentijd verspillen. In dit werk stellen we OptiMer voor, dat de verhoudingsselectie ontkoppelt van de training: we trainen één CPT-model per dataset, extraheren de distributievector van elk model, die de parametersverschuiving vertegenwoordigt die door die dataset wordt veroorzaakt, en zoeken achteraf naar optimale samenstellingsgewichten via Bayesiaanse optimalisatie. Experimenten met Gemma 3 27B voor talen (Japans, Chinees) en domeinen (Wiskunde, Code) tonen aan dat OptiMer consistent beter presteert dan baseline-methoden voor datamengsels en modelaveraging, met 15-35 keer lagere zoekkosten. Belangrijke bevindingen onthullen dat 1) de geoptimaliseerde gewichten kunnen worden geïnterpreteerd als datamengverhoudingen, en dat hertraining met deze verhoudingen CPT met datamengsels verbetert, en 2) dezelfde vectorpool voor een gegeven doelstelling opnieuw kan worden geoptimaliseerd zonder enige hertraining, waardoor op maat gemaakte modellen op aanvraag worden geproduceerd. Ons werk toont aan dat de selectie van datamengverhoudingen, traditioneel een beslissing vóór de training, kan worden hervormd tot een achteraf-optimalisatie over distributievectoren, wat een flexibeler paradigma biedt voor continue voortraining.
Recente multimodale gezichtsgeneratiemodellen adresseren de ruimtelijke controlebeperkingen van tekst-naar-beeld diffusiemodellen door de op tekst gebaseerde conditionering aan te vullen met ruimtelijke priors zoals segmentatiemaskers, schetsen of edge maps. Deze multimodale fusie maakt controleerbare synthese mogelijk die is afgestemd op zowel hoog-niveau semantische intentie als laag-niveau structurele lay-out. De meeste bestaande benaderingen breiden echter typisch vooraf getrainde tekst-naar-beeld pijplijnen uit door aanvullende controlemodules toe te voegen of aparte unimodale netwerken aan elkaar te hechten. Deze ad-hoc-ontwerpen erven architecturale beperkingen, dupliceren parameters en falen vaak bij conflicterende modaliteiten of niet-overeenkomende latente ruimten, wat hun vermogen beperkt om synergetische fusie over semantische en ruimtelijke domeinen uit te voeren. Wij introduceren MMFace-DiT, een verenigde dual-stream diffusie transformer ontworpen voor synergetische multimodale gezichtssynthese. De kernnoviteit ligt in een dual-stream transformerblok dat ruimtelijke (masker/schets) en semantische (tekst) tokens parallel verwerkt en ze diep fuseert door een gedeeld Rotary Position-Embedded (RoPE) Attention-mechanisme. Dit ontwerp voorkomt modaliteitsdominantie en zorgt voor sterke naleving van zowel tekstuele als structurele priors om een ongekende ruimtelijk-semantische consistentie te bereiken voor controleerbare gezichtsgeneratie. Bovendien stelt een nieuwe Modaliteits-Embedder een enkele samenhangende model in staat om dynamisch aan te passen aan variërende ruimtelijke condities zonder hertraining. MMFace-DiT behaalt een 40% verbetering in visuele trouw en promptnaleving ten opzichte van zes state-of-the-art multimodale gezichtsgeneratiemodellen, en vestigt zo een flexibel nieuw paradigma voor end-to-end controleerbaar generatief modelleren. De code en dataset zijn beschikbaar op onze projectpagina: https://vcbsl.github.io/MMFace-DiT/
Generatieve videomodellen hebben de fotorealistische synthese van extreem weer voor autonome voertuigen aanzienlijk vooruitgebracht; zij vereisen echter steevast enorme datasets om zeldzame weersscenario's aan te leren. Hoewel 3D-bewerkingsmethoden met ruimtelijk bewustzijn deze databeperkingen verlichten door bestaand videomateriaal aan te vullen, worden zij fundamenteel beperkt door kostbare optimalisatie per scène en lijden zij onder inherente verstrengeling van geometrie en belichting. In dit werk introduceren wij AutoWeather4D, een voorwaarts-gericht 3D-weersbewerkingsraamwerk dat expliciet geometrie en belichting ontkoppelt. De kern van onze aanpak is een G-buffer Dual-pass Bewerkingsmechanisme. De Geometriepass benut expliciete structurele fundamenten om oppervlakte-verankerde fysieke interacties mogelijk te maken, terwijl de Lichtpass analytisch de lichttransportvergelijking oplost en bijdragen van lokale lichtbronnen accumuleert in de globale belichting om dynamische 3D-lokale herbelichting te realiseren. Uitgebreide experimenten tonen aan dat AutoWeather4D een vergelijkbaar realisme en structurele consistentie bereikt als generatieve baseline-methoden, waarbij het tegelijkertijd fijnmazige parametrische fysieke controle mogelijk maakt, en zo fungeert als een praktische data-engine voor autonoom rijden.
Grote taalmmodellen (LLM's) worden veelvuldig gebruikt als kennisbackbone voor Grote Audiotaalmodellen (LALM's), maar het blijft onduidelijk hoeveel auditieve kennis ze coderen via tekstgebaseerde voorafgaande training en hoe dit de prestaties downstream beïnvloedt. Wij onderzoeken deze kloof door verschillende LLM's te vergelijken onder twee tekstgebaseerde en één audiogebonden setting: (1) directe probing op AKB-2000, een samengestelde benchmark die de breedte en diepte van auditieve kennis test; (2) cascade-evaluatie, waarbij LLM's redeneren op basis van tekstbeschrijvingen van een audiobeschrijver; en (3) audiogebonden evaluatie, waarbij elk LLM wordt gefinetuned tot een LALM met een audio-encoder. Onze bevindingen tonen aan dat auditieve kennis aanzienlijk varieert tussen modelfamilies, en dat tekstgebaseerde resultaten sterk gecorreleerd zijn met audioprestaties. Ons werk biedt een empirische basis voor een uitgebreid begrip van LLM's in audio-onderzoek.
Het verkrijgen van gelabelde datasets voor 3D-meshschatting van het menselijk lichaam is uitdagend vanwege diepte-ambiguïteit en de inherente moeilijkheid van het annoteren van 3D-geometrie vanuit monocular beelden. Bestaande datasets zijn ofwel realistisch, met handmatig geannoteerde 3D-geometrie en beperkte schaal, ofwel synthetisch, gegenereerd door 3D-engines die precieze labels bieden maar lijden onder beperkte fotorealistische kwaliteit, lage diversiteit en hoge productiekosten. In dit werk verkennen we een derde weg: gegenereerde data. We introduceren PoseDreamer, een nieuwe pijplijn die diffusiemodellen benut om grootschalige synthetische datasets met 3D-meshannotaties te genereren. Onze aanpak combineert controleerbare beeldgeneratie met Direct Preference Optimization voor controle-uitlijning, curriculumgebaseerde mining van moeilijke voorbeelden en meerfasige kwaliteitsfiltering. Samen handhaven deze componenten natuurlijke correspondentie tussen 3D-labels en gegenereerde beelden, waarbij prioriteit wordt gegeven aan uitdagende voorbeelden om de bruikbaarheid van de dataset te maximaliseren. Met PoseDreamer genereren we meer dan 500.000 hoogwaardige synthetische samples, wat een verbetering van 76% oplevert in beeldkwaliteitsmetingen vergeleken met op rendering gebaseerde datasets. Modellen getraind op PoseDreamer bereiken prestaties die vergelijkbaar of superieur zijn aan modellen getraind op real-world en traditionele synthetische datasets. Bovendien resulteert het combineren van PoseDreamer met synthetische datasets in betere prestaties dan het combineren van real-world en synthetische datasets, wat de complementaire aard van onze dataset aantoont. We zullen de volledige dataset en generatiecode vrijgeven.
Wij introduceren VectorGym, een uitgebreide benchmark-suite voor Scalable Vector Graphics (SVG) die zich uitstrekt over generatie vanuit tekst en schetsen, complexe bewerking en visueel begrip. VectorGym voorziet in het gebrek aan realistische, uitdagende benchmarks die zijn afgestemd op professionele ontwerpwerkstromen. Onze benchmark omvat vier taken met door experts handmatig gemaakte annotaties: de nieuwe Sketch2SVG-taak (VG-Sketch); een nieuwe SVG-bewerkingsdataset (VG-Edit) met complexe, meerstaps bewerkingen met hogere-orde-primitieven; Text2SVG-generatie (VG-Text); en SVG-beschrijving (VG-Cap). In tegenstelling tot eerdere benchmarks die afhankelijk zijn van synthetische bewerkingen, biedt VectorGym gouden-standaard menselijke annotaties die semantisch begrip en ontwerpintentie vereisen. Wij stellen ook een multi-task reinforcement learning-benadering voor die gezamenlijk optimaliseert over alle vier taken op basis van rendering-gebaseerde beloningen. Onze methode, gebouwd op GRPO met curriculum learning, traint een Qwen3-VL 8B-model dat state-of-the-art prestaties bereikt onder open-source modellen, waarbij het grotere modellen waaronder Qwen3-VL 235B overtreft en evenaart met GPT-4o. Wij introduceren ook een VLM-as-a-Judge-maatstaf voor SVG-generatie, gevalideerd door middel van menselijke correlatiestudies. Onze evaluatie van frontier VLMs onthult aanzienlijke prestatiekloof, waardoor VectorGym zich positioneert als een rigoureus raamwerk voor het bevorderen van visuele codegeneratie. VectorGym is publiekelijk beschikbaar op huggingface.co/datasets/ServiceNow/VectorGym.
Op instructies gebaseerde multimodale beeldmanipulatie heeft recentelijk snelle vooruitgang geboekt. Bestaande evaluatiemethoden ontberen echter een systematisch en mensgericht kader voor het beoordelen van modelprestaties bij complexe en creatieve bewerkingstaken. Om deze leemte op te vullen, stellen we CREval voor, een volledig geautomatiseerd op vraag-antwoord (QA) gebaseerd evaluatieproces dat de onvolledigheid en slechte interpreteerbaarheid van ondoorzichtige scores van Multimodale Large Language Models (MLLM's) overwint. Tegelijkertijd introduceren we CREval-Bench, een uitgebreide benchmark die specifiek is ontworpen voor creatieve beeldmanipulatie onder complexe instructies. CREval-Bench omvat drie categorieën en negen creatieve dimensies, bestaande uit meer dan 800 bewerkingsvoorbeelden en 13.000 evaluatievragen. Door gebruik te maken van deze pijplijn en benchmark, evalueren we systematisch een diverse reeks state-of-the-art open-source en gesloten modellen. De resultaten tonen aan dat hoewel gesloten modellen over het algemeen beter presteren dan open-source modellen bij complexe en creatieve taken, alle modellen nog steeds moeite hebben om dergelijke bewerkingen effectief uit te voeren. Bovendien tonen gebruikersstudies een sterke consistentie aan tussen de geautomatiseerde metrieken van CREval en menselijke oordelen. CREval biedt daarom een betrouwbare basis voor het evalueren van beeldbewerkingsmodellen bij complexe en creatieve beeldmanipulatietaken, en belicht belangrijke uitdagingen en kansen voor toekomstig onderzoek.
Onbeperkte 3D-wereldgeneratie komt naar voren als een fundamentele taak voor scènemodellering in computervisie, grafische technieken en robotica. In dit werk presenteren we WorldFlow3D, een nieuwe methode die in staat is om onbeperkte 3D-werelden te genereren. Voortbordurend op een fundamentele eigenschap van flow matching - namelijk het definiëren van een transportpad tussen twee dataverdelingen - modelleren we 3D-generatie algemener als een probleem van stroming door 3D-dataverdelingen, niet beperkt tot conditionele denoisering. Wij constateren dat onze latentievrije flow-aanpak causale en accurate 3D-structuur genereert, en dit kan gebruiken als een tussenverdeling om de generatie van complexere structuur en hoogwaardige textuur te sturen - allemaal terwijl het sneller convergeert dan bestaande methoden. Wij maken controleerbaarheid over gegenereerde scènes mogelijk met gevectoriseerde scènelay-outcondities voor geometrische structuurcontrole en visuele textuurcontrole via scène-attributen. Wij bevestigen de effectiviteit van WorldFlow3D op zowel echte buitenrijscènes als synthetische binnenscènes, waarbij cross-domein generaliseerbaarheid en hoogwaardige generatie op echte dataverdelingen worden gevalideerd. Wij constateren een gunstige scènegeneratiefideliteit ten opzichte van benaderingen in alle geteste settings voor onbeperkte scènegeneratie. Voor meer informatie, zie https://light.princeton.edu/worldflow3d.
Nauwkeurige privacy-evaluatie van tekstuele gegevens blijft een kritieke uitdaging in privacy-bewarende natuurlijke-taalbewerking. Recent onderzoek heeft aangetoond dat grote taalmodel(len) (LLM's) kunnen fungeren als betrouwbare privacy-evaluatoren, waarbij ze een sterke overeenkomst met menselijke oordelen bereiken; hun rekenkundige kosten en onpraktische karakter voor het verwerken van gevoelige gegevens op grote schaal beperken echter de inzet in de praktijk. Wij dichten deze kloof door de privacybeoordelingscapaciteiten van Mistral Large 3 (675B) te distilleren in lichtgewicht encodermodellen met slechts 150M parameters. Door gebruik te maken van een grootschalige dataset met privacy-geannoteerde teksten uit 10 diverse domeinen, trainen we efficiënte classificatoren die een sterke overeenkomst met menselijke annotaties behouden terwijl de rekenvereisten aanzienlijk worden verminderd. We valideren onze aanpak op door mensen geannoteerde testgegevens en demonstreren de praktische bruikbaarheid ervan als evaluatiemetriek voor deïdentificatiesystemen.
Bestaande methoden voor hand-objectinteracties (HOI) zijn grotendeels beperkt tot rigide objecten, terwijl 4D-reconstructiemethoden voor gearticuleerde objecten over het algemeen voorafscannen van het object of zelfs multivideo's vereisen. Het reconstrueren van 4D mens-gearticuleerd-objectinteracties vanuit een enkele monocular RGB-video blijft een onontgonnen maar significante uitdaging. Gelukkig bieden recente ontwikkelingen in foundationmodellen een nieuwe kans om dit sterk ill-posed probleem aan te pakken. Daartoe introduceren wij ArtHOI, een op optimalisatie gebaseerd raamwerk dat kennispriors van meerdere foundationmodellen integreert en verfijnt. Onze belangrijkste bijdrage is een reeks nieuwe methodologieën ontworpen om de inherente onnauwkeurigheden en fysieke onrealiteit van deze priors op te lossen. In het bijzonder introduceren we een Adaptive Sampling Refinement (ASR)-methode om de metrieke schaal en pose van het object te optimaliseren voor het verankeren van zijn genormaliseerde mesh in de wereldruimte. Verder stellen we een door een Multimodal Large Language Model (MLLM) geleide hand-objectuitlijningsmethode voor, waarbij contactredeneringsinformatie wordt gebruikt als constraints voor de optimalisatie van de hand-object mesh-compositie. Om een uitgebreide evaluatie mogelijk te maken, dragen we ook twee nieuwe datasets bij, ArtHOI-RGBD en ArtHOI-Wild. Uitgebreide experimenten valideren de robuustheid en effectiviteit van onze ArtHOI voor diverse objecten en interacties. Project: https://arthoi-reconstruction.github.io.
Vision-language models (VLMs) worden op grote schaal toegepast voor 3D-vraag-antwoordtaken (3D QA). In typische pijplijnen worden visuele tokens, geëxtraheerd vanuit meerdere gezichtspunten, samengevoegd met taaltokens en gezamenlijk verwerkt door een groot taalmodel (LLM) voor inferentie. Het samenvoegen van waarnemingen vanuit meerdere perspectieven introduceert echter onvermijdelijk ernstige tokenredundantie, wat leidt tot een te grote set visuele tokens die de inferentie-efficiëntie aanzienlijk belemmert bij beperkte tokenbudgetten. Visuele tokensnoei is naar voren gekomen als een veelgebruikte strategie om dit probleem aan te pakken. Desalniettemin zijn de meeste bestaande snoeimethoden voornamelijk afgestemd op 2D-inputs of zijn afhankelijk van indirecte geometrische aanwijzingen, wat hun vermogen beperkt om expliciet semantisch cruciale objecten te behouden en voldoende ruimtelijke dekking te handhaven voor robuuste 3D-redenering. In dit artikel stellen we SeGPruner voor, een semantisch-bewust en geometrisch-gestuurd raamwerk voor tokenreductie voor efficiënte 3D QA met meerdere beeldweergaven. Concreet behoudt SeGPruner eerst semantisch prominente tokens via een op aandacht gebaseerde belangrijkheidsmodule (Saliency-aware Token Selector), waardoor object-kritisch bewijs behouden blijft. Vervolgens worden deze tokens aangevuld met ruimtelijk diverse tokens via een geometrisch-gestuurde selector (Geometry-aware Token Diversifier), die zowel semantische relevantie als 3D-geometrische afstand gezamenlijk in overweging neemt. Deze samenwerking tussen prominentiebehoud en geometrisch-gestuurde diversificatie balanceert objectniveau-bewijs en globale scenedekking onder agressieve tokenreductie. Uitgebreide experimenten op ScanQA en OpenEQA tonen aan dat SeGPruner de inferentie-efficiëntie aanzienlijk verbetert, waarbij het visuele tokenbudget met 91% en de inferentielatentie met 86% wordt gereduceerd, terwijl competitieve prestaties in 3D-redeneertaken worden gehandhaafd.
Vroegtijdige screening via coloscopie is cruciaal voor de preventie van darmkanker, maar de ontwikkeling van robuuste AI-systemen voor dit domein wordt belemmerd door een gebrek aan dicht geannoteerde, lange videoreeksen. Bestaande datasets richten zich voornamelijk op de detectie van poliepen in één klasse en missen de rijke ruimtelijke, temporele en linguïstische annotaties die nodig zijn om moderne Multimodale Large Language Models (MLLM's) te evalueren. Om dit kritieke hiaat op te vullen, introduceren wij Colon-Bench, gegenereerd via een nieuwe multi-staps agent-gebaseerde workflow. Onze pijplijn integreert naadloos temporele voorstellen, bounding-box tracking, AI-gestelde visuele bevestiging en menselijke review om op schaal volledige procedurevideo's te annoteren. De resulterende geverifieerde benchmark is zonder precedent in omvang, met 528 video's, 14 verschillende letselcategorieën (inclusief poliepen, zweren en bloedingen), meer dan 300.000 bounding boxes, 213.000 segmentatiemaskers en 133.000 woorden aan klinische beschrijvingen. Wij gebruiken Colon-Bench om state-of-the-art MLLM's rigoureus te evalueren op letselclassificatie, Open-Vocabulary Video Object Segmentation (OV-VOS) en video Visual Question Answering (VQA). De MLLM-resultaten tonen verrassend hoge localisatieprestaties in medische domeinen vergeleken met SAM-3. Ten slotte analyseren wij veelvoorkomende VQA-fouten van MLLM's om een nieuwe "colon-skill" promptingstrategie te introduceren, die de zero-shot MLLM-prestaties bij de meeste MLLM's met tot 9,7% verbetert. De dataset en de code zijn beschikbaar op https://abdullahamdi.com/colon-bench.
Transformer-architecturen, met name Diffusion Transformers (DiTs), worden vanwege hun sterke prestaties in vergelijking met convolutionele UNets veelvuldig gebruikt in diffusie- en flow-matchingmodellen. Het isotrope ontwerp van DiTs verwerkt echter in elk blok hetzelfde aantal gepatchte tokens, wat leidt tot relatief zware rekenkosten tijdens het trainen. In dit werk introduceren we een multi-patch transformer-ontwerp waarin vroege blokken werken op grotere patches om grove globale context vast te leggen, terwijl latere blokken kleinere patches gebruiken om lokale details te verfijnen. Dit hiërarchische ontwerp kan de rekenkosten met tot 50% in GFLOPs verminderen en tegelijkertijd een goede generatieve prestatie behalen. Daarnaast stellen we ook verbeterde ontwerpen voor tijd- en klasse-embeddingen voor die de trainingsconvergentie versnellen. Uitgebreide experimenten op de ImageNet-dataset demonstreren de effectiviteit van onze architecturale keuzes. Code is vrijgegeven op https://github.com/quandao10/MPDiT.
LiDAR is een essentiële waarnemingstechnologie geworden in toepassingen zoals autonoom rijden, robotica en smart-city-projecten. Echter verminderen spookpunten (of 'ghosts') – valse reflecties veroorzaakt door multi-path laserretour van glas en reflecterende oppervlakken – de nauwkeurigheid van 3D-mapping en lokalisatie aanzienlijk. Bestaande methoden voor spookpuntenverwijdering steunen op geometrische consistentie in dichte puntenwolken, maar falen bij de schaarse, dynamische data van mobiele LiDAR. Wij pakken dit aan door gebruik te maken van full-waveform LiDAR (FWL), dat complete temporele intensiteitsprofielen vastlegt in plaats van alleen piekafstanden, wat cruciale aanwijzingen biedt om spookpunten te onderscheiden van echte reflecties in mobiele scenario's. Aangezien dit een nieuwe taak is, presenteren wij Ghost-FWL, de eerste en grootste geannoteerde mobiele FWL-dataset voor spookpuntdetectie en -verwijdering. Ghost-FWL omvat 24.000 frames uit 10 uiteenlopende scènes, met 7,5 miljard piekniveau-annotaties, wat 100 keer groter is dan bestaande geannoteerde FWL-datasets. Dankzij deze grootschalige dataset vestigen we een FWL-gebaseerd basismodel voor spookpuntdetectie en stellen we FWL-MAE voor, een gemaskeerde auto-encoder voor efficiënte zelfgesuperviseerde representatieleren op FWL-data. Experimenten tonen aan dat ons basismodel superieur presteert in nauwkeurigheid van spookpuntenverwijdering ten opzichte van bestaande methoden, en dat onze spookpuntenverwijdering downstream-taken verder verbetert, zoals LiDAR-gebaseerde SLAM (66% reductie in trajectfout) en 3D-objectdetectie (50x vermindering van false positives). De dataset en code zijn openbaar beschikbaar en toegankelijk via de projectpagina: https://keio-csg.github.io/Ghost-FWL.
Patiëntenvoorlichtingsmaterialen voor vaste-orgaantransplantaties verschillen aanzienlijk tussen Amerikaanse centra, maar er bestaat geen systematische methode om deze heterogeniteit op grote schaal te kwantificeren. Wij introduceren een raamwerk dat dezelfde patiëntenvragen verankert in verschillende handboeken van centra met behulp van retrieval-augmented taalmodellen en de resulterende antwoorden vergelijkt aan de hand van een taxonomie met vijf consistentielabels. Toegepast op 102 handboeken van 23 centra en 1.115 benchmarkvragen, kwantificeert het raamwerk heterogeniteit langs vier dimensies: vraag, onderwerp, orgaan en centrum. Wij constateren dat 20,8% van de niet-afwezige paarsgewijze vergelijkingen klinisch betekenisvolle divergentie vertoont, geconcentreerd in onderwerpen als conditiemonitoring en leefstijl. Dekkingshiaten zijn nog prominenter: 96,2% van de vraag-handboekcombinaties mist relevante content, waarbij reproductieve gezondheid met 95,1% afwezigheid het hoogst scoort. Divergentieprofielen op centrumniveau zijn stabiel en interpreteerbaar, waarbij heterogeniteit systematische institutionele verschillen reflecteert, waarschijnlijk door patiëntdiversiteit. Deze bevindingen leggen een informatiekloof bloot in transplantatiepatiëntenvoorlichtingsmaterialen, waarbij document-gefundeerde medische vraagbeantwoording kansen voor contentverbetering belicht.
Flicker-artefacten, die voortkomen uit onstabiele verlichting en rijgewijze belichtingsinconsistenties, vormen een grote uitdaging bij fotografie met korte belichtingstijden en verslechteren de beeldkwaliteit aanzienlijk. In tegenstelling tot typische artefacten zoals ruis en weinig licht, is flicker een gestructureerde degradatie met specifieke ruimtelijk-temporele patronen, die niet worden meegenomen in huidige algemene restauratiekaders, wat leidt tot suboptimale flickeronderdrukking en ghosting-artefacten. In dit werk tonen we aan dat flicker-artefacten twee intrinsieke kenmerken vertonen, periodiciteit en directionaliteit, en stellen we Flickerformer voor, een transformer-gebaseerde architectuur die flicker effectief verwijdert zonder ghosting te introduceren. Concreet bestaat Flickerformer uit drie belangrijke componenten: een fasegebaseerde fusiemodule (PFM), een autocorrelatie feed-forward netwerk (AFFN) en een op wavelets gebaseerde directionele aandachtmodule (WDAM). Gebaseerd op de periodiciteit voert PFM inter-frame fasecorrelatie uit om burstkenmerken adaptief te aggregeren, terwijl AFFN intra-frame structurele regelmatigheden benut via autocorrelatie, wat gezamenlijk het vermogen van het netwerk versterkt om ruimtelijk terugkerende patronen waar te nemen. Bovendien, gemotiveerd door de directionaliteit van flicker-artefacten, benut WDAM hoogfrequente variaties in het waveletdomein om het herstel van laagfrequente donkere regio's te sturen, wat een precieze lokalisatie van flicker-artefacten oplevert. Uitgebreide experimenten tonen aan dat Flickerformer superieure prestaties levert vergeleken met state-of-the-art benaderingen in zowel kwantitatieve metrieken als visuele kwaliteit. De broncode is beschikbaar op https://github.com/qulishen/Flickerformer.
Standaard op LLM gebaseerde spraakherkenningssystemen verwerken uitingen doorgaans geïsoleerd, wat hun vermogen beperkt om gesprekscontext te benutten. In dit werk onderzoeken we of multimodale context uit voorgaande gespreksbeurten de op LLM gebaseerde automatische spraakherkenning (ASR) verbetert en hoe we die context efficiënt kunnen representeren. Wij constateren dat, na gesuperviseerde training met meerdere beurten, gesprekscontext met name helpt bij de herkenning van contextuele entiteiten. Conditionering op ruwe context is echter kostbaar omdat de audiotokenreeks van voorgaande beurten snel groeit met de gesprekslengte. Om dit aan te pakken, stellen wij Abstracte Compressie voor, waarbij het audiogedeelte van voorgaande beurten wordt vervangen door een vast aantal aangeleerde latente tokens, terwijl de bijbehorende transcripties expliciet behouden blijven. Op zowel in-domein als uit-domein testensets behaalt het gecomprimeerde model een deel van de winst van conditionering op ruwe context terug, maar met een kleinere audiovoetafdruk van voorgaande beurten. Wij geven ook gerichte analyses van de compressieopzet en de bijbehorende afwegingen.
Het modelleren van scènes met behulp van videogeneratiemodellen heeft de afgelopen jaren een groeiende onderzoeksinteresse gegenereerd. De meeste bestaande benaderingen zijn echter gebaseerd op perspectiefvideomodellen die slechts beperkte observaties van een scène synthetiseren, wat leidt tot problemen met volledigheid en globale consistentie. Wij stellen OmniRoam voor, een controleerbaar panoramisch videogeneratieraamwerk dat gebruikmaakt van de rijke scènedekking per frame en de inherente langetermijnconsistentie in ruimte en tijd van panoramische representatie, waardoor langdurige scènedoorwandeling mogelijk wordt. Ons raamwerk begint met een voorvertoningsfase, waarin een trajectgestuurd videogeneratiemodel een snel overzicht van de scène creëert op basis van een gegeven invoerbeeld of -video. Vervolgens wordt deze video in de verfijningsfase temporeel uitgebreid en ruimtelijk opgeschaald om langdurige, hoogwaardige video's te produceren, waardoor hoogwaardige wereldwandeling mogelijk wordt. Voor de training van ons model introduceren we twee panoramische videodatasets die zowel synthetische als in de echte wereld vastgelegde video's bevatten. Experimenten tonen aan dat ons raamwerk consequent state-of-the-art methoden overtreft op het gebied van visuele kwaliteit, bestuurbaarheid en langetermijnscèneconsistentie, zowel kwalitatief als kwantitatief. We demonstreren verder verschillende uitbreidingen van dit raamwerk, waaronder real-time videogeneratie en 3D-reconstructie. Code is beschikbaar op https://github.com/yuhengliu02/OmniRoam.
Generatieve videobewerking heeft verschillende intuïtieve bewerkingen voor korte videoclips mogelijk gemaakt die voorheen moeilijk te realiseren waren, vooral voor niet-deskundige editors. Bestaande methodes richten zich op het voorschrijven van de 3D- of 2D-bewegingstrajectorie van een object in een video, of op het veranderen van het uiterlijk van een object of scène, waarbij zowel de geloofwaardigheid als de identiteit van de video behouden blijven. Een methode om het 3D-bewegingstrajectorie van een object in een video te verplaatsen – dat wil zeggen, een object verplaatsen terwijl de relatieve 3D-beweging behouden blijft – ontbreekt echter nog steeds. De grootste uitdaging ligt in het verkrijgen van gepaarde videogegevens voor dit scenario. Eerdere methodes baseren zich doorgaans op slimme datageneratiebenaderingen om geloofwaardige gepaarde gegevens uit ongepaarde video's te construeren, maar deze aanpak faalt wanneer een van de video's in een paar niet eenvoudig uit de andere kan worden geconstrueerd. In plaats daarvan introduceren wij TrajectoryAtlas, een nieuwe pijplijn voor datageneratie voor grootschalige synthetische gepaarde videogegevens, en een videogenerator TrajectoryMover die met deze gegevens is afgestemd. Wij tonen aan dat dit generatieve verplaatsing van objecttrajectorieën succesvol mogelijk maakt. Projectpagina: https://chhatrekiran.github.io/trajectorymover
Een nauwkeurige diagnose van de ziekte van Alzheimer (AD) vereist de verwerking van tabulaire biomarkerdata, maar dergelijke data zijn vaak beperkt en incompleet, waardoor deep learning-modellen vaak niet beter presteren dan klassieke methoden. Voorgetrainde grote taalmodellen (LLM's) bieden few-shot generalisatie, gestructureerd redeneren en interpreteerbare uitvoer, wat een krachtige paradigmaverschuiving vormt voor klinische voorspelling. Wij presenteren TAP-GPT (Tabular Alzheimer's Prediction GPT), een domeinaangepast tabulair LLM-raamwerk gebaseerd op TableGPT2 en gefinetuned voor few-shot AD-classificatie met behulp van tabulaire prompts in plaats van platte tekst. We evalueren TAP-GPT op vier van ADNI afgeleide datasets, waaronder QT-PAD-biomarkers en regionale structurele MRI, amyloïd-PET en tau-PET voor binaire AD-classificatie. In zowel multimodale als unimodale settings verbetert TAP-GPT ten opzichte van zijn backbone-modellen en overtreft het traditionele machine learning-baselines in de few-shot setting, terwijl het competitief blijft met state-of-the-art algemene LLM's. We tonen aan dat kenmerkselectie degradatie bij hoogdimensionale invoer vermindert en dat TAP-GPT stabiele prestaties behoudt onder gesimuleerde en realistische ontbrekende data zonder imputatie. Bovendien produceert TAP-GPT gestructureerde, modaliteitsbewuste redenering die aansluit bij de gevestigde AD-biologie en vertoont het grotere stabiliteit onder zelfreflectie, wat het gebruik in iteratieve multi-agent systemen ondersteunt. Voor zover wij weten, is dit de eerste systematische toepassing van een op tabulaire data gespecialiseerd LLM voor multimodale, op biomarkers gebaseerde AD-voorspelling. Het demonstreert dat dergelijke voorgetrainde modellen gestructureerde klinische voorspellings taken effectief kunnen aanpakken en legt de basis voor tabulaire LLM-gedreven multi-agent klinische beslissingsondersteunende systemen. De broncode is openbaar beschikbaar op GitHub: https://github.com/sophie-kearney/TAP-GPT.
Wij presenteren TokenDial, een raamwerk voor continue, schuifregelaarachtige attribuutcontrole in vooraf getrainde tekst-naar-video-generatiemodellen. Hoewel moderne generatoren sterke holistische video's produceren, bieden ze beperkte controle over de mate waarin een attribuut verandert (bijv. effectintensiteit of bewegingsomvang) zonder dat identiteit, achtergrond of temporele coherentie verloren gaan. TokenDial is gebaseerd op de observatie dat additieve offsets in de tussenliggende spatiotemporele visuele patch-tokenruimte een semantische controlerichting vormen, waarbij het aanpassen van de offsetgrootte coherente, voorspelbare bewerkingen oplevert voor zowel uiterlijk als bewegingsdynamiek. Wij leren attribuutspecifieke tokenoffsets zonder de backbone opnieuw te trainen, door gebruik te maken van vooraf getrainde begripsignalen: semantische richtingsmatching voor uiterlijk en schaling van bewegingsomvang voor beweging. Wij demonstreren de effectiviteit van TokenDial voor diverse attributen en prompts, waarbij het sterkere beheersbaarheid en bewerkingen van hogere kwaliteit bereikt dan state-of-the-art referentiemethoden, ondersteund door uitgebreide kwantitatieve evaluatie en gebruikersstudies.