Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in grote multimodale generatieve modellen heeft indrukwekkende capaciteiten getoond in multimodale generatie, waaronder beeld- en videogeneratie. Deze modellen zijn typisch gebouwd op meerstappenframeworks zoals diffusie en flow matching, wat hun inferentie-efficiëntie inherent beperkt (ze vereisen 40-100 Number of Function Evaluations (NFEs)). Hoewel diverse methoden met weinig stappen tot doel hebben de inferentie te versnellen, hebben bestaande oplossingen duidelijke beperkingen. Vooraanstaande op distillatie gebaseerde methoden, zoals progressieve en consistentie-distillatie, vereisen ofwel een iteratief distillatieproces of vertonen significante degradatie bij zeer weinig stappen (< 4-NFE). Tegelijkertijd introduceert de integratie van adversarial training in distillatie (bijv. DMD/DMD2 en SANA-Sprint) om de prestaties te verbeteren, trainingsinstabiliteit, toegevoegde complexiteit en hoge GPU-geheugenoverhead vanwege de getrainde hulpmodellen. Daarom stellen we TwinFlow voor, een eenvoudig maar effectief framework voor het trainen van 1-staps generatieve modellen dat de noodzaak van vaste, vooraf getrainde leraarmodellen omzeilt en standaard adversarial networks tijdens de training vermijdt, waardoor het ideaal is voor het bouwen van grootschalige, efficiënte modellen. Voor tekst-naar-beeld taken behaalt onze methode een GenEval-score van 0.83 in 1-NFE, wat sterke baselines zoals SANA-Sprint (een op GAN-verlies gebaseerd framework) en RCGM (een op consistentie gebaseerd framework) overtreft. Opmerkelijk is dat we de schaalbaarheid van TwinFlow aantonen door full-parameter training op Qwen-Image-20B en transformeren het naar een efficiënte generator met weinig stappen. Met slechts 1-NFE evenaart onze aanpak de prestaties van het originele 100-NFE model op zowel de GenEval- als DPG-Bench benchmarks, waarbij de computationele kosten met 100 keer worden verminderd met een minimale kwaliteitsdegradatie. De projectpagina is beschikbaar op https://zhenglin-cheng.com/twinflow.
Instructiegestuurd beeldbewerking is uitgegroeid tot een prominent onderzoeksgebied dat, dankzij foundationmodellen voor beeldgeneratie, een hoge esthetische kwaliteit bereikt, waardoor het vermogen om instructies te volgen de grootste uitdaging vormt. Bestaande benaderingen verbeteren de instructienaleving via supervised of reinforcement learning, maar de slagingskans per individuele opdracht blijft beperkt door inherente stochastiek en een gebrek aan beraadslaging. In dit werk stellen we een beraadslagend bewerkingskader voor dat 'denkt' tijdens het bewerken, door de menselijke cognitieve loop te simuleren via iteratieve uitvoering van een Denk-terwijl-je-Bewerkt-cyclus: resultaten beoordelen en instructies verfijnen, gevolgd door herhaling van de generatie tot tevredenheid. Concreet trainen we een enkel MLLM, EditThinker, om als redeneermotor van dit kader te fungeren, die gezamenlijk de beoordelingsscore, redeneerproces en verfijnde instructies produceert. We zetten reinforcement learning in om het denken van EditThinker af te stemmen op zijn bewerkingen, waardoor gerichtere instructieverbeteringen worden gegenereerd. Uitgebreide experimenten op vier benchmarks tonen aan dat onze aanpak de instructievolgcapaciteit van elk beeldbewerkingsmodel significant en met grote marge verbetert. We zullen ons dataconstructiekader, datasets en modellen vrijgeven ten behoeve van de onderzoeksgemeenschap.
Versterkend leren is naar voren gekomen als een paradigma voor het na-trainen van grote taalmodellen, waardoor hun redeneervermogen wordt verbeterd. Dergelijke benaderingen berekenen een 'advantage'-waarde voor elk voorbeeld, die een betere of slechtere prestatie weergeeft dan verwacht, waardoor zowel positieve als negatieve signalen voor de training worden gegenereerd. Echter, het onoordeelkundig mengen van deze twee signalen in bestaande methoden, vooral in de vroege fasen, kan leiden tot ambigue sturing en beperkte winst. Om dit probleem aan te pakken, stellen wij **CAPO** (**C**urriculum **A**dvantage **P**olicy **O**ptimization) voor, een adaptief curriculummechanisme gebaseerd op advantage-signalen. Het voorgestelde mechanisme start imitatieleren op met uitsluitend positieve advantage-voorbeelden om een robuuste basis te leggen, en introduceert vervolgens negatieve signalen om onderscheidend vermogen te kweken, waardoor de generalisatie over complexe scenario's verbetert. Compatibel met diverse optimalisatiemethoden zoals GRPO, PPO, RLOO en Reinforce++, behaalt onze methode consistente, stabiele en significante verbeteringen in wiskundige redeneertaken, en generaliseert ze effectief naar multimodale Graphical User Interface (GUI) redeneerscenario's, waarmee ze zich vestigt als een veelzijdig en robuust optimalisatiekader.
Consistente beeldgeneratie vereist het getrouw behouden van identiteiten, stijlen en logische samenhang over meerdere afbeeldingen heen, wat essentieel is voor toepassingen zoals storytelling en karakterontwerp. Gesuperviseerde trainingsmethoden worstelen met deze taak vanwege het gebrek aan grootschalige datasets die visuele consistentie vastleggen en de complexiteit van het modelleren van menselijke perceptuele voorkeuren. In dit artikel beargumenteren we dat reinforcement learning (RL) een veelbelovend alternatief biedt door modellen in staat te stellen complexe en subjectieve visuele criteria op een data-vrije manier aan te leren. Om dit te bereiken, introduceren we PaCo-RL, een alomvattend raamwerk dat een gespecialiseerd consistentie-beloningsmodel combineert met een efficiënt RL-algoritme. Het eerste onderdeel, PaCo-Reward, is een paarsgewijze consistentie-evaluator getraind op een grootschalige dataset die is opgebouwd via geautomatiseerde subfiguurkoppeling. Het evalueert consistentie door een generatief, autoregressief scoringsmechanisme verbeterd door taakbewuste instructies en CoT-redeneringen. Het tweede onderdeel, PaCo-GRPO, benut een nieuwe resolutie-ontkoppelde optimalisatiestrategie om de RL-kosten aanzienlijk te verlagen, naast een log-getemd multi-beloningsaggregatiemechanisme dat gebalanceerde en stabiele beloningsoptimalisatie waarborgt. Uitgebreide experimenten over twee representatieve sub-taken tonen aan dat PaCo-Reward de afstemming met menselijke percepties van visuele consistentie significant verbetert, en dat PaCo-GRPO state-of-the-art consistentieprestaties bereikt met verbeterde trainings-efficiëntie en stabiliteit. Gezamenlijk benadrukken deze resultaten de belofte van PaCo-RL als een praktische en schaalbare oplossing voor consistente beeldgeneratie. De projectpagina is beschikbaar op https://x-gengroup.github.io/HomePage_PaCo-RL/.
Wij presenteren EMMA, een efficiënte en uniforme architectuur voor multimodale interpretatie, generatie en bewerking. Concreet bestaat EMMA hoofdzakelijk uit: 1) Een efficiënte auto-encoder met een compressieverhouding van 32x, die het aantal voor generatie benodigde tokens aanzienlijk reduceert. Dit waarborgt tevens de trainingsbalans tussen interpretatie- en generatietaken door dezelfde compressieratio op afbeeldingen toe te passen. 2) Kanaalsgewijze concatenatie in plaats van tokensgewijze concatenatie tussen visuele interpretatie- en generatietokens, wat het aantal visuele tokens in uniforme architecturen verder verkleint. 3) Een gedeeld-en-ontkoppeld netwerk dat wederzijdse verbeteringen tussen taken mogelijk maakt, tegelijkertijd voldoet aan taakspecifieke modelleereisen. 4) Een mixture-of-experts-mechanisme geïmplementeerd in de visuele interpretatie-encoder, dat de perceptuele capaciteiten aanzienlijk verbetert met een minimale parameterstoename. Uitgebreide experimenten tonen aan dat EMMA-4B state-of-the-art uniforme multimodale benaderingen (zoals BAGEL-7B) zowel in efficiëntie als prestaties significant overtreft, terwijl het ook competitieve resultaten behaalt vergeleken met recente gespecialiseerde multimodale interpretatie- en generatiesystemen (zoals Qwen3-VL en Qwen-Image). Wij zijn van mening dat EMMA een solide basis legt voor de toekomstige ontwikkeling van uniforme multimodale architecturen.
Het bereiken van karakteranimatie die voldoet aan studio-kwaliteit productiestandaarden blijft een uitdaging ondanks recente vooruitgang. Bestaande benaderingen kunnen beweging overzetten van een brontvideo naar een referentiebeeld, maar slagen er vaak niet in structurele nauwkeurigheid en temporele consistentie te behouden in complexe scenario's met ingewikkelde bewegingen en cross-identiteitsanimaties. In dit werk presenteren we SCAIL (Studio-grade Character Animation via In-context Learning), een raamwerk ontworpen om deze uitdagingen aan te pakken met twee belangrijke innovaties. Ten eerste introduceren we een nieuwe 3D-positieweergave die een robuuster en flexibeler bewegingssignaal biedt. Ten tweede presenteren we een full-context positie-injectiemechanisme binnen een diffusie-transformerarchitectuur, dat effectieve spatio-temporele redenering over volledige bewegingssequenties mogelijk maakt. Om aan studio-eisen te voldoen, ontwikkelen we een gecureerd datapipeline die zowel diversiteit als kwaliteit waarborgt, en stellen we een uitgebreide benchmark op voor systematische evaluatie. Experimenten tonen aan dat SCAIL state-of-the-art prestaties bereikt en karakteranimatie naar studio-kwaliteit betrouwbaarheid en realisme voortstuwt.
Grote taalmodellen vertrouwen na de training op reinforcement learning om de modelcapaciteit en aligneringskwaliteit te verbeteren. Het off-policy trainingsparadigma introduceert echter een distributieverschuiving, die het beleid vaak buiten het vertrouwensgebied duwt, wat leidt tot trainingsinstabiliteiten die zich manifesteren als schommelingen in de beleidsentropie en onstabiele gradiënten. Hoewel PPO-Clip dit probleem vermindert door importance clipping, negeert het nog steeds de globale distributieverschuiving van acties. Om deze uitdagingen aan te pakken, stellen we voor om de entropieverhouding tussen het huidige en vorige beleid te gebruiken als een nieuwe globale maatstaf die de relatieve verandering in beleidsexploratie gedurende updates effectief kwantificeert. Op basis van deze maatstaf introduceren we een Entropy Ratio Clipping (ERC)-mechanisme dat bidirectionele beperkingen oplegt aan de entropieverhouding. Dit stabiliseert beleidsupdates op het niveau van de globale distributie en compenseert het onvermogen van PPO-clip om waarschijnlijkheidsverschuivingen van niet-bemonsterde acties te reguleren. We integreren ERC in zowel DAPO- als GPPO-reinforcement learning-algoritmen. Experimenten over meerdere benchmarks tonen aan dat ERC consistent de prestaties verbetert.
Het genereren van interactieve en dynamische 4D-scènes uit één statische afbeelding blijft een grote uitdaging. De meeste bestaande methoden, zoals 'genereren-dan-reconstrueren' en 'reconstrueren-dan-genereren', ontkoppelen geometrie van beweging, wat leidt tot spatiotemporele inconsistenties en beperkte generalisatie. Om deze problemen aan te pakken, breiden we het 'reconstrueren-dan-genereren' raamwerk uit om gezamenlijk Bewegingsgeneratie en geometrische Reconstructie voor 4D Synthese (MoRe4D) uit te voeren. We introduceren eerst TrajScene-60K, een grootschalige dataset met 60.000 videofragmenten met dichte punt-trajectoriën, om het gebrek aan hoogwaardige 4D-scènedata aan te pakken. Op basis hiervan stellen we een op diffusie gebaseerde 4D Scène Traject Generator (4D-STraG) voor om gezamenlijk geometrisch consistente en bewegingsgeloofwaardige 4D punt-trajectoriën te genereren. Om single-view priors te benutten, ontwerpen we een diepte-gestuurde beweging-normalisatiestrategie en een beweging-bewuste module voor effectieve integratie van geometrie en dynamiek. Vervolgens stellen we een 4D View Synthesis Module (4D-ViSM) voor om video's te renderen met willekeurige camerabewegingen vanuit 4D punt-track representaties. Experimenten tonen aan dat MoRe4D hoogwaardige 4D-scènes genereert met multi-view consistentie en rijke dynamische details vanuit één afbeelding. Code: https://github.com/Zhangyr2022/MoRe4D.
Met de voortdurende vooruitgang van beeldgeneratietechnologie hebben geavanceerde modellen zoals GPT-Image-1 en Qwen-Image opmerkelijke resultaten geboekt op het gebied van tekst-naar-beeld consistentie en wereldkennis. Desalniettemin schieten deze modellen nog steeds tekort in het genereren van fotorealistische beelden. Zelfs bij eenvoudige T2I-taken produceren ze vaak 'nep'-beelden met duidelijke AI-artefacten, vaak gekenmerkt door 'te gladde huid' en 'vettige gezichtsglans'. Om het oorspronkelijke doel van 'niet van de realiteit te onderscheiden' generatie opnieuw te bereiken, stellen wij RealGen voor, een fotorealistisch tekst-naar-beeld raamwerk. RealGen integreert een LLM-component voor promptoptimalisatie en een diffusiemodel voor realistische beeldgeneratie. Geïnspireerd door adversarial generation introduceert RealGen een "Detector Reward"-mechanisme, dat artefacten kwantificeert en realisme beoordeelt met behulp van zowel semantisch- als featureniveau synthetische beelddetectoren. Wij benutten dit beloningssignaal met het GRPO-algoritme om de volledige generatiepijplijn te optimaliseren, waardoor de beeldrealiteit en -details aanzienlijk worden verbeterd. Verder stellen wij RealBench voor, een automatische evaluatiebenchmark die gebruikmaakt van Detector-Scoring en Arena-Scoring. Het maakt een beoordeling van fotorealisme zonder menselijke tussenkomst mogelijk, wat resultaten oplevert die nauwkeuriger zijn en beter aansluiten bij de werkelijke gebruikerservaring. Experimenten tonen aan dat RealGen aanzienlijk beter presteert dan algemene modellen zoals GPT-Image-1 en Qwen-Image, evenals gespecialiseerde fotorealistische modellen zoals FLUX-Krea, wat betreft realisme, detail en esthetiek. De code is beschikbaar op https://github.com/yejy53/RealGen.
Effectieve beoordelaars van Vision-Language Models (VLM's) zijn cruciaal voor modelontwikkeling. Huidige methoden voor het trainen van VLM-beoordelaars zijn voornamelijk afhankelijk van grootschalige annotaties van menselijke voorkeuren. Deze aanpak is echter kostbaar en de annotaties raken snel verouderd naarmate modellen zich snel verbeteren. In dit werk presenteren we een raamwerk om een VLM-beoordelaarsmodel zelf te trainen zonder enige annotaties van menselijke voorkeuren, waarbij uitsluitend zelf gesynthetiseerde data wordt gebruikt. Onze methode is iteratief en kent drie fasen: (1) genereer diverse multimodale instructie-responsparen op verschillende kwaliteitsniveaus, (2) genereer redeneersporen en beoordelingen voor elk paar, waarbij paren die niet overeenkomen met onze verwachte kwaliteitsniveaus worden verwijderd, en (3) training op correcte beoordelaarsantwoorden en hun bijbehorende redeneersporen. We evalueren de resulterende beoordelaar op Multimodal RewardBench en VL-RewardBench over verschillende domeinen: correctheid, voorkeur, redenering, veiligheid en visueel vraag-antwoord. Onze methode verbetert een Llama-3.2-11B multimodale beoordelaar van 0,38 naar 0,51 in algemene nauwkeurigheid op VL-RewardBench, waarbij deze vaak beter presteert dan veel grotere modellen, waaronder Llama-3.2-90B, GPT-4o en Claude 3.5 Sonnet, met bijzonder sterke verbeteringen in de algemene, hallucinatie- en redeneerdimensies. De algehele kracht van deze resultaten zonder menselijke annotaties suggereert het potentieel voor een toekomstige zelfbeoordelaar die mee-evolueert met de snel verbeterende mogelijkheden van VLM's.
Generatieve methoden voor 3D-assets hebben recentelijk opmerkelijke vooruitgang geboekt, maar het bieden van intuïtieve en precieze controle over de objectgeometrie blijft een grote uitdaging. Bestaande benaderingen steunen voornamelijk op tekst- of beeldprompts, die vaak tekortschieten in geometrische specificiteit: taal kan dubbelzinnig zijn en beelden zijn omslachtig om te bewerken. In dit werk introduceren we SpaceControl, een trainingsvrije testtijd-methode voor expliciete ruimtelijke controle van 3D-generatie. Onze aanpak accepteert een breed scala aan geometrische invoer, van grove primitieven tot gedetailleerde meshes, en integreert naadloos met moderne vooraf getrainde generatieve modellen zonder aanvullende training te vereisen. Een instelbare parameter stelt gebruikers in staat een afweging te maken tussen geometrische nauwkeurigheid en uitvoerrealisme. Uitgebreide kwantitatieve evaluatie en gebruikersstudies tonen aan dat SpaceControl zowel opgeleide als op optimalisatie gebaseerde referentiemethoden overtreft in geometrische nauwkeurigheid, terwijl een hoge visuele kwaliteit behouden blijft. Ten slotte presenteren we een interactieve gebruikersinterface die online bewerking van superquadrics mogelijk maakt voor directe conversie naar getextureerde 3D-assets, wat de praktische inzet in creatieve workflows vergemakkelijkt. Onze projectpagina is te vinden op https://spacecontrol3d.github.io/
Visueel-ruimtelijk redeneren is cruciaal om multimodale grote taalmodellen (MLLM's) in staat te stellen objecteigenschappen en ruimtelijke relaties te begrijpen, maar huidige modellen worstelen nog steeds met 3D-bewust redeneren. Bestaande benaderingen verbeteren typisch óf de perceptie, door RGB-input aan te vullen met hulpmodaliteiten zoals diepte en segmentatie, óf het redeneervermogen, door training op ruimtelijke VQA-datasets en toepassing van reinforcement learning, en behandelen deze twee aspecten dus geïsoleerd. In dit werk onderzoeken we of een verenigde MLLM een intrinsiek vermogen kan ontwikkelen om ruimtelijke perceptie te verbeteren en, door middel van adaptief interleaved redeneren, sterkere ruimtelijke intelligentie kan bereiken. Wij stellen COOPER voor, een verenigde MLLM die diepte en segmentatie als hulpmodaliteiten benut en in twee fasen wordt getraind om hulpmodaliteitgeneratie en adaptieve, interleaved redeneercapaciteiten te verwerven. COOPER behaalt een gemiddelde verbetering van 6,91% in ruimtelijk redeneren, terwijl de algemene prestaties behouden blijven. Bovendien behaalt zelfs een variant die alleen voor hulpmodaliteitgeneratie is getraind een winst van 7,92% op schattingen van afstand en grootte, wat suggereert dat het leren genereren van hulpmodaliteiten helpt om ruimtelijke kennis te internaliseren en het ruimtelijk begrip te versterken.
Reasoning-gerichte video-objectsegmentatie is een inherent complexe taak: de query verwijst vaak naar dynamiek, causaliteit en temporele interacties, in plaats van naar statische verschijningsvormen. Toch comprimeren bestaande oplossingen deze factoren doorgaans tot vereenvoudigd redeneren met latente embeddings, wat de redeneerketen ondoorzichtig en in wezen onhanteerbaar maakt. Daarom hanteren wij een perspectief van expliciete decompositie en introduceren ReVSeg, dat redeneren uitvoert als opeenvolgende beslissingen in de native interface van voorgetrainde vision-language-modellen (VLM's). In plaats van alle redenering te vouwen in een eenstapsvoorspelling, voert ReVSeg drie expliciete operaties uit — semantische interpretatie, temporele evidentieselectie en spatiale verankering — die afgestemd zijn op voorgetrainde capaciteiten. Wij zetten verder reinforcement learning in om de meerstapsredeneerketen te optimaliseren, waardoor het model zijn beslissingskwaliteit kan zelf-verfijnen op basis van resultaatgestuurde signalen. Experimentele resultaten tonen aan dat ReVSeg state-of-the-art prestaties behaalt op standaard video-objectsegmentatiebenchmarks en interpreteerbare redeneertrajecten oplevert. De projectpagina is beschikbaar op https://clementine24.github.io/ReVSeg/.
Recente vooruitgang in generatieve videomodellen heeft geleid tot significante doorbraken in hoogfideliteit videosynthese, met name op het gebied van controleerbare videogeneratie waarbij de gegenereerde video wordt gestuurd door tekst- en actie-inputs, bijvoorbeeld bij instructiegestuurd videobewerken en wereldmodellering in de robotica. Ondanks deze uitzonderlijke capaciteiten vertonen controleerbare videomodellen vaak hallucinaties – ze genereren toekomstige videoframes die niet overeenkomen met de fysieke realiteit – wat ernstige zorgen opwerpt bij veel taken, zoals de evaluatie en planning van robotbeleid. State-of-the-art videomodellen beschikken echter niet over het vermogen om hun eigen betrouwbaarheid in te schatten en uit te drukken, wat het beperken van hallucinaties belemmert. Om deze uitdaging rigoureus aan te pakken, stellen wij C3 voor, een onzekerheidskwantificeringsmethode (UQ) voor het trainen van controleerbare videomodellen met continue schaalcalibratie voor dichte betrouwbaarheidsschatting op subpatch-niveau, waardoor de onzekerheid in elk gegenereerd videoframe precies gelokaliseerd wordt. Onze UQ-methode introduceert drie kerninnovaties om videomodellen in staat te stellen hun onzekerheid in te schatten. Ten eerste ontwikkelt onze methode een raamwerk dat videomodellen traint voor correctheid en calibratie via strikt eigenschappelijke scorefuncties. Ten tweede schatten we de onzekerheid van het videomodel in de latente ruimte in, waardoor traininstabiliteit en excessieve trainkosten geassocieerd met pixelruimtebenaderingen worden vermeden. Ten derde vertalen we de dichte onzekerheid in de latente ruimte naar interpreteerbare onzekerheid op pixelniveau in de RGB-ruimte voor intuïtieve visualisatie, wat hoogresolutie onzekerheidsheatmaps oplevert die onbetrouwbare regio's identificeren. Door middel van uitgebreide experimenten op grootschalige robotleerdatasets (Bridge en DROID) en evaluaties in de echte wereld tonen we aan dat onze methode niet alleen gecalibreerde onzekerheidsschattingen biedt binnen de trainingsverdeling, maar ook effectieve detectie van out-of-distribution gegevens mogelijk maakt.
Zelfverbetering is een doel dat momenteel veel opwinding veroorzaakt in het veld van AI, maar het is bezaaid met gevaren en het kan tijd kosten om het volledig te verwezenlijken. Wij bepleiten dat een haalbaarder en beter doel voor de mensheid is om co-verbetering te maximaliseren: de samenwerking tussen menselijke onderzoekers en AI's om tot co-superintelligentie te komen. Dit houdt in dat we ons specifiek richten op het verbeteren van het vermogen van AI-systemen om samen met menselijke onderzoekers AI-onderzoek te verrichten, van idee-vorming tot experimenteren, om zowel het AI-onderzoek te versnellen als om zowel AI's als mensen veiligere superintelligentie te verschaffen door hun symbiose. Door de verbetering van menselijk onderzoek in de feedbackloop op te nemen, bereiken we dit doel sneller en veiliger.
Meertalige multimodale documentretrievalsystemen hebben een sterke vooruitgang geboekt in het afstemmen van visuele en tekstuele inhoud voor semantisch zoeken. De meeste bestaande benaderingen blijven echter sterk Engelstalig gericht, wat hun effectiviteit in meertalige contexten beperkt. In dit werk presenteren we M3DR (Multilingual Multimodal Document Retrieval), een raamwerk ontworpen om deze kloof tussen talen te overbruggen, waardoor toepasbaarheid in diverse linguïstische en culturele contexten mogelijk wordt. M3DR maakt gebruik van synthetische meertalige documentgegevens en generaliseert over verschillende vision-language architecturen en modelgroottes, wat een robuuste cross-linguale en cross-modale afstemming mogelijk maakt. Door middel van contrastieve training leren onze modellen verenigde representaties voor tekst en documentafbeeldingen die effectief overdraagbaar zijn tussen talen. We valideren deze capaciteit op 22 typologisch diverse talen en tonen consistente prestaties en aanpasbaarheid aan linguïstische en schriftvariatie aan. We introduceren verder een uitgebreide benchmark die realistische meertalige scenario's vastlegt, waarbij modellen worden geëvalueerd onder eentalige, meertalige en gemengde taalinstellingen. M3DR generaliseert over zowel retrievalparadigma's met enkele dense vector als met ColBERT-stijl token-level multi-vector retrieval. Onze modellen, NetraEmbed en ColNetraEmbed, bereiken state-of-the-art prestaties met relatieve verbeteringen van ~150% bij cross-linguale retrieval.
Langdurige videobegrip (LVU) is uitdagend omdat het beantwoorden van realistische vragen vaak afhangt van schaarse, tijdelijk verspreide aanwijzingen die verborgen zijn in uren grotendeels redundante en irrelevante content. Hoewel agent-gebaseerde pijplijnen de videoredeneercapaciteit verbeteren, vertrouwen gangbare frameworks op een query-agnostische beschrijvingsmodule om video-informatie waar te nemen, wat rekenkracht verspilt aan irrelevante content en fijnmazige temporele en ruimtelijke informatie vervaagt. Gemotiveerd door de actieve perceptietheorie stellen wij dat LVU-agenten actief moeten beslissen wát, wannéér en wáár ze moeten observeren, en continu moeten beoordelen of de huidige observatie voldoende is om de vraag te beantwoorden. Wij presenteren Active Video Perception (AVP), een evidence-seeking framework dat de video als een interactieve omgeving behandelt en compacte, query-relevante informatie direct uit de pixels verkrijgt. Concreet voert AVP een iteratief plan-observeer-reflecteer proces uit met MLLM-agenten. In elke ronde stelt een planner gerichte video-interacties voor, een observator voert deze uit om tijdgestempeld bewijsmateriaal te extraheren, en een reflectator evalueert de toereikendheid van het bewijsmateriaal voor de vraag, waarmee hij ofwel stopt met een antwoord of verdere observatie in gang zet. Op vijf LVU-referentietests behaalt AVP de hoogste prestaties met significante verbeteringen. Opmerkelijk is dat AVP de beste agent-gebaseerde methode met 5,7% gemiddelde nauwkeurigheid overtreft, terwijl het slechts 18,4% inferentietijd en 12,4% input-tokens vereist.
Temporeel begrip in autonoom rijden (AD) blijft een aanzienlijke uitdaging, zelfs voor recente state-of-the-art (SoTA) Vision-Language Models (VLMs). Eerder werk introduceerde datasets en benchmarks om temporeel redeneren te verbeteren, maar deze legden de nadruk op andere video-inhoud, zoals sport, koken en films. Geen enkele bestaande benchmark richt zich exclusief op de unieke uitdagingen van temporeel begrip in ego-centrische AD-beelden. Om deze leemte op te vullen, wordt de Temporal Understanding in Autonomous Driving (TAD) benchmark gepresenteerd, die het vermogen van VLMs evalueert om de dynamische relaties tussen acties in AD vast te leggen. TAD omvat bijna 6.000 vraag-antwoord (QA) paren, verspreid over 7 door mensen ontworpen taken. Daarnaast wordt een evaluatie uitgevoerd met 9 algemene modellen, zowel closed- als open-source, evenals SoTA AD-specialistische modellen. Toegepast op TAD toonden huidige SoTA-modellen ondermaatse nauwkeurigheden, grotendeels als gevolg van onvolmaakt fijnmazig bewegingbegrip. Om het bewegingbegrip en de algehele nauwkeurigheid op TAD te verbeteren, worden twee nieuwe trainingsvrije oplossingen voorgesteld: Scene-CoT, dat gebruikmaakt van Chain-of-Thought (CoT), en TCogMap, dat een ego-centrische temporele cognitieve kaart integreert. De voorgestelde benaderingen worden geïntegreerd met bestaande VLMs en verbeteren de gemiddelde nauwkeurigheid op TAD met tot 17,72%. Door TAD te introduceren, meerdere SoTA-modellen te benchmarken en effectieve verbeteringen voor te stellen, beoogt dit werk toekomstig onderzoek naar temporeel begrip in AD te katalyseren. De benchmark en evaluatiecode zijn respectievelijk beschikbaar op https://huggingface.co/datasets/vbdai/TAD{Hugging Face} en https://github.com/vbdi/tad_bench{Github}.
In deze studie presenteren wij Colon-X, een open initiatief dat tot doel heeft de multimodale intelligentie binnen colonoscopie verder te ontwikkelen. We beginnen met de constructie van ColonVQA, de meest uitgebreide multimodale dataset die ooit voor colonoscopie is opgebouwd, met meer dan 1,1 miljoen visuele vraag-en-antwoord items verspreid over 76 klinische bevindingen en 18 multimodale taken. Naast haar rol als gemeenschappelijke datafundering, onderzoeken we verder een kritieke maar onderbelichte transitie in colonoscopie: de evolutie van multimodale begripsvorming naar klinisch redeneren. (a) Om het huidige landschap van multimodaal begrip in kaart te brengen, evalueren we systematisch de generaliseerbaarheid van 22 multimodale large language models en onderzoeken we hun betrouwbaarheid onder door mensen geïnduceerde verstoringen. De resultaten tonen aan dat de klinische output van toonaangevende MLLM's nog verre van robuust en betrouwbaar is. (b) Om deze kloof te verkleinen, verkennen we verder een redeneringsgerichte intelligentie, toegesneden op colonoscopie. Concreet stellen we ColonReason samen, een klinisch onderbouwde redeneerdataset die via een multi-expert debatpipeline is geannoteerd, en ontwikkelen we ColonR1, het eerste R1-type model dat gebruikmaakt van taakadaptieve belonings- en gradient-stabiele optimalisatietechnieken. Onder data-arme omstandigheden behaalt onze ColonR1 een algemene nauwkeurigheid van 56,61%, wat 25,22% hoger ligt dan supervised fine-tuning, en stelt het een nieuwe, redeneringsondersteunde basislijn voor multimodale colonoscopie-analyse. Alle data en modelbronnen zijn openbaar beschikbaar op https://github.com/ai4colonoscopy/Colon-X.
Recente vooruitgang in videogeneratie heeft opmerkelijke mogelijkheden getoond voor het bouwen van wereldsimulatoren. Huidige modellen hebben echter nog steeds moeite met het produceren van fysiek consistente resultaten, vooral bij het verwerken van grootschalige of complexe dynamiek. Deze beperking ontstaat voornamelijk doordat bestaande benaderingen isotroop reageren op fysieke prompts en de fijnmazige afstemming tussen gegenereerde inhoud en gelokaliseerde fysieke aanwijzingen verwaarlozen. Om deze uitdagingen aan te pakken, stellen we ProPhy voor, een Progressief Fysiek Afstemmingsraamwerk dat expliciete, fysica-bewuste conditionering en anisotrope generatie mogelijk maakt. ProPhy gebruikt een tweetraps Mixture-of-Physics-Experts (MoPE)-mechanisme voor discriminatieve extractie van fysieke voorkennis, waarbij Semantische Experts semantische fysicaprincipes afleiden uit tekstbeschrijvingen en Verfijnings Experts token-level fysieke dynamiek vastleggen. Dit mechanisme stelt het model in staat fijnmazige, fysica-bewuste videorepresentaties te leren die de onderliggende natuurwetten beter weerspiegelen. Verder introduceren we een fysieke afstemmingsstrategie die het fysieke redeneervermogen van vision-language modellen (VLMs) overbrengt naar de Verfijnings Experts, wat een nauwkeurigere representatie van dynamische fysische fenomenen vergemakkelijkt. Uitgebreide experimenten op benchmarks voor fysica-bewuste videogeneratie tonen aan dat ProPhy realistischer, dynamischer en fysiek coherentere resultaten produceert dan bestaande state-of-the-art methoden.
Post-training-kwantisering (PTQ) speelt een cruciale rol in de democratisering van grote taalmodellen (LLM's). Bestaande kwantiseringstechnieken met een laag aantal bits en sparsificatietechnieken zijn echter moeilijk te balanceren wat betreft nauwkeurigheid en efficiëntie vanwege de beperkte hardware-ondersteuning. W4A8 kan bijvoorbeeld slechts dezelfde piek-TOPS bereiken als W8A8, terwijl het door GPU's ondersteunde sparse dataformaat (2:4 semi-structurele sparse) zelden wordt toegepast vanwege het verlies aan nauwkeurigheid. Om deze kloof te overbruggen, stellen wij in dit artikel het Sparse-Quantized Format (SQ-formaat) voor, een uniform dataformaat voor kwantisering en sparsificatie dat mogelijk eenvoudig kan worden ondersteund door nieuwe hardware en bestaande GPU's. Het SQ-formaat maakt gebruik van het feit dat sparse matrices kunnen worden versneld in hoge precisie, en matrixvermenigvuldiging met lage precisie dienovereenkomstig ook kan worden versneld. Zo wordt het SQ-formaat voorgesteld om een Pareto-verbetering tussen prestaties en doorvoer te bereiken. Dit formaat is bijzonder geschikt voor activaties met een outlier-ongelijkheidstoestand en maakt hun statische compressie mogelijk. Wij tonen de state-of-the-art PTQ-prestaties met het SQ-formaat, stellen de benodigde hardware voor om het te ondersteunen, en bieden verder ontwerpverkenning en inzichten voor de volgende generatie AI-accelerators.
Effectieve vermindering van aardbevingsrisico's vereist nauwkeurige, locatiespecifieke evaluaties. Dit vereist modellen die de invloed van lokale terreinomstandigheden op grondbewegingskenmerken kunnen weergeven. In dit kader bieden data-gedreven benaderingen die door locatie bepaalde kenmerken leren uit geregistreerde grondbewegingen een veelbelovende richting. Wij richten ons op de generatie van sterke grondbewegingen uit tijd-domein versnellingsmeterregistraties en introduceren de TimesNet-Gen, een tijd-domein conditionele generator. De aanpak gebruikt een stationspecifieke latente bottleneck. Wij evalueren de generatie door HVSR-curves en fundamentele terreinfrequentie (f_0) verdelingen tussen echte en gegenereerde registraties per station te vergelijken, en vatten de stationspecificiteit samen met een score gebaseerd op de f_0-verdelingsverwarringsmatrices. TimesNet-Gen bereikt een sterke station-specifieke overeenkomst en vergelijkt gunstig met een op spectrogrammen gebaseerde conditionele VAE-basislijn voor locatiespecifieke synthese van sterke grondbewegingen. Onze code is beschikbaar via https://github.com/brsylmz23/TimesNet-Gen.
Naarmate de computationele eisen blijven stijgen, vereist het beoordelen van de ecologische voetafdruk van AI een verschuiving voorbij energie- en waterverbruik naar de materiaalbehoeften van gespecialiseerde hardware. Deze studie kwantificeert de materiaalvoetafdruk van AI-training door computationele workloads te koppelen aan fysieke hardwarebehoeften. De elementaire samenstelling van de Nvidia A100 SXM 40 GB grafische verwerkingseenheid (GPU) werd geanalyseerd met behulp van optische emissiespectrometrie met geïnduceerd gekoppeld plasma, waarbij 32 elementen werden geïdentificeerd. De resultaten tonen aan dat AI-hardware voor ongeveer 90% uit zware metalen bestaat en slechts sporen van edelmetalen bevat. De elementen koper, ijzer, tin, silicium en nikkel domineren de GPU-samenstelling qua massa. In een multi-stap methodologie integreren we deze metingen met de computationele doorvoer per GPU over variërende levensduren, rekening houdend met de computationele vereisten voor het trainen van specifieke AI-modellen bij verschillende trainingsrendementen. Scenario-analyses onthullen dat, afhankelijk van de Model FLOPs Utilisatie (MFU) en de hardwarelevensduur, het trainen van GPT-4 tussen de 1.174 en 8.800 A100 GPU's vereist, wat overeenkomt met de winning en uiteindelijke verwijdering van tot 7 ton giftige elementen. Gecombineerde software- en hardware-optimalisatiestrategieën kunnen de materiaalbehoefte verminderen: het verhogen van de MFU van 20% naar 60% vermindert de GPU-behoefte met 67%, terwijl het verlengen van de levensduur van 1 naar 3 jaar vergelijkbare besparingen oplevert; de implementatie van beide maatregelen samen reduceert de GPU-behoefte met tot 93%. Onze bevindingen benadrukken dat incrementele prestatieverbeteringen, zoals waargenomen tussen GPT-3.5 en GPT-4, gepaard gaan met onevenredig hoge materiaalkosten. De studie onderstreept de noodzaak om materiaalgebruik mee te nemen in discussies over AI-schaalbaarheid, en benadrukt dat toekomstige vooruitgang in AI in lijn moet zijn met de principes van resource-efficiëntie en milieurechtvaardigheid.
Grote Taalmodellen (LLM's) worden doorgaans voor veiligheid afgestemd tijdens de post-trainingsfase; desalniettemin kunnen ze nog steeds ongepaste uitvoer genereren die mogelijk risico's voor gebruikers kan opleveren. Deze uitdaging benadrukt de noodzaak van robuuste veiligheidsmaatregelen die werken op zowel modelinvoer als -uitvoer. In dit werk introduceren we Roblox Guard 1.0, een state-of-the-art, instructie-fijn afgestemd LLM dat is ontworpen om de veiligheid van LLM-systemen te verbeteren door middel van uitgebreide moderatie van invoer en uitvoer, waarbij een pijplijn van LLM's wordt gebruikt om de moderatiecapaciteit te versterken. Gebouwd op de Llama-3.1-8B-Instruct-backbone, is ons model instructie-fijn afgestemd om te generaliseren over voorheen onbekende veiligheidstaxonomieën en toont het sterke prestaties op veiligheidsbenchmarks buiten het oorspronkelijke domein. Het instructie-fijn afstemmingsproces gebruikt een mix van synthetische en open-source veiligheidsdatasets, aangevuld met chain-of-thought (CoT)-redeneringen en input-inversie om het contextueel begrip en de besluitvorming te verbeteren. Om systematische evaluatie te ondersteunen, brengen we ook RobloxGuard-Eval uit, een nieuwe benchmark met een uitbreidbare veiligheidstaxonomie om de effectiviteit van LLM-veiligheidsvoorzieningen en moderatieraamwerken te beoordelen.