Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Segment Anything Model (SAM) 3, een uniform model dat objecten in afbeeldingen en video's detecteert, segmenteert en volgt op basis van conceptprompts. Deze definiëren we als korte zelfstandignaamwoordgroepen (bijvoorbeeld "gele schoolbus"), afbeeldingsvoorbeelden, of een combinatie van beide. Promptable Concept Segmentation (PCS) verwerkt dergelijke prompts en retourneert segmentatiemaskers en unieke identificaties voor alle overeenkomende objectinstanties. Om PCS verder te ontwikkelen, bouwden we een schaalbare data-engine die een hoogwaardige dataset produceert met 4 miljoen unieke conceptlabels, inclusief harde negatieven, verspreid over afbeeldingen en video's. Ons model bestaat uit een detector op afbeeldingsniveau en een op geheugen gebaseerde videotracker die een enkele backbone delen. Herkenning en lokalisatie zijn ontkoppeld met een aanwezigheidskop (presence head), wat de detectienauwkeurigheid verhoogt. SAM 3 verdubbelt de nauwkeurigheid van bestaande systemen in zowel beeld- als video-PCS, en verbetert de eerdere SAM-mogelijkheden voor visuele segmentatietaken. Wij maken SAM 3 open source, samen met onze nieuwe Segment Anything with Concepts (SA-Co)-benchmark voor promptbare conceptsegmentatie.
Huidig onderzoek naar agent-gebaseerd visueel redeneren maakt diepe multimodale begripsvorming mogelijk, maar richt zich voornamelijk op beeldbewerkingsgereedschappen, waardoor een kloof ontstaat naar algemenere agent-gebaseerde modellen. In dit werk herbezien we de taak van geolokalisatie, die niet alleen genuanceerde visuele verankering vereist, maar ook zoeken op het web om hypothesen tijdens het redeneerproces te bevestigen of te verfijnen. Omdat bestaande geolokalisatiebenchmarks niet voldoen aan de behoefte aan hoogwaardige beeldresolutie en de lokalisatie-uitdaging voor diep agent-gebaseerd redeneren, stellen we GeoBench samen: een benchmark die foto's en panorama's van over de hele wereld omvat, samen met een subset van satellietbeelden van verschillende steden om het geolokalisatievermogen van agent-modellen rigoureus te evalueren. We introduceren tevens GeoVista, een agent-model dat gereedschapsaanroeping naadloos integreert in de redeneerlus, inclusief een zoomgereedschap om gebieden van interesse te vergroten en een zoekgereedschap om gerelateerde webinformatie op te halen. We ontwikkelen een complete trainingspijplijn hiervoor, bestaande uit een initiële supervised fine-tuning (SFT)-fase om redeneerpatronen en gereedschapsgebruik aan te leren, gevolgd door een reinforcement learning (RL)-fase om het redeneervermogen verder te versterken. We gebruiken een hiërarchische beloning om gebruik te maken van meerniveau geografische informatie en de algehele geolokalisatieprestatie te verbeteren. Experimentele resultaten tonen aan dat GeoVista andere open-source agent-modellen voor de geolokalisatietaak aanzienlijk overtreft en op de meeste metrieken prestaties bereikt die vergelijkbaar zijn met closed-source modellen zoals Gemini-2.5-flash en GPT-5.
Intrinsieke dimensie (ID) is een belangrijk instrument in de moderne analyse van grote taalmodelen (LLM's), en vormt de basis voor studies naar trainingsdynamiek, schaalgedrag en datasetstructuur. Desalniettemin zijn de tekstuele determinanten ervan nog onderbelicht. Wij presenteren de eerste uitgebreide studie die ID verankert in interpreteerbare teksteigenschappen via cross-encoder-analyse, linguïstische kenmerken en sparse autoencoders (SAE's). In dit werk leggen we drie belangrijke bevindingen vast. Ten eerste is ID complementair aan entropie-gebaseerde metrieken: na correctie voor lengte zijn de twee niet gecorreleerd, waarbij ID de geometrische complexiteit vastlegt die orthogonaal staat tot voorspellingskwaliteit. Ten tweede vertoont ID een robuuste genrestratificatie: wetenschappelijk proza vertoont een lage ID (~8), encyclopedische inhoud een gemiddelde ID (~9) en creatief/opiniegericht schrijven een hoge ID (~10,5) in alle geteste modellen. Dit onthult dat hedendaagse LLM's wetenschappelijke tekst "representatief eenvoudig" vinden, terwijl fictie extra vrijheidsgraden vereist. Ten derde identificeren we met behulp van SAE's causale kenmerken: wetenschappelijke signalen (formele toon, rapporttemplates, statistieken) verlagen de ID; menselijke signalen (personalisatie, emotie, verhaal) verhogen deze. Stuurexperimenten bevestigen dat deze effecten causaal zijn. Voor hedendaagse modellen lijkt wetenschappelijk schrijven dus relatief "makkelijk", terwijl fictie, opinie en emotie representatieve vrijheidsgraden toevoegen. Onze veelzijdige analyse biedt praktische richtlijnen voor het correcte gebruik van ID en de degelijke interpretatie van ID-gebaseerde resultaten.
Recente vooruitgang in grote redeneermodellen heeft een groeiende interesse gewekt in het uitbreiden van dergelijke mogelijkheden naar multimodale domeinen. Ondanks opmerkelijke vooruitgang in visueel redeneren, blijft het gebrek aan transparante en reproduceerbare datacuratie- en trainingsstrategieën een grote barrière voor schaalbaar onderzoek. In dit werk introduceren we OpenMMReasoner, een volledig transparant tweestapsrecept voor multimodaal redeneren, bestaande uit supervised fine-tuning (SFT) en reinforcement learning (RL). In de SFT-fase construeren we een cold-start dataset van 874K samples met rigoureuze stap-voor-stap validatie, wat een sterke basis biedt voor redeneervaardigheden. De daaropvolgende RL-fase maakt gebruik van een dataset van 74K samples uit diverse domeinen om deze vaardigheden verder aan te scherpen en te stabiliseren, wat resulteert in een robuuster en efficiënter leerproces. Uitgebreide evaluaties tonen aan dat ons trainingsrecept niet alleen sterke baselines overtreft, maar ook de cruciale rol van data-kwaliteit en trainingsontwerp benadrukt bij het vormgeven van multimodaal redeneerprestaties. Opvallend is dat onze methode een verbetering van 11,6% behaalt ten opzichte van de Qwen2.5-VL-7B-Instruct baseline over negen multimodale redeneerbenchmarks, wat een solide empirische basis legt voor toekomstig grootschalig multimodaal redeneeronderzoek. We hebben al onze codes, pijplijn en data openbaar gemaakt op https://github.com/EvolvingLMMs-Lab/OpenMMReasoner.
Wij introduceren RynnVLA-002, een geïntegreerd Vision-Language-Action (VLA) en wereldmodel. Het wereldmodel benut actie- en visuele invoer om toekomstige beeldtoestanden te voorspellen, waarbij het de onderliggende fysica van de omgeving leert om de actiegeneratie te verfijnen. Omgekeerd genereert het VLA-model opeenvolgende acties op basis van beeldobservaties, wat het visueel begrip verbetert en de beeldgeneratie van het wereldmodel ondersteunt. Het geïntegreerde raamwerk van RynnVLA-002 maakt gezamenlijke aanpassing van omgevingsdynamica en actieplanning mogelijk. Onze experimenten tonen aan dat RynnVLA-002 individuele VLA- en wereldmodellen overtreft, wat hun wederzijdse versterking aantoont. We evalueren RynnVLA-002 zowel in simulatie- als in real-world robot taken. RynnVLA-002 behaalt een slagingspercentage van 97,4% op de LIBERO-simulatiebenchmark zonder voorafgaande training, terwijl in real-world LeRobot-experimenten het geïntegreerde wereldmodel het algehele slagingspercentage met 50% verhoogt.
Recente vooruitgang in door LLM aangedreven agents heeft aanzienlijk potentieel getoond voor het genereren van mensachtige reacties; ze blijven echter uitdagingen ondervinden bij het volhouden van langdurige interacties in complexe omgevingen, voornamelijk door beperkingen in contextuele consistentie en dynamische personalisatie. Bestaande geheugensystemen zijn vaak afhankelijk van semantische groepering vóór retrievel, wat semantisch irrelevante maar cruciale gebruikersinformatie kan negeren en retrievelruis kan introduceren. In dit rapport presenteren we het initiële ontwerp van O-Mem, een nieuw geheugenraamwerk gebaseerd op actieve gebruikersprofilering dat dynamisch gebruikerskenmerken en gebeurtenisregistraties extraheert en bijwerkt uit hun proactieve interacties met agents. O-Mem ondersteunt hiërarchische retrievel van persona-attributen en onderwerpgerelateerde context, wat adaptievere en coherentere gepersonaliseerde reacties mogelijk maakt. O-Mem behaalt 51,67% op de publieke LoCoMo-benchmark, een verbetering van bijna 3% ten opzichte van LangMem, het vorige state-of-the-art systeem, en het behaalt 62,99% op PERSONAMEM, een verbetering van 3,5% ten opzichte van A-Mem, het vorige state-of-the-art systeem. O-Mem verbetert ook de efficiëntie van de responstijd per token en interactie in vergelijking met eerdere geheugenraamwerken. Ons werk opent veelbelovende richtingen voor de ontwikkeling van efficiënte en mensachtige gepersonaliseerde AI-assistenten in de toekomst.
Het begrijpen van tekstrijke video's vereist het lezen van kleine, vluchtige tekstuele aanwijzingen die vaak herhaaldelijk bekeken moeten worden. Toch vertrouwen de meeste video-VA-modellen (vraag-antwoord) op eenmalige waarneming van vaste frames, wat leidt tot hallucinaties en fouten bij fijnmazig bewijs. Geïnspireerd door hoe mensen pauzeren, inzoomen en kritieke gebieden herlezen, introduceren we Video-R4 (Versterking van Tekstrijke Videoredenering met Visuele Ruminatie), een videoredeneer-LMM (large multimodal model) dat visuele ruminatie uitvoert: iteratief frames selecteren, inzoomen op informatieve regio's, opgehaalde pixels opnieuw coderen en zijn redeneertoestand bijwerken. We construeren twee datasets met uitvoerbare ruminatietrajecten: Video-R4-CoT-17k voor gesuperviseerde oefening en Video-R4-RL-30k voor reinforcement learning. We stellen een meerfasen ruminatieleerframework voor dat een 7B-LMM progressief fine-tunt om atomische en mengende visuele operaties te leren via SFT (supervised fine-tuning) en GRPO-gebaseerde RL (reinforcement learning). Video-R4-7B behaalt state-of-the-art resultaten op M4-ViteVQA en generaliseert verder naar VA voor meerdere documentpagina's, VA voor presentatiedia's en generieke video-VA, wat aantoont dat iteratieve ruminatie een effectief paradigma is voor op pixels gegronde multimodale redenering.
Wij introduceren WorldGen, een systeem dat de automatische creatie van grootschalige, interactieve 3D-werelden rechtstreeks vanuit tekstprompts mogelijk maakt. Onze aanpak transformeert beschrijvingen in natuurlijke taal naar begaanbare, volledig getextureerde omgevingen die onmiddellijk verkend of bewerkt kunnen worden binnen standaard game-engines. Door LLM-gestuurd redeneren over scène-indeling, procedurele generatie, diffusie-gebaseerde 3D-generatie en objectbewuste scène-decompositie te combineren, overbrugt WorldGen de kloof tussen creatieve intentie en functionele virtuele ruimtes. Hierdoor kunnen ontwerpers coherente, begaanbare werelden creëren zonder handmatig modelleren of gespecialiseerde 3D-expertise. Het systeem is volledig modulair en ondersteunt gedetailleerde controle over lay-out, schaal en stijl, waardoor werelden worden geproduceerd die geometrisch consistent, visueel rijk en efficiënt in realtime te renderen zijn. Dit werk vertegenwoordigt een stap richting toegankelijke, generatieve wereldbouw op grote schaal, en verlegt de grenzen van generatieve AI voor 3D-toepassingen in gaming, simulatie en immersieve sociale omgevingen.
Dit onderzoek presenteert PARROT (Persuasion and Agreement Robustness Rating of Output Truth), een robuustheidsgericht raamwerk ontworpen om de afname in nauwkeurigheid te meten die optreedt onder sociale druk uitgeoefend op gebruikers via autoriteit en overreding in grote taalmodellen (LLM's), het fenomeen van sycofantie (overdreven conformiteit). PARROT (i) isoleert causale effecten door de neutrale versie van dezelfde vraag te vergelijken met een autoritair onjuiste versie met behulp van een dubbelblinde evaluatie, (ii) kwantificeert vertrouwensverschuivingen naar de correcte en opgelegde onjuiste antwoorden met behulp van op log-waarschijnlijkheid gebaseerde kalibratietracking, en (iii) classificeert systematisch faalmodi (bijv. robuust correct, sycofante instemming, versterkte fout, hardnekkige fout, zelfcorrectie, etc.) met behulp van een achtstatig gedragstaxonomie. We evalueerden 22 modellen met behulp van 1.302 MMLU-stijl meerkeuzevragen over 13 domeinen en domeinspecifieke autoriteitssjablonen. De bevindingen tonen een duidelijke heterogeniteit: geavanceerde modellen (bijv. GPT-5, GPT-4.1, Claude Sonnet 4.5) vertonen lage "volgpercentages" (≤ 11%, GPT-5: 4%) en minimaal nauwkeurigheidsverlies, terwijl oudere/kleinere modellen ernstige epistemische ineenstorting vertonen (GPT-4: 80%, Qwen 2.5-1.5B: 94%). Het gevaar is niet beperkt tot antwoordveranderingen; zwakke modellen verminderen het vertrouwen in het correcte antwoord terwijl het vertrouwen in het opgelegde incorrecte antwoord toeneemt. Hoewel internationaal recht en globale kennis op domeinniveau een hoge kwetsbaarheid vertonen, is elementaire wiskunde relatief veerkrachtig. Bijgevolg beargumenteren wij dat het doel van "weerstand tegen overredingsdruk" als een primair doelstelling moet worden aangepakt, naast nauwkeurigheid, het vermijden van schade en privacy, voor een veilige inzet in de praktijk.
Stapsgewijze schildertutorials zijn essentieel voor het aanleren van artistieke technieken, maar bestaande videobronnen (bijv. YouTube) missen interactiviteit en personalisatie. Hoewel recente generatieve modellen vooruitgang hebben geboekt in artistieke beeld synthese, hebben zij moeite met generaliseren over verschillende media en vertonen zij vaak temporele of structurele inconsistenties, wat een getrouwe weergave van menselijke creatieve workflows belemmert. Om dit aan te pakken, stellen wij een uniform raamwerk voor voor het genereren van multimediale schilderprocessen met een semantiek-gestuurd stijlcontrolemechanisme. Dit mechanisme incorporeert meerdere media in de conditionele ruimte van diffusiemodellen en gebruikt stijlaugmentatie tussen media. Hierdoor worden consistente textuurevolutie en procesoverdracht tussen stijlen mogelijk gemaakt. Een omgekeerd-schilder trainingsstrategie zorgt verder voor een vloeiende, op menselijk handelen afgestemde generatie. Wij hebben ook een grootschalige dataset van echte schilderprocessen samengesteld en evalueren consistentie tussen media, temporele coherentie en beeldtrouw, waarbij sterke resultaten worden behaald op LPIPS-, DINO- en CLIP-metrieken. Ten slotte modelleert onze Perceptuele Afstandsprofiel (PDP)-curve kwantitatief de creatieve sequentie – compositie, kleurvlakken en detailverfijning – wat de artistieke voortgang van de mens weerspiegelt.
Ondanks de opmerkelijke successen van Vision-Language Models (VLMs) wordt hun prestaties op een reeks complexe visuele taken vaak belemmerd door een "visueel verwerkingsknelpunt": de neiging om de verankering in visueel bewijs te verliezen en een tekort te vertonen aan gecontextualiseerde visuele ervaring tijdens langdurige generatie. Geïnspireerd door de menselijke cognitieve geheugentheorie, die onderscheid maakt tussen kortetermijngeheugen (visueel dominant) en langetermijngeheugen (semantisch dominant), stellen wij VisMem voor: een cognitief afgestemd framework dat VLMs uitrust met dynamische latente visiegeheugens – een kortetermijnmodule voor fijnkorrelige perceptuele retentie en een langetermijnmodule voor abstracte semantische consolidatie. Deze geheugens worden naadloos ingezet tijdens inferentie, waardoor VLMs zowel perceptuele trouw als semantische consistentie kunnen behouden tijdens denken en genereren. Uitgebreide experimenten op diverse visuele benchmarks voor begrip, redeneren en genereren tonen aan dat VisMem een significante gemiddelde prestatieverbetering van 11.8% oplevert ten opzichte van het standaardmodel en alle vergelijkbare modellen overtreft, waarmee een nieuw paradigma voor latent-ruimte geheugenverbetering wordt gevestigd. De code zal beschikbaar zijn: https://github.com/YU-deep/VisMem.git.
Recente vooruitgang in Vision-Language-Action (VLA)-modellen toont aan dat visuele signalen spaarzame actiesupervisie effectief kunnen aanvullen. Wanneer VLA's echter direct hoogdimensionale visuele toestanden voorspellen, kan dit de modelcapaciteit verdelen en tot onhoudbare trainingskosten leiden, terwijl het comprimeren van visuele toestanden tot compactere supervisiesignalen onvermijdelijk informatieflessenhalzen veroorzaakt. Bovendien kampen bestaande methoden vaak met beperkte begrips- en redeneervermogens door verwaarlozing van taalsupervisie. Dit artikel introduceert Mantis, een nieuw raamwerk met een Ontvlochten Visuele Voorspelling (Disentangled Visual Foresight, DVF) om deze problemen aan te pakken. Concreet ontkoppelt Mantis de voorspelling van visuele trajecten van de backbone door een combinatie van meta-queries en een diffusion Transformer (DiT)-hoofd. Doordat de huidige visuele toestand via een residuele verbinding aan de DiT wordt gevoed, stelt een eenvoudige next-state-voorspellingsdoelstelling de meta-queries in staat om automatisch de latente acties te leren die het visuele traject beschrijven, en zo het leren van expliciete acties te versterken. Deze ontvlechting vermindert de belasting van de VLA-backbone, waardoor deze zijn begrips- en redeneervermogen kan behouden via taalsupervisie. Empirisch gezien behaalt Mantis, voorgetraind op menselijke manipulatievideo's, robotdemonstraties en afbeelding-tekst-paren, na fine-tuning een slagingspercentage van 96,7% op de LIBERO-benchmark, waarmee krachtige baselines worden overtroffen en een hoge convergentiesnelheid wordt getoond. Evaluaties in de echte wereld tonen aan dat Mantis superieur presteert aan π_{0.5}, een toonaangevend open-source VLA-model, met name op het gebied van instructievolgend vermogen, generalisatie naar ongeziene instructies en redeneervermogen. Code en gewichten zijn vrijgegeven ter ondersteuning van de open-sourcegemeenschap.
Wij behandelen de taak van multi-view beeldbewerking vanuit schaarse invoerviews, waarbij de invoer kan worden gezien als een mix van beelden die de scène vanuit verschillende gezichtspunten vastleggen. Het doel is om de scène aan te passen volgens een tekstuele instructie, terwijl consistentie tussen alle views behouden blijft. Bestaande methoden, gebaseerd op neurale velden per scène of temporele aandachtmechanismen, worstelen in deze setting en produceren vaak artefacten en incoherente bewerkingen. Wij stellen InstructMix2Mix (I-Mix2Mix) voor, een raamwerk dat de bewerkingscapaciteiten van een 2D-diffusiemodel destilleert in een voorgetraind multi-view diffusiemodel, waarbij gebruik wordt gemaakt van diens data-gedreven 3D-prior voor cross-view consistentie. Een belangrijke bijdrage is het vervangen van de conventionele neurale veldconsolideerder in Score Distillation Sampling (SDS) door een multi-view diffusiestudent, wat nieuwe aanpassingen vereist: incrementele studentupdates over tijdstappen heen, een gespecialiseerde leraar-ruisplanner om degeneratie te voorkomen, en een aandachtmodificatie die de cross-view coherentie verbetert zonder extra kosten. Experimenten tonen aan dat I-Mix2Mix de multi-view consistentie aanzienlijk verbetert, terwijl een hoge bewerkingskwaliteit per frame behouden blijft.
Het opschalen van multimodale modellen heeft opmerkelijke vooruitgang mogelijk gemaakt in visueel begrip en redeneren, maar praktische eisen vragen om kleinere, efficiëntere systemen. In dit werk voeren we een principiële analyse uit van het verkleinen van intelligentie in multimodale modellen, waarbij we onderzoeken hoe verminderde capaciteit van grote taalmodellen (LLM's) multimodale capaciteiten beïnvloedt. Onze eerste bevindingen onthullen een interessante trend: het verkleinen van de LLM beïnvloedt onevenredig sterk de visuele capaciteiten, in plaats van de vaardigheden die zijn overgenomen van de LLM. Vervolgens onderzoeken we of deze daling voornamelijk de verwachte achteruitgang in visueel redeneren weerspiegelt, of een fundamenteler verlies van waarnemingsvermogen. Door het effect van LLM-verkleining op perceptie te isoleren, constateren we dat de prestaties nog steeds sterk dalen, vaak gelijk aan of groter dan de impact op redeneren. Om dit knelpunt aan te pakken, introduceren we *visual extraction tuning*, waarbij het model expliciet wordt getraind om instructie-relevante visuele details consistent over taken heen te extraheren. Met deze geëxtraheerde visuele details passen we vervolgens stap-voor-stap redeneren toe om antwoorden te genereren. Samen vormen deze componenten onze Extract+Think-aanpak, die een nieuwe standaard zet voor efficiëntie en prestaties in dit domein.
Het modelleren van genoomsequenties wordt geconfronteerd met twee onopgeloste uitdagingen: de informatiedichtheid varieert sterk tussen verschillende regio's, terwijl er geen duidelijk gedefinieerde minimale vocabulaire eenheid is. Door te vertrouwen op vier primitiewe basen of onafhankelijk ontworpen DNA-tokenizers, slagen bestaande benaderingen met naïeve gemaskeerde taalmodellering voorafgaande training er vaak niet in zich aan te passen aan de variërende complexiteit van genoomsequenties. Gebruikmakend van Token Merging-technieken introduceert dit artikel een hiërarchische architectuur die gezamenlijk een dynamische genomische tokenizer en latente Transformers optimaliseert met contextbewuste pre-trainingstaken. Wat de netwerkstructuren betreft, verdeelt de tokenisatiemodule aangrenzende basen automatisch in woorden door meerdere lagen van differentieerbare token merging-blokken met lokale vensterbeperkingen te stapelen; vervolgens vangt een Latent Encoder de globale context van deze samengevoegde woorden op via full-attention blokken. Door symmetrisch een Latent Decoder en een Local Decoder in te zetten, leert MergeDNA met twee pre-trainingstaken: Merged Token Reconstruction traint tegelijkertijd de dynamische tokenisatiemodule en filtert adaptief belangrijke tokens, terwijl Adaptive Masked Token Modeling leert om deze gefilterde tokens te voorspellen om informatieve inhoud te vangen. Uitgebreide experimenten tonen aan dat MergeDNA superieure prestaties bereikt op drie populaire DNA-referentietesten en verschillende multi-omics taken met fine-tuning of zero-shot evaluatie, waarbij het typische tokenisatiemethoden en grootschalige DNA-basismodellen overtreft.
Vision-language-action (VLA)-modellen tonen potentie voor algemene robottaken, maar blijven uitdagend bij ruimtelijk-tijdelijk coherente manipulatie, wat fijnmazige representaties vereist. Normaal gesproken embedden bestaande methoden 3D-posities in visuele representaties om de ruimtelijke precisie van acties te verbeteren. Deze methoden hebben echter moeite om tijdelijk coherente controle over actie-uitvoering te bereiken. In dit werk stellen we VLA-4D voor, een algemeen VLA-model met 4D-bewustzijn voor ruimtelijk-tijdelijk coherente robotmanipulatie. Ons model wordt geleid door twee belangrijke ontwerpen: 1) 4D-bewuste visuele representatie. We extraheren visuele kenmerken, embedden 1D-tijd in 3D-posities voor 4D-embeddings, en fuseren deze via een cross-attention-mechanisme tot een uniforme visuele representatie. 2) Ruimtelijk-tijdelijke actierepresentatie. We breiden conventionele ruimtelijke actierepresentaties uit met temporele informatie om ruimtelijk-tijdelijke planning mogelijk te maken, en aligneren de multimodale representaties in het LLM voor ruimtelijk-tijdelijke actievoorspelling. Binnen dit uniforme kader zorgen de ontworpen visuele en actierepresentaties gezamenlijk voor ruimtelijk soepele en tijdelijk coherente robotmanipulatie. Daarnaast breiden we de VLA-dataset uit met temporele actieannotaties voor het fine-tunen van ons model. Uitgebreide experimenten zijn uitgevoerd om de superioriteit van onze methode voor verschillende taken in robotmanipulatie te verifiëren.
Peer review is een hoeksteen van wetenschappelijke publicatie, ook bij toonaangevende conferenties voor machine learning zoals ICLR. Naarmate het aantal inzendingen toeneemt, is het begrijpen van de aard en dynamiek van het beoordelingsproces cruciaal om de efficiëntie, effectiviteit en de kwaliteit van gepubliceerde artikelen te verbeteren. Wij presenteren een grootschalige analyse van de peer review-processen van ICLR 2024 en 2025, met de focus op scores voor en na de rebuttal en interacties tussen auteurs en reviewers. Wij onderzoeken beoordelingsscores, de betrokkenheid van auteurs en reviewers, temporele patronen in het indienen van reviews en invloedeffecten tussen mede-reviewers. Door kwantitatieve analyses te combineren met op grote taalmodelen gebaseerde categorisatie van reviewteksten en rebuttal-discussies, identificeren we veelvoorkomende sterke en zwakke punten voor elke scoringsgroep, evenals trends in rebuttal-strategieën die het sterkst geassocieerd zijn met scoreveranderingen. Onze bevindingen tonen aan dat initiële scores en de beoordelingen van mede-reviewers de sterkste voorspellers zijn van scoreveranderingen tijdens de rebuttal, wat wijst op een zekere mate van invloed tussen reviewers. Rebuttals spelen een waardevolle rol bij het verbeteren van de resultaten voor grensgeval-artikelen, waar doordachte auteursreacties de perspectieven van reviewers betekenisvol kunnen veranderen. In bredere zin biedt onze studie evidence-based inzichten om het peer review-proces te verbeteren, waarbij we auteurs begeleiden naar effectieve rebuttal-strategieën en de gemeenschap helpen om eerlijkere en efficiëntere reviewprocessen te ontwerpen. Onze code en gegevens over scoreveranderingen zijn beschikbaar op https://github.com/papercopilot/iclr-insights.
Met de snelle ontwikkeling van grootschalige taalmmodellen (LLM's) hebben AI-agenten een toenemende bekwaamheid getoond bij wetenschappelijke taken, variërend van hypothesevorming en experimenteel ontwerp tot het schrijven van manuscripten. Dergelijke agentsystemen worden doorgaans "AI-wetenschappers" genoemd. Echter, bestaande AI-wetenschappers formuleren wetenschappelijke ontdekkingen voornamelijk als een op zichzelf staand zoek- of optimalisatieprobleem, waarbij over het hoofd wordt gezien dat wetenschappelijk onderzoek van nature een sociaal en collaboratief streven is. Wetenschap in de echte wereld steunt op een complexe wetenschappelijke infrastructuur bestaande uit collaboratieve mechanismen, toeschrijving van bijdragen, peer review en gestructureerde wetenschappelijke kennissnetwerken. Door het ontbreken van modellering voor deze kritieke dimensies, hebben huidige systemen moeite om een authentiek onderzoeksecosysteem op te zetten of diepgaand te interacteren met de menselijke wetenschappelijke gemeenschap. Om deze kloof te overbruggen, introduceren we OmniScientist, een raamwerk dat de onderliggende mechanismen van menselijk onderzoek expliciet codeert in de AI-wetenschappelijke workflow. OmniScientist bereikt niet alleen end-to-end automatisering over datafundament, literatuuronderzoek, onderzoeksideevorming, experimentele automatisering, wetenschappelijk schrijven en peer review, maar biedt ook uitgebreide infrastructurele ondersteuning door het menselijke wetenschappelijke systeem te simuleren, bestaande uit: (1) een gestructureerd kennissysteem gebouwd op citatienetwerken en conceptuele correlaties; (2) een collaboratief onderzoeksprotocol (OSP), dat naadloze multi-agent samenwerking en participatie van menselijke onderzoekers mogelijk maakt; en (3) een open evaluatieplatform (ScienceArena) gebaseerd op blinde paarsgewijze gebruikersstemmingen en Elo-rangschikkingen. Deze infrastructuur stelt agenten in staat om niet alleen menselijke kennissystemen te begrijpen en te benutten, maar ook om samen te werken en gezamenlijk te evolueren, waardoor een duurzaam en schaalbaar innovatie-ecosysteem wordt bevorderd.
Visuele Autoregressieve (VAR) modellen hebben recentelijk aanzienlijke aandacht gekregen vanwege hun innovatieve next-scale voorspellingsparadigma, dat aanzienlijke voordelen biedt op het gebied van zowel inferentie-efficiëntie als beeldkwaliteit in vergelijking met traditionele multi-step autoregressieve (AR) en diffusiemodellen. Ondanks hun efficiëntie kampen VAR-modellen echter vaak met 'diversity collapse' (diversiteitsimplosie), een reductie in uitvoervariabiliteit, vergelijkbaar met wat wordt waargenomen bij few-step gedistilleerde diffusiemodellen. In dit artikel introduceren we DiverseVAR, een eenvoudige maar effectieve aanpak die de generatieve diversiteit van VAR-modellen herstelt zonder aanvullende training. Onze analyse onthult de cruciale component van de feature map als een sleutelfactor die de diversiteitsvorming op vroege schalen bepaalt. Door de cruciale component in de modelinput te onderdrukken en deze in de modeloutput te versterken, ontgrendelt DiverseVAR effectief het inherente generatieve potentieel van VAR-modellen, waarbij tegelijkertijd hoogwaardige synthese behouden blijft. Empirische resultaten tonen aan dat onze aanpak de generatieve diversiteit aanzienlijk verbetert met slechts verwaarloosbare prestatieverliezen. Onze code zal openbaar worden vrijgegeven op https://github.com/wangtong627/DiverseVAR.
Het trainen van detectiemodellen voor verboden voorwerpen vereist een grote hoeveelheid röntgenbeveiligingsbeelden, maar het verzamelen en annoteren van deze beelden is tijdrovend en arbeidsintensief. Om datatekort aan te pakken, synthetiseren röntgenbeveiligingsbeeld-synthesemethoden beelden om datasets te vergroten. Eerdere methoden volgden echter voornamelijk een tweestappenpijplijn, waarbij ze in de eerste fase arbeidsintensieve voorgrondextractie uitvoeren en in de tweede fase beelden samenstellen. Zo'n pijplijn introduceert onvermijdelijke extra arbeidskosten en is niet efficiënt. In dit artikel stellen we een eenstaps röntgenbeveiligingsbeeld-synthesepijplijn (Xsyn) voor op basis van tekst-naar-beeld-generatie, waarin twee effectieve strategieën zijn geïntegreerd om de bruikbaarheid van synthetische beelden te verbeteren. De Cross-Attention Refinement (CAR)-strategie benut de cross-attention-kaart van het diffusiemodel om de annotatie van begrenzingskaders te verfijnen. De Background Occlusion Modeling (BOM)-strategie modelleert expliciet achtergrondocclusie in de latente ruimte om de beeldcomplexiteit te vergroten. Voor zover wij weten, is Xsyn in vergelijking met eerdere methoden de eerste die hoogwaardige röntgenbeveiligingsbeeldsynthese bereikt zonder extra arbeidskosten. Experimenten tonen aan dat onze methode alle eerdere methoden overtreft met een verbetering van 1,2% mAP, en dat de door onze methode gegenereerde synthetische beelden bijdragen aan het verbeteren van de detectieprestaties van verboden voorwerpen across verschillende röntgenbeveiligingsdatasets en detectoren. Code is beschikbaar op https://github.com/pILLOW-1/Xsyn/.
Recente methoden voor videogeneratie maken in toenemende mate gebruik van het plannen van tussenliggende controlesignalen, zoals objecttrajecten, om temporele coherentie en bewegingsnauwkeurigheid te verbeteren. Deze methoden hanteren echter voornamelijk eenmalige plannen die doorgaans beperkt zijn tot eenvoudige bewegingen, of iteratieve verfijning waarvoor meerdere aanroepen van de videogenerator nodig zijn, wat hoge rekenkosten met zich meebrengt. Om deze beperkingen te overwinnen, stellen we SketchVerify voor, een trainingsvrij, op schets-verificatie gebaseerd planningsraamwerk dat de kwaliteit van bewegingsplanning verbetert met dynamisch coherentere trajecten (d.w.z. fysisch plausibele en instructie-conforme bewegingen) vóór de volledige videogeneratie, door een test-time sampling- en verificatielus te introduceren. Gegeven een prompt en een referentiebeeld voorspelt onze methode meerdere kandidaat-bewegingsplannen en rangschikt deze met behulp van een vision-language-verifier die zowel de semantische afstemming met de instructie als de fysische plausibiliteit gezamenlijk evalueert. Om kandidaat-bewegingsplannen efficiënt te scoren, renderen we elk traject als een lichtgewicht videoschets door objecten over een statische achtergrond te compositen, waardoor de noodzaak van dure, herhaalde op diffusie gebaseerde synthese wordt omzeild, terwijl vergelijkbare prestaties worden bereikt. We verfijnen het bewegingsplan iteratief tot een bevredigend plan is geïdentificeerd, dat vervolgens wordt doorgegeven aan de traject-geconditioneerde generator voor de uiteindelijke synthese. Experimenten op WorldModelBench en PhyWorldBench tonen aan dat onze methode de bewegingskwaliteit, fysische realiteit en langetermijnconsistentie aanzienlijk verbetert in vergelijking met competitieve baseline-methoden, terwijl ze aanzienlijk efficiënter is. Onze ablatiestudie toont verder aan dat het opschalen van het aantal trajectkandidaten de algehele prestaties consistent verbetert.
Het groeiende misbruik van Vision-Language Models (VLMs) heeft ertoe geleid dat aanbieders meerdere veiligheidsmaatregelen hebben geïmplementeerd, zoals alignment-tuning, systeemprompts en contentmoderatie. De robuustheid van deze verdedigingsmechanismen in de praktijk tegen adversariële aanvallen blijft echter onderbelicht. Wij introduceren de Multi-Faceted Attack (MFA), een raamwerk dat systematisch algemene veiligheidskwetsbaarheden blootlegt in toonaangevende VLMs met verdedigingsmechanismen, zoals GPT-4o, Gemini-Pro en Llama-4. De kerncomponent van MFA is de Attention-Transfer Attack (ATA), die schadelijke instructies verbergt in een metataak met concurrerende doelstellingen. Wij bieden een theoretisch perspectief gebaseerd op reward hacking om te verklaren waarom deze aanval slaagt. Om de overdraagbaarheid tussen modellen te verbeteren, introduceren we verder een lichtgewicht transfer-verbeteringsalgoritme gecombineerd met een eenvoudige herhalingsstrategie die gezamenlijk zowel invoer- als uitvoerfilters omzeilt zonder modelspecifieke fine-tuning. Empirisch tonen we aan dat adversariële afbeeldingen geoptimaliseerd voor één vision-encoder breed overdraagbaar zijn naar onbekende VLMs, wat aangeeft dat gedeelde visuele representaties een veiligheidskwetsbaarheid tussen modellen creëren. Over het algemeen behaalt MFA een slagingspercentage van 58,5% en presteert het consistent beter dan bestaande methoden. Op state-of-the-art commerciële modellen bereikt MFA een slagingspercentage van 52,8%, wat 34% hoger is dan de op één na beste aanval. Deze resultaten trekken de vermeende robuustheid van huidige verdedigingsmechanismen in twijfel en benadrukken hardnekkige veiligheidszwakheden in moderne VLMs. Code: https://github.com/cure-lab/MultiFacetedAttack
Wij presenteren de eerste grootschalige mixture-of-experts (MoE) pre-trainingsstudie op pure AMD-hardware, waarbij gebruik wordt gemaakt van MI300X GPU's met Pollara-interconnect. We destilleren praktische richtlijnen voor zowel systeem- als modelontwerp. Op systeemgebied bieden we een uitgebreide karakterisering van het cluster en de netwerkinfrastructuur: microbenchmarks voor alle kerncollectieven (all-reduce, reduce-scatter, all-gather, broadcast) voor verschillende berichtgroottes en aantallen GPU's op Pollara. Voor zover ons bekend is dit de eerste studie op deze schaal. Verder presenteren we MI300X-microbenchmarks voor kernelgroottes en geheugenbandbreedte om modelontwerp te informeren. Op modelgebied introduceren en passen we MI300X-specifieke transformer-grootteregels toe voor attention- en MLP-blokken en onderbouwen we MoE-breedtes die gezamenlijk de trainingsdoorvoer en inferentielatentie optimaliseren. We beschrijven onze trainingsstack in detail, inclusief vaak veronachtzaamde utility-functies zoals fouttolerantie en checkpoint-hervorming, evenals gedetailleerde informatie over ons trainingsrecept. Tevens geven we een voorproefje van onze modelarchitectuur en basismodel - ZAYA1 (760M actieve, 8.3B totale parameters MoE) - die in komende publicaties verder verbeterd zal worden. ZAYA1-base bereikt prestaties vergelijkbaar met toonaangevende basismodellen zoals Qwen3-4B en Gemma3-12B binnen en boven zijn schaal, en overtreft modellen zoals Llama-3-8B en OLMoE op reasoning-, wiskunde- en coding-benchmarks. Gezamenlijk tonen deze resultaten aan dat de AMD-hardware, het netwerk en de softwarestack voldoende gerijpt en geoptimaliseerd zijn voor competitieve grootschalige pretraining.
Salientiekaarten worden veel gebruikt voor visuele uitleg bij deep learning, maar er bestaat een fundamenteel gebrek aan consensus over hun beoogde doel en afstemming op uiteenlopende gebruikersvragen. Deze dubbelzinnigheid belemmert een effectieve evaluatie en de praktische bruikbaarheid van verklaringsmethoden. Wij dichten deze kloof door de Referentiekader maal Granulariteit (RFxG) taxonomie te introduceren, een principieel conceptueel kader dat salientieverklaringen ordent langs twee essentiële assen: * **Referentiekader:** Onderscheidt zich tussen puntgewijze ("Waarom deze voorspelling?") en contrastieve ("Waarom dit en niet een alternatief?") verklaringen. * **Granulariteit:** Loopt van fijnmazige, klasse-specifieke (bijv. "Waarom Husky?") tot grofmazige, groepsspecifieke (bijv. "Waarom Hond?") interpretaties. Door de RFxG-bril demonstreren we kritieke beperkingen in bestaande evaluatiemetrics, die overweldigend prioriteit geven aan puntgewijze trouw (faithfulness), terwijl contrastief redeneren en semantische granulariteit worden verwaarloosd. Om de kwaliteit van verklaringen systematisch te beoordelen langs beide RFxG-dimensies, stellen we vier nieuwe trouwmetrics voor. Ons uitgebreide evaluatiekader past deze metrics toe op tien state-of-the-art salientiemethoden, vier modelarchitecturen en drie datasets. Door te pleiten voor een verschuiving naar gebruikersintentie-gedreven evaluatie, biedt ons werk zowel de conceptuele basis als de praktische instrumenten die nodig zijn om visuele verklaringen te ontwikkelen die niet alleen trouw zijn aan het onderliggende modelgedrag, maar ook zinvol zijn afgestemd op de complexiteit van het menselijk begrip en de vraagstelling.