Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks vooruitgang in wetenschappelijke AI ontbreekt een coherent kader voor Wetenschappelijke Algemene Intelligentie (SVI) – het vermogen om autonoom concepten te vormen, onderzoek te verrichten en te redeneren over wetenschappelijke domeinen heen. Wij presenteren een operationele SVI-definitie, geworteld in het Praktijkgericht Onderzoeksmodel (POM: Beraadslaging, Conceptie, Actie, Perceptie), en operationaliseren deze via vier taken die zijn afgestemd op de wetenschappelijke praktijk: diepgaand onderzoek, idee-generatie, droge/natte experimenten en experimenteel redeneren. SVI-Bench omvat meer dan 1000 deskundig samengestelde, interdisciplinaire voorbeelden geïnspireerd door 'Science's 125 Big Questions', wat een systematische evaluatie van state-of-the-art taalmogelijk maakt. Resultaten tonen hiaten: een lage exacte match (10–20%) bij diepgaand onderzoek ondanks overeenstemming op stapniveau; ideeën die haalbaarheid en detail ontberen; hoge code-uitvoerbaarheid maar lage nauwkeurigheid van uitvoeringsresultaten bij droge experimenten; lage sequentietrouw in natte protocollen; en hardnekkige uitdagingen in multimodaal vergelijkend redeneren. Wij introduceren verder Test-Time Reinforcement Learning (TTRL), dat tijdens inferentie retrieval-augmented nieuwheidswaarden optimaliseert, waardoor de hypothese-nieuwheid wordt verbeterd zonder referentieantwoorden. Samen leggen onze op het POM-gebaseerde definitie, workflow-gerichte benchmark en empirische inzichten een fundament voor AI-systemen die daadwerkelijk deelnemen aan wetenschappelijke ontdekking.
Robotische generalisatie steunt op fysieke intelligentie: het vermogen om te redeneren over toestandsveranderingen, contactrijke interacties en planning over lange tijdshorizonten binnen egocentrische perceptie en actie. De meeste VLMs worden echter voornamelijk getraind op data vanuit derdepersoonsperspectief, wat een fundamenteel gezichtspunt-mismatch creëert voor humanoïde robots. Het opschalen van de verzameling van egocentrische robotdata blijft onpraktisch vanwege hoge kosten en beperkte diversiteit, terwijl grootschalige menselijke egocentrische video's een schaalbaar alternatief bieden die van nature rijke interactiecontext en causale structuur vastleggen. De belangrijkste uitdaging is het omzetten van ruwe egocentrische video's in gestructureerde en betrouwbare trainingssupervisie voor embodiment. Dienovereenkomstig stellen we een Egocentric2Embodiment-vertaalpijplijn voor die first-person video's omzet in meerlagige, schema-gestuurde VQA-supervisie met afgedwongen evidence grounding en temporele consistentie, waardoor de grootschalige constructie van de Egocentric2Embodiment-dataset (E2E-3M) mogelijk wordt. Een egocentrisch-bewuste embodied brain, genaamd PhysBrain, wordt verkregen door training op de E2E-3M dataset. PhysBrain vertoont een aanzienlijk verbeterd egocentrisch begrip, met name voor planning op EgoThink. Het biedt een egocentrisch-bewuste initialisatie die sample-efficiëntere VLA-finetuning en hogere SimplerEnv-succespercentages (53,9%) mogelijk maakt, wat een effectieve transfer aantoont van menselijke egocentrische supervisie naar downstream robotbesturing.
Ondanks de superieure prestaties van Large Reasoning Models (LRM's) zijn hun redeneergedragingen vaak contra-intuïtief, wat leidt tot suboptimale redeneercapaciteiten. Om de gewenste redeneergedragingen theoretisch te formaliseren, presenteert dit artikel de Laws of Reasoning (LoRe), een uniform kader dat intrinsieke redeneerpatronen in LRM's karakteriseert. We stellen eerst de compute law voor, gebaseerd op de hypothese dat de benodigde rekenkracht lineair moet schalen met de vraagcomplexiteit. Naast rekenkracht breiden we LoRe uit met een aanvullende accuracy law. Aangezien vraagcomplexiteit in de praktijk moeilijk te kwantificeren is, toetsen we deze hypothesen aan twee eigenschappen van de wetten: monotoniciteit en compositionaliteit. Daarom introduceren we LoRe-Bench, een benchmark die deze twee hanteerbare eigenschappen systematisch meet voor grote redeneermodellen. Evaluatie toont aan dat de meeste redeneermodellen redelijke monotoniciteit vertonen, maar compositionaliteit missen. Als reactie hierop ontwikkelen we een effectieve finetuning-aanpak die compositionaliteit van de compute law afdwingt. Uitgebreide empirische studies tonen aan dat betere naleving van de compute laws consistent verbeterde redeneerprestaties oplevert op meerdere benchmarks, en synergetische effecten tussen eigenschappen en wetten blootlegt. Projectpagina: https://lore-project.github.io/
Grote taalmodellen hebben recentelijk aanzienlijke vooruitgang geboekt in het genereren van rigoureuze wiskundige bewijzen. Het gebruik van LLM's voor stellingenbewijzen in formele talen (zoals Lean) blijft daarentegen uitdagend en rekenkundig kostbaar, vooral bij problemen op bachelorniveau en daarboven. In dit werk presenteren we Seed-Prover 1.5, een formeel stellingenbewijsmodel getraind via grootschalig agent-gebaseerd reinforcement learning, samen met een efficiënte workflow voor schaling tijdens testtijd (TTS). Door uitgebreide interacties met Lean en andere tools accumuleert het model continu ervaring tijdens het RL-proces, wat de capaciteit en efficiëntie van formeel stellingenbewijzen aanzienlijk verbetert. Bovendien overbrugt onze TTS-workflow, door gebruik te maken van recente ontwikkelingen in natuurlijktaal-bewijzen, efficiënt de kloof tussen natuurlijke en formele talen. Vergeleken met state-of-the-art methoden behaalt Seed-Prover 1.5 superieure prestaties met een kleiner rekenbudget. Het lost 88% van de PutnamBench-problemen (bachelorniveau), 80% van Fate-H (masterniveau) en 33% van Fate-X (promotieniveau) op. Opmerkelijk is dat we met ons systeem 11 van de 12 problemen van Putnam 2025 binnen 9 uur hebben opgelost. Onze bevindingen suggereren dat het opschalen van leren uit ervaring, aangedreven door hoogwaardige formele feedback, een enorm potentieel heeft voor de toekomst van formeel wiskundig redeneren.
Moderne Latent Diffusion Models (LDM's) opereren doorgaans in latentruimten van low-level Variational Autoencoders (VAE's) die primair zijn geoptimaliseerd voor pixelreconstructie. Om visuele generatie en begrip te verenigen, is een opkomende trend om hoogdimensionale features van representatie-encoders als generatieve latenties te gebruiken. Empirisch identificeren wij echter twee fundamentele obstakels in dit paradigma: (1) de discriminerende feature-ruimte mist compacte regularisatie, waardoor diffusion models gevoelig zijn voor off-manifold latenties die tot onnauwkeurige objectstructuren leiden; en (2) de inherent zwakke pixelreconstructie van de encoder belemmert de generator bij het leren van nauwkeurige fijne geometrie en textuur. In dit artikel stellen we een systematisch raamwerk voor om op begrip gerichte encoder-features aan te passen voor generatieve taken. We introduceren een semantisch-pixelreconstructiedoel om de latentruimte te regulariseren, waardoor zowel semantische informatie als fijne details worden gecomprimeerd tot een zeer compacte representatie (96 kanalen met 16x16 ruimtelijke downsampling). Dit ontwerp garandeert dat de latentruimte semantisch rijk blijft en state-of-the-art beeldreconstructie bereikt, terwijl deze compact genoeg blijft voor nauwkeurige generatie. Op basis van deze representatie ontwerpen we een verenigd Text-to-Image (T2I) en beeldbewerkingsmodel. Vergelijking met verschillende feature-ruimten toont aan dat onze aanpak state-of-the-art reconstructie, snellere convergentie en substantiële prestatieverbeteringen bereikt in zowel T2I- als bewerkings-taken, wat valideert dat representatie-encoders effectief kunnen worden aangepast tot robuuste generatieve componenten.
Ondanks vooruitgang in Multimodale LLM's (MLLM's) blijft hun vermogen om te redeneren over 3D-structuren en temporele dynamiek beperkt, gehinderd door zwak 4D-perceptie en temporeel begrip. Bestaande 3D- en 4D Video Question Answering (VQA)-benchmarks leggen eveneens de nadruk op statische scènes en missen region-level prompting. Wij pakken deze problemen aan door te introduceren: (a) 4D-RGPT, een gespecialiseerde MLLM ontworpen om 4D-representaties uit video-input te vangen met verbeterde temporele perceptie; (b) Perceptual 4D Distillation (P4D), een trainingsraamwerk dat 4D-representaties van een bevroren expertmodel overbrengt naar 4D-RGPT voor uitgebreide 4D-perceptie; en (c) R4D-Bench, een benchmark voor dieptebewuste dynamische scènes met region-level prompting, opgebouwd via een hybride geautomatiseerde en door mensen geverifieerde pijplijn. Onze 4D-RGPT behaalt aanzienlijke verbeteringen op zowel bestaande 4D VQA-benchmarks als de voorgestelde R4D-Bench benchmark.
LLM-as-a-Judge wordt inmiddels veelvuldig gebruikt als evaluatiemethode en dient als gesuperviseerde beloning in modeltraining. Bestaande benchmarks voor LLM-as-a-Judge zijn echter voornamelijk gebaseerd op door mensen geannoteerde grondtruth, wat menselijke bias introduceert die de betrouwbaarheidsbeoordeling ondermijnt en schaalbaarheidsbeperkingen oplegt. Om deze beperkingen te overwinnen, introduceren wij Sage, een nieuwe evaluatiesuite die de kwaliteit van LLM-beoordelaars beoordeelt zonder menselijke annotatie te vereisen. Geïnspireerd door axioma's uit de rationele keuzetheorie introduceert Sage twee nieuwe invalshoeken voor het meten van LLM-as-a-Judge: lokale zelfconsistentie (paarsgewijze preferentiestabiliteit) en globale logische consistentie (transitiviteit over een volledige set voorkeuren). Wij hebben een dataset van 650 vragen samengesteld door gestructureerde benchmarkproblemen te combineren met gebruikersvragen uit de praktijk. Onze experimenten tonen zowel de stabiliteit van onze metrieken als hun hoge correlatie met gesuperviseerde benchmarks zoals LLMBar en RewardBench2 aan, wat de betrouwbaarheid van Sage als evaluatiesuite voor de robuustheid en nauwkeurigheid van LLM-as-a-Judge bevestigt. Op basis van Sage tonen wij aan dat huidige state-of-the-art LLM's aanzienlijke betrouwbaarheidsproblemen vertonen wanneer zij optreden als beoordelaar in zowel scorings- als paarsgewijze settings; zelfs de best presterende modellen, Gemini-2.5-Pro en GPT-5, slagen er niet in consistente voorkeuren te handhaven in bijna een kwart van de moeilijke gevallen. Wij schrijven dit toe aan een nieuw fenomeen genaamd situationele preferentie, dat verklaart waarom expliciete rubrieken of criteria het model kunnen helpen consistent te oordelen over antwoordparen. Onze verdere analyse toont aan dat gefinetunede LLM-as-a-Judge een haalbare methode is om de prestaties te verbeteren, en dat panelgebaseerde beoordeling evenals diep redeneren de beoordelingsconsistentie kunnen vergroten. Wij constateren ook aanzienlijke inconsistentie in menselijke oordelen, wat aangeeft dat menselijke annotatie mogelijk geen betrouwbare gouden standaard is.
Wij presenteren RadarGen, een diffusiemodel voor de synthese van realistische automotive radar point clouds op basis van multi-view camera-beelden. RadarGen past efficiënte diffusie in beeldlatentieruimte aan voor het radardomein door radarmetingen te representeren in een vogelperspectief (bird's-eye-view, BEV) formaat dat de ruimtelijke structuur codeert samen met radardoorsnede (RCS) en Doppler-attributen. Een lichtgewicht herstapstap reconstrueert point clouds uit de gegenereerde kaarten. Om de generatie beter te laten aansluiten bij de visuele scène, integreert RadarGen BEV-uitgelijnde diepte-, semantische- en bewegingsaanwijzingen die zijn geëxtraheerd uit voorgetrainde foundation models. Deze begeleiden het stochastische generatieproces naar fysiek plausibele radarpatronen. Conditionering op beelden maakt de aanpak in principe breed compatibel met bestaande visuele datasets en simulatiekaders, wat een schaalbare richting biedt voor multimodale generatieve simulatie. Evaluaties op grootschalige rijdata tonen aan dat RadarGen karakteristieke radarmeetdistributies vastlegt en de kloof verkleint met perceptiemodellen die op echte data zijn getraind, wat een stap markeert naar uniforme generatieve simulatie over sensorische modaliteiten heen.
Visuele grounding, het lokaliseren van objecten aan de hand van natuurlijke taal beschrijvingen, vormt een cruciale brug tussen taal- en visueel begrip. Hoewel multimodale grote taalmodellen (MLLM's) indrukwekkende scores behalen op bestaande benchmarks, blijft een fundamentele vraag onbeantwoord: kunnen MLLM's taal daadwerkelijk op een menselijk verfijnde manier in beelden verankeren, of matchen ze slechts patronen in vereenvoudigde datasets? Huidige benchmarks vangen de complexiteit van de echte wereld niet, waarin mensen moeiteloos omgaan met dubbelzinnige verwijzingen en herkennen wanneer grounding onmogelijk is. Om de werkelijke capaciteiten van MLLM's rigoureus te beoordelen, introduceren we GroundingME, een benchmark die modellen systematisch uitdaagt op vier kritieke dimensies: (1) Discriminatief: onderscheiden van sterk gelijkende objecten, (2) Spatieel: begrijpen van complexe relationele beschrijvingen, (3) Beperkt: omgaan met occlusies of minuscule objecten, en (4) Afwijzing: herkennen van niet-grondbare queries. Door zorgvuldige samenstelling, combinatie van automatische generatie en menselijke verificatie, creëren we 1.005 uitdagende voorbeelden die de complexiteit van de echte wereld weerspiegelen. Evaluatie van 25 state-of-the-art MLLM's onthult een diepgaande kloof in capaciteit: het beste model behaalt slechts 45,1% nauwkeurigheid, terwijl de meeste 0% scoren op afwijzingstaken, waarbij ze reflexief objecten hallucineren in plaats van hun afwezigheid te erkennen. Dit werpt kritieke veiligheidsvragen op voor implementatie. We onderzoeken twee verbeterstrategieën: (1) test-time scaling selecteert de optimale respons door denk trajecten te gebruiken, wat complexe grounding met tot 2,9% verbetert, en (2) data-mixture training leert modellen niet-grondbare queries te herkennen, wat de afwijzingsnauwkeurigheid van 0% naar 27,9% verhoogt. GroundingME dient zo zowel als diagnostisch instrument dat huidige beperkingen in MLLM's blootlegt, als als routekaart naar visuele grounding op menselijk niveau.
Het begrijpen van architectuurverschillen in taalmodellen is uitdagend, vooral bij academisch-schalige voortraining (bijv. 1,3B parameters, 100B tokens), waar resultaten vaak worden gedomineerd door ruis en willekeur. Om dit te omzeilen, introduceren we gecontroleerde synthetische voortrainingstaken die kernmodelcapaciteiten isoleren en evalueren. Binnen dit raamwerk ontdekken we CANON LAYERS: lichtgewicht architectuurcomponenten – vernoemd naar de muzikale term 'canon' – die horizontale informatiestroom tussen naburige tokens bevorderen. Canon-lagen berekenen gewogen sommen van nabije tokenrepresentaties en integreren naadloos in Transformers, lineaire aandacht, toestandsruimtemodellen of elke sequentie-architectuur. We presenteren 12 kernresultaten. Dit omvat hoe Canon-lagen redeneerdiepte (bijv. met 2x), redenereerbreedte, kennismanipulatie, etc. verbeteren. Ze tillen zwakke architecturen zoals NoPE naar het niveau van RoPE, en lineaire aandacht naar dat van SOTA lineaire modellen zoals Mamba2/GDN – gevalideerd via zowel synthetische taken als echte academisch-schalige voortraining. Deze synthetische speeltuin biedt een economisch, principieel pad om kernmodelcapaciteiten te isoleren die vaak verhuld blijven op academische schaal. Uitgerust met oneindige hoogwaardige data, kan het zelfs VOORSPELLEN hoe toekomstige architecturen zich zullen gedragen naarmate trainingspipelines verbeteren – bijv. door betere datacuratie of RL-gebaseerde natreining – wat dieper redeneren en hiërarchische inferentie ontsluit.
Vision-Language-Action (VLA)-modellen veroorzaken een revolutie in de robotica, doordat ze machines in staat stellen instructies te begrijpen en te interageren met de fysieke wereld. Dit vakgebied explodeert met nieuwe modellen en datasets, wat het zowel opwindend als uitdagend maakt om bij te blijven. Dit overzichtsartikel biedt een duidelijke en gestructureerde gids voor het VLA-landschap. We hebben het ontworpen om het natuurlijke leerpad van een onderzoeker te volgen: we beginnen met de basismodules van elk VLA-model, volgen de geschiedenis via belangrijke mijlpalen en duiken vervolgens diep in de kernuitdagingen die de recente onderzoeksfrontier bepalen. Onze belangrijkste bijdrage is een gedetailleerde uitsplitsing van de vijf grootste uitdagingen op het gebied van: (1) Representatie, (2) Uitvoering, (3) Generalisatie, (4) Veiligheid, en (5) Dataset en Evaluatie. Deze structuur weerspiegelt de ontwikkelingsroutekaart van een generalistisch agent: het vestigen van de fundamentele perceptie-actielus, het schalen van capaciteiten over diverse embodimenten en omgevingen, en ten slotte het waarborgen van een betrouwbare inzet – allemaal ondersteund door de essentiële datainfrastructuur. Voor elk van deze gebieden bespreken we bestaande benaderingen en belichten we toekomstige kansen. We positioneren dit artikel zowel als een fundamentele gids voor nieuwkomers als een strategische routekaart voor ervaren onderzoekers, met het dubbele doel om het leren te versnellen en nieuwe ideeën in embodied intelligence te inspireren. Een live versie van dit overzicht, met continue updates, wordt bijgehouden op onze https://suyuz1.github.io/Survery/{projectpagina}.
Versterkend leren (RL) is opnieuw naar voren gekomen als een natuurlijke aanpak voor het trainen van interactieve LLM-agenten in realistische omgevingen. Het direct toepassen van het veelgebruikte Group Relative Policy Optimization (GRPO)-algoritme op taken met meerdere beurten laat echter aanzienlijke beperkingen zien, vooral in scenario's die langetermijnredenering vereisen. Om deze uitdagingen aan te pakken, onderzoeken we stabielere en effectievere strategieën voor het schatten van het voordeel (advantage), met name voor instellingen met meerdere beurten. We onderzoeken eerst Proximal Policy Optimization (PPO) als een alternatief en concluderen dat het robuuster is dan GRPO. Om PPO verder te verbeteren in scenario's met meerdere beurten, introduceren we turn-PPO, een variant die werkt op een beurt-niveau MDP-formulering, in tegenstelling tot het veelgebruikte token-niveau MDP. Onze resultaten op de WebShop- en Sokoban-datasets demonstreren de effectiviteit van turn-PPO, zowel met als zonder componenten voor langere redenering.
Video Large Language Models (Video-LLM's) verbeteren snel, maar huidige benchmarks voor Video Question Answering (VideoQA) staan vaak toe dat vragen worden beantwoord op basis van één enkel saillant cue, waardoor redeneervaardigheden die meerdere, temporeel gescheiden visuele aanwijzingen moeten samenvoegen, onvoldoende worden getest. Wij presenteren HERBench, een VideoQA-benchmark die specifiek is ontwikkeld om de integratie van meervoudige aanwijzingen in de tijd te evalueren. Elke vraag vereist het samenvoegen van ten minste drie niet-overlappende bewijscues uit verschillende videosegmenten, zodat noch taalkundige voorkennis noch een momentopname volstaat. HERBench omvat 26.000 multiplechoicevragen met vijf keuzemogelijkheden, georganiseerd in twaalf compositionele taken die identiteitsbinding, kruis-entiteitrelaties, temporele ordening, co-occurrentieverificatie en tellen onderzoeken. Om de bewijsvraag meetbaar te maken, introduceren we de Minimum Required Frame-Set (MRFS), het kleinste aantal frames dat een model moet samenvoegen om correct te antwoorden, en tonen aan dat HERBench een aanzienlijk hogere eis stelt dan eerdere datasets (gemiddelde MRFS 5,5 versus 2,6-4,2). Evaluatie van 13 state-of-the-art Video-LLM's op HERBench toont wijdverbreide tekortkomingen: nauwkeurigheden van 31-42% liggen maar net boven de 20% random-guess-basislijn. We ontrafelen dit falen in twee kritieke knelpunten: (1) een retrievale tekortkoming, waarbij frameselectoren cruciale aanwijzingen over het hoofd zien, en (2) een fusietekortkoming, waarbij modellen er niet in slagen informatie te integreren zelfs wanneer alle benodigde aanwijzingen worden verstrekt. Door kruis-temporeel bewijs zowel onvermijdelijk als kwantificeerbaar te maken, biedt HERBench een principieel doel voor het bevorderen van robuust, compositioneel videobegrip.
Recente vooruitgang in wereldmodellen heeft de simulatie van interactieve omgevingen aanzienlijk verbeterd. Bestaande methoden vallen voornamelijk in twee categorieën: (1) statische wereldgeneratiemodellen, die 3D-omgevingen construeren zonder actieve agenten, en (2) bestuurbare-entiteitsmodellen, die één entiteit in staat stellen beperkte acties uit te voeren in een verder onbestuurbare omgeving. In dit werk introduceren we AniX, dat gebruikmaakt van de realisme en structurele onderbouwing van statische wereldgeneratie, terwijl het bestuurbare-entiteitsmodellen uitbreidt om door de gebruiker gespecificeerde personages te ondersteunen die in staat zijn tot open-einde acties. Gebruikers kunnen een 3DGS-scène en een personage aanleveren en het personage vervolgens via natuurlijke taal aansturen om diverse gedragingen uit te voeren, van basale locomotie tot objectgerichte interacties, terwijl het vrijelijk de omgeving verkent. AniX synthetiseert temporeel coherente videofragmenten die de visuele getrouwheid aan de geleverde scène en het personage behouden, geformuleerd als een conditioneel autoregressief videogeneratieprobleem. Gebouwd op een vooraf getrainde videogenerator, verbetert onze trainingsstrategie de bewegingsdynamiek aanzienlijk, terwijl generalisatie over acties en personages behouden blijft. Onze evaluatie beslaat een breed scala aan aspecten, waaronder visuele kwaliteit, personageconsistentie, actiebestuurbaarheid en coherentie op lange termijn.
Wij introduceren Bolmo, de eerste familie van competitieve, volledig open byte-level taalmodel(len) (TM's) op de schaal van 1B en 7B parameters. In tegenstelling tot eerder onderzoek naar byte-level TM's, dat zich voornamelijk richtte op training vanaf nul, trainen wij Bolmo door bestaande subword-level TM's te 'byteificeren'. Byteificatie maakt het mogelijk de beperkingen van subword-tokenisatie te overwinnen – zoals onvoldoende begrip van karakters en efficiëntiebeperkingen door de vaste subword-woordenschat – terwijl prestaties worden geleverd op het niveau van toonaangevende subword-level TM's. Bolmo is specifiek ontworpen voor byteificatie: onze architectuur lost een mismatch op tussen de expressiviteit van eerdere byte-level architecturen en subword-level TM's, waardoor het mogelijk wordt een effectief exact distillatiedoel toe te passen tussen Bolmo en het bron-subword-model. Hierdoor kan een subword-level TM worden omgezet naar een byte-level TM met een investering van minder dan 1% van een typisch pretraining-tokenbudget. Bolmo presteert aanzienlijk beter dan alle eerdere byte-level TM's van vergelijkbare grootte, en overtreft de bron-subword-level TM's op het gebied van karakterbegrip en, in sommige gevallen, coderen, terwijl het de prestaties van de originele TM's op andere taken benadert. Verder tonen wij aan dat Bolmo inferentiesnelheden kan bereiken die competitief zijn met subword-level TM's door training met hogere tokencompressieverhoudingen, en dat het goedkoop en effectief kan worden nagetraind door gebruik te maken van de bestaande ecosystemen rond het bron-subword-model. Onze resultaten maken byte-level TM's eindelijk tot een praktische keuze die competitief is met subword-level TM's voor een breed scala aan gebruiksscenario's.
Benchmarks zoals SWE-bench hebben de evaluatie van Large Language Models (LLM's) voor software-engineeringtaken op repositoryniveau gestandaardiseerd. Deze inspanningen worden echter nog steeds beperkt door handmatige curatie, statische datasets en een focus op Python-gebaseerde bugfixes. Wij introduceren SWE-Bench++, een geautomatiseerd framework dat programmeertaken op repositoryniveau genereert uit open-source GitHub-projecten. In tegenstelling tot synthetische benaderingen, oogst onze pipeline live pull requests om zowel bugfixes als functieverzoeken in 11 programmeertalen te dekken. SWE-Bench++ zet GitHub pull requests (PR's) om in reproduceerbare, op uitvoering gebaseerde taken via vier fasen: programmatische sourcing, omgevingssynthese, extractie van testorakels en kwaliteitsborging. Een laatste stap van hint-gestuurde trajectensynthese zet instanties waar sterke modellen op falen om in trainingspaden. Onze initiële benchmark bestaat uit 11.133 instanties afkomstig van 3.971 repositories in 11 talen. Op een subset van 1.782 instanties van deze benchmark presteren de huidige sterkste modellen als volgt: claude-sonnet-4.5 behaalt 36,20% pass@10, gpt-5-2025-08-07 34,57%, gemini/gemini-2.5-pro 24,92% en gpt-4o 16,89%. We tonen verder de bruikbaarheid van onze dataset aan door te laten zien dat fine-tuning op SWE-Bench++ instanties meetbare verbeteringen oplevert op de SWE-bench Multilingual benchmark. SWE-Bench++ biedt een schaalbare, meertalige benchmark voor het evalueren en verbeteren van codegeneratie op repositoryniveau.
Versterkend leren (RL) heeft het mogelijk gemaakt om grootschalige taalmodel (LLM) agents te trainen om te interageren met de omgeving en meerstaps langetermijntaken op te lossen. RL-getrainde agents hebben echter vaak moeite met taken die actieve exploratie vereisen en slagen er niet in om efficiënt te leren uit trial-and-error-ervaringen. In dit artikel presenteren we LaMer, een algemeen Meta-RL raamwerk dat LLM-agents in staat stelt om actief te exploreren en te leren uit omgevingsfeedback tijdens de testfase. LaMer bestaat uit twee kernelementen: (i) een cross-episode trainingsraamwerk om exploratie en optimalisatie van langetermijnbeloningen te stimuleren; en (ii) in-context beleidsaanpassing via reflectie, waardoor de agent zijn beleid kan aanpassen op basis van taakfeedback zonder gradient-updates. Experimenten in diverse omgevingen tonen aan dat LaMer de prestaties aanzienlijk verbetert ten opzichte van RL-baselines, met prestatieverbeteringen van respectievelijk 11%, 14% en 19% op Sokoban, MineSweeper en Webshop. Bovendien toont LaMer ook een betere generalisatie naar uitdagendere of voorheen ongeziene taken in vergelijking met RL-getrainde agents. Over het geheel genomen tonen onze resultaten aan dat Meta-RL een principiële aanpak biedt om exploratie in taalagents te induceren, waardoor robuustere aanpassing aan nieuwe omgevingen mogelijk wordt door aangeleerde exploratiestrategieën.
Visueel Autoregressief (VAR) modelleren wijkt af van het next-token-voorspellingsparadigma van traditionele Autoregressieve (AR) modellen door middel van next-scale-voorspelling, wat hoogwaardige beeldgeneratie mogelijk maakt. Het VAR-paradigma kampt echter met een sterk toegenomen rekencomplexiteit en looptijd bij grootschalige stappen. Hoewel bestaande versnellingsmethoden de looptijd voor grootschalige stappen verminderen, zijn ze afhankelijk van handmatige stapselectie en negeren ze de uiteenlopende belangrijkheid van verschillende fasen in het generatieproces. Om deze uitdaging aan te pakken, presenteren wij StageVAR, een systematische studie en een fasebewust versnellingsraamwerk voor VAR-modellen. Onze analyse toont aan dat vroege stappen cruciaal zijn voor het behoud van semantische en structurele consistentie en intact moeten blijven, terwijl latere stappen voornamelijk details verfijnen en kunnen worden weggelaten of benaderd voor versnelling. Gebaseerd op deze inzichten introduceert StageVAR een plug-and-play versnellingsstrategie die gebruikmaakt van semantische irrelevantie en low-rank-eigenschappen in latere-faseberekeningen, zonder aanvullende training te vereisen. Onze voorgestelde StageVAR bereikt een versnelling tot 3,4x met slechts een daling van 0,01 op GenEval en een afname van 0,26 op DPG, en presteert consistent beter dan bestaande versnellingsbasislijnen. Deze resultaten benadrukken fasebewust ontwerp als een krachtig principe voor efficiënte visueel autoregressieve beeldgeneratie.
Multimodale Large Language Models hebben moeite om betrouwbare prestaties te handhaven onder extreme visuele degradaties in de praktijk, wat hun robuustheid in de praktijk belemmert. Bestaande robuuste MLLM's zijn voornamelijk afhankelijk van impliciete training/aanpassing die uitsluitend gericht is op de generalisatie van de visuele encoder, wat leidt tot beperkte interpreteerbaarheid en geïsoleerde optimalisatie. Om deze beperkingen te overwinnen, stellen wij Robust-R1 voor, een nieuw framework dat visuele degradaties expliciet modelleert via gestructureerde redeneerketens. Onze aanpak integreert: (i) supervised fine-tuning voor degradatiebewuste redeneerfundamenten, (ii) beloningsgedreven afstemming voor het nauwkeurig waarnemen van degradatieparameters, en (iii) dynamische schaling van de redeneerdiepte afgestemd op de degradatie-intensiteit. Om deze aanpak te faciliteren, introduceren wij een gespecialiseerde 11K-dataset met realistische degradaties gesynthetiseerd over vier kritieke visuele verwerkingsfasen in de praktijk, elk geannoteerd met gestructureerde ketens die degradatieparameters, perceptuele invloed, ongerepte semantische redeneerketen en conclusie verbinden. Uitgebreide evaluaties tonen state-of-the-art robuustheid aan: Robust-R1 presteert beter dan alle algemene en robuuste vergelijkingsmodellen op de real-world degradatiebenchmark R-Bench, en behoudt tegelijkertijd superieure anti-degradatieprestaties onder multi-intensiteit adversariële degradaties op MMMB, MMStar en RealWorldQA.
Recente vooruitgang in 3D-scènegeneratie levert visueel aantrekkelijke resultaten op, maar huidige representaties belemmeren de workflows van artiesten die aanpasbare 3D-textuurmeshscènes nodig hebben voor visuele effecten en game-ontwikkeling. Ondanks significante vooruitgang zijn huidige methoden voor textuurmeshscène-reconstructie verre van gereed voor gebruik door artiesten; ze lijden onder incorrecte objectdecompositie, onnauwkeurige ruimtelijke relaties en ontbrekende achtergronden. Wij presenteren 3D-RE-GEN, een compositioneel framework dat een enkele afbeelding reconstrueert naar textuur-3D-objecten en een achtergrond. Wij tonen aan dat het combineren van state-of-the-art modellen uit specifieke domeinen state-of-the-art scènegereconstructieprestaties bereikt, waarbij wordt voldaan aan de vereisten van artiesten. Onze reconstructiepipeline integreert modellen voor asset-detectie, reconstructie en plaatsing, waarbij bepaalde modellen verder worden gepusht dan hun oorspronkelijk beoogde domeinen. Het verkrijgen van geoccludeerde objecten wordt behandeld als een beeldbewerkings-taak met generatieve modellen om af te leiden en te reconstrueren met sceneniveau-redenering onder consistente belichting en geometrie. In tegenstelling tot huidige methoden genereert 3D-RE-GEN een uitgebreide achtergrond die objecten ruimtelijk begrenst tijdens optimalisatie en een basis biedt voor realistische belichting- en simulatietaken in visuele effecten en games. Om fysiek realistische lay-outs te verkrijgen, gebruiken we een nieuwe 4-DoF differentieerbare optimalisatie die gereconstrueerde objecten uitlijnt met het geschatte grondvlak. 3D-RE-GEN bereikt state-of-the-art prestaties in 3D-scènegereconstructie vanuit één afbeelding, en produceert samenhangende, aanpasbare scènes door compositionele generatie geleid door precieze cameraterugwinning en ruimtelijke optimalisatie.
Langdurige multimodale videobegrip vereist de integratie van visie, spraak en omgevingsgeluid met coherente redenering over lange reeksen. Bestaande benchmarks leggen de nadruk op tijdsduur óf multimodale rijkdom, maar zelden op beide, en hoewel sommige open-eindvragen en geavanceerde metrieken bevatten, vertrouwen ze meestal op nauwkeurigheid als enige score, waardoor foutpatronen verhuld blijven. Wij introduceren LongShOTBench, een diagnostische benchmark met open-eind, intentiegedreven vragen; enkel- en meervoudige dialogen; en taken die multimodale redenering en agent-achtig toolgebruik vereisen over video, audio en spraak. Elk item bevat een referentieantwoord en een gegradeerde rubric voor interpreteerbare en traceerbare evaluatie. LongShOTBench wordt geproduceerd via een schaalbare, door mensen gevalideerde pijplijn om dekking en reproduceerbaarheid te garanderen. Alle steekproeven in onze LongShOTBench zijn door mensen geverifieerd en gecorrigeerd. Verder presenteren we LongShOTAgent, een agent-systeem dat lange video's analyseert via preprocessing, zoekacties en iteratieve verfijning. Op LongShOTBench tonen state-of-the-art MLLM's grote achterstanden: Gemini-2.5-Flash behaalt 52,95%, open-source modellen blijven onder de 30%, en LongShOTAgent bereikt 44,66%. Deze resultaten onderstrepen de moeilijkheidsgraad van langdurig videobegrip in de praktijk. LongShOTBench biedt een praktische, reproduceerbare basis voor het evalueren en verbeteren van MLLM's. Alle bronnen zijn beschikbaar op GitHub: https://github.com/mbzuai-oryx/longshot.
Tekst-naar-beeldmodellen (TTI) genereren afbeeldingen op basis van tekstprompts, waarbij bepaalde aspecten van de gewenste afbeelding vaak ongespecificeerd blijven. Wanneer zij met deze ambiguïteiten worden geconfronteerd, is aangetoond dat TTI-modellen vooroordelen vertonen in hun interpretaties. Deze vooroordelen kunnen maatschappelijke gevolgen hebben, bijvoorbeeld wanneer slechts één bepaald ras wordt getoond voor een genoemd beroep. Ze kunnen ook de gebruikerservaring beïnvloeden door redundantie te creëren binnen een set gegenereerde afbeeldingen in plaats van diverse mogelijkheden te omvatten. Hier introduceren we MineTheGap - een methode om automatisch prompts te vinden die ervoor zorgen dat een TTI-model bevooroordeelde output genereert. Onze methode gaat verder dan het louter detecteren van vooroordelen voor een gegeven prompt. In plaats daarvan gebruikt het een genetisch algoritme om een groep prompts iteratief te verfijnen, op zoek naar prompts die vooroordelen blootleggen. Dit optimalisatieproces wordt aangedreven door een nieuwe vooroordeelscore, die vooroordelen rangschikt naar ernst, zoals we valideren op een dataset met bekende vooroordelen. Voor een gegeven prompt wordt deze score verkregen door de verdeling van gegenereerde afbeeldingen te vergelijken met de verdeling van door een taalmodel gegenereerde teksten die varianten op de prompt vormen. Code en voorbeelden zijn beschikbaar op de projectwebpagina.