Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente grote taalmodellen voor code hebben opmerkelijke vooruitgang geboekt bij algemene programmeertaken. Desalniettemin verslechtert hun prestaties aanzienlijk in industriële scenario's die redeneren over hardwaresemantiek, gespecialiseerde taalconstructies en strikte resourcebeperkingen vereisen. Om deze uitdagingen aan te pakken, introduceren we InCoder-32B (Industrial-Coder-32B), het eerste code-foundationmodel met 32B parameters dat code-intelligentie verenigt op het gebied van chipontwerp, GPU-kerneloptimalisatie, embedded systemen, compileroptimalisatie en 3D-modellering. Door een efficiënte architectuur te hanteren, trainen we InCoder-32B vanaf nul met algemene code-pre-training, gecuratiede industriële code-annealing, mid-training die de context geleidelijk uitbreidt van 8K naar 128K tokens met synthetische industriële redeneergegevens, en post-training met op uitvoering gebaseerde verificatie. We voeren een uitgebreide evaluatie uit op 14 mainstream algemene codebenchmarks en 9 industriële benchmarks verspreid over 4 gespecialiseerde domeinen. Resultaten tonen aan dat InCoder-32B zeer competitieve prestaties behaalt bij algemene taken en tegelijkertijd sterke open-source-basislijnen vestigt in industriële domeinen.
Wij presenteren MiroThinker-1.7, een nieuwe onderzoeksagent ontworpen voor complexe redeneertaken met een lange horizon. Voortbouwend op deze basis introduceren we verder MiroThinker-H1, dat de agent uitbreidt met zware redeneercapaciteiten voor betrouwbaardere probleemoplossing in meerdere stappen. MiroThinker-1.7 verbetert in het bijzonder de betrouwbaarheid van elke interactiestap via een agent-gebaseerde mid-trainingfase die de nadruk legt op gestructureerde planning, contextueel redeneren en toolinteractie. Dit maakt effectievere multi-step interactie en volgehouden redenering bij complexe taken mogelijk. MiroThinker-H1 integreert verificatie verder direct in het redeneerproces, zowel op lokaal als globaal niveau. Tussentijdse redeneerbeslissingen kunnen tijdens de inferentie worden geëvalueerd en verfijnd, terwijl de algehele redeneertrajectorie wordt geaudit om te waarborgen dat eindantwoorden worden ondersteund door samenhangende bewijsketens. Over benchmarks die open-webonderzoek, wetenschappelijk redeneren en financiële analyse beslaan, behaalt MiroThinker-H1 state-of-the-art prestaties voor diepgaande onderzoektaken, terwijl het sterke resultaten handhaaft in gespecialiseerde domeinen. Wij brengen ook MiroThinker-1.7 en MiroThinker-1.7-mini uit als open-source modellen, die competitieve onderzoeksagent-capaciteiten bieden met aanzienlijk verbeterde efficiëntie.
Wij presenteren Qianfan-OCR, een end-to-end visie-taalmodel met 4B parameters dat documentparsing, lay-outanalyse en documentbegrip verenigt binnen een enkele architectuur. Het voert directe beeld-naar-Markdown-conversie uit en ondersteunt diverse prompt-gestuurde taken, waaronder tabelextractie, diagrambegrip, document-QA en extractie van sleutelinformatie. Om het verlies van expliciete lay-outanalyse in end-to-end OCR aan te pakken, stellen we Layout-as-Thought voor, een optionele denkfase die wordt geactiveerd door speciale denk-tokens. Deze fase genereert gestructureerde lay-outrepresentaties – begrenzingskaders, elementtypen en leesvolgorde – voordat de einduitvoer wordt geproduceerd, waardoor lay-out-onderleggende capaciteiten worden hersteld en de nauwkeurigheid op complexe lay-outs verbetert. Qianfan-OCR behaalt de eerste plaats onder end-to-end modellen op OmniDocBench v1.5 (93.12) en OlmOCR Bench (79.8), behaalt competitieve resultaten op OCRBench, CCOCR, DocVQA en ChartQA in vergelijking met algemene VLM's van vergelijkbare schaal, en bereikt de hoogste gemiddelde score op publieke benchmarks voor sleutelinformatie-extractie, waarbij het Gemini-3.1-Pro, Seed-2.0 en Qwen3-VL-235B overtreft. Het model is openbaar toegankelijk via het Baidu AI Cloud Qianfan-platform.
Recente vooruitgang in videogeneratie heeft een onverwacht fenomeen aan het licht gebracht: op diffusie gebaseerde videomodellen vertonen niet-triviale redeneervermogens. Eerder werk schrijft dit toe aan een Chain-of-Frames (CoF) mechanisme, waarbij wordt aangenomen dat het redeneren sequentieel over de videoframes plaatsvindt. In dit werk dagen we deze aanname uit en ontdekken we een fundamenteel ander mechanisme. Wij tonen aan dat redeneren in videomodellen in plaats daarvan voornamelijk ontstaat langs de denoisestappen van de diffusie. Door kwalitatieve analyse en gerichte probingexperimenten stellen we vast dat modellen in vroege denoisestappen meerdere kandidaat-oplossingen verkennen en geleidelijk convergeren naar een definitief antwoord, een proces dat wij Chain-of-Steps (CoS) noemen. Naast dit kernmechanisme identificeren we verschillende emergente redeneergedragingen die cruciaal zijn voor de modelprestaties: (1) werkgeheugen, dat permanente referentie mogelijk maakt; (2) zelfcorrectie en -verbetering, waardoor herstel van incorrecte tussenoplossingen mogelijk is; en (3) perceptie vóór actie, waarbij vroege stappen semantische grondslag leggen en latere stappen gestructureerde manipulatie uitvoeren. Tijdens een diffusiestap ontdekken we verder een zelf-geëvolueerde functionele specialisatie binnen Diffusion Transformers, waarbij vroege lagen dichte perceptuele structuur coderen, middelste lagen redenering uitvoeren en latere lagen latente representaties consolideren. Gemotiveerd door deze inzichten presenteren we een eenvoudige trainingsvrije strategie als proof-of-concept, die aantoont hoe redenering kan worden verbeterd door latente trajecten te ensembelen van identieke modellen met verschillende willekeurige seeds. Over het geheel genomen biedt ons werk een systematisch begrip van hoe redenering ontstaat in videogeneratiemodellen, en legt het een fundament om toekomstig onderzoek te leiden bij het beter exploiteren van de inherente redeneerdynamica van videomodellen als een nieuw substraat voor intelligentie.
Recente vooruitgang in multimodale grote redeneermodellen (MLRM's) heeft de prestaties bij visuele vraagbeantwoording aanzienlijk verbeterd. Wij observeren echter dat overgangswoorden (zoals 'omdat', 'echter' en 'wacht') nauw verband houden met hallucinaties en de neiging vertonen om hoog-entropie toestanden aan te nemen. Wij stellen dat adequate contextuele redeneerinformatie rechtstreeks uit de token-waarschijnlijkheidsverdeling kan worden geëxtraheerd. Geïnspireerd door de theorie van supergeposeerde representatie, stellen wij voor om latente supergeposeerde redenering te benutten om meerdere kandidaat-semantieken te integreren en latente redeneertrajecten te behouden. De hypothese is dat afhankelijkheid van discrete tekstuele invoer het model mogelijk naar sequentiële expliciete redenering drijft, waarbij dichte contextuele signalen tijdens hoog-entropie redeneerfasen onderbenut blijven. Daarom stellen wij voor om rijke semantische representaties te construeren vanuit de token-waarschijnlijkheidsverdelingen om de in-context redenering te verbeteren. Met dit doel presenteren wij Latent Entropy-Aware Decoding (LEAD), een efficiënte plug-and-play decodeerstrategie die semantische context benut om betrouwbare redenering te bereiken. De kern van onze methode ligt in entropy-aware redeneermodus-switching. Het model gebruikt waarschijnlijkheidsgewogen continue embeddings onder hoog-entropie toestanden en schakelt terug naar discrete token-embeddings naarmate de entropie afneemt. Bovendien stellen wij een prior-guided visuele ankerinjectiestrategie voor die het model aanmoedigt zich op visuele informatie te focussen. Uitgebreide experimenten tonen aan dat LEAD hallucinaties effectief vermindert bij diverse MLRM's op meerdere benchmarks.
Het simuleren van robot-wereldinteracties is een hoeksteen van Embodied AI. Recentelijk hebben enkele werken belofte getoond door het gebruik van videogeneraties om de rigide visuele/fysieke beperkingen van traditionele simulatoren te overstijgen. Echter, zij opereren voornamelijk in 2D-ruimte of worden geleid door statische omgevingssignalen, waarbij de fundamentele realiteit wordt genegeerd dat robot-wereldinteracties inherente 4D ruimte-temporele gebeurtenissen zijn die precieze interactieve modellering vereisen. Om dit 4D-essentie te herstellen en tegelijkertijd precieze robotcontrole te garanderen, introduceren wij Kinema4D, een nieuwe actie-gestuurde 4D generatieve robotica-simulator die de robot-wereldinteractie ontwart in: i) Precieze 4D-representatie van robotcontroles: wij besturen een URDF-gebaseerde 3D-robot via kinematica, wat een precies 4D robotcontroletraject produceert. ii) Generatieve 4D-modellering van omgevingsreacties: wij projecteren het 4D-robottraject in een pointmap als een ruimte-temporeel visueel signaal, waarbij het generatieve model wordt aangestuurd om de reactieve dynamiek van complexe omgevingen te synthetiseren in gesynchroniseerde RGB/pointmap-reeksen. Om de training te faciliteren, hebben wij een grootschalige dataset samengesteld genaamd Robo4D-200k, bestaande uit 201.426 robotinteractie-episodes met hoogwaardige 4D-annotaties. Uitgebreide experimenten tonen aan dat onze methode effectief fysiek plausibele, geometrisch consistente en embodiment-agnostische interacties simuleert die diverse real-world dynamieken getrouw weerspiegelen. Voor het eerst toont het potentieel voor zero-shot transfercapaciteit, wat een hoogwaardige basis biedt voor de ontwikkeling van next-generation embodied simulatie.
Recente vooruitgang in videodiffusietransformers heeft interactieve gamingwereldmodellen mogelijk gemaakt die gebruikers in staat stellen gegenereerde omgevingen over langere tijdshorizons te verkennen. Bestaande methoden kampen echter met precieze actiebesturing en langdurige 3D-consistentie. De meeste eerdere werken behandelen gebruikersacties als abstracte conditioneringssignalen, waarbij de fundamentele geometrische koppeling tussen acties en de 3D-wereld over het hoofd wordt gezien: acties induceren relatieve camerabewegingen die zich opstapelen tot een globale camerapositie binnen een 3D-wereld. In dit artikel positioneren we camerapositie als een verenigende geometrische representatie om zowel directe actiebesturing als langetermijn-3D-consistentie gezamenlijk te verankeren. Ten eerste definiëren we een op de natuurkunde gebaseerde continue actieruimte en representeren we gebruikersinvoer in de Lie-algebra om precieze 6-DoF-cameraposities af te leiden, die via een camera-embedder in het generatieve model worden geïnjecteerd om nauwkeurige actie-uitlijning te garanderen. Ten tweede gebruiken we globale cameraposities als ruimtelijke indices om relevante eerdere observaties op te halen, waardoor geometrisch consistente herbezoeken aan locaties mogelijk wordt tijdens langdurige navigatie. Om dit onderzoek te ondersteunen, introduceren we een grootschalige dataset bestaande uit 3.000 minuten authentieke menselijke gameplay, geannoteerd met cameratrajecten en tekstuele beschrijvingen. Uitgebreide experimenten tonen aan dat onze aanpak state-of-the-art interactieve gamingwereldmodellen aanzienlijk overtreft in actiebestuurbaarheid, langetermijn-visuele kwaliteit en 3D-ruimtelijke consistentie.
Text-to-SQL-parsing heeft een opmerkelijke vooruitgang geboekt onder de Volledig Schema-aanname. Dit uitgangspunt faalt echter in reële bedrijfsomgevingen, waar databases honderden tabellen bevatten met enorme hoeveelheden ruise metadata. In plaats van het volledige schema vooraf in te brengen, moet een agent actief alleen het relevante subset identificeren en verifiëren, wat aanleiding geeft tot het Onbekend Schema-scenario dat we in dit werk bestuderen. Om dit aan te pakken, stellen we TRUST-SQL voor (Truthful Reasoning with Unknown Schema via Tools). We formuleren de taak als een Partieel Observeerbaar Markov Beslissingsproces, waarbij onze autonome agent een gestructureerd vierfasenprotocol gebruikt om redenering te gronden in geverifieerde metadata. Cruciaal is dat dit protocol een structurele grens biedt voor onze nieuwe Dual-Track GRPO-strategie. Door token-level gemaskeerde voordelen toe te passen, isoleert deze strategie beloningen voor exploratie van uitvoeringsresultaten om credit assignment op te lossen, wat een relatieve verbetering van 9,9% oplevert ten opzichte van standaard GRPO. Uitgebreide experimenten op vijf benchmarks tonen aan dat TRUST-SQL een gemiddelde absolute verbetering bereikt van respectievelijk 30,6% en 16,6% voor de 4B- en 8B-varianten ten opzichte van hun basismodellen. Opmerkelijk is dat ons framework, ondanks volledig zonder vooraf geladen metadata te werken, consistent evenaart of overtreft ten opzichte van sterke baseline-methoden die afhankelijk zijn van schema-prefilling.
Het heersende paradigma voor het verbeteren van grote taalmodellen berust op offline training met menselijke annotaties of gesimuleerde omgevingen, waarbij de rijke ervaring die wordt opgedaan tijdens daadwerkelijke inzet volledig onbenut blijft. Wij stellen Online Ervaringsleren (OEL) voor, een raamwerk dat taalmodellen in staat stelt om continu te verbeteren op basis van hun eigen inzetervaring. OEL werkt in twee fasen: eerst wordt overdraagbare ervaringskennis geëxtraheerd en opgebouwd uit interactietrajecten die aan gebruikerszijde worden verzameld; vervolgens wordt deze kennis geconsolideerd in de modelparameters via *on-policy* contextdistillatie, zonder dat toegang tot de gebruikersomgeving nodig is. De twee fasen worden herhaald om een online leerlus te vormen, waarbij het verbeterde model kwalitatief betere trajecten verzamelt die rijkere ervaringskennis opleveren voor volgende iteraties. Wij evalueren OEL in op tekst gebaseerde game-omgevingen, voor verschillende modelschalen en zowel denkende als niet-denkende varianten. OEL behaalt consistente verbeteringen over opeenvolgende iteraties, waarbij zowel de taaknauwkeurigheid als de token-efficiëntie toenemen, terwijl de prestaties bij *out-of-distribution* data behouden blijven. Onze analyse toont verder aan dat geëxtraheerde ervaringskennis aanzienlijk effectiever is dan ruwe trajecten, en dat *on-policy* consistentie tussen de kennisbron en het beleidsmodel cruciaal is voor effectief leren.
De integratie van Large Language Models (LLM's) in het financiële domein veroorzaakt een paradigmaverschuiving van passieve informatievergaring naar dynamische, agent-gestuurde interactie. Hoewel het leren omgaan met algemene tools een sterke toename in benchmarks heeft gezien, wordt de financiële sector – gekenmerkt door hoge belangen, strikte naleving en snelle datavolatiliteit – kritisch ondermaats bediend. Bestaande financiële evaluaties richten zich voornamelijk op statische tekstanalyse of documentgebaseerde vraag-antwoordsystemen, waarbij de complexe realiteit van tooluitvoering wordt genegeerd. Algemene toolbenchmarks daarentegen missen de domeinspecifieke strengheid die voor financiën vereist is, en zijn vaak gebaseerd op gesimuleerde omgevingen of een verwaarloosbaar aantal financiële API's. Om deze kloof te overbruggen, introduceren wij FinToolBench, de eerste real-world, uitvoerbare benchmark die specifiek is ontworpen voor het evalueren van financiële tool-leeragenten. In tegenstelling tot eerdere werken die beperkt zijn tot een handvol gesimuleerde tools, creëert FinToolBench een realistische ecosystem die 760 uitvoerbare financiële tools koppelt aan 295 rigoureuze, tool-afhankelijke vragen. Wij stellen een nieuw evaluatieraamwerk voor dat verder gaat dan binaire uitvoeringssucces, en agenten beoordeelt op financieel-kritieke dimensies: tijdigheid, intentietype en afstemming op het regelgevend domein. Verder presenteren wij FATR, een financieel-bewuste baseline voor toolretrieval en redenering die stabiliteit en naleving verbetert. Door de eerste testomgeving te bieden voor controleerbare, agent-gestuurde financiële uitvoering, zet FinToolBench een nieuwe standaard voor betrouwbare AI in de financiële wereld. De toolmanifesten, de uitvoeringsomgeving en de evaluatiecode zullen worden openbaar gemaakt om toekomstig onderzoek te vergemakkelijken.
Omni-modale grote taalmodellen (OLM's) herdefiniëren mens-machine-interactie door audio, visie en tekst native te integreren. Bestaande OLM-benchmarks blijven echter verankerd in statische, nauwkeurigheidsgerichte taken, waardoor een kritieke kloof ontstaat in de beoordeling van sociale interactiviteit: de fundamentele capaciteit om dynamische signalen in natuurlijke dialogen te navigeren. Daarom stellen wij SocialOmni voor, een uitgebreide benchmark die de evaluatie van deze conversatie-interactiviteit operationaliseert langs drie kern dimensies: (i) sprekersscheiding en -identificatie (wie spreekt), (ii) interruptietiming (wanneer in te vallen), en (iii) natuurlijke interruptiegeneratie (hoe de interruptie te formuleren). SocialOmni omvat 2.000 perceptie-exemplaren en een kwalitatief hoogwaardige diagnostische set van 209 interactie-generatie-instanties met strikte temporele en contextuele beperkingen, aangevuld met gecontroleerde audio-visuele inconsistentiescenario's om modelrobuustheid te testen. Wij testten 12 toonaangevende OLM's, wat een significante variatie in hun sociale interactiecapaciteiten tussen modellen aan het licht bracht. Verder toont onze analyse een duidelijke ontkoppeling aan tussen de perceptuele nauwkeurigheid van een model en zijn vermogen om contextueel passende interrupties te genereren, wat aangeeft dat op begrip gerichte metrieken alleen onvoldoende zijn om conversatieel sociale competentie te karakteriseren. Bemoedigender is dat deze diagnostieken uit SocialOmni bruikbare signalen opleveren om de kloof tussen perceptie en interactie in toekomstige OLM's te overbruggen.
Hoewel recente Flow Matching-modellen de reconstructieknelpunten van latente auto-encoders vermijden door rechtstreeks in de pixelruimte te werken, verstrengelt het gebrek aan semantische continuïteit in de pixelvariëteit de optimale transportpaden ernstig. Dit veroorzaakt ernstige trajectconflicten nabij kruispunten, wat leidt tot suboptimale oplossingen. In plaats van dit probleem te omzeilen via latentieweergaven met informatieverlies, ontwarren wij de trajecten in de pixelruimte rechtstreeks door Waypoint Diffusion Transformers (WiT) voor te stellen. WiT factoriseert het continue vectorveld via tussenliggende semantische wegpunten die worden geprojecteerd uit vooraf getrainde visiemodellen. Het ontwart de generatietrajecten effectief door het optimale transport op te splitsen in prior-naar-wegpunt- en wegpunt-naar-pixels-segmenten. Specifiek, tijdens het iteratieve denoiseproces, leidt een lichtgewicht generator deze tussenliggende wegpunten dynamisch af uit de huidige verstoorde toestand. Deze conditioneren vervolgens continu de primaire diffusie-transformer via het Just-Pixel AdaLN-mechanisme, waardoor de evolutie wordt gestuurd naar de volgende toestand, wat uiteindelijk de definitieve RGB-pixels oplevert. Geëvalueerd op ImageNet 256x256, verslaat WiT sterke pixelruimte-baselines en versnelt het de JiT-trainingsconvergentie met 2.2x. Code zal openbaar worden vrijgegeven op https://github.com/hainuo-wang/WiT.git.
Unified Multimodal Models (UMM's) worden vaak beperkt door de voorafgaande training van hun visuele generatiecomponenten, die doorgaans steunt op inefficiënte paradigma's en schaarse, hoogwaardige tekst-beeldgepaarde data. In dit artikel analyseren we systematisch de trainingsrecepten voor UMM-visuele generatie en identificeren we deze twee problemen als de belangrijkste knelpunten. Om deze aan te pakken, stellen we Image-Only Training for UMMs (IOMM) voor, een data-efficiënt tweefasen-trainingsraamwerk. De eerste fase traint de visuele generatiecomponent uitsluitend vooraf met behulp van overvloedige ongelabelde, alleen-beeld data, waardoor de afhankelijkheid van gepaarde data voor deze kostbare fase wordt weggenomen. De tweede fase fine-tunt het model met een mix van ongelabelde beelden en een kleine, gecureerde set tekst-beeldparen, wat leidt tot verbeterde instructie-alignering en generatieve kwaliteit. Uitgebreide experimenten tonen aan dat IOMM niet alleen de trainingsefficiëntie verbetert, maar ook state-of-the-art (SOTA) prestaties bereikt. Zo werd ons IOMM-B (3.6B) model vanaf nul getraind met slechts ∼1050 H800 GPU-uren (waarvan de overgrote meerderheid, 1000 uur, besteed werd aan de efficiënte alleen-beeld pre-trainingfase). Het behaalt 0.89 op GenEval en 0.55 op WISE – wat sterke baselines zoals BAGEL-7B (0.82 & 0.55) en BLIP3-o-4B (0.84 & 0.50) overtreft. Code is beschikbaar op https://github.com/LINs-lab/IOMM.
Veel toepassingen van grote taalmodellen vereisen conditionering op lange contexten. Transformers ondersteunen dit doorgaans door een grote per-laag KV-cache van eerdere activeringen op te slaan, wat aanzienlijke geheugenoverhead met zich meebrengt. Een wenselijk alternatief is compressief geheugen: lees een context eenmaal, sla deze op in een compacte staat, en beantwoord vele queries vanuit die staat. Wij bestuderen dit in een contextverwijderingsscenario, waarbij het model een antwoord moet genereren zonder toegang tot de oorspronkelijke context tijdens inferentie. Wij introduceren GradMem, dat context in het geheugen schrijft via per-sample optimalisatie tijdens testtijd. Gegeven een context voert GradMem een paar stappen van gradient descent uit op een kleine set prefix-geheugentokens, terwijl de modelgewichten bevroren blijven. GradMem optimaliseert expliciet een zelfgesuperviseerd contextreconstructieverlies op modelniveau, wat resulteert in een verliesgedreven schrijfoperatie met iteratieve foutcorrectie, in tegenstelling tot forward-only methoden. Bij associatieve key-value retrieval presteert GradMem beter dan forward-only geheugenschrijvers met dezelfde geheugengrootte, en extra gradientstappen schalen de capaciteit veel effectiever op dan herhaalde forward writes. Wij tonen verder aan dat GradMem verder reikt dan synthetische benchmarks: met voorgetrainde taalmodellen behaalt het competitieve resultaten op natuurlijke-taaltaken, waaronder bAbI- en SQuAD-varianten, waarbij het uitsluitend vertrouwt op informatie die in het geheugen gecodeerd is.
Evaluaties van multi-turn, multi-agent LLM-spellen vertonen vaak aanzienlijke run-to-run variantie. In interacties met een lange tijdsduur stapelen kleine afwijkingen in een vroeg stadium zich op over de beurten heen en worden ze versterkt door de multi-agent koppeling. Dit vertekent de schattingen van winstpercentages en maakt rankings onbetrouwbaar bij herhaalde toernooien. De keuze van prompts verergert dit verder door verschillende effectieve beleidsregels te produceren. Wij pakken zowel instabiliteit als ondermaatse prestaties aan met MEMO (Memory-augmented MOdel context optimization), een self-play raamwerk dat de context tijdens inferentie optimaliseert door retentie en exploratie te koppelen. Retentie handhaaft een permanent geheugenbankje dat gestructureerde inzichten uit self-play trajecten opslaat en deze injecteert als prior kennis tijdens later spel. Exploratie voert promptevolutie in toernooistijl uit met onzekerheidsbewuste selectie via TrueSkill, en gebruikt geprioriteerde herhaling om zeldzame en beslissende staten opnieuw te bezoeken. Over vijf tekstgebaseerde spellen verhoogt MEMO het gemiddelde winstpercentage van 25,1% naar 49,5% voor GPT-4o-mini en van 20,9% naar 44,3% voor Qwen-2.5-7B-Instruct, met gebruik van 2.000 self-play spellen per taak. De run-to-run variantie daalt ook, wat stabielere rankings oplevert over verschillende promptvariaties. Deze resultaten suggereren dat de prestaties en robuustheid van multi-agent LLM-spellen aanzienlijke ruimte voor verbetering hebben door contextoptimalisatie. MEMO behaalt de grootste winsten in onderhandelingsspellen en spellen met imperfecte informatie, terwijl RL effectiever blijft in settings met perfecte informatie.
Hoewel Large Language Models (LLM's) zijn geëvolueerd tot agenten die tools gebruiken, blijven ze broos in interacties op de lange termijn. In tegenstelling tot wiskundig redeneren, waar fouten vaak herstelbaar zijn via backtracking, veroorzaken mislukkingen in toolgebruik vaak onomkeerbare neveneffecten, waardoor nauwkeurige verificatie op stapniveau cruciaal is. Bestaande benchmarks op procesniveau zijn echter voornamelijk beperkt tot gesloten wiskundige domeinen, waardoor ze het dynamische en open-einde karakter van tooluitvoering niet vangen. Om deze kloof te overbruggen, introduceren wij AgentProcessBench, de eerste benchmark die specifiek is ontworpen om de effectiviteit op stapniveau te evalueren in realistische, met tools verrijkte trajecten. De benchmark omvat 1.000 diverse trajecten en 8.509 door mensen gelabelde stapannotaties met een interbeoordelaarsbetrouwbaarheid van 89,1%. Hij kenmerkt zich door een ternair labelschema om exploratie vast te leggen en een regel voor foutpropagatie om labelambiguïteit te verminderen. Uitgebreide experimenten onthullen belangrijke inzichten: (1) zwakkere beleidsmodellen vertonen opgeblazen ratios van correcte stappen door vroegtijdige beëindiging; (2) het onderscheiden van neutrale en foutieve acties blijft een significante uitdaging voor huidige modellen; en (3) van processen afgeleide signalen bieden complementaire waarde ten opzichte van resultaatsupervisie, waardoor testtime-schaling aanzienlijk wordt verbeterd. Wij hopen dat AgentProcessBench toekomstig onderzoek naar beloningsmodellen kan stimuleren en de weg kan effenen naar algemene agenten. De code en gegevens zijn beschikbaar op https://github.com/RUCBM/AgentProcessBench.
Wij introduceren SegviGen, een raamwerk dat inheemse 3D-generatieve modellen hergebruikt voor 3D-delsegmentatie. Bestaande pijplijnen tillen sterke 2D-priors via distillatie of multi-view maskeraggregatie naar 3D, wat vaak leidt tot inconsistentie tussen views en vervaagde grenzen, of verkennen inheemse 3D-discriminatieve segmentatie, wat typisch grootschalige geannoteerde 3D-data en aanzienlijke trainingsresources vereist. In tegenstelling hiermee benut SegviGen de gestructureerde priors die gecodeerd zijn in voorgetrainde 3D-generatieve modellen om segmentatie te induceren door middel van onderscheidende deelinkleuring, waarmee een nieuw en efficiënt raamwerk voor delensegmentatie wordt gevestigd. Concreet codeert SegviGen een 3D-asset en voorspelt het deelindicatieve kleuren op actieve voxels van een geometrisch-uitgelijnde reconstructie. Het ondersteunt interactieve delensegmentatie, volledige segmentatie en volledige segmentatie met 2D-begeleiding in een uniform raamwerk. Uitgebreide experimenten tonen aan dat SegviGen de vorige state-of-the-art met 40% verbetert bij interactieve delensegmentatie en met 15% bij volledige segmentatie, terwijl het slechts 0,32% van de gelabelde trainingsdata gebruikt. Het demonstreert dat voorgetrainde 3D-generatieve priors effectief overdraagbaar zijn naar 3D-delsegmentatie, waardoor sterke prestaties met beperkte supervisie mogelijk worden. Zie onze projectpagina op https://fenghora.github.io/SegviGen-Page/.
Agent skills, gestructureerde pakketten van procedurele kennis die tijdens inferentie worden geïnjecteerd, worden steeds vaker gebruikt om LLM-agents te versterken bij software-engineeringtaken. Hun werkelijke nut in end-to-end ontwikkelomgevingen blijft echter onduidelijk. Wij presenteren SWE-Skills-Bench, de eerste requirement-gestuurde benchmark die het marginale nut van agent skills in real-world software engineering (SWE) isoleert. Het koppelt 49 publieke SWE-skills aan authentieke GitHub-repositories vastgezet op specifieke commits en requirement-documenten met expliciete acceptatiecriteria, wat ongeveer 565 taakinstanties oplevert verspreid over zes SWE-subdomeinen. We introduceren een deterministisch verificatieraamwerk dat de acceptatiecriteria van elke taak vertaalt naar op uitvoering gebaseerde tests, waardoor een gecontroleerde gepaarde evaluatie mét en zonder de skill mogelijk is. Onze resultaten tonen aan dat de voordelen van skill-injectie veel beperkter zijn dan de snelle adoptie doet vermoeden: 39 van de 49 skills leveren geen enkele verbetering in slaagpercentage op, en de gemiddelde winst bedraagt slechts +1,2%. De token-overhead varieert van bescheiden besparingen tot een stijging van 451% terwijl de slaagpercentages onveranderd blijven. Slechts zeven gespecialiseerde skills produceren betekenisvolle winst (tot +30%), terwijl drie de prestaties verslechteren (tot -10%) door versie-incompatibele instructies die conflicteren met de projectcontext. Deze bevindingen suggereren dat agent skills een beperkte interventie zijn waarvan het nut sterk afhangt van domeinpassing, abstractieniveau en contextuele compatibiliteit. SWE-Skills-Bench biedt een testomgeving voor het evalueren van het ontwerp, de selectie en de inzet van skills in software-engineeringagents. SWE-Skills-Bench is beschikbaar op https://github.com/GeniusHTX/SWE-Skills-Bench.
Grote taalmodellen (LLM's) met chain-of-thought-redenering behalen state-of-the-art prestaties bij complexe probleemoplossende taken, maar hun uitgebreide redeneersporen en grote contextbehoeften maken ze onpraktisch voor edge-implementatie. Deze uitdagingen omvatten hoge token-generatiekosten, grote KV-cache-footprints en inefficiënties bij het destilleren van redeneervermogens naar kleinere modellen voor mobiele apparaten. Bestaande benaderingen zijn vaak gebaseerd op het destilleren van redeneersporen van grotere modellen naar kleinere modellen, die uitgebreid en stilistisch redundant zijn, wat ongewenst is voor on-device inferentie. In dit werk stellen we een lichtgewicht benadering voor om redeneren in kleine LLM's mogelijk te maken met behulp van LoRA-adaptermodules gecombineerd met supervised fine-tuning. We introduceren verder budget forcing via reinforcement learning op deze adapters, wat de responslengte aanzienlijk verkort met minimaal verlies aan nauwkeurigheid. Om geheugengebonden decodering aan te pakken, benutten we parallelle test-time scaling, wat de nauwkeurigheid verbetert tegen een geringe latentietoename. Ten slotte presenteren we een dynamisch adapter-switching-mechanisme dat redeneren alleen activeert wanneer nodig en een KV-cache-delingstrategie tijdens promptcodering, wat de time-to-first-token voor on-device inferentie vermindert. Experimenten met Qwen2.5-7B tonen aan dat onze methode efficiënte, nauwkeurige redenering bereikt onder strikte resourcebeperkingen, waardoor LLM-redenering praktisch wordt voor mobiele scenario's. Video's die onze oplossing tonen op mobiele apparaten zijn beschikbaar op onze projectpagina.
Wij presenteren een volledige Lean 4-formalisering van de evenwichtskarakterisering in het Vlasov-Maxwell-Landau (VML) systeem, dat de beweging van geladen plasma beschrijft. Het project demonstreert de volledige, door AI ondersteunde onderzoekscyclus: een AI-redeneermodel (Gemini DeepThink) genereerde het bewijs vanuit een vermoeden, een agent-gebaseerd codeergereedschap (Claude Code) vertaalde het naar Lean op basis van prompts in natuurlijke taal, een gespecialiseerde prover (Aristotle) sloot 111 lemma's af, en de Lean-kernel verifieerde het resultaat. Een enkele wiskundige begeleidde het proces gedurende 10 dagen tegen een kostenpost van \$200, zonder ook maar één regel code te schrijven. Het gehele ontwikkelproces is openbaar: alle 229 menselijke prompts en 213 git-commits zijn gearchiveerd in de repository. Wij rapporteren gedetailleerde lessen over AI-faalmodi – hypothese-creep, definitie-uitlijningsbugs, vermijdingsgedrag van agents – en over wat wel werkte: de splitsing tussen abstracte/concrete bewijzen, adversariële zelf-evaluatie, en de cruciale rol van menselijke beoordeling van sleuteldefinities en stellingen. Opmerkelijk is dat de formalisering werd voltooid voordat de definitieve versie van het bijbehorende wiskundige artikel was afgerond.
Video Super-Resolutie (VSR) heeft als doel hoogwaardige videoframes te herstellen uit low-resolution (LR) schattingen. Toch gedragen de meeste bestaande VSR-benaderingen zich tijdens inferentie als black boxes: gebruikers kunnen onverwachte artefacten niet betrouwbaar corrigeren, maar moeten accepteren wat het model produceert. In dit artikel stellen we een nieuw interactief VSR-raamwerk voor, genaamd SparkVSR, dat schaarse keyframes gebruikt als eenvoudig en expressief controlesignaal. Gebruikers kunnen eerst een kleine set keyframes super-resolven met behulp van een bestaand image super-resolution (ISR) model. Vervolgens propageert SparkVSR de prior informatie van de keyframes naar de volledige videosequentie, terwijl deze verankerd blijft aan de oorspronkelijke LR-videobeweging. Concreet introduceren we een keyframe-geconditioneerde pijplijn met twee trainingsfasen (latent-pixel) die LR-videolatents versmelt met gecodeerde HR-keyframe-latents om robuuste kruisruimte-propagatie te leren en perceptuele details te verfijnen. Tijdens inferentie ondersteunt SparkVSR flexibele keyframe-selectie (handmatige specificatie, codec I-frame extractie, of willekeurige bemonstering) en een referentievrije begeleidingsmechanisme dat continu de balans houdt tussen keyframe-naleving en blinde restauratie, waardoor robuuste prestaties worden gegarandeerd, zelfs wanneer referentie-keyframes ontbreken of imperfect zijn. Experimenten op meerdere VSR-benchmarks tonen verbeterde temporele consistentie en sterke restauratiekwaliteit aan, waarbij de baseline-methodes worden overtroffen met respectievelijk tot 24,6%, 21,8% en 5,6% op CLIP-IQA, DOVER en MUSIQ. Dit maakt controleerbare, keyframe-gestuurde video super-resolutie mogelijk. Bovendien tonen we aan dat SparkVSR een generiek interactief, keyframe-geconditioneerd videoverwerkingsraamwerk is, omdat het direct toegepast kan worden op onbekende taken zoals het restaureren van oude films en videostijloverdracht. Onze projectpagina is beschikbaar op: https://sparkvsr.github.io/
Betrouwbare evaluatie is essentieel voor de ontwikkeling en inzet van grote taalmodellen, maar vereist in de praktijk vaak aanzienlijke handmatige inspanning: ontwikkelaars moeten geschikte benchmarks identificeren, heterogene evaluatiecodebases reproduceren, gegevensset-schematoewijzingen configureren en geaggregeerde metrieken interpreteren. Om deze uitdagingen aan te pakken, presenteren we One-Eval, een agent-gebaseerd evaluatiesysteem dat natuurlijktaal-evaluatieverzoeken omzet in uitvoerbare, traceerbare en aanpasbare evaluatieworkflows. One-Eval integreert (i) NL2Bench voor intentiestructurering en gepersonaliseerde benchmarkplanning, (ii) BenchResolve voor benchmarkresolutie, automatische gegevenssetverwerving en schemanormalisatie om uitvoerbaarheid te garanderen, en (iii) Metrieken & Rapportage voor taakbewuste metriekenselectie en besluitgerichte rapportage die verder gaat dan numerieke scores. Het systeem bevat verder menselijke controlepunten voor review, bewerking en terugdraaiacties, waarbij tevens sporen van steekproefbewijs worden bewaard voor debugging en controleerbaarheid. Experimenten tonen aan dat One-Eval end-to-end evaluaties kan uitvoeren vanuit diverse natuurlijktaalverzoeken met minimale gebruikersinspanning, wat efficiëntere en reproduceerbaardere evaluatie in industriële settings ondersteunt. Ons raamwerk is publiekelijk beschikbaar op https://github.com/OpenDCAI/One-Eval.
Streamingreconstructie op basis van ongecalibreerde monovideo blijft een uitdaging, omdat het zowel hoogwaardige pose-schatting als computationeel efficiënte online-verfijning in dynamische omgevingen vereist. Hoewel de koppeling van 3D-foundationmodellen aan SLAM-frameworks een veelbelovend paradigma is, blijft er een kritieke bottleneck: de meeste multi-view foundationmodellen schatten poses op een feed-forward-manier, wat pixel-level correspondenties oplevert die de vereiste precisie voor rigoureuze geometrische optimalisatie missen. Om dit aan te pakken presenteren we M^3, dat het Multi-view foundationmodel uitbreidt met een speciale Matching-head om fijnmazige dichte correspondenties te faciliteren en dit integreert in een robuuste Monocular Gaussian Splatting SLAM. M^3 verbetert de trackingstabiliteit verder door dynamische gebiedsonderdrukking en kruis-inferentie-intrinsieke uitlijning. Uitgebreide experimenten op diverse indoor- en outdoor-benchmarks demonstreren state-of-the-art nauwkeurigheid in zowel pose-schatting als scènereconstructie. Opmerkelijk is dat M^3 de ATE RMSE met 64,3% vermindert in vergelijking met VGGT-SLAM 2.0 en ARTDECO met 2,11 dB overtreft in PSNR op de ScanNet++ dataset.
Hoogwaardige machinevertaling (MT) kan worden opgeschaald naar honderden talen, wat een hoge lat legt voor meertalige systemen. Vergeleken met de 7.000 talen in de wereld bieden huidige systemen echter nog steeds slechts beperkte dekking: ongeveer 200 talen aan de doeltaalzijde, en mogelijk enkele honderden meer aan de brontaalzijde, ondersteund dankzij cross-linguale transfer. Zelfs deze aantallen zijn moeilijk te evalueren geweest door een gebrek aan betrouwbare benchmarks en metrieken. Wij presenteren Omnilingual Machine Translation (OMT), het eerste MT-systeem dat meer dan 1.600 talen ondersteunt. Deze schaal wordt mogelijk gemaakt door een uitgebreide datastrategie die grote openbare meertalige corpora integreert met nieuw gecreëerde datasets, inclusief handmatig gecureerde MeDLEY-bitext. Wij onderzoeken twee manieren om een groot taalmodel (LLM) te specialiseren voor machinevertaling: als een decoder-only model (OMT-LLaMA) of als een module in een encoder-decoder architectuur (OMT-NLLB). Opmerkelijk is dat al onze modellen met 1B tot 8B parameters evenaren of overtreffen de MT-prestaties van een 70B LLM-basislijn, wat een duidelijk specialisatievoordeel onthult en sterke vertaalkwaliteit mogelijk maakt in settings met beperkte rekenkracht. Bovendien toont onze evaluatie van Engels-naar-1.600-talen vertalingen verder aan dat, hoewel basislijnmodellen ondermaatst ondersteunde talen kunnen interpreteren, ze er vaak niet in slagen deze te genereren met betekenisvolle trouw; OMT-LLaMA-modellen breiden de set talen waarvoor coherente generatie haalbaar is aanzienlijk uit. Daarnaast verbeteren OMT-modellen in cross-linguale transfer en komen ze dicht bij het oplossen van het "begrips"-deel van de puzzel in MT voor de 1.600 geëvalueerde talen. Onze leaderboard en belangrijkste door mensen gemaakte evaluatiedatasets (BOUQuET en Met-BOUQuET) evolueren dynamisch richting Omnilingualiteit en zijn vrij beschikbaar.
Met de snelle vooruitgang van vision-language modellen verkennen steeds meer onderzoeken hun potentieel voor SVG-generatietaken. Hoewel bestaande benaderingen de prestaties verbeteren door grootschalige SVG-datasets op te bouwen en SVG-specifieke tokens te introduceren, kampen ze nog steeds met beperkte generalisatie, overbodige paden in code-uitvoer en een gebrek aan expliciete redenering. In dit werk presenteren we CTRL-S (Chain-of-Thought Reinforcement Learning voor SVG), een uniform raamwerk dat een chain-of-thought-mechanisme introduceert om het redeneerproces van het model tijdens SVG-generatie expliciet bloot te leggen. Om deze gestructureerde redenering te ondersteunen, construeren we SVG-Sophia, een hoogwaardige dataset met 145K samples voor SVG-code-verfijning, Text-to-SVG en Image-to-SVG taken. Door het model te trainen om gestructureerde SVG-code op groepsniveau te genereren, verbetert CTRL-S de structurele samenhang en visuele getrouwheid aanzienlijk. Verder nemen we het GRPO-algoritme over en ontwerpen we een multi-reward optimalisatieraamwerk, waarin DINO, beeld-tekst gelijkenis, opmaak- en code-efficiëntie beloningen worden geïntegreerd. Door gezamenlijke multi-reward optimalisatie en multi-task training verbetert onze aanpak de algehele generatiecapaciteiten systematisch. Uitgebreide experimenten tonen aan dat CTRL-S bestaande methoden overtreft, met hogere taaksuccespercentages, superieure SVG-codekwaliteit en uitzonderlijke visuele getrouwheid.
Inheemse 3D-generatieve modellen hebben opmerkelijke nauwkeurigheid en snelheid bereikt, maar lijden onder een kritieke beperking: het onvermogen om precieze structurele articulaties voor te schrijven, waarbij precieze structurele controle binnen de native 3D-ruimte onderbelicht blijft. Dit artikel stelt SK-Adapter voor, een eenvoudig en toch zeer efficiënt en effectief raamwerk dat precieze skeletmanipulatie mogelijk maakt voor native 3D-generatie. Voorbijgaand aan tekst- of beeldprompts, die dubbelzinnig kunnen zijn voor precieze structuren, behandelen we het 3D-skelet als een eersteklas controlesignaal. SK-Adapter is een lichtgewicht structureel adapternetwerk dat gewrichtscoördinaten en topologie codeert in leerbare tokens, die via cross-attention worden geïnjecteerd in de bevroren 3D-generatie-backbone. Dit slimme ontwerp stelt het model in staat om niet alleen effectief "aandacht" te besteden aan specifieke 3D-structurele beperkingen, maar ook zijn oorspronkelijke generatieve prioriteiten te behouden. Om de datakloof te overbruggen, dragen we de Objaverse-TMS-dataset bij, een grootschalige dataset van 24k tekst-mesh-skeletparen. Uitgebreide experimenten bevestigen dat onze methode robuuste structurele controle bereikt terwijl de geometrie- en textuurkwaliteit van het foundationmodel behouden blijft, wat aanzienlijk beter presteert dan bestaande baseline-methoden. Bovendien breiden we deze capaciteit uit naar lokale 3D-bewerking, waardoor regionspecifieke bewerking van bestaande assets met skeletgeleiding mogelijk wordt, wat voorheen onbereikbaar was voor eerdere methoden. Projectpagina: https://sk-adapter.github.io/
Steekproeven nemen uit een categorische verdeling is wiskundig eenvoudig, maar bij decoding met een grote woordenschat leidt dit vaak tot extra geheugenverkeer en extra kernels na de LM-head. Wij presenteren FlashSampling, een exacte sampling-primitief die de sampling versmelt met de LM-head-matmul en nooit de logits-tensor materialiseert in HBM. De methode is eenvoudig: bereken logits tegel-voor-tegel on-chip, voeg Gumbel-ruis toe, behoud slechts één maximizer per rij en per vocabulaire tegel, en rond af met een kleine reductie over de tegels. De gefuseerde getegelde kernel is exact omdat argmax zich laat ontbinden over een partitie; gegroepeerde varianten voor online- en tensor-parallelle settings zijn exact door hiërarchische factorisatie van de categorische verdeling. Op H100-, H200-, B200- en B300-GPU's versnelt FlashSampling kernel-level decode-workloads, en in end-to-end vLLM-experimenten reduceert het de tijd per outputtoken met tot 19% bij de geteste modellen. Deze resultaten tonen aan dat exacte sampling, zonder benadering, kan worden geïntegreerd in de matmul zelf, waardoor een bandbreedtegebonden nabewerkingsstap verandert in een lichtgewicht epiloog. Projectpagina: https://github.com/FlashSampling/FlashSampling.
Nauwkeurige procesbewaking blijft een kritieke uitdaging voor robotmanipulatie op lange termijn. Een belangrijke bottleneck is dat huidige video-MLLM's, hoofdzakelijk getraind volgens een Supervised Fine-Tuning (SFT) paradigma, functioneren als passieve "waarnemers" die gebeurtenissen herkennen in plaats van de huidige staat te evalueren in relatie tot het uiteindelijke taakdoel. In dit artikel introduceren we PRIMO R1 (Process Reasoning Induced Monitoring), een 7B-framework dat video-MLLM's transformeert tot actieve "critici". We benutten outcome-gebaseerd Reinforcement Learning om expliciete Chain-of-Thought-generatie voor voortgangsschatting te stimuleren. Verder construeert onze architectuur een gestructureerde temporele invoer door de videosequentie expliciet te verankeren tussen afbeeldingen van de initiële en huidige staat. Gestuurd door de voorgestelde PRIMO-dataset en benchmark, tonen uitgebreide experimenten in diverse in-domein omgevingen en out-of-domein real-world humanoïde scenario's aan dat PRIMO R1 state-of-the-art prestaties bereikt. Kwantitatief behaalt ons 7B-model een reductie van 50% in de gemiddelde absolute fout ten opzichte van gespecialiseerde redeneer-baselines, wat significante relatieve nauwkeurigheidsverbeteringen demonstreert ten opzichte van algemene MLLM's van 72B-schaal. Bovendien vertoont PRIMO R1 sterke zero-shot generalisatie op moeilijke foutdetectietaken. We vestigen state-of-the-art prestaties op de RoboFail-benchmark met een nauwkeurigheid van 67,0%, wat gesloten modellen zoals OpenAI o1 met 6,0% overtreft.
Het verwerken van lange contexten blijft een kernuitdaging voor taalmodellen: zelfs met uitgebreide contextvensters slagen modellen er vaak niet in om informatie uit lange contexten betrouwbaar te extraheren, over te redeneren en te gebruiken. Recente werken, zoals Recursive Language Models (RLM), hebben deze uitdaging benaderd via een agent-gebaseerde aanpak waarbij lange contexten tijdens de inferentie worden opgedeeld in recursieve sub-aanroepen via programmatische interactie. Hoewel veelbelovend, hangt het succes van RLM cruciaal af van de selectie van deze context-interactieprogramma's, een aspect dat grotendeels onontgonnen is gebleven. In dit artikel bestuderen we dit probleem en introduceren we SRLM, een framework dat programmatische contextinteractie versterkt met onzekerheidsbewuste zelfreflectie (Self-Reflection). SRLM benut drie intrinsieke signalen: zelfconsistentie, redeneerlengte en verbaal uitgedrukt vertrouwen. Deze dienen als complementaire indicatoren van de interne onzekerheid van een model, en het model gebruikt ze om kandidaat-contextinteractieprogramma's te evalueren en vergelijken. Uitgebreide experimenten met diverse benchmarkdatasets, contextlengtes en basismodellen tonen aan dat SRLM consistent state-of-the-art baseline-methoden overtreft, met een verbetering tot 22% ten opzichte van RLM binnen hetzelfde tijdbudget. Onze bevindingen tonen aan dat recursie op zich niet de primaire drijvende kracht is achter de prestaties van RLM, en dat een eenvoudige zoektocht met zelfreflectie in programma's RLM kan evenaren of overtreffen zonder zelfbevraging of expliciete recursiemechanismen nodig te hebben. Wij constateren dat voor contextlengtes binnen het modelvenster, RLM's met recursie de prestaties vaak verslechteren ten opzichte van het basismodel, terwijl SRLM consistente verbeteringen oplevert bij zowel korte als lange contexten. Wij stellen ook vast dat RLM minder effectief is bij taken met een semantisch intensief karakter, waar heuristisch programmazoeken ontoereikend is en een breder contextueel begrip vereist is, terwijl zelfreflectie in SRLM een semantisch signaal biedt dat het redeneren in dergelijke scenario's beter stuurt.
Pixelruimte-diffusie is recentelijk opnieuw naar voren gekomen als een sterk alternatief voor latente diffusie, waardoor hoogwaardige generatie mogelijk wordt zonder voorgetrainde auto-encoders. Standaard pixelruimte-diffusiemodellen ontvangen echter relatief zwakke semantische supervisie en zijn niet expliciet ontworpen om hoogwaardige visuele structuren vast te leggen. Recente representatie-uitlijningsmethoden (zoals REPA) suggereren dat voorgetrainde visuele kenmerken de diffusietraining aanzienlijk kunnen verbeteren, en visuele co-denoisering is naar voren gekomen als een veelbelovende richting voor het integreren van dergelijke kenmerken in het generatieve proces. Bestaande co-denoiseringbenaderingen verstrengelen echter vaak meerdere ontwerpkeuzes, waardoor onduidelijk is welke ontwerpkeuzes werkelijk essentieel zijn. Daarom presenteren wij V-Co, een systematische studie van visuele co-denoisering in een verenigd JiT-gebaseerd raamwerk. Deze gecontroleerde setting stelt ons in staat de ingrediënten die visuele co-denoisering effectief maken, te isoleren. Onze studie onthult vier sleutelingrediënten voor effectieve visuele co-denoisering. Ten eerste motiveert het behoud van kenmerkspecifieke berekening, terwijl flexibele interactie tussen stromen mogelijk wordt gemaakt, een volledig dual-stream architectuur. Ten tweede vereist effectieve classifier-free guidance (CFG) een structureel gedefinieerde onvoorwaardelijke voorspelling. Ten derde wordt sterkere semantische supervisie het beste geboden door een hybride verliesfunctie die perceptuele drift aanpakt. Ten vierde vereist stabiele co-denoisering verder een juiste kalibratie tussen stromen, wat wij realiseren door RMS-gebaseerde kenmerkschaling. Samen leveren deze bevindingen een eenvoudig recept voor visuele co-denoisering. Experimenten op ImageNet-256 tonen aan dat V-Co, bij vergelijkbare modelgroottes, de onderliggende pixelruimte-diffusiebaseline en sterke eerdere pixel-diffusiemethoden overtreft, terwijl minder trainingsepochs worden gebruikt. Dit biedt praktische richtlijnen voor toekomstige representatie-uitgelijnde generatieve modellen.
Een gangbare opvatting in robotleren is dat simulatie alleen niet voldoende is; men gaat er algemeen van uit dat effectieve sim-to-real-transfer ten minste enige verzameling van real-world gegevens of taakspecifieke fine-tuning vereist om de kloof tussen gesimuleerde en fysieke omgevingen te overbruggen. Wij dagen die aanname uit. Wij tonen aan dat zero-shot-transfer naar de echte wereld niet alleen mogelijk is, maar ook effectief voor zowel statische als mobiele manipulatie, mits er gebruik wordt gemaakt van voldoende grootschalige en diverse gesimuleerde synthetische trainingsgegevens. Wij introduceren MolmoBot-Engine, een volledig open-source pijplijn voor procedurele datageneratie voor verschillende robots, taken en diverse gesimuleerde omgevingen in MolmoSpaces. Hiermee lanceren wij MolmoBot-Data, een dataset van 1,8 miljoen expert trajecten voor de manipulatie van gearticuleerde objecten en pick-and-place taken. Wij trainen drie beleidsklassen: MolmoBot, een op Molmo2 gebaseerd multi-frame vision-language model met een flow-matching actie-head; MolmoBot-Pi0, dat de π_0-architectuur repliceert om directe vergelijking mogelijk te maken; en MolmoBot-SPOC, een lichtgewicht beleid geschikt voor edge-implementatie en vatbaar voor RL-fine-tuning. Wij evalueren op twee robotplatforms: de Franka FR3 voor tafelmanipulatietaken en de Rainbow Robotics RB-Y1 mobiele manipulator voor het openen van deuren, lademanipulatie, interactie met kasten en mobiele pick-and-place. Zonder enige real-world fine-tuning bereiken onze beleidsmodellen zero-shot-transfer naar onbekende objecten en omgevingen. Voor pick-and-place op tafelniveau behaalt MolmoBot een slagingspercentage van 79,2% in real-world evaluaties over 4 settings, wat beter is dan π_{0,5} met 39,2%. Onze resultaten tonen aan dat procedurele omgevingsgeneratie in combinatie met diverse gearticuleerde assets robuuste manipulatiebeleidsmodellen kan opleveren die breed generaliseren naar de echte wereld. Technische Blog: https://allenai.org/blog/molmobot-robot-manipulation
Vision Transformer (ViT) gebaseerde visuele foundation-modellen (VFMs) hebben opmerkelijke prestaties geleverd bij diverse visuele taken, maar lijden onder kwadratische complexiteit die de schaalbaarheid naar lange sequenties beperkt. Bestaande lineaire aandacht-benaderingen voor ViTs worden doorgaans vanaf nul getraind, wat aanzienlijke rekenresources vereist, terwijl linearisatiegebaseerde methoden die zijn ontwikkeld voor large language model-decoders niet goed overdraagbaar zijn naar ViTs. Om deze uitdagingen aan te pakken, stellen we ViT-AdaLA voor, een nieuw raamwerk voor het effectief aanpassen en overdragen van voorkennis van VFMs naar lineaire aandacht-ViTs. ViT-AdaLA bestaat uit drie fasen: aandachtalignering, feature-alignering en supervised fine-tuning. In de aandachtaligneringsfase aligneren we standaard lineaire aandacht met de originele softmax-gebaseerde aandacht in elk blok om het gedrag van softmax-aandacht te benaderen. Residuele benaderingsfouten hopen zich echter onvermijdelijk op over lagen heen. We verzachten dit door de gelineariseerde ViT fijn af te stemmen om de features van de laatste laag te aligneren met een bevroren softmax VFM-leraarmodel. Ten slotte wordt de aangepaste voorkennis overgedragen naar downstreamtaken door middel van supervised fine-tuning. Uitgebreide experimenten met classificatie- en segmentatietaken tonen de effectiviteit en algemene geldigheid van ViT-AdaLA aan ten opzichte van verschillende state-of-the-art lineaire aandacht-tegenhangers.
Hoewel interdisciplinair onderzoek leidt tot grotere en langdurigere impact, blijft het meeste werk beperkt tot academische silo's binnen één domein. Recente, op AI gebaseerde benaderingen voor wetenschappelijke ontdekking tonen belofte voor interdisciplinair onderzoek, maar veel daarvan richten zich op het snel ontwerpen van experimenten en oplossingen, waarbij ze de verkennende, collaboratieve redeneerprocessen omzeilen die creatieve interdisciplinaire doorbraken aandrijven. Als gevolg daarvan richten eerdere inspanningen zich grotendeels op het automatiseren van wetenschappelijke ontdekking in plaats van het versterken van de redeneerprocessen die ten grondslag liggen aan wetenschappelijke disruptie. Wij presenteren Idea-Catalyst, een nieuw raamwerk dat systematisch interdisciplinaire inzichten identificeert om creatief redeneren bij zowel mensen als grote taalmodelen te ondersteunen. Uitgaande van een abstract onderzoeksdoel, is Idea-Catalyst ontworpen om de brainstormfase te ondersteunen en vermijdt het expliciet een vroegtijdige verankering aan specifieke oplossingen. Het raamwerk belichaamt belangrijke metacognitieve kenmerken van interdisciplinair redeneren: (a) het definiëren en beoordelen van onderzoeksdoelen, (b) bewustzijn van de kansen en onopgeloste uitdagingen binnen een domein, en (c) strategische exploratie van interdisciplinaire ideeën gebaseerd op impactpotentieel. Concreet deelt Idea-Catalyst een abstract doel (bijvoorbeeld het verbeteren van mens-AI-samenwerking) op in kernonderzoeksvragen binnen het doeldomein, die de analyse van voortgang en openstaande uitdagingen binnen dat domein sturen. Deze uitdagingen worden geherformuleerd als domein-onafhankelijke conceptuele problemen, wat het mogelijk maakt om inzichten op te halen uit externe disciplines (bijvoorbeeld Psychologie, Sociologie) die analoge vraagstukken aanpakken. Door inzichten uit deze domeinen te synthetiseren en terug te plaatsen in de context van het doeldomein, rangschikt Idea-Catalyst brondomeinen op basis van hun interdisciplinaire potentieel. Empirisch gezien verbetert deze gerichte integratie de gemiddelde nieuwswaarde met 21% en de zinvolheid met 16%, terwijl het verankerd blijft in het oorspronkelijke onderzoeksprobleem.
Diffusiegebaseerde stylisering heeft aanzienlijke vooruitgang geboekt, maar bestaande methoden zijn beperkt tot kleurgedreven transformaties en verwaarlozen complexe semantiek en materiaaldetails. Wij introduceren StyleExpert, een semantisch-bewust kader gebaseerd op Mixture of Experts (MoE). Ons raamwerk gebruikt een uniforme stijl-encoder, getraind op onze grootschalige dataset van inhoud-stijl-gestileerde tripletten, om diverse stijlen in te bedden in een consistente latente ruimte. Deze inbedding wordt vervolgens gebruikt om een gelijkvormigheidsbewust gating-mechanisme te conditioneren, dat stijlen dynamisch doorstuurt naar gespecialiseerde experts binnen de MoE-architectuur. Door gebruik te maken van deze MoE-architectuur, kan onze methode diverse stijlen aan die zich uitstrekken over meerdere semantische niveaus, van oppervlakkige texturen tot diepe semantiek. Uitgebreide experimenten tonen aan dat StyleExpert bestaande benaderingen overtreft in het behouden van semantiek en materiaaldetails, terwijl het generaliseert naar onbekende stijlen. Onze code en verzamelde afbeeldingen zijn beschikbaar op de projectpagina: https://hh-lg.github.io/StyleExpert-Page/.
Recente studies hebben duidelijk gemaakt dat het restpad niet slechts een optimalisatietechniek is; het maakt deel uit van de representatiemachinerie van het model. Wij zijn het daarmee eens, maar beargumenteren dat de meest elegante manier om deze ontwerpruimte te organiseren een tweedimensionaal perspectief op de Transformer is. Een decoder ontwikkelt informatie langs twee geordende dimensies: sequentiepositie en laagdiepte. Zelf-attentie zorgt reeds voor adaptieve mixing langs de sequentie-as, terwijl de reststroom doorgaans vaste optelling langs de diepte-as uitvoert. Als we een tokenpositie fixeren en de laagindex als de geordende variabele beschouwen, dan is een causale dieptegewijze rest-attentie-lezing exact dezelfde lokale operator als causale aandacht met een kort glijdend venster (ShortSWA), maar dan geschreven over diepte in plaats van over de sequentie. Dit is de kern van de reststroomdualiteit achter Transformer^2. Dit perspectief verduidelijkt ook de recente literatuur. ELC-BERT en DenseFormer tonen reeds aan dat geleerde aggregatie over diepte uniforme restaccumulatie kan overtreffen, terwijl Verticale Aandacht, DeepCrossAttention (DCA), MUDDFormer en Attention Residuals verder gaan in de richting van expliciete op aandacht gebaseerde routing over eerdere lagen. Het cruciale punt is echter dat dualiteit op operatorniveau geen symmetrie op systeemniveau impliceert. Voor grootschalige autoregressieve modellen is sequentie-as ShortSWA doorgaans de hardwarevriendelijkere plaatsing omdat het token-gebaseerde kernels voor glijdende vensters, KV-cache-lay-outs en uitgevoerde chunks hergebruikt. Als het doel daarentegen is de shortcut zelf te veranderen, dan is Deep Delta Learning (DDL) de schonere interventie omdat het de restoperator direct wijzigt in plaats van een apart cross-layer retrieval-pad toe te voegen. Ons advies is daarom eenvoudig: gebruik DDL wanneer de shortcut het onderwerp van interesse is, en gebruik sequentie-as ShortSWA wanneer het doel lokale adaptieve mixing is.
Wij presenteren een volledige theoretische karakterisering van Latent Posterior Factors (LPF), een principieel raamwerk voor het aggregeren van meerdere heterogene evidentie-items in probabilistische voorspeltaken. Redeneren met meervoudige evidentie komt alomtegenwoordig voor in hoog-risicodomeinen zoals gezondheidszorgdiagnostiek, financiële risicobeoordeling, juridische case-analyse en regelgevende naleving, maar bestaande benaderingen missen ofwel formele garanties of zijn architecturaal niet in staat om multi-evidentiescenario's te verwerken. LPF codeert elk evidentie-item in een Gaussische latente posterior via een variational autoencoder, zet posteriors om in zachte factoren via Monte Carlo-marginalisatie, en aggregeert factoren via exacte Sum-Product Network inferentie (LPF-SPN) of een geleerde neurale aggregator (LPF-Learned). Wij bewijzen zeven formele garanties die de belangrijkste vereisten voor betrouwbare AI omvatten: Behoud van Calibratie (ECE <= epsilon + C/sqrt(K_eff)); Monte Carlo-fout die afneemt als O(1/sqrt(M)); een niet-triviale PAC-Bayes bound met een train-testkloof van 0.0085 bij N=4200; opereren binnen 1.12x van de informatie-theoretische ondergrens; graceful degradation als O(epsilon*delta*sqrt(K)) onder corruptie, met behoud van 88% prestaties wanneer de helft van de evidentie adversarieel wordt vervangen; calibratie-afname als O(1/sqrt(K)) met R²=0.849; en een exacte epistemisch-aleatorische onzekerheidsdecompositie met een fout onder de 0.002%. Alle stellingen zijn empirisch gevalideerd op gecontroleerde datasets met tot 4.200 trainingsvoorbeelden. Ons theoretisch kader vestigt LPF als een fundament voor betrouwbare multi-evidentie AI in veiligheidskritische toepassingen.
Wij presenteren Polyglot-Lion, een familie van compacte meertalige automatische spraakherkenning (ASH)-modellen, afgestemd op het taallandschap van Singapore, met ondersteuning voor Engels, Mandarijn, Tamil en Maleis. Onze modellen zijn verkregen door het finetunen van Qwen3-ASH-0.6B en Qwen3-ASH-1.7B uitsluitend op publiek beschikbare spraakcorpora, waarbij een gebalanceerde steekproefstrategie wordt gebruikt die het aantal trainingsuitingen per taal gelijk trekt en bewust afziet van conditionering met taallabels, zodat het model leert talen impliciet uit audio te identificeren. Op 12 benchmarks die de vier doeltalen beslaan, behaalt Polyglot-Lion-1.7B een gemiddelde foutmarge van 14,85, wat competitief is met MERaLiON-2-10B-ASH (14,32) – een model dat 6x groter is – tegen een trainingskost van \81 op een enkele RTX PRO 6000 GPU, vergeleken met 18.862 voor de 128-GPU-basislijn. De verwerkingssnelheid bij inferentie is ongeveer 20x sneller dan MERaLiON, met 0,10 s/sample versus 2,02 s/sample. Deze resultaten tonen aan dat linguïstisch gebalanceerd finetunen van voorgetrainde modellen van gemiddelde omvang inzetklare meertalige ASH kan opleveren tegen een fractie van de kost van grotere gespecialiseerde systemen.
Het begrijpen van menselijke bewegingen op basis van LiDAR-puntsgegevens is een van de meest kritieke taken in autonoom rijden vanwege de directe relatie met de veiligheid van voetgangers. Toch blijft dit een uitdaging bij de aanwezigheid van diverse mens-objectinteracties en rommelige achtergronden. Desalniettemin zien bestaande methoden grotendeels de potentie over het hoofd om mens-objectinteracties te benutten voor het bouwen van robuuste 3D-menselijke houdingsschattingsframeworks. Er zijn twee belangrijke uitdagingen die de integratie van mens-objectinteractie motiveren. Ten eerste introduceren mens-objectinteracties ruimtelijke ambiguïteit tussen mens- en objectpunten, wat vaak leidt tot foutieve 3D-sleutelpuntvoorspellingen in interactiegebieden. Ten tweede bestaat er een ernstige klasse-onbalans in het aantal punten tussen interagerende en niet-interagerende lichaamsdelen, waarbij interactierijke regio's zoals handen en voeten schaars worden waargenomen in LiDAR-data. Om deze uitdagingen aan te pakken, stellen we een Human-Object Interaction Learning (HOIL)-framework voor voor robuuste 3D-menselijke houdingsschatting vanuit LiDAR-puntsgegevens. Om het ruimtelijke ambiguïteitsprobleem te mitigeren, presenteren we human-object interaction-aware contrastive learning (HOICL), dat de feature-discriminatie tussen mens- en objectpunten effectief verbetert, vooral in interactiegebieden. Om het klasse-onbalansprobleem te verlichten, introduceren we contact-aware part-guided pooling (CPPool), dat representatiecapaciteit adaptief herverdeelt door oververtegenwoordigde punten te comprimeren terwijl informatieve punten van interagerende lichaamsdelen behouden blijven. Daarnaast presenteren we een optionele op contact gebaseerde temporele verfijning die foutieve sleutelpuntenschattingen per frame verfijnt met behulp van contactaanwijzingen over tijd. Hierdoor benut ons HOIL-effectief mens-objectinteractie om ruimtelijke ambiguïteit en klasse-onbalans in interactiegebieden op te lossen. Code zal worden vrijgegeven.
Bestaande op diffusie gebaseerde methoden voor 3D-scènegeneratie werken voornamelijk in 2D beeld/video latente ruimtes, wat het handhaven van cross-view uiterlijk- en geometrische consistentie inherent uitdagend maakt. Om deze kloof te overbruggen, presenteren wij OneWorld, een raamwerk dat diffusie direct uitvoert binnen een coherente 3D-representatieruimte. Centraal in onze aanpak staat de 3D Unified Representation Autoencoder (3D-URAE); deze benut vooraf getrainde 3D-foundationmodellen en versterkt hun geometrisch-centrische aard door uiterlijk in te brengen en semantiek te destilleren in een verenigde 3D latente ruimte. Verder introduceren wij een token-level Cross-View-Correspondence (CVC) consistentieverlies om structurele uitlijning tussen views expliciet af te dwingen, en stellen wij Manifold-Drift Forcing (MDF) voor om exposure bias tijdens training-inferentie te verminderen en een robuuste 3D-variëteit te vormen door gedrifte en originele representaties te mengen. Uitgebreide experimenten tonen aan dat OneWorld hoogwaardige 3D-scènes genereert met superieure cross-view consistentie vergeleken met state-of-the-art 2D-gebaseerde methoden. Onze code zal beschikbaar zijn op https://github.com/SensenGao/OneWorld.
Persistent geheugen is een centrale capaciteit voor AI-agenten, maar de wiskundige fundamenten van geheugenretrieval, levenscyclusbeheer en consistentie blijven onontgonnen. Huidige systemen gebruiken cosinusgelijkenis voor retrieval, heuristisch verval voor salientie en bieden geen formele contradictiedetectie. Wij leggen informatie-geometrische fundamenten via drie bijdragen. Ten eerste, een retrievalmetriek afgeleid van de Fisher-informatestructuur van diagonale Gauss-families, die voldoet aan Riemann-metriekaxioma's, invariant is onder voldoende statistieken en berekenbaar in O(d)-tijd. Ten tweede, geheugenlevenscyclus geformuleerd als Riemanniaanse Langevin-dynamica met bewezen existentie en uniciteit van de stationaire verdeling via de Fokker-Planck-vergelijking, waarbij handmatig afgesteld verval wordt vervangen door principiële convergentiegaranties. Ten derde, een cellulair schoofmodel waarbij niet-triviale eerste cohomologieklassen precies corresponderen met onverzoenlijke contradicties tussen geheugencontexten. Op de LoCoMo-benchmark leveren de wiskundige lagen +12,7 procentpunt op ten opzichte van technische basislijnen over zes gesprekken, oplopend tot +19,9 pp bij de meest uitdagende dialogen. Een vierkanaals retrieval-architectuur bereikt 75% nauwkeurigheid zonder cloudafhankelijkheid. Cloud-aangevulde resultaten bereiken 87,7%. Een zero-LLM-configuratie voldoet door architectonisch ontwerp aan de EU AI Act-gegevenssoevereiniteitsvereisten. Voor zover wij weten is dit het eerste werk dat informatie-geometrische, schooftheoretische en stochastisch-dynamische fundamenten legt voor AI-agentgeheugensystemen.
Recente vooruitgang in multimodale agenten heeft de interactie met computers en het gebruik van hulpmiddelen verbeterd, maar de meeste bestaande systemen blijven reactief: ze optimaliseren handelingen in isolatie zonder te redeneren over toekomstige toestanden of langetermijndoelen. Dit beperkt de coherentie van planning en verhindert dat agenten betrouwbaar hoogwaardige, meerstappentaken kunnen oplossen. Wij introduceren TraceR1, een reinforcement learning-raamwerk met twee fasen dat anticiperend redeneren expliciet traint door kortetermijntrajecten te voorspellen vóór uitvoering. De eerste fase voert reinforcement learning op trajectniveau uit met beloningen die globale consistentie afdwingen over voorspelde actiereeksen. De tweede fase past *grounded reinforcement fine-tuning* toe, waarbij feedback van uitgevoerde handelingen door bevroren hulpmiddelagenten wordt gebruikt om de nauwkeurigheid en uitvoerbaarheid op stapniveau te verfijnen. TraceR1 wordt geëvalueerd op zeven benchmarks, die online computergebruik, offline computergebruik en multimodale redeneertaken met hulpmiddelen beslaan, waarbij het substantiële verbeteringen laat zien in planningsstabiliteit, uitvoeringsrobuustheid en generalisatie ten opzichte van reactieve en eenfasige systemen. Deze resultaten tonen aan dat anticiperende trajectredenering een sleutelprincipe is voor het bouwen van multimodale agenten die effectief kunnen redeneren, plannen en handelen in complexe, realistische omgevingen.
In de echte wereld, van het beoordelen van belastingaangiften tot medische diagnoses, vereist besluitvorming het samenvoegen van meerdere onbetrouwbare en potentieel tegenstrijdige informatiebronnen. Bestaande methoden missen ofwel een expliciete kwantificering van onzekerheid (neurale aggregatiemethoden) of zijn afhankelijk van handmatig ontworpen discrete predicaten (probabilistische logica-frameworks), wat de schaalbaarheid naar ongestructureerde data beperkt. Wij introduceren Latent Posterior Factors (LPF), een raamwerk dat latente posteriorverdelingen van Variational Autoencoders (VAE) omzet in zachte likelihood-factoren voor inferentie in Sum-Product Networks (SPN). Dit maakt hanteerbare probabilistische redenering over ongestructureerde informatie mogelijk, terwijl gekalibreerde onzekerheidsschattingen behouden blijven. We concretiseren LPF als LPF-SPN (inferentie op basis van gestructureerde factoren) en LPF-Learned (end-to-end geleerde aggregatie), wat een principiële vergelijking mogelijk maakt tussen expliciete probabilistische redenering en geleerde aggregatie onder een gedeelde onzekerheidsrepresentatie. In acht domeinen (zeven synthetische en de FEVER-benchmark) behaalt LPF-SPN een hoge nauwkeurigheid (tot 97,8%), een lage kalibratiefout (ECE 1,4%) en een sterke probabilistische fit, en presteert daarbij aanzienlijk beter dan evidentieel deep learning, LLM's en op grafieken gebaseerde baseline-methoden over 15 willekeurige seeds. Bijdragen: (1) Een raamwerk dat latente onzekerheidsrepresentaties verbindt met gestructureerde probabilistische redenering. (2) Duale architecturen die een gecontroleerde vergelijking van redeneerparadigma's mogelijk maken. (3) Reproduceerbare trainingsmethodologie met seed-selectie. (4) Evaluatie tegen EDL, BERT, R-GCN en large language model-baselines. (5) Validatie over meerdere domeinen. (6) Formele garanties in een begeleidend artikel.
Het oplossen van problemen door middel van gereedschapsgebruik onder expliciete beperkingen vormt een zeer uitdagend maar onvermijdelijk scenario voor grote taalmodelen (LLM's), waarvoor capaciteiten zoals functie-aanroeping, instructie-opvolging en zelfverbetering vereist zijn. De vooruitgang wordt echter belemmerd door het ontbreken van toegewijde evaluaties. Om dit aan te pakken, introduceren we CCTU, een benchmark voor het evalueren van LLM-gereedschapsgebruik onder complexe beperkingen. CCTU is gebaseerd op een taxonomie van 12 beperkingscategorieën verspreid over vier dimensies (namelijk middelen, gedrag, gereedschapsset en respons). De benchmark omvat 200 zorgvuldig samengestelde en uitdagende testgevallen in diverse gereedschapsgebruiksscenario's, elk met gemiddeld zeven beperkingstypes en een gemiddelde promptlengte van meer dan 4.700 tokens. Om een betrouwbare evaluatie mogelijk te maken, ontwikkelen we een uitvoerbare validatiemodule voor beperkingen die stap-voor-stap validatie uitvoert en naleving afdwingt tijdens meerronde interacties tussen modellen en hun omgeving. We evalueren negen state-of-the-art LLM's in zowel denk- als niet-denkmodi. Resultaten tonen aan dat wanneer strikte naleving van alle beperkingen vereist is, geen enkel model een taakvoltooiingspercentage boven de 20% behaalt. Verdere analyse onthult dat modellen in meer dan 50% van de gevallen beperkingen overtreden, met name in de dimensies middelen en respons. Bovendien tonen LLM's een beperkt vermogen tot zelfverbetering, zelfs na het ontvangen van gedetailleerde feedback over beperkingsovertredingen, wat een kritiek knelpunt in de ontwikkeling van robuuste gereedschapsgebruik-agenten benadrukt. Om toekomstig onderzoek te vergemakkelijken, publiceren we de data en code.
Hoewel Multimodale Large Language Models (MLLM's) veelbelovende prestaties vertonen bij de geautomatiseerde interpretatie van elektrocardiogrammen, is het onduidelijk of ze daadwerkelijk stap-voor-stap redeneren of slechts vertrouwen op oppervlakkige visuele aanwijzingen. Om dit te onderzoeken, introduceren we ECG-Reasoning-Benchmark, een nieuw multi-turn evaluatiekader met meer dan 6.400 monsters om stap-voor-stap redeneren systematisch te beoordelen voor 17 kern-ECG-diagnoses. Onze uitgebreide evaluatie van state-of-the-art modellen onthult een kritiek falen in het uitvoeren van meerstaps logische deductie. Hoewel de modellen over de medische kennis beschikken om klinische criteria voor een diagnose op te halen, vertonen ze een slagingspercentage van bijna nul (6% voltooiing) in het handhaven van een complete redeneerketen, waarbij ze vooral falen in het koppelen van de corresponderende ECG-bevindingen aan het daadwerkelijke visuele bewijs in het ECG-signaal. Deze resultaten tonen aan dat huidige MLLM's daadwerkelijke visuele interpretatie omzeilen, wat een kritieke fout blootlegt in bestaande trainingsparadigma's en de noodzaak benadrukt van robuuste, op redeneren gerichte medische AI. De code en gegevens zijn beschikbaar op https://github.com/Jwoo5/ecg-reasoning-benchmark.
Retrieval-Augmented Generation (RAG)-systemen kampen met uitdagingen bij complexe, multihop vragen. Agent-gebaseerde frameworks zoals Search-R1 (Jin et al., 2025), die iteratief werken, zijn voorgesteld om deze complexiteiten aan te pakken. Dergelijke benaderingen kunnen echter inefficiënties introduceren, zoals de herhaaldelijke retrievable van reeds verwerkte informatie en problemen bij het effectief contextualiseren van opgehaalde resultaten binnen de huidige generatie-prompt. Deze problemen kunnen leiden tot onnodige retrieval-cycli, suboptimale redenering, onnauwkeurige antwoorden en een hoger tokenverbruik. In dit artikel onderzoeken we testtijd-aanpassingen aan de Search-R1-pipeline om deze geïdentificeerde tekortkomingen te mitigeren. Specifiek exploreren we de integratie van twee componenten en hun combinatie: een contextualisatiemodule om relevante informatie uit opgehaalde documenten beter te integreren in de redenering, en een deduplicatiemodule die eerder opgehaalde documenten vervangt door de volgende meest relevante. We evalueren onze benaderingen met de HotpotQA (Yang et al., 2018) en de Natural Questions (Kwiatkowski et al., 2019) datasets, en rapporteren de exact match (EM)-score, een LLM-as-a-Judge-beoordeling van antwoornauwkeurigheid, en het gemiddeld aantal cycli. Onze best presterende variant, die GPT-4.1-mini gebruikt voor contextualisatie, behaalt een stijging van 5,6% in de EM-score en reduceert het aantal cycli met 10,5% vergeleken met de Search-R1-basislijn, wat duidt op verbeterde antwoornauwkeurigheid en retrievalefficiëntie.
Wij introduceren VAREX (VARied-schema EXtraction), een benchmark voor het evalueren van multimodale foundation-modellen op het gebied van gestructureerde data-extractie uit overheidsformulieren. VAREX gebruikt een Reverse Annotation-pijplijn die programmatisch PDF-sjablonen invult met synthetische waarden, waarbij deterministische grondwaarden worden geproduceerd die zijn gevalideerd via een drie-fasen kwaliteitscontrole. De benchmark omvat 1.777 documenten met 1.771 unieke schema's verdeeld over drie structurele categorieën, elk aangeboden in vier invoermodaliteiten: platte tekst, layout-behoudende tekst (witruimte-uitgelijnd om kolomposities te benaderen), documentafbeelding, of een combinatie van tekst en afbeelding. In tegenstelling tot bestaande benchmarks die vanuit één enkele invoerweergave evalueren, biedt VAREX vier gecontroleerde modaliteiten per document, waardoor een systematische ablatiestudie mogelijk is naar hoe het invoerformaat de extractienauwkeurigheid beïnvloedt – een mogelijkheid die ontbreekt in eerdere benchmarks. Wij evalueren 20 modellen, van geavanceerde propriëtaire modellen tot kleine open modellen, met bijzondere aandacht voor modellen van ≤4B parameters die geschikt zijn voor kostengevoelige en latentiebeperkte implementatie. De resultaten tonen aan dat (1) onder de 4B parameters, naleving van gestructureerde output – niet de extractiecapaciteit – een dominante bottleneck is; in het bijzonder verlaagt schema-echo (modellen die een schema-conforme structuur produceren in plaats van geëxtraheerde waarden) de scores met 45-65 procentpunt (pp) bij de getroffen modellen; (2) extractie-specifieke fine-tuning bij 2B parameters levert winsten op van +81 pp, wat aantoont dat het instructievolgtekort oplosbaar is zonder schaalvergroting; (3) layout-behoudende tekst de grootste nauwkeurigheidswinst oplevert (+3-18 pp), die visuele cues op pixelniveau overstijgt; en (4) de benchmark modellen het meest effectief onderscheidt in het nauwkeurigheidsbereik van 60-95%. De dataset en evaluatiecode zijn openbaar beschikbaar.
Chemische taalmodelen (CLM's) zijn naar voren gekomen als veelbelovende concurrenten van populaire klassieke machine learning-modellen voor taken op het gebied van moleculaire eigenschapvoorspelling (MPP). Een groeiend aantal studies rapporteert echter inconsistente en tegenstrijdige resultaten voor de prestaties van CLM's bij diverse MPP-benchmarktaken. In deze studie voeren en analyseren wij honderden nauwgezet gecontroleerde experimenten uit om de effecten van verschillende factoren, zoals datasetgrootte, modelgrootte en standaardisatie, op de pre-training en fine-tuning prestaties van CLM's voor MPP systematisch te onderzoeken. In afwezigheid van goed vastgestelde schaalwetten voor encoder-only gemaskeerde taalmodelen, is ons doel om uitgebreid numeriek bewijs en een dieper inzicht te verschaffen in de onderliggende mechanismen die de prestaties van CLM's voor MPP-taken beïnvloeden, waarvan sommige in de literatuur geheel over het hoofd lijken te worden gezien.
Diffusiemodellen opereren in een reflexieve Systeem 1-modus, beperkt door een vast, inhoudsagnostisch sampling-schema. Deze rigiditeit ontstaat door de vloek van de toestandsdimensionaliteit, waarbij de combinatorische explosie van mogelijke toestanden in de hoogdimensionale ruisvariëteit expliciete trajectplanning onhanteerbaar maakt en leidt tot systematische computationele misallocatie. Om dit aan te pakken, introduceren wij Chain-of-Trajectories (CoTj), een train-vrij kader dat Systeem 2 beraadslagende planning mogelijk maakt. Centraal in CoTj staat Diffusion DNA, een laagdimensionale signatuur die de per-fase denoiseringsmoeilijkheid kwantificeert en dient als proxy voor de hoogdimensionale toestandsruimte, waardoor wij sampling kunnen herformuleren als grafplanning op een gerichte acyclische graaf. Via een Predict-Plan-Execute-paradigma alloceert CoTj dynamisch rekeninspanning aan de meest uitdagende generatieve fasen. Experimenten met meerdere generatieve modellen tonen aan dat CoTj contextbewuste trajecten ontdekt, wat de outputkwaliteit en stabiliteit verbetert en tegelijkertijd redundante berekeningen vermindert. Dit werk legt een nieuwe basis voor resourcebewuste, op planning gebaseerde diffusiemodellering. De code is beschikbaar op https://github.com/UnicomAI/CoTj.
Wij presenteren HistoAtlas, een pan-kanker computationele atlas die 38 interpreteerbare histologische kenmerken extraheert uit 6.745 diagnostische H&E-coupes van 21 TCGA-kankertypes en elk kenmerk systematisch koppelt aan overleving, genexpressie, somatische mutaties en immuunsubtypen. Alle associaties zijn gecorrigeerd voor covariaten, gecorrigeerd voor meervoudig toetsen en ingedeeld in bewijskracht-categorieën. De atlas onthult bekende biologie, van immuuninfiltratie en prognose tot proliferatie en kinase-signalering, en legt tegelijkertijd compartimentspecifieke immuunsignalen en morfologische subtypen met uiteenlopende uitkomsten bloot. Elk resultaat is ruimtelijk traceerbaar naar weefselcompartimenten en individuele cellen, statistisch gekalibreerd en openlijk doorzoekbaar. HistoAtlas maakt systematische, grootschalige biomarkerontdekking mogelijk vanuit routinematige H&E-coupes, zonder gespecialiseerde kleuringen of sequencing. Data en een interactieve webatlas zijn vrij beschikbaar op https://histoatlas.com.
Gemaskerde diffusiemodellen (MDM) vertonen superieure generalisatie wanneer ze worden aangeleerd met een gedeeltelijk maskeringsschema (Prime). Deze methode zet tokens om in sub-tokens en modelleert het diffusieproces op sub-tokenniveau. Wij identificeren twee beperkingen van het MDM-Prime raamwerk. Ten eerste ontbreken er instrumenten om de hyperparameterkeuze voor de tokengranulariteit in de subtokenizer te sturen. Ten tweede constateren we dat de functievorm van de subtokenizer de waarschijnlijkheidsschatting aanzienlijk verslechtert in combinatie met veelgebruikte Byte-Pair-Encoding (BPE) tokenizers. Om deze beperkingen aan te pakken, bestuderen we de strakheid van de variational bound in MDM-Prime en ontwikkelen we MDM-Prime-v2, een gemaskerd diffusie-taalmodel dat Binaire Codering en Indexherschikking incorporeert. Onze schaalanalyse toont aan dat MDM-Prime-v2 21,8 keer rekenzuiniger is dan autoregressieve modellen (ARM). In compute-optimale vergelijkingen behaalt MDM-Prime-v2 een perplexiteit van 7,77 op OpenWebText, wat beter presteert dan ARM (12,99), MDM (18,94) en MDM-Prime (13,41). Bij het opschalen van het model naar 1,1B parameters, toont ons model verder superieure zero-shot nauwkeurigheid op diverse common sense-redeneertaken.
Het dominante paradigma voor het verbeteren van wiskundig redeneren in taalmodellen steunt op Reinforcement Learning met verifieerbare beloningen. Toch behandelen bestaande methodes elk probleem geïsoleerd, zonder gebruik te maken van de herbruikbare strategieën die tijdens training ontstaan en accumuleren. Daarom introduceren wij ARISE (Agent Reasoning via Intrinsic Skill Evolution), een hiërarchisch reinforcement learning-raamwerk waarin een gedeeld beleid functioneert om zowel vaardigheden op hoog niveau te beheren als antwoorden op laag niveau te genereren (respectievelijk aangeduid als een Vaardighedenbeheerder en een Werker). De Beheerder onderhoudt een gelaagde vaardighedenbibliotheek via een toegewijde vaardigheidsgeneratie-rollout die gestructureerde samenvatting maakt van succesvolle oplossingstrajecten (na uitvoering), terwijl een beleidsgestuurd selectiemechanisme wordt ingezet om relevante vaardigheden op te halen om toekomstige rollouts te conditioneren (voor uitvoering). Een hiërarchisch beloningsontwerp stuurt de co-evolutie van redeneervermogen en bibliotheekkwaliteit. Experimenten met twee basismodellen en zeven benchmarks in zowel wedstrijdwiskunde als Omni-MATH tonen aan dat ARISE consistent beter presteert dan GRPO-familie-algoritmen en geheugenversterkte baseline-methoden, met bijzonder opmerkelijke winsten op out-of-distribution-taken. Ablatiestudies bevestigen dat elke component bijdraagt aan de waargenomen verbeteringen en dat bibliotheekkwaliteit en redeneerprestaties tijdens de training gelijk opgaan. Code is beschikbaar op https://github.com/Skylanding/ARISE.
Grootschalige landinname voor speculatieve megaprojecten vormt een niet-evenwichtig ruimtelijk proces waarvan de snelheid, topologie en onomkeerbaarheid slecht gekwantificeerd blijven. Wij bestuderen het kustmegaproject Pantai Indah Kapuk 2 (PIK2) ten noorden van Jakarta, Indonesië, met behulp van acht jaar (2017–2024) Sentinel-2 landgebruik-/landbedekkingsdata (LULC) met een resolutie van 10 meter. Het landschap wordt geprojecteerd op een Marxiaanse waarschijnlijkheidssimplex die terrestrische pixels verdeelt in fracties van Gemeenschappelijk, Agrarisch en Kapitaal. Fisher-Rao (FR) geodesische afstanden op deze simplex identificeren een transformatiepuls van 0,405 rad/jaar tijdens 2019–2020, wat samenvalt met grote bouwactiviteit. Analyse met absorberende Markov-ketens levert verwachte absorptietijden op in de bebouwde omgeving van 46,0 jaar voor bouwland en 38,1 jaar voor boomdekking, met een gezamenlijk zelfbehoudspercentage van het bebouwde gebied van 96,4%. Percolatieanalyse toont aan dat een gigantische verbonden component die 89–95% van alle bebouwde pixels bevat, persistent is bij bezettingskansen p in [0,096, 0,162], ver onder de drempelwaarde voor willekeurige percolatie p_c ≈ 0,593, wat wijst op geplande in plaats van stochastische ruimtelijke groei. De fractale dimensie van de stedelijke grens, bepaald met box-counting, neemt toe van d_f = 1,316 naar 1,397, in overeenstemming met een toenemend onregelmatige frontier-expansie. Deze resultaten suggereren dat informatie-geometrische en statistisch-mechanische instrumenten de kinematische en topologische kenmerken van kapitalistische ruimtelijke accumulatie met kwantitatieve precisie kunnen karakteriseren.