Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het klonen van camerabewegingen uit referentievideo's is een belangrijke taak in videogeneratie, omdat video's intuïtieve en nauwkeurige controle bieden. Bestaande methoden gebruiken ofwel direct parametrische representaties die niet in staat zijn om multi-shot generatie aan te kunnen, of ze synthetiseren cross-gepaarde data, wat lijdt onder dataschaarste, wat resulteert in slechte prestaties bij het klonen van complexe camerabewegingen. Om deze problemen aan te pakken, introduceren we een algemene camerabewegingsrepresentatie die camera's codeert als grid-bewegingsvideo's. Dit cameraraster visualiseert de cameraparameters visueel en ondersteunt de integratie van diverse trajecten voor multi-shot videogeneratie. Hierop voortbouwend stellen we OmniDirector voor, een uniform raamwerk getraind op miljoenen cameraraster-videoparen dat personages, acties en camera's coördineert om regisseursniveau-controle te bieden voor multimodale diffusietransformatoren. Bovendien ontwerpen we een nieuw hiërarchisch promptuitbreidingsagent dat verschillende controlesignalen harmonieus integreert door systematisch camerabeweging en visuele inhoud te beschrijven via het begrijpen van signaalrelaties. Uitgebreide experimenten tonen de superieure prestaties en uitstekende beheersbaarheid van ons raamwerk aan. Projectpagina: https://ymlinfeng.github.io/OmniDirector.github.io/
Recente vooruitgangen in agentische Reinforcement Learning (RL) hebben de meerstaps toolgebruiksmogelijkheden van agenten op basis van grote taalmodellen aanzienlijk verbeterd. Echter, de meeste bestaande methoden kennen credits toe over grove heuristische eenheden, zoals tool-aanroepgrenzen of vaste workflows, wat het moeilijk maakt om te identificeren welke tussenliggende beslissingen invloed hebben op uitkomsten verderop. In dit werk bestuderen we agentische RL vanuit twee perspectieven: waar te vertakken en hoe credits toe te kennen na vertakking. Onze pilotanalyse toont aan dat invloedrijke beslissingspunten breed verspreid zijn over de gegenereerde sequentie in plaats van geconcentreerd bij tool-aanroepen, terwijl tokenentropie alleen niet betrouwbaar hun impact op de uiteindelijke uitkomsten weerspiegelt. Gemotiveerd door deze observaties stellen we Agentic Procedural Policy Optimization (APPO) voor, dat vertakking en credit-toekenning verschuift van grove interactie-eenheden naar fijnmazige beslissingspunten in de sequentie. APPO selecteert vertakkingslocaties met behulp van een Vertakkingsscore die tokenonzekerheid combineert met door beleid geïnduceerde waarschijnlijkheidswinsten van daaropvolgende voortzettingen, wat gerichtere exploratie mogelijk maakt terwijl onechte posities met hoge entropie worden weggefilterd. Het introduceert verder procedure-niveau voordeelschaling om credits beter te verdelen over vertakte rollouts. Experimenten op 13 benchmarks tonen aan dat APPO consequent sterke agentische RL-baselines met bijna 4 punten verbetert, terwijl het efficiënte tool-aanroepen behoudt en de interpreteerbaarheid van gedrag handhaaft.
Ondanks recente vooruitgang worstelen LLM-agenten nog steeds met redeneren over lange interactiegeschiedenissen. Terwijl huidige geheugengeaugmenteerde agenten vertrouwen op een statisch 'ophaal-then-redeneer'-paradigma, verhindert dit rigide pijplijnontwerp hen om dynamisch geheugentoegang aan te passen aan tussentijds bewijs dat tijdens inferentie wordt ontdekt. Om deze kloof te overbruggen, stellen we MRAgent voor, een raamwerk dat een associatieve geheugengrafiek combineert met een actief reconstructiemechanisme. We representeren geheugen als een Cue-Tag-Content-grafiek, waarbij associatieve tags dienen als semantische bruggen die fijnmazige aanwijzingen verbinden met geheugeninhoud. Werkend op deze structuur integreert ons actieve reconstructiemechanisme LLM-redeneren direct in geheugentoegang, waardoor de agent iteratief ophaalpaden kan verkennen en snoeien op basis van opgebouwd bewijs. Dit zorgt ervoor dat geheugenophaling dynamisch wordt aangepast aan de redeneercontext, terwijl combinatorische explosie door onbeperkte uitbreiding wordt vermeden. Experimenten op de LoCoMo-benchmark en LongMemEval-benchmark tonen significante verbeteringen aan ten opzichte van sterke basislijnen (tot 23%), terwijl de token- en rekentijdkosten aanzienlijk worden verminderd, wat de effectiviteit benadrukt van actieve en associatieve reconstructie voor geheugenredeneren over lange termijn.
Grote Taalmodellen (LLMs) ondergaan een fundamentele transformatie van conversationele generatoren naar geïntegreerde AI-systemen die in staat zijn tot redeneren, handelen, geheugen en zelfverbetering. Wij conceptualiseren deze overgang als een verschuiving van Chatbot naar Digitale Collega: van conversationele antwoorden naar blijvend werk. We ordenen deze overgang langs twee nauw verbonden dimensies. Ten eerste, op het niveau van de cognitieve kern, evolueren LLMs van "snel denken"-systemen uit het Chatbot-tijdperk, aangedreven door volgende-tokenvoorspelling, naar Denkende LLMs die gebruikmaken van inferentietijdberekening, Chain-of-Thought-redenering, reflectie, procesbegeleiding en reinforcement learning om een meer doordachte en betrouwbare cognitie te ondersteunen. Ten tweede, op het niveau van taakuitvoering met gereedschapsondersteuning, vorderen LLMs van tool-aanroepende Agents die ad hoc externe bronnen inschakelen naar OpenClaw-achtige werkstationsystemen (OpenClaw), uitgerust met blijvende Werkruimten, Vaardigheden, verificatielussen en governance. Het "Werkruimte + Vaardigheid"-paradigma maakt episodisch toolgebruik collega-achtig door toestandspersistentie, herbruikbare procedures, taakafronding en hergebruik van ervaring. We onderzoeken verschuivingen in dataconstructie van instructie-antwoordparen naar toestand-actie-waarnemingstrajecten en evaluatie van statische benchmarks naar afgeschermde, controleerbare, zelfevoluerende AI-ecosystemen.
Het recente succes van agentenzwermen heeft het paradigma van op grote taalmodellen (LLM) gebaseerde agenten verschoven van single-agent workflows naar multi-agentsystemen, waarbij het belang van agentorchestratie voor taakdecompositie en samenwerking wordt benadrukt. Bestaande orkestratieframeworks zijn echter beperkt tot een kleine set modaliteiten en kunnen moeilijk generaliseren naar complexere omgevingen waarin heterogene modaliteiten naast elkaar bestaan en interageren. Deze beperking wordt met name duidelijk in omnimodale scenario's, waar taken een uniform begrip en coördinatie vereisen van uiteenlopende inputs zoals tekst, beeld, audio en video. In dit werk introduceren we Orchestra-o1, een omnimodaal agentorkestratieframework dat is ontworpen om efficiënte agentsamenwerking over meerdere modaliteiten te ondersteunen. Orchestra-o1 introduceert een uniform orkestratiemechanisme dat modaliteitsbewuste taakdecompositie, online sub-agentspecialisatie en parallelle subtaakuitvoering mogelijk maakt. Dit schaalbare ontwerp stelt agentsystemen in staat om effectief complexe real-world taken met heterogene informatiebronnen aan te pakken, waarbij het de op één na beste benadering met 10,3% nauwkeurigheid overtreft op de OmniGAIA-benchmark. Verder introduceren we decision-aligned group relative policy optimization (DA-GRPO), een efficiënte agentische reinforcement learning-benadering voor het trainen van Orchestra-o1-8B, die ook state-of-the-art prestaties behaalt ten opzichte van alle bestaande open-source omnimodale agenten.
De prestaties van AI-agenten zijn in hoge mate afhankelijk van de runtime-harness, bestaande uit de prompts, tools, geheugen en control flow die mediëren hoe een model waarneemt, redeneert en handelt. Toch blijven de hedendaagse harnesses grotendeels met de hand gemaakt en statisch: elk nieuw model of elke nieuwe taak vereist nog steeds maatwerk-scaffolding, en de rijke traces die tijdens de uitvoering worden geproduceerd, worden zelden gedistilleerd tot systematische verbetering. We introduceren HarnessX, een gieterij voor composable, adaptieve en evolueerbare agent-harnesses. HarnessX assembleert getypeerde harness-primitieven via een substitutie-algebra, past ze aan via AEGIS, een trace-gedreven multi-agent-evolutiemotor die is gebaseerd op een operationele spiegel tussen symbolische adaptatie en reinforcement learning, en sluit de harness-model-lus door trajecten om te zetten in zowel harness-updates als modeltrainingssignaal. Over vijf benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench en SWE-bench Verified) levert HarnessX een gemiddelde winst van +14,5% (tot +44,0%), waarbij de winsten het grootst zijn waar de baselines het laagst zijn. Deze resultaten suggereren dat vooruitgang van agenten niet alleen uit modelschaling hoeft te komen: het samenstellen en evolueren van runtime-interfaces op basis van uitvoeringsfeedback is een uitvoerbare en complementaire hefboom. De volledige codebase zal in een toekomstige release als open source worden uitgebracht.
Retrieval-versterkte generatie beweegt zich voorbij tekst naar lange, egocentrische video's, waar systemen query-relevante chunks moeten selecteren over meerdere modaliteiten en temporele granulariteiten heen. De vooruitgang in VideoRAG wordt echter beperkt door twee hiaten: bestaande benchmarks maken het mogelijk om queries te beantwoorden zonder de video, waardoor retrievalfouten worden verhuld, en eerdere methoden passen per query een enkele modaliteit-granulariteitconfiguratie toe, waarbij chunkniveau-variabiliteit wordt genegeerd. Wij pakken beide aan door V-RAGBench te introduceren, een benchmark van 〈query, bewijschunk, antwoord〉-tripletten die een getrouwe, ontkoppelde evaluatie van retrieval en generatie mogelijk maakt, en CARVE, een eenvoudige methode die parallelle retrievers over configuraties heen uitvoert en chunk-adaptieve herrangschikking toepast om de winnende configuratie voor elke chunk te identificeren. Elke chunk komt vervolgens in de generator terecht onder zijn tijdens de retrieval geselecteerde winnende configuratie, wat resulteert in een door elkaar gehusselde bewijsvorm waarbij de chunkniveau-beslissing door beide fasen heen wordt doorgegeven. CARVE presteert beter dan acht recente VideoRAG-baselines, waarbij de aan de generator geleverde chunks meerdere configuraties door elkaar husselen in plaats van een enkele te delen, een gedrag dat onbereikbaar is voor queryniveau-methoden.
Huidige geautomatiseerde pijplijnen voor audiovisuele vraagbeantwoording (QA) hanteren over het algemeen een 'video-onderschrift-QA'-paradigma. Deze methoden segmenteren video's echter typisch in korte clips en genereren aparte beschrijvingen voor de auditieve en visuele modaliteiten. Deze ontkoppelde verwerking verbreekt inherente associaties tussen geluiden en hun visuele bronnen, terwijl onafhankelijke clipverwerking vaak inconsistente beschrijvingen van dezelfde entiteit over segmenten heen veroorzaakt. Bovendien beperkt het koppelen van begrip van lange teksten en QA-synthese in één stap modellen vaak tot gelokaliseerde gebeurtenissen, wat resulteert in vragen die geen langdurige temporele verbanden en diepe crossmodale redenering bevatten. Om deze problemen aan te pakken, stellen we een geautomatiseerde data-engine voor met twee mechanismen: (1) Entiteit-Gebaseerde Video Scripting zet video's om in gestructureerde scripts, bestaande uit samenvattingen, lijsten van hoofdentiteiten en segmentgewijze audiovisuele beschrijvingen. De entiteitenlijst fungeert als een globale prior om cross-segment referentiële consistentie te waarborgen en audiovisuele associaties te reconstrueren. (2) Aanwijzing-Gestuurde QA Generatie stimuleert modellen om eerst cross-segment, multimodale aanwijzingen uit het script te halen en vervolgens QA-paren te genereren op basis van deze hoogwaardige aanwijzingen. Met behulp van deze pijplijn construeren we de instructie-afstemmingsdataset OmniVideo-100K en een door mensen geverifieerde testset, OmniVideo-Test. Het fine-tunen van VITA-1.5, Qwen2.5-Omni-7B en Qwen3-Omni-30B op OmniVideo-100K levert prestatieverbeteringen op van tot 20,59% op OmniVideo-Test, wat sterke generalisatie aantoont (tot 12,64% verbeteringen) op gevestigde benchmarks zoals Daily-Omni en JointAVBench.
Gedurende het laatste decennium is het bouwen van kunstmatige algemene intelligentie op menselijk niveau verschoven van vergezochte speculatie naar een concreet doel voor het komende decennium voor veel van de grootste AI-organisaties. Het bereiken van dit doel zou diepgaande en verstrekkende gevolgen hebben voor de menselijke samenleving, wat veel complexe vragen oproept voor het komende decennium. Dit rapport onderzoekt hoe AI zelf zich verder zou kunnen ontwikkelen in een post-AGI-wereld langs het continuüm van machine-intelligentie. Het eindpunt van dit continuüm, Universele AI, is theoretisch goed begrepen, wat een formele basis biedt voor de hoofdfocus van dit rapport: de overgang van AGI op menselijk niveau naar kunstmatige algemene superintelligentie (ASI), die intuïtief kan worden begrepen als een systeem dat intelligenter en cognitief vaardiger is dan grote organisaties van mensen. Na het karakteriseren van ASI bespreekt het rapport vier mogelijke paden van AGI naar ASI: het opschalen van AGI, paradigmaverschuivingen in AI, recursieve verbetering, en ASI die ontstaat uit grootschalige multi-agentcollectieven. Vervolgens bespreekt het rapport mogelijke fricties en knelpunten langs deze paden. Het bepalen of de impact van deze fricties verwaarloosbaar of substantieel zal zijn, roept een aantal concrete open onderzoeksvragen op. Vanwege grote onzekerheden bij het voorspellen van ASI-vooruitgang kan niet worden uitgesloten dat de AI-vooruitgang de komende jaren nog verder zal versnellen. Dit zou kunnen impliceren dat het beeld van een enkele transformatieve stapverandering, veroorzaakt door de introductie van AGI op menselijk niveau in onze samenleving, onjuist zou kunnen zijn. Meer geschikt zou het vooruitzicht kunnen zijn van een reeks transformatieve maatschappelijke veranderingen die worden veroorzaakt door AI-gestuurde vooruitgang en doorbraken op vele gebieden van wetenschap en technologie. Voorbereiding op dit vooruitzicht vereist een enorm interdisciplinaire inspanning van wereldwijde omvang en belang.
We identificeren een nieuwe dimensie voor het verbeteren van rollout-diversiteit in Group Relative Policy Optimization (GRPO) voor LLM's. Hoewel GRPO afhankelijk is van diverse rollouts, vergroten gangbare strategieën diversiteit voornamelijk door meer token-niveau willekeur te injecteren, wat stapsgewijze ruis kan introduceren en tot onsamenhangende trajecten kan leiden. We ontdekken dat kleinere modellen binnen dezelfde modelfamilie inherent een hogere beleidsniveau diversiteit vertonen, aangegeven door hun superieure pass@k ten opzichte van grotere tegenhangers naarmate het aantal samples toeneemt. In tegenstelling tot token-niveau ruis is deze diversiteit temporeel gecorreleerd, behoudt ze logische consistentie en biedt ze gestructureerde exploratiesignalen voor gradiëntschatting. We stellen daarom S2L-PO (Small-to-Large Policy Optimization) voor, een raamwerk dat vaste kleine modellen als natuurlijke explorers gebruikt om grotere modellen te trainen. Om exploratie en exploitatie in balans te brengen, ontwerpen we een progressieve uitgloeistrategie die overgaat van offline kleine-model rollouts naar de eigen sampling van de grote lerende. Deze verschuiving vermijdt elegant prestatieverliezen tijdens de training veroorzaakt door de capaciteitsbeperkingen van het kleine model, wat leidt tot snellere convergentie en een hogere prestatiedrempel. S2L-PO verbetert de nauwkeurigheid op diverse wiskundige redeneerbenchmarks (bijv. +8,8% op AIME 24 met een 1,7B explorer om het 8B-model te begeleiden) terwijl de rollout-berekening wordt verminderd.
Grote taalmodellen (LLMs) voeren inferentie uit door een vaste diepte en volgorde te volgen, met een niet-recurrente uitvoering van alle lagen. Wij onthullen het wijdverbreide bestaan van trainingsvrije, flexibele, dynamische programma-van-lagen (PoLar), waarbij voorgetrainde lagen als modules kunnen worden verpakt en vervolgens worden overgeslagen of herhaald om voor elke invoer een gepersonaliseerd programma te vormen. Voor de meeste invoeren kunnen aanzienlijk kortere programma-uitvoeringen dezelfde of betere nauwkeurigheid bereiken, terwijl onjuiste voorspellingen van het oorspronkelijke LLM kunnen worden gecorrigeerd door alternatieve programma's met minder lagen. Deze observaties geven aan dat inferentie meerdere geldige latente berekeningen toelaat, naast de standaard forward pass. Om PoLar in de praktijk efficiënt te bereiken, stellen we een lichtgewicht PoLar-voorspellingsnetwerk voor dat leert om uitvoeringsprogramma's te genereren die dynamisch voorgetrainde lagen overslaan of herhalen voor elke invoer. Experimenten op wiskundige redeneerbenchmarks tonen aan dat PoLar consequent de nauwkeurigheid verbetert ten opzichte van standaard inferentie en eerdere dynamische-dieptemethoden, vaak terwijl er minder lagen worden uitgevoerd, en dat deze winsten standhouden bij evaluatie buiten de verdeling. Onze resultaten suggereren dat uitvoering met vaste diepte slechts een beperkte subset van de latente redeneercapaciteit van een LLM vastlegt.
Grote taalmodellen (LLM's) behalen nu expertniveauscores op medische licentietoetsen, wat de veronderstelling aanmoedigt dat hoge scores duiden op veilig medisch oordeelsvermogen, terwijl patiënten ze steeds vaker gebruiken voor gezondheidsadvies. Wij tonen aan dat deze veronderstelling fragiel is: wanneer misleidende context wordt ingebracht in vragen die LLM's oorspronkelijk correct beantwoorden, laten zij het juiste antwoord varen. Wij noemen het vermogen om correct oordeelsvermogen te behouden onder misleidende context 'epistemische veerkracht' en introduceren MedMisBench om dit te meten. MedMisBench bevat 10.932 medische vraagitems en 48.889 paren van misleidende context en opties, die medische redenering, agentische capaciteit en evaluatie van het patiënttraject bestrijken. Over 11 modelconfiguraties daalt de gemiddelde nauwkeurigheid van 71,1% op oorspronkelijke vragen naar 38,0% onder gerichte misleidende context, met 51,5% aanvalssucces. De meest schadelijke injecties zijn formele, regelachtige verzinsels: autoritair ingekaderde onwaarheden bereiken 69,5% aanvalssucces en uitzonderingsvergiftigingsclaims bereiken 64,1%. Een klinisch panel van 14 leden uit 7 landen identificeerde ernstige potentiële schade in 38,2% van de beoordeelde gevallen. MedMisBench legt een structurele blinde vlek bloot in de evaluatie van LLM's in medische omgevingen: bestaande benchmarks meten wat modellen weten, maar niet of ze correct medisch oordeelsvermogen behouden onder misleidende context.
Gebruikers vertrouwen op uitvoeringssporen om agentgedrag te observeren, fouten te diagnosticeren en verantwoording af te leggen. Deze sporen bevatten rijke procedurele details, waaronder toolaanroepen, tussentijdse beslissingen en foutherstel logica. Dit detail kan echter privé procedurele vaardigheden blootleggen, waardoor stroomafwaartse methoden belangrijke formules, drempelwaarden en strategieën kunnen herstellen zonder toegang tot modelgewichten of vaardigheidsbestanden. Om dit risico te kwantificeren en bescherming te evalueren, construeren we CapTraceBench, een benchmark van 75 gespecialiseerde langetermijnstaken en 154 samengestelde vaardigheden over zeven domeinen. We introduceren ook RedAct https://github.com/XuShuwenn/RedAct, een raamwerk voor beveiligde vrijgave van sporen dat beschermde sleutelinformatie lokaliseert, sporen herschrijft terwijl verifier-kritisch bewijs behouden blijft, en gedragswatermerken inbedt voor stroomafwaartse herkomstanlyse. Over representatieve spoorhergebruikmethoden vermindert RedAct de genormaliseerde vaardigheidsoverdracht (NST) van 44,7–67,1% op ruwe sporen tot onder de vaardigheidsloze basislijn, terwijl auditevidence behouden blijft. De op zichzelf staande gedragswatermerken bereiken 93,6–100,0% echte detectie met een vals-alarmpercentage van maximaal 1,9%. Deze resultaten framen publieke agentsporen als beveiligingsinterfaces en tonen aan dat selectieve redactie procedurele capaciteitslekkage kan verminderen zonder auditevidence te verwijderen.
Codeeragenten die worden aangedreven door grote taalmodellen hebben sterke prestaties laten zien op het gebied van software-engineeringtaken. Toch gebruiken de meeste agenten repositories bijna uitsluitend als tekst, wat verschilt van hoe menselijke ontwikkelaars visuele structuur, zoals maphiërarchieën en afhankelijkheidsrelaties, gebruiken om zich te oriënteren in grote codebases. Met multimodale grote taalmodellen (MLLMs) is het een open vraag of agenten effectief kunnen profiteren van visuele representaties van repositories. Dit artikel presenteert de eerste systematische empirische studie van visuele repository-representaties voor LLM-gebaseerde agenten bij issue-oplossing op repository-niveau. We evalueren vier recente multimodale modellen. Onze resultaten tonen aan dat een strikt visueel-only opzet de nauwkeurigheid vermindert en de tokencost verhoogt, omdat agenten onvoldoende symbolisch detail hebben en dit compenseren met herhaalde visuele queries. Daarentegen helpt het integreren van visuele grafen van de repositorystructuur als een aanvullende modaliteit naast standaard tekstinterfaces agenten om de structuur efficiënter te begrijpen: de invoer-tokenconsumptie daalt met tot 26%, terwijl de nauwkeurigheid van issue-oplossing behouden blijft of verbetert. Visualisatie is het meest nuttig tijdens foutlokalisatie en wanneer de agent autonoom de exploratiediepte controleert. Deze bevindingen wijzen op een praktisch hybride tekst-en-visie ontwerp voor de volgende generatie codeeragenten.
Grote taalmodellen (LLM's) worden veelvuldig gebruikt in tekst-naar-beeld (T2I) systemen, maar zijn doorgaans beperkt tot tekstcodering, terwijl het denoising wordt uitgevoerd door nieuw getrainde generatieve backbones. De opkomst van representatie-autoencoders (RAE's) verschuift het generatiedoel naar semantisch gestructureerde visuele representaties, waardoor een latente ruimte ontstaat die compatibeler is met voorgetrainde LLM-priors. Inspiratie nemend uit multimodale LLM's (MLLM's), waarbij een MLP-projector volstaat om schone visuele representaties uit te lijnen met een voorgetraind LLM, hergebruiken we de MLLM zelf als een ruizige representatie-encoder, en breiden we dit mechanisme uit van schone naar ruizige invoer. We presenteren RepFusion, dat de resulterende MLLM-uitvoer gebruikt als conditionering voor een diffusietransformator. In gecontroleerde vergelijkingen met vergelijkbare inferentiebudgetten presteert RepFusion beter dan baselines die vergelijkbare capaciteit toewijzen aan nieuw geïnitialiseerde denoisers. Deze resultaten tonen aan dat MLLM's sterke priors bieden voor het denoising van visuele representaties en dat, door conditionering op evoluerende ruizige representaties, testtijdberekening productief kan worden besteed aan herhaalde MLLM-conditionering in moderne T2I-systemen.
Belichaamde wereldmodellen zijn naar voren gekomen als een centraal paradigma voor visuele robotbesluitvorming en interactieve simulatie van omgevingen. Echter, conventionele belichaamde raamwerken zijn afhankelijk van laagdimensionale gestructureerde actievectoren (bijvoorbeeld gewrichtshoeken en eindeffector-posities), die lijden onder een beperkte expressieve capaciteit, slechte generalisatie over diverse belichamingen, en onnatuurlijke dynamische modellering voor complexe fysieke interacties. Om deze beperkingen aan te pakken, stelt dit artikel iMac (Image as Action Control) voor, een nieuw uniform besturingsparadigma dat onbewerkte visuele beelden behandelt als natuura actie-representaties voor belichaamde wereldmodellen. In tegenstelling tot traditionele expliciete kinematische actiecodering, formuleert iMac continue visuele manipulatie als beeldgebaseerde actietokens, die inherent ruimtelijke bewegingsintenties, interactieve geometrische beperkingen en subtiele fysieke dynamiek omvatten. We construeren een tweesporige belichaamde architectuur bestaande uit een beeld-actie-encoder en een dynamische wereldvoorspeller: de encoder comprimeert doelgestuurde visuele beelden tot compacte actie-inbeddingen, terwijl de voorspeller omgevingstransitieregels leert die zijn geconditioneerd op beeldacties om getrouwe toekomsttoestandvoorspelling en gesloten-lus belichaamde besturing te bereiken. Uitgebreide experimenten zijn uitgevoerd op openbare belichaamde manipulatiebenchmarks en robotscenario’s in de echte wereld. De resultaten tonen aan dat iMac op basis van vectoractie besturingsbaselines presteert op het gebied van voorspellingsnauwkeurigheid, taaksuccespercentage en cross-scene generalisatievermogen. Bovendien elimineert ons beeld-actie-ontwerp de afhankelijkheid van handmatig gedefinieerde actieruimtes, wat flexibele en universele besturing voor heterogene belichaamde agenten mogelijk maakt. Dit werk biedt een innovatief visueel-actieperspectief voor belichaamde wereldmodellen, en levert een eenvoudig maar effectief paradigma voor schaalbare robotperceptie en -manipulatie.
In dit rapport presenteren we Hy-Embodied-0.5-VLA, afgekort als HyVLA-0.5, een end-to-end systeem dat de volledige robotleerstapel omvat: gegevensverzameling, modelontwerp, voortgezette pre-training en gesuperviseerde fine-tuning, RL-natraining en implementatie in de echte wereld. Elk onderdeel speelt een specifieke rol in deze stapel.
Moderne Lean-stellingbewijzers behalen sterke prestaties alleen met aanzienlijke rekenkracht voor training en inferentie, deels gedreven door schaarse geverifieerde bewijsdata en de lange redeneersporen van formeel bewijszoeken, waardoor zowel gesuperviseerde fijnafstelling (SFT) als bemonstering duur worden. Wij introduceren Pythagoras-Prover, een rekenefficiënte open-sourcefamilie van Lean-stellingbewijzers, gebouwd voor praktische rekenbudgetten. De familie omvat twee generatieparadigma’s: autoregressieve modellen met 4B en 32B parameters, en een eerste proof-of-concept diffusiegebaseerde bewijzer (4B) die tijdens inferentie iteratief Lean-bewijzen verfijnt. Voor trainingsefficiëntie bouwen we een Lean-geverifieerd corpus, gestratificeerd in eenvoudige, middelmatige en moeilijke problemen voor curriculum SFT, zodat modellen progressief bewijsvaardigheden verwerven van kortere, eenvoudigere bewijzen naar langere, moeilijkere. Tijdens SFT behoudt een dynamisch filteringsschema voor bewijsredeneringen informatieve bewijssporen, terwijl elk exemplaar binnen een contextbudget van 8k tokens blijft. We introduceren ook Augmented Lean Formalisation (ALF), dat schaarse geverifieerde corpora uitbreidt tot varianten van formele beweringen, gevuld via zelfdistillatie voor extra trainingssignaal zonder elke gemuteerde instantie formeel te verifiëren. Door bekende problemen te verstoren terwijl hun formele karakter behouden blijft, vermindert ALF de afhankelijkheid van de oppervlaktevorm van een bewering. Empirisch overtreft Pythagoras-Prover-4B DeepSeek-Prover-V2-671B bij pass@32 op MiniF2F-Test (86,1% versus 82,4%) met ~167x minder parameters, terwijl Pythagoras-Prover-32B de open-source stand der techniek vestigt op 93,0% op MiniF2F-Test en 93 van de 672 PutnamBench-problemen oplost. We brengen MiniF2F-ALF uit, een ALF-gemuteerde contaminatiegevoelige benchmark waarop elk geëvalueerd model aan nauwkeurigheid inboet; hier blijft onze 32B het sterkst en evenaart onze 4B de eerdere stand der techniek, Goedel-Prover-V2-32B.
Naarmate AI-gegenereerde beoordelingen overgaan van experimentele hulpmiddelen naar peer-review-infrastructuur, hebben de meeste zorgen over robuustheid zich gericht op expliciete aanvallen zoals verborgen instructies en promptinjectie. Wij bestuderen een moeilijkere en meer beleidsrelevante faalwijze: geen verborgen tekst, geen promptinjectie en geen wijzigingen in methoden, experimenten, figuren, vergelijkingen, bewijzen of numerieke resultaten. De aanvaller wijzigt alleen presentatie-inhoud, zoals de samenvatting, de framing van de bijdrage, gerelateerd werk, discussie en narratieve structuur. We introduceren adversariële herverpakking: een gesloten-lus aanval die AI-beoordelaarfeedback gebruikt om te zoeken naar presentatie-level herzieningen terwijl het wetenschappelijke bewijs vast blijft. Over drie gangbare AI-beoordelaars heen behaalt adversariële herverpakking een aanvalsuccespercentage van 75,1% en een gemiddelde scoresstijging van +1,21/10. Het effect wordt niet verklaard door gewone tekstpolijsting. We onthullen ook dat strategieën die veranderen hoe de beoordelaar het artikel interpreteert, zoals herpositionering van gerelateerd werk en uitbreiding van analytische discussie, aanzienlijk beter presteren dan oppervlakkige bewerkingen zoals lokale polijsting, tabelopmaak en algoritmekaders. Onze analyse onthult twee diepere structurele faalwijzen. Ten eerste zijn AI-beoordelaars gemakkelijker te imponeren dan te overtuigen: het benadrukken van sterke punten verhoogt consequent de waargenomen verdienste, terwijl pogingen om zwakheden te ontbinden vaak averechts werken. Ten tweede kunnen AI-beoordelaars de schijn van het aanpakken van een beperking verwarren met het daadwerkelijk oplossen ervan, waardoor ongewijzigd bewijs kan worden geherinterpreteerd als een sterkere wetenschappelijke bijdrage. Deze resultaten tonen aan dat het implementatierisico niet alleen bestaat uit kwaadaardige verborgen instructies, maar uit de opkomst van het artikelpresentatie zelf als optimalisatieoppervlak. We publiceren een verontreinigingsvrije rollende benchmark en aanvalsframework om te testen of AI-beoordelaars onder presentatie-only bewerkingen verankerd blijven aan wetenschappelijke inhoud.
Bij het toepassen van Groepsrelatief Beleidsoptimalisatie (GRPO) voor GUI-verankering worden rollouts gesampled uit een enkele schermafbeeldingweergave; groepen worden vaak ofwel allemaal mislukkingen op moeilijke voorbeelden of allemaal successen op makkelijke, wat geen nuttig relatief voordeel oplevert. Wij stellen VISTA (View-Consistent Self-Verified Training) voor, een op GRPO gebaseerd trainingsraamwerk dat elke vergelijkingsgroep construeert uit meerdere doelbehoudende weergaven van dezelfde GUI-instantie. Elke weergave wordt gegenereerd door een uitsnede die het doelelement zichtbaar houdt en zijn kader exact herleidt, zodat modelrollouts worden vergeleken over semantisch equivalente maar geometrisch verschillende inputs. Om korte coördinaatgeneratie te stabiliseren zonder reinforcement learning om te zetten in onvoorwaardelijke imitatie, voegt VISTA bovendien een zelfgeverifieerd cross-weergave anker toe: een orakelantwoord geoptimaliseerd met een voordeelgewogen verlies, uitgesloten van de groepsbasislijn en alleen geactiveerd wanneer het model een maximale beloningsuitrol heeft geproduceerd. Over vijf GUI-verankeringsbenchmarks en meerdere Qwen-backbones verbetert VISTA consequent de verankeringsnauwkeurigheid. Op ScreenSpot-Pro verhoogt het Qwen3-VL 4B/8B/30B-A3B van 55,5/52,7/53,7 naar 63,4/65,8/67,0. Robuustheidsanalyses tonen verder een hogere slechtste-weergave nauwkeurigheid en lagere voorspellingsomkeerpercentages.
Recente vooruitgang in videogebaseerde wereldmodellen heeft een ongekend vermogen getoond om visuele sequenties van hoge kwaliteit te synthetiseren. Er blijft echter een fundamentele kloof bestaan tussen visueel plausibele videogeneratie en de functionele vereisten van een wereldmodel, met name wat betreft het handhaven van een stabiele en redelijke interne toestand over langere tijdsperioden. Hoewel bestaande benchmarks zich voornamelijk richten op visuele kwaliteit, bewegingscoherentie en tekst-video-afstemming, negeren ze grotendeels het geheugen, de kerncapaciteit van een wereldmodel om consistentie te behouden over lange termijnhorizonten en complexe interacties. Om deze kloof te overbruggen, presenteren we MBench, een uitgebreide benchmark die is gewijd aan het kwantificeren en evalueren van de geheugencapaciteit van videowereldmodellen. We ontleden de geheugencapaciteit van videowereldmodellen systematisch in drie hiërarchische en complementaire kerndimensies: entiteitsconsistentie, omgevingsconsistentie en causale consistentie, die verder worden verfijnd tot 12 kwantificeerbare subdimensies voor een uitgebreide karakterisering van het langetermijngeheugen. Onze benchmark is gebaseerd op zorgvuldig samengestelde, echt opgenomen lange video's en wordt geëvalueerd met behulp van regelgebaseerde kwantitatieve matrices en VLM om een objectieve en uitgebreide consistentiebeoordeling mogelijk te maken. Uitgebreide evaluaties van gangbare state-of-the-art videowereldmodellen onthullen kritieke systeembeperkingen van bestaande methoden bij het behouden van de toestand op lange termijn, wat een gestandaardiseerde benchmark en een duidelijke onderzoeksrichting biedt om het veld vooruit te helpen.
Wereldmodellen die vastleggen hoe acties fysieke veranderingen teweegbrengen, maken schaalbaar robotleren mogelijk zonder afhankelijk te zijn van belichaamingsspecifieke actielabels. Pixel-ruimte videomodellen bieden brede visuele voorkennis, maar besteden modelcapaciteit aan dichte verschijningsreconstructie, terwijl directe actiemodellen belichaamingsspecifieke labels vereisen die de schaalbaarheid belemmeren. We presenteren μ_0, een schaalbaar wereldmodel gebaseerd op 3D-sporen. In plaats van dichte pixels te voorspellen of acties direct te modelleren, voorspelt μ_0 vloeiende 3D-trajecten voor opvallende interactiepunten zoals objecten, gereedschappen, handen en contactregio's, wat resulteert in een compacte, belichaamingsagnostische bewegingsinterface. Om training uit diverse videobronnen mogelijk te maken, extraheert ons TraceExtract-systeem automatisch 3D-supervisie door keypoints te selecteren, globaal uitgelijnde sporen te construeren en bewegingssegmenten te associëren met hiërarchische taalonderschriften. Deze TraceExtract-supervisie traint μ_0 vooraf door een voorgetraind visie-taal-backbone te combineren met een modulaire sporenexpert, die elke query representeert via B-spline-controlepunten en toekomstige sporen voorspelt. Experimenten tonen aan dat μ_0 beter presteert dan baselines in zowel 2D- als 3D-spoorvoorspelling, inclusief spoorvoorspellingsmodellen en getokeniseerde VLM-methoden. Omdat μ_0 bevroren en herbruikbaar is, kan het worden gekoppeld aan actie-experts voor stroomafwaartse robotbelichamingen. Ondanks actievrije voortraining presteren de resulterende spoorgeconditioneerde beleidsregels concurrerend met VLA-modellen die zijn voortgetraind met actiesupervisie, zoals π_0. Deze resultaten vestigen 3D-sporen als een schaalbare en overdraagbare representatie voor cross-embodiment-manipulatie.
Naarmate AI-systemen die bestaan uit meerdere taalmodellen als agenten gebruikelijker worden, worden ze steeds vaker ingezet om gezamenlijk beslissingen te nemen: overleggen, onderhandelen en handelen aan gedeelde taken. Hoewel individuele agenten bij aparte tests goed afgestemd kunnen lijken, kunnen er problemen ontstaan door de manier waarop ze met elkaar interacteren. We introduceren de Arbiter, een agent die ontworpen is om multi-agent-gesprekken in realtime te monitoren en te identificeren welke deelnemers zich mogelijk op niet-afgestemde wijze gedragen. De Arbiter werkt onder een beperkt 'inspectiebudget', wat betekent dat hij zorgvuldig moet beslissen hoe hij zijn middelen inzet. Terwijl hij een gesprek stap voor stap observeert, kan hij kiezen om te wachten, een deelnemer te bevragen, interne informatie zoals systeemprompts of redeneersporen te onderzoeken, of zorgwekkend gedrag te loggen. Aan het einde stelt hij een rapport op dat de waarschijnlijke bron van niet-afstemming identificeert. We evalueren de Arbiter over vijf gesprekscondities, variërend van risicovolle financiële adviesmodelorganismen tot evaluatiebewuste en samenspannende agenten, en testen vijf toolconfiguraties met toenemende capaciteit en twee backbone-modellen. We vinden dat de Arbiter betrouwbaar niet-afgestemde agenten detecteert ruim voor het einde van het gesprek, waarbij actieve inspectietools zowel de detectienauwkeurigheid als -snelheid verbeteren. Gewichtsgeïnduceerde niet-afstemming blijkt het moeilijkst te detecteren, terwijl instructiegeïnduceerde niet-afstemming zelfs onder passieve observatie betrouwbaar wordt geïdentificeerd. De loggingtool vertoont een dubbel effect: het verbetert de recall ten koste van de precisie. Deze resultaten suggereren dat voortdurend, budgetbewust toezicht effectief niet-afstemming kan opvangen, en dat het toezicht op multi-agentsystemen vereist dat de auditor als een actieve deelnemer in het proces wordt behandeld. De code is beschikbaar op https://github.com/aisilab/arbiter.
Het genereren van avatarvideo's die niet alleen visueel lijken op een doelpersoon, maar ook gedragsmatig herkenbaar zijn, door hun spreekritme, gebarentendensen en expressiedynamiek getrouw na te bootsen, blijft een openstaande uitdaging. Bestaande methoden conditioneren voornamelijk op enkele statische afbeeldingen, die onvoldoende identiteitsinformatie bieden en dynamische bewegingskenmerken niet kunnen vastleggen, terwijl standaard pixelgebaseerde doelfuncties de perceptueel cruciale gezichtsregio's die de avatar-getrouwheid bepalen, onderbedienen. Wij presenteren Avatar V, een productieschaal raamwerk dat deze beperkingen aanpakt door middel van videoreferentie-geconditioneerde identiteitsmodellering. In plaats van identiteit te comprimeren tot embeddings van vaste grootte, conditioneert het model direct op de volledige tokenreeks van een referentievideo, waarbij het leert zowel statische identiteitskenmerken (gezichtsgeometrie, huidtextuur) als dynamische gedragspatronen (spreekritme, micro-expressies) te reproduceren door middel van aandacht over de referentiecontext. Wij introduceren Sparse Reference Attention, een asymmetrisch mechanisme dat conditionering met lineaire complexiteit op willekeurig lange referenties bereikt; een bewegingsrepresentatiestroom die gesloten-lus spreekstijloverdracht mogelijk maakt; en een identiteitsbewuste superresolutie-verfijner die de volledige referentieconditionering erft. Deze worden ondersteund door een data-engine die 100M+ trainingsclips uit 50M ruwe video's cureert, en een vijf fasen trainingspijplijn met flow matching pre-training, persoonlijkheidsfine-tuning, tweefasige distillatie (>10x versnelling) en RLHF-afstemming, uitgerold over duizenden GPU's. Avatar V genereert 1080p-video's van onbeperkte duur, behaalt state-of-the-art identiteitsbehoud, lipsynchronisatie en generatiekwaliteit op onze cross-scene benchmark, en presteert consistent beter dan toonaangevende systemen, waaronder Seedance 2.0, Kling O3 Pro, Veo 3.1 en OmniHuman 1.5, zowel in geautomatiseerde metrics als in menselijke evaluatie.
Videogeneratiemodellen gebaseerd op diffusie-transformatoren (DiTs) hebben opmerkelijke prestaties behaald in videosynthese, maar kampen met hoge inferentielatentie en rekenkosten als gevolg van de kwadratische complexiteit van 3D-aandacht. Bestaande versnellingsmethoden verminderen voornamelijk de rekencomplexiteit binnen individuele denoisingstappen door technieken zoals schaarse aandacht en KV-caching. Zij houden zich echter strikt aan de inherente beperking van de standaard diffusiepipeline: elk frame in de doelvideosequentie moet een volledig, dicht denoisingproces ondergaan gedurende alle diffusietijdstappen. Wij merken op dat, vanwege de corresponderende inhoud en bewegingen tussen aangrenzende frames, wanneer sleutelframes met kritieke semantische overgangen worden verankerd, de tussentoestanden van andere frames vaak voorspelbaardere trajecten volgen, wat erop wijst dat een dergelijk uniform, dicht denoisingproces inherent redundant is voor natuurlijke videodata. Hiertoe introduceren wij RhymeFlow, een trainingvrij raamwerk dat de denoisingtrajecten van verschillende frames ontkoppelt. Specifiek identificeren we eerst een schaarse set van cruciale sleutelframes die de latente semantische evolutie domineren. Vervolgens ondergaan alleen deze sleutelframes een dichte, stapsgewijze denoising om structurele integriteit te waarborgen, terwijl niet-sleutelframes stapsgewijs denoisingstappen overslaan om rekenkosten te minimaliseren. Aangezien overgeslagen tussentoestanden van niet-sleutelframes de temporele coherentie in denoisingstappen van sleutelframes doorbreken, wat leidt tot visuele degradatie, introduceren we verder een latente trajectprojectiemodule, die het mogelijk maakt dat sleutelframes interacteren met een volledige en temporeel consistente sequentierepresentatie. Uitgebreide experimenten op huidige DiT-gebaseerde videogeneratiemodellen tonen aan dat onze methode bestaande baselines overtreft met hogere inferentiesnelheid en betere visuele kwaliteit.
In Low-Rank Adaptation (LoRA) wordt de schaalfactor α vaak behandeld als een loutere aanvulling op de leersnelheid, maar de rol ervan in optimalisatie wordt nog steeds slecht begrepen. In dit artikel onthullen we dat de schaalfactor α en de leersnelheid verschillend functioneren, waarbij α naar voren komt als de dominante drijver van effectieve optimalisatie, die winsten oplevert die niet kunnen worden gerepliceerd door alleen de leersnelheid te schalen. Door de synergie van uitgebreide empirische analyse en een theoretisch Signaal-Drift raamwerk, ontdekken we drie bevindingen over het schaalmechanisme van LoRA: Ten eerste maakt LoRA's spectrale onderdrukking het optimalisatielandschap glad, waardoor standaard hyperparameters te conservatief worden en er een optimalisatiekloof ontstaat. Ten tweede, wanneer men deze gladheid benut om convergentie te versnellen, presteert α beter dan de leersnelheid door het taaksignaal te versterken zonder de driftverhouding te verhogen. Ten derde volgt de optimale schaalfactor een sublineaire relatie met de rang, goed gekarakteriseerd door een vierkantswortelwet met een onverwacht grote coëfficiënt, wat de onvoldoende schaling van bestaande rang-gebonden heuristieken onthult. Op basis van deze inzichten stellen we LoRA-α voor, een minimalistisch raamwerk dat α herstelt naar zijn principe-regime, waardoor LoRA compatibel wordt met standaard kleine leersnelheden. Uitgebreide evaluaties over diverse taken tonen aan dat LoRA-α consistent de prestaties verbetert terwijl het hyperparameteronderzoek stroomlijnt, waarmee het leerpotentieel van LoRA wordt ontketend.
Actiesturing biedt een lichtgewicht aanpak om het gedrag van taalmodellen tijdens inferentie te beheersen, maar of het slaagt of faalt hangt sterk af van de prompt, het concept, het model en de stuurconfiguratie. Het vinden van het regime en de grenzen van succesvolle sturing vereist doorgaans dure grid searches en post-hoc evaluatie van volledige autoregressieve rollouts. In dit werk onderzoeken we of stuurbaarheid kan worden voorspeld op basis van de interne toestanden van het model aan het begin van het generatieproces, bijvoorbeeld na het genereren van de eerste paar tokens, en hoe een dergelijke voorspeller kan worden gebruikt om het succespercentage van sturing te verbeteren. Hiertoe introduceren we eerst ASTEER, een testomgeving met 1,4 miljoen gestuurde generaties, verdeeld over 150 concepten, elk gelabeld als succes of mislukking van de sturing. Met behulp van deze testomgeving analyseren we de vroege decodeerdynamiek van het model door kenmerken te extraheren die verborgen toestanden voor en na sturing vergelijken over lagen en initiële decodeerstappen. Deze kenmerken helpen ons te begrijpen hoe de effecten van sturing zich voortplanten langs lagen en tokenposities, wat belangrijke informatie oplevert voor het voorspellen van stuurbaarheid. Vervolgens trainen we een Gradient Boosting Decision Trees (GBDT)-classificator op deze kenmerken om te voorspellen of een interventie zal ondersturen, slagen of oversturen, zonder dat een volledige rollout nodig is. Onze voorspeller behaalt een macro-F1-score van ongeveer 0,7 op ongeziene concepten, wat aantoont dat vroege verborgen toestanden aanzienlijke, gestructureerde informatie bevatten over de uiteindelijke effectiviteit van sturing. We gebruiken deze voorspeller van stuurbaarheid verder als leidraad voor het zoeken naar stuursterkte, waarmee we bijna optimale prestaties bereiken tegen een fractie van de decodeerkosten.
Het bouwen van betrouwbare medische multimodale grote taalmodellen (MMGT's) is van cruciaal belang voor betrouwbare klinische beslissingsondersteuning. Bestaande medische hallucinatiebenchmarks richten zich voornamelijk op gegevensverzameling, maar negeren vaak waar hallucinaties binnen het redeneerproces ontstaan. We constateren dat hallucinatiebronnen variëren per steekproef: fouten kunnen voortkomen uit visuele miskenning, onjuiste medische kennisherinnering of gebrekkige redeneerintegratie. Om diagnose op bronniveau mogelijk te maken, introduceren we ClinHallu, een benchmark voor stapsgewijze hallucinatiediagnose in medische MMGT-redenering. ClinHallu bevat 7.031 gevalideerde instanties, waarbij elke instantie is uitgebreid met een gestructureerd redeneertraject, opgesplitst in Visuele Herkenning, Kennis Recall en Redeneringsintegratie. We gebruiken ook fasevervangingsinterventies om te meten hoe het corrigeren van specifieke fasen het uiteindelijke antwoord beïnvloedt. Naast evaluatie tonen we aan dat trace-gesuperviseerde fijnafstemming stapsgewijze hallucinaties vermindert. ClinHallu biedt een gedetailleerd hallucinatie-testbed voor het diagnosticeren en mitigeren van redeneerfouten in medische MMGT's. De benchmark is openbaar beschikbaar op https://github.com/alibaba-damo-academy/ClinHallu.
Online groepsgesprekken zijn sociale ruimtes met lokale gespreksnormen die zelden expliciet worden vermeld. Het vermogen en de bereidheid van op LLM gebaseerde agenten om deze normen te herkennen en zich eraan aan te passen, blijft grotendeels onontgonnen. We introduceren LoSoNA, een benchmark voor aanpassing aan lokale sociale normen in meerpartijengesprekken. Elk scenario geeft een proefmodel een samengesteld transcript van een groepsgesprek waarin niet-proefdeelnemers een verborgen lokale norm demonstreren, gevolgd door een laatste uitlokkende beurt die een antwoord afdwingt dat onthult of het proefmodel die norm heeft afgeleid. We evalueren acht grensverleggende en opengewichtmodellen onder vier promptcondities die variëren in hoe expliciet het model wordt verteld om de eerdere conversatie te behandelen als bewijs voor hoe het moet antwoorden. Naïef prompten blijft beperkt voor de meeste modellen; expliciet normbewust prompten helpt ongelijkmatig, waarbij Gemini 3.1 Pro 84,2% haalt en Claude Fable 5 81,6%, terwijl verschillende andere modellen kleine winsten of terugval tonen. LoSoNA draagt bij aan recente oproepen om sociale capaciteiten van LLM's te evalueren door te testen of modellen lokale gespreksnormen uit precedenten kunnen afleiden en deze kunnen gebruiken in een eenmalige beurt in een groepsgesprek.
AI-agenten worden steeds vaker ontwikkeld om wetenschappelijke ontdekkingen te versnellen, maar hun praktische capaciteiten in echte onderzoeksomgevingen blijven slecht begrepen. Bestaande benchmarks voor AI-agenten vangen zelden de complexiteit, heterogeniteit en uitgebreide redenering die wetenschappelijk werk vereist, terwijl benchmarks voor wetenschappelijke taken onderzoek vaak reduceren tot statische, directe problemen en beperkte ondersteuning bieden voor interactieve evaluatie. Hier introduceren we SciAgentArena, een systematische benchmark voor het evalueren van AI-agenten in realistische wetenschappelijke onderzoeksscenario's, ontleend aan opkomende behoeften in meerdere domeinen. SciAgentArena omvat ongeveer 200 taken met stapsgewijze verificatie en een interactieve, agent-agnostische omgeving voor het beoordelen van diverse AI-agenten. Met behulp van deze benchmark vinden we dat huidige agenten effectief kunnen bijdragen aan goed gespecificeerde data-analyseworkflows, vooral wanneer de taakstructuur en evaluatiecriteria duidelijk zijn. Hun prestaties blijven echter ongelijkmatig over wetenschappelijke contexten: agenten hebben moeite met het genereren van werkelijk nieuwe inzichten, het volhouden van zelfgestuurde verkenning en het formuleren van robuuste oplossingen voor open onderzoeksvragen. We karakteriseren verder veelvoorkomende faalwijzen bij agenten en identificeren mogelijkheden om hun betrouwbaarheid, autonomie en wetenschappelijk redeneren te verbeteren. Samen biedt SciAgentArena een praktisch kader voor het meten van vooruitgang in AI-agenten voor de wetenschap en voor het begeleiden van het ontwerp van toekomstige agenten die in staat zijn complexe wetenschappelijke uitdagingen aan te pakken. Volledige codes, taken en datasets zijn toegankelijk via deze link: https://sciagentarena.github.io/.
On-policy distillatie (OPD) is recentelijk een prominente post-trainingmethode geworden omdat het twee wenselijke ingrediënten combineert: on-policy studenttrajecten en dichte leraarsupervisie, maar hoe deze hybride de parameters van een model verandert blijft onduidelijk. Over meerdere taal- en visie-taalmodelparen en gebruiksscenario's heen levert onze analyse twee hoofdbevindingen op. Wat betreft schaarste zijn OPD-stijl updates klein en coördinaat-schaars. Ze zijn verdeeld over lagen en zijn meestal FFN-zwaar. Deze schaarse structuur is operationeel nuttig: het trainen van alleen het ontdekte subnetwork herstelt bijna dezelfde prestaties als volledige OPD. Echter, de schaarste-inducerende SGD-optimizer presteert slechter dan AdamW in onze optimizer-ablatie, waarschijnlijk omdat dichte leraarsupervisie heterogene coördinaatsgewijze gradiëntschalen behoudt waar AdamW's adaptieve schaling nuttig blijft. Wat betreft geometrie zijn de updates numeriek volledige rang maar spectraal geconcentreerd; ze liggen meestal ver van de principale singuliere deelruimten van de brongewichten en vallen onevenredig vaak op coördinaten waar de brongewichten dicht bij nul liggen. Deze bevindingen suggereren dat dichte leraarsupervisie OPD niet verandert in gewoon dicht parameterherschrijven; in plaats daarvan behoudt OPD belangrijke geometrische kenmerken van on-policy post-training.
Affordantieredenering, het afleiden van actiemogelijkheden van een object uit zijn fysieke eigenschappen (bijv. vorm en materiaal), is fundamenteel voor het menselijk fysiek begrip en wordt steeds crucialer voor grote taalmodellen (LLMs). Bestaande affordantiebenchmarks geven echter grotendeels expliciete objectidentiteiten bloot in de evaluatieopstelling, waardoor modellen kunnen vertrouwen op gememoriseerde object-affordantiekoppelingen in plaats van te redeneren over fysieke eigenschappen. Om deze leemte aan te pakken, introduceren we Affordance20Q, een nieuwe affordabletiebenchmark geformuleerd als een 20-vragenspel zonder de identiteit van het object bloot te geven. In elk spel identificeert het model de affordantie van een verborgen object uit een kandidaatset door ja/nee-vragen te stellen over de fysieke eigenschappen. Affordance20Q omvat 1.009 spelletjes over 454 objecten en 59 affordanties, allemaal handmatig gefilterd, verfijnd en geannoteerd. We voeren uitgebreide experimenten uit met 15 state-of-the-art LLMs en vinden een aanzienlijke kloof (~20 punten) vergeleken met menselijke prestaties. Een op KL gebaseerde informatiewinstanalyse (IG) toont verder aan dat modellen er niet in slagen onderscheidende vragen te stellen naarmate het spel vordert. Om de kloof te dichten, ontwikkelen we Kennisbank-verankerde Regelinductie (KARI), een op LLMs gebaseerde pijplijn die affordantieregels genereert die geworteld zijn in bewijs uit kennishanken (KB's). KARI verbetert open-source LLMs met maar liefst 15,2 punten, terwijl de beperkte dekking van KB's verdere winst belemmert. We geven al onze code en gegevens vrij op https://github.com/1171-jpg/Affordance20Q.git.
Studies naar menselijk redeneren hebben aangetoond dat mensen doorgaans beter zijn in het evalueren van redeneringen dan in het zelfstandig produceren ervan. Daarentegen worden grote redeneermodellen (large reasoning models, LRM's) getraind om uit te blinken in het produceren van lange redeneerketens om complexe problemen op te lossen. Hoe presteren LRM's dan bij het evalueren van redeneringen? We onderzoeken dit met de Valid-Answer-Invalid-Reasoning (VAIR)-dataset: wiskundige problemen en oplossingen met triviale redeneerfouten maar geldige antwoorden, ontworpen om redeneerevaluatie te isoleren van de verstorende factor van redeneerproductie. In tegenstelling tot mensen, bij wie we vinden dat ze slechts 6% slechter zijn in het beoordelen dan in het oplossen van dergelijke problemen, zien we een aanzienlijke productie-evaluatiekloof bij LRM's: geavanceerde modellen scoren maar liefst 48% bij het evalueren van VAIR-oplossingen, ondanks een bijna perfecte productie van oplossingen. Waarom dit raadsel? Door middel van keten-van-gedachten (chain-of-thought, CoT)-analyse vinden we bewijs van een antwoordbevestigingsbias: LRM's produceren vaak en controleren vervolgens op het juiste antwoord in plaats van elke stap zorgvuldig te verifiëren, en verzinnen rationalisaties, zelfs wanneer ze afwijkende redeneringen opmerken. Lineaire probes bevestigen dit en tonen aan dat, hoewel LRM-activaties enige representatie van geldige redeneringen coderen, ze er niet in slagen om VAIR-oplossingen robuust als ongeldig te representeren. Causaal patchen van de representaties van het uiteindelijke antwoord zorgt ervoor dat LRM-oordelen en -activaties omslaan, wat aantoont dat de validiteit van het antwoord verantwoordelijk is voor de bevestigingsbias van de modellen. Deze bevindingen wijzen op een opvallende beperking in de dominante benaderingen van redeneertraining, die LRM's stimuleren om redeneringen naar correcte antwoorden te produceren en te bevestigen, maar niet om de onderliggende redenen robuust te evalueren.
Multimodale grote taalmodellen kunnen code schrijven om complexe programma's te produceren en programma's gebruiken voor 3D-modellering, wat een nieuwe weg opent voor 3D-generatie op basis van hun voorkennis, wereldkennis en redeneervermogen. Toch evalueren bestaande benchmarks zelden 3D-modellering via code. Dergelijke modellering vereist meer dan alleen uitvoerbare code: op basis van een tekstuele of visuele specificatie moet een model een parametrisch 3D-programma genereren dat geometrisch precies, semantisch uitgelijnd en assemblageconsistent is. We introduceren P3D-Bench, een benchmark voor parametrische 3D-generatie. In tegenstelling tot een 3D-mesh maakt een parametrisch 3D-programma expliciete afmetingen, constructiebewerkingen en onderdeelrelaties zichtbaar, waardoor zichtbaar wordt of een model de structuur van een ontwerp herstelt, niet alleen het uiterlijk. Onder een uniform protocol omvat P3D-Bench drie taakfamilies (Tekst-naar-3D, Afbeelding-naar-3D en Assemblage-3D) en beoordeelt elke uitvoer op uitvoerbaarheid, geometrische nauwkeurigheid, topologie, tekstgebonden beperkingen, multiview-semantische uitlijning en structuur op onderdeelniveau. We evalueren geavanceerde MLLM's en alleen-tekst-LLM's op 400 tekstgevallen, 400 afbeeldingsgevallen en 203 geannoteerde assemblages, met domeinspecifieke modellen als referentiepunten. Onze uitgebreide evaluatie levert drie bevindingen op. Ten eerste zijn assemblages de moeilijkste setting, waarin modellen er nog niet in slagen meerdere onderdelen tot een coherente structuur te combineren. Ten tweede kunnen modellen vaak de globale vorm en semantische identiteit van het doelobject herstellen, maar slagen ze er niet in de precieze parametrische geometrie te reproduceren die door de invoer wordt gespecificeerd. Ten derde blijft modellering op onderdeelniveau zwak bij assemblages, waarbij modellen noch de geometrie van elk onderdeel noch het juiste aantal onderdelen herstellen. Deze resultaten positioneren P3D-Bench als een benchmark voor het evalueren van precieze parametrische geometrie en structuur op onderdeelniveau in parametrische 3D-generatie.
Visie-Taal-Actie (VTA) modellen die voorgetrainde Visie-Taal Modellen (VTM's) koppelen aan continue actie-experts hebben sterke manipulatieprestaties behaald, maar de generalisatie naar taal-instructies buiten de verdeling (out-of-distribution, OOD) blijft slecht. Een bekende uitdaging is de structurele onbalans in VTA-data, waarbij taal veel minder divers is dan visuele en actie-inhoud, waardoor beleid geneigd is tot visuele shortcuts. Hoewel discrete-actie methoden dit verminderen door middel van visie-taal co-training, missen continue actie-experts dergelijke bescherming: ze starten vanuit willekeurige initialisatie en leren volledig van onevenwichtige data, wat leidt tot ruisende gradiënten die het VTM beschadigen en het onvermogen om de taalcapaciteit te benutten. Wij pakken dit aan vanuit een Bayesiaans perspectief door het beleid te factoriseren in een taal-agnostische Visie-Actie (VA) prior en een taal-geconditioneerde VTA waarschijnlijkheid, en stellen APT voor, een tweefasige trainingsmethode die de nadruk legt op Action expert PreTraining. In Fase 1 wordt de actie-expert voorgetraind als een VA prior op visie-actie paren van een bevroren VTM, waarbij de taalonbalans wordt omzeild. In Fase 2 worden taal-tokens geïnjecteerd via een gepoort fusiemechanisme dat VTM-kenmerken integreert terwijl de aangeleerde visuomotorische prior behouden blijft. APT is toepasbaar op gangbare VTA-architecturen, waaronder de π- en GR00T-stijl architecturen. Uitgebreide experimenten bevestigen dat APT consistente verbeteringen oplevert bij onbekende instructies en compositorische taken. Projectpagina: https://xukechun.github.io/papers/APT/
Beeld-naar-3D-methoden maken vaak een afweging tussen getrouwheid en volledigheid: diepteschatters zijn verankerd aan invoerpixels maar stoppen bij het zichtbare oppervlak, terwijl beeld-naar-3D-modellen volledige vormen genereren die vaak niet goed uitgelijnd zijn met de invoer. We introduceren World Tracing, een generatieve pixel-uitgelijnde geometrierepresentatie die 3D-punten voorspelt die zijn uitgelijnd met waargenomen pixels, terwijl geometrie voorbij het zichtbare oppervlak wordt aangevuld. Voor elke invoerpixel voorspelt World Tracing een geordende stapel cameraruimte-3D-punten, waarbij de eerste laag het zichtbare oppervlak vertegenwoordigt en volgende lagen de voor-naar-achter doorsnijdingen met geoccludeerde oppervlakken weergeven. We implementeren deze representatie met een world-tracing diffusion transformer, WT-DiT, die meerdere geometrielagen behandelt als afzonderlijke ontruistokens die zijn gekoppeld via gefactoriseerde en globale aandacht. WT-DiT wordt getraind met flow matching in de pixelruimte en een gemengd ruisschema dat de reconstructie van het zichtbare oppervlak in evenwicht brengt met de generatie van geoccludeerde geometrie. World Tracing behaalt sterke prestaties op het gebied van reconstructie van zichtbare oppervlakken en volledige geometriegeneratie in object-, scène- en dynamische benchmarks, en presteert beter dan zowel dieptevoorspellers als beeld-naar-3D-generatoren. Het behoudt ook de 2D-naar-3D-correspondentie, wat tekstgestuurde 3D-scènabewerking, geometrie-geconditioneerde videosynthese van nieuwe aanzichten en integratie zonder training met getextureerde mesh-generatoren mogelijk maakt.
Multimodale Fundatiemodellen (MFM's) hebben aanzienlijke vooruitgang geboekt, maar blijven kwetsbaar in ruimtelijk redeneren over de fysieke wereld. Een belangrijk knelpunt is hun onvermogen om lokale egocentrische waarnemingen om te zetten in een globale allocentrische ruimtelijke representatie. Om dit aan te pakken stellen we AlloSpatial voor, een agentief raamwerk voor allocentrische ruimtelijke cognitie in fundatiemodellen. AlloSpatial introduceert World2Mind, een plug-and-play cognitieve karteringssandbox die egocentrische waarnemingen omzet in gestructureerde allocentrische voorkennis, waaronder Allocentrische-Ruimtelijke Bomen en routenetwerken die het opvragen van objecttopologie, geometrische relaties, passeerbaarheid en trajecten ondersteunen. Om deze voorkennis betrouwbaar te benutten onder ruizige reconstructie en ambigue visuele evidentie, introduceert AlloSpatial een Ruimtelijk Redeneerharnas voor oordeelsvorming over het gebruik van hulpmiddelen, modaal-ontkoppelde aanwijzingsverzameling en geometrisch-semantische arbitrage. We internaliseren dit proces verder in Qwen3-VL door middel van koude-start reinforcement learning met een door het harnas gecontroleerde trajectniveaubeloning. Experimenten op VSI-Bench en MindCube tonen aan dat AlloSpatial propriëtaire modellen met 5%-18% verbetert in een training-vrije setting, terwijl AST's alleen al sterke ruimtelijke redeneringen ondersteunen, zelfs wanneer visuele invoer wordt verwijderd. De getrainde AlloSpatial-agenten presteren verder beter dan grotere algemene modellen en competitieve ruimtelijke baselines, wat suggereert dat gestructureerde allocentrische representaties, actief gebruik van hulpmiddelen en verifieerbaar redeneren een veelbelovende route bieden naar ruimtelijk capabele fundatiemodellen.
Wij bestuderen vaste-betrouwbaarheid beste-actie-identificatie (BAI) in stochastische minimaxbomen. Dit probleem is steeds relevanter in moderne AI-planning, waar diep minimax zoeken en Monte Carlo-boomzoeken (MCTS) met lange uitrol van taalmodellen een fundamentele afweging kennen: heuristische evaluaties zijn goedkoop maar vertekend, terwijl nauwkeurige uitrollen betrouwbaar maar ontoelaatbaar duur zijn. Wij stellen 2FFS voor, een tweefidelity-boomzoekalgoritme dat multifidelity-platte-bandidéeeën in bomen introduceert. Het algoritme combineert snelle uitbreiding in minimax-stijl met stochastische steekproefneming in MCTS-stijl, en beslist adaptief wanneer goedkope vertekende evaluaties worden benut en wanneer dure nauwkeurige evaluaties worden ingeroepen voor lokale certificering. Wij bewijzen vaste-betrouwbaarheidscorrectheid, tonen eindig stoppen aan voor exacte identificatie, en geven een polynoom-dieptekostenbovengrens voor bomen van algemene diepte. In numerieke stochastische-boom experimenten gebruikt 2FFS aanzienlijk minder samples en rekenkundige bewerkingen vergeleken met de bestaande BAI-MCTS baseline.
Hallucinatiedetectoren op token-niveau worden geëvalueerd als classifiers, met AUC over alle tokens, maar een streaming monitor wordt beoordeeld op zijn reactietijd: het aantal tokens dat verstrijkt tussen het begin van een hallucinatie en het alarm. We formuleren detectie van het begin van hallucinaties als een probleem van snelste veranderingsdetectie. Een eerste-orde Markovmodel van de latente getrouwe/gehallucineerde toestand, gevalideerd op RAGTruth, plaatst de taak binnen de klassieke veranderingspuntentheorie en levert Lordens ondergrens op voor detectievertraging: ongeveer 1,3 tokens bij een vals-alarmpercentage van 0,01. We laten vervolgens zien dat een causaal recurrent labeler fungeert als een CUSUM met een aangeleerde increment; bij een overeenkomstig vals-alarmpercentage detecteert het in 11–13 tokens, tegen 31 voor een lineaire per-token baseline, en een gecontroleerde decompositie schrijft het grootste deel van dit voordeel toe aan een betere per-token score in plaats van aan temporele accumulatie. Een optimaliteitsstelling van het informatiesnelheidstype van Donsker-Varadhan verklaart de resterende orde-van-grootte kloof: de aangeleerde score realiseert slechts 1/4,5 van de divergentie die de kenmerken dragen, een tekort dat herkalibratie niet kan wegnemen, met de rest een eindige-horizon effect. Classificatiestatistieken verbergen deze vertragingsstructuur; sequentiële analyse maakt het meetbaar.
Wij presenteren een benchmark voor het evalueren van AI-modellen en -agenten op realistische formele software-verificatietaken. Eerst schrapen we 11.039 eigenschapsgebaseerde tests (PBT's) uit echte Python-repositories, waarna we er 2.772 (25%) automatisch vertalen naar 9.415 Lean 4-specificaties met sorry-plaatshouders (ongeveer 3 formaliseringen/PBT; we behouden meerdere pogingen wanneer geen enkele domineert op kwaliteitsmetrieken). Het vertalen van PBT's naar Lean-specificaties is uitdagend: het vereist modellering van Python-semantiek in Lean, het afleiden van de logische eigenschap die in een imperatieve PBT gecodeerd is, en het omgaan met de inherente moeilijkheden van afhankelijk getypeerd programmeren in een weinig gebruikte taal. We beschrijven een drie-agent LLM-pijplijn voor het transpileren van PBT's naar Lean-specificaties, evalueren dekkings- en kwaliteitsmetrieken, en bieden basislijnen voor bewijsgeneratie met behulp van verschillende geautomatiseerde en modelgebaseerde benaderingen. Alle code (schraper en agenten) en gegevens (PBT's en Lean-specificaties) zijn open source. Onze benchmark beoogt vooruitgang te stimuleren op het onderbelichte probleem van AI-ondersteunde formele verificatie van realistische software, hetgeen van toenemend belang is naarmate AI steeds meer van 's werelds code produceert.
Egocentrische menselijke video biedt een schaalbare alternatief voor robotdata bij pretraining, maar modellen die op dergelijke video zijn voorgetraind, presteren consequent slechter dan modellen die op robotdata zijn voorgetraind. We wijten deze kloof aan een ontbrekend signaal: het actieve perceptiegedrag in egocentrische video’s, waarbij mensen tijdens manipulatie continu hun gezichtspunt verplaatsen, wat camerabeweging veroorzaakt die door standaardpijplijnen als ruis wordt behandeld. Om dit aan te pakken presenteren we ActiveMimic, een pretrainingframework dat gesynchroniseerde camera- en polstrajectorieën herstelt uit één enkele op het lichaam gedragen RGB-camera, camerabeweging modelleert als een gezichtspuntactie, en gezamenlijk actieve perceptie en manipulatie leert uit egocentrische menselijke video in het wild, alvorens aan te passen aan een doelrobot. Empirisch tonen praktijkexperimenten over taken met uiteenlopende eisen aan actieve perceptie aan dat ActiveMimic consequent baselines overtreft die op menselijke video zijn voorgetraind, en overeenkomt met state-of-the-art modellen die op robotdata zijn voorgetraind. Verdere analyse levert bewijs dat actieve perceptievermogen afkomstig is van pretraining op egocentrische menselijke video, niet van robotspecifieke finetuning, waarmee wordt bevestigd dat actieve perceptie de sleutel is om egocentrische menselijke video te ontsluiten voor robotpretraining.
Interactief rijden onthult een faalwijze die gemakkelijk over het hoofd wordt gezien in regelbewuste autonome-rij-stacks: een harde-regelmarge kan negatief zijn voor een ego-kandidaat, zelfs als een kleine wettelijke tegemoetkoming door een niet-prioritaire agent de haalbaarheid zou herstellen. Bestaande regelboeken, afschermingen en bereikbaarheidsfilters zijn sterk in het vetoën van onveilige acties, terwijl voorspellingsgebaseerde planners waarschijnlijke reacties modelleren. Geen van beide levert een runtime-bewijsobject dat aangeeft welke begrensde multi-agent-bewerking de manoeuvre herstelt, wie de bewerking bezit, of het verzoek betaalbaar is in termen van voorrang, en welke ego-uitwijkmogelijkheid overblijft als het verzoek niet wordt opgevolgd. We formuleren dit ontbrekende object als *interactive repair certification* en introduceren *CARVE*, een voorspellingsvrije certificaatlaag over een eindig rooster van ego-eigen en agent-eigen tactische operatoren. Agent-eigen verzoeken zijn alleen toelaatbaar binnen \(B_j(s) = β(π_j)α_j^{\max}(s)\), een samenwerkingsenvelop die kinematische bereikbaarheid scheidt van normatieve prioriteit. Het resulterende certificaat registreert de bindende regel, reparatiecategorie, reparatieset, verantwoordelijkheidsgewogen kostensplitsing en uitwijkmogelijkheid. Op 589 op Lanelet2-geometrie gebaseerde INTERACTION-herhalingsafleveringen accepteert CARVE-Greedy 98,64% van de aanvankelijk gevete manoeuvres en herstelt 370/378 door mensen opgeloste valse veto's, terwijl 589/589 voorrangsrespect, nul prioritaire-agent valse positieven en 400/400 negatieve-stress-veto's worden behouden. We bewijzen certificaatgeluidigheid, structureel voorrangsrespect, exacte eindige-rooster-minimaliteit, uitwijkcontingentie en schuldconsistentievoorwaarden. CARVE voorspelt niet en vereist geen naleving van een andere bestuurder; het certificeert of een voorgestelde interactie begrensd, toewijsbaar en normatief toelaatbaar is onder verklaarde aannames.
Grote redeneermodellen volgen doorgaans een lees-dan-denk-paradigma: ze nemen de volledige invoer waar, redeneren over een statische context en produceren vervolgens het antwoord. Toch zijn veel scenario's in de echte wereld inherent dynamisch, zoals audio- en videostreams, waar informatie als een continue stroom aankomt en modellen moeten redeneren, bijwerken en reageren onder gedeeltelijke waarnemingen. Recente methoden voor streamredeneren stellen modellen in staat te denken tijdens het lezen, maar ze steunen grotendeels op gesuperviseerde imitatie van vooraf geconstrueerde trajecten, wat hun flexibiliteit beperkt. In dit artikel stellen we AdaSR voor, een adaptief raamwerk voor streamredeneren dat modellen in staat stelt te redeneren tijdens het invoerstreamen en aan het einde van de stroom een definitieve overweging uit te voeren, terwijl ze leren wanneer te denken en hoeveel rekenkracht ze over verschillende fasen moeten toewijzen. Om dit hiërarchische redeneerproces te optimaliseren, introduceren we Hiërarchische Relatieve Beleidsoptimalisatie (HRPO), die beleidsoptimalisatie opsplitst in fasen van streamredeneren en diep redeneren, wat een meer gedetailleerde toewijzing van voordeel biedt in plaats van een uniforme verdeling van één enkel sequentieniveau-voordeel over alle tokens. HRPO integreert beloningen voor formaat, nauwkeurigheid en adaptief denken om geldige redeneerprotocollen af te dwingen, de uiteindelijke taakprestatie te behouden en latentiebewuste rekentoewijzing te stimuleren. Experimenten tonen aan dat AdaSR een betere balans bereikt tussen redeneernauwkeurigheid, computationele efficiëntie en streamlatentie in vergelijking met de basislijn van gesuperviseerde finetuning. We maken onze code beschikbaar op https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
Ongestructureerd snoeien produceert sparse gewichtstensoren, maar de standaardimplementatie behoudt de tensorvormen, waardoor het ingezette model niet kleiner is dan vóór het snoeien. We presenteren een exacte structurele herschrijving, die we minimalisatie noemen, die een gemaskeerd netwerk omzet in een kleiner dicht netwerk met dezelfde voorwaartse functie, op floating-point-afronding na. De Squeeze-Release-cyclus doorloopt snoeien en minimalisatie met een tussentijdse vrijgave-stap die de exact-nulposities in de gecomprimeerde tensoren opnieuw inschakelt als kleine gekalibreerde ruis, waardoor anders nutteloze capaciteit weer wordt omgezet in trainbare parameters. Opeenvolgende cycli gebruiken die capaciteit om structurele redundantie te vinden die een enkele pas niet kan bereiken. Daarnaast introduceren we CompensatedLayerNorm, een functiebehoudende vervanging voor LayerNorm die minimalisatie uitbreidt naar kanaalreductie over residustromen die zijn uitgerust met LayerNorm. Squeeze-Release comprimeert het inzetbare netwerk tot 39 keer kleiner dan het ongesnoeide model op een volledig verbonden modelnetwerk en 14,8 keer kleiner op een moderne CNN (ConvNeXt-Tiny), bij vergelijkbare nauwkeurigheid. Daarnaast bewijzen we dat de herschrijving kan worden uitgebreid naar transformerarchitecturen.
Grote en demografisch gebalanceerde datasets zijn essentieel voor betrouwbare neuroimaging-biomarkers. Synthese van 3D-hersen-MRI op volledige resolutie kan data-augmentatie in deze context ondersteunen, maar bestaande benaderingen brengen ofwel prohibitieve rekenkosten met zich mee op volumetrische schaal, ofwel vertrouwen op lossy latente compressie die ten koste kan gaan van anatomische details. Hierdoor vereist praktische 3D-generatieve augmentatie vaak gespecialiseerde rekeninfrastructuur. Wij stellen WaveDiT voor, een raamwerk voor conditionele stromingsmatching dat opereert in de coëfficiëntenruimte van een 3D-Haar-discrete wavelettransformatie. Het model combineert gefactoriseerde spatio-diepte-attentie met bandgewijze heteroscedastische onzekerheidsmodellering, afgeleid van hogere-orde waveletstatistieken. Voorspelde log-variantie wordt direct geïntegreerd in zowel de stromingsdoelstelling als het conditioneringspad, wat adaptieve precisie mogelijk maakt die consistent is met de zware-staart- en ingangsafhankelijke variantiestructuur van anatomische details. Deze formulering ondersteunt synthese van volledige 3D-resolutie onder praktische geheugen- en tijdsbeperkingen op een enkele moderne GPU. Evaluatie op een multi-site-cohort toont een betere afstemming tussen gegenereerde en echte MRI-verdelingen aan, samen met verbeterde stroomafwaartse hersenleeftijdvoorspelling en regionale anatomische overeenstemming in vergelijking met diffusie-, latente en waveletgebaseerde basismethoden. Code is beschikbaar op https://github.com/sisinflab/WaveDiT
Met PRECISE hebben we Prediction-Powered Inference uitgebreid om bias-gecorrigeerde schattingen van ranking-evaluatiemetingen te produceren door een kleine, door mensen gelabelde set te combineren met een grote, door LLM beoordeelde set. PPI is aantoonbaar onbevooroordeeld, ongeacht het foutenprofiel van de LLM-beoordelaar. We maken het toepasbaar op hiërarchische metrieken zoals Precision@K, waarbij annotaties per document zijn maar de metriek per query, door de output-ruimteberekening te reduceren van O(2^|C|) naar O(2^K). Op de ESCI-benchmark vermindert het aanvullen van 30 menselijke annotaties met Claude 3 Sonnet-oordelen de standaardfout van Precision@4-schattingen van 4,45 naar 3,50 (een relatieve reductie van 21%). In een productiesysteem identificeerde ons raamwerk correct de beste van drie systeemvarianten op basis van 100 menselijke labels en 2 uur aan domeinexpert-annotatie; A/B-testen bevestigden deze rangschikking met +407 bps in dagelijkse verkopen.