Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Distillatiegebaseerde versnelling is fundamenteel geworden voor het praktisch toepasbaar maken van autoregressieve streaming videodiffusiemodellen, waarbij distribution matching distillation (DMD) de de facto keuze is. Bestaande methoden trainen de student echter om de output van de leraar ongedifferentieerd na te bootsen, waarbij elke rollout, elk frame en elke pixel als even betrouwbare supervisie wordt behandeld. Wij stellen dat dit de gedistilleerde kwaliteit beperkt, omdat het twee complementaire assen van variantie in DMD-supervisie over het hoofd ziet: Inter-Betrouwbaarheid tussen student-rollouts waarvan de supervisie in betrouwbaarheid varieert, en Intra-Perplexiteit tussen ruimtelijke regio's en temporele frames die ongelijk bijdragen aan waar kwaliteit nog verbeterd kan worden. Het doelverwart dus twee vragen onder een uniform gewicht: of men van elke rollout moet leren, en waar men de optimalisatie binnen die rollout moet concentreren. Om dit aan te pakken, stellen wij Stream-R1 voor, een Reliability-Perplexity Aware Reward Distillation-kader dat het distillatiedoel adaptief herweegt op zowel rollout- als spatiotemporeel-elementniveau via een enkel gedeeld beloningsgeleid mechanisme. Op het Inter-Betrouwbaarheidsniveau herschaalt Stream-R1 het verlies van elke rollout met een exponent van een voorgetrainde videobeloningsscore, zodat rollouts met betrouwbare supervisie de optimalisatie domineren. Op het Intra-Perplexiteitsniveau back-propageert het hetzelfde beloningsmodel om per-pixel gradient saliency te extraheren, wat wordt verwerkt in ruimtelijke en temporele gewichten die de optimalisatiedruk concentreren op regio's en frames waar verfijning de grootste verwachte winst oplevert. Een adaptief balancerend mechanisme voorkomt dat een enkele kwaliteitsas domineert over visuele kwaliteit, bewegingskwaliteit en tekstuitlijning. Stream-R1 behaalt consistente verbeteringen op alle drie de dimensies ten opzichte van distillatie-baselines op standaard streaming video-generatie benchmarks, zonder architecturale aanpassing of extra inferentiekosten.
Hoewel Test-Time Scaling (TTS) een veelbelovende richting biedt om videogeneratie te verbeteren zonder de oplopende kosten van training, kampen huidige test-time videogeneratiemethoden op basis van diffusiemodellen met exorbitante kandidaatverkenkingskosten en een gebrek aan temporele sturing. Om deze structurele knelpunten aan te pakken, stellen wij voor de focus te verleggen naar streaming videogeneratie. Wij constateren dat de chunk-gewijze synthese en het beperkte aantal denoiseringsstappen hiervan intrinsiek geschikt zijn voor TTS, waardoor de rekenkosten aanzienlijk worden verlaagd en tegelijkertijd fijnmazige temporele controle mogelijk wordt. Gedreven door dit inzicht introduceerden wij Stream-T1, een baanbrekend, alomvattend TTS-raamwerk dat uitsluitend is toegesneden op streaming videogeneratie. Concreet bestaat Stream-T1 uit drie eenheden: (1) Stream-Scaled Noise Propagation, dat het initiële latente ruis van de te genereren chunk actief verfijnt met behulp van bewezen, hoogwaardige ruis van de vorige chunk, effectief temporele afhankelijkheid estableert en de historische Gaussiaanse prior gebruikt om de huidige generatie te sturen; (2) Stream-Scaled Reward Pruning, dat gegenereerde kandidaten uitgebreid evalueert om een optimale balans te vinden tussen lokale ruimtelijke esthetiek en globale temporele coherentie door onmiddellijke kortetermijnevaluaties te integreren met op een schuifvenster gebaseerde langetermijnevaluaties; (3) Stream-Scaled Memory Sinking, dat de context die uit de KV-cache wordt verdreven dynamisch routeert naar verschillende updatepaden geleid door de feedbackbeloning, zodat eerder gegenereerde visuele informatie effectief de daaropvolgende videostroom verankert en stuurt. Geëvalueerd op zowel uitgebreide 5s- als 30s-videobenchmarks toont Stream-T1 een aanzienlijke superioriteit aan, waarbij het de temporele consistentie, bewegingsvloeiendheid en framegebaseerde visuele kwaliteit significant verbetert.
Hoewel Vision-Language-Action-modellen (VLA's) aanzienlijke vooruitgang hebben geboekt in de richting van mensachtige, generalistische robotbeleidspolicies dankzij de veelzijdige intelligentie (zoals brede scènebegrip en taalgestuurde generalisatie) die is overgenomen van vooraf getrainde Vision-Language-modellen, worstelen ze nog steeds met complexe real-world taken die een breder scala aan functionele capaciteiten vereisen (bijvoorbeeld bewegingbewustzijn, geheugenbewuste besluitvorming en fysieke sensing). Om dit aan te pakken, introduceren we RLDX-1, een general-purpose robotpolicy voor behendige manipulatie, gebouwd op de Multi-Stream Action Transformer (MSAT). Dit is een architectuur die deze capaciteiten verenigt door heterogene modaliteiten te integreren via modaliteit-specifieke streams met cross-modale gezamenlijke zelf-attentie. RLDX-1 combineert deze architectuur verder met systeemniveau ontwerpkeuzes, waaronder het synthetiseren van trainingsdata voor zeldzame manipulatiescenario's, leerprocedures gespecialiseerd voor mensachtige manipulatie, en inferentie-optimalisaties voor real-time inzet. Door empirische evaluatie tonen we aan dat RLDX-1 consistent superieure prestaties levert vergeleken met recente frontier VLA's (zoals π_{0.5} en GR00T N1.6) in zowel simulatiebenchmarks als real-world taken die brede functionele capaciteiten vereisen die verder gaan dan algemene veelzijdigheid. In het bijzonder toont RLDX-1 superioriteit in ALLEX humanoïde taken door slagingspercentages van 86,8% te behalen, terwijl π_{0.5} en GR00T N1.6 rond de 40% halen. Dit benadrukt het vermogen van RLDX-1 om een humanoïde robot met een hoog aantal vrijheidsgraden (DoF) aan te sturen onder diverse functionele eisen. Gezamenlijk positioneren deze resultaten RLDX-1 als een veelbelovende stap in de richting van betrouwbare VLA's voor complexe, contactrijke en dynamische real-world behendige manipulatie.
Deep search is uitgegroeid tot een cruciale capaciteit voor geavanceerde multimodale agents, waardoor modellen complexe vragen kunnen oplossen via actief zoeken, verificatie van bewijsmateriaal en meerstapsredenering. Ondanks snelle vooruitgang blijven topklasse multimodale zoekagents moeilijk reproduceerbaar, grotendeels door het ontbreken van open hoogwaardige trainingsdata, transparante traject-synthesepijplijnen of gedetailleerde trainingsrecepten. Daarom introduceren we OpenSearch-VL, een volledig open-source recept voor het trainen van geavanceerde multimodale deep search agents met agent-gerichte reinforcement learning. Ten eerste ontwikkelden we een toegewijde pijplijn om hoogwaardige trainingsdata te construeren via Wikipedia-padmonstering, fuzzy entity herschrijving en source-anchor visuele verankering, die gezamenlijk shortcuts en instorting van eenstapsretrieval verminderen. Gebaseerd op deze pijplijn cureren we twee trainingsdatasets: SearchVL-SFT-36k voor SFT en SearchVL-RL-8k voor RL. Daarnaast ontwerpen we een diverse toolomgeving die tekstzoeken, beeldzoeken, OCR, bijsnijden, verscherpen, superresolutie en perspectiefcorrectie verenigt, waardoor agents actieve waarneming kunnen combineren met externe kennisverwerving. Ten slotte stellen we een multi-turn fatal-aware GRPO-trainingsalgoritme voor dat cascade-toolfouten aanpakt door post-fout tokens te maskeren, terwijl nuttige pre-fout redenering behouden blijft via eenzijdige advantage clamping. Gebouwd op dit recept levert OpenSearch-VL substantiële prestatieverbeteringen, met gemiddeld meer dan 10 punten verbetering over zeven benchmarks, en behaalt het resultaten vergelijkbaar met propriëtaire commerciële modellen bij verschillende taken. We zullen alle data, code en modellen vrijgeven om open onderzoek naar multimodale deep search agents te ondersteunen.
Rijdende wereldmodellen vormen een cruciale technologie voor autonoom rijden door de dynamiek van de omgeving te simuleren. Bestaande methoden richten zich echter voornamelijk op het genereren van toekomstige scenario's, waarbij een uitgebreid 3D-scènebegrip vaak over het hoofd wordt gezien. Anderzijds tonen Large Language Models (LLM's) indrukwekkende redeneervaardigheden, maar missen ze het vermogen om toekomstige geometrische evolutie te voorspellen, wat een significante kloof creëert tussen semantische interpretatie en fysieke simulatie. Om deze kloof te overbruggen, stellen we HERMES++ voor, een verenigd rijdend wereldmodel dat 3D-scènebegrip en toekomstige geometrievoorspelling integreert binnen een enkel framework. Onze aanpak adresseert de uiteenlopende vereisten van deze taken door middel van synergetische ontwerpen. Ten eerste consolideert een BEV-representatie multi-view ruimtelijke informatie in een structuur die compatibel is met LLM's. Ten tweede introduceren we LLM-gestuurde wereldqueries om kennisoverdracht vanuit de begripstak te vergemakkelijken. Ten derde is een Current-to-Future Link ontworpen om de temporele kloof te overbruggen, waarbij geometrische evolutie wordt geconditioneerd op semantische context. Tot slot hanteren we een Joint Geometric Optimization-strategie om structurele integriteit af te dwingen, waarbij expliciete geometrische beperkingen worden geïntegreerd met impliciete latente regularisatie om interne representaties af te stemmen op geometrisch-bewuste prior knowledge. Uitgebreide evaluaties op meerdere benchmarks valideren de effectiviteit van onze methode. HERMES++ behaalt sterke prestaties en overtreft gespecialiseerde aanpakken in zowel toekomstige pointcloud-voorspelling als 3D-scènebegriptaken. Het model en de code zullen openbaar worden vrijgegeven op https://github.com/H-EmbodVis/HERMESV2.
Het synthetiseren van fysisch onderbouwde 3D-assets vormt een kritieke bottleneck voor interactieve virtuele werelden en 'embodied AI'. Bestaande methodes richten zich voornamelijk op statische geometrie en negeren de functionele eigenschappen die essentieel zijn voor interactie. Wij stellen dat de generatie van interactieve assets geworteld moet zijn in functionele logica en hiërarchische fysica. Om deze kloof te overbruggen, introduceren wij PhysForge, een ontkoppeld tweestapsraamwerk ondersteund door PhysDB, een grootschalige dataset van 150.000 assets met viervoudige fysieke annotaties. Eerst fungeert een VLM als een 'fysisch architect' om een 'Hiërarchisch Fysisch Blauwdruk' te plannen, die materiaal-, functionele en kinematische beperkingen definieert. Vervolgens realiseert een fysisch onderbouwd diffusiemodel deze blauwdruk door hoogwaardige geometrie te synthetiseren samen met precieze kinematische parameters via een nieuw KineVoxel Injection (KVI)-mechanisme. Experimenten tonen aan dat PhysForge functioneel plausibele, simulatieklare assets produceert, en zo een robuuste data-engine biedt voor interactieve 3D-inhoud en 'embodied agents'.
Reasoning-intensief retrieval heeft als doel bewijsmateriaal naar voren te halen dat downstream redenering ondersteunt, in plaats van slechts overeenkomst in onderwerpsgelijkenis. Deze capaciteit wordt steeds belangrijker voor agent-gebaseerde zoeksystemen, waarbij retrievers complementair bewijsmateriaal moeten aanleveren tijdens iteratief zoeken en synthese. Bestaand werk blijft echter beperkt op zowel evaluatie- als trainingsvlak: benchmarks zoals BRIGHT bieden smalle gold sets en evalueren retrievers geïsoleerd, terwijl synthetische trainingscorpora vaak optimaliseren voor relevantie van een enkele passage in plaats van voor de constructie van een bewijsmateriaal-portfolio. Wij introduceren BRIGHT-Pro, een door experts geannoteerde benchmark die elke query uitbreidt met multi-aspect gold evidence en retrievers evalueert onder zowel statische als agent-gebaseerde zoekprotocollen. Verder construeren wij RTriever-Synth, een aspect-gedecomponeerd synthetisch corpus dat complementaire positieve voorbeelden en positief-geconditioneerde harde negatieven genereert, en gebruiken dit om RTriever-4B via LoRA fine-tuning aan te passen vanuit Qwen3-Embedding-4B. Experimenten met lexicale, algemene en reasoning-intensieve retrievers tonen aan dat aspect-bewuste en agent-gebaseerde evaluatie gedrag blootlegt dat verborgen blijft onder standaard metrieken, terwijl RTriever-4B een substantiële verbetering laat zien ten opzichte van het basismodel.
Het landschap van hoogwaardige beeldgeneratiemodellen verschuift momenteel van inefficiënte multi-step modellen naar efficiënte few-step tegenhangers (zoals Z-Image-Turbo en FLUX.2-klein). Deze modellen brengen echter aanzienlijke uitdagingen met zich mee voor directe continue supervised fine-tuning. Zo zou het toepassen van veelgebruikte fine-tuningtechnieken hun inherente few-step inferentievermogen aantasten. Om dit aan te pakken, stellen we D-OPSD voor, een nieuwe trainingsparadigma voor step-gedistilleerde diffusiemodellen dat on-policy learning mogelijk maakt tijdens supervised fine-tuning. We ontdekken eerst dat het moderne diffusiemodel, waarbij de LLM/VLM als encoder fungeert, de in-context mogelijkheden van zijn encoder kan overnemen. Dit stelt ons in staat om de training te vormen als een on-policy zelfdistillatieproces. Concreet laten we het model tijdens de training optreden als zowel leraar als leerling met verschillende contexten: de leerling wordt alleen geconditioneerd op de tekstfeature, terwijl de leraar wordt geconditioneerd op de multimodale feature van zowel de tekstprompt als de doelafbeelding. De training minimaliseert de twee voorspelde distributies over de eigen roll-outs van de leerling. Door optimalisatie op het eigen traject en onder eigen supervisie stelt D-OPSD het model in staat nieuwe concepten, stijlen, etc. aan te leren zonder het oorspronkelijke few-step vermogen op te offeren.
Videobewerking is geëvolueerd naar In-Context Learning (ICL) paradigma's, maar de resulterende kwadratische aandachtskosten creëren een kritieke computationele bottleneck. In dit werk stellen we In-context Sparse Attention (ISA) voor, het eerste bijna verliesvrije empirische sparse framework toegesneden op ICL-videobewerking. Ons ontwerp is gebaseerd op twee belangrijke inzichten: ten eerste vertonen contexttokens een aanzienlijk lagere salientie dan brontokens; ten tweede bewijzen we theoretisch en valideren we empirisch dat queryscherpte correleert met benaderingsfout. Gemotiveerd door deze bevindingen implementeert ISA een efficiënte preselectiestrategie om overbodige context uit te dunnen, gevolgd door een dynamisch querygroeperingsmechanisme dat queries met een hoge fout doorstuurt naar volledige aandacht en queries met een lage fout naar een computationeel efficiënte Taylor sparse aandacht van de nulde orde. Verder bouwen we \texttt{LIVEditor}, een nieuw lightning-videobewerkingsmodel via ISA en een voorgestelde videobewerkingsdatapijplijn die een dataset van 1,7 miljoen hoogwaardige items heeft samengesteld. Uitgebreide experimenten tonen aan dat LIVEditor een ~60% reductie in latentie van de aandachtmodule bereikt, terwijl het state-of-the-art methoden overtreft op EditVerseBench, IVE-Bench en VIE-Bench, waardoor bijna verliesvrije versnelling wordt geleverd zonder in te boeten aan visuele kwaliteit.
Wij presenteren JoyAI-Image, een verenigd multimodaal fundamentmodel voor visueel begrip, tekst-naar-beeld-generatie en instructiegestuurd beeldbewerken. JoyAI-Image koppelt een ruimtelijk versterkt Multimodaal Taalmodel (MLLM) aan een Multimodale Diffusion Transformer (MMDiT), waardoor waarneming en generatie kunnen interacteren via een gedeelde multimodale interface. Rond deze architectuur bouwen we een schaalbaar trainingsrecept dat verenigde instructie-afstemming, toezicht op lange-tekstweergave, ruimtelijk verankerde gegevens, en zowel algemene als ruimtelijke bewerkingssignalen combineert. Dit ontwerp geeft het model brede multimodale capaciteiten terwijl het ruimtelijk bewust redeneren en controleerbare visuele synthese versterkt. Experimenten op het gebied van begrip, generatie, lange-tekstweergave en bewerkingsbenchmarks tonen aan dat JoyAI-Image state-of-the-art of zeer concurrerende prestaties bereikt. Belangrijker nog, de bidirectionele lus tussen versterkt begrip, controleerbare ruimtelijke bewerking en redeneren met nieuwe perspectief-ondersteuning stelt het model in staat verder te gaan dan algemene visuele competentie naar sterkere ruimtelijke intelligentie. Deze resultaten wijzen op een veelbelovend pad voor verenigde visuele modellen in downstream-toepassingen zoals visie-taal-actie-systemen en wereldmodellen.
Recente vooruitgang in multimodale grote taalmodellen (MLLM's) heeft AI-mogelijkheden gebracht van statische offline gegevensverwerking naar real-time streaminginteractie, maar ze blijven toch ver verwijderd van menselijke multimodale interactie. De belangrijkste knelpunten zijn niet langer alleen modaliteitsdekking of latentie, maar het interactieparadigma zelf. Ten eerste zijn waarneming en reactie nog steeds gescheiden in afwisselende fasen, wat modellen verhindert nieuwe invoer te verwerken voor tijdige aanpassing tijdens de generatie. Ten tweede blijven de meeste huidige modellen reactief; ze reageren alleen op expliciete gebruikersverzoeken in plaats van proactief op te treden in de zich ontwikkelende multimodale omgeving. Wij presenteren MiniCPM-o 4.5, onze nieuwste poging tot mensachtige multimodale interactie, die deze hiaten vermindert door real-time full-duplex omnimodale interactie. Het kan tegelijkertijd in real-time zien, luisteren en spreken, terwijl het ook proactief gedrag vertoont, zoals het geven van herinneringen of commentaar op basis van zijn continue begrip van de live scène. De kerntechniek achter MiniCPM-o 4.5 is Omni-Flow, een uniform streamingkader dat omnimodale invoer en uitvoer uitlijnt langs een gedeelde temporele as. Deze formulering zet conventionele beurtgebonden interactie om in een full-duplex, tijdelijk uitgelijnd proces, waardoor gelijktijdige waarneming en reactie mogelijk wordt en proactief gedrag binnen hetzelfde kader kan ontstaan. Met in totaal 9B parameters benadert MiniCPM-o 4.5 Gemini 2.5 Flash in visie-taalcapaciteiten en levert het state-of-the-art open-source prestaties op zijn schaal. Het overtreft ook Qwen3-Omni-30B-A3B in omnimodaal begrip en levert betere spraakgeneratie, met aanzienlijk hogere reken efficiëntie. Aangedreven door zijn efficiënte architectuurontwerp en inferentie-optimalisatie kan het model real-time full-duplex omnimodale interactie uitvoeren op edge-apparaten met minder dan 12GB RAM-gebruik.
Het inschatten van hoe goed iemand een handeling uitvoert, in plaats van welke handeling wordt uitgevoerd, is cruciaal voor coaching, revalidatie en talentherkenning. Deze taak is uitdagend omdat vaardigheid wordt weergegeven in subtiele verschillen in timing, balans, lichaamsmechanica en uitvoering, die vaak verspreid zijn over meerdere camerabeelden en korte temporele gebeurtenissen. We bespreken drie recente bijdragen aan multi-view vaardigheidsinschatting op Ego-Exo4D. SkillFormer introduceert een parameter-efficiënte discriminerende architectuur voor selectieve multi-view fusie; PATS verbetert temporele sampling door lokaal dichte fragmenten van fundamentele bewegingen te behouden; en ProfVLM herformuleert vaardigheidsinschatting als conditionele taalgeneratie, waarbij zowel een vaardigheidslabel als expert-achtige feedback wordt gegenereerd via een gegradeerde cross-view projectiemodule en een compact taalbackbone. Gezamenlijk bereiken deze methoden state-of-the-art nauwkeurigheid op Ego-Exo4D met tot 20x minder trainbare parameters en tot 3x minder trainingsepochs dan video-transformer-baselines, terwijl ze verschuiven van gesloten-set classificatie naar interpreteerbare feedbackgeneratie. Deze resultaten benadrukken een verschuiving naar efficiënte, multi-view systemen die selectieve fusie, vaardigheidsbewuste sampling en actiegerichte generatieve feedback combineren.
Versterkend Leren met Verifieerbare Beloningen (RLVR) verbetert het redeneervermogen van grote taalmmodellen (LLM's), maar vertoont doorgaans beperkte generatiediversiteit door een overmatige stimulering van positieve beloningen. Hoewel methoden zoals Negative Sample Reinforcement (NSR) dit probleem verzachten door de straf van negatieve voorbeelden zwaarder te laten wegen, kunnen zij de semantische verdelingen die worden gedeeld door positieve en negatieve reacties onderdrukken. Om het redeneervermogen te vergroten zonder diversiteit te verliezen, stelt dit artikel negative sample projectie Residu Versterkend Leren (ResRL) voor, dat vergelijkbare semantische verdelingen tussen positieve en negatieve reacties ontkoppelt. We verbinden Lazy Likelihood Displacement (LLD) theoretisch aan negatief-positieve hoofdgradiëntinterferentie en leiden een single-forward proxy af die de representatie-uitlijning begrenst om conservatief voordeelherweging te sturen. ResRL projecteert vervolgens verborgen representaties van negatieve tokens op een op SVD gebaseerde positieve deelruimte met lage rang en gebruikt projectieresiduen om negatieve gradiënten te moduleren, waardoor het redeneervermogen wordt verbeterd terwijl diversiteit behouden blijft. De methode presteert gemiddeld beter dan sterke basismethoden op twaalf benchmarks voor Wiskunde, Code, Agenttaken en Functie-aanroeping. Opmerkelijk is dat ResRL NSR overtreft op wiskundig redeneren met 9,4% in Avg@16 en 7,0% in Pass@128. Code is beschikbaar op https://github.com/1229095296/ResRL.git.
Achtergrond: Agentvaardigheden worden steeds vaker als modulaire, herbruikbare eenheden ingezet in AI-agentsystemen. Medische onderzoeksvaardigheden voor agents vereisen meer veiligheidsmaatregelen dan algemene evaluatie, waaronder wetenschappelijke integriteit, methodologische validiteit, reproduceerbaarheid en veiligheidsgrenzen. Deze studie ontwikkelde en evalueerde preliminair een domeinspecifiek auditkader voor medische onderzoeksvaardigheden van agents, met focus op betrouwbaarheid ten opzichte van expertbeoordeling. Methoden: We ontwikkelden MedSkillAudit (skill-auditor@1.0), een gelaagd kader dat de implementatiegereedheid van vaardigheden beoordeelt vóór ingebruikname. We evalueerden 75 vaardigheden verdeeld over vijf medische onderzoekscategorieën (15 per categorie). Twee experts kenden onafhankelijk een kwaliteitsscore (0-100), een ordinale implementatieclassificatie (Productie Gereed / Beperkte Release / Alleen Beta / Afkeuren) en een vlag voor hoog-risico falen toe. De overeenstemming tussen systeem en expert werd gekwantificeerd met ICC(2,1) en lineair gewogen Cohen's kappa, gebenchmarkt tegen de inter-beoordelaarsbasislijn van menselijke experts. Resultaten: De gemiddelde consensuskwaliteitsscore was 72.4 (SD = 13.0); 57.3% van de vaardigheden viel onder de drempel voor Beperkte Release. MedSkillAudit behaalde een ICC(2,1) = 0.449 (95% BI: 0.250-0.610), wat hoger was dan de inter-beoordelaars-ICC van 0.300 tussen experts. De divergentie tussen systeem- en consensusscores (SD = 9.5) was kleiner dan de divergentie tussen experts onderling (SD = 12.4), zonder directionele bias (Wilcoxon p = 0.613). Protocolontwerp liet de sterkste overeenstemming op categorieniveau zien (ICC = 0.551); Academisch Schrijven vertoonde een negatieve ICC (-0.567), wat een structurele mismatch tussen rubric en expert reflecteerde. Conclusies: Domeinspecifieke pre-implementatie audits kunnen een praktische basis vormen voor het beheren van medische onderzoeksvaardigheden van agents, door algemene kwaliteitscontroles aan te vullen met gestructureerde auditwerkstromen toegesneden op wetenschappelijke use cases.
Het voorspellen van muziekpopulariteit heeft een groeiende onderzoeksinteresse gewekt, vanwege de relevantie voor artiesten, platformen en aanbevelingssystemen. De explosieve opkomst van door AI gegenereerde muziekplatforms heeft echter een geheel nieuw en grotendeels onontgonnen landschap gecreëerd, waar dagelijks een stroom van liedjes wordt geproduceerd en geconsumeerd zonder de traditionele indicatoren zoals artiestenreputatie of labelondersteuning. Een cruciale, maar nog ononderzochte factor in deze zoektocht is de esthetische kwaliteit. Wij presenteren APEX, het eerste grootschalige multi-task leerframework voor door AI gegenereerde muziek, getraind op meer dan 211.000 nummers (10.000 uur audio) van Suno en Udio. Dit framework voorspelt gezamenlijk op betrokkenheid gebaseerde populariteitssignalen – streams en likes-scores – naast vijf perceptuele esthetische kwaliteitsdimensies, op basis van bevroren audio-embeddingen die zijn geëxtraheerd uit MERT, een zelfgesuperviseerd muziekbegripsmodel. Esthetische kwaliteit en populariteit vangen complementaire aspecten van muziek die samen waardevol blijken: in een out-of-distribution evaluatie op de Music Arena-dataset, die bestaat uit paarsgewijze menselijke voorkeursgevechten over elf generatieve muzieksystemen die niet tijdens de training zijn gezien, verbetert het opnemen van esthetische kenmerken consistent de voorkeursvoorspelling. Dit toont een sterke generalisatie van de geleerde representaties aan over verschillende generatieve architecturen heen.
Diffusiemodellen worden hoofdzakelijk getraind voor beeldgeneratie, maar hun trajecten voor ruisverwijdering coderen rijke, ruimtelijk uitgelijnde visuele voorkennis. In dit artikel tonen we aan dat deze voorkennis kan worden gebruikt voor tekstgeconditioneerde semantische en open-vocabulariumsegmentatie, en dat deze aanpak kan worden gegeneraliseerd naar diverse downstreamtaken om een algemene diffusiesegmentatieframework te creëren. Concreet introduceren we DiGSeg (Diffusion Models as a Generalist Segmentation Learner), dat een voorgetraind diffusiemodel hergebruikt als een uniform segmentatieframework. Onze aanpak codeert de invoerafbeelding en de grondwaarheidsmasker in de latente ruimte en concateneert ze als conditioneringssignalen voor de diffusie U-Net. Een parallelle, op CLIP uitgelijnde tekstweg injecteert taalfeatures op meerdere schalen, waardoor het model tekstuele zoekopdrachten kan uitlijnen met evoluerende visuele representaties. Dit ontwerp transformeert een standaard diffusie-backbone in een universele interface die gestructureerde segmentatiemaskers produceert, geconditioneerd op zowel uiterlijk als willekeurige tekstprompts. Uitgebreide experimenten demonstreren state-of-the-art prestaties op standaard benchmarks voor semantische segmentatie, evenals sterke open-vocabulariumgeneralizatie en domeinoverschrijdende transfer naar medische, remote sensing- en landbouwsituaties - zonder domeinspecifieke architecturale aanpassingen. Deze resultaten geven aan dat moderne diffusie-backbones kunnen dienen als generalistische segmentatieleerders in plaats van pure generators, waardoor de kloof tussen visuele generatie en visueel begrip wordt verkleind.
De opkomst van "vibe coding"-platforms, waar gebruikers applicaties beschrijven in natuurlijke taal en AI-agenten autonoom full-stack software genereren, heeft de behoefte gecreëerd aan een rigoureuze evaluatie die verder gaat dan code-level benchmarks. Om ze te beoordelen als virtuele softwareontwikkelingsbureaus op het gebied van het begrijpen van zakelijke vereisten, het nemen van architectuur-beslissingen, het schrijven van productiecode, het afhandelen van iteratieve wijzigingen en het waarborgen van bedrijfsgereedheid, introduceren we SWE-WebDev Bench, een evaluatieraamwerk met 68 metrieken, verdeeld over 25 primaire en 43 diagnostische metrieken in zeven groepen, georganiseerd langs drie dimensies: Interactiemodus (App Creation Request (ACR) vs. App Modification Request (AMR)), Bureau-perspectief (Product Manager (PM), Engineering, Ops) en Complexiteitsniveau (T4 multi-role SaaS, T5 AI-native). Onze evaluatie (zes platforms, drie domeinen, 18 evaluatiecellen) onthult vier terugkerende tekortkomingen in de huidige generatie AI-app-builders: (1) Een specificatieknelpunt, waarbij platforms rijke zakelijke vereisten comprimeren tot overgesimplificeerde technische plannen, (2) Een alomtegenwoordige ontkoppeling van frontend en backend, waarbij visueel verfijnde UI's afwezige of defecte backend-infrastructuur maskeren, (3) Een steile productiegereedheidskloof, waarbij geen enkel platform meer dan 60% scoort op engineeringkwaliteit en de menselijke inspanning na generatie aanzienlijk varieert tussen platforms, en (4) Wijdverspreide beveiligings- en infrastructuurfouten, waarbij geen enkel platform meer dan 65% Security Score haalt tegen een streefcijfer van 90% en de afhandeling van gelijktijdige verzoeken slechts 6% bedraagt. Deze observaties zijn beschrijvend voor onze steekproef en vereisen replicatie op grotere schaal om de algemene geldigheid vast te stellen. We geven SWE-WebDev Bench vrij als een community benchmark om dergelijke replicatie mogelijk te maken en platformbouwers te helpen deze hiaten te identificeren en aan te pakken. Code en benchmarkbronnen zijn beschikbaar op: https://github.com/snowmountainAi/webdevbench en https://webdevbench.com/.
Dit artikel identificeert een kritieke maar onderbelichte uitdaging in het uitlijnen van redeneerprocessen van meerdere multimodale grote taalmmodellen (MLLM's): in niet-stationaire omgevingen evolueren de diverse redeneerdistributies van bronmodellen vaak onvoorspelbaar, wat systematische biases en drift doorgeeft aan het doelmodel. Om dit aan te pakken, formuleren we multi-source reasoning alignment als een constraint satisfaction probleem onder de concept drift theorie. Wij stellen Autonome Preference Optimization (APO) voor, een nieuw raamwerk dat inter-model divergenties niet als ruis behandelt, maar als dynamische negatieve constraints. APO werkt via een tweefasenprotocol: eerst projecteert supervised bootstrapping het doelmodel in de capaciteitenunie van de bronmodellen; vervolgens synthetiseert constraint-aware optimization een consistent consensusmanifold door expliciet driftende trajecten te onderdrukken via een multi-negatief Plackett-Luce doel. Uitgebreide experimenten met interpretatie van thoraxfoto's tonen aan dat ons 7B-model superieure robuustheid bereikt, en zelfs de gemiddelde nauwkeurigheid van propriëtaire bronmodellen overtreft. Verder publiceren wij CXR-MAX, een grootschalige benchmark bestaande uit 170.982 redeneertrajecten van zeven grootschalige MLLM's, om onderzoek naar reasoning alignment onder drift te faciliteren. Code en data zijn beschikbaar op: https://github.com/XiaoyuYoung/APO.
Zelfconsistentie detecteert hallucinaties door meerdere bemonsterde antwoorden op een vraag te genereren en overeenstemming te meten, maar dit vereist herhaalde decoding en kan gevoelig zijn voor lexicale variatie. Semantische zelfconsistentie verbetert dit door bemonsterde antwoorden op betekenis te clusteren met natuurlijke taalinferentie, maar het voegt zowel bemonsteringskosten als externe inferentie-overhead toe. Wij tonen aan dat eerste-token-betrouwbaarheid, phi_first, berekend uit de genormaliseerde entropie van de top-K logits bij het eerste inhoudsdragende antwoordtoken van een enkele gretige decode, gelijk is aan of bescheiden beter presteert dan semantische zelfconsistentie bij gesloten-boek feitelijke vraag-antwoordtaken met korte antwoorden. Over drie 7-8B instructie-afgestemde modellen en twee benchmarks heen bereikt phi_first een gemiddelde AUROC van 0,820, vergeleken met 0,793 voor semantische overeenstemming en 0,791 voor standaard zelfconsistentie op oppervlaktevorm. Een subsumptietest toont aan dat phi_first matig tot sterk gecorreleerd is met semantische overeenstemming, en het combineren van de twee signalen levert slechts een kleine AUROC-verbetering op ten opzichte van phi_first alleen. Deze resultaten suggereren dat veel van de onzekerheidsinformatie die wordt vastgelegd door multi-sample-overeenstemming reeds beschikbaar is in de initiële tokenverdeling van het model. Wij beargumenteren dat phi_first standaard gerapporteerd zou moeten worden als een laagkosten-basislijn alvorens over te gaan op op bemonstering gebaseerde onzekerheidsschatting.
In single-stream autoregressieve interfaces werken dezelfde tokens zowel als update van de modelstatus als als onherroepelijke publieke commitment. Deze koppeling creëert een stiltebelasting: extra beraad stelt de eerste taakrelevante content uit, terwijl naïef vroeg streamen het risico loopt op voorbarige commitments die latere generaties beïnvloeden. Wij introduceren Side-by-Side (SxS) Interleaved Reasoning, waarmee de timing van openbaarmaking een controleerbare beslissing wordt binnen standaard autoregressieve generatie. SxS verweeft gedeeltelijke openbaarmakingen met voortgezette private redenering in dezelfde context, maar geeft content pas vrij wanneer deze wordt ondersteund door de redenering tot dan toe. Om een dergelijke pacing aan te leren zonder vulmateriaal te stimuleren, construeren we *entailment*-gealigneerde verweven trajecten door antwoordprefixen te matchen met ondersteunende redeneerprefixen, en trainen we met SFT voor de dual-action semantiek en met RL om de redeneerprestatie onder het nieuwe formaat te herstellen. Over twee Qwen3-architecturen/schalen (MoE Qwen3-30B-A3B, dense Qwen3-4B) en zowel in-domein (AIME25) als uit-domein (GPQA-Diamond) benchmarks verbetert SxS de nauwkeurigheid–content-latency Pareto trade-offs onder token-level proxies zoals de wachttijd tussen updates.
Recente vooruitgang in grote taalmodellen heeft geleid tot sterke prestaties op het gebied van redeneer- en omgevingsinteractietaken, maar hun vermogen voor creatief probleemoplossen blijft onderbelicht. Wij bestuderen dit vermogen door de lens van creatief gereedschapsgebruik, waarbij een model beschikbare objecten een nieuwe functie geeft door te redeneren over hun affordanties (gebruiksmogelijkheden) en attributen in plaats van te vertrouwen op canoniek gebruik. Als eerste stap introduceren we CreativityBench, een benchmark voor het evalueren van op affordanties gebaseerde creativiteit in grote taalmodellen. Hiertoe bouwen we een grootschalige kennisbank voor affordanties met 4K entiteiten en 150K+ affordantie-annotaties, die objecten, onderdelen, attributen en uitvoerbare gebruiksmogelijkheden expliciet koppelt. Op basis van deze kennisbank genereren we 14K gegronde taken die vereisen dat niet-voor de hand liggende, maar fysiek plausibele oplossingen worden geïdentificeerd onder bepaalde beperkingen. Evaluaties van 10 state-of-the-art grote taalmodellen, inclusief closed- en open-source modellen, tonen aan dat modellen vaak een plausibel object kunnen selecteren, maar falen in het identificeren van de correcte onderdelen, hun affordanties en het onderliggende fysieke mechanisme dat nodig is om de taak op te lossen, wat leidt tot een significante daling in prestaties. Verder satureren verbeteringen door modelschaling snel, vertaalt sterk algemeen redeneervermogen zich niet betrouwbaar naar het ontdekken van creatieve affordanties, en leveren veelgebruikte inferentiestrategieën zoals Chain-of-Thought beperkte winst op. Deze resultaten suggereren dat creatief gereedschapsgebruik een grote uitdaging blijft voor huidige modellen, en dat CreativityBench een nuttige testomgeving biedt voor het bestuderen van deze ontbrekende dimensie van intelligentie, met potentiële implicaties voor plannings- en redeneermodules in toekomstige agents.
Wij presenteren TT4D, een grootschalige, hoogfideliteit dataset voor tafeltennis. De dataset biedt meer dan 140 uur aan gereconstrueerde enkel- en dubbelspelen vanuit monoscopische televisiebeelden, voorzien van multimodale annotaties zoals hoogwaardige camerakalibraties, nauwkeurige 3D-balposities, balrotatie (spin), tijdssegmentatie en 3D-meshes van spelers over tijd. Deze rijke data vormt een nieuwe basis voor virtuele herhalingen, diepgaande spelersanalyse en robotleren. De combinatie van schaal en precisie in de dataset wordt bereikt door een nieuwe reconstructiepipeline. Eerdere methodes segmenteren eerst een spelreeks in afzonderlijke slagen op basis van het 2D-balpad, en proberen pas daarna reconstructie. Op 2D gebaseerde tijdssegmentatie faalt echter bij occlusie en wisselende camerastandpunten, wat een betrouwbare reconstructie verhindert. Wij keren dit paradigma om door eerst het volledige, niet-gesegmenteerde 2D-balpad naar 3D te tillen met een getraind 'lifting'-netwerk. Dit 3D-traject stelt ons vervolgens in staat om op betrouwbare wijze tijdssegmentatie uit te voeren. Het getrainde netwerk leidt ook de balrotatie af, gaat om met onbetrouwbare baldetecties en reconstrueert het baltraject succesvol bij sterke occlusie. Deze 'lift-first'-aanpak is noodzakelijk, aangezien onze pipeline de enige methode is die tafeltennisspelen kan reconstrueren vanuit algemene monoscopische televisiebeelden. Wij demonstreren de kwaliteit van de dataset via twee downstream-taken: het schatten van de positie & snelheid van het racket bij impact, en het trainen van een generatief model voor competitieve rally's.
Robotische systemen die interageren met de fysieke wereld moeten redeneren over kinematische en dynamische beperkingen opgelegd door hun eigen belichaming, hun omgeving en de taak die voorligt. Wij introduceren KinDER, een benchmark voor Kinematisch en Dynamisch Belichaamd Redeneren die zich richt op fysieke redeneeruitdagingen die ontstaan bij robotleren en -planning. KinDER omvat 25 procedureel gegenereerde omgevingen, een Gymnasium-compatibele Python-bibliotheek met geparametriseerde vaardigheden en demonstraties, en een gestandaardiseerde evaluatiesuite met 13 geïmplementeerde basislijnen die taak- en bewegingsplanning, imitatieleren, reinforcement learning en op foundation-modellen gebaseerde benaderingen omvatten. De omgevingen zijn ontworpen om vijf kernuitdagingen voor fysiek redeneren te isoleren: basis ruimtelijke relaties, niet-grijpbare multi-objectmanipulatie, gereedschapsgebruik, combinatorische geometrische beperkingen en dynamische beperkingen, losgekoppeld van perceptie, taalbegrip en toepassingsspecifieke complexiteit. Empirische evaluatie toont aan dat bestaande methoden moeite hebben met het oplossen van veel van de omgevingen, wat duidt op aanzienlijke hiaten in huidige benaderingen van fysiek redeneren. Wij voegen ook real-to-sim-to-real experimenten toe op een mobiele manipulator om de correspondentie tussen simulatie en fysieke interactie in de echte wereld te beoordelen. KinDER is volledig open-source en bedoeld om systematische vergelijking tussen diverse paradigma's mogelijk te maken voor de vooruitgang van fysiek redeneren in de robotica. Website en code: https://prpl-group.com/kinder-site/