Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Rolspelende taalagenten (RPLA's) moeten personages spelen waarvan de waarden en het gedrag evolueren naarmate het verhaal vordert, in plaats van een vaststaande persona te behouden. Bestaande benchmarks meten feitelijke herinnering in een bepaald hoofdstuk, niet of antwoorden aansluiten bij het psychologische traject van het personage, vooral in scenario's die de brontekst nooit onderzoekt. Wij introduceren ArcANE (Arc-Aware Narrative Evaluation), een automatisch geconstrueerde benchmark die 17 romans en 80 hoofdpersonages bestrijkt. Een karakterboog segmenteert het verhaal in fasen langs een psychologische as, en elke proefvraag stelt hetzelfde scenario voor in verschillende fasen, zowel voor situaties binnen de brontekst als situaties daarbuiten. Over zes modellen en zes contextmodi heen presteert conditioneren op de karakterboog beter dan elke andere contextstrategie op elk model, en het verschil is het grootst in scenario's buiten de brontekst, waar retrieval niets te vinden heeft. Verder stemmen we open-gewichtsmodellen fijn op dezelfde data om ArcANE-8B/32B te verkrijgen, die het Arc-voordeel nog verder vergroten bij scenario's buiten de brontekst.
Agenten worden veelvuldig ingezet als assistenten voor documenten, hulpmiddelen en code. Ze reageren echter doorgaans alleen op expliciete gebruikersverzoeken, die alleen de problemen aan het licht brengen die de gebruiker heeft opgemerkt, terwijl er vele andere belangrijke problemen naast elkaar bestaan, verborgen in het volle zicht, binnen de bredere gebruikerscontext, waarvan het totale aantal vooraf onbekend is. We formuleren dit als de taak van het ontdekken van meerdere verborgen problemen uit de context, waarbij naast elkaar bestaande problemen moeten worden blootgelegd, onderbouwd met ondersteunend bewijs, en gekoppeld aan concrete acties. Daartoe introduceren we TIDE, een sjabloongestuurd iteratief raamwerk met twee complementaire mechanismen. In het bijzonder, gemotiveerd door de observatie dat eenmalige voorspelling zich richt op de meest opvallende gevallen en algemene beweringen oplevert, stellen we iteratieve ontdekking voor, die per ronde een kleine reeks kandidaten naar boven brengt, daarbij conditionerend op wat al is gevonden, zodat volgende rondes de dekking uitbreiden; en denkpatroonsjablonen, herbruikbare schema's die zijn gedestilleerd uit eerder opgeloste gevallen en die specificeren op welke contextuele signalen moet worden gelet en hoe deze te verbinden, waarbij elke voorspelling wordt verankerd in een herkenbare probleemklasse. We valideren TIDE in twee realistische omgevingen, persoonlijke werkruimten en software repositories, over vier modelbackbones, en tonen substantiële verbeteringen aan ten opzichte van eenmalige en parallelle multi-agent baselines op het gebied van taakdekking, identificatie en resolutie.
Planning voor echte wereldproblemen door taalmodellen omvat vaak zowel wereld- als gebruikersbeperkingen, die mogelijk niet vooraf volledig gespecificeerd zijn en geleidelijk worden onthuld door middel van interactie. Echter, bestaande benchmarks verkennen adaptieve planning onder dergelijke progressief onthulde dubbele beperkingen nog onvoldoende. Om deze leemte aan te pakken, introduceren we AdaPlanBench, een dynamische interactieve benchmark voor het evalueren of Large Language Model (LLM)-agenten adaptief kunnen plannen en herplannen onder progressief onthulde wereld- en gebruikersbeperkingen. AdaPlanBench is gebouwd op 307 huishoudelijke taken, met een schaalbare pijplijn voor het construeren van beperkingen die elke taak voorziet van dubbele beperkingen. Tijdens uitvoering interageren agenten met de omgeving in een meer-stappenprotocol waarbij verborgen beperkingen alleen worden onthuld wanneer de agent een plan voorstelt dat deze schendt, wat iteratieve planningsherziening vereist onder accumulerende feedback. Dit maakt planning uitdagend, aangezien agenten beperkingen moeten afleiden en bijhouden uit feedback terwijl ze effectief herplannen. Experimenten met tien toonaangevende LLM's tonen aan dat adaptieve planning onder dubbele beperkingen uitdagend blijft, waarbij het beste model slechts 67,75% nauwkeurigheid bereikt. We zien verder dat de prestaties afnemen naarmate er meer beperkingen accumuleren, waarbij gebruikersbeperkingen een bijzonder grote uitdaging vormen en mislukkingen vaak voortkomen uit zwakkere fysieke verankering en verminderde effectiviteit. Deze resultaten vestigen AdaPlanBench als een testbed voor interactieve planning met dubbele beperkingen en benadrukken de uitdaging van betrouwbare aanpassing aan dynamisch onthulde beperkingen in LLM-agenten.
Wij introduceren VideoKR, het eerste grootschalige trainingscorpus dat specifiek is ontworpen om kennis- en redeneerintensief videobegrip te versterken. Het omvat 315K videoredeneervoorbeelden over 145K nieuw verzamelde, CC-gelicentieerde expertdomeinvideo's. Wij ontwikkelen een human-in-the-loop, vaardigheidsgerichte voorbeeldgeneratiepijplijn die zich richt op progressief diepere videoredeneercapaciteiten, terwijl de moeilijkheid, diversiteit en betrouwbaarheid van zowel de voorbeelden als hun CoT-redeneringen wordt gewaarborgd. Daarnaast cureren wij VideoKR-Eval, een nieuwe expert-geannoteerde benchmark waarbij vragen oprecht videobegrip en kennisintensief redeneren vereisen in plaats van tekstuele shortcuts. Onze experimenten tonen aan dat, onder een standaard SFT→GRPO-pijplijn, modellen die post-getraind zijn op VideoKR beter presteren dan eerdere post-trainingbenaderingen op kennisintensief videoredeneren, terwijl zij concurrerend blijven op algemeen videoredeneren, wat het databeleid benadrukt als een belangrijke drijfveer voor vooruitgang in videoredeneren. Verder voeren wij uitgebreide ablatiestudies uit om de bijdragen van VideoKR te isoleren, hetgeen bruikbare inzichten biedt voor toekomstig werk.
Eerder werk heeft aangetoond dat grote taalmodellen (LLMs) onbekende of laag-resource talen kunnen vertalen door middel van voortgezette training of zelfs door het coderen van een grammaticaboek in hun context. Beide methoden hebben echter de neiging om overmatig te passen op specifieke talen, met beperkte zero-shot transfer tijdens het testen. Om extreem laag-resource talen op grote schaal te vertalen, stellen wij dat LLMs de meta-vaardigheid moeten verwerven om in-context linguïstische kennis te benutten in plaats van specifieke talen te memoriseren. In dit artikel stellen we een reinforcement learning (RL) aanpak voor voor vertaling van onbekende talen met een rijke linguïstische context, waarbij we een oppervlakkige vertaalmetriek (chrF) als beloning gebruiken. Empirisch gezien, ondanks de lichte beloning, extraheren en passen onze met RL getrainde modellen effectief relevante linguïstische informatie uit de geboden context toe, wat leidt tot betere vertalingen van volledig onbekende talen dan in-context learning of supervised fine-tuning. Onze analyses suggereren dat op uitkomsten gebaseerde RL verder kan reiken dan conventionele redeneertaken zoals wiskunde en coderen, om te dienen als een recept voor taalleren uit context.
Hoewel huishoudrobots vaak worden geëvalueerd op basis van taakvoltooiing, komen in alledaagse huishoudelijke omgevingen situaties met conflicterende waarden voor waarin van robots wordt verwacht dat zij acties kiezen die andere waarden dan taaksucces prioriteren, zoals menselijke autonomie, efficiëntie of sociale gepastheid. Toch bestaan er geen benchmarks om de waardevoorkeuren van robots in dergelijke scenario's te evalueren. Wij introduceren RobotValues, een benchmark om planners van huishoudrobots te evalueren in 10.000 waardegeschillenscenario's. Elk voorbeeld bestaat uit een realistische huishoudelijke afbeelding met meerdere plausibele robotacties die verschillende menselijke waarden prioriteren. We construeren RobotValues door middel van LLM-ondersteunde scenariogeneratie, belanghebbende-gefundeerde waarde-extractie, beeldgeneratie en automatische kwaliteitscontrole. Met RobotValues evalueren we in de robotica gebruikte VLMs en ontdekken dat modellen standaard waardevoorkeuren vertonen, waaronder veiligheid en accommodatie, terwijl zij minder vaak kiezen voor privacy prioriterende acties. Wanneer de modellen worden geïnstrueerd om specifieke waarden te prioriteren die conflicteren met hun eigen voorkeuren, slagen zij er vaak niet in hun standaardacties te overschrijven, en kiezen zij in 80% van de keren een verkeerde actie. Deze bevindingen suggereren dat evaluatie van huishoudrobots niet alleen taakvoltooiing of veiligheidsnaleving moet meten, maar ook of robots kunnen kiezen tussen plausibele acties wanneer menselijke waarden conflicteren.
We bestuderen de setting van visuele vraagbeantwoording voor de persoonlijke camerarol. In deze setting heeft een conversationele AI-assistent toegang tot de persoonlijke camerarol van een gebruiker en kan relevante foto's ophalen om vragen te beantwoorden, variërend van eenvoudige feitelijke vragen (bijv. "Hoe heette het eten dat ik gisteren heb geprobeerd?") tot meer open vragen (bijv. "Beveel enkele gerechten aan die ik nog nooit heb gegeten"). Gezien de omvangrijke aard van de persoonlijke camerarol (meerdere jaren, honderden tot duizenden foto's) moet een succesvolle AI-assistent een langdurige, sterk gepersonaliseerde stroom van visuele inhoud begrijpen om door de juiste en/of relevante informatie te navigeren en deze te lokaliseren. Ter ondersteuning hiervan verzamelen en annoteren we handmatig vragen die het echte gebruik nabootsen. De uiteindelijke dataset, camroll, bevat 50 gebruikers, 31.476 afbeeldingen en 2.500 QA-paren. Verder ontwerpen we camroll-agent, een conversationele AI-agent uitgerust met hiërarchisch geheugen en een minimale set hulpmiddelen voor efficiënte navigatie over een grote, gepersonaliseerde visuele herinnering. Experimentele resultaten tonen aan dat camroll-agent beter presteert dan talrijke basislijnen en methoden voor AI-agentsystemen voor begrip van lange context. Samen benadrukken de camroll-dataset en camroll-agent de kloof in het redeneren over lange context door AI-agenten: gepersonaliseerd visueel geheugen vereist andere benaderingen dan standaard tekstueel geheugen voor lange context, vooral wanneer consistentie, visuele details en gebruikersspecifieke context aanwezig zijn.
Het ontwikkelen van uniforme videogeneratie- en bewerkingsmodellen die in staat zijn om afgewisselde multimodale invoer te interpreteren, is een veelbelovend maar uitdagend grensgebied. Bestaande uniforme raamwerken zijn voornamelijk afhankelijk van massieve modellen (doorgaans 13B parameters of meer) en integreren bronvideocondities voor bewerking door sequentietokens aaneen te schakelen. Deze aaneenschakeling verdubbelt onvermijdelijk de sequentielengte, waardoor de rekencomplexiteit van het zelfaandachtsmechanisme verviervoudigt en een onbetaalbare overhead ontstaat. Om deze knelpunten aan te pakken presenteren wij LoomVideo, een zeer efficiënte 5B-parameter uniforme architectuur voor zowel videogeneratie als -bewerking. LoomVideo vervangt de standaard tekstencoder door een Multimodaal Groot Taalmodel (MLLM) en gebruikt een Deepstack-injectiemechanisme om MLLM-kenmerken op meerdere lagen af te stemmen op de Diffusietransformator (DiT). Cruciaal is dat wij een zero-overhead Scale-and-Add-conditioneringsaanpak introduceren voor videobewerking. Door de schone bronvideo-latent direct op te schalen en toe te voegen aan de geruiste doellatent, elimineert dit elegante ontwerp de noodzaak voor token-aaneenschakeling, waardoor de rekenkosten drastisch worden verlaagd terwijl robuuste mogelijkheden voor complexe, niet-rigide bewerkingen behouden blijven. Bovendien wordt een Negatieve Temporele RoPE-strategie naadloos geïntegreerd om meerdere referentieafbeeldingen te verwerken. Uitgebreide experimenten tonen aan dat ons compacte 5B-model state-of-the-art of zeer competitieve prestaties levert op uitgebreide benchmarks, met uitzonderlijke superioriteit in e-commerce- en fashion-generatiescenario's. Dankzij het zero-overhead-conditioneringsmechanisme bereikt LoomVideo ten minste een 5,41x versnelling in inferentiesnelheid vergeleken met modellen met vergelijkbare mogelijkheden, wat de weg vrijmaakt voor zeer praktische en efficiënte videobasismodellen.
Standaard continue-tijdsgeneratieve modellen vertrouwen op monolithische architecturen die door enorm verschillende signaalregimes moeten navigeren, van isotrope ruis tot ingewikkelde gegevensdistributies. Hoewel het opschalen van de modelcapaciteit de prestaties verbetert, is het inzetten van een massief netwerk uniform over de volledige generatieve tijdlijn inherent inefficiënt. In dit werk introduceren we Complexity-Balanced Splitting (CBS), een gefundeerd raamwerk voor temporele capaciteitstoewijzing dat de generatieve werklast verdeelt over meerdere gespecialiseerde subnetwerken. Gegrond in functiebenaderingstheorie en de Boors equidistributieprincipe, verdeelt CBS de diffusietijdlijn in segmenten met gelijke benaderingslast, waarbij meer representatiecapaciteit wordt toegewezen aan regio's waar de generatieve dynamiek moeilijker te modelleren is. Om deze lokale complexiteit te schatten, introduceren we twee complementaire en hanteerbare monitorfuncties: een ruimtelijke maatstaf gebaseerd op de Dirichlet-energie van de stroming, en een geometrische maatstaf gebaseerd op de versnelling van de bemonsteringstrajecten. Door een lichtgewicht hulpmodel te gebruiken om deze complexiteitsprofielen te schatten, elimineert onze aanpak de noodzaak voor heuristische temporele splitsingen of rekenintensieve zoekprocedures. Uitgebreide evaluatie over meerdere architecturen (SiT, JiT en UNet) en datasets toont aan dat CBS consistent de synthesekwaliteit verbetert zonder de inferentiekosten per stap te verhogen. In het bijzonder verbetert CBS de FID met ~35% op SiT-XL met CFG in vergelijking met naïeve temporele partitionering. De projectpagina is beschikbaar op https://noamissachar.github.io/CBS/.
Ervaringsinternalisatie zet contextuele ervaring uit eerdere interacties om in herbruikbare parametrische capaciteit en biedt daarmee een veelbelovende weg naar continu leren in grote taalmodellen (LLMs). Terwijl eerder werk zich voornamelijk richtte op overdracht in één iteratie, ontdekken wij dat bestaande methoden bij ervaringsleren over meerdere iteraties lijden aan een progressieve capaciteitsinstorting in plaats van cumulatieve verbetering. We onderzoeken dit falen systematisch aan de hand van drie vitale dimensies van ervaringsinternalisatie: (1) Granulariteit van ervaring: We vinden dat ervaring op principeniveau duurzamer is dan ervaring op instantieniveau, omdat het effectief overdraagbare strategieën abstraheert van traject-specifieke details. (2) Patroon van ervaringsinjectie: Onze analyse laat zien dat stapsgewijze injectie significant beter presteert dan globale injectie door ervaring af te stemmen op tussentijdse beslissingstoestanden, een eigenschap die cruciaal is voor langetermijngebruik van hulpmiddelen. (3) Internalisatieregime: We tonen aan dat off-policy contextdestillatie op trajecten van een leraar van hoge kwaliteit een aanzienlijk stabieler trainingssignaal oplevert dan on-policy contextdestillatie, dat inherent wordt beperkt door lokale correcties op door de student veroorzaakte foutieve toestanden. Samen bieden deze inzichten een eenvoudig maar robuust recept voor stabiele en duurzame ervaringsinternalisatie, en geven concrete richtlijnen voor het ontwikkelen van zelfevoluerende en continu lerende grote taalmodellen.
Bestaande datasets voor autonoom rijden hebben aanzienlijke vooruitgang mogelijk gemaakt, maar schieten tekort op het gebied van sensorgetrouwheid, kaartvolledigheid of geografische diversiteit. Wij presenteren KITScenes Multimodal, een Europese dataset die is opgebouwd rond hooggetrouwe sensoren en kaarten. Onze volledig gesynchroniseerde sensoropstelling combineert camera’s met een hoge resolutie en een globale sluiter, langeafstands-lidar tot meer dan 400 m, 4D-beeldvormingsradar en redundante GNSS/INS-lokalisatie. Onze HD-kaarten zijn, naar ons weten, de meest complete van elke sensordataset, gevalideerd door middel van autonome rijtests met opensourcesoftware. Voor het eerst in een openbare dataset worden alle voor het rijden relevante verkeerselementen, zoals verkeerslichten, in 3D in kaart gebracht op een herprojectienauwkeurig niveau met volledige topologische connectiviteit. Opgenomen in steden met onregelmatige straatindelingen en gemengde verkeersmodi, vult onze dataset bestaande datasets aan door de beschikbare geografische diversiteit te vergroten. We introduceren ook vier benchmarks, die elk het ruimtelijk leren voor belichaamde AI bevorderen: online HD-kaartconstructie, schatting van diepte op lange afstand, synthese van nieuwe aanzichten en end-to-end rijden. Projectpagina: https://kitscenes.com/
Videogeneratiemodellen hebben indrukwekkende vooruitgang geboekt in het synthetiseren van visueel aantrekkelijke content, maar hun output blijft beperkt tot het virtuele domein. Een logische vraag volgt: hoe goed weerspiegelen deze modellen de fysieke wereld wanneer hun gegenereerde video's het scherm verlaten en de werkelijkheid betreden? Wij stellen robotmanipulatie voor als een concreet, meetbaar venster op deze vraag: als een model de natuurkundige wetten werkelijk heeft geïnternaliseerd, zou de beweging die het toont moeten kunnen worden omgezet in uitvoerbaar robotgedrag. We introduceren Dream.exe, een evaluatiekader dat dit criterium operationaliseert via een video-naar-uitvoering-pijplijn. Op basis van een scèneafbeelding en een taakbeschrijving synthetiseert Dream.exe een manipulatievideo, zet de gegenereerde beweging om in robottrajecten en voert deze uit in een fysicasimulator, wat een verankeringssignaal oplevert dat puur visuele metrieken niet kunnen bieden. Met behulp van deze pijplijn evalueren we 8 modellen, variërend van geavanceerde closed-source generatoren, open-source generatoren tot robotspecifieke modellen. Onze benchmark omvat 101 handmatig samengestelde manipulatietaken op drie niveaus van fysieke complexiteit, gemeten op visuele kwaliteit, trajectgetrouwheid en uitvoeringssucces. Bemoedigend is dat verschillende modellen meetbaar uitvoeringssucces behalen, wat suggereert dat generatieve voorkennis die is geleerd uit internetbrede data al betekenisvolle fysieke kennis codeert. Toch blijkt visuele kwaliteit een slechte voorspeller van uitvoerbaarheid, wat een dimensie van modelcapaciteit blootlegt die standaard visuele evaluaties niet vatten. Dream.exe zal open-source worden gemaakt op https://github.com/showlab/Dream.exe.
Inferentie-tijdvaardigheiduitbreiding biedt een lichtgewicht manier om data-analytische agenten te verbeteren door herbruikbare procedurele kennis te injecteren zonder modelparameters bij te werken. Het ontdekken van effectieve vaardigheden voor data-analyse blijft echter uitdagend, omdat betrouwbaar toezicht duur is en succescriteria variëren per analytisch formaat. Dit roept de cruciale vraag op hoe herbruikbare data-analysevaardigheden uitsluitend uit ongelabelde verkenning kunnen worden ontdekt. Wij stellen DataCOPE voor, een ongesuperviseerd verifieerder-gestuurd vaardigheidsontdekkingsraamwerk voor data-analytische agenten. DataCOPE leidt verifieerder-signalen af uit de verkenningspaden en gebruikt deze om de relatieve kwaliteit of overeenstemming tussen paden te karakteriseren. Het coördineert iteratief een Data-Analytische Agent voor trajectgeneratie, een Ongesuperviseerde Verifieerder voor signaalextractie, en een Vaardigheidsbeheerder voor contrastieve vaardigheidsdestillatie. Voor rapportstijlanalyse instantiëren we de verifieerder als een Adaptieve Checklist Verifieerder die taakspecifieke criteria afleidt, rapporten scoort op verifieerbare dekking, en de checklist iteratief verfijnt. Voor redeneerstijlanalyse instantiëren we deze als een Antwoordovereenstemmingsverifieerder die trajecten groepeert op basis van antwoordovereenstemming en zelfconsistentie gebruikt als een hulpsignaal. We evalueren DataCOPE op rapportstijlanalyse van Deep Data Research en redeneerstijlanalyse van DABStep. In beide omgevingen verbetert DataCOPE consistent de prestaties op niet-geziene gegevens ten opzichte van baselines. Gemiddeld over vier modelinstellingen verbetert DataCOPE de gemiddelde score met respectievelijk 9,71% en 32,30% voor rapportstijl- en redeneerstijltaken.
Grote taalmodellen kunnen trainingsdata reproduceren, maar bestaande memorisatie-evaluaties meten vooral of modellen daartoe gedwongen kunnen worden, in plaats van of zij dit doen onder normaal gebruik. We introduceren PropMe, een neiging-bewust raamwerk voor memorisatie-evaluatie dat prefix-gebaseerde capaciteitsaanvallen contrasteert met niet-adversariële evaluaties. We stellen een metrische transformatie voor die, toegepast op bestaande functies, het mogelijk maakt neigingsmetrieken te creëren. Verder introduceren we SimpleTrace, een lichtgewicht traceringspijplijn gebouwd op infini-gram die modelgeneraties deterministisch toeschrijft aan grootschalige trainingscorpora en letterlijke, bijna-letterlijke en neiging-getransformeerde memorisatiemetrieken berekent. Bij het evalueren van twee volledig open modellen: Comma en DFM Decoder op twee datasets: Common Pile en Dynaword in twee talen, vinden we een consistente kloof tussen capaciteit en neiging: prefix-aanvallen lokken aanzienlijk sterkere memorisatiesignalen uit dan generieke of datasetspecifieke prompts, terwijl neigingsscores over het algemeen laag blijven. De modellen kunnen dus trainingsdata onthullen wanneer direct uitgelokt, maar doen dit zelden in meer gangbare niet-adversariële omgevingen. We vinden ook dat DFM Decoder, die continu is voorgetraind vanuit Comma, verminderde memorisatie en memorisatieneiging voor Common Pile vertoont, wat bevestigt dat memorisatiecapaciteit kan afnemen wanneer latere training de nadruk legt op gedeeltelijk andere data. Onze resultaten suggereren, en we moedigen aan, dat memorisatie-audits zowel de worst-case extraheerbaarheid als de gewone lekkage-neiging moeten rapporteren om een vollediger beeld van dit fenomeen te krijgen.
On-policy destillatie (OPD) begeleidt de student uitsluitend in de outputruimte door het matchen van volgende-tokenkansen. Dit uitsluitend-outputparadigma kent twee beperkingen: (1) steekproefvariantie van Monte Carlo KL-schattingen over grote vocabulaires (bijv. Qwens ~150k tokens) blijft gedurende de training bestaan, en (2) het behandelt de leraar als een zwarte doos, waarbij alle tussentijdse verborgen toestanden na de LM-kop worden genegeerd. Wij stellen On-Policy Representatiedestillatie (OPRD) voor, die destillatie naar de verborgen-toestandruimte tilt door student- en leraarrepresentaties over geselecteerde lagen op dezelfde rollouts uit te lijnen, waarbij de LM-kop volledig wordt omzeild. Theoretisch elimineert OPRD steekproefvariantie en biedt het rijkere structurele informatie per laag. Empirisch gezien sluit OPRD de student-leraarkloof op AIME 2024/2025 en AIMO, terwijl outputruimte OPD-baselines onder de leraar plafonneren. OPRD traint ook 1,44x sneller en gebruikt 54% minder geheugen dan top-k OPD. Code: https://github.com/ShenzhiYang2000/OPRD.
Selectie is een kernbewerking in interactieve beeldbewerking. Om praktisch te zijn, moet een gebruiker het gewenste selectiegebied kunnen specificeren en ontwarren via tekst- of klikgebaseerde interacties, en het systeem moet niet alleen objecten ondersteunen, maar ook andere criteria, zoals materialen. Materiaalgebaseerde selectie is waardevol voor taken zoals het hertextureren van oppervlakken of het bewerken van exemplaren van een specifiek materiaal. Echter, bestaande op visueel-taalmodel (VTM) gebaseerde selectiemethoden zijn objectgericht en ondersteunen doorgaans een enkele interactiemodaliteit, wat hun toepasbaarheid beperkt. In dit werk presenteren wij daarom Mask Any Object And Material (MAOAM), een uniform selectieraamwerk dat nauwkeurige object- en materiaalniveauselectie mogelijk maakt bij zowel tekst- als klikgebaseerde interacties. MAOAM maakt gebruik van een VTM met een segmentatiekop om pixelnauwkeurige maskers te produceren op basis van gebruikersprompts: de VTM interpreteert de selectie-intentie van de gebruiker (object- of materiaalniveau) en codeert visuele entiteiten, attributen en ruimtelijke relaties, terwijl de segmentatiekop de uitvoertoken decodeert naar een masker. Een belangrijke uitdaging is het gebrek aan materiaalselectiedatasets met tekstannotaties. Wij stellen een schaalbare datageneratiepijplijn voor: we verzamelen echte en synthetische afbeeldingen met materiaalmaskers, en maken gebruik van VTM's om materiaalbeschrijvingen met rijke visueel-semantische kenmerken te genereren. Wij trainen MAOAM met een meervoudige taakdoelstelling voor klik- en tekstgebaseerde selectie, samen met een aanvullende VQA-taak afgeleid van de materiaalbeschrijvingen om een dieper materiaalbegrip te bevorderen. Ondanks dat het model is getraind met unimodale prompts, vertoont het een emergente verbetering in selectie bij het combineren van tekst en klikken tijdens de inferentie, wat flexibele beeldbewerkingsworkflows mogelijk maakt. Experimenten tonen nauwkeurige en coherente selecties aan over diverse objecten, materialen en interactiescenario's, wat de robuustheid in de praktijk benadrukt.
Schaling tijdens inferentie is een cruciale benadering geworden om de prestaties van grote taalmodellen te verbeteren, maar praktische inzet wordt beperkt door strikte rekenbudgetten. In dit werk formuleren we de toewijzing van inferentiebudgetten als een globaal beperkt optimalisatieprobleem dat wordt beheerst door economische principes. Door het redeneringsnut per query te modelleren met een verschoven-piekfunctie, leiden we een optimaal toewijzingsbeleid af op basis van een globale schaduwprijs die het marginale nut in evenwicht brengt onder schaarste van middelen. Op basis van deze theorie stellen we CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning) voor. Deze methode voert rationele abandonnering uit en wijst middelen opnieuw toe van onrendabele queries naar oplosbare queries die hun opkomstdrempels naderen. Uitgebreide experimenten op verschillende redeneringstaken met uiteenlopende verkeersstromen tonen aan dat CLEAR de Pareto-grens van totale tokenkosten versus gemiddelde nauwkeurigheid aanzienlijk verbetert. In schaarste-regimes bereikt CLEAR een verbetering van de globale nauwkeurigheid tot 3x vergeleken met uniforme toewijzing.
Video-gebeurtenisvoorspelling (VGV) vereist dat modellen niet-waargenomen toekomstige toestanden afleiden uit gedeeltelijk videobewijs. Bestaande video-MLLM's verbaliseren doorgaans tussenliggende toekomstige redeneringen in de tekstuele ruimte: zodra visueel bewijs is verbaal gemaakt, kunnen fijnmazige aanwijzingen over beweging, geometrie en interactie verloren gaan, wat leidt tot plausibele maar visueel ongegronde hallucinaties. Wij introduceren Future-L1, een interleaved latent visueel redeneerframework dat een MLLM in staat stelt om tijdens autoregressieve decodering af te wisselen tussen taaltokens en continue latente visuele reeksen. Om deze mogelijkheid te trainen, construeren we Future-L1-50K door voorbeelden te selecteren waarin toekomstige visuele hints de voorspelling helpen en latente toestanden worden uitgelijnd met toekomstige frame-embeddings. Vervolgens optimaliseren we verder bemonsterde latente trajecten met LA-DAPO, een latent-bewuste RL-doelfunctie met uitkomst-contrastieve en temporele-diversiteitsbeloningen. Future-L1 behaalt nieuwe state-of-the-art resultaten op beide benchmarks: op FutureBench verbetert het Qwen3-VL-8B van 61,0 naar 85,4 en overtreft het de voorgaande beste Video-CoE met 10,4 punten; op TwiFF-Bench verbetert het de gemiddelde score van 2,44 naar 3,04. Deze resultaten suggereren dat toekomstgerichte videoredenering baat heeft bij het behouden van tussenliggende visuele semantiek in de latente ruimte, in plaats van elke redeneerstap naar tekst te vertalen.
Wij stellen wereld-taal-actiemodellen (WLA-modellen) voor als een nieuwe klasse van belichaamde funderingsmodellen. WLA neemt tekstuele instructies, afbeeldingen en robottoestanden als invoer om gezamenlijk tekstuele subtaken, subdoelafbeeldingen en robotacties te voorspellen, waarbij de wereldmodelleringsinterface wordt samengevoegd om te leren van uitgebreide egocentrische video's zoals in het wereld-actiemodel (WAM) en de taalredeneringscapaciteiten om complexe langetermijntaken op te lossen zoals in visie-taal-actiemodellen (VLA-modellen). De kern van WLA wordt gevormd door een autoregressieve (AR) Transformator-backbone, in plaats van een bidirectionele diffusie-Transformator zoals in WAM's, om de volgende toestand te voorspellen, bestaande uit de semantische tekstuele intentie en complementaire fijnmazige fysieke dynamica. De fysieke dynamica wordt gesuperviseerd door de wereldmodelleringsdoelstelling op basis van een toegewijde WereldExpert, en wordt gebruikt om de karakterisering van de toestand-actiecorrelatie voor de ActieExpert te vereenvoudigen. WLA gebruikt meta-query's om ervoor te zorgen dat de wereldvoorspelling impliciet van invloed is op de actiegeneratie, zodat de eerste kan worden uitgeschakeld tijdens inferentie. De wereldvoorspelling kan ook worden geactiveerd om testtijdschaling mogelijk te maken voor verbeterde robotbesturing. Ons WLA-0-prototype, met 2B actieve parameters, bereikt 40 ms per inferentie op een NVIDIA RTX 5090. Evaluaties in zowel gesimuleerde als echte omgevingen tonen aan dat WLA-0 state-of-the-art multitask- en langetermijnleervermogens behaalt, bijvoorbeeld een slagingspercentage van 92,94% op RoboTwin2.0 Clean en 56,5% op RMBench. WLA-0 belooft ook nieuwe taken rechtstreeks te leren van cross-embodiment robotvideo's zonder actieannotaties.
Geheugenverbeterde LLM-agenten pakken complexe lange-termijntaken aan door interactietrajecten recursief samen te vatten in compact geheugen. Bestaande benaderingen trainen deze geheugenbeleidsregels echter doorgaans met uitkomstgebaseerd versterkend leren, waarbij niet wordt gelokaliseerd waar de tussentijdse geheugenkwaliteit verslechtert. Naarmate interacties vorderen, verwijderen dubbelzinnige recursieve samenvattingen progressief taakrelevante informatie en introduceren ze semantische ruis. Dit verergert de geloofsafwijking, vertroebelt de schatting van de agent van de latente taaktoestand en leidt uiteindelijk tot ontsporing van lange-termijnredeneringen. Wij betogen daarom dat geheugenoptimalisatie zich niet alleen moet richten op succes op trajectniveau, maar op de helderheid van het geloof dat door tussentijdse samenvattingen wordt geïnduceerd. Hiertoe introduceren we Belief Entropy, een zelfsuperviserende proxy die onderzoekt hoe onzeker het model blijft over de latente taaktoestand gegeven het huidige geheugen. Op basis van deze proxy stellen we Metacognitieve Geheugenbeleidsoptimalisatie (MMPO) voor. In plaats van alleen te vertrouwen op schaarse uitkomstgebaseerde signalen, biedt MMPO fijnmazige, geheugenspecifieke supervisie door expliciet samenvattingen te bestraffen die hoge epistemische onzekerheid induceren. Experimenten tonen aan dat MMPO consistent beter presteert dan bestaande methoden op diverse lange-termijntaken, met behoud van 97,1% prestatie zelfs bij opschaling naar contexten van 1,75M tokens.
Temporele Gronding (TG) heeft als doel videosegmenten te lokaliseren die overeenkomen met een tekstuele query. Eerder onderzoek richt zich voornamelijk op het terugvinden van enkele segmenten. In praktijksituaties is het echter vaak nodig om meerdere disjuncte segmenten te lokaliseren voor één enkele query – een situatie die wij Een-op-Veel Temporele Gronding (OMTG) noemen. Eerdere state-of-the-art MLLM's, geoptimaliseerd voor één-op-één situaties, hebben moeite in deze context, en leveren vaak bijna-nul scores op door een gebrek aan perceptie van gebeurteniskardinaliteit. Om deze kloof te overbruggen, presenteren we een systematische oplossing met drie belangrijke bijdragen. Ten eerste stellen we de eerste uitgebreide OMTG-benchmark op, waarbij we Telaccuraatheid (C-Acc) en Effectieve Temporele F1 (EtF1) als evaluatiemetrics introduceren. Ten tweede cureren we een hoogwaardige OMTG-dataset bestaande uit 56k samples via een geavanceerde constructiepijplijn. Ten derde ontwikkelen we nieuwe temporele en bijschriftbeloningsfuncties die specifiek zijn ontworpen voor OMTG. In het bijzonder maakt de bijschriftbeloning gebruik van Chain-of-Thought-redenering over dichte videobijschriften om het beleidsoptimalisatie expliciet te sturen naar zowel nauwkeurigheid als volledigheid. Uitgebreide experimenten tonen aan dat ons model een nieuwe state-of-the-art EtF1 van 43,65% behaalt op OMTG Bench, waarmee het Gemini 2.5 Pro en Seed-1.8 met respectievelijk 15,85% en 15,61% overtreft.
Large language model (LLM)-agenten worden steeds vaker toegepast voor langetermijn taken zoals wetenschappelijke ontdekkingen en machine learning engineering (MLE), waarbij aanhoudende zelfevolutie een cruciale eigenschap wordt. Bestaande MLE-agenten lijden echter onder informatie-isolatie tussen takken, geheugenloos zoeken en een gebrek aan hiërarchische controle, wat gezamenlijk de optimalisatie op lange termijn belemmert. Wij presenteren MLEvolve, een op LLM gebaseerd zelf-evolverend multi-agent raamwerk voor end-to-end ontdekking van machine learning algoritmen. Door boomzoeken uit te breiden naar Progressieve MCGS, maakt MLEvolve informatie-uitwisseling tussen takken mogelijk via grafiekgebaseerde referentieranden en verschuift het geleidelijk het zoeken van brede exploratie naar gerichte exploitatie met een entropie-geïnspireerd progressief schema. Om de agent in staat te stellen te evolueren met opgebouwde ervaring, introduceren we Retrospectief Geheugen, dat een koude-start domeinkennisbank combineert met een dynamisch globaal geheugen voor taakspecifieke ervaringsopvraging en -hergebruik. Voor stabiele langetermijn iteratie ontkoppelen we verder strategische planning van codegeneratie met adaptieve codeermodi. Evaluatie op MLE-Bench toont aan dat MLEvolve state-of-the-art prestaties levert op meerdere dimensies, waaronder gemiddeld medaillepercentage en geldig inzendingspercentage binnen een budget van 12 uur (de helft van de standaard looptijd). Bovendien overtreft MLEvolve gespecialiseerde algoritme-ontdekkingsmethoden, waaronder AlphaEvolve, op wiskundige algoritme optimalisatietaken, wat sterke cross-domein generalisatie aantoont. Onze code is beschikbaar op https://github.com/InternScience/MLEvolve.
Video is temporeel redundant: opeenvolgende frames delen meestal de meeste objecten, achtergrond en lay-out. Toch coderen bestaande video multimodale grote taalmodellen (video MLLM's) elk gesampled frame meestal als een onafhankelijk RGB-beeld, waardoor visuele tokens inhoud herhalen die al in eerdere frames aanwezig is. Dit suggereert een directere video-interface: stuur alleen een volledig referentieframe wanneer de scène niet goed voorspeld kan worden op basis van eerdere context, en stuur anders een compacte beschrijving van veranderingen tussen frames. We noemen deze interface een voorspellende visuele code en implementeren deze voor video MLLM's als AdaCodec. AdaCodec besteedt alleen volledige visuele tokens aan een referentieframe wanneer de conditionele voorspellingskost hoog is; anders codeert het veranderingen tussen frames, waaronder bewegings- en voorspellingsresiduen, als compacte P-tokens. Over alle elf benchmarks heen presteert AdaCodec beter dan de Qwen3-VL-8B per-frame RGB-baseline bij een gematcht visueel tokenbudget. Zelfs met 1/7 van het budget overtreft AdaCodec met 32k tokens de 224k-baseline op alle langevideobenchmarks; op vijf algemene videobenchmarks verhoogt het de gemiddelde score terwijl het de tijd tot eerste token aanzienlijk verkort van 9,26 s naar 1,62 s.
Optimalisatie van systeemprompts verbetert het gedrag van agents zonder het onderliggende model aan te passen, en levert menselijk leesbare, modelagnostische instructies op. Bestaande methoden bouwen een promptagent die de systeemprompts van taakagents verfijnt, maar laten de eigen systeemprompt van de promptagent handmatig ontworpen en vaststaand. Wij stellen Self-Evolving Prompt Optimization (SePO) voor, dat de eigen systeemprompt van de promptagent behandelt als een optimalisatiedoel samen met de systeemprompts van taakagents. SePO hanteert een zelfreferentieel ontwerp: een enkele promptagent verbetert zowel de systeemprompts van taakagents als de eigen promptmiddels een open evolutionaire zoektocht die een archief van kandidaatprompts als tussenstappen bijhoudt. De training verloopt in twee fasen: voortraining evolueert de promptagent op een multitaakpool, en fijnafstemming past hem vervolgens toe op een doeltaak. Over vijf benchmarks die wiskunde (AIME'25), abstract redeneren (ARC-AGI-1), wetenschap op masterniveau (GPQA), codegeneratie (MBPP) en logische puzzels (Sudoku) omvatten, presteert SePO consistent beter dan Manual-CoT, TextGrad en MetaSPO, met een verbetering van de gemiddelde nauwkeurigheid met 4,49 punten ten opzichte van Manual-CoT. De vaardigheid in promptoptimalisatie uit de voortraining generaliseert ook naar taken buiten de voortrainingsmengeling, in plaats van het onthouden van prompts per taak.
Multimodale Grote Taalmodellen (MLLM's) blinken uit in 2D-semantisch begrip, maar missen intrinsiek 3D-bewustzijn, wat resulteert in representaties die geen geometrische en ruimtelijke consistentie over videoframes behouden. Gezien de schaarste aan grootschalige 3D-gegevens presenteren wij GeoVR, een nieuw raamwerk dat geometrische representaties leert met behulp van uitsluitend 2D-videosequenties. Deze aanpak herstructureert effectief de semantische latentieruimte binnen MLLM's om ruimtelijke intelligentie te ontsluiten. In plaats van oppervlakkige kenmerkmenging te gebruiken, hervormt GeoVR de interne representaties van het MLLM door geometriekennis te destilleren uit voorgetrainde 3D-fundamentmodellen. Dit wordt bereikt via een multi-objectief leerstrategie, aangedreven door vier complementaire geometrische doelen: (1) het schatten van interframe-cameraposen om variërende gezichtspuntdynamieken in te bedden, (2) het regresseren van dichte dieptekaarten om fysieke afstanden te verankeren, (3) het voorspellen van een metrische schaalfactor voor realistische kalibratie, en (4) het destilleren van multischaal 3D-kenmerken om de tussenliggende kenmerkruimte uit te lijnen. Geleid door deze expliciete fysieke en geometrische beperkingen ontwikkelen de interne representaties van het model op natuurlijke wijze een sterk 3D-bewustzijn. Uitgebreide experimenten op ruimtelijk redeneerbenchmarks tonen aan dat GeoVR state-of-the-art prestaties levert en een nieuw paradigma vestigt voor het uitrusten van fundamentmodellen met ruimtelijke intelligentie.
Automatische Spraakherkenning (ASR) is een sleuteltechnologie geworden voor mens-AI-interactie. Code-switching ASR (CS-ASR) blijft echter bijzonder uitdagend vanwege het ernstige gebrek aan meertalige CS-spraakbronnen voor diverse taalparen. Bestaande benaderingen verbeteren de CS-ASR-prestaties voornamelijk door synthetische CS-spraakgeneratie of paarspecifieke fine-tuning op beperkte tweetalige datasets. Desalniettemin hebben deze benaderingen een inherente schaalbaarheidsbeperking, omdat ondersteuning voor CS afzonderlijk moet worden ontwikkeld voor taalparen waarvan het aantal combinatorisch groeit met het aantal ondersteunde talen. In dit werk onderzoeken we of CS-capaciteiten die zijn geleerd van een beperkte set geziene taalparen kunnen generaliseren naar ongeziene taalparen via modelfusie en domeingeneralisatiemethoden. Onze experimenten tonen aan dat samengevoegde tweetalige CS-ASR-modellen bescheiden generaliseren naar ongeziene taalparen, wat wijst op een beperkte overdracht van tweetalige CS-capaciteiten tussen taalparen.
Visie-Taal-Actie (VLA)-modellen benutten de rijke wereldkennis van voorgetrainde visie-taalmodellen (VTMs) om instructievolgende robotmanipulatie mogelijk te maken. De structurele mismatch tussen VTM-semantische ruimtes en belichaamde controlebeleid belemmert echter vaak het leren van precieze perceptie-actie-koppelingen. Om deze uitdaging aan te pakken, stellen we AffordanceVLA voor, een uniform raamwerk dat gestructureerde affordance-voorspelling introduceert als een taakgerichte tussentijdse representatie om een preciezere en robuustere perceptie-actie-koppeling te vestigen. Specifiek modelleren we manipulatie-priors progressief via drie complementaire componenten: 1) Which2Act voor objectgerichte grounding via visuele latente voorspelling om afleidingen te onderdrukken; 2) Where2Act voor 2D-interactielokalisatie via affordance-kaartschatting; en 3) How2Act voor 3D-geometrische redenering om manipulatiebeleid te sturen. Deze affordance-aanwijzingen bieden ruimtelijk gegronde, semantisch geconditioneerde en actiegekoppelde tussentijdse representaties, waardoor ze op natuurlijke wijze visie, taal en actie overbruggen. We integreren deze modules in een Mengsel-van-Transformers (MoT)-architectuur met gespecialiseerde experts en trainen het model met een drietraps trainingsstrategie met een progressief datacurriculum. Om de schaarste aan dichte affordance-labels in robotdatasets te overwinnen, ontwikkelen we ook een robuuste geautomatiseerde data-augmentatiepijplijn. Uitgebreide experimenten op simulatie en de echte wereld tonen aan dat AffordanceVLA sterke prestaties levert in diverse manipulatiescenario's.
Wereld-actiemodellen (WAM's) genereren gezamenlijk toekomstige video en robotacties door middel van iteratieve diffusie, behalen sterke prestaties op manipulatiebenchmarks, maar vereisen tientallen denoisingstappen, een kostprijs die real-time besturing uitsluit. Stapdestillatie is naar voren gekomen als de natuurlijke remedie, maar standaardmethoden falen in de gecombineerde video-actieomgeving omdat video- en actiestromen verschillende SNR-verschoven ruisschema's gebruiken en de training bereiken met aanzienlijk verschillende marginale ruisverdelingen, een asymmetrie die enkelvoudige-modaliteitsdestillatiemethoden niet kunnen opvangen. We introduceren Flash-WAM, een modaliteitsbewust stapdestillatieraamwerk geïnspireerd op consistentiedestillatie dat de consistentiefunctie voor elke modaliteit selecteert om overeen te komen met het ruisregime: een lineaire gradiëntschalingsparametrisatie voor het laagruisregime van de actiestroom, gekoppeld aan een variantiebehoudende parametrisatie voor het hoogruisregime van de videostroom, gebaseerd op een structurele analyse van de consistentiefunctiefamilie die de haalbare gradiëntschaling onder de consistentierandvoorwaarde karakteriseert. Geïmplementeerd op LingBot-VA comprimeert Flash-WAM de inferentie tot een enkele stap in elke modaliteit. Op RoboTwin 2.0 reduceert dit de latentie per chunk van 8,1 seconden naar 348 ms op NVIDIA L40S, een 23× versnelling die real-time inferentie mogelijk maakt. Flash-WAM behoudt taaksucces op simulatiebenchmarks (85,5% RoboTwin 2.0, 95,7% LIBERO) en herstelt aanzienlijk de prestaties in de echte wereld (gemiddeld 60% op een Unitree G1 humanoïde robot), terwijl naïeve consistentiedestillatie daalt tot 24% bij hetzelfde stapbudget.
In robotsystemen worden grote hoeveelheden visuele data eenvoudig vastgelegd met hoge resolutie met behulp van goedkope, energiezuinige hardware. Toch voorkomen beperkte bandbreedte en rekenbronnen op het apparaat volledige benutting bij verzending via conventionele codecs zoals JPEG/MPEG. Nieuwere codecs, zoals AV1/AVIF, verbeteren de snelheid-vervorming afweging, maar vereisen veel meer bronnen voor codering, wat onpraktisch is zonder aangepaste ASICs. Recente asymmetrische auto-encoders leveren hoge kwaliteit onder extreme energie- en bandbreedtebeperkingen, maar brengen onbetaalbare decoderingskosten met zich mee en gebruiken op maat gemaakte formaten die voorbijgaan aan decennia aan infrastructuur rond standaarden zoals JPEG. Om deze beperkingen aan te pakken, introduceren we een compressieraamwerk voor cloudrobotica, gebaseerd op een sensor-ingebedde auto-encoder, gekoppeld aan een eenmalige transcodering voor efficiënte reconstructie (SEAOTTER). Omdat de sensor-, cloud- en consumentenfases zeer verschillende energie- en bandbreedtebudgetten hebben, combineert SEAOTTER de compactheid van een geleerde latente representatie met de brede bruikbaarheid van een standaard JPEG-bestand. Omdat naïeve transcodering de prestaties verslechtert, stellen we een leerbare JPEG-kleuren- en kwantiseringstransformatie voor die een verhoogde nauwkeurigheid mogelijk maakt voor globale, dichte en op visie-taal gebaseerde perceptie. Met SEAOTTER trainen we zowel algemene als taakbewuste transcoderingspijplijnen voor een voorgetrainde, bevroren encoder. Bij een compressieverhouding van 200:1 en vergeleken met AVIF, observeren we 7 keer snellere codering, 3,5 keer snellere decodering en +8% ImageNet top-1 nauwkeurigheid, terwijl compatibiliteit met JPEG-infrastructuur behouden blijft. Onze code is beschikbaar op https://github.com/UT-SysML/seaotter.
Multimodale Grote Taalmodellen (MLLMs) hebben aanzienlijke prestaties geleverd bij algemene visuele vraagbeantwoordingstaken (VQA). Ze blijven echter kwetsbaar bij mechanische technische tekeningen, waar hoge annotatiedichtheid en zwakke domeinkennis, gecombineerd met onbetrouwbare redenering over ruimtelijke relaties onder strikte projectieregels en geometrische beperkingen, ervoor zorgen dat beslissende aanwijzingen gemakkelijk worden gemist en vaak tot foutieve antwoorden leiden. Om dit hiaat te overbruggen, introduceren wij de eerste uitgebreide dataset voor het begrijpen van mechanische tekeningen, MechVQA, gecreëerd via een semi-automatische constructie- en kwaliteitscontrolepijplijn. MechVQA bevat 3,3k afbeeldingen met hoge dichtheid en 21K vraag-antwoordparen, verdeeld over 10 verschillende fijnmazige taken op drie vaardigheidsniveaus: Herkenning, Redenering en Beoordeling, en biedt een testomgeving om het begrip van MLLMs van realistische mechanische tekeningen te evalueren en te verbeteren. Bovenop MechVQA ontwikkelen wij vervolgens het MechVL-model via een meerfasige trainingsparadigma, waarmee een sterke domeinspecifieke basislijn wordt gevestigd. Uitgebreide experimentele resultaten tonen aan dat MechVL de sterkste closed-source baseline met 7,57 procentpunten overtreft op de totale MechVQA-score, wat het vermogen om mechanische tekeningen te begrijpen aanzienlijk verbetert en een herbruikbare basis biedt voor de inzet van MLLMs in scenario's voor mechanisch ontwerp en inspectie.
Grote taalmodellen worden steeds vaker gebruikt om sociale mediagebruikers te simuleren en af te leiden hoe individuen kunnen reageren op online discussies. Het blijft echter onduidelijk of deze simulaties nauwkeurige gebruikersspecifieke overtuigingen weerspiegelen of dat ze zeer gevoelig zijn voor semantisch onafhankelijke veranderingen in gesprekscontexten. In dit werk bestuderen we tegenfeitelijke contextherziening als een raamwerk voor het auditen van op LLM gebaseerde standpuntsimulatie. Uitgaande van een oorspronkelijk online gesprek leiden we eerst het standpunt van een doelgebruiker ten opzichte van een specifiek onderwerp af. Vervolgens passen we gecontroleerde herzieningsstrategieën toe op de gesprekscontext en simuleren we het standpunt van de gebruiker opnieuw onder de herziene context. We vergelijken tekstgebaseerde herzieningsstrategieën met een multimodale strategie die op memes gebaseerde context omvat en evalueren twee belangrijke effectiviteitsmaatstaven, namelijk de gemiddelde directionele standpuntverschuiving en de standpuntovergangssnelheid. De resultaten tonen effectieve en robuuste standpuntovergangen aan in zowel tekstgebaseerde als multimodale strategieën, bij verschillende polarisatie-voorkeursmechanismen. Onze studie draagt bij aan een evaluatieraamwerk voor het begrijpen van de contextgevoeligheid van op LLM gebaseerde standpuntsimulatie. In bredere zin benadrukt het zowel de belofte als het risico van het gebruik van LLM's om online meningsdynamiek te simuleren.
Grote taalmodellen verbeteren vaak het redeneren door expliciete gedachteketens (CoT) te genereren, wat het belang van tussentijdse berekeningen aantoont. Tekstuele CoT dwingt deze berekening echter af via een discrete, seriële en communicatiegerichte tokenstroom: elke redeneerstap moet worden verwoord voordat het model verder kan gaan, zelfs wanneer de onderliggende update semantisch, onzeker of slechts gedeeltelijk gevormd is. Latente redenering biedt een hogerbandbreedte-alternatief door tussentijdse berekeningen uit te voeren in compacte continue toestanden alvorens over te gaan tot tekst. Toch offeren bestaande methoden voor latente redenering vaak belangrijke voordelen op die CoT effectief maken in autoregressieve taalmodellen, waaronder native links-naar-rechts generatie, probabilistische sampling, compatibiliteit met KV-cache-decodering en traceerbare waarschijnlijkheidsschatting. Wij stellen NF-CoT voor, een raamwerk voor latente redenering dat deze voordelen behoudt door continue gedachten te modelleren met normaliserende stromen. NF-CoT instantieert een normaliserende stroom van het TARFlow-type in de LLM-backbone, en definieert een traceerbaar waarschijnlijkheidsmodel over compacte continue gedachten die zijn gedestilleerd uit expliciete CoT. Posities van continue gedachten worden gegenereerd door een NF-kop, terwijl tekstposities worden gegenereerd door de standaard LM-kop binnen dezelfde causale stroom. Dit ontwerp biedt exacte waarschijnlijkheden voor latente gedachten, maakt probabilistische links-naar-rechts decodering mogelijk met de oorspronkelijke KV-cache, en ondersteunt directe beleidsgradiëntoptimalisatie in de latente redeneringsruimte. Op codegeneratiebenchmarks verbetert NF-CoT de slagingspercentages ten opzichte van expliciete CoT- en eerdere latente redeneringsbaselines, terwijl de kosten van tussentijdse redenering aanzienlijk worden verminderd.
Recente vooruitgang in Large Language Model (LLM)-agenten heeft veelbelovende ontwikkelingen in geautomatiseerde datawetenschap mogelijk gemaakt. Bestaande benaderingen blijven echter fundamenteel beperkt door hun statische actiesets en het ontbreken van principieel langetermijncontextbeheer, wat hun vermogen belemmert om herbruikbare ervaring over taken heen op te bouwen en betrouwbaar te werken in meerfasige, iteratieve datawetenschapspijplijnen. Om deze uitdagingen aan te pakken, introduceren we EvoDS, een zelf-evoluerende autonome datawetenschapsagent die leert zijn vaardigheden uit te breiden en adaptief langetermijncontext te beheren via agentische versterkingsleren. Specifiek introduceert EvoDS twee belangrijke strategieën: (1) een Autonome Vaardigheidsverwerving (ASA)-mechanisme, waarmee agenten uitvoerbare vaardigheden kunnen synthetiseren, valideren en hergebruiken; en (2) een Adaptieve Contextcompressie (ACC)-strategie, die contextbeheer behandelt als een geleerd controleprobleem in plaats van passieve afkapping. Deze strategieën worden georkestreerd binnen een tweefasig multi-agent trainingsschema, waardoor EvoDS autonoom kan verbeteren in de loop van de tijd. Theoretisch bewijzen we dat het hiërarchische ontwerp van EvoDS de gereedschapsselectiefout vermindert, en dat de optimalisatiedoelstelling overeenkomt met een informatieknelpuntprincipe, wat zorgt voor efficiënt contextgebruik. Empirisch presteert EvoDS gemiddeld 28,9% beter dan state-of-the-art open-source datawetenschapsagenten op vier diverse benchmarks, terwijl het tokenoverschrijdingsfouten elimineert. Onze code en gegevens zijn beschikbaar op https://github.com/usail-hkust/EvoDS.
Een gesitueerde vraag zoals "waar is Lin Wei?" bevat vaak meer dan de letterlijke inhoud: de gebruiker wil mogelijk ook weten of Lin Wei beschikbaar is, in een goed humeur verkeert, of het nu waard is om te onderbreken. Standaard tool-gebruikende agenten beantwoorden de letterlijke vraag en stoppen. AURA voegt een inferentiestap in tussen waarneming van de scène en toolgebruik, die een IntentFrame produceert: een gestructureerde schatting van de impliciete behoefte met een scalaire kloofscore die het per-query sondagebudget en de toolselectie regelt. Op een benchmark van 100 queries en vier scènes voor impliciete intenties verbetert AURA de dekking van impliciete behoeften ten opzichte van ReAct-achtige sondering (Delta = +0,07, p < 10^{-6}); drie van de vier scènes zijn individueel significant, de winst wordt gereproduceerd op een tweede backbone, en een prompt-ablation schrijft de verbetering toe aan kloofkalibratie in plaats van antwoordmemorisatie. Bij feitelijk opzoeken ruilt de controller ruwe nauwkeurigheid in voor 82% minder sondes en nul overtredingen van verboden tools op een privacygevoelig deel; reikwijdtevoorwaarden worden beschreven in Beperkingen. Code, simulator en benchmark zijn beschikbaar gesteld op https://github.com/innovation64/AURA.
Autonoom rijden vereist redeneren over hoe eigen acties de evolutie van de omringende wereld beïnvloeden. De meeste end-to-end methoden vertrouwen echter op directe toestand-naar-actie-koppelingen, waarbij correlaties worden vastgelegd zonder expliciet actie-geconditioneerde dynamiek te modelleren. Anderzijds missen continue-latente wereldmodellen vaak een compositionele structuur voor causaal redeneren over contrafeitelijke toekomsten. We introduceren Discrete-WAM, een universeel latent visie-actie wereldbeleid dat toekomstige visuele toestanden en eigen acties als uitgelijnde discrete tokens representeert, waardoor compositioneel causaal redeneren over alternatieve toekomsten mogelijk wordt. Gebaseerd op deze uniforme discrete uitlijning, stelt Discrete-WAM een gedeeld discreet diffusiekader vast met uniforme generatieve taken, die gezamenlijk wereldmodellering, wereld-actiebeleid en hiërarchisch beslissingsondersteunend beleid formuleren, en compositionele generalisatie over diverse rijscenario's ondersteunen. Experimenten op grootschalige benchmarks voor autonoom rijden tonen aan dat Discrete-WAM concurrerende prestaties levert, terwijl het beheersbare generatie en contrafeitelijk redeneren ondersteunt, en een principiële weg biedt naar betrouwbaardere besluitvorming.
Diffusiegebaseerde beeldbewerking heeft een sterke visuele getrouwheid bereikt onder natuurlijke taal instructies, maar de meeste bestaande systemen opereren nog steeds op het niveau van oppervlakkige instructie-opvolging, zonder te redeneren over de impliciete contextuele beperkingen die in echte gebruikersverzoeken zijn ingebed. Dit leidt vaak tot visueel aannemelijke maar logisch inconsistente bewerkingen. In dit werk introduceren we RE-Edit, een benchmark voor redeneringsbewuste beeldbewerking die beeldbewerkingssystemen evalueert over vijf complementaire redeneringsdimensies: fysiek, omgevingsgebonden, cultureel, causaal en referentieel. RE-Edit omvat 1.000 zorgvuldig samengestelde samples, elk zodanig ontworpen dat visuele aannemelijkheid alleen niet volstaat en correcte bewerking het voldoen aan impliciete logische beperkingen vereist. Om fijnmazige analyse te ondersteunen, stellen we dimensie-afgestemde evaluatiecriteria op en voeren we een uitgebreide studie uit van tien open-source en twee commerciële beeldbewerkingsmodellen. Onze resultaten tonen aan dat zelfs geavanceerde systemen vaak worstelen met impliciete multidimensionale redenering, ondanks het produceren van hoogwaardige beelden. Verder presenteren we een lichtgewicht, redeneringsgestuurde nabewerkingsbaseline als een eerste verkenning, die illustreert hoe het inbrengen van expliciete redenering dergelijke fouten op een model-agnostische manier kan helpen verminderen.
Off-policy reinforcement learning van voorgetrainde flow-beleidsregels blijft uitdagend vanwege de instabiliteit van de optimalisatie die voortkomt uit het meerstapsbemonsteringsproces. Recentelijk heeft Q-leren met Adjoint Matching (QAM) dit probleem aangepakt door het te herformuleren tot een geheugenloos stochastisch optimaal controle (SOC) probleem met een geleerde criticus. Echter, QAM erft een fundamentele kwetsbaarheid van criticus-geleide verbetering: kleine fouten van de criticus worden versterkt wanneer criticussen slecht geconditioneerd zijn, wat vaak leidt tot modelinstorting. Dit artikel introduceert Trust Region Q-Adjoint Matching (TRQAM), een stabiel off-policy fijnafstemmingsalgoritme dat adaptief de padruimte-KL regelt met voorgetrainde flow-beleidsregels via geprojecteerde duale afdaling. Specifiek optimaliseren we de vertrouwensgebiedparameter λ in SOC-dynamica, en tonen we theoretisch aan dat de padruimte-KL kan worden weergegeven door een gesloten-vorm functie van λ. Hierdoor kan onze methode de exacte afwijking van voorgetrainde flow-beleidsregels precies controleren, wat leidt tot stabiel off-policy RL. Door middel van experimenten op 50 OGBench-taken presteert TRQAM consequent beter dan eerdere technieken in zowel offline RL als offline-naar-online RL. In het bijzonder bereikt TRQAM een algemeen succespercentage van 68% in offline RL, wat een aanzienlijke verbetering is ten opzichte van de sterkste basislijn van 46%.
In dit artikel bestuderen we spijtminimalisatie in herhaalde spellen met adaptieve tegenstanders die kunnen reageren op basis van de geschiedenis van het spel. De standaardmaatstaf van externe spijt in online leren blijkt niet in staat om dergelijke adaptiviteit te vatten. Om rekening te houden met het contrafeitelijk redeneren van spelers introduceren we {\tt Herhaald Beleidsspijt (RP-Spijt)}, een speltheoretische maatstaf die het verschil meet tussen de gerealiseerde en de best mogelijke achteraf geaccumuleerde nutsfunctie, wanneer alle spelers kunnen reageren op de spelgeschiedenis. Vergeleken met bestaande spijtconcepten in deze context is de onze inherent aan het spelen van herhaalde spellen, wat sterkere vergelijkingspunten en tegenstanders met minder beperkingen mogelijk maakt, terwijl de mogelijkheid om betere evenwichten te vinden behouden blijft wanneer alle spelers deze minimaliseren. We identificeren eerst noodzakelijke voorwaarden voor het verkrijgen van sublineaire {\tt RP-Spijt} in de tijd, met betrekking tot de variatie van de vergelijkingsstrategieën van de speler in de spijtdefinitie en de geheugens van zowel de vergelijkings- als de tegenstandersstrategieën. Vervolgens bestuderen we aanvullende voorwaarden en bewijsbare algoritmen om {\tt RP-Spijt} te minimaliseren, wat per definitie niet-convex is in de strategieruimte. Om deze uitdaging aan te pakken, stellen we drie algoritmen voor: (i) een op basis van een optimalisatieorakel, zoals aangenomen in eerder werk over online niet-convex leren; (ii) een dat een convexe en gelineariseerde surrogaat van {\tt RP-Spijt} minimaliseert bij elke iteratie; (iii) een dat {\tt RP-Spijt} direct minimaliseert wanneer tegenstanders hun strategieën langzaam veranderen. Bovendien kunnen, wanneer alle spelers algoritmen uitvoeren om de {\tt RP-Spijt} (of de gelineariseerde variant) te minimaliseren, bepaalde deelspelperfecte evenwichten van het herhaalde spel worden geleerd. We bieden ook experimenten waaruit blijkt dat het minimaliseren van onze spijtconcepten kan leiden tot meer coöperatieve oplossingen met een hoger nut in spellen zoals de Hertenjacht.
Benchmarks zijn fundamenteel voor het evalueren en verbeteren van LLM's en MLLM's door gestandaardiseerde en expliciete prestatiemetingen te bieden. Hun constructie is echter arbeidsintensief en moeilijk herbruikbaar, wat zorgen oproept over duurzaamheid en schaalbaarheid. Bovendien raken bestaande benchmarks vaak snel verzadigd na hun release, wat leidt tot onvoldoende discriminatie tussen state-of-the-art modellen. Om deze uitdagingen aan te pakken, introduceren we Benchmark Agent, een volledig autonoom agentsysteem ontworpen voor het bouwen van benchmarks. Ons raamwerk orkestreert de volledige benchmarkconstructiepijplijn, van gebruikersvraaganalyse en subtakenontwerp tot data-annotatie en kwaliteitscontrole. Om Benchmark Agent te evalueren, implementeren we het om 15 representatieve benchmarks te produceren, die diverse evaluatiescenario's bestrijken, waaronder tekstbegrip, multimodaal begrip en domeinspecifiek redeneren. Uitgebreide experimenten, waaronder menselijke evaluatie, LLM-as-a-judge-beoordeling en consistentiecontroles, tonen aan dat Benchmark Agent hoogwaardige benchmarkvoorbeelden kan genereren met minimale menselijke betrokkenheid. Belangrijker nog, door voortdurende evaluatie observeren we verschillende inzichtelijke bevindingen, waaronder dat huidige modellen moeite hebben met bepaalde domeinspecifieke redeneertaken. We geloven dat snel evoluerende benchmarks een belangrijke bijdrage kunnen leveren aan de onderzoeksgemeenschap. De preview en code zullen openbaar beschikbaar worden gesteld op de demo-pagina en coderepository.
Grote taalmodellen vertonen een paradoxale kwetsbaarheid in fundamentele rekenkunde, wat wijst op een disconnectie tussen interne berekening en discrete uitvoer. Door de residustroomgeometrie tijdens meeroperandoptelling te analyseren, identificeren we het Iso-Raw-Sum Traject (IRST), een geometrische structuur waarbij representaties worden verankerd door semantische cijfers en gemoduleerd door continue overdrachtvezels. We stellen het Noisy Quantization Model voor om deze geometrie te verklaren, waarbij rekenfouten worden beschouwd als geometrische verschuivingen veroorzaakt door interne neurale ruis die een continu, latent overdrachtspotentiaal over kwantiseringsdrempels duwt. Dit geometrische raamwerk verheldert verder de veelzijdigheid van probes, door uit te leggen hoe lichtgewicht probes naast elkaar bestaande latente signalen (zoals grondwaarheid versus hallucinatie) kunnen ontwarren uit een enkele activeringsvector. Tenslotte valideren we deze inzichten via een geometrische consistentiecontrolemethode die deze kwantiseringsfouten tijdens inferentie effectief detecteert en corrigeert. Onze code is beschikbaar op https://github.com/RL-MIND/Shape-of-Addition.
Agentische LLM's met webzoekopdrachten veranderen het bedreigingsmodel voor tekstanonimisering: zwakke contextuele aanwijzingen kunnen kruisverwijsbaar bewijs voor heridentificatie worden, terwijl diezelfde details ook stroomafwaartse analytische waarde van de tekst behouden. Bestaande verdedigingsmechanismen verwijderen ofwel expliciete identificatoren, verstoren tekst voor formele privacy, of testen herschreven tekst tegen niet-webgebaseerde inferentiemodellen, waardoor het operationele gebied tussen weerstand tegen agentische webzoekopdracht-heridentificatie en utiliteitsbehoud onderbelicht blijft. We introduceren AURA (Anonimisering met UtiliteitsbehoudAanpassing), een door LLM aangedreven masker-reconstructieframework dat privacy-lokalisatie ontkoppelt van utiliteitsbehoudende reconstructie en kandidaten selecteert op basis van adversariële privacy- en utiliteitsbehoudcontroles. We evalueren AURA op transcripten van interviews met echte gebruikers, met behulp van heridentificatieaanvallen uitgevoerd door webzoekopdrachtagenten, samen met een utiliteitsevaluatie op basis van feiten over geïnterviewde profielen, codeboekfeiten en het gezamenlijke contextuele utiliteitsraster. Onze resultaten tonen aan dat AURA de privacy-utiliteitsgrens verbetert door adaptief privacybereik te gebruiken om de weerstand tegen agentische heridentificatie te versterken en door een masker-reconstructie-anonimiseringsmethode te gebruiken om contextuele utiliteit beter te behouden onder een vast privacybereik.
Het verwerken van video in visie-taalmodellen is duur: elk beeld neemt honderden tokens in beslag en de inferentiekosten stijgen met elk beeld en elke herhaalde query. We introduceren Video2LoRA, een methode voor parametrische video-internalisatie. Een perceiver hypernetwerk leest de laag-voor-laag geproduceerde tussentijdse representaties terwijl een bevroren VLM een video codeert, en genereert in één enkele voorwaartse pas een Low-Rank Adaptation (LoRA)-adapter. In tegenstelling tot standaard LoRA-fijnafstemming, die iteratieve gradiëntupdates vereist, voorspelt Video2LoRa deze gewichten rechtstreeks uit de video. Getraind voor SmolVLM2 500M en 2.2B op video-samenvatting en -bijschrijving, stelt Video2LoRA dezelfde bevroren VLM in staat om vragen te beantwoorden met alleen de adapter, zonder visuele tokens in de context op het moment van de query. Video2LoRA is statistisch niet inferieur en equivalent aan directe video-in-context inferentie voor alle vijf bijschrijfbenchmarks op beide modelschalen, en voor zeven van de acht video-vraagbeantwoordingsbenchmark-schaalcombinaties. Hoewel alleen getraind op 12 beelden van 384px, blijft het stabiel tot 1024 beelden en 1024px, waar directe video-in-context inferentie vaak degenereert. Over deze reeks heen vermindert het de visuele token-belasting tijdens de antwoordtijd met tot 1500x en de query TTFT met 6-80x, terwijl het video-getrouwe uitvoer behoudt. We vinden ook dat onafhankelijk gegenereerde adapters voor niet-overlappende videosegmenten kunnen samengesteld worden in de rangruimte, wat een pad suggereert naar chunked lange-video-internalisatie.
Financiële AI-agenten falen vaak om een eenvoudige reden: ze leggen de complexiteit bij de gebruiker. Een gebruiker moet herhaaldelijk doelen, risicovoorkeuren, portfoliocontext, eerdere oordelen en veranderende marktaannames herformuleren, terwijl de agent antwoordt, ophaalt, handelt en vergeet. In de financiële wereld is dit niet alleen onhandig. Bij taken zoals marktanalyse, beoordeling van kopieerhandel en handelsvoorbereiding kunnen vergeten context en verouderd geheugen leiden tot latentie, herhaalde fouten, zwakke auditbaarheid en onveilige beslissingen. Wij stellen de interactie-native kennisintegratie (InKH) voor, een architectuur voor financiële LLM-agenten die complexiteit in het systeem absorbeert. InKH zet gebeurtenissen van gebruikers, markten, portefeuilles en tools om in gestructureerde operationele kennis. Het gebruikt passieve kennisinjectie om vóór de hoofdmodelstap een begrensde werkcontextbuffer op te bouwen, temporeel grafiekgeheugen voor ophaling met lage latentie, een wiki-audit-oppervlak voor menselijk leesbaar bestuur, en achtergrond extractie met volwassenheid, verval en schrijftijd-invalidatie. Wij evalueren InKH op een reproduceerbare gecontroleerde synthetische benchmark met 24 willekeurige seeds, 4 rondes, 80 episodes per ronde en 6 baselines, wat 46.080 baseline-geconditioneerde evaluaties oplevert. InKH behaalt een gemiddelde taakkwaliteit van 0,815 bij een latentie van 900 ms. Vergeleken met agent-gedreven wiki-walk-geheugen vermindert het de latentie met 82,95%, de tokencost met 82,29% en het gebruik van verouderde kennis met 96,58%, terwijl het de kwaliteit verbetert met 0,108 en de traceerbaarheid met 0,461. Vergeleken met een temporeel-grafieksysteem zonder invalidatie verbetert het de kwaliteit met 0,050 en vermindert het het gebruik van verouderd geheugen met 96,58%, bij vergelijkbare servicekosten. De resultaten ondersteunen een ontwerpthesis voor financiële AI: adoptie vindt plaats wanneer complexiteit door het systeem wordt geabsorbeerd in plaats van overgedragen aan de gebruiker. De benchmark valideert gedrag op architectuurniveau, niet live handelsprestaties.
Versterkingsleren met Verifieerbare Beloningen (RLVR) is recentelijk uitgegroeid tot de hoeksteen voor het vormgeven van de opmerkelijke codeervaardigheden van Grote Taalmodellen (LLMs). De schaalbaarheid van RLVR wordt echter ernstig beperkt door de schaarste aan voldoende uitdagende verifieerbare codetaken die zich richten op de grens van het competentiegebied van het model. Eerdere studies vertrouwen vaak op heuristische zaaduitbreidingen voor datasynthese, wat zowel de nieuwigheid als de moeilijkheidsgraad ernstig beperkt. Bijgevolg schaalt de trainingswaarde van dergelijke data niet evenredig met de omvang van de synthese ervan. Daartoe stellen wij Atomaire Decompositie en Recombinatie (ADR) voor, een nieuw raamwerk dat verifieerbare codetaken genereert door decompositie in atomaire elementen en gecontroleerde recombinatie, waardoor het genereren van werkelijk nieuwe en uitdagende verifieerbare codetaken mogelijk wordt. Experimenten en analyses tonen aan dat ADR superieure originaliteit, moeilijkheidsgraad, diversiteit en testkwaliteit behaalt ten opzichte van bestaande baselines, en consequent grotere verbeteringen in codeervaardigheid oplevert via RLVR in diverse stroomafwaartse domeinen, waaronder algoritmisch programmeren, toolgebruik en datawetenschap. Ons werk werpt licht op een nieuw paradigma voor de synthese van nieuwe codetaken en schaalbare RLVR-training.
Muziekaanbevelingssystemen behandelen nummers doorgaans als ondoorzichtige tokens, waarbij ze vertrouwen op gezamenlijke interactiegeschiedenissen die semantische of akoestische inhoud over het hoofd zien. Eerder werk heeft LLM-verrijkte, multimodale en tekstverrijkte benaderingen voor sequentiële aanbevelingen onderzocht, en hoewel sommige methoden semantische, akoestische of betrokkenheidssignalen gedeeltelijk combineren, modelleert geen enkele alle drie gezamenlijk binnen een verenigd LLM-gebaseerd sequentieel redeneerraamwerk dat aanbevelingen baseert op werkelijke nummerinhoud. In dit werk stellen we een multimodaal raamwerk voor voor sessiegebaseerde muziekaanbeveling dat de LastFM-1K-dataset verrijkt met drie complementaire signalen: (1) audio- en songtekst-embeddings geëxtraheerd met behulp van voorgetrainde muziek- en tekstrepresentatiemodellen, (2) door LLM gegenereerde semantische metadata met behulp van het MGPHot-annotatieschema, en (3) luistervoltooiingsratio's. We nemen het E4SRec-raamwerk over door het uit te breiden met multimodale kenmerken en verschillende item-ID-encoder-backbones, waaronder SASRec, BERT4Rec en GRU4Rec. We breiden de LLM-backbone-optie verder uit met LLaMa-2-13B, Qwen2.5-7B-Instruct en LLaMa-3-70B in zowel zero-shot als fijn afgestelde instellingen. Onze experimenten tonen aan dat het integreren van inhoudsgebaseerde kenmerken een verbetering oplevert van tot 95% in termen van Recall en 79% in termen van NDCG ten opzichte van alleen-ID-baselines. Bovendien tonen onze experimenten aan dat naïeve multimodale fusie niet altijd additieve verbeteringen oplevert, wat uitdagingen in cross-modale integratie benadrukt. We geven een grootschalige multimodale benchmark vrij voor muziekaanbeveling.
Grote taalmodellen worden steeds vaker ingezet als coderingsagenten, waardoor de veiligheid verschuift van individuele antwoorden naar actiereeksen. Bestaande benchmarks beoordelen echter voornamelijk of modellen onveilige prompts weigeren, waardoor de impact op toestandsafhankelijke werkomgevingen grotendeels onbestudeerd blijft. Wij presenteren SABER, een benchmark voor omgevingsbewuste operationele veiligheid die modellen in realistische agentstijlprojecten plaatst en de veiligheid evalueert op basis van de uiteindelijke omgevingstoestand na een reeks acties. Naast binaire meldingen van veiligheidsschendingen categorizeert SABER schendingen naar oorzaak, wat analyse van modelspecifieke veiligheidsprofielen mogelijk maakt. Onze evaluaties tonen aan dat zelfs het best presterende model een schadelijke veiligheidsschendingsratio (HSR) van meer dan 54% heeft, wat suggereert dat de huidige afstemming onvoldoende is voor realistische projectomgevingen. SABER onthult verder duidelijke veiligheidsprofielen tussen modellen. Onze benchmark is openbaar beschikbaar op https://github.com/sssr-lab/saber.
AI-onderzoek vereist vaak beslissingen voordat toekomstig bewijs beschikbaar is: welk knelpunt moet worden aangepakt, welke richting moet worden gevolgd, of waar een project moet worden gepositioneerd. Wij introduceren ForeSci, een temporeel gecontroleerde benchmark om te evalueren of LLM-agenten dergelijke vooruitziende onderzoeksbeoordelingen kunnen maken op basis van historisch bewijs. ForeSci bevat 500 taken verdeeld over vier snel evoluerende AI-domeinen en vier beslissingsfamilies. Elke taak is gekoppeld aan een op de afsluitdatum afgestemde offline kennisbank; artikelen na de afsluitdatum worden tijdens de generatie verborgen en alleen gebruikt voor validatie. Om willekeurige voorspelling van toekomstige gebeurtenissen te voorkomen, zijn taken afgeleid van taxonomische takken en bewijssignalen van vóór de afsluitdatum, en worden de backbones voor het genereren van antwoorden geselecteerd die aan de taakafsluitdata voorafgaan. We evalueren native LLM's, Hybride RAG en drie aanpassingen van onderzoeksagenten over vier backbones. Resultaten tonen aan dat expliciete bewijsorganisatie de traceerbaarheid en feitelijke onderbouwing verbetert, maar dat de winst sterk afhangt van de beslissingsfamilie. Diagnostiek onthult een terugkerende ontkoppeling van bewijs en beslissing: agenten kunnen relevant bewijs aanhalen terwijl ze het verkeerde onderzoeksobject voorspellen. ForeSci verandert vooruitziende AI-onderzoeksbeoordeling in een gecontroleerde benchmark voor het evalueren van onderzoeksagenten als besluitvormingssystemen.
Het trainen van nauwkeurige medische beeldsegmentatiemodellen vereist grote hoeveelheden dicht geannoteerde data, wat kostbaar en tijdrovend is om te verkrijgen. Semi-gesuperviseerd leren (SSL) verlicht dit door te leren van zowel overvloedige ongelabelde data als beperkte gelabelde data. Echter, de meeste moderne SSL-methoden vertrouwen op pseudolabels voor ongelabelde data, en beoordelen doorgaans hun betrouwbaarheid via modelvertrouwen of onzekerheid, maten die zelfreferentieel zijn en geen expliciete basis hebben in segmentatiekwaliteit. In plaats daarvan stellen wij een kwaliteitsgestuurd SSL-raamwerk voor dat een speciaal netwerk traint om de segmentatiekwaliteit te schatten op basis van beeld-maskerparen. De voorspeller wordt getraind op maskers van variabele kwaliteit, gegenereerd door synthetische corrupties aangevuld met imperfecte uitvoer van gedeeltelijk getrainde segmentatiemodellen, waardoor realistische foutpatronen worden vastgelegd die tijdens de training voorkomen. We integreren de kwaliteitsvoorspeller in SSL via twee complementaire mechanismen: een kwaliteitsbewust regularisatieverlies en een op kwaliteit gebaseerd herwegingsschema voor pseudolabelmonsters. We tonen aan dat onze methode fungeert als een direct toepasbare verbetering voor bestaande SSL-raamwerken. Uitgebreide experimenten over vijf datasets en meerdere architecturen tonen consistente verbeteringen aan ten opzichte van concurrerende SSL-methoden, waarmee de state-of-the-art in semi-gesuperviseerde medische beeldsegmentatie wordt bevorderd.
Het leren van representaties van CAD-modellen is een grotendeels open probleem. Terwijl 3D-representatie leren een hoge vlucht heeft genomen rond puntenwolken en meshes, heeft het native formaat van CAD - grensrepresentaties (BReps), die exacte parametrische oppervlakken, curven en hun topologie coderen, weinig aandacht gekregen als substraat voor representatie leren. We introduceren BRepCLIP, het eerste raamwerk dat BRep-geometrie aligneert met taal- en beeldembeddingen via contrastief vooraf trainen. We modelleren elk CAD-object als een reeks van vlak- en randtokens met aparte discrete vocabulaires voor oppervlak- en curvegeometrie, aangevuld met ruimtelijke en semantische descriptoren die oppervlaktetypen (bijv. cilindrisch, torus, NURBS) en curveprimitieven (bijv. lijn, boog, B-spline) vastleggen. Een transformer-encoder aggregeert deze tokens tot een globale BRep-embedding, die via een gezamenlijke contrastieve doelstelling wordt gealigneerd met de tekst- en beeldencoders van CLIP. BRepCLIP genereert meer discriminerende en semantisch verankerde embeddingen dan de bestaande punt-gebaseerde alternatieven, verbetert de Top-1-retrieval ten opzichte van OpenShape met 40,4%, 22,0% en 23,9% op respectievelijk ABC, CADParser en Automate, en verbetert de zero-shot-classificatie op FabWave met 15% in Top-1-score. We demonstreren verder het nut ervan als een CAD-bewuste gelijkheidsmaatstaf voor het evalueren van tekst- en beeld-geconditioneerde CAD-generatie, en vestigen het belang van structuurbewust vooraf trainen voor multimodaal CAD-begrip. De projectpagina is beschikbaar op https://muhammadusama100.github.io/BrepClip2026/