Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Versterkend leren is uitgegroeid tot de centrale aanpak voor taalmodellen (TM's) om te leren van beloning of feedback uit de omgeving. In de praktijk is deze omgevingsfeedback meestal schaars en vertraagd. Leren van dergelijke signalen is uitdagend, omdat TM's impliciet moeten afleiden hoe waargenomen fouten moeten vertalen naar gedragsveranderingen voor toekomstige iteraties. Wij introduceren Ervaringsgericht Versterkend Leren (ERL), een trainingsparadigma dat een expliciete ervaring-reflectie-consolidatielus in het versterkende leerproces integreert. Gegeven een taak genereert het model een eerste poging, ontvangt het omgevingsfeedback en produceert het een reflectie die een verfijnde tweede poging aanstuurt. Het succes hiervan wordt versterkt en geïnternaliseerd in het basisbeleid. Dit proces zet feedback om in gestructureerde gedragsrevisie, verbetert de exploratie en stabiliseert de optimalisatie, terwijl behaalde winsten tijdens de inzet behouden blijven zonder extra inferentiekosten. In omgevingen met schaarse beloning en benchmarks voor agent-gericht redeneren verbetert ERL consistent de leer efficiëntie en uiteindelijke prestaties ten opzichte van sterke versterkende leer-basislijnen, met winsten tot +81% in complexe, meerstapsomgevingen en tot +11% in redeneertaken met gereedschapsgebruik. Deze resultaten suggereren dat het integreren van expliciete zelfreflectie in beleidstraining een praktisch mechanisme biedt om feedback om te zetten in duurzame gedragsverbetering.
Bestaande multimodale retrievalsystemen blinken uit in semantische matching, maar nemen impliciet aan dat de relevantie van query en afbeelding in isolatie kan worden gemeten. Dit paradigma miskent de rijke afhankelijkheden die inherent zijn aan realistische visuele stromen, waarbij informatie is verspreid over temporele sequenties in plaats van beperkt tot losse momentopnames. Om deze kloof te overbruggen, introduceren wij DeepImageSearch, een nieuw agent-gebaseerd paradigma dat beeldretrieval herformuleert als een autonome verkenningstaak. Modellen moeten multi-stap redeneren plannen en uitvoeren over ruwe visuele geschiedenissen om doelwitten te lokaliseren op basis van impliciete contextuele aanwijzingen. Wij construeren DISBench, een uitdagende benchmark gebouwd op onderling verbonden visuele gegevens. Om de schaalbaarheidsuitdaging van het creëren van contextafhankelijke queries aan te pakken, stellen wij een mens-model collaboratieve pijplijn voor die vision-language modellen inzet om latente spatiotemporele associaties te ontginnen, waardoor intensieve contextontdekking effectief wordt uitbesteed vóór menselijke verificatie. Verder bouwen wij een robuuste baseline met een modulair agent-framework uitgerust met fijnmazige tools en een dual-memory systeem voor navigatie op lange termijn. Uitgebreide experimenten tonen aan dat DISBench aanzienlijke uitdagingen vormt voor state-of-the-art modellen, wat de noodzaak benadrukt om agent-gebaseerd redeneren in te bouwen in retrieval-systemen van de volgende generatie.
Wij presenteren Nanbeige4.1-3B, een verenigd generalistisch taalmodel dat met slechts 3B parameters tegelijkertijd sterk agentgedrag, codegeneratie en algemeen redeneervermogen bereikt. Voor zover wij weten is dit het eerste open-source kleine taalmodel (SLM) dat een dergelijke veelzijdigheid in één enkel model bereikt. Om het redeneervermogen en voorkeursafstemming te verbeteren, combineren we point-wise en pair-wise beloningsmodellering, wat hoogwaardige, op mensen afgestemde antwoorden garandeert. Voor codegeneratie ontwerpen we complexiteitsbewuste beloningen in Reinforcement Learning, waarbij zowel correctheid als efficiëntie worden geoptimaliseerd. Bij diepgaand onderzoek voeren we complexe datasynthese uit en integreren we toezicht op turn-niveau tijdens de training. Dit maakt stabiele toolinteracties op lange termijn mogelijk, waardoor Nanbeige4.1-3B betrouwbaar tot 600 tool-aanroepbeurten kan uitvoeren voor complexe probleemoplossing. Uitgebreide experimentele resultaten tonen aan dat Nanbeige4.1-3B aanzienlijk beter presteert dan eerdere modellen van vergelijkbare omvang, zoals Nanbeige4-3B-2511 en Qwen3-4B, en zelfs superieure prestaties bereikt in vergelijking met veel grotere modellen, zoals Qwen3-30B-A3B. Onze resultaten tonen aan dat kleine modellen tegelijkertijd zowel brede competentie als sterke specialisatie kunnen bereiken, wat het potentieel van 3B-parametermodellen herdefinieert.
Grote taalmodellen maken een transitie door van algemene kennisengines naar praktische probleemoplossers, maar het optimaliseren ervan voor diepgaande zoektaken blijft een uitdaging. Het belangrijkste knelpunt ligt in de extreme schaarste aan hoogwaardige zoektrajecten en beloningssignalen, die voortkomt uit de moeilijkheid om op schaal langetermijntaken te construeren en de hoge kosten van interactie-intieve rollouts met externe toolaanroepen. Om deze uitdagingen aan te pakken, stellen we REDSearcher voor, een uniform raamwerk dat de synthese van complexe taken, mid-training en post-training gezamenlijk ontwerpt voor schaalbare optimalisatie van zoekagentschappen. Concreet introduceert REDSearcher de volgende verbeteringen: (1) We formuleren taaksynthese als een dubbel-beperkte optimalisatie, waarbij taakmoeilijkheid precies wordt bepaald door grafentopologie en bewijsspreiding, wat een schaalbare generatie van complexe, hoogwaardige taken mogelijk maakt. (2) We introduceren tool-augmented queries om proactief toolgebruik te stimuleren in plaats van passieve herinnering. (3) Tijdens de mid-training versterken we kern-atomaire capaciteiten – kennis, planning en functie-aanroeping – waardoor de kosten voor het verzamelen van hoogwaardige trajecten voor verdere training aanzienlijk worden verlaagd. (4) We bouwen een lokaal gesimuleerde omgeving die snelle, goedkope algoritmische iteratie mogelijk maakt voor reinforcement learning-experimenten. Op zowel tekstuele als multimodale benchmarks voor zoekagentschappen behaalt onze aanpak state-of-the-art prestaties. Om toekomstig onderzoek naar langetermijn zoekagentschappen te vergemakkelijken, zullen we 10.000 hoogwaardige complexe tekstuele zoektrajecten, 5.000 multimodale trajecten en een set van 1.000 tekstuele RL-query's vrijgeven, samen met code en modelcheckpoints.
Wij presenteren BitDance, een schaalbare autoregressieve (AR) afbeeldingsgenerator die binaire visuele tokens voorspelt in plaats van codeboekindices. Dankzij latente representaties met hoge entropie kan elk token in BitDance tot 2^{256} toestanden vertegenwoordigen, wat resulteert in een compacte doch zeer expressieve discrete representatie. Het bemonsteren van zo’n enorme tokenruimte is lastig met standaard classificatie. Om dit op te lossen gebruikt BitDance een binaire diffusiekop: in plaats van een index te voorspellen met softmax, zet het continue-ruimtediffusie in om de binaire tokens te genereren. Verder introduceren wij next-patch diffusie, een nieuwe decodeermethode die meerdere tokens parallel met hoge nauwkeurigheid voorspelt, waardoor de inferentie aanzienlijk versnelt. Op ImageNet 256x256 behaalt BitDance een FID van 1.24, de beste score onder AR-modellen. Met next-patch diffusie overtreft BitDance state-of-the-art parallelle AR-modellen die 1,4B parameters gebruiken, terwijl het 5,4x minder parameters (260M) gebruikt en een 8,7x snelheidswinst realiseert. Voor tekst-naar-afbeelding generatie traint BitDance op grootschalige multimodale tokens en genereert het efficiënt hoogwaardige, fotorealistische afbeeldingen met sterke prestaties en gunstige schaalbaarheid. Bij het genereren van 1024x1024 afbeeldingen behaalt BitDance een versnelling van meer dan 30x vergeleken met eerdere AR-modellen. Wij publiceren code en modellen om verder onderzoek naar AR-foundationmodellen te vergemakkelijken. Code en modellen zijn beschikbaar op: https://github.com/shallowdream204/BitDance.
Industriële schaalgrootte bij het leren van gebruikersrepresentaties vereist een balans tussen robuuste universaliteit en acute taakgevoeligheid. Bestaande paradigma's produceren echter voornamelijk statische, taakonafhankelijke inbeddingen die moeite hebben om de uiteenlopende vereisten van downstream-scenario's binnen verenigde vectorruimten te verzoenen. Bovendien introduceert heterogene multi-brongegevens inherente ruis en modaliteitsconflicten, wat de representatiedegradatie versterkt. Wij stellen Query-as-Anchor voor, een raamwerk dat gebruikersmodellering verschuift van statische codering naar dynamische, querybewuste synthese. Om Large Language Models (LLM's) te voorzien van diepgaand gebruikersbegrip, construeren we eerst UserU, een industriële pre-trainingsdataset die multimodale gedragssequenties uitlijnt met gebruikersbegripsemantiek. Onze Q-Anchor Embedding-architectuur integreert hiërarchische coarse-to-fine encoders in dual-tower LLM's via gezamenlijke contrastief-autoregressieve optimalisatie voor querybewuste gebruikersrepresentatie. Om de kloof tussen algemene pre-training en gespecialiseerde bedrijfslogica te overbruggen, introduceren we verder Cluster-based Soft Prompt Tuning om onderscheidende latente structuren af te dwingen, waardoor de modelaandacht effectief wordt uitgelijnd met scenariospecifieke modaliteiten. Voor implementatie maakt het verankeren van queries aan sequentietermini KV-cache-versnelde inferentie mogelijk met verwaarloosbare incrementele latentie. Evaluaties op 10 Alipay-industriële benchmarks tonen consistente state-of-the-art prestaties, sterke schaalbaarheid en efficiënte implementatie. Grootschalige online A/B-testen in het productiesysteem van Alipay in twee real-world scenario's valideren verder de praktische effectiviteit. Onze code is voorbereid voor openbare release en zal beschikbaar zijn op: https://github.com/JhCircle/Q-Anchor.
Inference-Time-Compute (ITC)-methoden zoals Best-of-N en Tree-of-Thoughts zijn bedoeld om uitvoerkandidaten te produceren die zowel van hoge kwaliteit als divers zijn, maar hun gebruik van high-temperature sampling slaagt er vaak niet in om zinvolle uitvoerdiversiteit te bereiken. Bovendien bieden bestaande ITC-methoden beperkte controle over hoe de redenering wordt uitgevoerd, wat op zijn beurt hun verklaarbaarheid beperkt. Wij presenteren STATe-of-Thoughts (STATe), een interpreteerbare ITC-methode die zoekt over hoog-niveau redeneerpatronen. STATe vervangt stochastische sampling door discrete en interpreteerbare tekstuele interventies: een controller selecteert acties die hoog-niveau redeneerkeuzes coderen, een generator produceert redeneerstappen geconditioneerd op die keuzes, en een evaluator scoort kandidaten om de zoektocht te sturen. Deze gestructureerde aanpak biedt drie hoofdvoordelen. Ten eerste produceren actie-gestuurde tekstuele interventies een grotere responsdiversiteit dan temperatuurgebaseerde sampling. Ten tweede leggen in een casestudy over argumentgeneratie de expliciete actievolgordes van STATe interpreteerbare kenmerken vast die zeer voorspellend zijn voor de uitvoerkwaliteit. Ten derde stelt het schatten van de associatie tussen prestaties en actiekeuzes ons in staat om veelbelovende maar onontgonnen regio's van de actieruimte te identificeren en de generatie er direct naartoe te sturen. Gezamenlijk vestigen deze resultaten STATe als een praktisch raamwerk voor het genereren van hoogwaardige, diverse en interpreteerbare tekst. Ons raamwerk is beschikbaar op https://github.com/zbambergerNLP/state-of-thoughts.
De snelle evolutie van grootschalige taalmodel(len) heeft een sterke toename in de productie van wetenschappelijke ideeën gekatalyseerd, maar deze sprong voorwaarts is niet gepaard gegaan met een evenredige vooruitgang in de evaluatie van ideeën. De fundamentele aard van wetenschappelijke evaluatie vereist een kennisbasis, collectieve beraadslaging en multi-criteria besluitvorming. Bestaande methoden voor ideeënevaluatie kampen echter vaak met beperkte kennis, afgeplatte evaluatiedimensies en de inherente bias van het 'LLM-als-rechter'-model. Om deze problemen aan te pakken, benaderen we ideeënevaluatie als een kennisgebaseerd, multi-perspectief redeneerprobleem en introduceren we InnoEval, een diepgaand innovatie-evaluatieraamwerk ontworpen om evaluatie op menselijk niveau na te bootsen. We passen een heterogene kenniszoekmachine toe die dynamisch bewijs ophaalt en verankert vanuit diverse online bronnen. Verder bereiken we een beoordelingsconsensus via een innovatiebeoordelingsraad met recensenten van uiteenlopende academische achtergronden, wat een multidimensionale, ontkoppelde evaluatie over meerdere metrieken mogelijk maakt. We construeren uitgebreide datasets, afgeleid van autoritair peer-reviewed materiaal, om InnoEval te benchmarken. Experimenten tonen aan dat InnoEval consistent de baseline-methoden kan overtreffen in puntgewijze, paarsgewijze en groepsgewijze evaluatietaken, waarbij het oordeelspatroon en de consensus sterk overeenkomen met die van menselijke experts.
Data kwaliteit bepaalt de prestaties van foundation modellen, maar systematische verwerkingskaders ontbreken. Wij introduceren Data Darwinisme, een taxonomie met tien niveaus (L0-L9) die de co-evolutie van data en modellen conceptualiseert: geavanceerde modellen produceren superieure data voor volgende generatie systemen. Wij valideren dit op wetenschappelijke literatuur door de constructie van Darwin-Science, een corpus van 900B tokens (L0-L5). Wij identificeren een leerbaarheidskloof in ruwe wetenschappelijke tekst, die wij overbruggen via L4 (Generatieve Verfijning) en L5 (Cognitieve Voltooiing) door gebruik te maken van frontier LLM's om redenering en terminologie te expliciëren. Om rigoureuze attributie te waarborgen, pre-trainden wij daVinci-origin-3B/7B modellen volledig vanaf nul, waarbij wetenschappelijke content werd uitgesloten om contaminatievrije basislijnen te creëren. Na 600B tokens aan voortgezette pre-training presteert Darwin-Science +2,12 (3B) en +2,95 (7B) punten beter dan de basislijnen over 20+ benchmarks, oplopend tot +5,60 en +8,40 punten op domein-afgestemde taken. Systematische progressie naar L5 resulteert in een totale winst van +1,36 punten, wat bevestigt dat verwerking op een hoger niveau latente datawaarde ontsluit. Wij geven het Darwin-Science corpus en de daVinci-origin modellen vrij om principiële, co-evolutionaire ontwikkeling mogelijk te maken.
Unified Multimodal Large Language Models (MLLM's) vereisen een visuele representatie die tegelijkertijd hoogwaardige reconstructie, complexe semantische extractie en geschiktheid voor generatie ondersteunt. Bestaande visuele tokenizers slagen er echter doorgaans niet in om deze tegenstrijdige doelstellingen binnen één enkel raamwerk te vervullen. In dit artikel introduceren we UniWeTok, een uniforme discrete tokenizer die ontworpen is om deze kloof te overbruggen met behulp van een massieve binaire codeboek (2^128). Voor het trainingsraamwerk introduceren we Pre-Post Distillatie en een Generative-Aware Prior om de semantische extractie en het generatieve voorafgaande van de discrete tokens te verbeteren. Qua modelarchitectuur stellen we een hybride architectuur van convolutie en aandacht voor met de SigLu-activeringsfunctie. SigLu-activering begrenst niet alleen de encoder-uitvoer en stabiliseert het semantische distillatieproces, maar lost ook effectief het optimalisatieconflict op tussen tokenentropieverlies en commitmentverlies. We stellen verder een driefasen-trainingsraamwerk voor dat ontworpen is om de aanpasbaarheid van UniWeTok over verschillende beeldresoluties en perceptiegevoelige scenario's te verbeteren, zoals scenario's met menselijke gezichten en tekstuele inhoud. Op ImageNet behaalt UniWeTok state-of-the-art prestaties in beeldgeneratie (FID: UniWeTok 1.38 vs. REPA 1.42) terwijl het opmerkelijk weinig rekenkracht voor training vereist (Training Tokens: UniWeTok 33B vs. REPA 262B). In het algemene domeen demonstreert UniWeTok zeer competitieve capaciteiten over een breed scala aan taken, waaronder multimodale interpretatie, beeldgeneratie (DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84) en beeldbewerking (GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06). We geven code en modellen vrij om gemeenschappelijke verkenning van de uniforme tokenizer en MLLM te vergemakkelijken.
Het evalueren of Multimodale Grote Taalmodellen (MLLMs) daadwerkelijk redeneren over fysische dynamieken blijft een uitdaging. De meeste bestaande benchmarks vertrouwen op herkenningsgerichte protocollen zoals Visuele Vraagbeantwoording (VQA) en Overtreding van Verwachting (VoE), die vaak beantwoord kunnen worden zonder een expliciete, toetsbare fysische hypothese aan te nemen. Wij stellen VisPhyWorld voor, een op uitvoering gebaseerd raamwerk dat fysisch redeneren evalueert door modellen te verplichten uitvoerbare simulatorcode te genereren op basis van visuele waarnemingen. Door het produceren van uitvoerbare code is de afgeleide wereldrepresentatie direct inspecteerbaar, aanpasbaar en falsifieerbaar. Dit scheidt fysisch redeneren van rendering. Voortbouwend op dit raamwerk introduceren we VisPhyBench, bestaande uit 209 evaluatiescènes afgeleid van 108 fysische templates en een systematisch protocol dat evalueert hoe goed modellen de verschijningsvorm reconstrueren en fysisch plausibele beweging reproduceren. Onze pijplijn produceert geldige gereconstrueerde video's in 97,7% van de gevallen op de benchmark. Experimenten tonen aan dat, hoewel state-of-the-art MLLMs een sterk semantisch scènebegrip bereiken, ze moeite hebben om fysische parameters nauwkeurig af te leiden en consistente fysische dynamieken te simuleren.
Dit artikel introduceert een kwantumdatabase (Qute) die kwantumcomputatie als eersteklas uitvoeringsoptie behandelt. In tegenstelling tot eerdere op simulatie gebaseerde methoden die kwantumalgoritmes op klassieke machines uitvoeren of bestaande databases voor kwantumsimulatie aanpassen, compileert Qute daarentegen (i) een uitgebreide vorm van SQL naar poort-efficiënte kwantumcircuits, (ii) gebruikt een hybride optimalisator om dynamisch te selecteren tussen kwantum- en klassieke uitvoeringsplannen, (iii) introduceert selectieve kwantumindexering, en (iv) ontwerpt betrouwbaarheidsbewarende opslag om de huidige qubitbeperkingen te mitigeren. Wij presenteren tevens een driestappen evolutieroadmap naar een kwantum-native database. Tot slot tonen wij, door Qute te implementeren op een echte kwantumprocessor (origin_wukong), aan dat het een klassieke baseline op schaal overtreft, en wij geven een open-source prototype vrij op https://github.com/weAIDB/Qute.
Het configureren van op LLM gebaseerde agentsystemen houdt in dat workflows, tools, tokenbudgetten en prompts gekozen moeten worden uit een grote combinatorische ontwerpruimte, en wordt tegenwoordig meestal afgehandeld met vaste, omvangrijke templates of handmatig afgestelde heuristieken. Dit leidt tot broos gedrag en onnodig rekengebruik, omdat dezelfde omslachtige configuratie vaak wordt toegepast op zowel eenvoudige als moeilijke invoerquery's. Wij formuleren agentconfiguratie als een beslissingsprobleem per query en introduceren ARC (Agentic Resource & Configuration learner), dat een lichtgewicht hiërarchisch beleid leert met behulp van reinforcement learning om deze configuraties dynamisch aan te passen. Over meerdere benchmarks voor redeneren en tool-aangevuld vraagbeantwoording heen, presteert het geleerde beleid consistent beter dan sterk handmatig ontworpen en andere baseline-systemen, met tot 25% hogere taaknauwkeurigheid en tegelijkertijd lagere token- en rekentijdkosten. Deze resultaten tonen aan dat het leren van agentconfiguraties per query een krachtig alternatief is voor 'one size fits all'-ontwerpen.
Webagents hebben enorme hoeveelheden trajectgegevens nodig om te generaliseren, maar training in de echte wereld wordt beperkt door netwerklatentie, rate limits en veiligheidsrisico's. Wij introduceren de WebWorld-serie, de eerste open-web simulator die op grote schaal is getraind. Terwijl bestaande simulators beperkt zijn tot gesloten omgevingen met duizenden trajecten, benut WebWorld een schaalbare datapijplijn om te trainen op meer dan 1 miljoen open-web interacties, met ondersteuning voor redeneren, multi-formaat data en langetermijnsimulaties van 30+ stappen. Voor intrinsieke evaluatie introduceren we WebWorld-Bench met dubbele metrieken over negen dimensies, waarbij WebWorld simulatieniveau bereikt dat vergelijkbaar is met Gemini-3-Pro. Voor extrinsieke evaluatie verbetert Qwen3-14B, getraind op WebWorld-gesynthetiseerde trajecten, met +9,2% op WebArena en bereikt daarmee prestaties vergelijkbaar met GPT-4o. WebWorld maakt effectieve inference-time zoekopdrachten mogelijk en overtreft GPT-5 als wereldmodel. Naast websimulatie vertoont WebWorld domeinoverschrijdende generalisatie naar code, GUI- en spelomgevingen, en biedt het een reproduceerbaar recept voor de constructie van wereldmodellen.
Multimodale grote taalmodellen (MLLM's), uitgerust met steeds geavanceerdere plannings- en gereedschapsgebruikcapaciteiten, evolueren tot autonome agents die in staat zijn tot multimodaal webbrowsen en diepgaande zoekopdrachten in open werelden. Bestaande benchmarks voor multimodaal browsen blijven echter beperkt in taakcomplexiteit, toegankelijkheid van bewijs en evaluatiegranulariteit, wat een uitgebreide en reproduceerbare beoordeling van diepzoekcapaciteiten belemmert. Om deze beperkingen aan te pakken, introduceren wij BrowseComp-V^3, een nieuwe benchmark bestaande uit 300 zorgvuldig samengestelde en uitdagende vragen uit diverse domeinen. De benchmark legt de nadruk op diepe, meerniveau- en cross-modale meerhopsredenering, waarbij cruciaal bewijs verweven is over tekstuele en visuele modaliteiten heen, zowel binnen als tussen webpagina's. Alle ondersteunende bewijsstukken moeten strikt openbaar doorzoekbaar zijn, wat eerlijkheid en reproduceerbaarheid waarborgt. Naast de nauwkeurigheid van het eindantwoord incorporeren we een expertgevalideerd, subdoelgericht procesevalueringsmechanisme dat fijnmazige analyse van tussenliggende redeneergedrag en systematische karakterisering van capaciteitsgrenzen mogelijk maakt. Daarnaast stellen wij OmniSeeker voor, een uniform raamwerk voor een multimodale browse-agent dat diverse zoek- en visuele perceptietools integreert. Uitgebreide experimenten tonen aan dat zelfs state-of-the-art modellen slechts 36% nauwkeurigheid behalen op onze benchmark, wat kritieke knelpunten in multimodale informatie-integratie en fijnmazige perceptie blootlegt. Onze resultaten onderstrepen een fundamentele kloof tussen huidige modelcapaciteiten en robuust multimodaal diepzoeken in realistische settings.
Het benutten van Multimodale Large Language Models (MLLM's) is cruciaal geworden voor de vooruitgang van Universele Multimodale Embeddings (UME) bij het aanpakken van diverse cross-modale taken. Recente studies tonen aan dat het incorporeren van generatieve Chain-of-Thought (CoT) redenering de taakspecifieke representaties aanzienlijk kan verbeteren in vergelijking met discriminerende methoden. Echter, de gegenereerde redeneer-CoT's van bestaande generatieve embeddingmethoden zijn beperkt tot de tekstuele analyse van queries en zijn niet relevant voor het ophalen van de doelen. Om deze beperkingen aan te pakken, stellen we een redeneringsgestuurd UME-raamwerk voor dat Embedder-Guided Reinforcement Learning (EG-RL) integreert om de Reasoner te optimaliseren voor het produceren van een op bewijs gebaseerde Traceerbare CoT (T-CoT). Onze belangrijkste bijdragen zijn drievoudig: (1) We ontwerpen een EG-RL-raamwerk waarin de Embedder expliciet toezicht houdt op de Reasoner, zodat de gegenereerde CoT-sporen zijn afgestemd op embeddingtaken. (2) We introduceren T-CoT, die kritische multimodale aanwijzingen extraheert om zich te richten op retrieval-relevante elementen en multimodale inputs verschaft aan de Embedder. (3) Met beperkte rekenbronnen presteert ons raamwerk beter dan het baanbrekende embeddingmodel op zowel de MMEB-V2- als UVRB-benchmarks. De integratie van multimodaal bewijs in gestructureerde redenering, gekoppeld aan retrieval-gerichte afstemming, versterkt effectief de cross-modale semantische consistentie en verbetert zowel het fijnmazige matchingvermogen van het model als de generalisatie over complexe scenario's. Ons werk toont aan dat gerichte redeneeroptimalisatie de kwaliteit van multimodale embeddings aanzienlijk kan verbeteren, en biedt een praktische en efficiënte oplossing voor redeneringsgestuurde UME-ontwikkeling.
Diffusie-taalmmodellen (dLLM's) zijn recent naar voren gekomen als een veelbelovend alternatief voor auto-regressieve grote taalmmodellen. Recente onderzoeken hebben deze modellen verder uitgebreid naar multimodale begrips- en generatietaken. In dit werk stellen we LaViDa-R1 voor, een multimodaal, algemeen toepasbaar redeneerdiffusiemodel. In tegenstelling tot bestaande benaderingen die redeneerdiffusiemodellen bouwen via taakspecifieke reinforcement learning, integreert LaViDa-R1 diverse multimodale begrips- en generatietaken op een uniforme manier. LaViDa-R1 is specifiek ontwikkeld met een nieuw uniform na-trainingsraamwerk dat supervised finetuning (SFT) en multi-task reinforcement learning (RL) naadloos integreert. Het maakt gebruik van verschillende nieuwe trainings-technieken, waaronder antwoord-forcering, boomzoekmethoden en complementaire waarschijnlijkheidsschatting, om de effectiviteit en schaalbaarheid te verbeteren. Uitgebreide experimenten tonen de sterke prestaties van LaViDa-R1 aan bij een breed scala aan multimodale taken, waaronder visueel wiskundig redeneren, redenatie-intensieve grounding en beeldbewerking.
Het behouden van ruimtelijke wereldconsistentie over lange tijdshorizons blijft een centrale uitdaging voor camerabestuurbare videogeneratie. Bestaande op geheugen gebaseerde benaderingen conditioneren de generatie vaak op globaal gereconstrueerde 3D-scènes door ankervideo's te renderen vanuit de gereconstrueerde geometrie in de geschiedenis. Het reconstrueren van een globale 3D-scène vanuit meerdere gezichtspunten introduceert echter onvermijdelijk uitlijningsfouten tussen views, omdat fouten in pose- en diepteschatting ervoor zorgen dat dezelfde oppervlakken op lichtjes verschillende 3D-locaties worden gereconstrueerd across views. Bij het samenvoegen hopen deze inconsistenties zich op tot ruisgeometrie die de conditioneringssignalen vervuilt en de generatiekwaliteit aantast. Wij introduceren AnchorWeave, een met geheugen versterkt videogeneratieraamwerk dat een enkele fout uitgelijnd globaal geheugen vervangt door meerdere schone lokale geometrische geheugens en leert om hun inconsistenties tussen views te verzoenen. Hiertoe voert AnchorWeave een dekking-gestuurde lokale geheugenretrieval uit, uitgelijnd met de doeltrajectorie, en integreert het de geselecteerde lokale geheugens via een multi-anker weefcontroller tijdens de generatie. Uitgebreide experimenten tonen aan dat AnchorWeave de consistentie van langdurige scènes aanzienlijk verbetert terwijl een sterke visuele kwaliteit behouden blijft, waarbij ablatie- en analyseonderzoeken de effectiviteit van lokale geometrische conditionering, multi-ankercontrole en dekking-gestuurde retrieval verder valideren.
Conversationele beeldsegmentatie vertaalt abstracte, op intentie gebaseerde concepten naar pixelprecieze maskers. Eerder werk over verwijzende beeldverankering richt zich op categorische en ruimtelijke vragen (bijv. "het meest linkse appel") en negeert functioneel en fysiek redeneren (bijv. "waar kan ik het mes veilig opbergen?"). Wij adresseren deze leemte en introduceren Conversationele Beeldsegmentatie (CIS) en ConverSeg, een benchmark die entiteiten, ruimtelijke relaties, intentie, affordanties, functies, veiligheid en fysiek redeneren omvat. We presenteren ook ConverSeg-Net, dat sterke segmentatiepriors integreert met taalbegrip, en een AI-gestuurde data-engine die prompt-maskerparen genereert zonder menselijk toezicht. We tonen aan dat huidige taalgestuurde segmentatiemodellen ontoereikend zijn voor CIS, terwijl ConverSeg-Net, getraind op onze data-engine, aanzienlijke vooruitgang boekt op ConverSeg en sterke prestaties behoudt op bestaande taalgestuurde segmentatiebenchmarks. Projectwebpagina: https://glab-caltech.github.io/converseg/
Het begrijpen en genereren van menselijke beweging is cruciaal voor visie en robotica, maar de redeneervaardigheid en planning tijdens tests blijven beperkt. Wij stellen MoRL voor, een verenigd multimodaal bewegingsmodel getraind met supervised fine-tuning en reinforcement learning met verifieerbare beloningen. Ons taakspecifieke beloningsontwerp combineert semantische uitlijning en redeneersamenhang voor begrip met fysieke plausibiliteit en tekst-bewegingsconsistentie voor generatie, wat zowel het logisch redeneren als de perceptuele realiteit verbetert. Om de inferentie verder te verbeteren, introduceren we Chain-of-Motion (CoM), een redeneermethode tijdens tests die stapsgewijze planning en reflectie mogelijk maakt. We construeren ook twee grootschalige CoT-datasets, MoUnd-CoT-140K en MoGen-CoT-140K, om bewegingsequenties uit te lijnen met redeneersporen en actiebeschrijvingen. Experimenten op HumanML3D en KIT-ML tonen aan dat MoRL significante verbeteringen bereikt ten opzichte van state-of-the-art baselines. Code: https://github.com/AIGeeksGroup/MoRL. Website: https://aigeeksgroup.github.io/MoRL.
Wij presenteren FireRed-Image-Edit, een diffusion transformer voor instructiegebaseerde beeldbewerking die state-of-the-art prestaties bereikt door een systematische optimalisatie van datacuratie, trainingsmethodologie en evaluatieontwerp. Wij hebben een trainingscorpus van 1,6 miljard samples samengesteld, bestaande uit 900 miljoen tekst-naar-beeld en 700 miljoen beeldbewerkingsparen uit diverse bronnen. Na rigoureuze reiniging, stratificatie, automatische labeling en tweefasenfiltering behouden wij meer dan 100 miljoen hoogwaardige samples, in evenwicht tussen generatie en bewerking, wat een sterke semantische dekking en instructie-uitlijning garandeert. Onze meerfasen trainingspijplijn bouwt geleidelijk bewerkingscapaciteit op via voorafgaande training, supervised fine-tuning en reinforcement learning. Om de data-efficiëntie te verbeteren, introduceren wij een Multi-Condition Aware Bucket Sampler voor batching met variabele resolutie en Stochastic Instruction Alignment met dynamische promptherindexering. Om de optimalisatie te stabiliseren en de bestuurbaarheid te vergroten, stellen wij Asymmetrische Gradiëntoptimalisatie voor DPO voor, DiffusionNFT met layout-aware OCR-beloningen voor tekstbewerking, en een differentieerbaar Consistentieverlies voor identiteitsbehoud. Wij stellen verder REDEdit-Bench in, een uitgebreide benchmark die 15 bewerkingscategorieën omvat, waaronder nieuw geïntroduceerde taken voor beautification en low-level verbetering. Uitgebreide experimenten op REDEdit-Bench en openbare benchmarks (ImgEdit en GEdit) tonen competitieve of superieure prestaties aan ten opzichte van zowel open-source als propriëtaire systemen. Wij publiceren code, modellen en de benchmark suite om toekomstig onderzoek te ondersteunen.
AI-coderingsagenten transformeren software-engineering in rap tempo door taken uit te voeren zoals functieontwikkeling, debuggen en testen. Ondanks hun groeiende impact ontbreekt het de onderzoeksgemeenschap aan een uitgebreide dataset die vastlegt hoe deze agenten worden gebruikt in real-world projecten. Om deze leemte op te vullen, introduceren we AIDev, een grootschalige dataset gericht op agent-geschreven pull requests (Agentic-PRs) in real-world GitHub repositories. AIDev verzamelt 932.791 Agentic-PRs geproduceerd door vijf agenten: OpenAI Codex, Devin, GitHub Copilot, Cursor en Claude Code. Deze PR's beslaan 116.211 repositories en betrokken 72.189 ontwikkelaars. Daarnaast bevat AIDev een gecureerde subset van 33.596 Agentic-PRs uit 2.807 repositories met meer dan 100 sterren, met aanvullende informatie zoals commentaren, reviews, commits en gerelateerde issues. Deze dataset biedt een basis voor toekomstig onderzoek naar AI-adoptie, ontwikkelaarsproductiviteit en mens-AI-samenwerking in het nieuwe tijdperk van software-engineering. > AI-agent, Agentische AI, Coderingsagent, Agentisch programmeren, Agentische software-engineering, Agentisch ontwerpen
Wij introduceren LM-Lexicon, een innovatieve aanpak voor definitiemodellering die dataclustering, semantische expertlearning en modelmerging combineert via een sparse mixture-of-experts-architectuur. Door de taak van definitiemodellering op te splitsen in gespecialiseerde semantische domeinen, waarbij kleine taalmodellen worden getraind als domeinexperts, behaalt LM-Lexicon aanzienlijke verbeteringen (+7% BLEU-score ten opzichte van het vorige state-of-the-art-model) ten opzichte van bestaande methoden op vijf veelgebruikte benchmarks. Empirisch tonen we aan dat 1) de clusterstrategie fijnmazige expertspecialisatie mogelijk maakt met bijna 10% verbetering in definitiekwaliteit; 2) het semantisch bewuste domeinniveau-routeringsmechanisme een hogere expertefficiëcy (+1%) bereikt dan conventionele tokenlevel-routering; en 3) verdere prestatieverbeteringen kunnen worden verkregen door schaling van rekencapaciteit tijdens testtijd en semantische experts. Ons werk bevordert definitiemodellering en biedt tegelijkertijd inzichten voor de ontwikkeling van efficiënte taalmodellen voor semantisch intensieve toepassingen.
Sonificatie – het vertalen van data naar niet-spraak audio – biedt een onderbenut kanaal voor het representeren van complexe dynamische systemen. Wij behandelen de El Niño-Zuidelijke Oscillatie (ENSO), een schoolvoorbeeld van laagdimensionale klimaatchaos, als een testcase voor cultureel gesitueerde sonificatie, geëvalueerd via complexe-systeemdiagnostiek. Met behulp van parametergebaseerde sonificatie van de Niño 3.4 zeewatertemperatuur-anomalie-index (1870–2024) coderen we ENSO-variabiliteit in twee traditionele Javaanse gamelan pentatonische systemen (pelog en slendro) volgens vier compositiestrategieën, en analyseren we de resulterende audio als trajecten in een tweedimensionale akoestische faseruimte. Op recurrentie gebaseerde diagnostiek, convexe-hull-geometrie en koppelingsanalyse onthullen dat de sonificatiepijplijn essentiële dynamische kenmerken behoudt: afwisselende modi produceren de hoogste traject-recurrentiepercentages, wat ENSO's quasi-periodiciteit weerspiegelt; gelaagde polyfone modi verkennen de breedste faseruimteregio's; en de twee toonschaalfamilies induceren kwalitatief verschillende koppelingsregimes tussen spectrale helderheid en energie – voornamelijk antifase in pelog maar bijna onafhankelijk in slendro. Faseruimtetrajectanalyse biedt een rigoureus geometrisch kader voor het vergelijken van sonificatie-ontwerpen binnen een complex-systeemcontext. Perceptuele validatie blijft noodzakelijk; wij dragen de dynamische-systeemmethodologie aan voor het evalueren van dergelijke mappingen.
Hoogwaardige generatieve videobewerking heeft aanzienlijke kwaliteitsverbeteringen doorgemaakt door gebruik te maken van vooraf getrainde videofoundationmodellen. Hun rekenkosten vormen echter een grote bottleneck, aangezien ze vaak zijn ontworpen om inefficiënt de volledige videocontext te verwerken, ongeacht de grootte van het inpaintingmasker, zelfs voor sporadische, gelokaliseerde bewerkingen. In dit artikel introduceren we EditCtrl, een efficiënt controleframework voor video-inpainting dat rekenkracht alleen aanwendt waar nodig. Onze aanpak omvat een nieuwe lokale videocontextmodule die uitsluitend op gemaskeerde tokens werkt, wat resulteert in rekenkosten die evenredig zijn met de bewerkingsgrootte. Deze lokale-first generatie wordt vervolgens gestuurd door een lichtgewicht temporale globale contextembedder die contextconsistentie over de hele video garandeert met minimale overhead. EditCtrl is niet alleen 10 keer rekenzuiniger dan state-of-the-art generatieve bewerkingsmethoden, het verbetert zelfs de bewerkingskwaliteit vergeleken met methoden die zijn ontworpen met full-attention. Tot slot demonstreren we hoe EditCtrl nieuwe mogelijkheden ontsluit, waaronder bewerking van meerdere regio's met tekstprompts en autoregressieve contentpropagatie.
Hoewel plan-and-infill-decodering in Gemaskeerde Diffusiemodellen (MDM's) veelbelovend is voor wiskundig en code-redeneerwerk, blijft de prestaties sterk afhankelijk van de volgorde van invullen, wat vaak aanzienlijke outputvariantie oplevert. Wij introduceren McDiffuSE, een raamwerk dat slotselectie formuleert als besluitvorming en invulvolgordes optimaliseert door middel van Monte Carlo Tree Search (MCTS). McDiffuSE gebruikt look-ahead-simulaties om gedeeltelijke voltooiingen te evalueren vóór definitieve keuze, waarbij de combinatorische ruimte van generatievolgordes systematisch wordt verkend. Experimenten tonen een gemiddelde verbetering van 3,2% ten opzichte van autoregressieve baseline-modellen en 8,0% ten opzichte van baseline plan-and-infill, met opmerkelijke winsten van 19,5% op MBPP en 4,9% op MATH500. Onze analyse toont aan dat hoewel McDiffuSE voornamelijk een sequentiële volgorde volgt, het incorporeren van niet-sequentiële generatie essentieel is voor het maximaliseren van de prestaties. Wij observeren dat grotere exploratieconstanten, in plaats van een toename van simulaties, nodig zijn om bias door modelvertrouwen te overwinnen en effectieve volgordes te ontdekken. Deze bevindingen vestigen MCTS-gebaseerde planning als een effectieve aanpak voor het verbeteren van de generatiekwaliteit in MDM's.
Enkelcel-RNA-seq (scRNA-seq) maakt grootschalige profilering van complexe weefsels mogelijk, waardoor zeldzame celtypen en voorbijgaande cellulaire toestanden zichtbaar worden. Het toekennen van biologisch valide celidentiteiten blijft echter een knelpunt, omdat markers weefsel- en toestandafhankelijk zijn en nieuwe toestanden geen referentiemateriaal hebben. Wij presenteren CellMaster, een AI-agent die de werkwijze van experts nabootst voor zero-shot annotatie van celtypen. In tegenstelling tot bestaande geautomatiseerde tools, benut CellMaster door LLM's gecodeerde kennis (bijv. GPT-4o) om directe annotatie uit te voeren met interpreteerbare onderbouwingen, zonder voorafgaande training of vaste marker-databases. Over 9 datasets verspreid over 8 weefsels verbeterde CellMaster de nauwkeurigheid met 7,1% ten opzichte van de best presterende basismodellen (waaronder CellTypist en scTab) in de automatische modus. Met human-in-the-loop verfijning nam dit voordeel toe tot 18,6%, met een winst van 22,1% voor subpopulaties. Het systeem toont bijzondere kracht in zeldzame en nieuwe celtoestanden waar basismodellen vaak falen. De broncode en de webapplicatie zijn beschikbaar op https://github.com/AnonymousGym/CellMaster{https://github.com/AnonymousGym/CellMaster}.
In dit onderzoekspaper presenteren wij DHPLT, een open verzameling diachrone corpora in 41 uiteenlopende talen. DHPLT is gebaseerd op de gecrawlde HPLT-datasets uit het web; wij gebruiken de tijdstempels van de webcrawls als benaderend signaal voor het aanmaaktijdstip van documenten. De verzameling beslaat drie tijdsperioden: 2011-2015, 2020-2021 en 2024-heden (1 miljoen documenten per tijdsperiode voor elke taal). Daarnaast bieden wij vooraf berekende woordtype- en token-embeddingen en lexicale substituties voor onze gekozen doelwoorden, terwijl wij het andere onderzoekers tevens mogelijk maken om met dezelfde datasets hun eigen doelwoorden te definiëren. DHPLT beoogt de huidige leemte in meertalige diachrone corpora voor semantische veranderingsmodellering (voorbij een dozijn hoogresource-talen) op te vullen. Het opent de weg voor uiteenlopende nieuwe experimentele opzetten op dit gebied. Alle in dit artikel beschreven bronnen zijn beschikbaar op https://data.hplt-project.org/three/diachronic/, gesorteerd op taal.
Ruimteakoestische analyse speelt een centrale rol in architectonisch ontwerp, audiotechniek, spraakverstaanbaarheidsbeoordeling en gehooronderzoek. Ondanks de beschikbaarheid van gestandaardiseerde metrieken zoals nagalmtijd, helderheid en spraaktransmissie-index, zijn toegankelijke tools die rigoureuze signaalverwerking combineren met intuïtieve visualisatie schaars. Dit artikel presenteert AcoustiVision Pro, een open-source, webgebaseerd platform voor uitgebreide analyse van ruimtelijke impulsresponsies (RIR). Het systeem berekent twaalf verschillende akoestische parameters uit geüploade of uit datasets afkomstige RIR's, biedt interactieve 3D-visualisaties van vroege reflecties, genereert frequentieafhankelijke dempingskarakteristieken via watervaldiagrammen en controleert de conformiteit met internationale standaarden waaronder ANSI S12.60 en ISO 3382. Wij introduceren de bijbehorende RIRMega en RIRMega Speech datasets, gehost op Hugging Face, die duizenden gesimuleerde ruimtelijke impulsresponsies met volledige metadata bevatten. Het platform ondersteunt real-time auralisatie via FFT-gebaseerde convolutie, exporteert gedetailleerde PDF-rapporten geschikt voor technische documentatie en biedt CSV-data-export voor verdere analyse. Wij beschrijven de wiskundige grondslagen onder elke akoestische metriek, specificeren de systeemarchitectuur en presenteren voorlopige casestudies die de bruikbaarheid van het platform aantonen in uiteenlopende toepassingsdomeinen, waaronder akoestiek in klaslokalen, ontwerp van gezondheidszorgfaciliteiten en evaluatie van opnamestudio's.
Retrieval-Augmented Generation (RAG) is uitgegroeid tot een hoeksteen van kennisintensieve toepassingen, zoals zakelijke chatbots, gezondheidsassistenten en agent-geheugenbeheer. Recente studies tonen echter aan dat kennis-extractieaanvallen gevoelige inhoud uit kennisbanken kunnen achterhalen via kwaadaardig geformuleerde queries, wat ernstige zorgen opwerpt over intellectuele eigendomsdiefstal en privacylekken. Hoewel eerder onderzoek individuele aanvals- en verdedigingstechnieken heeft verkend, blijft het onderzoekslandschap gefragmenteerd, met heterogene retrieval-embeddingen, uiteenlopende generatiemodellen en evaluaties gebaseerd op niet-gestandaardiseerde metrieken en inconsistente datasets. Om deze lacune aan te pakken, introduceren we de eerste systematische benchmark voor kennis-extractieaanvallen op RAG-systemen. Onze benchmark omvat een breed scala aan aanvals- en verdedigingsstrategieën, representatieve retrieval-embeddingmodellen, en zowel open- als closed-source generatoren, allemaal geëvalueerd binnen een uniform experimenteel kader met gestandaardiseerde protocollen over meerdere datasets. Door het experimentele landschap te consolideren en reproduceerbare, vergelijkbare evaluatie mogelijk te maken, biedt deze benchmark bruikbare inzichten en een praktische basis voor de ontwikkeling van privacybeschermende RAG-systemen in het licht van opkomende kennis-extractiebedreigingen. Onze code is hier beschikbaar.
Grote-taalmodel (LLM) beoordelaars worden vaak naast traditionele, op algoritmen gebaseerde metrieken gebruikt voor taken zoals samenvatting, omdat ze semantische informatie beter vastleggen, beter zijn in redeneren en robuuster zijn tegen parafrasering. LLM-beoordelaars vertonen echter onder andere vooroordelen ten aanzien van lengte en volgorde, en zijn kwetsbaar voor verschillende adversariële invoerprompts. Hoewel recente studies deze vooroordelen hebben onderzocht, hebben er weinig ze op een gedetailleerder niveau geanalyseerd in relatie tot een goed gedefinieerde overlapmetriek. In dit werk presenteren we een biasanalyse van LLM-beoordelaars als een functie van overlap met door mensen geschreven antwoorden binnen het domein van samenvatting. We testen 9 recente LLM's met parameteraantallen variërend van 1 miljard tot 12 miljard, waaronder varianten van Gemma 3 en LLaMA 3. We constateren dat LLM-beoordelaars in toenemende mate samenvattingen die door andere LLM's zijn gegenereerd verkiezen boven die geschreven door mensen naarmate de gelijkenissen (gemeten met ROUGE en BLEU) tussen de beoordeelde samenvattingen afnemen. Dit patroon strekt zich uit tot alle geteste modellen behalve één, en bestaat ongeacht de eigen positiebias van de modellen. Daarnaast stellen we vast dat modellen moeite hebben om zelfs samenvattingen met beperkte overlap te beoordelen, wat suggereert dat LLM-als-beoordelaar in het samenvattingsdomein moet vertrouwen op technieken die verder gaan dan een eenvoudige vergelijking.
Naarmate de mogelijkheden van grote taalmodellen toenemen, groeit ook hun potentieel voor misbruik. Terwijl closed-source modellen doorgaans vertrouwen op externe verdedigingsmechanismen, moeten open-weight modellen voornamelijk afhankelijk zijn van interne veiligheidsmaatregelen om schadelijk gedrag te beperken. Eerder red-teaming-onderzoek richtte zich vooral op op input gebaseerde jailbreaking en manipulaties op parameterniveau. Open-weight modellen ondersteunen echter ook standaard prefilling, wat een aanvaller in staat stelt om initiële antwoordtokens te definiëren voordat de generatie begint. Ondanks dit potentieel heeft deze aanvalsvector weinig systematische aandacht gekregen. Wij presenteren de grootste empirische studie tot nu toe naar prefill-aanvallen, waarbij we meer dan 20 bestaande en nieuwe strategieën evalueren across meerdere modelfamilies en state-of-the-art open-weight modellen. Onze resultaten tonen aan dat prefill-aanvallen consequent effectief zijn tegen alle belangrijke hedendaagse open-weight modellen, wat een kritieke en voorheen onderbelichte kwetsbaarheid blootlegt met significante implicaties voor implementatie. Hoewel bepaalde grote redeneermodellen enige robuustheid vertonen tegen generiek prefilling, blijven ze kwetsbaar voor op maat gemaakte, modelspecifieke strategieën. Onze bevindingen onderstrepen de dringende noodzaak voor modelontwikkelaars om verdediging tegen prefill-aanvallen in open-weight LLM's te prioriteren.
LLM-gestuurde agents beginnen gebruikers taken te automatiseren op het open web, vaak met toegang tot gebruikersbronnen zoals e-mails en agenda's. In tegenstelling tot standaard-LLM's die vragen beantwoorden in een gecontroleerde chatbotomgeving, opereren webagents 'in het wild', waarbij ze interacteren met derden en een actiespoor achterlaten. Daarom stellen wij de vraag: hoe gaan webagents om met gebruikersbronnen wanneer zij taken voor hen voltooien op live websites? In dit artikel formaliseren we Natural Agentic Oversharing – de onbedoelde openbaarmaking van taakonrelevante gebruikersinformatie via een agentspoor van acties op het web. We introduceren SPILLage, een raamwerk dat oversharing karakteriseert langs twee dimensies: kanaal (inhoud vs. gedrag) en directheid (expliciet vs. impliciet). Deze taxonomie onthult een kritieke blinde vlek: waar eerder werk zich richt op tekstlekken, delen webagents ook informatie gedragsmatig door middel van klikken, scrollbewegingen en navigatiepatronen die gemonitord kunnen worden. We benchmarken 180 taken op live e-commerce sites met grondwaarannotaties die taakrelevante van taakonrelevante attributen scheiden. Over 1.080 runs, verdeeld over twee agent-raamwerken en drie onderliggende LLM's, tonen we aan dat oversharing alomtegenwoordig is, waarbij gedragsmatig oversharing inhoudelijk oversharing met een factor 5 domineert. Dit effect houdt aan – en kan zelfs verergeren – bij mitigatie op promptniveau. Het verwijderen van taakonrelevante informatie vóór uitvoering verbetert de taaksucces echter met tot 17,9%, wat aantoont dat het verminderen van oversharing de taakuitvoering verbetert. Onze bevindingen onderstrepen dat het beschermen van privacy in webagents een fundamentele uitdaging is, die een bredere kijk op "output" vereist die rekening houdt met wat agents *doen* op het web, niet alleen met wat ze typen. Onze datasets en code zijn beschikbaar op https://github.com/jrohsc/SPILLage.
Reinforcement Learning (RL) is naar voren gekomen als een dominant paradigma voor end-to-end autonoom rijden (AD). RL kampt echter met een gebrek aan sample-efficiëntie en een tekort aan semantische interpreteerbaarheid in complexe scenario's. Foundation Models, met name Vision-Language Models (VLM's), kunnen dit verhelpen door rijke, contextbewuste kennis te bieden, maar hun hoge inferentielatentie belemmert de inzet in hoogfrequente RL-trainingslussen. Om deze kloof te overbruggen, presenteren wij Found-RL, een platform dat is toegesneden op het efficiënt verbeteren van RL voor AD met behulp van foundation models. Een kerninnovatie is het asynchrone batch-inferentiekader, dat de zware VLM-redenering ontkoppelt van de simulatielus, waardoor latentieknelpunten effectief worden opgelost om real-time leren mogelijk te maken. Wij introduceren diverse supervisiemechanismen: Value-Margin Regularization (VMR) en Advantage-Weighted Action Guidance (AWAG) om expert-achtige VLM-actievoorstellen effectief te distilleren in het RL-beleid. Daarnaast adopteren wij high-throughput CLIP voor dense reward shaping. Wij adresseren CLIP's dynamische blindheid via Conditional Contrastive Action Alignment, waarbij prompts worden geconditioneerd op gediscretiseerde snelheid/opdracht en een genormaliseerde, op marge gebaseerde bonus oplevert uit context-specifieke actie-anker scoring. Found-RL biedt een end-to-end pipeline voor de integratie van gefinetunede VLM's en toont aan dat een lichtgewicht RL-model een prestatie kan bereiken die bijna gelijk is aan die van VLM's met miljarden parameters, terwijl het real-time inferentie handhaaft (ongeveer 500 FPS). Code, data en modellen zullen openbaar beschikbaar worden gesteld op https://github.com/ys-qu/found-rl.
Het instruction fine-tunen van large language models (LLM's) houdt vaak in dat een subset van instructietrainingsgegevens wordt geselecteerd uit een grote kandidaatpool, met behulp van een kleine queryset van de doeltaak. Ondanks een groeiende interesse blijft de literatuur over gerichte instructieselectie gefragmenteerd en ondoorzichtig: methoden variëren sterk in selectiebudgetten, sluiten vaak zero-shot-baselines uit, en verstrengelen frequent de bijdragen van kerncomponenten. Hierdoor ontbreekt het praktijkmensen aan concrete richtlijnen voor het selecteren van instructies voor hun doeltaken. In dit werk willen wij duidelijkheid scheppen in dit landschap door de twee kerningrediënten te ontwarren en systematisch te analyseren: datarepresentatie en selectiealgoritmen. Ons raamwerk maakt gecontroleerde vergelijkingen mogelijk tussen modellen, taken en budgetten. Wij constateren dat alleen op gradienten gebaseerde datarepresentaties subsets kiezen waarvan de gelijkenis met de query consistent prestaties voorspelt across datasets en modellen. Hoewel geen enkele methode domineert, presteren op gradienten gebaseerde representaties gekoppeld aan een gretig round-robin-selectiealgoritme gemiddeld het beste bij lage budgetten, maar nemen deze voordelen af bij grotere budgetten. Ten slotte verenigen wij verschillende bestaande selectiealgoritmen als vormen van benaderde afstandsminimalisatie tussen de geselecteerde subset en de queryset, en ondersteunen deze visie met nieuwe generalisatiegrenzen. In bredere zin bieden onze bevindingen kritische inzichten en een basis voor meer principieel dataselectie bij het fine-tunen van LLM's. De code is beschikbaar op https://github.com/dcml-lab/targeted-instruction-selection.
Generatieve AI-agenten stellen begrip gelijk aan het oplossen van expliciete vragen, een aanname die interactie beperkt tot wat gebruikers kunnen verwoorden. Deze aanname houdt geen stand wanneer gebruikers zelf niet bewust zijn van wat ontbreekt, riskant is of de moeite waard is om te overwegen. Onder dergelijke omstandigheden is proactiviteit niet louter een efficiëntieverbetering, maar een epistemische noodzaak. Wij verwijzen naar deze conditie als *epistemische onvolledigheid*: situaties waarin vooruitgang afhangt van het betreden van het domein van de onbekende onbekenden om een effectieve partnerschap aan te gaan. Bestaande benaderingen van proactiviteit blijven beperkt tot anticiperend gedrag, waarbij wordt geëxtrapoleerd uit eerder gedrag en wordt aangenomen dat doelen reeds duidelijk zijn gedefinieerd, waardoor ze gebruikers niet zinvol ondersteunen. Het tonen van mogelijkheden die buiten het huidige bewustzijn van een gebruiker vallen, is echter niet inherent gunstig. Ongebreidelde proactieve interventies kunnen de aandacht misleiden, gebruikers overweldigen of schade veroorzaken. Proactieve agenten vereisen daarom *gedragsmatige verankering*: principiële beperkingen voor wanneer, hoe en in welke mate een agent moet ingrijpen. Wij beargumenteren de positie dat generatieve proactiviteit zowel epistemisch als gedragsmatig verankerd moet zijn. Putting uit de filosofie van onwetendheid en onderzoek naar proactief gedrag, stellen wij dat deze theorieën essentiële richtlijnen bieden voor het ontwerpen van agenten die verantwoordelijk kunnen handelen en zinvolle partnerschappen kunnen bevorderen.