Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalagentschappen hebben een opmerkelijk potentieel getoond in webzoekopdrachten en informatievergaring. Echter gaan deze zoekagentschappen ervan uit dat gebruikersvragen compleet en eenduidig zijn, een aanname die afwijkt van de realiteit waarin gebruikers starten met onvolledige vragen die verduidelijking vereisen via interactie. Toch beschikken de meeste agentschappen niet over interactieve mechanismen tijdens het zoekproces, en bestaande benchmarks kunnen deze capaciteit niet beoordelen. Om deze leemte te adresseren, introduceren we InteractComp, een benchmark ontworpen om te evalueren of zoekagentschappen query-ambiguïteit kunnen herkennen en actief kunnen interacteren om deze tijdens het zoeken op te lossen. Volgens het principe van eenvoudig te verifiëren, interacteren om te disambigueren, construeren we 210 expert-gecurateerde vragen over 9 domeinen via een target-distractor methodologie die echte ambiguïteit creëert die alleen via interactie oplosbaar is. Evaluatie van 17 modellen onthult een opvallend falen: het beste model behaalt slechts 13,73% nauwkeurigheid ondanks 71,50% met volledige context, wat systematische overmoed blootlegt in plaats van redeneertekorten. Geforceerde interactie levert dramatische verbeteringen op, wat latente capaciteiten aantoont die huidige strategieën niet benutten. Longitudinale analyse toont aan dat interactiecapaciteiten over 15 maanden stagneerden terwijl zoekprestaties zevenvoudig verbeterden, wat een kritieke blinde vlek onthult. Deze stagnatie, gekoppeld aan de inherente directe feedback van zoektaken, maakt InteractComp een waardevolle bron voor zowel evaluatie als training van interactiecapaciteiten in zoekagentschappen. De code is beschikbaar op https://github.com/FoundationAgents/InteractComp.
Wij presenteren Tongyi DeepResearch, een agent-gebaseerd groot taalmodel dat specifiek is ontworpen voor langetermijn, diepgaande informatiezoektaken. Om autonoom diepgaand onderzoeksvermogen te stimuleren, is Tongyi DeepResearch ontwikkeld via een end-to-end trainingsraamwerk dat agent-mid-training en agent-post-training combineert, waardoor schaalbare redenering en informatiezoeken over complexe taken mogelijk wordt. Wij hebben een zeer schaalbare data-synthesepijplijn ontworpen die volledig automatisch verloopt, zonder afhankelijkheid van kostbare menselijke annotatie, en die alle trainingsfasen ondersteunt. Door aangepaste omgevingen voor elke fase te construeren, zorgt ons systeem voor stabiele en consistente interacties gedurende het hele proces. Tongyi DeepResearch, met in totaal 30,5 miljard parameters waarvan slechts 3,3 miljard per token geactiveerd worden, behaalt state-of-the-art prestaties op een reeks agent-gebaseerde diep-onderzoeksbenchmarks, waaronder Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES en xbench-DeepSearch-2510. Wij maken het model, het raamwerk en de complete oplossingen open source om de gemeenschap te versterken.
Op LLM gebaseerde webagenten tonen enorme belofte voor informatiezoektaken, maar hun effectiviteit bij langetermijnopdrachten wordt belemmerd door een fundamentele afweging in contextbeheer. Gangbare op ReAct gebaseerde agenten kampen met contextverzadiging doordat ze lawaaierige, ruwe geschiedenis accumuleren, terwijl methoden die de volledige geschiedenis op elk stap vast samenvatten het risico lopen op onomkeerbaar verlies van kritieke details. Om dit aan te pakken, introduceren we AgentFold, een nieuw agentparadigma gericht op proactief contextbeheer, geïnspireerd door het menselijk cognitieve proces van retrospectieve consolidatie. AgentFold behandelt zijn context als een dynamische cognitieve werkruimte die actief wordt gevormd, in plaats van een passief logboek dat wordt gevuld. Bij elke stap leert het een `vouwing`-operatie uit te voeren, die zijn historische traject op meerdere schalen beheert: het kan granulair condenseren om vitale, fijnmazige details te behouden, of diepe consolidatie uitvoeren om volledige meerstaps sub-taken te abstraheren. De resultaten op prominente benchmarks zijn opvallend: met eenvoudige supervised fine-tuning (zijn voortgezette voorpretraining of RL) behaalt onze AgentFold-30B-A3B agent 36,2% op BrowseComp en 47,3% op BrowseComp-ZH. Opmerkelijk is dat deze prestatie niet alleen opensource-modellen van aanzienlijk grotere omvang overtreft of evenaart, zoals de DeepSeek-V3.1-671B-A37B, maar ook toonaangevende propriëtaire agenten zoals OpenAI's o4-mini overstijgt.
Recente vooruitgang in Multimodale Large Language Models (MLLM's) heeft een snelle ontwikkeling aangewakkerd in Visie-Taal-Actie (VTA) modellen voor robotmanipulatie. Hoewel effectief in veel scenario's, baseren huidige methoden zich grotendeels op expliciete instructies, terwijl mensen in real-world interacties zelden directe opdrachten geven. Effectieve samenwerking vereist dat robots gebruikersintenties proactief kunnen afleiden. In dit werk introduceren we cross-modale contextuele instructies, een nieuwe setting waarin de intentie wordt afgeleid uit gesproken dialoog, omgevingsgeluiden en visuele aanwijzingen in plaats van expliciete commando's. Om deze nieuwe setting aan te pakken, presenteren we RoboOmni, een Perceiver-Thinker-Talker-Executor raamwerk gebaseerd op end-to-end omnimodale LLM's die intentieherkenning, interactiebevestiging en actie-uitvoering verenigt. RoboOmni voegt auditieve en visuele signalen spatiotemporeel samen voor robuuste intentieherkenning, terwijl het directe spraakinteractie ondersteunt. Om het gebrek aan trainingsdata voor proactieve intentieherkenning in robotmanipulatie aan te pakken, bouwden we OmniAction, bestaande uit 140k episodes, 5k+ sprekers, 2.4k gebeurtenisgeluiden, 640 achtergronden en zes contextuele instructietypes. Experimenten in simulatie en real-world settings tonen aan dat RoboOmni op tekst en spraakherkenning (ASR) gebaseerde referentiemodellen overtreft in slagingspercentage, inferentiesnelheid, intentieherkenning en proactieve assistentie.
Wij presenteren Game-TARS, een generalistische game-agent die is getraind met een uniforme, schaalbare actieruimte verankerd aan mensgerichte, native toetsenbord-muisinvoer. In tegenstelling tot API- of GUI-gestuurde benaderingen, maakt dit paradigma grootschalige continue voorafgaande training over heterogene domeinen mogelijk, waaronder besturingssystemen, het web en simulatiegames. Game-TARS is voorgetraind op meer dan 500B tokens met diverse trajecten en multimodale gegevens. Belangrijke technieken omvatten een vervallend continu verlies om causale verwarring te verminderen en een efficiënte Sparse-Thinking-strategie die de redeneerdiepte en inferentiekosten in balans brengt. Experimenten tonen aan dat Game-TARS ongeveer twee keer zo'n hoog slagingspercentage behaalt als het vorige state-of-the-art-model bij open-wereld Minecraft-taken, de algemeenheid van onervaren mensen benadert in onbekende web-3D-games, en beter presteert dan GPT-5, Gemini-2.5-Pro en Claude-4-Sonnet in FPS-benchmarks. Schaalresultaten voor trainings- en testtijd bevestigen dat de uniforme actieruimte verbeteringen behoudt bij opschaling naar cross-game en multimodale gegevens. Onze resultaten tonen aan dat eenvoudige, schaalbare actierepresentaties gecombineerd met grootschalige voorafgaande training een veelbelovend pad bieden naar generalistische agents met brede computergebruik-vaardigheden.
Continue-ruimtige videogeneratie heeft een snelle vooruitgang geboekt, terwijl discrete benaderingen achterblijven door foutaccumulatie en inconsistentie over lange contexten. In dit werk herzien we discrete generatieve modellering en presenteren Uniform discRete diffuSion with metric pAth (URSA), een eenvoudig maar krachtig raamwerk dat de kloof met continue benaderingen overbrugt voor schaalbare videogeneratie. De kern van URSA bestaat uit het formuleren van de videogeneratietaak als een iteratieve globale verfijning van discrete ruimtelijk-temporele tokens. Het integreert twee belangrijke ontwerpen: een Lineair Gemaakt Metrisch Pad en een Resolutie-afhankelijk Tijdstipverschuivingsmechanisme. Deze ontwerpen stellen URSA in staat efficiënt op te schalen naar hoogwaardige beeldsynthese en videogeneratie van lange duur, terwijl aanzienlijk minder inferentiestappen nodig zijn. Daarnaast introduceren we een asynchrone temporele fine-tuningstrategie die veelzijdige taken verenigt binnen een enkel model, inclusief interpolatie en beeld-naar-videogeneratie. Uitgebreide experimenten op veeleisende benchmarks voor video- en beeldgeneratie tonen aan dat URSA consistent beter presteert dan bestaande discrete methoden en prestaties bereikt die vergelijkbaar zijn met state-of-the-art continue diffusiemethoden. Code en modellen zijn beschikbaar op https://github.com/baaivision/URSA.
Publieke onderzoeksresultaten over grootschalige gesuperviseerde finetuning van AI-agenten blijven relatief schaars, omdat de verzameling van trainingsdata voor agenten unieke uitdagingen met zich meebrengt. In dit werk beargumenteren wij dat het knelpunt niet een gebrek aan onderliggende databronnen is, maar dat een grote verscheidenheid aan data versnipperd is over heterogene formaten, tools en interfaces. Hiertoe introduceren wij het *agent data protocol* (ADP), een lichtgewicht representatietaal die dient als een 'interlingua' tussen agent-datasets in uiteenlopende formaten en gestandaardiseerde trainingspijplijnen voor agenten stroomafwaarts. Het ontwerp van ADP is expressief genoeg om een grote verscheidenheid aan taken vast te leggen, inclusief API/toolgebruik, browsen, programmeren, software-engineering en algemene agent-workflows, terwijl het eenvoudig blijft om te parseren en op te trainen zonder engineering op datasetniveau. In experimenten hebben wij een brede collectie van 13 bestaande agent-trainingsdatasets verenigd in het ADP-formaat, en de gestandaardiseerde ADP-data omgezet naar trainingsklare formaten voor meerdere agent-frameworks. Wij voerden SFT uit op deze data en toonden een gemiddelde prestatieverbetering aan van ~20% ten opzichte van de corresponderende basismodellen, en behaalden state-of-the-art of bijna-SOTA prestaties op standaard benchmarks voor programmeren, browsen, toolgebruik en onderzoek, zonder domeinspecifieke afstemming. Alle code en data zijn openbaar vrijgegeven, in de hoop dat ADP de drempel kan verlagen voor gestandaardiseerde, schaalbare en reproduceerbare training van agenten.
Bestaande vision-language-action (VLA) modellen opereren in de 3D-wereld, maar zijn doorgaans gebouwd op 2D-encoders, wat een kloof in ruimtelijk redeneren achterlaat die de generalisatie en aanpasbaarheid beperkt. Recente 3D-integratietechnieken voor VLA's vereisen ofwel gespecialiseerde sensoren en presteren slecht bij overdracht tussen modaliteiten, ofwel injecteren ze zwakke signalen die geometrie missen en de vision-language-afstemming verslechteren. In dit werk introduceren we FALCON (From Spatial to Action), een nieuw paradigma dat rijke 3D-ruimtelijke tokens injecteert in de actiekop. FALCON benut ruimtelijke foundation-modellen om sterke geometrische priors uitsluitend uit RGB te halen, en omvat een Embodied Spatial Model dat optioneel diepte of pose kan fusioneren voor hogere nauwkeurigheid indien beschikbaar, zonder hertraining of architectuurwijzigingen. Om de taalredenering te behouden, worden de ruimtelijke tokens verwerkt door een Spatial-Enhanced Action Head in plaats van te worden samengevoegd in de vision-language-backbone. Deze ontwerpen stellen FALCON in staat om beperkingen in ruimtelijke representatie, modaliteitsoverdraagbaarheid en afstemming aan te pakken. In uitgebreide evaluaties over drie simulatiebenchmarks en elf real-world taken behaalt onze voorgestelde FALCON state-of-the-art prestaties, overtreft consequent competitieve basislijnen en blijft robuust onder rommel, conditionering met ruimtelijke prompts, en variaties in objectschaal en hoogte.
Onlangs heeft beeldbewerking op basis van Diffusion-in-Transformer-modellen een snelle ontwikkeling doorgemaakt. Bestaande bewerkingsmethoden ontberen echter vaak een effectieve controle over de bewerkingsgraad, wat hun vermogen beperkt om meer gepersonaliseerde resultaten te bereiken. Om deze beperking aan te pakken, onderzoeken we het MM-Attention-mechanisme binnen het DiT-model en observeren we dat de Query- en Key-tokens een biasvector delen die alleen van de laag afhankelijk is. Wij interpreteren deze bias als een representatie van het inherente bewerkingsgedrag van het model, terwijl de delta tussen elke token en de bijbehorende bias de inhoudsspecifieke bewerkingssignalen codeert. Gebaseerd op dit inzicht stellen we Group Relative Attention Guidance voor, een eenvoudige maar effectieve methode die de deltawaarden van verschillende tokens herweegt om de focus van het model op de invoerafbeelding ten opzichte van de bewerkingsinstructie te moduleren. Dit maakt continue en fijnmazige controle over de bewerkingsintensiteit mogelijk zonder enige afstemming. Uitgebreide experimenten uitgevoerd met bestaande beeldbewerkingsframeworks tonen aan dat GRAG kan worden geïntegreerd met slechts vier regels code, waarbij consistent de bewerkingskwaliteit wordt verbeterd. Vergeleken met de veelgebruikte Classifier-Free Guidance bereikt GRAG bovendien een soepelere en preciezere controle over de bewerkingsgraad. Onze code wordt vrijgegeven op https://github.com/little-misfit/GRAG-Image-Editing.
Speculatieve decodering versnelt LLM-inferentie door een klein draft-model te gebruiken om meerdere tokens voor te stellen die een doelmodel parallel verifieert. Het uitbreiden van dit concept naar batches is essentieel voor productie-inferentie, maar introduceert het 'ragged tensor'-probleem: sequenties in dezelfde batch accepteren verschillende aantallen draft-tokens, wat rechtsuitlijning verbreekt en positie-ID's, aandachtmaskers en KV-cache-toestand corrumpeert. Wij tonen aan dat verschillende bestaande batch-implementaties output-equivalentie schenden - de fundamentele eis dat speculatieve decodering identieke tokenreeksen moet produceren als standaard autoregressieve generatie. Deze schendingen treden precies op door onjuiste afhandeling van het ragged tensor-probleem. Als antwoord hierop (1) karakteriseren wij de synchronisatievereisten die correctheid garanderen, (2) presenteren wij een correctheid-gerichte batch-speculatieve decodering EQSPEC die heruitlijning blootstelt als 40% van de overhead, en (3) introduceren wij EXSPEC, dat een glijdende pool van sequenties onderhoudt en dynamisch groepen met gelijke lengte vormt, om de heruitlijningsoverhead te verminderen terwijl per-sequentie speculatieve snelheidswinst behouden blijft. Op de SpecBench-dataset, over Vicuna-7B/68M, Qwen3-8B/0.6B en GLM-4-9B/0.6B doel/draft-paren, behaalt onze aanpak tot 3x doorvoerverbetering bij batchgrootte 8 vergeleken met batchgrootte 1, met efficiënte schaalbaarheid tot batchgrootte 8, terwijl 95% output-equivalentie behouden blijft. Onze methode vereist geen aangepaste kernels en integreert naadloos met bestaande inferentiestacks. Onze code is beschikbaar op https://github.com/eBay/spec_dec.
Op LLM gebaseerde zoekagentschappen worden steeds vaker getraind op entiteitsgerichte synthetische data om complexe, kennisintensieve taken op te lossen. Huidige trainingsmethoden zoals Group Relative Policy Optimization (GRPO) negeren echter deze rijke entiteitsinformatie en vertrouwen in plaats daarvan op schaarse, op uitkomsten gebaseerde beloningen. Deze fundamentele beperking maakt ze niet in staat om informatieve "bijna-correcte" voorbeelden – die een grotendeels correcte redenering maar een foutief eindantwoord hebben – te onderscheiden van volledige mislukkingen, waardoor waardevolle leerinformatie verloren gaat. Wij lossen dit op door gebruik te maken van de entiteiten die tijdens de training worden genegeerd. Onze empirische analyse toont een sterke positieve correlatie tussen het aantal grondwaarheid-entiteiten dat tijdens het redeneerproces van een agent wordt geïdentificeerd en de nauwkeurigheid van het eindantwoord. Op basis van dit inzicht introduceren we Entity-aware Group Relative Policy Optimization (E-GRPO), een nieuw framework dat een dense, entiteitsbewuste beloningsfunctie formuleert. E-GRPO kent gedeeltelijke beloningen toe aan incorrecte voorbeelden in verhouding tot hun entiteit-matchpercentage, waardoor het model effectief kan leren van deze "bijna-correcte" voorbeelden. Experimenten op uiteenlopende vraag-antwoord (QA) en diepgaande onderzoeksbenchmarks tonen aan dat E-GRPO consistent en significant beter presteert dan de GRPO-baseline. Bovendien toont onze analyse aan dat E-GRPO niet alleen superieure nauwkeurigheid bereikt, maar ook efficiëntere redeneerstrategieën induceert die minder tool-aanroepen vereisen, wat een effectievere en sample-efficiëntere benadering voor het aligneren van zoekagentschappen demonstreert.
Het trainen van grote taalmodelagenten op taken aan de grenzen van hun mogelijkheden is essentieel voor het ontgrendelen van geavanceerd redeneervermogen. Wij introduceren een datasynthesemethode geïnspireerd op de onderwijstheorie van de Zone van de Naastbije Ontwikkeling (ZNO), die deze grens definieert als taken die een LLM niet alleen kan oplossen, maar wel kan beheersen met begeleiding. Om dit te operationaliseren, presenteren we de AgentFrontier Engine, een geautomatiseerde pijplijn die hoogwaardige, multidisciplinaire data synthetiseert die zich precies binnen de ZNO van het LLM bevindt. Deze engine ondersteunt zowel voortgezotte pre-training met kennisintensieve data als gerichte post-training op complexe redeneertaken. Vanuit hetzelfde framework leiden we de ZNO-examens af, een dynamische en geautomatiseerde benchmark ontworpen om agentcapaciteiten op deze grensverleggende taken te evalueren. We trainen het AgentFrontier-30B-A3B-model op onze gesynthetiseerde data, dat state-of-the-art resultaten behaalt op veeleisende benchmarks zoals Humanity's Last Exam, en zelfs enkele toonaangevende propriëtaire agenten overtreft. Ons werk toont aan dat een ZNO-gestuurde aanpak voor datasynthese een schaalbare en effectieve weg biedt voor het bouwen van capabelere LLM-agenten.
Met de vooruitgang in besluitvormings- en redeneervermogen tonen multimodale agenten sterk potentieel in computerapplicatiescenario's. Eerdere evaluaties hebben voornamelijk GUI-interactievaardigheden beoordeeld, terwijl toolaanroepcapaciteiten, zoals mogelijk gemaakt door het Model Context Protocol (MCP), grotendeels over het hoofd zijn gezien. Het vergelijken van agenten met geïntegreerde toolaanroep met agenten die alleen op GUI-interactie zijn geëvalueerd, is inherent oneerlijk. Wij presenteren OSWorld-MCP, de eerste uitgebreide en eerlijke benchmark voor het beoordelen van toolaanroep-, GUI-bedienings- en besluitvormingsvermogen van computergebruik-agenten in een realistische omgeving. We ontwerpen een nieuwe geautomatiseerde code-generatiepijplijn om tools te creëren en combineren deze met een gecureerde selectie uit bestaande tools. Strenge handmatige validatie levert 158 hoogwaardige tools op (die 7 veelvoorkomende applicaties bestrijken), elk geverifieerd op correcte functionaliteit, praktische toepasbaarheid en veelzijdigheid. Uitgebreide evaluaties van state-of-the-art multimodale agenten op OSWorld-MCP tonen aan dat MCP-tools over het algemeen de taaksuccespercentages verbeteren (bijv. van 8,3% naar 20,4% voor OpenAI o3 bij 15 stappen, van 40,1% naar 43,3% voor Claude 4 Sonnet bij 50 stappen), wat het belang onderstreept van het beoordelen van toolaanroepcapaciteiten. Echter, zelfs de sterkste modellen hebben relatief lage toolaanroeppercentages (slechts 36,3%), wat wijst op ruimte voor verbetering en de uitdagende aard van de benchmark benadrukt. Door expliciet MCP-toolgebruiksvaardigheden te meten, verdiept OSWorld-MCP het begrip van multimodale agenten en zet het een nieuwe standaard voor het evalueren van prestaties in complexe, tool-ondersteunde omgevingen. Onze code, omgeving en gegevens zijn openbaar beschikbaar op https://osworld-mcp.github.io.
Grote taalmodellen (LLM's) hebben recentelijk codeeragenten mogelijk gemaakt die in staat zijn visualisatiecode te genereren, uit te voeren en te reviseren. Bestaande modellen falen echter vaak in praktische workflows vanwege beperkte taalondersteuning, onbetrouwbare uitvoering en een gebrek aan iteratieve correctiemechanismen. De vooruitgang wordt belemmerd door smalle datasets en benchmarks die eenzijdig nadruk leggen op generatie in één ronde en taken in één programmeertaal. Om deze uitdagingen aan te pakken, introduceren we drie complementaire bronnen voor de verdere ontwikkeling van visualisatiecodeeragenten. VisCode-Multi-679K is een grootschalige, gesuperviseerde dataset met 679K gevalideerde en uitvoerbare visualisatievoorbeelden, inclusief multi-turn correctiedialogen in 12 programmeertalen. VisPlotBench is een benchmark voor systematische evaluatie, met uitvoerbare taken, gerenderde output en protocollen voor zowel initiële generatie als multi-round zelfdebugging. Ten slotte presenteren we VisCoder2, een familie van multi-language visualisatiemodellen getraind op VisCode-Multi-679K. Experimenten tonen aan dat VisCoder2 sterk presteert in vergelijking met robuuste open-source alternatieven en de prestaties benadert van propriëtaire modellen zoals GPT-4.1, met verdere verbeteringen door iteratieve zelfdebugging, wat resulteert in een algeheel uitvoeringssuccespercentage van 82,4% op de 32B-schaal, met name in symbolische of compiler-afhankelijke talen.
Op Large Language Models (LLM) gebaseerde agents zijn naar voren gekomen als een transformerende aanpak voor het oplossen van open-einde problemen, waarbij informatiezoeken (Information Seeking, IS) een kerncapaciteit is die autonoom redeneren en besluitvorming mogelijk maakt. Hoewel eerder onderzoek zich grotendeels heeft gericht op het verbeteren van de retrievalscherpte, merken wij op dat huidige IS-agents vaak lijden onder lage zoekefficiëntie, wat op zijn beurt de algehele prestaties beperkt. Een belangrijke onderliggende factor voor deze inefficiëntie is de schaarste van doelentiteiten in trainings taken, wat de mogelijkheden voor agents om efficiënt zoekgedrag aan te leren en te generaliseren beperkt. Om deze uitdagingen aan te pakken, stellen wij WebLeaper voor, een raamwerk voor het construeren van IS-taken met hoge dekking en het genereren van efficiënte oplossingstrajecten. Wij formuleren IS als een boomgestructureerd redeneerprobleem, waardoor een aanzienlijk grotere set doelentiteiten in een beperkte context kan worden ingebed. Gebruikmakend van gecureerde Wikipedia-tabellen, stellen wij drie varianten voor om IS-taken te synthetiseren: Basic, Union en Reverse-Union, om systematisch zowel de IS-efficiëntie als de effectiviteit te vergroten. Ten slotte cureren wij trainings trajecten door alleen die trajecten te behouden die tegelijkertijd accuraat en efficiënt zijn, zodat het model geoptimaliseerd wordt voor zowel correctheid als zoekprestaties. Uitgebreide experimenten in zowel basis- als uitgebreide settings, uitgevoerd op vijf IS benchmarks (BrowserComp, GAIA, xbench-DeepSearch, WideSearch en Seal-0), tonen aan dat onze methode consistent verbeteringen bereikt in zowel effectiviteit als efficiëntie ten opzichte van sterke baseline methoden.
Parallel denken vergroot de verkenningbreedte en complementeert de diepe verkenning van informatiezoekende (IS) agents om het probleemoplossend vermogen verder te verbeteren. Conventioneel parallel denken kampt echter met twee kernuitdagingen in deze setting: inefficiëntie door herhaaldelijk vanaf nul te starten, en moeilijkheden bij het integreren van langetermijnredeneertrajecten tijdens antwoordgeneratie, aangezien beperkte contextcapaciteit een volledige afweging van het redeneerproces verhindert. Om deze problemen aan te pakken, stellen wij ParallelMuse voor, een tweefasenparadigma ontworpen voor diepe IS-agents. De eerste fase, Functionaliteitsspecifieke Gedeeltelijke Uitrol, verdeelt gegenereerde sequenties in functionele regio's en voert onzekerheidsgestuurd padhergebruik en vertakking uit om de verkenningsefficiëntie te verbeteren. De tweede fase, Gecomprimeerde Redeneringsaggregatie, benut redundantie in redenering om informatie relevant voor antwoordafleiding verliesvrij te comprimeren en een coherent eindantwoord te synthetiseren. Experimenten met diverse open-source agents en benchmarks tonen tot 62% prestatieverbetering met 10-30% reductie in verkennend tokenverbruik.
Hoewel Multimodale Large Language Models (MLLM's) uitblinken in visueel begrip, hebben ze vaak moeite met complexe scenario's die visuele planning en verbeeldingskracht vereisen. Geïnspireerd door hoe mensen schetsen gebruiken als een vorm van visueel denken om ideeën te ontwikkelen en te communiceren, introduceren we Latent Sketchpad, een raamwerk dat MLLM's uitrust met een intern visueel kladblok. De interne visuele representaties van MLLM's waren traditioneel beperkt tot perceptueel begrip. Wij herpositioneren ze om generatief visueel denken te ondersteunen zonder de redeneercapaciteit aan te tasten. Voortbordurend op frontier MLLM's integreert onze aanpak visuele generatie direct in hun inherente autoregressieve denkproces. Hierdoor kan het model tekstueel redeneren afwisselen met het genereren van visuele latenties. Deze latenties sturen het interne denkproces en kunnen worden vertaald naar schetsafbeeldingen voor interpreteerbaarheid. Om dit te realiseren, introduceren we twee componenten: een Context-Aware Vision Head produceert autoregressief visuele representaties, en een vooraf getrainde Sketch Decoder zet deze om naar voor mensen interpreteerbare afbeeldingen. We evalueren het raamwerk op onze nieuwe dataset MazePlanning. Experimenten met diverse MLLM's tonen aan dat Latent Sketchpad een vergelijkbare of zelfs superieure redeneerprestatie levert vergeleken met hun backbone. Het generaliseert verder over verschillende frontier MLLM's, waaronder Gemma3 en Qwen2.5-VL. Door het tekstuele redeneervermogen van het model uit te breiden naar visueel denken, opent ons raamwerk nieuwe mogelijkheden voor rijkere mens-computerinteractie en bredere toepassingen. Meer details en bronnen zijn beschikbaar op onze projectpagina: https://latent-sketchpad.github.io/.
Het trainen van critiquerende taalmodelen om modeloutputs te beoordelen en feedback te geven is een veelbelovende manier om grote taalmodelen (LLMs) te verbeteren voor complexe redeneertaken. Bestaande benaderingen zijn echter doorgaans afhankelijk van sterkere supervisors voor het annoteren van critiquedata. Om dit aan te pakken, stellen wij Critique-RL voor, een online RL-benadering voor het ontwikkelen van critiquerende taalmodelen zonder sterk toezicht. Onze aanpak werkt volgens een tweespelerparadigma: de actor genereert een reactie, de criticus geeft feedback en de actor verfijnt de reactie dienovereenkomstig. We tonen eerst aan dat uitsluitend vertrouwen op indirecte beloningssignalen van de outputs van de actor voor RL-optimalisatie vaak leidt tot onbevredigende critici: hoewel hun behulpzaamheid (d.w.z. het geven van constructieve feedback) verbetert, blijft de onderscheidingsvermogen (d.w.z. bepalen of een reactie van hoge kwaliteit is of niet) zwak, wat resulteert in marginale prestatieverbeteringen. Om dit te overwinnen, hanteert Critique-RL een tweefasen optimalisatiestrategie. In fase I versterkt het het onderscheidingsvermogen van de criticus met directe op regels gebaseerde beloningssignalen; in fase II introduceert het indirecte beloningen op basis van actorverfijning om de behulpzaamheid van de criticus te verbeteren, terwijl het diens onderscheidingsvermogen behoudt via geschikte regularisatie. Uitgebreide experimenten over diverse taken en modellen tonen aan dat Critique-RL substantiële prestatieverbeteringen oplevert. Het behaalt bijvoorbeeld een winst van 9,02% op in-domeintaken en een winst van 5,70% op uit-domeintaken voor Qwen2.5-7B, wat het potentieel ervan onderstreept.
Ondanks snelle vooruitgang in Multimodale Grote Taalmodellen en Grote Audio-Taalmodellen, testen bestaande audiobenchmarks grotendeels semantiek die kan worden herleid uit tekstbeschrijvingen, wat tekortkomingen in fijnmazige perceptuele redeneervaardigheden maskeert. Wij formaliseren audio 4D-intelligentie, gedefinieerd als redeneren over geluidsdynamiek in tijd en 3D-ruimte, en introduceren STAR-Bench om dit te meten. STAR-Bench combineert een Fundamentaal Akoestisch Perceptie-setting (zes attributen onder absolute en relatieve regimes) met een Holistische Spatio-temporele Redeneer-setting die segmentherordening omvat voor continue en discrete processen, en ruimtelijke taken die statische lokalisatie, multi-bronrelaties en dynamische trajecten omvatten. Onze datacuratiepijplijn gebruikt twee methoden om hoogwaardige samples te garanderen. Voor fundamentele taken gebruiken we procedureel gesynthetiseerde en via natuurkundesimulaties gegenereerde audio. Voor holistische data volgen we een vierfasenproces dat menselijke annotatie en een finale selectie op basis van menselijke prestaties omvat. In tegenstelling tot eerdere benchmarks, waar antwoorden op basis van enkel bijschriften de nauwkeurigheid licht verlagen, veroorzaakt STAR-Bench veel grotere dalingen (-31,5% temporeel, -35,2% ruimtelijk), wat bewijst dat de focus ligt op linguïstisch moeilijk te beschrijven aanwijzingen. Evaluatie van 19 modellen onthult aanzienlijke hiaten vergeleken met mensen en een capaciteitenhiërarchie: closed-source modellen hebben een bottleneck in fijnmazige perceptie, terwijl open-source modellen achterlopen op perceptie, kennis en redeneren. Onze STAR-Bench biedt cruciale inzichten en een duidelijke weg voorwaarts voor de ontwikkeling van toekomstige modellen met een robuuster begrip van de fysieke wereld.
Mixture-of-Experts (MoE) is naar voren gekomen als een krachtig paradigma voor het schalen van modelcapaciteit met behoud van computationele efficiëntie. Ondanks zijn opmerkelijke succes in grote taalmodel(len) (LLM's), hebben bestaande pogingen om MoE toe te passen op Diffusion Transformers (DiT's) beperkte winst opgeleverd. Wij schrijven dit verschil toe aan fundamentele verschillen tussen taal- en visuele tokens. Taaltokens zijn semantisch dicht met uitgesproken variatie tussen tokens, terwijl visuele tokens ruimtelijke redundantie en functionele heterogeniteit vertonen, wat expertspecialisatie in visuele MoE belemmert. Daartoe presenteren wij ProMoE, een MoE-raamwerk met een router in twee stappen met expliciete routeringsbegeleiding die expertspecialisatie bevordert. Specifiek moedigt deze begeleiding de router aan om beeldtokens te verdelen in conditionele en unconditionele sets via conditionele routering op basis van hun functionele rollen, en de toewijzingen van conditionele beeldtokens te verfijnen door prototypische routering met leerbare prototypes gebaseerd op semantische inhoud. Bovendien biedt de op gelijkenis gebaseerde experten-toewijzing in de latente ruimte, mogelijk gemaakt door prototypische routering, een natuurlijk mechanisme voor het incorporeren van expliciete semantische begeleiding, en wij valideren dat dergelijke begeleiding cruciaal is voor visuele MoE. Hierop voortbordurend stellen wij een routeringscontrastief verlies voor dat het prototypische routeringsproces expliciet versterkt, waardoor intra-expert coherentie en inter-expert diversiteit worden bevorderd. Uitgebreide experimenten op de ImageNet-benchmark tonen aan dat ProMoE state-of-the-art methoden overtreft onder zowel Rectified Flow- als DDPM-trainingsdoelstellingen. Code en modellen zullen openbaar beschikbaar worden gesteld.
Onderzoek naar schaalwetten heeft zich overweldigend gericht op Engels – toch bedienen de meest prominente AI-modellen expliciet miljarden internationale gebruikers. In dit werk ondernemen we de grootste meertalige schaalwettenstudie tot nu toe, met in totaal 774 meertalige trainingsexperimenten, variërend van 10 miljoen tot 8 miljard modelparameters, meer dan 400 trainings- en 48 evaluatietalen. We introduceren de Adaptieve Transfer Schaalwet (ATLAS) voor zowel eentalige als meertalige pretraining, die de generalisatie buiten de steekproef van bestaande schaalwetten vaak met meer dan 0,3 R² overtreft. Onze analyses van de experimenten werpen licht op meertalige leer dynamiek, transfer-eigenschappen tussen talen, en de vloek van meertaligheid. Ten eerste leiden we een cross-linguale transfermatrix af, die empirisch de wederzijdse voordelscores meet tussen 38 x 38=1444 taalparen. Ten tweede leiden we een taal-onafhankelijke schaalwet af die onthult hoe modelgrootte en data optimaal geschaald kunnen worden bij het toevoegen van talen zonder prestatieverlies. Ten derde identificeren we de computationele omslagpunten voor wanneer men vanaf nul moet pretrainen versus finetunen vanaf meertalige checkpoints. We hopen dat deze bevindingen de wetenschappelijke basis vormen voor het democratiseren van schaalwetten over talen heen, en praktijkmensen in staat stellen om modellen efficiënt op te schalen – voorbij AI die Engels vooropstelt.
Tot op heden bestaan er vrijwel geen cultuurspecifieke evaluatiebenchmarks voor grote taalmodellen (LLM's) die een groot aantal talen en culturen bestrijken. In dit artikel presenteren we Global PIQA, een participatieve common sense-redeneerbenchmark voor meer dan 100 talen, die met de hand is opgesteld door 335 onderzoekers uit 65 landen over de hele wereld. De 116 taalvarianten in Global PIQA beslaan vijf continenten, 14 taalfamilies en 23 schriftsystemen. In de niet-parallelle subset van Global PIQA verwijst meer dan 50% van de voorbeelden naar lokale gerechten, gewoonten, tradities of andere cultuurspecifieke elementen. Wij constateren dat state-of-the-art LLM's in aggregate goed presteren op Global PIQA, maar ze vertonen zwakkere prestaties in talen met minder bronnen (een nauwkeurigheidskloof tot 37%, ondanks een willekeurige kans van 50%). Open modellen presteren over het algemeen slechter dan propriëtaire modellen. Global PIQA benadrukt dat in veel talen en culturen alledaagse kennis een verbeterpunt blijft, naast meer breed besproken capaciteiten zoals complex redeneren en expertkennis. Naast de toepassingen voor LLM-evaluatie hopen we dat Global PIQA een blik biedt op de grote diversiteit aan culturen waarin menselijke taal is ingebed.
Zelfverbeterende systemen vereisen interactie met de omgeving voor continue aanpassing. Wij introduceren SPICE (*Self-Play In Corpus Environments*), een raamwerk voor reinforcement learning waarin één model twee rollen vervult: een *Challenger* die documenten uit een grote corpus mineert om diverse redeneertaken te genereren, en een *Reasoner* die deze taken oplost. Door middel van adversariële dynamiek creëert de Challenger een automatisch curriculum aan de grenzen van het kunnen van de Reasoner, terwijl de verankering in de corpus zorgt voor het rijke, bijna onuitputtelijke externe signaal dat nodig is voor aanhoudende verbetering. In tegenstelling tot bestaande, niet-geaarde zelf-speelmethoden die beperktere voordelen bieden, behaalt SPICE consistente vooruitgang op wiskundige (+8,9%) en algemene redeneerbenchmarks (+9,8%) over meerdere modelfamilies. Onze analyse toont aan dat document-verankering een cruciale component in SPICE is om continu zijn eigen, steeds uitdagender doelen te genereren en deze te bereiken, waardoor aanhoudende zelfverbetering mogelijk wordt.
Visualisatie, een domeinspecifieke maar veelgebruikte vorm van beeldvorming, is een effectieve manier om complexe datasets om te zetten in intuïtieve inzichten. De waarde ervan hangt af van of gegevens getrouw worden weergegeven, duidelijk worden gecommuniceerd en esthetisch zijn ontworpen. Het evalueren van visualisatiekwaliteit is echter uitdagend: in tegenstelling tot natuurlijke beelden vereist het een gelijktijdige beoordeling van nauwkeurigheid in gegevenscodering, informatie-expressiviteit en visuele esthetiek. Hoewel multimodale grote taalmodellen (MLLM's) veelbelovende prestaties hebben getoond in esthetische beoordeling van natuurlijke beelden, bestaat er geen systematische benchmark voor het meten van hun capaciteiten bij het evalueren van visualisaties. Om dit aan te pakken, stellen we VisJudge-Bench voor, de eerste uitgebreide benchmark voor het evalueren van MLLM-prestaties in het beoordelen van visualisatie-esthetiek en -kwaliteit. Deze bevat 3.090 expertgeannoteerde steekproeven uit realistische scenario's, die enkele visualisaties, meerdere visualisaties en dashboards dekken over 32 grafiektypen. Systematische tests op deze benchmark tonen aan dat zelfs de meest geavanceerde MLLM's (zoals GPT-5) nog steeds aanzienlijke tekortkomingen vertonen in vergelijking met menselijke experts in beoordeling, met een gemiddelde absolute fout (MAE) van 0.551 en een correlatie met menselijke beoordelingen van slechts 0.429. Om dit probleem aan te pakken, stellen we VisJudge voor, een model specifiek ontworpen voor esthetische en kwalitatieve beoordeling van visualisaties. Experimentele resultaten tonen aan dat VisJudge de kloof met menselijke beoordeling significant verkleint, waarbij de MAE wordt gereduceerd tot 0.442 (een vermindering van 19.8%) en de consistentie met menselijke experts wordt verhoogd tot 0.681 (een verbetering van 58.7%) vergeleken met GPT-5. De benchmark is beschikbaar op https://github.com/HKUSTDial/VisJudgeBench.
Reinforcement learning met verifieerbare beloningen (RLVR) heeft indrukwekkende vooruitgang geboekt in wiskundig en multimodaal redeneren en is een standaard post-trainingsparadigma geworden voor hedendaagse taal- en visie-taalmodellen. Het RLVR-recept brengt echter een aanzienlijk risico op capaciteitsregressie met zich mee, waarbij modellen fundamentele vaardigheden vergeten na langdurige training zonder regularisatiestrategieën toe te passen. We bevestigen deze zorg empirisch en observeren dat open-source redeneermodellen prestatieverlies lijden op kerncapaciteiten zoals perceptie en betrouwbaarheid. Hoewel het opleggen van regularisatietermen zoals KL-divergentie kan helpen om afwijking van het basismodel te voorkomen, worden deze termen berekend op de huidige taak en garanderen ze dus geen bredere kennis. Tegelijkertijd maakt veelgebruikte ervaringsherhaling over heterogene domeinen het niet-triviaal om te beslissen hoeveel trainingsfocus elk doel zou moeten krijgen. Om dit aan te pakken, stellen we RECAP voor - een herhalingsstrategie met dynamische herweging van doelen voor het behoud van algemene kennis. Ons herwegingsmechanisme past zich online aan met behulp van kortetermijnsignalen van convergentie en instabiliteit, waardoor de post-trainingsfocus verschuift van verzadigde doelen naar onderpresterende of volatiele doelen. Onze methode is end-to-end en direct toepasbaar op bestaande RLVR-pipelines zonder extra modellen te trainen of zware afstemming. Uitgebreide experimenten op benchmarks gebaseerd op Qwen2.5-VL-3B en Qwen2.5-VL-7B tonen de effectiviteit van onze methode aan, die niet alleen algemene capaciteiten behoudt, maar ook het redeneren verbetert door flexibelere afwegingen tussen taakspecifieke beloningen mogelijk te maken.
De generatie van ultrahoogresolutie (UHR) tekst-naar-beeld (T2I) heeft aanzienlijke vooruitgang geboekt. Er blijven echter twee belangrijke uitdagingen bestaan: 1) het ontbreken van een grootschalige, hoogwaardige UHR T2I-dataset, en 2) het verwaarlozen van op maat gemaakte trainingsstrategieën voor de synthese van fijne details in UHR-scenario's. Om de eerste uitdaging aan te pakken, introduceren we UltraHR-100K, een hoogwaardige dataset van 100K UHR-afbeeldingen met uitgebreide bijschriften, die diverse inhoud en sterke visuele geloofwaardigheid biedt. Elke afbeelding overschrijdt een resolutie van 3K en is rigoureus gecureerd op basis van detailrijkdom, inhoudscomplexiteit en esthetische kwaliteit. Om de tweede uitdaging aan te pakken, stellen we een frequentiebewuste *post-training* methode voor die de generatie van fijne details in T2I-diffusiemodellen verbetert. Specifiek ontwerpen we (i) *Detail-Oriented Timestep Sampling* (DOTS) om het leren te richten op detailkritieke denoiseringsstappen, en (ii) *Soft-Weighting Frequency Regularization* (SWFR), dat gebruikmaakt van de discrete Fouriertransformatie (DFT) om frequentiecomponenten zachtjes te beperken, waardoor het behoud van hoogfrequente details wordt aangemoedigd. Uitgebreide experimenten op onze voorgestelde UltraHR-eval4K benchmarks tonen aan dat onze aanpak de kwaliteit van fijne details en de algehele geloofwaardigheid van UHR-beeldgeneratie significant verbetert. De code is beschikbaar op https://github.com/NJU-PCALab/UltraHR-100k.
Chain-of-thought (CoT) redeneren is cruciaal voor het verbeteren van de interpreteerbaarheid en betrouwbaarheid van Large Vision-Language Models (LVLMs). Bestaande trainingsalgoritmen zoals SFT, PPO en GRPO generaliseren echter mogelijk niet goed naar onzichtbare redeneertaken en zijn sterk afhankelijk van een bevooroordeeld beloningsmodel. Om deze uitdaging aan te pakken, herformuleren we redeneren in LVLMs als posterior inferentie en stellen we een schaalbaar trainingsalgoritme voor op basis van geamortiseerde variational inference. Door gebruik te maken van diversiteit-zoekende reinforcement learning-algoritmen, introduceren we een nieuwe sparse beloningsfunctie voor token-level leer-signalen die diverse, hoog-waarschijnlijke latente CoT's aanmoedigen, waardoor de beperkingen van deterministische steekproefname worden overwonnen en 'reward hacking' wordt vermeden. Daarnaast implementeren we een Bayesian inference-schaalstrategie die kostbare Best-of-N en Beam Search vervangt door een marginale likelihood om optimale redeneringen en antwoorden efficiënt te rangschikken. We tonen empirisch aan dat de voorgestelde methode de state-of-the-art LVLMs verbetert op zeven redeneerbenchmarks, wat betreft effectiviteit, generalisatie en interpreteerbaarheid.
Naarmate Large Vision-Language Models (LVLM's) steeds vaker worden ingezet in domeinen zoals winkelen, gezondheid en nieuwsvoorziening, komen ze in aanraking met alomtegenwoordige persuasieve inhoud. Een kritische vraag is hoe deze modellen functioneren als persuadee – hoe en waarom ze kunnen worden beïnvloed door persuasieve multimodale input. Het begrijpen van zowel hun vatbaarheid voor persuasie als de effectiviteit van verschillende persuasieve strategieën is cruciaal, aangezien overdreven beïnvloedbare modellen misleidende overtuigingen kunnen aannemen, gebruikersvoorkeuren kunnen negeren of onethische of onveilige output kunnen genereren wanneer ze worden blootgesteld aan manipulerende boodschappen. Wij introduceren MMPersuade, een uniform kader voor het systematisch bestuderen van multimodale persuasiedynamiek in LVLM's. MMPersuade draagt bij met (i) een uitgebreide multimodale dataset die afbeeldingen en video's koppelt aan gevestigde persuasieprincipes in commerciële, subjectieve en gedragsmatige, en adversariële contexten, en (ii) een evaluatiekader dat zowel persuasie-effectiviteit als modelvatbaarheid kwantificeert via scoring van derde-partij-overeenstemming en zelf-geschatte tokenwaarschijnlijkheden op conversatiegeschiedenissen. Onze studie van zes toonaangevende LVLM's als persuadees levert drie belangrijke inzichten op: (i) multimodale input verhoogt de persuasie-effectiviteit – en modelvatbaarheid – aanzienlijk in vergelijking met alleen tekst, vooral in scenario's met desinformatie; (ii) uitgesproken eerdere voorkeuren verminderen de vatbaarheid, maar multimodale informatie behoudt haar persuasieve voordeel; en (iii) verschillende strategieën variëren in effectiviteit tussen contexten, waarbij wederkerigheid het krachtigst is in commerciële en subjectieve contexten, en geloofwaardigheid en logica de overhand hebben in adversariële contexten. Door persuasie-effectiviteit en -vatbaarheid gezamenlijk te analyseren, biedt MMPersuade een principieel fundament voor het ontwikkelen van modellen die robuust, voorkeursconsistent en ethisch afgestemd zijn bij interactie met persuasieve multimodale inhoud.
Functie-aanroeping (FC) stelt grote taalmmodellen (LLM's) en autonome agents in staat om te communiceren met externe tools, een cruciale capaciteit voor het oplossen van complexe, real-world problemen. Naarmate dit vermogen steeds centraler wordt in geavanceerde AI-systemen, kan het belang van hoogwaardige, multi-turn trainingsdata voor de ontwikkeling en verfijning ervan niet worden overschat. Bestaande methoden voor datasynthese, zoals willekeurige omgevingsbemonstering of multi-agent rollenspelen, zijn niet krachtig genoeg om hoogwaardige data in real-world omgevingen te genereren. De praktische uitdagingen zijn drievoudig: gerichte modeltraining, isolatie van toolarchitectuur en multi-turn logische afhankelijkheid. Om deze structurele tekortkomingen aan te pakken, presenteren we FunReason-MT, een nieuw raamwerk voor datasynthese voor real-world multi-turn toolgebruik. FunReason-MT doorbreekt de complexiteitsbarrière in multi-turn FC-data door 1) Environment-API Graph Interacties in te zetten om gevarieerde trajecten van hoge kwaliteit te verzamelen, 2) Geavanceerde Tool-Query Synthese om de constructie van complexe queries te vereenvoudigen, en 3) een Begeleide Iteratieve Keten voor geavanceerde CoT-generatie. Evaluaties op het Berkeley Function-Calling Leaderboard (BFCLv3) demonstreren de kracht van ons raamwerk: een 4B-model gebaseerd op door FunReason-MT gegenereerde data behaalt state-of-the-art prestaties onder vergelijkbaar grote modellen en overtreft de meeste closed-source modellen. Verdere prestatieverbeteringen op BFCLv4 bevestigen dat FunReason-MT een betrouwbare en robuuste bron biedt voor agentisch leren.
Generatieve modellen hebben aanzienlijke vooruitgang geboekt bij het synthetiseren van hoogwaardige audio op basis van korte tekstuele beschrijvingen. Het bewerken van bestaande audio met natuurlijke taal is echter grotendeels onontgonnen gebleven. Bestaande methoden vereisen ofwel een volledige beschrijving van de bewerkte audio, of zijn beperkt tot vooraf gedefinieerde bewerkingsinstructies die weinig flexibiliteit bieden. In dit werk introduceren we SAO-Instruct, een model gebaseerd op Stable Audio Open dat audioclips kan bewerken met behulp van vrije natuurlijke taal instructies. Voor de training van ons model creëren we een dataset van audio-bewerkingstriplets (invoeraudio, bewerkingsinstructie, uitvoeraudio) met behulp van Prompt-to-Prompt, DDPM-inversie en een handmatige bewerkingspipeline. Hoewel deels getraind op synthetische data, generaliseert ons model goed naar echte audioclips uit de praktijk en onbekende bewerkingsinstructies. We tonen aan dat SAO-Instruct competitieve prestaties levert op objectieve metrieken en andere audio-bewerkingsmethoden overtreft in een subjectieve luisterstudie. Om toekomstig onderzoek te stimuleren, maken we onze code en modelgewichten openbaar.
Grote taalmodelen (LLM's) hebben aangetoond dat grootschalige voorafgaande training systemen in staat stelt zich snel aan te passen aan nieuwe problemen met weinig supervisie in het taaldomein. Dit succes heeft zich echter niet zo effectief vertaald naar het visuele domein, waar modellen, inclusief LLM's, blijven worstelen met compositioneel begrip, steekproevefficiëntie en algemeen probleemoplossend vermogen. Wij onderzoeken Video Diffusiemodellen (VDM's) als een veelbelovende richting om deze kloof te overbruggen. Voorafgaande training op spatiotemporele data geeft deze modellen sterke inductieve vooroordelen voor structuur en dynamica, waarvan wij veronderstellen dat deze een brede taakadaptatie kunnen ondersteunen. Om dit te testen, ontwerpen wij een gecontroleerde evaluatie waarin zowel een vooraf getraind LLM als een vooraf getraind VDM worden uitgerust met lichtgewicht adapters en taken krijgen aangeboden in hun natuurlijke modaliteiten. Over benchmarks zoals ARC-AGI, ConceptARC, visuele spellen, routeplanning en cellulaire automata heen tonen VDM's een hogere data-efficiëntie dan hun taalkundige tegenhangers. Samengenomen geven onze resultaten aan dat videopretraining inductieve vooroordelen biedt die de vooruitgang richting visuele foundationmodellen ondersteunen.
Frontier AI-agenten tonen een toenemende belofte als wetenschappelijke onderzoeksassistenten en zouden uiteindelijk nuttig kunnen zijn voor uitgebreide, open-eindonderzoekswerkstromen. Om agenten echter voor nieuw onderzoek te kunnen inzetten, moeten we eerst de onderliggende betrouwbaarheid en correctheid van hun werk beoordelen. Om agenten als onderzoeksassistenten te evalueren, introduceren we ReplicationBench, een evaluatieraamwerk dat test of agenten volledige onderzoeksartikelen uit de astrofysicaliteratuur kunnen repliceren. Astrofysica, waar onderzoek sterk leunt op archiefdata en computationele studie terwijl weinig real-world experimentatie nodig is, vormt een bijzonder nuttige testomgeving voor AI-agenten in wetenschappelijk onderzoek. We splitsen elk artikel op in taken die agenten verplichten de kernbijdragen van het artikel te repliceren, inclusief de experimentele opzet, afleidingen, data-analyse en codebase. Elke taak wordt samen met de oorspronkelijke paperauteurs ontwikkeld en richt zich op een belangrijk wetenschappelijk resultaat, waardoor objectieve evaluatie van zowel betrouwbaarheid (trouw aan oorspronkelijke methoden) als correctheid (technische nauwkeurigheid van resultaten) mogelijk is. ReplicationBench is extreem uitdagend voor huidige frontier taalmodelen: zelfs de best presterende taalmodelen scoren onder de 20%. We analyseren ReplicationBench-trajecten in samenwerking met domeinexperts en ontdekken een rijke, diverse reeks faalmodi voor agenten in wetenschappelijk onderzoek. ReplicationBench vestigt de eerste benchmark van paperschaal, expert-gevalideerde astrofysica-onderzoektaken, onthult inzichten over agentprestaties die generaliseerbaar zijn naar andere domeinen van data-gedreven wetenschap, en biedt een schaalbaar raamwerk voor het meten van de betrouwbaarheid van AI-agenten in wetenschappelijk onderzoek.
Het begrijpen van objecten op het niveau van hun samenstellende onderdelen is fundamenteel voor de vooruitgang van computer vision, grafische toepassingen en robotica. Hoewel datasets zoals PartNet vooruitgang hebben gestimuleerd in het begrip van 3D-onderdelen, beperkt hun afhankelijkheid van ongetextureerde geometrieën en expert-afhankelijke annotatie de schaalbaarheid en bruikbaarheid. Wij introduceren PartNeXt, een next-generation dataset die deze tekortkomingen aanpakt met meer dan 23.000 hoogwaardige, getextureerde 3D-modellen, geannoteerd met fijnmazige, hiërarchische onderdeellabels over 50 categorieën. We evalueren PartNeXt op twee taken: (1) klasse-agnostische onderdeelsegmentatie, waarbij state-of-the-art methoden (zoals PartField en SAMPart3D) moeite hebben met fijnmazige en bladniveau-onderdelen, en (2) 3D onderdeelgerichte vraag-antwoordtaken, een nieuwe benchmark voor 3D-LLM's die significante tekortkomingen blootlegt in open-vocabulary onderdeelherkenning. Daarnaast levert training van Point-SAM op PartNeXt aanzienlijke verbeteringen op ten opzichte van PartNet, wat de superieure kwaliteit en diversiteit van de dataset onderstreept. Door schaalbare annotatie, textuurbewuste labels en multi-task evaluatie te combineren, opent PartNeXt nieuwe onderzoeksrichtingen in gestructureerd 3D-begrip.
In het huidige snelgroeiende gegevenslandschap is kennisonttrekking uit ongestructureerde tekst van cruciaal belang voor realtime-analyses, temporele inferentie en dynamische geheugenkaders. Traditionele constructie van statische kennisgrafen (KG) negeert echter vaak de dynamische en tijdgevoelige aard van real-world gegevens, wat de aanpasbaarheid aan continue veranderingen beperkt. Bovendien kampen recente zero- of few-shotbenaderingen die domeinspecifieke fine-tuning of afhankelijkheid van vooraf opgebouwde ontologieën vermijden, vaak met instabiliteit over meerdere runs en onvolledige dekking van kernfeiten. Om deze uitdagingen aan te pakken, introduceren we ATOM (AdapTive and OptiMized), een few-shot en schaalbare aanpak die Temporele Kennisgrafen (TKG's) bouwt en continu bijwerkt vanuit ongestructureerde teksten. ATOM splitst invoerdocumenten in minimale, zelfstandige "atomische" feiten, wat de exhaustiviteit en stabiliteit van de onttrekking verbetert. Vervolgens construeert het atomische TKG's vanuit deze feiten met een dubbele-tijdmodellering die onderscheid maakt tussen wanneer informatie wordt waargenomen en wanneer deze geldig is. De resulterende atomische TKG's worden parallel samengevoegd. Empirische evaluaties tonen aan dat ATOM ~18% hogere exhaustiviteit, ~17% betere stabiliteit en een latency-reductie van meer dan 90% bereikt in vergelijking met baseline-methoden, wat een sterk schaalbaarheidspotentieel aantoont voor dynamische TKG-constructie.
Grote Taalmodellen (GTM's) vertonen een verontrustende dualiteit: ze zijn zowel tot opmerkelijke generalisatie als tot brosse, letterlijke memorisatie van hun trainingsgegevens in staat. Deze onvoorspelbaarheid ondermijnt hun betrouwbaarheid in hoog-risico toepassingen. In dit werk stellen we een uniform raamwerk voor om deze verschillende redeneermodi te begrijpen, identificeren en controleren. Ten eerste introduceren we een theoretisch model gebaseerd op het *Information Bottleneck* (IB) principe, dat generalisatie formaliseert als het aanleren van een gecomprimeerde, taakrelevante representatie en memorisatie als een compressiefout. Voortbouwend op deze theorie ontwikkelen we *Dynamic Mode Steering* (DMS), een nieuw algoritme voor tijdens de inferentie dat uit twee componenten bestaat: (1) een lichtgewicht, causaal gefundeerde lineaire probe die de momentane afhankelijkheid van het model van memorisatie identificeert, en (2) een dynamisch *activation steering*-mechanisme dat de berekening van het model subtiel richting vooraf geïdentificeerde generalisatiecircuits stuurt. We beschrijven DMS als een vorm van adaptieve, zelf-contrastieve decodering. Experimenten met redeneer- en feitelijkheidsnauwkeurigheidstaken tonen aan dat DMS de logische consistentie en feitelijke nauwkeurigheid aanzienlijk verbetert, en biedt zo een principiële aanpak om de betrouwbaarheid van GTM's te vergroten.
De uitlijning van visie-taalrepresentaties verleent huidige Visie-Taalmodellen (VLM's) sterke multimodale redeneervermogens. Echter, de interpreteerbaarheid van de uitlijningscomponent blijft ononderzocht vanwege de moeilijkheid om de semantiek van multimodale representaties af te beelden op een uniforme conceptenset. Om dit probleem aan te pakken, stellen we VL-SAE voor, een spaarse auto-encoder die visie-taalrepresentaties codeert in zijn verborgen activaties. Elke neuron in zijn verborgen laag correleert met een concept dat wordt gerepresenteerd door semantisch vergelijkbare afbeeldingen en teksten, waardoor deze representaties worden geïnterpreteerd met een uniforme conceptenset. Om de neuron-conceptcorrelatie vast te stellen, stimuleren we dat semantisch vergelijkbare representaties consistente neuronactivaties vertonen tijdens zelfgesuperviseerde training. Ten eerste meten we de semantische gelijkenis van multimodale representaties door hun uitlijning expliciet te baseren op cosinusgelijkenis. Ten tweede construeren we VL-SAE met een op afstand gebaseerde encoder en twee modaal-specifieke decoders om de activatieconsistentie van semantisch vergelijkbare representaties te garanderen. Experimenten met diverse VLM's (bijv. CLIP, LLaVA) tonen de superieure capaciteit van VL-SAE aan in het interpreteren en versterken van visie-taaluitlijning. Voor interpretatie kan de uitlijning tussen visie- en taalrepresentaties worden begrepen door hun semantiek met concepten te vergelijken. Voor verbetering kan de uitlijning worden versterkt door visie-taalrepresentaties op conceptniveau uit te lijnen, wat bijdraagt aan prestatieverbeteringen in downstreamtaken, inclusief zero-shot beeldclassificatie en hallucinatie-eliminatie. Code is beschikbaar op https://github.com/ssfgunner/VL-SAE.
Structurele topologie-optimalisatie (TO) staat centraal in het technisch ontwerp, maar blijft rekenkundig intensief vanwege complexe fysica en harde randvoorwaarden. Bestaande deep-learning-methoden zijn beperkt tot vaste vierkante roosters, enkele handmatig gecodeerde randvoorwaarden en post-hoc-optimalisatie, wat algemene inzet verhindert. Wij introduceren Optimize Any Topology (OAT), een foundation-model-framework dat direct minimaal-compliantie lay-outs voorspelt voor willekeurige aspectverhoudingen, resoluties, volumefracties, belastingen en bevestigingen. OAT combineert een resolutie- en vormagnostische auto-encoder met een impliciet neuraal-veld-decoder en een conditioneel latent-diffusiemodel, getraind op OpenTO – een nieuwe corpus van 2,2 miljoen geoptimaliseerde structuren die 2 miljoen unieke randvoorwaardconfiguraties beslaan. Op vier publieke benchmarks en twee uitdagende onbekende tests verlaagt OAT de gemiddelde compliantie tot 90% ten opzichte van de beste eerdere modellen en levert het inferentie in minder dan 1 seconde op een enkele GPU voor resoluties van 64×64 tot 256×256 en aspectverhoudingen tot 10:1. Deze resultaten vestigen OAT als een algemeen, snel en resolutie-onafhankelijk framework voor fysica-bewuste topologie-optimalisatie en bieden een grootschalige dataset om verder onderzoek in generatieve modellering voor inverse ontwerpen aan te wakkeren. Code en data zijn beschikbaar op https://github.com/ahnobari/OptimizeAnyTopology.
Recentelijk heeft GRPO-gebaseerde reinforcement learning opmerkelijke vooruitgang geboekt in het optimaliseren van flow-matching modellen, waarbij de afstemming op taakspecifieke beloningen effectief wordt verbeterd. Binnen deze raamwerken is het beleidsupdate afhankelijk van importance-ratio clipping om overmoedige positieve en negatieve gradiënten te begrenzen. In de praktijk observeren we echter een systematische verschuiving in de importance-ratio verdeling: het gemiddelde zakt onder 1 en de variantie verschilt aanzienlijk tussen tijdstappen. Deze naar links verschoven en inconsistente verdeling voorkomt dat samples met positief voordeel het geknipte gebied bereiken, waardoor het mechanisme faalt in het beteugelen van overmoedige positieve updates. Hierdoor raakt het beleidsmodel onvermijdelijk in een impliciete overoptimalisatiefase – terwijl de proxybeloning blijft stijgen, verslechteren essentiële metrieken zoals beeldkwaliteit en tekstprompt-afstemming sterk, wat het geleerde beleid uiteindelijk onpraktisch maakt voor real-world toepassingen. Om dit probleem aan te pakken, introduceren we GRPO-Guard, een eenvoudige maar effectieve verbetering voor bestaande GRPO-raamwerken. Onze methode integreert ratio-normalisatie, die een gebalanceerde en stap-consistente importance ratio herstelt, zodat PPO-clipping schadelijke updates over denoiseringsstappen correct begrenst. Daarnaast egaliseert een gradiënt-herwegingstrategie de beleidsgradiënten over ruiscondities, waardoor excessieve updates vanuit specifieke tijdstapregio's worden voorkomen. Gezamenlijk fungeren deze ontwerpen als een gereguleerd clippingmechanisme dat de optimalisatie stabiliseert en impliciete overoptimalisatie aanzienlijk vermindert zonder zware KL-regularisatie. Uitgebreide experimenten met meerdere diffusie-backbones (zoals SD3.5M, Flux.1-dev) en diverse proxytaken tonen aan dat GRPO-Guard overoptimalisatie significant reduceert terwijl de gegenereerde kwaliteit behouden blijft of zelfs verbetert.
Betrouwbaar redeneren in medische vision-language modellen (VLM's) vereist niet alleen nauwkeurige voorspellingen, maar ook transparante afstemming tussen tekstuele onderbouwingen en visueel bewijs. Hoewel Chain-of-Thought (CoT)-prompting veelbelovend is gebleken bij medische visuele vraag-antwoordtaken (VQA), bestaat er nog geen grootschalige dataset op expertniveau die stapsgewijs redeneren met precieze visuele verankering vastlegt. Wij introduceren S-Chain, de eerste grootschalige dataset met 12.000 door experts geannoteerde medische afbeeldingen voorzien van begrenzingskaders en gestructureerde visuele CoT (SV-CoT), die visuele regio's expliciet koppelt aan redeneerstappen. De dataset ondersteunt bovendien 16 talen, wat in totaal meer dan 700k VQA-paren oplevert voor brede meertalige toepasbaarheid. Met S-Chain evalueren we state-of-the-art medische VLM's (ExGra-Med, LLaVA-Med) en algemene VLM's (Qwen2.5-VL, InternVL2.5), en tonen aan dat SV-CoT-supervisie de interpreteerbaarheid, verankeringsbetrouwbaarheid en robuustheid significant verbetert. Naast evaluatie onderzoeken we de synergie met retrieval-augmented generation, wat inzicht geeft in hoe domeinkennis en visuele verankering interacteren tijdens autoregressief redeneren. Ten slotte stellen we een nieuw mechanisme voor dat de afstemming tussen visueel bewijs en redeneren versterkt, wat zowel de betrouwbaarheid als efficiëntie verbetert. S-Chain vestigt een nieuwe benchmark voor gegrond medisch redeneren en baant de weg naar meer betrouwbare en uitlegbare medische VLM's.
Wij presenteren een uitgebreide evaluatie van het vermogen van grote taalmodellen (LLM's) om cultureel verankerde taal te verwerken, in het bijzonder om figuurlijke uitdrukkingen die lokale kennis en culturele nuance coderen, te begrijpen en pragmatisch te gebruiken. Door figuurlijke taal als indicator te gebruiken voor culturele nuance en lokale kennis, ontwerpen we evaluatietaken voor contextueel begrip, pragmatisch gebruik en connotatie-interpretatie in het Arabisch en Engels. We evalueren 22 open-source en closed-source LLM's op Egyptisch-Arabische idiomen, multi-dialectale Arabische spreekwoorden en Engelse spreekwoorden. Onze resultaten tonen een consistente hiërarchie: de gemiddelde nauwkeurigheid voor Arabische spreekwoorden ligt 4,29% lager dan voor Engelse spreekwoorden, en de prestatie voor Egyptische idiomen is 10,28% lager dan voor Arabische spreekwoorden. Voor de taak van pragmatisch gebruik daalt de nauwkeurigheid met 14,07% ten opzichte van begrip, hoewel het verstrekken van contextuele idiomatische zinnen de nauwkeurigheid met 10,66% verbetert. Modellen hebben ook moeite met connotatieve betekenis en bereiken hooguit 85,58% overeenstemming met menselijke annotatoren voor idiomen met 100% inter-beoordelaarsbetrouwbaarheid. Deze bevindingen tonen aan dat figuurlijke taal een effectieve diagnostische tool is voor cultureel redeneren: hoewel LLM's vaak figuurlijke betekenis kunnen interpreteren, lopen zij tegen uitdagingen aan bij het gepast gebruik ervan. Om toekomstig onderzoek te ondersteunen, publiceren wij Kinayat, de eerste dataset van Egyptisch-Arabische idiomen die ontworpen is voor zowel de evaluatie van figuurlijk begrip als van pragmatisch gebruik.
Embeddings van patentteksten maken onderzoek naar eerdere stand van de techniek, technologielandschapsanalyse en patentanalyse mogelijk, maar bestaande benchmarks vangen patentspecifieke uitdagingen onvoldoende. Wij introduceren PatenTEB, een uitgebreide benchmark bestaande uit 15 taken voor retrieval, classificatie, parafrasering en clustering, met 2,06 miljoen voorbeelden. PatenTEB gebruikt domeingestratificeerde splitsingen, domeinspecifieke hard negative mining en systematische dekking van asymmetrische fragment-naar-document matching-scenario's die ontbreken in algemene embedding-benchmarks. Wij ontwikkelen de patembed-modelreeks via multi-task training, met een omvang van 67M tot 344M parameters en contextlengtes tot 4096 tokens. Externe validatie toont sterke generalisatie: patembed-base behaalt state-of-the-art op MTEB BigPatentClustering.v2 (0,494 V-measure vs. 0,445 vorige beste), terwijl patembed-large 0,377 NDCG@100 behaalt op DAPFAM. Systematische ablatiestudies tonen aan dat multi-task training de externe generalisatie verbetert ondanks geringe benchmarkverliezen, en dat domeinvoorgetrainde initialisatie consistente voordelen biedt across taakfamilies. Alle bronnen worden beschikbaar gesteld op https://github.com/iliass-y/patenteb. Trefwoorden: patentretrieval, zinsembeddings, multi-task leren, asymmetrische retrieval, benchmarkevaluatie, contrastief leren.