Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren MiroThinker v1.0, een open-source onderzoeksagent die is ontworpen om tool-ondersteund redeneren en informatiezoekende capaciteiten te bevorderen. In tegenstelling tot eerdere agents die alleen modelschaal of contextlengte opschalen, verkent MiroThinker interactieschaling op modelniveau door het model systematisch te trainen om diepere en frequentere agent-omgeving-interacties te verwerken als een derde dimensie van prestatieverbetering. Anders dan LLM-testtijd-schaling, die geïsoleerd opereert en risico loopt op degradatie bij langere redeneerketens, benut interactieve schaling omgevingsfeedback en externe informatieverwerving om fouten te corrigeren en trajecten te verfijnen. Via reinforcement learning bereikt het model efficiënte interactieschaling: met een contextvenster van 256K kan het tot 600 toolaanroepen per taak uitvoeren, wat aanhoudende multi-turn redenering en complexe onderzoeksworkflows in de echte wereld mogelijk maakt. Over vier representatieve benchmarks - GAIA, HLE, BrowseComp en BrowseComp-ZH - behaalt de 72B-variant respectievelijk een nauwkeurigheid van maximaal 81,9%, 37,7%, 47,1% en 55,6%, waarmee eerdere open-source agents worden overtroffen en commerciële tegenhangers zoals GPT-5-high worden benaderd. Onze analyse toont aan dat MiroThinker consistent profiteert van interactieve schaling: de onderzoeksprestaties verbeteren voorspelbaar naarmate het model diepere en frequentere agent-omgeving-interacties aangaat, wat aantoont dat interactiediepte schaalgedrag vertoont dat analoog is aan modelschaal en contextlengte. Deze bevindingen vestigen interactieschaling als een derde kritische dimensie voor het bouwen van next-generation open onderzoeksagents, als aanvulling op modelcapaciteit en contextvensters.
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in diverse domeinen, maar hun training blijft bron- en tijdintensief, wat enorme rekenkracht en een zorgvuldige coördinatie van trainingsprocedures vereist. Model Souping - de praktijk van het middelen van gewichten van meerdere modellen met dezelfde architectuur - is naar voren gekomen als een veelbelovende techniek voor en na de training, die prestaties kan verbeteren zonder dure hertraining. In dit artikel introduceren we Soup Of Category Experts (SoCE), een principiële benadering voor model souping die benchmark-samenstelling gebruikt om optimale modelkandidaten te identificeren en niet-uniform gewogen middeling toepast om de prestaties te maximaliseren. In tegenstelling tot eerdere uniforme middelingstechnieken, maakt onze methode gebruik van de observatie dat benchmarkcategorieën vaak een lage onderlinge correlatie vertonen in modelprestaties. SoCE identificeert "expert"-modellen voor elke zwak gecorreleerde categoriecluster en combineert deze met geoptimaliseerde gewogen middeling in plaats van uniforme gewichten. We demonstreren dat de voorgestelde methode de prestaties en robuustheid over meerdere domeinen verbetert, waaronder meertalige capaciteiten, tool calling en wiskunde, en state-of-the-art resultaten behaalt op de Berkeley Function Calling Leaderboard.
Recente vooruitgang in grote taalmodelen (LLM's) heeft de grens verlegd van puzzeloplossen naar wetenschappelijk redeneren van hoog niveau – het soort redeneren dat nodig is om problemen aan te pakken waarvan de antwoorden tegen de natuur moeten worden afgewogen, en niet slechts aan een rubric moeten voldoen. Natuurkunde vormt de scherpste toets voor deze verschuiving, omdat het symbolen op een fundamentele manier aan de werkelijkheid bindt en fungeert als hoeksteen van de meeste moderne technologieën. In dit werk slagen we erin het natuurkundeonderzoek vooruit te helpen door grote taalmodelen te ontwikkelen met uitzonderlijke redeneervaardigheden in de natuurkunde, die vooral uitblinken in het oplossen van Olympiade-niveau natuurkundeproblemen. We introduceren P1, een familie van open-source natuurkunde-redeneermodellen die volledig zijn getraind via reinforcement learning (RL). Onder hen is P1-235B-A22B het eerste open-source model met een gouden-medailleprestatie op de laatste Internationale Natuurkunde Olympiade (IPhO 2025), en wint het 12 gouden medailles uit 13 internationale/regionale natuurkundewedstrijden in 2024/2025. P1-30B-A3B overtreft ook bijna alle andere open-source modellen op IPhO 2025 en behaalt een zilveren medaille. Verder uitgerust met een agentisch raamwerk, PhysicsMinions, behaalt P1-235B-A22B+PhysicsMinions de algehele eerste plaats op IPhO 2025 en scoort het het hoogste gemiddelde over de 13 natuurkundewedstrijden. Naast natuurkunde tonen de P1-modellen ook uitstekende prestaties op andere redeneertaken zoals wiskunde en programmeren, wat de grote generaliseerbaarheid van de P1-serie aantoont.
Wij presenteren Uni-MoE 2.0 uit de Lychee-familie. Als een volledig open-source omnimodaal groot model (OLM) zet het de Uni-MoE-reeks van Lychee aanzienlijk vooruit in taalgecentreerd multimodaal begrip, redeneren en genereren. Gebaseerd op de Qwen2.5-7B dichte architectuur, bouwen we Uni-MoE-2.0-Omni vanaf de grond op via drie kernbijdragen: een dynamische-capaciteit Mixture-of-Experts (MoE) ontwerp, een progressieve trainingsstrategie versterkt met een iteratieve reinforcementstrategie, en een zorgvuldig samengestelde multimodale data-matchingtechniek. Het model is in staat tot omnimodaal begrip, evenals het genereren van beelden, tekst en spraak. Architecturaal brengt ons nieuwe MoE-raamwerk een balans tussen computationele efficiëntie en capaciteit voor 10 cross-modale inputs door gebruik te maken van gedeelde, gerouteerde en nul-experts, terwijl onze Omni-Modaliteit 3D RoPE ruimtelijk-temporele cross-modale alignatie in de self-attention laag waarborgt. Voor de training gebruiken we, na cross-modale pretraining, een progressieve supervised fine-tuning strategie die modaliteit-specifieke experts activeert, versterkt door gebalanceerde datasamenstelling en een iteratieve GSPO-DPO methode om RL-training te stabiliseren en redeneren te verbeteren. Qua data is het basismodel, getraind op ongeveer 75B tokens open-source multimodale data, uitgerust met speciale tokens voor spraak- en beeldgeneratie, waardoor het deze generatieve taken kan leren door zijn outputs te conditioneren op linguïstische cues. Uitgebreide evaluatie over 85 benchmarks toont aan dat ons model state-of-the-art (SOTA) of zeer concurrerende prestaties behaalt ten opzichte van toonaangevende OLMs, en Qwen2.5-Omni (getraind met 1.2T tokens) overtreft op meer dan 50 van de 76 benchmarks. Belangrijke sterke punten zijn videobegrip (+7% gemiddeld over 8), omnimodaal begrip (+7% gemiddeld over 4), en audiovisueel redeneren (+4%). Het model boekt ook vooruitgang in langere spraakverwerking (vermindering WER met 4.2%) en leidt in low-level beeldverwerking en controleerbare generatie over 5 metrieken.
Wij introduceren Part-X-MLLM, een native 3D multimodaal groot taalmodel dat diverse 3D-taken verenigt door ze te formuleren als programma's in een gestructureerde, uitvoerbare grammatica. Gegeven een RGB-puntenwolk en een natuurlijke-taalaanvraag genereert ons model autoregressief een enkele, coherente tokenreeks die deelniveau-begrenzingskaders, semantische beschrijvingen en bewerkingscommando's codeert. Deze gestructureerde output fungeert als een veelzijdige interface om downstream, geometrie-bewuste modules aan te sturen voor op delen gebaseerde generatie en bewerking. Door de symbolische planning te ontkoppelen van de geometrische synthese, stelt onze aanpak elke compatibele geometrie-engine in staat om via een enkele, taal-native frontend te worden bestuurd. Wij pre-trainen een dual-encoder-architectuur om structuur van semantiek te ontwarren en instruction-tunen het model op een grootschalige, op delen gerichte dataset. Experimenten tonen aan dat ons model uitblinkt in het produceren van hoogwaardige, gestructureerde plannen, wat state-of-the-art prestaties mogelijk maakt in gegronde Q&A, compositionele generatie en gelokaliseerde bewerking via één verenigde interface. Projectpagina: https://chunshi.wang/Part-X-MLLM/
Hoewel denken-bewuste generatie als doel heeft de prestaties op complexe taken te verbeteren, identificeren we een kritieke faalmodus waarbij bestaande sequentiële, autoregressieve benaderingen paradoxaal genoeg de prestaties kunnen verslechteren als gevolg van foutenpropagatie. Om dit probleem systematisch te analyseren, stellen we ParaBench voor, een nieuwe benchmark ontworpen om zowel tekst- als beelduitvoermodaliteiten te evalueren. Onze analyse met ParaBench toont aan dat deze prestatievermindering sterk gecorreleerd is met een slechte afstemming tussen de gegenereerde redenering en de uiteindelijke afbeelding. Om dit op te lossen, stellen we een parallel multimodaal diffusieraamwerk voor, MMaDA-Parallel, dat continue, bidirectionele interactie tussen tekst en beelden mogelijk maakt gedurende het volledige denoisetraject. MMaDA-Parallel wordt getraind met supervised finetuning en vervolgens verder geoptimaliseerd door Parallel Reinforcement Learning (ParaRL), een nieuwe strategie die semantische beloningen langs het traject toepast om cross-modale consistentie af te dwingen. Experimenten bevestigen dat ons model de cross-modale afstemming en semantische consistentie aanzienlijk verbetert, met een verbetering van 6,9% in Output Alignment op ParaBench in vergelijking met het state-of-the-art model Bagel, wat een robuuster paradigma voor denken-bewuste beeld synthese vestigt. Onze code is open-source beschikbaar op https://github.com/tyfeld/MMaDA-Parallel.
Hedendaagse denoiserende diffusiemodellen "denoisen" niet in de klassieke zin, dat wil zeggen, ze voorspellen niet direct schone beelden. In plaats daarvan voorspellen de neurale netwerken ruis of een verruiste grootheid. In dit artikel suggereren we dat het voorspellen van schone data en het voorspellen van verruiste grootheden fundamenteel verschillend zijn. Volgens de manifold-aanname zou natuurlijke data op een laagdimensionale variëteit moeten liggen, terwijl verruiste grootheden dat niet doen. Uitgaande van deze aanname bepleiten we modellen die direct schone data voorspellen, wat ogenschijnlijk onderbemeten netwerken in staat stelt effectief te opereren in zeer hoogdimensionale ruimten. We tonen aan dat eenvoudige Transformers met grote patches op pixels krachtige generatieve modellen kunnen zijn: zonder tokenizer, zonder voorafgaande training en zonder extra verlies. Onze aanpak is conceptueel niets meer dan "Gewoon beeld-Transformers", oftewel JiT, zoals wij het noemen. We rapporteren competitieve resultaten met JiT met grote patchgroottes van 16 en 32 op ImageNet bij resoluties van 256 en 512, waar het voorspellen van hoogdimensionale verruiste grootheden catastrofaal kan mislukken. Doordat onze netwerken terugkeren naar de basisprincipes van de variëteit, keert ons onderzoek terug naar de basis en streeft het naar een zelfstandig paradigma voor Transformer-gebaseerde diffusie op ruwe natuurlijke data.
Grote Taalmodellen hebben een sterk potentieel getoond als herrangschikkers om de algehele prestaties van RAG-systemen te verbeteren. Bestaande herrangschikkingsparadigma's worden echter beperkt door een fundamenteel theoretisch en praktisch dilemma: Pointwise-methoden, hoewel eenvoudig en zeer flexibel, evalueren documenten onafhankelijk, waardoor ze vatbaar zijn voor de 'Ranking Myopia Trap' en het relatieve belang tussen documenten over het hoofd zien. Listwise-methoden daarentegen kunnen de globale rangschikkingscontext waarnemen, maar lijden onder inherente 'List Rigidity', wat leidt tot ernstige schaalbaarheids- en flexibiliteitsproblemen bij het verwerken van grote kandidaatsets. Om deze uitdagingen aan te pakken, stellen wij Groupwise voor, een nieuw herrangschikkingsparadigma. Bij deze aanpak worden de query en een groep kandidaatdocumenten gezamenlijk aan het model gevoed, dat binnen-groepsvergelijkingen uitvoert om individuele relevantiescores aan elk document toe te kennen. Dit ontwerp behoudt de flexibiliteit van Pointwise-methoden en maakt tegelijkertijd de vergelijkende capaciteit van Listwise-methoden mogelijk. Wij gebruiken verder GRPO voor modeltraining, uitgerust met een heterogene beloningsfunctie die rangschikkingsmetrieken integreert met een distributionele beloning die gericht is op het afstemmen van scoreverdelingen tussen groepen. Om het knelpunt veroorzaakt door de schaarste aan hoogwaardige gelabelde gegevens te overwinnen, stellen wij verder een innovatieve pijplijn voor voor het synthetiseren van hoogwaardige retrievals- en rangschikkingsgegevens. De resulterende gegevens kunnen niet alleen worden gebruikt voor het trainen van de herrangschikker, maar ook voor het trainen van de ophaler. Uitgebreide experimenten valideren de effectiviteit van onze aanpak. Op twee reasoning-intensieve retrievalbenchmarks, BRIGHT en R2MED.
3D-modellering verschuift van statische visuele representaties naar fysieke, gearticuleerde objecten die direct kunnen worden gebruikt in simulatie en interactie. De meeste bestaande 3D-generatiemethoden negeren echter cruciale fysieke en articulatie-eigenschappen, wat hun bruikbaarheid in embodied AI beperkt. Om deze kloof te overbruggen, introduceren we PhysX-Anything, het eerste simulatiegereede fysieke 3D-generatieve framework dat, uitgaande van een enkele afbeelding uit de praktijk, hoogwaardige simulatieklare 3D-objecten produceert met expliciete geometrie, articulatie en fysieke attributen. Specifiek stellen we het eerste op VLM gebaseerde fysieke 3D-generatieve model voor, samen met een nieuwe 3D-representatie die geometrie efficiënt tokeniseert. Dit reduceert het aantal tokens met een factor 193, waardoor expliciete geometrie-aanleer mogelijk wordt binnen standaard VLM-tokenbudgetten zonder speciale tokens tijdens fine-tuning te introduceren, wat de generatieve kwaliteit aanzienlijk verbetert. Daarnaast construeren we, om de beperkte diversiteit van bestaande fysieke 3D-datasets te overwinnen, een nieuwe dataset genaamd PhysX-Mobility, die de objectcategorieën in eerdere fysieke 3D-datasets meer dan verdubbelt en meer dan 2000 algemene objecten uit de echte wereld omvat met uitgebreide fysieke annotaties. Uitgebreide experimenten op PhysX-Mobility en afbeeldingen uit de praktijk tonen aan dat PhysX-Anything sterke generatieve prestaties en robuuste generalisatie levert. Verder valideren op simulatie gebaseerde experimenten in een MuJoCo-achtige omgeving dat onze simulatieklare objecten direct kunnen worden gebruikt voor contactrijk robotica-beleidsleren. Wij geloven dat PhysX-Anything een breed scala aan downstream-toepassingen aanzienlijk kan versterken, met name in embodied AI en op fysica gebaseerde simulatie.
De snelle evolutie van videogeneratieve modellen heeft hun focus verlegd van het produceren van visueel geloofwaardige resultaten naar het aanpakken van taken die fysieke geloofwaardigheid en logische consistentie vereisen. Ondanks recente doorbraken, zoals de 'chain-of-frames'-redenering van Veo 3, is het echter nog onduidelijk of deze modellen redeneervermogens kunnen vertonen die vergelijkbaar zijn met die van grote taalmmodellen (LLM's). Bestaande benchmarks beoordelen voornamelijk visuele kwaliteit en temporele coherentie, maar slagen er niet in om hogere-orde redeneervermogens te meten. Om deze kloof te overbruggen, stellen we TiViBench voor, een hiërarchische benchmark die specifiek is ontworpen om de redeneercapaciteiten van image-to-video (I2V) generatiemodellen te evalueren. TiViBench beoordeelt redenering systematisch over vier dimensies: i) Structureel Redeneren & Zoeken, ii) Ruimtelijk & Visueel Patroonredeneren, iii) Symbolisch & Logisch Redeneren, en iv) Actieplanning & Taakuitvoering, verspreid over 24 diverse taakscenario's op 3 moeilijkheidsniveaus. Uit uitgebreide evaluaties blijkt dat commerciële modellen (zoals Sora 2, Veo 3.1) een sterker redeneerpotentieel demonstreren, terwijl open-source modellen onbenut potentieel vertonen dat nog steeds wordt belemmerd door een beperkte trainingsschaal en datadiversiteit. Om dit potentieel verder te ontsluiten, introduceren we VideoTPO, een eenvoudige maar effectieve testtijdstrategie geïnspireerd door voorkeursoptimalisatie. Door middel van LLM-zelfanalyse op gegenereerde kandidaatvideo's om sterke en zwakke punten te identificeren, verbetert VideoTPO de redeneerprestaties aanzienlijk zonder extra training, data of beloningsmodellen nodig te hebben. Samen banen TiViBench en VideoTPO de weg voor het evalueren en bevorderen van redenering in videogeneratiemodellen, en leggen ze een basis voor toekomstig onderzoek in dit opkomende veld.
Geautomatiseerde red teaming-frameworks voor Large Language Models (LLM's) zijn steeds geavanceerder geworden, maar delen een fundamentele beperking: hun jailbreak-logica is beperkt tot het selecteren, combineren of verfijnen van bestaande aanvalsstrategieën. Dit beknot hun creativiteit en maakt hen niet in staat om volledig nieuwe aanvalsmechanismen autonoom uit te vinden. Om deze kloof te overbruggen, introduceren wij EvoSynth, een autonoom framework dat het paradigma verschuift van aanvalsplanning naar de evolutionaire synthese van jailbreak-methoden. In plaats van prompts te verfijnen, gebruikt EvoSynth een multi-agent systeem om autonoom nieuwe, op code gebaseerde aanvalsalgoritmes te ontwerpen, evolueren en uit te voeren. Cruciaal is dat het beschikt over een zelfcorrectielus op coderingsniveau, waardoor het zijn eigen aanvalslogica iteratief kan herschrijven als reactie op falen. Door middel van uitgebreide experimenten tonen we aan dat EvoSynth niet alleen een nieuwe state-of-the-art vestigt door een Attack Success Rate (ASR) van 85,5% te behalen tegen zeer robuuste modellen zoals Claude-Sonnet-4.5, maar ook aanvallen genereert die aanzienlijk diverser zijn dan die van bestaande methoden. Wij geven ons framework vrij om toekomstig onderzoek in deze nieuwe richting van evolutionaire synthese van jailbreak-methoden te vergemakkelijken. Code is beschikbaar op: https://github.com/dongdongunique/EvoSynth.
Door grote taalmodellen (LLM's) aangedreven agents transformeren digitale apparaten van passieve tools naar proactieve, intelligente collaboratoren. De meeste bestaande frameworks blijven echter beperkt tot één besturingssysteem of apparaat, waardoor workflows over meerdere apparaten broos en grotendeels handmatig blijven. Wij presenteren UFO^3, een systeem dat heterogene eindpunten - desktops, servers, mobiele apparaten en edge-apparaten - verenigt in een enkele orchestratielaag. UFO^3 modelleert elk gebruikersverzoek als een veranderlijke TaskConstellation: een gedistribueerde DAG van atomare subtaken (TaskStars) met expliciete controle- en data-afhankelijkheden (TaskStarLines). De TaskConstellation evolueert continu naarmate resultaten binnenstromen van gedistribueerde apparaten, wat asynchrone uitvoering, adaptief herstel en dynamische optimalisatie mogelijk maakt. Een Constellation Orchestrator voert taken veilig en asynchroon uit terwijl dynamische DAG-updates worden toegepast, en het Agent Interaction Protocol (AIP) biedt persistente, low-latency kanalen voor betrouwbare taakdispatch en resultaatstreaming. Deze ontwerpen doorbreken de traditionele grenzen tussen apparaten en platformen, waardoor agents naadloos kunnen samenwerken en hun collectieve intelligentie kunnen versterken. Wij evalueren UFO^3 op NebulaBench, een benchmark met 55 taken over meerdere apparaten, verspreid over 5 machines en 10 categorieën. UFO^3 behaalt 83,3% subtaskvoltooiing, 70,9% tasksucces, onthult parallellisme met een gemiddelde breedte van 1,72, en reduceert de end-to-end latentie met 31% ten opzichte van een sequentiële baseline. Fault-injection experimenten tonen een elegante degradatie en herstel aan onder tijdelijke en permanente agentstoringen. Deze resultaten tonen aan dat UFO^3 accurate, efficiënte en veerkrachtige taakorchestratie over heterogene apparaten bereikt, geïsoleerde agents verenigt in een coherente, adaptieve computerlaag die zich uitstrekt over het landschap van ubiquitous computing.
Vision–language–action (VLA)-modellen hebben recent veelbelovende prestaties getoond op uiteenlopende embodied taken, maar ze schieten nog tekort in betrouwbaarheid en generalisatie, vooral wanneer ze worden ingezet in verschillende embodiment-omgevingen of in de echte wereld. In dit werk introduceren we NORA-1.5, een VLA-model dat is opgebouwd vanuit de vooraf getrainde NORA-backbone door er een op flow-matching gebaseerde actie-expert aan toe te voegen. Alleen al deze architectuurverbetering levert aanzienlijke prestatieverbeteringen op, waardoor NORA-1.5 NORA en verschillende state-of-the-art VLA-modellen overtreft op zowel gesimuleerde als real-world benchmarks. Om de robuustheid en taaksucces verder te verbeteren, ontwikkelen we een set beloningsmodellen voor het post-trainingen van VLA-beleidsregels. Onze beloningen combineren (i) een actie-geconditioneerd wereldmodel (WM) dat evalueert of gegenereerde acties leiden naar het gewenste doel, en (ii) een heuristiek voor afwijking-van-de-werkelijkheid die goede acties onderscheidt van slechte. Met deze beloningssignalen construeren we voorkeursdatasets en passen we NORA-1.5 aan op specifieke embodiment-omgevingen via direct preference optimization (DPO). Uitgebreide evaluaties tonen aan dat beloningsgestuurde post-training de prestaties consistent verbetert in zowel simulatie- als real-robotomgevingen, wat significante betrouwbaarheidswinst voor VLA-modellen demonstreert door middel van eenvoudige maar effectieve beloningsmodellen. Onze bevindingen benadrukken NORA-1.5 en beloningsgestuurde post-training als een haalbare route naar meer betrouwbare embodied agents die geschikt zijn voor inzet in de echte wereld.
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.
Multimodale LLM-gestuurde agents hebben recent indrukwekkende capaciteiten getoond in webnavigatie, waardoor ze complexe browsertaken in diverse domeinen kunnen voltooien. Huidige agents kampen echter met repetitieve fouten en missen het vermogen om te leren van eerdere ervaringen over sessies heen, wat hun langetermijnrobuustheid en steekproevefficiëntie beperkt. Wij introduceren WebCoach, een model-agnostisch zelf-evoluerend framework dat webbrowsingagents voorziet van een persistente geheugenopslag over sessies heen, waardoor verbeterde langetermijnplanning, reflectie en continu leren mogelijk worden zonder hertraining. WebCoach bestaat uit drie kerncomponenten: (1) een WebCondenser, die ruwe navigatielogbestanden standaardiseert tot beknopte samenvattingen; (2) een Extern Geheugenarchief, dat complete trajecten organiseert als episodische ervaringen; en (3) een Coach, die relevante ervaringen ophaalt op basis van gelijkenis en recentie, en beslist of taakspecifiek advies moet worden geïnjecteerd in de agent via runtime-hooks. Dit ontwerp stelt webagents in staat om toegang te krijgen tot langetermijngeheugen buiten hun native contextvenster, wat de robuustheid in complexe browsertaken verbetert. Bovendien bereikt WebCoach zelf-evolutie door continu episodisch geheugen te cureren vanuit nieuwe navigatietrajecten, waardoor agents in de loop van de tijd kunnen verbeteren zonder hertraining. Evaluaties op de WebVoyager-benchmark tonen aan dat WebCoach consistent de prestaties verbetert van browsergebruikende agents over drie verschillende LLM-backbones. Met een 38B-model verhoogt het de taaksuccespercentages van 47% naar 61% terwijl het gemiddeld aantal stappen wordt verlaagd of gelijk gehouden. Opmerkelijk is dat kleinere basismodellen met WebCoach prestaties bereiken die vergelijkbaar zijn met dezelfde webagent die GPT-4o gebruikt.
Aardobservatiegegevens vormen een unieke uitdaging: ze zijn ruimtelijk zoals afbeeldingen, sequentieel zoals video of tekst, en sterk multimodaal. Wij presenteren OlmoEarth: een multimodaal, spatio-temporeel foundationmodel dat gebruikmaakt van een nieuwe formulering voor zelfsupervised leren, een nieuwe maskingstrategie en een nieuw verliesfunctieontwerp, allemaal ontwikkeld voor het aardobservatiedomein. OlmoEarth behaalt state-of-the-art prestaties in vergelijking met 12 andere foundationmodellen, getest op diverse onderzoeksbenchmarks en real-world taken van externe partners. Bij de evaluatie van embeddings behaalt OlmoEarth de beste prestatie op 15 van de 24 taken, en met volledige fine-tuning is het de beste op 19 van de 29 taken. Wij zetten OlmoEarth in als de backbone van een end-to-end platform voor gegevensverzameling, labeling, training en inferentie van aardobservatiemodellen. Het OlmoEarth Platform brengt geavanceerde foundationmodellen en krachtige data management tools binnen handbereik van non-profits en NGO's die werken aan het oplossen van 's werelds grootste problemen. De OlmoEarth-broncode, trainingsgegevens en vooraf getrainde gewichten zijn beschikbaar op https://github.com/allenai/olmoearth_pretrain.
Grote Taalmodellen (LLM's) hervormen vrijwel alle sectoren, inclusief software-engineering. De afgelopen jaren zijn er tal van LLM-agenten voorgesteld om real-world softwareproblemen op te lossen. Dergelijke software-agenten zijn doorgaans uitgerust met een reeks codeertools en kunnen autonoom beslissen over de volgende acties om complete trajecten te vormen voor het oplossen van end-to-end softwaretaken. Hoewel veelbelovend, vereisen ze meestal een specifiek ontwerp en kunnen ze nog steeds suboptimaal zijn, omdat het extreem uitdagend en kostbaar is om de volledige ontwerpruimte voor agent-scaffolds uit te putten. Omdat wordt erkend dat software-agenten inherent zelf software zijn die verder kunnen worden verfijnd/aangepast, hebben onderzoekers onlangs een aantal zelfverbeterende software-agenten voorgesteld, waaronder de Darwin-Gödel Machine (DGM). Tegelijkertijd vereisen dergelijke zelfverbeterende agenten kostbare offline training op specifieke benchmarks en generaliseren ze mogelijk niet goed over verschillende LLM's of benchmarks. In dit artikel stellen we Live-SWE-agent voor, de eerste live software-agent die zichzelf autonoom en continu on-the-fly kan evolueren tijdens runtime bij het oplossen van real-world softwareproblemen. Meer specifiek begint Live-SWE-agent met de meest basale agent-scaffold met alleen toegang tot bash-tools (bijv. mini-SWE-agent), en evolueert autonoom zijn eigen scaffold-implementatie terwijl het real-world softwareproblemen oplost. Onze evaluatie op de breed bestudeerde SWE-bench Verified benchmark toont aan dat Live-SWE-agent een indrukwekkend oplossingspercentage van 75,4% kan bereiken zonder schaling tijdens tests, wat beter presteert dan alle bestaande open-source software-agenten en de prestaties van de beste propriëtaire oplossing benadert. Bovendien presteert Live-SWE-agent beter dan state-of-the-art handmatig vervaardigde software-agenten op de recente SWE-Bench Pro benchmark, met het beste bekende oplossingspercentage van 45,8%.
In-context learning (ICL) -- the capacity of a model to infer and apply abstract patterns from examples provided within its input -- has been extensively studied in large language models trained for next-token prediction on human text. In fact, prior work often attributes this emergent behavior to distinctive statistical properties in human language. This raises a fundamental question: can ICL arise organically in other sequence domains purely through large-scale predictive training? To explore this, we turn to genomic sequences, an alternative symbolic domain rich in statistical structure. Specifically, we study the Evo2 genomic model, trained predominantly on next-nucleotide (A/T/C/G) prediction, at a scale comparable to mid-sized LLMs. We develop a controlled experimental framework comprising symbolic reasoning tasks instantiated in both linguistic and genomic forms, enabling direct comparison of ICL across genomic and linguistic models. Our results show that genomic models, like their linguistic counterparts, exhibit log-linear gains in pattern induction as the number of in-context demonstrations increases. To the best of our knowledge, this is the first evidence of organically emergent ICL in genomic sequences, supporting the hypothesis that ICL arises as a consequence of large-scale predictive modeling over rich data. These findings extend emergent meta-learning beyond language, pointing toward a unified, modality-agnostic view of in-context learning.
Grote Taalmodellen (LLM's) hebben kennisgrafiekvraagbeantwoording (KGQA) aanzienlijk vooruitgeholpen, maar bestaande systemen zijn doorgaans geoptimaliseerd voor het retourneren van zeer relevante maar voorspelbare antwoorden. Een ontbrekende doch gewenste capaciteit is het benutten van LLM's om verrassende en nieuwe ('serendipiteuze') antwoorden voor te stellen. In dit artikel definiëren we formeel de serendipity-bewuste KGQA-taak en presenteren we het SerenQA-framework om het vermogen van LLM's te evalueren om onverwachte inzichten bloot te leggen bij wetenschappelijke KGQA-taken. SerenQA omvat een rigoureuze serendipity-metric gebaseerd op relevantie, nieuwheid en verrassing, samen met een door experts geannoteerde benchmark afgeleid van de Klinische Kennisgrafiek, gericht op drug repurposing. Daarnaast bevat het een gestructureerde evaluatiepijplijn die drie subtaken omvat: kennisherwinning, subgraafredenering en serendipity-verkenning. Onze experimenten tonen aan dat, hoewel state-of-the-art LLM's goed presteren op herwinning, ze nog steeds moeite hebben om werkelijk verrassende en waardevolle ontdekkingen te identificeren, wat wijst op een aanzienlijke ruimte voor toekomstige verbeteringen. Onze samengestelde bronnen en uitgebreide versie zijn vrijgegeven op: https://cwru-db-group.github.io/serenQA.
Vision-Language Models (VLMs) blinken uit in zero-shot inferentie, maar vertonen vaak degradatie onder domeinverschuivingen tijdens testtijd. Daarom zijn episodische testtijd-aanpassingsstrategieën recent naar voren gekomen als krachtige technieken om VLMs aan te passen aan een enkel ongelabeld beeld. Bestaande aanpassingsstrategieën, zoals testtijd prompt-tuning, vereisen echter typisch backpropagatie door grote encoder-gewichten of wijzigen kernmodelcomponenten. In dit werk introduceren we Spectrum-Aware Test-Time Steering (STS), een lichtgewicht aanpassingsframework dat een spectrale deelruimte extraheert uit de tekstuele inbeddingen om principale semantische richtingen te definiëren en leert om latente representaties op een spectrum-bewuste manier te sturen door een klein aantal per-sample verschuivingsparameters aan te passen om de entropie over geaugmenteerde views te minimaliseren. STS opereert volledig tijdens inferentie in de latente ruimte, zonder backpropagatie door of modificatie van de bevroren encoders. Voortbouwend op standaard evaluatieprotocollen, tonen onze uitgebreide experimenten aan dat STS de state-of-the-art testtijd-aanpassingsmethoden ruimschoots overtreft of gunstig vergelijkbaar is, terwijl het slechts een handjevol extra parameters introduceert en inferentiesnelheden bereikt tot 8x sneller met een 12x kleinere geheugenvoetafdruk dan conventionele testtijd prompt-tuning. De code is beschikbaar op https://github.com/kdafnis/STS.
Multimodale Large Language Models worden steeds vaker toegepast op biomedische beeldvorming, maar wetenschappelijk redeneren voor microscopie wordt nog steeds beperkt door de schaarste aan grootschalige, hoogwaardige trainingsdata. Wij introduceren MicroVQA++, een drieledige, grootschalige en hoogwaardige microscopie VQA-corpus afgeleid van het BIOMEDICA-archief. Fase één bootstrapt supervisie vanuit door experts gevalideerde figuur-bijschrift-paren afkomstig uit peer-reviewed artikelen. Fase twee past HiCQA-Graph toe, een nieuwe heterogene graaf over afbeeldingen, bijschriften en V&A's die NLI-gebaseerde tekstueel gevolg, CLIP-gebaseerde visie-taal-alignering en agent-signalen fuseert om inconsistente samples te identificeren en filteren. Fase drie gebruikt een MultiModal Large Language Model (MLLM)-agent om meerkeuzevragen (MCQ) te genereren, gevolgd door menselijke screening. De resulterende release omvat een grote trainingset en een door mensen gecontroleerde testset waarvan de Bloom's niveau hard-sample-distributie de MicroVQA-benchmark overtreft. Ons werk levert (i) een kwaliteitsgecontroleerde dataset die expertliteratuur koppelt aan op grafen gebaseerde filtering en menselijke verfijning; (ii) HiCQA-Graph, de eerste graaf die (afbeelding, bijschrift, V&A) gezamenlijk modelleert voor cross-modale consistentiefiltering; (iii) bewijs dat zorgvuldige dataconstructie 4B-schaal MLLM's in staat stelt om competitieve microscopie-redeneerprestaties (bijv. GPT-5) te bereiken en state-of-the-art prestaties te behalen onder open-source MLLM's. Code en dataset worden vrijgegeven na afronding van het reviewproces.
Grote taalmodellen (LLM's) hebben opmerkelijke prestaties geleverd bij een breed scala aan taken, maar de meeste hoogpresterende modellen blijven closed-source of gedeeltelijk open, wat de transparantie en reproduceerbaarheid beperkt. In dit werk introduceren we Instella, een familie van volledig open taalmodellen met drie miljard parameters, die volledig zijn getraind op openbaar beschikbare data en codebase. Aangedreven door AMD Instinct MI300X GPU's, is Instella ontwikkeld via grootschalige pre-training, algemene instruction tuning en afstemming op menselijke voorkeuren. Ondanks het gebruik van aanzienlijk minder pre-training tokens dan veel tijdgenoten, behaalt Instella state-of-the-art resultaten onder volledig open modellen en is het concurrerend met toonaangevende open-weight modellen van vergelijkbare grootte. We brengen verder twee gespecialiseerde varianten uit: Instella-Long, in staat om contextlengtes tot 128K tokens te verwerken, en Instella-Math, een op redeneren gericht model verbeterd door supervised fine-tuning en reinforcement learning op wiskundige taken. Gezamenlijk vestigen deze bijdragen Instella als een transparant, presterend en veelzijdig alternatief voor de gemeenschap, waarmee het doel van open en reproduceerbaar taalmodelleringsonderzoek wordt bevorderd.
Multimodale grote taalmodellen (MLLM's) hebben indrukwekkende redeneer- en instructievolgcapaciteiten getoond, maar hun uitgebreide modaliteitsruimte introduceert nieuwe compositionele veiligheidsrisico's die voortkomen uit complexe tekst-beeldinteracties. Dergelijke kruismodale koppelingen kunnen onveilige semantiek produceren, zelfs wanneer individuele invoer onschadelijk is, wat het fragiele veiligheidsbewustzijn van huidige MLLM's blootlegt. Hoewel recente werken de veiligheid verbeteren door modellen te begeleiden bij het redeneren over potentiële risico's, kunnen ongereguleerde redeneersporen de afstemming in gevaar brengen; hoewel Group Relative Policy Optimization (GRPO) zelf-beloonde verfijning biedt zonder menselijk toezicht, ontbreekt het aan verifieerbare signalen voor redeneerveiligheid. Om dit aan te pakken, stellen wij SafeGRPO voor: een zelf-beloonde multimodale veiligheidsafstemmingsraamwerk dat door regels gestuurde beloningsconstructie integreert in GRPO, waardoor interpreteerbare en verifieerbare optimalisatie van redeneerveiligheid mogelijk wordt. Gebouwd op de geconstrueerde SafeTag-VL-3K-dataset met expliciete visuele, tekstuele en gecombineerde veiligheidslabels, voert SafeGRPO stapsgewijs geleid veiligheidsdenken uit om gestructureerd redeneren en gedragsafstemming af te dwingen. Dit verbetert de multimodale veiligheidsbewustwording, compositionele robuustheid en redeneerstabiliteit aanzienlijk across diverse benchmarks zonder algemene capaciteiten op te offeren.
De uitlijning van representaties uit verschillende modaliteiten is recentelijk aangetoond inzichten te bieden in de structurele overeenkomsten en downstream-mogelijkheden van verschillende encoders voor diverse datatypen. Hoewel aanzienlijke vooruitgang is geboekt bij het uitlijnen van afbeeldingen met tekst, blijft de temporele aard van videogegevens in deze context grotendeels onontgonnen. In dit werk voeren we de eerste uitgebreide studie uit naar video-tekst representatie-uitlijning, waarbij we de capaciteiten van moderne video- en taalencoders onderzoeken. Onze bevindingen onthullen enkele cruciale inzichten. Ten eerste tonen we aan dat cross-modale uitlijning sterk afhangt van de rijkdom van zowel visuele (statische afbeeldingen versus multi-frame video's) als tekstuele (enkel bijschrift versus een collectie) gegevens die tijdens de test worden verstrekt, vooral bij gebruik van state-of-the-art video-encoders. We stellen parametrische schaalwetten voor testtijd voor die dit gedrag vangen en opmerkelijke voorspellende kracht tonen ten opzichte van empirische observaties. Ten tweede onderzoeken we de correlatie tussen semantische uitlijning en prestaties op zowel semantische als niet-semantische downstream-taken, waarbij we eerste bewijs leveren dat sterke uitlijning met tekstencoders verband kan houden met algemene video-representatie en -begrip. Tot slot correleren we temporeel redeneren met cross-modale uitlijning, wat een uitdagende testomgeving biedt voor visie- en taalmodelen. Al met al introduceert ons werk video-tekst-uitlijning als een informatieve zero-shot manier om de representatiekracht van verschillende encoders voor spatio-temporele gegevens te onderzoeken. De projectpagina is te vinden op https://video-prh.github.io/
Naarmate grote taalmodellen (LLM's) evolueren tot geavanceerde autonome agents die complexe softwareontwikkelingstaken kunnen uitvoeren, wordt het evalueren van hun real-world capaciteiten cruciaal. Hoewel bestaande benchmarks zoals LoCoBench~qiu2025locobench het begrip van code in lange contexten beoordelen, richten zij zich op single-turn evaluatie en kunnen zij de multi-turn interactieve aard, toolgebruikspatronen en adaptieve redeneervaardigheden die door real-world coderingsagents worden vereist, niet vastleggen. Wij introduceren LoCoBench-Agent, een uitgebreid evaluatieraamwerk specifiek ontworpen om LLM-agents te beoordelen in realistische, lange-context software-engineering workflows. Ons raamwerk breidt de 8.000 scenario's van LoCoBench uit naar interactieve agent-omgevingen, waardoor systematische evaluatie mogelijk wordt van multi-turn gesprekken, toolgebruiksefficiëntie, foutherstel en architectuurconsistentie tijdens uitgebreide ontwikkelsessies. Wij introduceren ook een evaluatiemethodologie met 9 metrieken over begrips- en efficiëntiedimensies. Ons raamwerk voorziet agents van 8 gespecialiseerde tools (bestandsoperaties, zoeken, code-analyse) en evalueert ze over contextlengtes variërend van 10K tot 1M tokens, waardoor een precieze beoordeling van lange-context prestaties mogelijk wordt. Door systematische evaluatie van state-of-the-art modellen onthullen wij verschillende belangrijke bevindingen: (1) agents vertonen opmerkelijke lange-context robuustheid; (2) er bestaat een trade-off tussen begrip en efficiëntie met een negatieve correlatie, waarbij grondige exploratie het begrip verhoogt maar de efficiëntie vermindert; en (3) gespreksefficiëntie varieert aanzienlijk tussen modellen, waarbij strategische toolgebruikspatronen hoogpresterende agents onderscheiden. Als eerste lange-context LLM-agent benchmark voor software-engineering legt LoCoBench-Agent een rigoureuze basis voor het meten van agentcapaciteiten, het identificeren van prestatiekloofjes en het bevorderen van autonome softwareontwikkeling op grote schaal.
Goal-driven persuasive dialogue, exemplified by applications like telemarketing, requires sophisticated multi-turn planning and strict factual faithfulness, which remains a significant challenge for even state-of-the-art Large Language Models (LLMs). A lack of task-specific data often limits previous works, and direct LLM application suffers from strategic brittleness and factual hallucination. In this paper, we first construct and release TeleSalesCorpus, the first real-world-grounded dialogue dataset for this domain. We then propose AI-Salesman, a novel framework featuring a dual-stage architecture. For the training stage, we design a Bayesian-supervised reinforcement learning algorithm that learns robust sales strategies from noisy dialogues. For the inference stage, we introduce the Dynamic Outline-Guided Agent (DOGA), which leverages a pre-built script library to provide dynamic, turn-by-turn strategic guidance. Moreover, we design a comprehensive evaluation framework that combines fine-grained metrics for key sales skills with the LLM-as-a-Judge paradigm. Experimental results demonstrate that our proposed AI-Salesman significantly outperforms baseline models in both automatic metrics and comprehensive human evaluations, showcasing its effectiveness in complex persuasive scenarios.
Bestaande retrieval-augmented generation (RAG)-systemen gebruiken doorgaans een gecentraliseerde architectuur, wat leidt tot hoge kosten voor gegevensverzameling, -integratie en -beheer, evenals privacyproblemen. Er is grote behoefte aan een gedecentraliseerd RAG-systeem dat foundationmodellen in staat stelt om informatie rechtstreeks te gebruiken van data-eigenaren die volledige controle over hun bronnen behouden. Decentralisatie brengt echter een uitdaging met zich mee: de talloze onafhankelijke gegevensbronnen verschillen aanzienlijk in betrouwbaarheid, wat de retrievalsnelheid en responstijd kan verminderen. Om dit aan te pakken, heeft ons gedecentraliseerde RAG-systeem een nieuwe betrouwbaarheidsscoringsmechanisme dat elke bron dynamisch evalueert op basis van de kwaliteit van de antwoorden die het bijdraagt, en dat hoogwaardige bronnen prioriteert tijdens het ophalen. Om transparantie en vertrouwen te waarborgen, wordt het scoringsproces veilig beheerd via blockchain-gebaseerde smart contracts, waardoor verifieerbare en onvervalsbare betrouwbaarheidsregistraties ontstaan zonder afhankelijkheid van een centrale autoriteit. We evalueren ons gedecentraliseerde systeem met twee Llama-modellen (3B en 8B) in twee gesimuleerde omgevingen waar zes gegevensbronnen verschillende betrouwbaarheidsniveaus hebben. Ons systeem behaalt een prestatieverbetering van +10,7% ten opzichte van zijn gecentraliseerde tegenhanger in realistische, onbetrouwbare gegevensomgevingen. Opmerkelijk is dat het de bovenste prestatiegrens van gecentraliseerde systemen benadert onder ideale, betrouwbare gegevensomgevingen. De gedecentraliseerde infrastructuur maakt veilig en betrouwbaar scoringsbeheer mogelijk, wat ongeveer 56% marginale kostenbesparing oplevert door gebatchte updateoperaties. Onze code en systeem zijn open source beschikbaar op github.com/yining610/Reliable-dRAG.
Echografie (US) is een van de meest gebruikte medische beeldvormingstechnieken, dankzij de lage kosten, draagbaarheid, real-time feedback en afwezigheid van ioniserende straling. De interpretatie van echo-beelden blijft echter sterk operatorafhankelijk en varieert aanzienlijk tussen anatomische regio's, acquisitieprotocollen en apparaattypen. Deze variaties, samen met unieke uitdagingen zoals speckle, laag contrast en beperkte gestandaardiseerde annotaties, belemmeren de ontwikkeling van generaliseerbare, label-efficiënte AI-modellen voor echografie. In dit artikel stellen we OpenUS voor, het eerste reproduceerbare, open-source foundation model voor echografie, gebaseerd op een grote verzameling publieke data. OpenUS gebruikt een Vision Mamba-backbone die zowel lokale als globale lange-afstandsafhankelijkheden in het beeld vastlegt. Om rijke kenmerken te extraheren tijdens de pre-training, introduceren we een nieuw zelfadaptief maskeringsraamwerk dat contrastief leren combineert met gemaskeerde beeldmodellering. Deze strategie integreert de aandachtskaart van de leraar met het reconstructieverlies van de student, en verfijnt klinisch relevante maskering adaptief om de effectiviteit van de pre-training te verbeteren. OpenUS past ook een dynamisch leerschema toe om de moeilijkheidsgraad van het pre-trainingproces progressief aan te passen. Om het foundation model te ontwikkelen, hebben we de grootste tot nu toe publieke echografie-dataset samengesteld, bestaande uit meer dan 308K afbeeldingen van 42 publiek beschikbare datasets, die diverse anatomische regio's, instellingen, beeldvormingsapparaten en ziektetypen bestrijken. Ons vooraf getrainde OpenUS-model kan eenvoudig worden aangepast voor specifieke downstreamtaken door te dienen als backbone voor label-efficiënte fine-tuning. Code is beschikbaar op https://github.com/XZheng0427/OpenUS.