Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Listwise ranking gebaseerd op Large Language Models (LLM) heeft superieure prestaties getoond in veel passage-rankingtaken. Met de ontwikkeling van Large Reasoning Models hebben veel studies aangetoond dat stap-voor-stap redeneren tijdens testtijd helpt om de listwise rankingprestaties te verbeteren. Vanwege de schaarste aan trainingsdata die intensief redeneren vereist, presteren bestaande herrankers echter slecht in veel complexe rankingscenario's en blijft het rankingvermogen van herrankers die intensief redeneren grotendeels onderontwikkeld. In dit artikel stellen we eerst een geautomatiseerd framework voor de synthese van trainingsdata die intensief redeneren vereist voor, waarbij trainingsquery's en passages uit diverse domeinen worden gebruikt en DeepSeek-R1 wordt toegepast om hoogwaardige trainingslabels te genereren. Een zelfconsistentie-datafilteringsmechanisme is ontworpen om de datakwaliteit te waarborgen. Om de listwise herranker te voorzien van een sterk redeneervermogen, stellen we verder een tweefasen post-trainingsbenadering voor, die een cold-start supervised fine-tuning (SFT) fase omvat voor het leren van redeneerpatronen en een reinforcement learning (RL) fase voor verdere verbetering van het rankingvermogen. Tijdens de RL-fase hebben we, gebaseerd op de aard van listwise ranking, een multi-view ranking beloning ontworpen, die effectiever is dan een beloning gebaseerd op een rankingmetriek. Uitgebreide experimenten tonen aan dat onze getrainde herranker die intensief redeneert, ReasonRank, bestaande baseline-modellen significant overtreft en ook veel lagere latentie bereikt dan de pointwise herranker Rank1. Door verdere experimenten heeft onze ReasonRank een state-of-the-art (SOTA) prestatie van 40.6 behaald op de BRIGHT leaderboard\footnote{https://brightbenchmark.github.io/.} Onze codes zijn beschikbaar op https://github.com/8421BCD/ReasonRank.
Van professioneel onderzoek tot alledaagse planning worden veel taken belemmerd door grootschalige informatiezoektochten, die meer repetitief dan cognitief complex zijn. Met de snelle ontwikkeling van Large Language Models (LLM's) bieden geautomatiseerde zoekagentschappen, aangedreven door LLM's, een veelbelovende oplossing om mensen van dit vervelende werk te bevrijden. Het vermogen van deze agentschappen om dergelijke "breed-contextuele" verzamelingen betrouwbaar en volledig uit te voeren, blijft echter grotendeels onbeoordeeld vanwege een gebrek aan geschikte benchmarks. Om deze kloof te overbruggen, introduceren we WideSearch, een nieuwe benchmark ontworpen om de betrouwbaarheid van agentschappen bij deze grootschalige verzameltaken te evalueren. De benchmark bevat 200 handmatig samengestelde vragen (100 in het Engels, 100 in het Chinees) uit meer dan 15 diverse domeinen, gebaseerd op echte gebruikersvragen. Elke taak vereist dat agentschappen grootschalige atomische informatie verzamelen, die objectief een voor een geverifieerd kan worden, en deze in een goed georganiseerde uitvoer rangschikken. Een rigoureuze vijfstappen kwaliteitscontrolepijplijn zorgt voor de moeilijkheidsgraad, volledigheid en verifieerbaarheid van de dataset. We testen meer dan 10 state-of-the-art zoeksystemen voor agentschappen, waaronder single-agent, multi-agent frameworks en end-to-end commerciële systemen. De meeste systemen behalen algehele slagingspercentages van bijna 0\%, waarbij de beste presteerder slechts 5\% bereikt. Echter, met voldoende tijd kan kruisvalidatie door meerdere menselijke testers een slagingspercentage van bijna 100\% bereiken. Deze resultaten tonen aan dat huidige zoekagentschappen kritieke tekortkomingen hebben bij grootschalige informatiezoektochten, wat dringende gebieden voor toekomstig onderzoek en ontwikkeling in zoekagentschappen onderstreept. Onze dataset, evaluatiepijplijn en benchmarkresultaten zijn openbaar vrijgegeven op https://widesearch-seed.github.io/.
Recente ontwikkelingen in grote taalmodellen hebben een groeiende interesse gewekt in AI-agenten die complexe, real-world taken kunnen oplossen. De meeste bestaande agentsystemen vertrouwen echter op handmatig gemaakte configuraties die statisch blijven na implementatie, wat hun vermogen beperkt om zich aan te passen aan dynamische en evoluerende omgevingen. Daarom heeft recent onderzoek zich gericht op technieken voor agent-evolutie die agentsystemen automatisch verbeteren op basis van interactiedata en omgevingsfeedback. Deze opkomende richting legt de basis voor zelf-evoluerende AI-agenten, die de statische mogelijkheden van foundationmodellen combineren met de continue aanpassingsvermogen die vereist is voor levenslange agentische systemen. In dit overzicht bieden we een uitgebreide review van bestaande technieken voor zelf-evoluerende agentische systemen. Specifiek introduceren we eerst een uniform conceptueel raamwerk dat de feedbacklus abstraheert die ten grondslag ligt aan het ontwerp van zelf-evoluerende agentische systemen. Het raamwerk benadrukt vier sleutelcomponenten: Systeeminvoer, Agentsysteem, Omgeving en Optimalisatoren, die dienen als basis voor het begrijpen en vergelijken van verschillende strategieën. Op basis van dit raamwerk bespreken we systematisch een breed scala aan zelf-evoluerende technieken die gericht zijn op verschillende componenten van het agentsysteem. We onderzoeken ook domeinspecifieke evolutiestrategieën die zijn ontwikkeld voor gespecialiseerde velden zoals biomedische wetenschappen, programmeren en financiën, waar optimalisatiedoelen nauw verbonden zijn met domeinbeperkingen. Daarnaast bieden we een toegewijd discussie over de evaluatie, veiligheid en ethische overwegingen voor zelf-evoluerende agentische systemen, die cruciaal zijn om hun effectiviteit en betrouwbaarheid te waarborgen. Dit overzicht beoogt onderzoekers en praktijkmensen een systematisch begrip te bieden van zelf-evoluerende AI-agenten, en legt de basis voor de ontwikkeling van meer adaptieve, autonome en levenslange agentische systemen.
Visuele effecten (VFX) zijn essentiële visuele verbeteringen die fundamenteel zijn voor moderne filmproductie. Hoewel videogeneratiemodellen kostenefficiënte oplossingen bieden voor VFX-productie, worden huidige methoden beperkt door per-effect LoRA-training, wat de generatie tot enkele effecten beperkt. Deze fundamentele beperking belemmert toepassingen die ruimtelijk beheersbare samengestelde effecten vereisen, d.w.z. de gelijktijdige generatie van meerdere effecten op aangewezen locaties. Het integreren van diverse effecten in een uniform raamwerk stuit echter op grote uitdagingen: interferentie door effectvariatie en ruimtelijke onbeheersbaarheid tijdens gezamenlijke training van meerdere VFX. Om deze uitdagingen aan te pakken, stellen we Omni-Effects voor, een eerste uniform raamwerk dat in staat is prompt-gestuurde effecten en ruimtelijk beheersbare samengestelde effecten te genereren. De kern van ons raamwerk bestaat uit twee belangrijke innovaties: (1) LoRA-based Mixture of Experts (LoRA-MoE), dat een groep expert-LoRA's gebruikt en diverse effecten integreert binnen een uniform model, terwijl kruistakeninterferentie effectief wordt gemitigeerd. (2) Spatial-Aware Prompt (SAP) incorporeert ruimtelijke maskerinformatie in de teksttoken, waardoor precieze ruimtelijke controle mogelijk wordt. Bovendien introduceren we een Independent-Information Flow (IIF)-module geïntegreerd binnen de SAP, die de controlesignalen voor individuele effecten isoleert om ongewenste vermenging te voorkomen. Om dit onderzoek te faciliteren, construeren we een uitgebreide VFX-dataset, Omni-VFX, via een nieuwe datacollectiepijplijn die beeldbewerking en First-Last Frame-to-Video (FLF2V)-synthese combineert, en introduceren we een toegewijd VFX-evaluatieraamwerk om modelprestaties te valideren. Uitgebreide experimenten tonen aan dat Omni-Effects precieze ruimtelijke controle en diverse effectgeneratie bereikt, waardoor gebruikers zowel de categorie als de locatie van gewenste effecten kunnen specificeren.
Reinforcement learning voor LLM-redenering is snel opgekomen als een prominent onderzoeksgebied, gekenmerkt door een aanzienlijke toename in gerelateerde studies over zowel algoritmische innovaties als praktische toepassingen. Ondanks deze vooruitgang blijven er verschillende kritieke uitdagingen bestaan, waaronder het ontbreken van gestandaardiseerde richtlijnen voor het inzetten van RL-technieken en een gefragmenteerd begrip van hun onderliggende mechanismen. Daarnaast hebben inconsistente experimentele instellingen, variaties in trainingsdata en verschillen in modelinitialisatie geleid tot tegenstrijdige conclusies, waardoor de belangrijkste kenmerken van deze technieken worden vertroebeld en verwarring ontstaat bij praktijkmensen bij het selecteren van geschikte technieken. Dit artikel beoordeelt systematisch veelgebruikte RL-technieken door middel van rigoureuze reproducties en geïsoleerde evaluaties binnen een uniform open-source raamwerk. We analyseren de interne mechanismen, toepasbare scenario's en kernprincipes van elke techniek via fijnmazige experimenten, inclusief datasets met variërende moeilijkheidsgraden, modelgroottes en architecturen. Op basis van deze inzichten presenteren we duidelijke richtlijnen voor het selecteren van RL-technieken die zijn afgestemd op specifieke opstellingen, en bieden we een betrouwbare routekaart voor praktijkmensen die navigeren in het RL-domein voor LLM's. Tot slot onthullen we dat een minimalistische combinatie van twee technieken het leervermogen van criticusvrije beleidsregels kan ontgrendelen met behulp van een standaard PPO-verlies. De resultaten tonen aan dat onze eenvoudige combinatie consistent de prestaties verbetert en strategieën zoals GRPO en DAPO overtreft.
Het recent voorgestelde Large Concept Model (LCM) genereert tekst door een reeks zin-niveau embeddings te voorspellen en te trainen met ofwel gemiddelde kwadratische fout of diffusie-doelstellingen. Wij presenteren SONAR-LLM, een decoder-only transformer die "denkt" in dezelfde continue SONAR-embeddingruimte, maar wordt gesuperviseerd via token-niveau kruisentropie die wordt doorgegeven via de bevroren SONAR-decoder. Dit hybride doel behoudt de semantische abstractie van LCM terwijl het de diffusiesampler elimineert en een op waarschijnlijkheid gebaseerd trainingssignaal herstelt. Over modelgroottes van 39M tot 1,3B parameters bereikt SONAR-LLM een competitieve generatiekwaliteit. Wij rapporteren schaalbaarheidstrends, ablatiestudies, benchmarkresultaten en geven de volledige trainingscode en alle vooraf getrainde checkpoints vrij om reproduceerbaarheid en toekomstig onderzoek te bevorderen.
Redeneren staat centraal bij doelgericht handelen, maar de meeste robotische basismodellen koppelen waarneming en instructies direct aan besturing, wat de aanpassingsvermogen, generalisatie en semantische verankering beperkt. Wij introduceren Action Reasoning Models (ARMs), een klasse van visie-taal-actie-modellen die waarneming, planning en besturing integreren via een gestructureerde drietrapspijplijn. Ons model, MolmoAct, codeert waarnemingen en instructies in dieptebewuste waarnemingstokens, genereert middenniveau ruimtelijke plannen als bewerkbare trajectsporen, en voorspelt precieze laagniveau acties, wat verklaarbaar en stuurbaar gedrag mogelijk maakt. MolmoAct-7B-D behaalt sterke prestaties in zowel simulatie- als real-world omgevingen: 70,5% zero-shot nauwkeurigheid op SimplerEnv Visual Matching taken, wat gesloten bron Pi-0 en GR00T N1 overtreft; 86,6% gemiddeld succes op LIBERO, inclusief een extra 6,3% winst ten opzichte van ThinkAct op langetermijntaken; en bij real-world fine-tuning een extra 10% (enkelarm) en een extra 22,7% (tweehandig) taakvoortgang ten opzichte van Pi-0-FAST. Het overtreft ook de basislijnen met een extra 23,3% op out-of-distribution generalisatie en behaalt de hoogste menselijke voorkeursscores voor open-einde instructievolging en trajectsturing. Bovendien brengen wij, voor het eerst, de MolmoAct Dataset uit – een mid-training robotdataset bestaande uit meer dan 10.000 hoogwaardige robot trajecten over diverse scenario's en taken. Trainen met deze dataset resulteert in een gemiddelde prestatieverbetering van 5,5% ten opzichte van het basismodel. Wij brengen alle modelgewichten, trainingscode, onze verzamelde dataset en onze actieredeneringsdataset uit, waarmee MolmoAct zowel een state-of-the-art robotica basismodel als een open blauwdruk wordt voor het bouwen van ARMs die waarneming omzetten in doelgericht handelen via gestructureerd redeneren. Blogpost: https://allenai.org/blog/molmoact
We presenteren Klear-Reasoner, een model met uitgebreide redeneervaardigheden dat zorgvuldige overweging toont tijdens het oplossen van problemen en uitstekende prestaties behaalt op meerdere benchmarks. Hoewel er in de huidige gemeenschap al veel uitstekende werken zijn gerelateerd aan inferentiemodellen, zijn er nog steeds veel problemen bij het reproduceren van hoogwaardige inferentiemodellen vanwege onvolledige openbaarmaking van trainingsdetails. Dit rapport biedt een diepgaande analyse van het redeneermodel, waarbij het hele post-trainingswerkproces wordt behandeld, van gegevensvoorbereiding en lange Chain-of-Thought supervised fine-tuning (lange CoT SFT) tot reinforcement learning (RL), samen met gedetailleerde ablatiestudies voor elk experimenteel onderdeel. Voor SFT-gegevens tonen onze experimenten aan dat een klein aantal hoogwaardige gegevensbronnen effectiever is dan een groot aantal diverse gegevensbronnen, en dat moeilijke voorbeelden betere resultaten kunnen bereiken zonder nauwkeurigheidsfiltering. Daarnaast onderzoeken we twee belangrijke problemen met huidige clippingmechanismen in RL: Clipping onderdrukt kritieke verkenningssignalen en negeert suboptimale trajecten. Om deze uitdagingen aan te pakken, stellen we Gradient-Preserving Clipping Policy Optimization (GPPO) voor, dat zachtjes gradients terugpropageert van afgekapte tokens. GPPO verbetert niet alleen het verkenningsvermogen van het model, maar ook de efficiëntie bij het leren van negatieve voorbeelden. Klear-Reasoner vertoont uitzonderlijke redeneervaardigheden in wiskunde en programmeren, met scores van 90,5% op AIME 2024, 83,2% op AIME 2025, 66,0% op LiveCodeBench V5 en 58,1% op LiveCodeBench V6.
Deep-Research agents, die grote taalmodellen (LLMs) integreren met zoekgereedschappen, hebben succes getoond in het verbeteren van de effectiviteit bij het verwerken van complexe queries die iteratieve zoekplanning en redenering over zoekresultaten vereisen. Evaluaties op huidige benchmarks zoals BrowseComp, die vertrouwen op black-box live webzoek-API's, hebben aanzienlijke beperkingen in (1) eerlijkheid: dynamische en ondoorzichtige web-API's belemmeren eerlijke vergelijkingen en reproduceerbaarheid van deep-researchmethoden; (2) transparantie: het gebrek aan controle over het documentcorpus maakt het moeilijk om de bijdragen van de retriever te isoleren. Met andere woorden, de huidige evaluaties vergelijken mogelijk een compleet deep-researchsysteem op een bepaald moment, maar ze bevorderen geen goed gecontroleerde experimenten om inzicht te geven in de capaciteiten van de onderliggende deep-research-LLMs. Om deze uitdagingen aan te pakken, introduceren we BrowseComp-Plus, een benchmark afgeleid van BrowseComp, die gebruikmaakt van een vast, zorgvuldig samengesteld corpus. Elke query in BrowseComp-Plus bevat door mensen geverifieerde ondersteunende documenten en uitdagende negatieven, wat gecontroleerde experimenten mogelijk maakt. De benchmark blijkt effectief te zijn in het onderscheiden van de prestaties van deep-researchsystemen. Zo behaalt het open-sourcemodel Search-R1, wanneer gekoppeld aan de BM25-retriever, een nauwkeurigheid van 3,86%, terwijl GPT-5 een nauwkeurigheid van 55,9% bereikt. Het integreren van GPT-5 met de Qwen3-Embedding-8B-retriever verbetert de nauwkeurigheid verder tot 70,1% met minder zoekopdrachten. Deze benchmark maakt een uitgebreide evaluatie en ontrafelde analyse van deep-researchagents en retrievemethoden mogelijk, wat inzicht bevordert in de effectiviteit van retrievals, citaatnauwkeurigheid en contextengineering in Deep-Researchsystemen.
Op Large Language Models (LLM's) gebaseerde agents hebben indrukwekkende vooruitgang geboekt in redeneren en het gebruik van tools, waardoor ze complexe taken kunnen oplossen. Hun vermogen om proactief samen te werken met gebruikers, vooral wanneer doelen vaag, evoluerend of indirect geformuleerd zijn, blijft echter onderbelicht. Om deze kloof te dichten, introduceren we UserBench, een gebruikersgerichte benchmark die is ontworpen om agents te evalueren in meerdaagse, voorkeursgestuurde interacties. UserBench bevat gesimuleerde gebruikers die beginnen met ongespecificeerde doelen en hun voorkeuren geleidelijk onthullen, waardoor agents proactief intenties moeten verduidelijken en gefundeerde beslissingen moeten nemen met behulp van tools. Onze evaluatie van toonaangevende open- en closed-source LLM's toont een aanzienlijke kloof tussen taakvoltooiing en gebruikersafstemming. Zo leveren modellen antwoorden die gemiddeld slechts 20% van de tijd volledig aansluiten bij alle gebruikersintenties, en zelfs de meest geavanceerde modellen ontdekken minder dan 30% van alle gebruikersvoorkeuren via actieve interactie. Deze resultaten benadrukken de uitdagingen van het bouwen van agents die niet alleen capabele taakuitvoerders zijn, maar ook echte samenwerkingspartners. UserBench biedt een interactieve omgeving om deze cruciale capaciteit te meten en verder te ontwikkelen.
De Mixture of Experts (MoE)-architectuur is een hoeksteen van moderne state-of-the-art (SOTA) grote taalmodelen (LLM's). MoE-modellen bevorderen schaalbaarheid door het mogelijk te maken van sparse parameteractivatie. Traditionele MoE-architecturen gebruiken echter homogene experts van uniforme grootte, waarbij een vast aantal parameters wordt geactiveerd, ongeacht de complexiteit van de input, wat de computationele efficiëntie beperkt. Om deze beperking te overwinnen, introduceren we Grove MoE, een nieuwe architectuur die experts van verschillende groottes omvat, geïnspireerd door de heterogene big.LITTLE CPU-architectuur. Deze architectuur beschikt over nieuwe adjugate experts met een dynamisch activatiemechanisme, waardoor de modelcapaciteit kan worden uitgebreid terwijl het computationele overhead beheersbaar blijft. Op basis van deze architectuur presenteren we GroveMoE-Base en GroveMoE-Inst, 33B-parameter LLM's die zijn ontwikkeld door een upcyclingstrategie toe te passen op het Qwen3-30B-A3B-Base-model tijdens mid-training en post-training. GroveMoE-modellen activeren dynamisch 3,14-3,28B parameters op basis van tokencomplexiteit en bereiken prestaties die vergelijkbaar zijn met SOTA open-source modellen van vergelijkbare of zelfs grotere omvang.
Recente ontwikkelingen op het snijvlak van reinforcement learning (RL) en visuele intelligentie hebben agenten mogelijk gemaakt die niet alleen complexe visuele scènes waarnemen, maar er ook binnen redeneren, genereren en handelen. Dit overzicht biedt een kritische en actuele synthese van het vakgebied. We formaliseren eerst visuele RL-problemen en volgen de evolutie van beleidsoptimalisatiestrategieën van RLHF naar verifieerbare beloningsparadigma's, en van Proximale Beleidsoptimalisatie naar Groepsrelatieve Beleidsoptimalisatie. Vervolgens categoriseren we meer dan 200 representatieve werken in vier thematische pijlers: multimodale grote taalmodellen, visuele generatie, geünificeerde modelraamwerken en visie-taal-actie-modellen. Voor elke pijler onderzoeken we algoritmisch ontwerp, beloningsengineering, vooruitgang in benchmarks, en destilleren we trends zoals curriculum-gestuurde training, voorkeursuitgelijnde diffusie en geünificeerde beloningsmodellering. Ten slotte bespreken we evaluatieprotocollen die set-level trouw, sample-level voorkeur en state-level stabiliteit omvatten, en identificeren we open uitdagingen zoals sample-efficiëntie, generalisatie en veilige implementatie. Ons doel is om onderzoekers en praktijkmensen een coherente kaart te bieden van het snel uitdijende landschap van visuele RL en veelbelovende richtingen voor toekomstig onderzoek te belichten. Bronnen zijn beschikbaar op: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
Grote Taalmodellen (LLMs) hebben verbeterde generatieprestaties laten zien door middel van retrieval-augmented generation (RAG) volgens het retriever-reader paradigma, waarbij modelinvoer wordt aangevuld met extern opgehaalde kennis. Eerdere onderzoeken evalueren RAG echter vaak holistisch, waarbij de retriever en reader gezamenlijk worden beoordeeld, wat het moeilijk maakt om de werkelijke bijdrage van retrieval te isoleren, vooral gezien de promptgevoeligheid van LLMs die als reader worden gebruikt. Wij introduceren de Spectrum Projection Score (SPS), een lichtgewicht, toezichtsvrije metriek die de reader in staat stelt om de semantische afstemming van een opgehaalde samenvatting met zijn verborgen representatie te beoordelen door het gebied te vergelijken dat wordt gevormd door gegenereerde tokens uit de samenvatting, en de hoofdrichtingen van de deelruimte in de reader, en om de relevantie te meten. Op basis van SPS presenteren we xCompress, een raamwerk voor inferentietijdcontrole dat dynamisch samenvattingskandidaten voor retrieval bemonstert, rangschikt en comprimeert. Uitgebreide experimenten op vijf QA-benchmarks met vier open-source LLMs tonen aan dat SPS niet alleen de prestaties over een reeks taken verbetert, maar ook een principieel perspectief biedt op de interactie tussen retrieval en generatie.
Grote taalmodellen blinken uit in abstract redeneren, maar hun vermogen voor embodied agent reasoning blijft grotendeels onontgonnen. Wij presenteren OmniEAR, een uitgebreid raamwerk voor het evalueren van hoe taalmodellen redeneren over fysieke interacties, gereedschapsgebruik en multi-agentcoördinatie in embodied taken. In tegenstelling tot bestaande benchmarks die vooraf gedefinieerde gereedschapssets of expliciete samenwerkingsrichtlijnen bieden, vereist OmniEAR dat agenten dynamisch capaciteiten verwerven en autonoom coördinatiestrategieën bepalen op basis van taakeisen. Door middel van tekstgebaseerde omgevingsrepresentatie modelleren we continue fysieke eigenschappen en complexe ruimtelijke relaties in 1.500 scenario’s die huishoudelijke en industriële domeinen omvatten. Onze systematische evaluatie onthult een aanzienlijke prestatievermindering wanneer modellen moeten redeneren vanuit beperkingen: terwijl ze een succespercentage van 85-96% behalen met expliciete instructies, daalt de prestatie tot 56-85% voor gereedschapsredenering en 63-85% voor impliciete samenwerking, waarbij samengestelde taken een foutpercentage van meer dan 50% laten zien. Verrassend genoeg verslechtert volledige omgevingsinformatie de coördinatieprestaties, wat aangeeft dat modellen niet in staat zijn taakrelevante beperkingen te filteren. Fine-tuning verbetert taken voor één agent aanzienlijk (0,6% tot 76,3%), maar levert minimale verbeteringen op voor multi-agent taken (1,5% tot 5,5%), wat fundamentele architectuurbeperkingen blootlegt. Deze bevindingen tonen aan dat embodied reasoning fundamenteel andere uitdagingen met zich meebrengt dan huidige modellen kunnen aanpakken, en vestigen OmniEAR als een rigoureuze benchmark voor het evalueren en verbeteren van embodied AI-systemen. Onze code en gegevens zijn opgenomen in de aanvullende materialen en zullen worden openbaar gemaakt na acceptatie.
Self-Rewarding Language Models introduceren een architectuur waarin de Large Language Models (LLM's) zowel reacties genereren als hun eigen uitvoer evalueren via LLM-as-a-Judge prompting, waardoor hun generatieve capaciteiten dynamisch worden verbeterd door middel van iteratieve Direct Preference Optimization (DPO). Onze analyse onthult echter een kritische beperking in bestaande Self-Rewarding paradigma's: de gesynchroniseerde verbetering van gekozen en afgewezen reacties verkleint geleidelijk het representatieverschil tussen contrasterende voorbeelden, wat effectief voorkeursleren ondermijnt. Wij stellen Temporal Self-Rewarding Language Models voor, die strategisch eerdere, huidige en toekomstige modelgeneraties coördineren om leer signalen te behouden. Ons tweefasen framework introduceert: (1) Anchored Rejection - het vastzetten van afgewezen reacties met behulp van de uitvoer van het initiële model uit het verleden, en (2) Future-Guided Chosen - het dynamisch samenstellen van gekozen voorbeelden met behulp van voorspellingen van de volgende generatie modellen. Uitgebreide experimenten over drie modelfamilies (Llama, Qwen, Mistral) en verschillende modelgroottes (Llama3B/8B/70B) tonen significante verbeteringen aan wanneer getraind met onze methode in vergelijking met Self-Rewarding met dezelfde rekenbronnen. Zo bereikt Llama3.1-8B bijvoorbeeld een win rate van 29,44 op AlpacaEval 2.0 met onze methode, wat de Self-Rewarding baseline (19,69) met 9,75 overtreft. Opmerkelijk is dat onze methode ook superieure out-of-distribution generalisatie laat zien over wiskundig redeneren (GSM8K), kennisgebaseerde QA (ARC, TruthfulQA) en codegeneratie (HumanEval) taken, ook al verzamelen we dergelijke trainingsdata niet specifiek.
De Mixture-of-Experts (MoE)-architectuur is uitgegroeid tot een dominant paradigma voor het schalen van grote taalmodel(len) (LLMs). Hoewel het sterke prestaties en computationele efficiëntie biedt, vormen grote MoE-gebaseerde LLMs zoals DeepSeek-V3-0324 en Kimi-K2-Instruct serieuze uitdagingen vanwege de aanzienlijke geheugeneisen bij implementatie. Hoewel recente werken MoE-compressie hebben onderzocht om dit probleem aan te pakken, leiden bestaande methoden vaak tot aanzienlijke nauwkeurigheidsverliezen (bijv. 7-14% relatief) zelfs bij bescheiden compressiepercentages. Dit artikel introduceert een nieuwe Mixture-of-Basis-Experts (MoBE)-methode die modelcompressie bereikt met minimale nauwkeurigheidsverliezen. Specifiek wordt elke up/gate-matrix in een expert ontbonden via een rangontbinding als W = AB, waarbij matrix A uniek is voor elke expert. De relatief grotere matrix B wordt verder her-parameteriseerd als een lineaire combinatie van basismatrices {Bi} die worden gedeeld door alle experts binnen een bepaalde MoE-laag. De factorisatie wordt geleerd door de reconstructiefout ten opzichte van de originele gewichtsmatrices te minimaliseren. Experimenten tonen aan dat MoBE aanzienlijk lagere nauwkeurigheidsverliezen bereikt in vergelijking met eerdere werken. Zo kan MoBE het aantal parameters van Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) en Kimi-K2-Instruct (1T) met 24%-30% verminderen met slechts 1%-2% nauwkeurigheidsverlies (ongeveer 2% verlies wanneer relatief gemeten).
Grote redeneermodellen behalen sterke prestaties door schaling tijdens de testfase, maar veroorzaken aanzienlijke rekenkosten, met name door overmatige token-generatie bij het verwerken van korte invoerprompts. Hoewel sparse attention-mechanismen de latentie en het geheugengebruik kunnen verminderen, lijden bestaande benaderingen onder aanzienlijke nauwkeurigheidsvermindering door opgestapelde fouten tijdens langdurige redenering. Deze methoden vereisen over het algemeen ofwel hoge token-retentieratio's of kostbare hertraining. Wij introduceren LessIsMore, een trainingsvrij sparse attention-mechanisme voor redeneertaken, dat gebruikmaakt van globale aandachtspatronen in plaats van te vertrouwen op traditionele, headspecifieke lokale optimalisaties. LessIsMore aggregeert tokenselecties van lokale attention-heads met recente contextuele informatie, waardoor een uniforme cross-head token-ranking mogelijk wordt voor toekomstige decodeerlagen. Deze uniforme selectie verbetert de generalisatie en efficiëntie door de noodzaak te vermijden om afzonderlijke tokensubsets per head te onderhouden. Evaluatie over diverse redeneertaken en benchmarks toont aan dat LessIsMore de nauwkeurigheid behoudt – en in sommige gevallen zelfs verbetert – terwijl het een gemiddelde decodeersnelheidsverbetering van 1,1 keer bereikt in vergelijking met volledige aandacht. Bovendien besteedt LessIsMore aandacht aan 2 keer minder tokens zonder verlies van nauwkeurigheid, wat resulteert in een end-to-end snelheidsverbetering van 1,13 keer in vergelijking met bestaande sparse attention-methoden.
Hoewel recente flow-based beeldbewerkingsmodellen algemene mogelijkheden tonen voor diverse taken, hebben ze vaak moeite om zich te specialiseren in uitdagende scenario's – met name die waarbij grootschalige vormtransformaties betrokken zijn. Bij het uitvoeren van dergelijke structurele bewerkingen slagen deze methoden er vaak niet in de beoogde vormverandering te bereiken of veranderen ze onbedoeld niet-doelgebieden, wat resulteert in een verminderde achtergrondkwaliteit. Wij stellen Follow-Your-Shape voor, een trainingsvrij en maskervrij raamwerk dat precieze en controleerbare bewerking van objectvormen ondersteunt terwijl niet-doelinhoud strikt behouden blijft. Gemotiveerd door de divergentie tussen inversie- en bewerkingstrajecten, berekenen we een Trajectory Divergence Map (TDM) door token-wise snelheidsverschillen tussen de inversie- en denoisepaden te vergelijken. De TDM maakt een precieze lokalisatie van bewerkbare regio's mogelijk en leidt een Scheduled KV Injection-mechanisme aan dat stabiele en betrouwbare bewerking garandeert. Om een rigoureuze evaluatie mogelijk te maken, introduceren we ReShapeBench, een nieuwe benchmark bestaande uit 120 nieuwe afbeeldingen en verrijkte promptparen die specifiek zijn samengesteld voor vormbewuste bewerking. Experimenten tonen aan dat onze methode superieure bewerkbaarheid en visuele kwaliteit bereikt, vooral bij taken die grootschalige vormvervanging vereisen.
Algemene robotbeleidsmodellen die getraind zijn op grootschalige datasets zoals Open X-Embodiment (OXE) vertonen sterke prestaties bij een breed scala aan taken. Ze hebben echter vaak moeite om te generaliseren buiten de distributie van hun trainingsdata. In dit artikel onderzoeken we de onderliggende oorzaak van deze beperkte generalisatiecapaciteit. We identificeren shortcut learning – het vertrouwen op taakonrelevante kenmerken – als een belangrijk obstakel voor generalisatie. Door middel van uitgebreide theoretische en empirische analyse onthullen we twee primaire bijdragers aan shortcut learning: (1) beperkte diversiteit binnen individuele sub-datasets, en (2) significante distributieverschillen tussen sub-datasets, wat leidt tot datasetfragmentatie. Deze problemen ontstaan door de inherente structuur van grootschalige datasets zoals OXE, die typisch bestaan uit meerdere sub-datasets die onafhankelijk zijn verzameld in verschillende omgevingen en embodimenten. Onze bevindingen bieden cruciale inzichten in datasetverzamelingsstrategieën die shortcut learning kunnen verminderen en de generalisatiecapaciteit van algemene robotbeleidsmodellen kunnen verbeteren. Bovendien tonen we aan dat, in scenario's waar het verkrijgen van nieuwe grootschalige data onpraktisch is, zorgvuldig geselecteerde robotische data-augmentatiestrategieën effectief shortcut learning in bestaande offline datasets kunnen verminderen, waardoor de generalisatiecapaciteiten van algemene robotbeleidsmodellen, zoals pi_0, worden verbeterd, zowel in simulatie als in real-world omgevingen. Meer informatie is te vinden op https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
Classificatie is een van de meest voorkomende taken in AI-toepassingen en dient vaak als de eerste stap bij het filteren, sorteren en categoriseren van gegevens. Omdat moderne AI-systemen grote hoeveelheden invoergegevens moeten verwerken en vroege fasen in de pipeline fouten kunnen doorgeven naar latere stappen, is het bereiken van hoge efficiëntie en nauwkeurigheid cruciaal. Bovendien kunnen classificatie-eisen dynamisch veranderen op basis van gebruikersbehoeften, wat modellen vereist met sterke zero-shot-mogelijkheden. Hoewel generatieve LLM's mainstream zijn geworden voor zero-shot-classificatie vanwege hun veelzijdigheid, lijden ze onder inconsistente instructievolging en computationele inefficiëntie. Cross-encoders, die vaak worden gebruikt als herrangschikkers in RAG-pipelines, kampen met een ander knelpunt: ze moeten tekst-label-paren sequentieel verwerken, wat de efficiëntie aanzienlijk vermindert bij grote labelsets. Embedding-gebaseerde benaderingen bieden goede efficiëntie, maar worstelen met complexe scenario's die logische en semantische beperkingen omvatten. Wij stellen GLiClass voor, een nieuwe methode die de GLiNER-architectuur aanpast voor sequentieclassificatietaken. Onze aanpak bereikt een sterke nauwkeurigheid en efficiëntie die vergelijkbaar is met embedding-gebaseerde methoden, terwijl de flexibiliteit behouden blijft die nodig is voor zero-shot en few-shot leeromstandigheden. Daarnaast hebben we proximal policy optimization (PPO) aangepast voor multi-label tekstclassificatie, waardoor het mogelijk wordt om classificatoren te trainen onder omstandigheden met weinig gegevens of op basis van menselijke feedback.
Het merendeel van de organisatiegegevens in de wereld wordt opgeslagen als documenten, en visuele retrieval speelt een cruciale rol bij het ontsluiten van de collectieve intelligentie uit al deze documenten. Bestaande benchmarks richten zich echter alleen op documentretrieval in het Engels of beschouwen alleen meertalige vraag-antwoordtaken op afbeeldingen van één pagina. Om deze kloof te overbruggen, introduceren we VisR-Bench, een meertalige benchmark die is ontworpen voor vraaggestuurde multimodale retrieval in lange documenten. Onze benchmark omvat meer dan 35K hoogwaardige vraag-antwoordparen verspreid over 1.2K documenten, waardoor een gedetailleerde evaluatie van multimodale retrieval mogelijk is. VisR-Bench beslaat zestien talen met drie vraagtypen (figuren, tekst en tabellen), wat een diverse linguïstische en vraagdekking biedt. In tegenstelling tot eerdere datasets, nemen we queries op zonder expliciete antwoorden, waardoor modellen niet kunnen vertrouwen op oppervlakkige trefwoordherkenning. We evalueren verschillende retrievalmodellen, waaronder tekstgebaseerde methoden, multimodale encoders en MLLM's, en bieden inzicht in hun sterke en zwakke punten. Onze resultaten tonen aan dat hoewel MLLM's tekstgebaseerde en multimodale encodermodellen aanzienlijk overtreffen, ze nog steeds moeite hebben met gestructureerde tabellen en talen met weinig bronnen, wat belangrijke uitdagingen in meertalige visuele retrieval benadrukt.
Large Language Models (LLMs) die gebruikmaken van Chain-of-Thought (CoT) prompting blinken uit in complex redeneren, maar genereren uitgebreide denkprocessen met aanzienlijke redundantie, wat leidt tot hogere inferentiekosten en verminderde efficiëntie. Wij introduceren een nieuw CoT-compressiekader gebaseerd op stapentropie, een metriek die de informatieve bijdrage van individuele redeneerstappen kwantificeert om redundantie te identificeren. Door theoretische analyse en uitgebreide empirische validatie op wiskundige redeneerbenchmarks tonen we aan dat stappen met lage entropie inderdaad sterk redundant zijn. Onze experimenten laten zien dat een verbazingwekkende 80% van de tussenliggende stappen met lage entropie kan worden weggelaten met slechts minimale verslechtering in de nauwkeurigheid van het eindantwoord voor DeepSeek-R1-7B, 14B en Qwen3-8B. Dit resultaat staat in scherp contrast met willekeurige of hoge-entropie pruning, wat de redeneerprestaties ernstig aantast. Hierop voortbouwend stellen we een nieuwe tweefasige trainingsstrategie voor die Supervised Fine-Tuning (SFT) combineert met Group Relative Policy Optimization (GRPO) reinforcement learning. Deze aanpak stelt LLMs in staat om autonoom te leren om gecomprimeerde COTs te genereren tijdens inferentie door strategisch [SKIP]-tokens te incorporeren. Onze methode verbetert de inferentie-efficiëntie van LLMs aanzienlijk terwijl de nauwkeurigheid strikt behouden blijft, wat diepgaande implicaties heeft voor de praktische inzet van LLMs en een beter begrip van redeneerstructuren.
Er is een groeiende interesse in het integreren van hoogwaardige visuele synthese mogelijkheden in grote taalmodellen (LLMs) zonder hun sterke redeneervermogen aan te tasten. Bestaande methoden die LLMs direct trainen of LLMs en diffusiemodellen met elkaar verbinden, kampen meestal met kostbare training omdat de backbone LLMs tijdens de pretraining geen beeldrepresentaties hebben gezien. Wij presenteren Bifrost-1, een uniform raamwerk dat gepretrainde multimodale LLMs (MLLMs) en diffusiemodellen met elkaar verbindt door patch-level CLIP-beeldembeddingen te gebruiken als latente variabelen, die van nature zijn afgestemd op de CLIP-visuele encoder van de MLLM. Deze patch-level beeldembeddingen worden geïntegreerd in het diffusiemodel met een lichtgewicht aanpassing van zijn ControlNet. Om de oorspronkelijke multimodale redeneervermogen van MLLMs te behouden, rusten we de MLLM uit met een visuele generatie tak die is geïnitialiseerd vanuit de oorspronkelijke MLLM-parameters bij het voorspellen van de patch-level beeldembeddingen. Door gepretrainde MLLMs en diffusiemodellen naadloos te integreren met patch-level CLIP-latenten, maakt ons raamwerk hoogwaardige, controleerbare beeldgeneratie mogelijk met aanzienlijke trainings efficiëntie. Onze experimenten tonen aan dat Bifrost-1 vergelijkbare of betere prestaties levert dan eerdere methoden wat betreft visuele kwaliteit en multimodaal begrip, met aanzienlijk minder rekenkracht tijdens de training. Wij bieden ook uitgebreide ablatiestudies die de effectiviteit van onze ontwerpkeuzes aantonen.
Open-weight AI-systemen bieden unieke voordelen, waaronder verbeterde transparantie, open onderzoek en gedecentraliseerde toegang. Ze zijn echter kwetsbaar voor manipulatie-aanvallen die efficiënt schadelijk gedrag kunnen uitlokken door gewichten of activeringen aan te passen. Momenteel ontbreekt er nog een robuuste wetenschap van risicobeheer voor open-weight modellen. Bestaande methoden voor veiligheidsfine-tuning en andere post-trainings technieken hebben moeite gehad om LLM's bestand te maken tegen meer dan enkele tientallen stappen van adversariële fine-tuning. In dit artikel onderzoeken we of het filteren van tekst over dual-use onderwerpen uit trainingsdata ongewenste capaciteiten kan voorkomen en kan dienen als een meer manipulatiebestendige beveiliging. We introduceren een meerfasenpijplijn voor schaalbare datafiltering en tonen aan dat dit een uitvoerbare en effectieve methode biedt om biothreat-proxykennis in LLM's te minimaliseren. We pretrainen meerdere 6,9B-parameter modellen vanaf nul en constateren dat ze aanzienlijke weerstand vertonen tegen adversariële fine-tuning aanvallen tot 10.000 stappen en 300M tokens van biothreat-gerelateerde tekst – wat bestaande post-trainingsbenchmarks met meer dan een orde van grootte overtreft – zonder waarneembare achteruitgang in niet-gerelateerde capaciteiten. Hoewel gefilterde modellen geen geïnternaliseerde gevaarlijke kennis bevatten, ontdekken we dat ze dergelijke informatie nog steeds kunnen benutten wanneer deze in context wordt aangeboden (bijvoorbeeld via zoektoolaugmentatie), wat de noodzaak aantoont van een diepgaande verdedigingsaanpak. Over het algemeen helpen deze bevindingen om pretrainingsdatacuratie te vestigen als een veelbelovende verdedigingslaag voor open-weight AI-systemen.
Velen hebben opgemerkt dat de ontwikkeling en implementatie van generatieve machine learning (ML) en kunstmatige intelligentie (AI) modellen een kenmerkend patroon volgen, waarbij vooraf getrainde modellen worden aangepast en verfijnd voor specifieke downstream taken. Er is echter beperkt empirisch onderzoek dat de structuur van deze interacties onderzoekt. Dit artikel analyseert 1,86 miljoen modellen op Hugging Face, een toonaangevend peerproductieplatform voor modelontwikkeling. Onze studie van modelstambomen — netwerken die verfijnde modellen verbinden met hun basis- of ouder-model — onthult uitgebreide verfijningslijnen die sterk variëren in omvang en structuur. Door een evolutionair-biologische lens te gebruiken om ML-modellen te bestuderen, gebruiken we modelmetadata en modelkaarten om de genetische gelijkenis en mutatie van eigenschappen over modelfamilies te meten. We ontdekken dat modellen de neiging hebben om een familiegelijkenis te vertonen, wat betekent dat hun genetische markers en eigenschappen meer overlap vertonen wanneer ze tot dezelfde modelfamilie behoren. Deze overeenkomsten wijken echter op bepaalde manieren af van standaardmodellen van aseksuele reproductie, omdat mutaties snel en gericht zijn, waardoor twee 'broer-zus'-modellen de neiging hebben om meer gelijkenis te vertonen dan ouder/kind-paren. Verdere analyse van de directionele verschuivingen van deze mutaties onthult kwalitatieve inzichten over het open machine learning-ecosysteem: Licenties verschuiven tegen de intuïtie in van restrictieve, commerciële licenties naar permissieve of copyleft-licenties, vaak in strijd met de voorwaarden van upstream-licenties; modellen evolueren van meertalige compatibiliteit naar alleen-Engelse compatibiliteit; en modelkaarten worden korter en gestandaardiseerd door vaker gebruik te maken van sjablonen en automatisch gegenereerde tekst. Over het algemeen zet dit werk een stap in de richting van een empirisch onderbouwd begrip van modelverfijning en suggereert het dat ecologische modellen en methoden nieuwe wetenschappelijke inzichten kunnen opleveren.
State-of-the-art factcheckingsystemen bestrijden desinformatie op grote schaal door autonome, op grote taalmodelen (LLM) gebaseerde agents in te zetten om complexe beweringen te ontleden in kleinere sub-beweringen, elke sub-bewering afzonderlijk te verifiëren, en de gedeeltelijke resultaten samen te voegen om uitspraken te produceren met rechtvaardigingen (verklarende redeneringen voor de uitspraken). De beveiliging van deze systemen is cruciaal, omdat gecompromitteerde factcheckers, die vaak gemakkelijk over het hoofd worden gezien, desinformatie kunnen versterken. Dit werk introduceert Fact2Fiction, het eerste vergiftigingsaanvalsframework dat zich richt op dergelijke agent-gebaseerde factcheckingsystemen. Fact2Fiction spiegelt de ontleedstrategie en maakt gebruik van door het systeem gegenereerde rechtvaardigingen om op maat gemaakte kwaadaardige bewijzen te creëren die de verificatie van sub-beweringen compromitteren. Uitgebreide experimenten tonen aan dat Fact2Fiction 8,9\%--21,2\% hogere aanvalssuccespercentages behaalt dan state-of-the-art aanvallen bij verschillende vergiftigingsbudgetten. Fact2Fiction legt beveiligingszwakheden bloot in huidige factcheckingsystemen en benadrukt de noodzaak van defensieve tegenmaatregelen.
Het omzetten van gesproken wiskundige uitdrukkingen is een uitdagende taak die het transcriberen van spraak naar een strikt gestructureerde symbolische representatie omvat, terwijl de ambiguïteit die inherent is aan de uitspraak van vergelijkingen wordt aangepakt. Hoewel aanzienlijke vooruitgang is geboekt in automatische spraakherkenning (ASR) en taalmodelmodellen (LM), blijft het probleem van het omzetten van gesproken wiskunde naar LaTeX onderbelicht. Deze taak is direct toepasbaar in educatieve en onderzoeksdomeinen, zoals het transcriberen van colleges of het maken van notities. Op basis van ASR-postcorrectie vereist eerder werk 2 transcripties, richt het zich alleen op geïsoleerde vergelijkingen, heeft het een beperkte testset en biedt het noch trainingsdata noch meertalige dekking. Om deze problemen aan te pakken, presenteren we de eerste volledig open-source grootschalige dataset, bestaande uit meer dan 66.000 door mensen geannoteerde audiofragmenten van wiskundige vergelijkingen en zinnen in zowel het Engels als het Russisch, afkomstig uit diverse wetenschappelijke domeinen. Naast de ASR-postcorrectiemodellen en few-shot prompting passen we audiotaalmodellen toe, die vergelijkbare resultaten voor de karakterfoutratio (CER) laten zien op de MathSpeech-benchmark (28% vs. 30%) voor het omzetten van vergelijkingen. Daarentegen presteren onze modellen op de voorgestelde S2L-vergelijkingen-benchmark aanzienlijk beter dan het MathSpeech-model met een marge van meer dan 40 procentpunten, zelfs na correctie voor LaTeX-opmaakartefacten (27% vs. 64%). We stellen de eerste benchmark in voor het herkennen van wiskundige zinnen (S2L-zinnen) en behalen een CER van 40% voor vergelijkingen. Dit werk legt de basis voor toekomstige vooruitgang in multimodale AI, met een specifieke focus op het herkennen van wiskundige inhoud.
Naarmate grote taalmodellen steeds meer geïntegreerd raken in het dagelijks leven, is audio naar voren gekomen als een belangrijke interface voor mens-AI-interactie. Deze gemakken brengen echter ook nieuwe kwetsbaarheden met zich mee, waardoor audio een potentieel aanvalsoppervlak wordt voor tegenstanders. Ons onderzoek introduceert WhisperInject, een tweestaps raamwerk voor adversariële audio-aanvallen dat state-of-the-art audiotalmodellen kan manipuleren om schadelijke inhoud te genereren. Onze methode maakt gebruik van onmerkbare verstoringen in audio-inputs die voor menselijke luisteraars onschadelijk blijven. De eerste fase gebruikt een nieuwe beloningsgebaseerde optimalisatiemethode, Reinforcement Learning with Projected Gradient Descent (RL-PGD), om het doelmodel te begeleiden om zijn eigen veiligheidsprotocollen te omzeilen en schadelijke native reacties te genereren. Deze native schadelijke reactie dient vervolgens als doel voor Fase 2, Payload Injection, waar we Projected Gradient Descent (PGD) gebruiken om subtiele verstoringen te optimaliseren die zijn ingebed in onschadelijke audiocarriers, zoals weersvragen of begroetingsberichten. Getoetst onder het rigoureuze StrongREJECT, LlamaGuard, evenals het Human Evaluation veiligheidsevaluatieraamwerk, tonen onze experimenten een slagingspercentage van meer dan 86% over Qwen2.5-Omni-3B, Qwen2.5-Omni-7B en Phi-4-Multimodal. Ons werk toont een nieuwe klasse van praktische, audio-native bedreigingen, die verder gaan dan theoretische exploits en een haalbare en verborgen methode onthullen om AI-gedrag te manipuleren.
Het evalueren van AI-agenten binnen complexe, interactieve omgevingen die real-world uitdagingen weerspiegelen, is cruciaal om hun praktische capaciteiten te begrijpen. Hoewel bestaande benchmarks voor agenten effectief vaardigheden zoals gereedschapsgebruik of prestaties op gestructureerde taken beoordelen, vangen ze vaak niet volledig het vermogen van een agent om autonoom te opereren in verkennende omgevingen die langdurig, zelfgestuurd redeneren vereisen over een lange en groeiende context. Om de ontwikkeling van agenten te stimuleren die in staat zijn tot robuuster intrinsiek redeneren over lange tijdsperioden, introduceren we TextQuests, een benchmark gebaseerd op de Infocom-suite van interactieve fictie-spellen. Deze tekstgebaseerde avonturen, die menselijke spelers meer dan 30 uur kunnen kosten en honderden precieze acties vereisen om op te lossen, dienen als een effectieve proxy voor het evalueren van AI-agenten op gerichte, toestandsgevoelige taken. De benchmark is specifiek ontworpen om het vermogen van een LLM-agent tot zelfstandig probleemoplossen te beoordelen door het gebruik van externe hulpmiddelen uit te sluiten, waardoor de focus ligt op intrinsieke langetermijn-redeneervaardigheden in een verkennende omgeving die wordt gekenmerkt door de noodzaak van trial-and-error leren en langdurig probleemoplossen binnen een enkele interactieve sessie. We maken TextQuests beschikbaar op https://textquests.ai.