Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate post-trainingoptimalisatie een centrale rol krijgt bij het verbeteren van grote taalmodel(len), observeren we een hardnekkig saturatieknelpunt: zodra modellen een hoge zekerheid bereiken, leidt verdere training tot afnemende meeropbrengsten. Terwijl bestaande methoden doelvoorspellingen blijven versterken, ontdekken we dat informatieve supervisiesignalen latent aanwezig blijven in de historische zwakke toestanden van de modellen zelf. Gemotiveerd door deze observatie stellen we WMSS voor (Weak Agents Can Make Strong Agents Stronger), een post-trainingparadigma dat zwakke checkpoints benut om de voortgezette optimalisatie te sturen. Door herstelbare leerachterstanden te identificeren via entropiedynamiek en deze te versterken via compensatoir leren, stelt WMSS sterke agents in staat om verder te verbeteren dan conventionele post-trainingssaturatie toelaat. Experimenten op wiskundig redeneren en codegeneratiedatasets tonen aan dat agents getraind met onze aanpak effectieve prestatieverbeteringen bereiken, zonder extra inferentiekosten.
Het uitvoeren van complexe terminaltaken blijft een grote uitdaging voor open-weight LLM's, beperkt door twee fundamentele tekortkomingen. Ten eerste zijn hoogwaardige, uitvoerbare trainingsomgevingen schaars: omgevingen gesynthetiseerd uit real-world repositories zijn niet divers en schaalbaar, terwijl trajecten gesynthetiseerd door LLM's lijden onder hallucinaties. Ten tweede gebruikt standaard instruction tuning expert-trajecten die zelden de eenvoudige fouten vertonen die veelvoorkomend zijn bij kleinere modellen. Dit creëert een distributionele mismatch, waardoor studentmodellen niet toegerust zijn om te herstellen van hun eigen runtime-fouten. Om deze kloof te overbruggen, introduceren we TermiGen, een end-to-end pijplijn voor het synthetiseren van verifieerbare omgevingen en veerkrachtige expert-trajecten. TermiGen genereert eerst functioneel valide taken en Docker-containers via een iteratieve multi-agent verfijningslus. Vervolgens gebruiken we een Generator-Critic-protocol dat actief fouten injecteert tijdens trajectverzameling, waardoor data wordt gesynthetiseerd die rijk is aan foutcorrectiecycli. Gefinetuned op deze door TermiGen gegenereerde dataset, behaalt onze TermiGen-Qwen2.5-Coder-32B een slaagpercentage van 31,3% op TerminalBench. Dit vestigt een nieuwe state-of-the-art voor open-weights modellen, presteert beter dan bestaande baseline-modellen en overtreft zelfs capabele propriëtaire modellen zoals o4-mini. De dataset is beschikbaar op https://github.com/ucsb-mlsec/terminal-bench-env.
Financiële markten zijn luidruchtig en niet-stationair, waardoor alfa-mining zeer gevoelig is voor ruis in backtestresultaten en plotselinge verschuivingen in marktregimes. Hoewel recente agent-gebaseerde kaders de automatisering van alfa-mining verbeteren, ontbreekt het hen vaak aan controleerbare meerronde zoekopdrachten en betrouwbaar hergebruik van gevalideerde ervaring. Om deze uitdagingen aan te pakken, stellen we QuantaAlpha voor, een evolutionair alfa-miningframework dat elke end-to-end miningrun behandelt als een traject en factoren verbetert via mutatie- en crossoveroperaties op trajektniveau. QuantaAlpha lokaliseert suboptimale stappen in elk traject voor gerichte revisie en combineert complementaire segmenten met hoge beloning opnieuw om effectieve patronen te hergebruiken, wat gestructureerde verkenning en verfijning over miningiteraties mogelijk maakt. Tijdens factorgeneratie handhaaft QuantaAlpha semantische consistentie tussen de hypothese, factoruitdrukking en uitvoerbare code, terwijl de complexiteit en redundantie van de gegenereerde factor wordt beperkt om crowding tegen te gaan. Uitgebreide experimenten op de China Securities Index 300 (CSI 300) tonen consistente winsten aan ten opzichte van sterke basismodellen en eerdere agent-systemen. Bij gebruik van GPT-5.2 bereikt QuantaAlpha een Information Coefficient (IC) van 0,1501, met een geannualiseerd rendement (ARR) van 27,75% en een maximale daling (MDD) van 7,98%. Bovendien transfereren factoren die op de CSI 300 zijn gemined effectief naar de China Securities Index 500 (CSI 500) en de Standard & Poor's 500 Index (S&P 500), met een cumulatief excessief rendement over vier jaar van respectievelijk 160% en 137%, wat duidt op een sterke robuustheid van QuantaAlpha onder verschuivingen in marktdistributies.
Audio is onmisbaar voor video in de praktijk, maar generatieve modellen hebben audiocomponenten grotendeels over het hoofd gezien. Huidige benaderingen voor het produceren van audiovisuele inhoud zijn vaak gebaseerd op cascade-pipelines, wat de kosten verhoogt, fouten cumuleert en de algehele kwaliteit aantast. Hoewel systemen zoals Veo 3 en Sora 2 de waarde van simultane generatie benadrukken, brengt gezamenlijke multimodale modellering unieke uitdagingen met zich mee op het gebied van architectuur, data en training. Bovendien beperkt de gesloten aard van bestaande systemen de vooruitgang in het veld. In dit werk introduceren we MOVA (MOSS Video and Audio), een open-source model dat in staat is tot het genereren van hoogwaardige, gesynchroniseerde audiovisuele inhoud, waaronder realistische lipgesynchroniseerde spraak, omgevingsbewuste geluidseffecten en inhoudsafgestemde muziek. MOVA maakt gebruik van een Mixture-of-Experts (MoE)-architectuur, met in totaal 32B parameters, waarvan 18B actief zijn tijdens inferentie. Het ondersteunt de IT2VA (Image-Text to Video-Audio) generatietaak. Door de modelgewichten en code vrij te geven, streven we ernaar onderzoek te bevorderen en een levendige gemeenschap van makers te stimuleren. De vrijgegeven codebase biedt uitgebreide ondersteuning voor efficiënte inferentie, LoRA fine-tuning en promptverbetering.
Ondanks het succes van multimodale contrastieve leermethoden bij het afstemmen van visuele en linguïstische representaties, blijft een hardnekkige geometrische anomalie bestaan: de Modality Gap. Embeddings van verschillende modaliteiten die identieke semantiek uitdrukken, bevinden zich in systematisch verschoven regio's. Eerdere benaderingen om deze kloof te overbruggen, worden grotendeels beperkt door oversimplistische isotrope aannames, wat hun toepassing in grootschalige scenario's belemmert. In dit artikel gaan we deze beperkingen te lijf door de geometrische vorm van de modality gap precies te karakteriseren en deze te benutten voor efficiënte modelschaling. Ten eerste stellen we de Fixed-frame Modality Gap Theorie voor, die de modality gap binnen een bevroren referentiekader ontbindt in stabiele biases en anisotrope residuen. Geleid door deze precieze modellering introduceren we ReAlign, een trainingsvrije strategie voor modality-alignment. ReAlign gebruikt statistieken uit enorme hoeveelheden ongepaarde data om tekstrepresentaties af te stemmen op de distributie van beeldrepresentaties via een drie-stappen proces bestaande uit Anchor, Trace en Centroid Alignment, waardoor de geometrische misalignering expliciet wordt gecorrigeerd. Voortbouwend op ReAlign stellen we ReVision voor, een schaalbaar trainingsparadigma voor Multimodale Large Language Models (MLLMs). ReVision integreert ReAlign in de pre-trainingsfase, waardoor het model de distributie van visuele representaties kan leren uit ongepaarde tekst vóór visuele instruction tuning, zonder afhankelijk te zijn van grootschalige, hoogwaardige beeld-tekst paren. Ons framework toont aan dat statistisch gealigneerde ongepaarde data effectief de dure beeld-tekst paren kunnen vervangen, wat een robuust pad biedt voor de efficiënte schaling van MLLMs.
LLM-agents (Large Language Model agents) bieden aanzienlijke mogelijkheden om wetenschappelijk onderzoek vooruit te helpen. Om deze vooruitgang te versnellen, introduceren we AIRS-Bench (de AI Research Science Benchmark), een reeks van 20 taken afkomstig uit state-of-the-art machine learning-artikelen. Deze taken beslaan diverse domeinen, waaronder taalmodellering, wiskunde, bio-informatica en tijdreeksvoorspelling. De taken in AIRS-Bench beoordelen de capaciteiten van agents over de volledige onderzoekslevenscyclus – inclusief idee-generatie, experimentanalyse en iteratieve verfijning – zonder baselinecode aan te reiken. Het AIRS-Bench taakformaat is veelzijdig, waardoor eenvoudige integratie van nieuwe taken en rigoureuze vergelijking tussen verschillende agent-frameworks mogelijk is. We stellen baselineprestaties vast met behulp van geavanceerde modellen in combinatie met zowel sequentiële als parallelle scaffolds. Onze resultaten tonen aan dat agents in vier taken de menselijke state-of-the-art overtreffen, maar er in zestien andere taken niet in slagen deze te evenaren. Zelfs wanneer agents menselijke benchmarks overstijgen, halen ze niet het theoretische prestatieplafond voor de onderliggende taken. Deze bevindingen geven aan dat AIRS-Bench ver van verzadigd is en aanzienlijke ruimte voor verbetering biedt. We maken de AIRS-Bench taakdefinities en evaluatiecode open source om verdere ontwikkeling in autonoom wetenschappelijk onderzoek te katalyseren.
Wij introduceren InternAgent-1.5, een geïntegreerd systeem ontworpen voor end-to-end wetenschappelijke ontdekkingen in zowel computationele als empirische domeinen. Het systeem is gebouwd op een gestructureerde architectuur bestaande uit drie gecoördineerde subsystemen voor generatie, verificatie en evolutie. Deze subsystemen worden ondersteund door fundamentele capaciteiten voor diepgaand onderzoek, oplossingsoptimalisatie en langetermijngeheugen. De architectuur stelt InternAgent-1.5 in staat continu te opereren over uitgebreide ontdekkingscycli, waarbij coherent en verbeterend gedrag wordt behouden. Het stelt het systeem ook in staat computationele modellering en laboratoriumexperimenten te coördineren binnen één geïntegreerd systeem. Wij evalueren InternAgent-1.5 op wetenschappelijke redeneerbenchmarks zoals GAIA, HLE, GPQA en FrontierScience, waarbij het systeem toonaangevende prestaties bereikt die sterke fundamentele capaciteiten aantonen. Naast deze benchmarks beoordelen we verder twee categorieën van ontdekkingstaken. In algoritme-ontdekkingstaken ontwerpt InternAgent-1.5 autonoom competitieve methoden voor kernproblemen in machinaal leren. In empirische ontdekkingstaken voert het complete computationele of natte-labexperimenten uit en produceert het wetenschappelijke bevindingen in aardse, levens-, biologische en fysische domeinen. Over het geheel genomen tonen deze resultaten aan dat InternAgent-1.5 een algemeen en schaalbaar kader biedt voor autonome wetenschappelijke ontdekking.
Huidige Vision-Language-Action (VLA)-modellen vertrouwen op een vaste computationele diepte, waarbij ze dezelfde rekenkracht inzetten voor zowel eenvoudige aanpassingen als complexe, meerstaps manipulaties. Hoewel Chain-of-Thought (CoT)-prompting variabele rekenkracht mogelijk maakt, schaalt het het geheugengebruik lineair en is het ongeschikt voor continue actieruimten. Wij introduceren Recurrent-Depth VLA (RD-VLA), een architectuur die computationele adaptiviteit bereikt via latente iteratieve verfijning in plaats van expliciete token-generatie. RD-VLA gebruikt een recurrent, gewichtsgebonden actiehoofd dat willekeurige inferentiediepte ondersteunt met een constant geheugenverbruik. Het model wordt getraind met *truncated backpropagation through time* (TBPTT) om het verfijningsproces efficiënt te superviseren. Tijdens inferentie wijst RD-VLA rekenkracht dynamisch toe met behulp van een adaptief stopcriterium gebaseerd op latente convergentie. Experimenten met uitdagende manipulatietaken tonen aan dat recurrentie diepte cruciaal is: taken die volledig falen (0% succes) bij inferentie met één iteratie behalen meer dan 90% succes na vier iteraties, terwijl eenvoudigere taken snel verzadigen. RD-VLA biedt een schaalbaar pad naar *test-time compute* in de robotica, door op tokens gebaseerd redeneren te vervangen door latent redeneren, wat resulteert in constant geheugengebruik en een versnelling van de inferentie tot 80x ten opzichte van eerdere op redeneren gebaseerde VLA-modellen. Projectpagina: https://rd-vla.github.io/
Hoewel LLaDA2.0 het schaalpotentieel van 100B-niveau block-diffusiemodellen en hun inherente parallelisatie demonstreerde, is het delicate evenwicht tussen decodersnelheid en generatiekwaliteit een ongrijpbare grens gebleven. Vandaag onthullen we LLaDA2.1, een paradigmaverschuiving ontworpen om deze afweging te overstijgen. Door Token-to-Token (T2T)-bewerking naadloos te verweven in het conventionele Mask-to-Token (M2T)-schema, introduceren we een gezamenlijk, configureerbaar drempeldecoderingsschema. Deze structurele innovatie geeft aanleiding tot twee verschillende persona's: de Snelheidsmodus (S-modus), die onverschrokken de M2T-drempel verlaagt om traditionele beperkingen te omzeilen terwijl hij vertrouwt op T2T om de output te verfijnen; en de Kwaliteitsmodus (Q-modus), die vertrouwt op conservatieve drempels om superieure benchmarkprestaties te waarborgen met een beheersbaar efficiëntieverlies. Voortbouwend op deze evolutie, ondersteund door een uitgebreid contextvenster, implementeren we het eerste grootschalige Reinforcement Learning (RL)-raamwerk specifiek toegesneden op dLLM's, verankerd door gespecialiseerde technieken voor stabiele gradiëntschatting. Deze afstemming scherpt niet alleen de redeneernauwkeurigheid aan, maar verhoogt ook de nauwgezetheid van instructieopvolging, waardoor de kloof tussen diffusiedynamiek en complexe menselijke intentie wordt overbrugd. We sluiten dit werk af met de release van LLaDA2.1-Mini (16B) en LLaDA2.1-Flash (100B). Over 33 rigoureuze benchmarks heen levert LLaDA2.1 sterke taakprestaties en bliksemsnelle decodersnelheid. Ondanks zijn 100B-volume behaalt het op codeertaken een verbijsterende 892 TPS op HumanEval+, 801 TPS op BigCodeBench en 663 TPS op LiveCodeBench.
Online beleidsleren rechtstreeks in de fysieke wereld is een veelbelovende maar uitdagende richting voor belichaamde intelligentie. In tegenstelling tot simulatie kunnen real-world systemen niet willekeurig worden versneld, goedkoop worden gereset of massaal worden gerepliceerd, wat schaalbare gegevensverzameling, heterogene implementatie en effectieve training op lange termijn bemoeilijkt. Deze uitdagingen suggereren dat real-world beleidsleren niet alleen een algoritmisch probleem is, maar fundamenteel een systeemprobleem. Wij presenteren USER, een Unified en eXtensible SystEem voor Real-world online beleidsleren. USER behandelt fysieke robots als eersteklas hardwarebronnen naast GPU's via een uniforme hardware-abstractielaag, waardoor automatische detectie, beheer en planning van heterogene robots mogelijk wordt. Om cloud-edge communicatie aan te pakken, introduceert USER een adaptief communicatievlak met tunneling-gebaseerde netwerken, gedistribueerde datakanalen voor verkeerslokalisatie en streaming-multiprocessor-aware gewichtssynchronisatie om GPU-gerelateerde overhead te reguleren. Bovenop deze infrastructuur organiseert USER het leren als een volledig asynchroon framework met een persistent, cache-aware buffer, waardoor efficiënte experimenten op lange termijn mogelijk zijn met robuuste crash-herstel en hergebruik van historische gegevens. Bovendien biedt USER uitbreidbare abstracties voor beloningen, algoritmen en beleid, die online imitatie- of reinforcement learning van CNN/MLP, generatieve beleiden en grote vision-language-action (VLA) modellen ondersteunt binnen een uniforme pijplijn. Resultaten in zowel simulatie als de echte wereld tonen aan dat USER multi-robotcoördinatie, heterogene manipulatoren, edge-cloud samenwerking met grote modellen en langlopende asynchrone training mogelijk maakt, en zo een uniforme en uitbreidbare systeemfundering biedt voor real-world online beleidsleren.
De convergentie van kunstmatige intelligentie en materiaalkunde biedt een transformerende kans, maar het bereiken van een echte versnelling in ontdekking vereist een verschuiving van taak-geïsoleerde, fijn afgestemde modellen naar agent-gebaseerde systemen die plannen, handelen en leren binnen de volledige ontdekkingscyclus. Dit overzichtsartikel presenteert een unieke, pijplijn-gecentreerde visie die zich uitstrekt van corpuscuratie en pre-training, via domeinaanpassing en instructie-afstemming, tot doel-gestuurde agents die interfacen met simulatie- en experimentele platforms. In tegenstelling tot eerdere overzichten, behandelen wij het gehele proces als een end-to-end systeem dat geoptimaliseerd moet worden voor tastbare ontdekkingsresultaten in plaats van voor proxy-prestatie-indicatoren. Dit perspectief stelt ons in staat om te traceren hoe upstream ontwerpkeuzes – zoals datacuratie en trainingsdoelstellingen – kunnen worden afgestemd op downstream experimenteel succes door effectieve toerekening van resultaten. Om gemeenschappen te verbinden en een gedeeld referentiekader te vestigen, presenteren wij eerst een geïntegreerde lens die terminologie, evaluatie en workflowfasen tussen AI en materiaalkunde op één lijn brengt. Vervolgens analyseren wij het vakgebied door twee gerichte lenzen: Vanuit het AI-perspectief detailleren de sterke punten van LLM's in patroonherkenning, voorspellende analyses en natuurlijke taalverwerking voor literatuurmining, materiaalkarakterisering en eigenschapvoorspelling; vanuit het materiaalkundeperspectief belicht het toepassingen in materiaalontwerp, procesoptimalisatie en de versnelling van computationele workflows via integratie met externe tools (bijv. DFT, robotlabs). Ten slotte contrasteren wij passieve, reactieve benaderingen met agent-gebaseerd ontwerp, waarbij we huidige bijdragen inventariseren en tegelijkertijd systemen motiveren die langetermijndoelen nastreven met autonomie, geheugen en toolgebruik. Dit overzichtsartikel schetst een praktische routekaart naar autonome, veiligheidsbewuste LLM-agents die gericht zijn op het ontdekken van nieuwe en bruikbare materialen.
Het inzetten van GRPO op Flow Matching-modellen is effectief gebleken voor tekst-naar-beeldgeneratie. Bestaande paradigma's propageren echter typisch een op uitkomsten gebaseerde beloning naar alle voorgaande denoiseringsstappen zonder onderscheid te maken tussen het lokale effect van elke stap. Bovendien vergelijkt de huidige groepsgewijze rangschikking voornamelijk trajecten op overeenkomende tijdstappen en negeert het afhankelijkheden binnen trajecten, waarbij bepaalde vroege denoiseringsacties latere toestanden kunnen beïnvloeden via vertraagde, impliciete interacties. Wij stellen TurningPoint-GRPO (TP-GRPO) voor, een GRPO-raamwerk dat stapsgewijze beloningssparsiteit vermindert en expliciet langetermijneffecten binnen het denoiseringstraject modelleert. TP-GRPO introduceert twee belangrijke innovaties: (i) het vervangt op uitkomsten gebaseerde beloningen door incrementele beloningen op stapniveau, wat een dicht, stapbewust leersignaal oplevert dat het "pure" effect van elke denoiseringsactie beter isoleert, en (ii) het identificeert keerpunten—stappen die de lokale beloningstrend omkeren en de daaropvolgende beloningsevolutie consistent maken met de algehele trajecttrend—en kent aan deze acties een geaggregeerde langetermijnbeloning toe om hun vertraagde impact vast te leggen. Keerpunten worden uitsluitend gedetecteerd via tekenveranderingen in incrementele beloningen, waardoor TP-GRPO efficiënt en hyperparameter-vrij is. Uitgebreide experimenten tonen ook aan dat TP-GRPO beloningssignalen effectiever benut en de generatie consistent verbetert. Democode is beschikbaar op https://github.com/YunzeTong/TurningPoint-GRPO.
Het oplossen van open-einde wetenschappelijke vragen blijft een uitdaging voor grote taalmodelen, vooral vanwege inherent onbetrouwbare supervisie en evaluatie. De bottleneck ligt bij de dataconstructie en beloningsontwerp voor wetenschappelijke na-training. Wij ontwikkelen een grootschalige, systematische dataprocessingpijplijn die heterogene open-source wetenschapsdata omzet in de Dr. SCI-dataset, die bestaat uit 1 miljoen vragen over acht STEM-vakken, met expliciete splitsing in verifieerbare/open-einde vragen, schaalbare moeilijkheidsannotatie en fijnmazige rubrics die evaluatie van open-einde antwoorden operationeel maken. Op basis van deze dataset stellen we de Dr. SCI na-trainingspijplijn voor, die de standaard SFT -> RL-werkstroom herontwerpt via drie componenten: (i) Exploration-Expanding SFT, die de dekking van het redeneerpatroon van het model verbreedt vóór RL; (ii) Dynamic Difficulty Curriculum, die de trainingsdata aanpast aan de evoluerende wetenschappelijke capaciteit van het model; en (iii) SciRubric-Guided RL, die stabiele reinforcement learning op open-einde wetenschappelijke vragen mogelijk maakt via rubriekgebaseerde evaluatie met expliciete antwoordcorrectheid. Qwen3-4B-Base getraind met de Dr. SCI-pijplijn behaalt 63.2 op GPQA-diamond en 32.4 op GPQA-general, en verbetert consistent ten opzichte van sterke na-getrainde baselines zoals o1-mini en GPT-4o, wat substantiële vooruitgang demonstreert in wetenschappelijk redeneren, vooral in open-einde settings.
Recente vooruitgang in beeldgeneratiemodellen heeft de voorspelling van toekomstige grafische gebruikersinterface (GUI)-toestanden op basis van gebruikersinstructies mogelijk gemaakt. Bestaande benchmarks richten zich echter voornamelijk op visuele kwaliteit in algemene domeinen, waardoor de evaluatie van toestandsovergangen en temporele coherentie in GUI-specifieke contexten onderbelicht blijft. Om deze leemte op te vullen, introduceren we GEBench, een uitgebreide benchmark voor het evalueren van dynamische interactie en temporele coherentie bij GUI-generatie. GEBench omvat 700 zorgvuldig samengestelde voorbeelden verdeeld over vijf taakcategorieën, die zowel enkelstapsinteracties als meerstapstrajecten bestrijken in zowel realistische als fictieve scenario's, evenals lokalisatie van referentiepunten. Ter ondersteuning van systematische evaluatie stellen we GE-Score voor, een nieuwe vijfdimensionale metriek die Doelrealisatie, Interactielogica, Inhoudsconsistentie, Interface-geloofwaardigheid en Visuele Kwaliteit beoordeelt. Uitgebreide evaluaties van huidige modellen tonen aan dat deze, hoewel ze goed presteren bij enkelstapsovergangen, aanzienlijk moeite hebben met het handhaven van temporele coherentie en ruimtelijke verankering over langere interactiesequenties. Onze bevindingen identificeren icooninterpretatie, tekstweergave en lokalisatienauwkeurigheid als kritieke knelpunten. Dit werk legt een basis voor systematische beoordeling en wijst veelbelovende onderzoeksrichtingen aan voor de ontwikkeling van hoogwaardige generatieve GUI-omgevingen. De code is beschikbaar op: https://github.com/stepfun-ai/GEBench.
Ondanks de groeiende video-inzichtcapaciteiten van recente Multimodale Grote Taalmodellen (MLLM's), beoordelen bestaande videobenchmarks voornamelijk het begrip op basis van de statische, interne kennis van modellen, in plaats van hun vermogen om te leren en zich aan te passen aan dynamische, nieuwe contexten aan de hand van enkele voorbeelden. Om deze kloof te overbruggen, presenteren wij Demo-gedreven Video In-Context Leren, een nieuwe taak die gericht is op leren vanuit in-context demonstraties om vragen over doeldvideo's te beantwoorden. Hiernaast stellen we Demo-ICL-Bench voor, een uitdagende benchmark die ontworpen is om demo-gedreven video in-context leercapaciteiten te evalueren. Demo-ICL-Bench is samengesteld uit 1200 instructieve YouTube-video's met bijbehorende vragen, waaruit twee soorten demonstraties worden afgeleid: (i) het samenvatten van videobijschriften voor tekstuele demonstratie; en (ii) corresponderende instructievideo's als videodemonstraties. Om deze nieuwe uitdaging effectief aan te pakken, ontwikkelen we Demo-ICL, een MLLM met een tweefasige trainingsstrategie: video-gestuurd fine-tuning en informatie-ondersteunde directe voorkeursoptimalisatie, die gezamenlijk het vermogen van het model om te leren vanuit in-context voorbeelden verbeteren. Uitgebreide experimenten met state-of-the-art MLLM's bevestigen de moeilijkheidsgraad van Demo-ICL-Bench, tonen de effectiviteit van Demo-ICL aan, en onthullen daarmee toekomstige onderzoeksrichtingen.
Geheugen wordt steeds centraler voor Large Language Model (LLM)-agenten die opereren buiten een enkele contextvenster, maar de meeste bestaande systemen vertrouwen op offline, query-ongevoelige geheugenconstructie die inefficiënt kan zijn en query-kritieke informatie kan wegwerpen. Hoewel runtime-geheugenbenutting een natuurlijk alternatief is, brengt eerder werk vaak aanzienlijke overhead met zich mee en biedt het beperkte expliciete controle over de prestatie-kostenafweging. In dit werk presenteren we BudgetMem, een runtime agentgeheugenraamwerk voor expliciete, query-bewuste prestatie-kostencontrole. BudgetMem structureert geheugenverwerking als een reeks geheugenmodules, elk aangeboden in drie budgetniveaus (d.w.z. Laag/Midden/Hoog). Een lichtgewicht router voert budgetniveau-routering uit over modules om taakprestaties en geheugenconstructiekosten in evenwicht te brengen, wat wordt geïmplementeerd als een compact neuraal beleid getraind met reinforcement learning. Door BudgetMem te gebruiken als een uniforme testomgeving, bestuderen we drie complementaire strategieën voor het realiseren van budgetniveaus: implementatie (methodecomplexiteit), redeneren (inferentiegedrag) en capaciteit (modulemodelgrootte). Op LoCoMo, LongMemEval en HotpotQA overtreft BudgetMem sterke baseline-methoden wanneer prestaties prioriteit krijgen (d.w.z. hoog-budget instelling), en levert het betere nauwkeurigheid-kostenfronten onder strengere budgetten. Bovendien ontrafelt onze analyse de sterke en zwakke punten van verschillende stratificatiestrategieën, en verduidelijkt wanneer elke as de meest gunstige afwegingen oplevert onder variërende budgetregimes.
De voortuitgang van grote taalmmodellen (LLM's) heeft de ontwikkeling van zoekagentschappen aanzienlijk versneld, die in staat zijn om autonoom informatie te verzamelen via meerronde webinteracties. Er zijn diverse benchmarks voorgesteld om dergelijke agentschappen te evalueren. Bestaande benchmarks construeren queries echter vaak achterwaarts vanuit antwoorden, wat onnatuurlijke taken oplevert die niet aansluiten bij de behoeften uit de praktijk. Bovendien richten deze benchmarks zich doorgaans op het lokaliseren van specifieke informatie of het aggregeren van informatie uit meerdere bronnen, terwijl ze vertrouwen op statische antwoordsets die vatbaar zijn voor datacontaminatie. Om deze lacunes te overbruggen, introduceren we GISA, een benchmark voor Algemene Informatiezoekende Assistants, bestaande uit 373 door mensen gemaakte queries die authentieke informatiezoek-scenario's weerspiegelen. GISA kent vier gestructureerde antwoordformaten (item, set, lijst en tabel), wat deterministische evaluatie mogelijk maakt. Het integreert zowel diep redeneren als brede informatie-aggregatie binnen verenigde taken, en omvat een live subset met periodiek bijgewerkte antwoorden om memorisering tegen te gaan. Opmerkelijk is dat GISA voor elke query complete menselijke zoektrajecten biedt, die gouden standaardreferenties vormen voor procesbewaking en imitatieleren. Experimenten met mainstream LLM's en commerciële zoekproducten tonen aan dat zelfs het best presterende model slechts een exacte overeenkomstscore van 19,30% behaalt, waarbij de prestaties aanzienlijk verslechteren bij taken die complexe planning en uitgebreide informatievergaring vereisen. Deze bevindingen onderstrepen dat er nog aanzienlijke ruimte is voor toekomstige verbetering.
Grote taalmodellen (LLM's) worden steeds beter in staat om langdurige, real-world taken uit te voeren. Naarmate de hoeveelheid context echter groeit, neemt hun betrouwbaarheid vaak af, een fenomeen dat bekend staat als "contextrot". Bestaande benchmarks voor lange context richten zich voornamelijk op instellingen met één stap, die het vermogen van een model evalueren om informatie op te halen uit een lang fragment. In realistische scenario's moeten LLM's echter vaak functioneren als agents die omgevingen verkennen, instructies en plannen volgen, nuttige informatie extraheren en correcte acties voorspellen binnen een dynamisch groeiende context. Om taalagentschappen in dergelijke settings te beoordelen, introduceren we LOCA-bench (een benchmark voor LOng-Context Agents). Gegeven een taakprompt, benut LOCA-bench geautomatiseerde en schaalbare controle van omgevingstoestanden om de contextlengte van het agent te reguleren. Dit ontwerp stelt LOCA-bench in staat om de contextlengte op een gecontroleerde manier potentieel oneindig uit te breiden, terwijl de onderliggende taaksemantiek ongewijzigd blijft. LOCA-bench evalueert taalagentschappen als een combinatie van modellen en scaffolds, inclusief verschillende contextbeheerstrategieën. Hoewel de prestaties van agents over het algemeen verslechteren naarmate de omgevingstoestanden complexer worden, kunnen geavanceerde contextbeheertechnieken het algehele slagingspercentage aanzienlijk verbeteren. We maken LOCA-bench open source om een platform te bieden voor het evalueren van modellen en scaffolds in lang-context, agent-gebaseerde scenario's: https://github.com/hkust-nlp/LOCA-bench
Ruimtelijk belichaamde intelligentie vereist dat agenten handelen om informatie te verwerven onder gedeeltelijke waarneembaarheid. Hoewel multimodale foundation-modellen uitblinken in passieve waarneming, blijft hun vermogen voor actieve, zelfgestuurde verkenning onderbelicht. Wij stellen de Theory of Space voor, gedefinieerd als het vermogen van een agent om actief informatie te verwerven door zelfgestuurde, actieve exploratie en om een ruimtelijk beeld (spatial belief) te construeren, te reviseren en te benutten vanuit sequentiële, partiële observaties. Wij evalueren dit met een benchmark waarbij het doel is nieuwsgierigheid-gedreven exploratie om een accurate cognitieve kaart op te bouwen. Een belangrijke innovatie is spatial belief probing, waarbij modellen worden aangezet om hun interne ruimtelijke representaties bij elke stap te onthullen. Onze evaluatie van state-of-the-art modellen onthult verschillende kritieke knelpunten. Ten eerste identificeren we een Actief-Passief Kloof, waarbij de prestaties significant dalen wanneer agenten autonoom informatie moeten verzamelen. Ten tweede constateren we een hoge inefficiëntie, omdat modellen onsystematisch verkennen vergeleken met programma-gebaseerde proxies. Via belief probing diagnosticeren we dat hoewel perceptie een eerste knelpunt is, globale beelden lijden onder instabiliteit die ervoor zorgt dat ruimtelijke kennis in de loop van de tijd degradeert. Ten slotte onthullen we, met behulp van een false belief-paradigma, Belief Inertia, waarbij agenten er niet in slagen verouderde prior kennis bij te werken met nieuw bewijs. Dit probleem is aanwezig in tekstgebaseerde agenten, maar is bijzonder ernstig in visiegebaseerde modellen. Onze bevindingen suggereren dat huidige foundation-modellen moeite hebben om coherente, revisiebare ruimtelijke beelden te handhaven tijdens actieve exploratie.
Het genereren van diepgaande onderzoeksrapporten vereist grootschalige informatieverwerving en de synthese van inzichtgedreven analyse, wat een aanzienlijke uitdaging vormt voor huidige taalmodel(len). De meeste bestaande benaderingen volgen een plan-dan-schrijf paradigma, waarvan de prestaties sterk afhangen van de kwaliteit van de initiële outline. Het construeren van een uitgebreide outline vereist echter zelf een sterk redeneervermogen, waardoor huidige diepgaande onderzoekssystemen bijna uitsluitend vertrouwen op closed-source of online grote modellen. Deze afhankelijkheid creëert praktische barrières voor implementatie en brengt veiligheids- en privacyproblemen met zich mee voor gebruikersgegevens. In dit werk presenteren we AgentCPM-Report, een lichtgewicht maar hoogpresterende lokale oplossing bestaande uit een raamwerk dat het menselijk schrijfproces nabootst en een deep research agent met 8B parameters. Ons raamwerk gebruikt een Writing As Reasoning Policy (WARP), waarmee modellen outlines dynamisch kunnen reviseren tijdens rapportgeneratie. Onder dit beleid wisselt de agent af tussen Evidence-Based Drafting en Reasoning-Driven Deepening, die gezamenlijk informatieverwerving, kennisverfijning en iteratieve outline-evolutie ondersteunen. Om kleine modellen effectief met deze capaciteit uit te rusten, introduceren we een Multi-Stage Agentic Training strategie, bestaande uit cold-start, atomic skill RL en holistische pipeline RL. Experimenten op DeepResearch Bench, DeepConsult en DeepResearch Gym tonen aan dat AgentCPM-Report beter presteert dan toonaangevende closed-source systemen, met aanzienlijke winst in Insight.
Dit werk presenteert WorldCompass, een nieuw Reinforcement Learning (RL) post-training raamwerk voor langetermijn, interactieve op video gebaseerde wereldmodellen, waarmee ze de wereld nauwkeuriger en consistenter kunnen verkennen op basis van interactiesignalen. Om de verkenning van het wereldmodel effectief te "sturen", introduceren we drie kerninnovaties toegesneden op het autoregressieve videogeneratieparadigma: 1) Clip-level rollout Strategie: We genereren en evalueren meerdere samples voor een enkele doelclip, wat de rollout-efficiëntie aanzienlijk verhoogt en fijnmazige beloningssignalen verschaft. 2) Complementaire Beloningsfuncties: We ontwerpen beloningsfuncties voor zowel interactievolgingsnauwkeurigheid als visuele kwaliteit, die direct toezicht bieden en beloningsmanipulatie effectief onderdrukken. 3) Efficiënt RL-algoritme: We gebruiken de negatief-bewuste fine-tuning strategie in combinatie met diverse efficiëntie-optimalisaties om modelcapaciteit efficiënt en effectief te verbeteren. Evaluaties op het state-of-the-art open-source wereldmodel, WorldPlay, tonen aan dat WorldCompass de interactienauwkeurigheid en visuele kwaliteit aanzienlijk verbetert in diverse scenario's.
Chemische grote-taalmodelen (LLM's) zijn voornamelijk afhankelijk van expliciete Chain-of-Thought (CoT) in natuurlijke taal om complexe redeneringen uit te voeren. Chemisch redeneren is echter inherent continu en structureel, en het forceren hiervan in discrete linguïstieke tokens introduceert een fundamentele representatiemismatch die zowel de efficiëntie als de prestaties beperkt. Wij introduceren LatentChem, een latente redeneerinterface die chemische berekening ontkoppelt van tekstuele generatie, waardoor modellen multi-stap redeneringen direct in een continue latente ruimte kunnen uitvoeren terwijl ze alleen taal produceren voor de uiteindelijke output. Opmerkelijk genoeg observeren we een consistent emergent gedrag: wanneer modellen uitsluitend worden geoptimaliseerd voor taaksucces, internaliseren ze spontaan het redeneren en verlaten ze geleidelijk aan uitgebreide tekstuele afleidingen ten gunste van impliciete latente berekening. Deze verschuiving is niet louter stilistisch maar computationeel voordelig. Over diverse chemische redeneerbenchmarks behaalt LatentChem een non-tie winstpercentage van 59,88% ten opzichte van sterke CoT-baselines op ChemCoTBench, terwijl het een gemiddelde inferentiesnelheidsverbetering van 10,84 keer levert. Onze resultaten leveren empirisch bewijs dat chemisch redeneren natuurlijker en effectiever wordt gerealiseerd als continue latente dynamiek in plaats van gediscretiseerde linguïstieke trajecten.
Gewichtsgebaseerde kwantisatie is inmiddels een standaardaanpak geworden voor het efficiënt inzetten van grote taalmmodellen (LLM's). Bestaande methoden slagen er echter niet in om modellen efficiënt te comprimeren tot binaire (1-bit) niveaus, omdat ze ofwel grote hoeveelheden data en rekenkracht vereisen, ofwel extra opslagruimte vergen. In dit werk stellen we NanoQuant voor, de eerste post-training kwantisatie (PTQ)-methode die LLM's comprimeert tot zowel binaire als sub-1-bit niveaus. NanoQuant formuleert kwantisatie als een low-rank binaire factorisatieprobleem, en comprimeert full-precision gewichten naar low-rank binaire matrices en schaalfactoren. Concreet maakt het gebruik van een efficiënte 'alternating direction method of multipliers' (ADMM)-methode om latentie binaire matrices en schaalfactoren nauwkeurig te initialiseren, en vervolgens de geïnitialiseerde parameters af te stemmen via een blok- en modelreconstructieproces. Hierdoor vestigt NanoQuant een nieuwe Pareto-grens in post-training kwantisatie met weinig geheugen, en behaalt het state-of-the-art nauwkeurigheid zelfs bij sub-1-bit compressieverhoudingen. NanoQuant maakt grootschalige implementatie op consumentenhardware haalbaar. Zo comprimeert het bijvoorbeeld Llama2-70B met een factor 25,8 in slechts 13 uur op een enkele H100, waardoor een 70B-model kan draaien op een consumenten-GPU met 8 GB geheugen.
Lang-context inferentie met Large Language Models (LLM's) is kostbaar vanwege de kwadratische aandacht en groeiende key-value caches, wat de motivatie vormt voor contextcompressie. In dit werk bestuderen we zachte contextcompressie, waarbij een lange context wordt samengevat in een kleine set continue representaties. Bestaande methoden hergebruiken typisch de LLM zelf als trainbare compressor, waarbij wordt vertrouwd op laag-voor-laag self-attention om informatie iteratief te aggregeren. Wij stellen dat dit paradigma lijdt onder twee structurele beperkingen: (i) progressieve overschrijving van representaties tussen lagen, en (ii) ongecoördineerde allocatie van compressiecapaciteit over tokens. Wij stellen ComprExIT voor (Contextcompressie via Expliciete Informatie Transmissie), een lichtgewicht raamwerk dat zachte compressie formuleert in een nieuw paradigma: expliciete informatieoverdracht over bevroren LLM-verborgen toestanden. Dit ontkoppelt compressie van de interne self-attention-dynamiek van het model. ComprExIT voert (i) dieptegewijze transmissie uit om selectief informatie uit meerdere lagen over te dragen naar token-ankers, waardoor progressieve overschrijving wordt verminderd, en (ii) breedtegewijze transmissie om ankers te aggregeren in een klein aantal slots via een globaal geoptimaliseerd transmissieplan, wat een gecoördineerde allocatie van informatie waarborgt. Over zes vraag-antwoordbenchmarks presteert ComprExIT consistent beter dan state-of-the-art contextcompressiemethoden, terwijl slechts ~1% extra parameters worden geïntroduceerd. Dit demonstreert dat expliciete en gecoördineerde informatieoverdracht effectievere en robuustere lang-contextcompressie mogelijk maakt.
Deductie, inductie en abductie zijn fundamentele redeneerparadigma's, de kern van het menselijk logisch denken. Hoewel het verbeteren van het redeneervermogen van Large Language Models (LLM's) aanzienlijke onderzoeksinspanningen heeft aangetrokken, is de mate waarin deze fundamentele paradigma's generalisatie induceren nog niet systematisch onderzocht. In deze studie belichten we hoe de wisselwerking tussen deze kernparadigma's het redeneergedrag van LLM's beïnvloedt. Hiertoe verzamelen we eerst een nieuwe dataset van redeneertrajecten van symbolische taken, elk gericht op een van de drie fundamentele paradigma's, om te abstraheren van concrete wereldkennis. Vervolgens onderzoeken we effectieve manieren om deze vaardigheden in LLM's in te brengen. We experimenteren met een reeks methoden, waaronder eenvoudige fine-tuning en complexere benaderingen om de modeldiepte te vergroten of een dicht model om te zetten in een mixture-of-experts. We evalueren de geïnduceerde modellen uitgebreid op realistische taken buiten het oorspronkelijke domein, die volledig in natuurlijke taal zijn geformuleerd en real-world kennis bevatten. Onze resultaten onthullen dat onze aanpak sterke generaliseerbaarheid oplevert met aanzienlijke prestatieverbeteringen (tot 14,60) over realistische taken heen.
Grote redeneermodellen (LRM's) behalen sterke prestaties op complexe redeneertaken door het genereren van lange, meerstaps redeneertrajecten, maar schaling tijdens inferentie brengt aanzienlijke implementatiekosten met zich mee. Een grote uitdaging is dat de generatiemoeilijkheid varieert binnen een enkele uitvoer, terwijl bestaande efficiëntiegerichte benaderingen deze intra-generatievariaties ofwel negeren, ofwel vertrouwen op supervised token-level routing met een hoge systeemcomplexiteit. Wij presenteren RelayGen, een trainingsvrij, segment-level runtime model switching framework dat gebruikmaakt van moeilijkheidsvariaties in lange-redenering. Door offline analyse van generatieonzekerheid met behulp van token-waarschijnlijkheidsmarges, tonen we aan dat coarse-grained segment-level controle voldoende is om moeilijkheidsovergangen binnen een redeneertraject vast te leggen. RelayGen identificeert model-specifieke switch-cues die overgangen naar segmenten met lagere moeilijkheidsgraad signaleren en deelt de voortzetting daarvan dynamisch toe aan een kleiner model, terwijl redenering met een hoge moeilijkheidsgraad behouden blijft op het grote model. Over meerdere redeneerbenchmarks vermindert RelayGen de inferentielatentie aanzienlijk, terwijl het grootste deel van de nauwkeurigheid van grote modellen behouden blijft. In combinatie met speculatieve decodering bereikt RelayGen tot 2,2x end-to-end versnelling met minder dan 2% nauwkeurigheidsverlies, zonder extra training of geleerde routeringscomponenten nodig te hebben.
Ondanks snelle vooruitgang in Multimodale Grote Taalmodellen (MLLM's) blijft visueel ruimtelijk redeneren onbetrouwbaar wanneer de juiste antwoorden afhangen van hoe een scène eruit zou zien vanuit ongeziene of alternatieve gezichtspunten. Recent werk probeert dit op te lossen door redeneren aan te vullen met wereldmodellen voor visuele verbeelding, maar vragen zoals wanneer verbeelding daadwerkelijk nodig is, hoeveel ervan nuttig is, en wanneer het schadelijk wordt, blijven slecht begrepen. In de praktijk kan ongericht verbeelden de rekenkosten verhogen en zelfs de prestaties verslechteren door misleidend bewijsmateriaal te introduceren. In dit werk presenteren we een diepgaande analyse van visuele verbeelding tijdens testtijd als een controleerbare hulpbron voor ruimtelijk redeneren. We bestuderen wanneer statisch visueel bewijs voldoende is, wanneer verbeelding het redeneren verbetert, en hoe excessieve of onnodige verbeelding de nauwkeurigheid en efficiëntie beïnvloedt. Om deze analyse te ondersteunen, introduceren we AVIC, een adaptief testtijd-raamwerk met wereldmodellen dat expliciet redeneert over de toereikendheid van het huidige visuele bewijs voordat het selectief visuele verbeelding inroept en schaalt. Over ruimtelijke redeneerbenchmarks (SAT, MMSI) en een belichaamde navigatiebenchmark (R2R) heen, onthullen onze resultaten duidelijke scenario's waarin verbeelding cruciaal, marginaal of nadelig is, en tonen aan dat selectieve controle vaste verbeeldingstrategieën kan evenaren of overtreffen met aanzienlijk minder wereldmodel-aanroepen en taaltokens. Over het geheel genomen benadrukken onze bevindingen het belang van het analyseren en controleren van verbeelding tijdens testtijd voor efficiënt en betrouwbaar ruimtelijk redeneren.
Het genereren van stapsgewijze "hoe-gedaan"-procedures is een belangrijke capaciteit van grote taalmodellen: hoe-gedaan advies wordt vaak opgevraagd in chatbots, en stapsgewijze planning is cruciaal voor redeneren over complexe taken. Toch blijft het meten en verbeteren van procedurele validiteit op grote schaal voor real-world taken een uitdaging en onderbelicht. Om dit aan te pakken, introduceren we How2Everything, een schaalbaar raamwerk om doelgerichte proceduregeneratie te evalueren en verbeteren. Ons raamwerk omvat How2Mine, dat 351K procedures mineert uit 980K webpagina's over 14 onderwerpen en eenvoudig schaalt naar grotere corpora. Uit deze pool bouwen we How2Bench, een evaluatieset van 7K voorbeelden die gebalanceerd is over de onderwerpen. Om modeloutputs betrouwbaar te scoren, ontwikkelen we How2Score, een evaluatieprotocol dat een LLM-beoordelaar gebruikt om te detecteren of een generatie kritieke fouten bevat die het bereiken van het doel verhinderen. Voor goedkope, reproduceerbare evaluatie distilleren we een frontier-model naar een open 8B-model, waarmee we 80,5% overeenstemming met menselijke annotators bereiken. How2Bench toont duidelijke schaalverbanden over modelgroottes en trainingsfasen heen, en geeft al vroeg in de voortraining signalen. Ten slotte verbetert reinforcement learning met How2Score als beloning de prestaties op How2Bench met >10 punten over drie modellen heen, zonder systematische achteruitgang op standaardbenchmarks, waarbij de winst robuust is tegen oppervlakkige memorisatie van brondocumenten of formatnaleving. Samengenomen toont How2Everything aan hoe voorgetrainde webdata een gesloten lus van capaciteitsevaluatie en -verbetering op grote schaal kan ondersteunen.
Fundamentele modellen, waaronder Large Language Models (LLM's), Multimodale Large Language Models (MLLM's), beeldgeneratieve modellen (zoals tekst-naar-beeldmodellen en beeldbewerkingsmodellen) en videogeneratieve modellen, zijn essentiële instrumenten geworden met brede toepassingen in diverse domeinen zoals recht, geneeskunde, onderwijs, financiën, wetenschap en daarbuiten. Naarmate deze modellen in toenemende mate in de praktijk worden ingezet, is het waarborgen van hun betrouwbaarheid en verantwoordelijkheid cruciaal geworden voor academische wereld, industrie en overheid. Dit overzichtsartikel behandelt de betrouwbare en verantwoorde ontwikkeling van fundamentele modellen. Wij onderzoeken kritieke kwesties, waaronder bias en eerlijkheid, veiligheid en privacy, onzekerheid, verklaarbaarheid en distributieverschuiving. Ons onderzoek bestrijkt tevens modelbeperkingen, zoals hallucinaties, evenals methoden zoals alignment en detectie van door kunstmatige intelligentie gegenereerde inhoud (AIGC). Voor elk gebied bespreken we de huidige stand van zaken en schetsen we concrete toekomstige onderzoeksrichtingen. Daarnaast bespreken we de raakvlakken tussen deze gebieden, waarbij we hun verbanden en gedeelde uitdagingen belichten. Wij hopen dat ons overzicht de ontwikkeling bevordert van fundamentele modellen die niet alleen krachtig zijn, maar ook ethisch, betrouwbaar, robuust en maatschappelijk verantwoord.
Het uitlokken van redeneerprocessen is naar voren gekomen als een krachtige techniek om de prestaties van grote taalmodellen (LLM's) op complexe taken te verbeteren door het denken te stimuleren. Hun effectiviteit in realistische scenario's waarbij gebruikers betrokken agenten gebruiken, blijft echter onduidelijk. In dit artikel voeren we een uitgebreide studie uit naar het effect van expliciet denken in door gebruikers ingezette LLM-agenten. Onze experimenten omvatten zeven modellen, drie benchmarks en twee denkinstantiaties, en we evalueren deze via zowel een kwantitatieve taxonomie-analyse van antwoorden als kwalitatieve casestudies over foutpropagatie. In tegenstelling tot de verwachtingen stellen we vast dat verplicht denken in door gebruikers betrokken settings vaak averechts werkt voor agenten, wat leidt tot onverwachte prestatievermindering bij verschillende LLM's. Onze belangrijkste bevinding toont aan dat denken agenten "introverter" maakt door antwoorden te verkorten en de openbaarmaking van informatie aan gebruikers te verminderen, wat de informatie-uitwisseling tussen agent en gebruiker verzwakt en leidt tot fouten in downstreamtaken. Verder tonen we aan dat het expliciet vragen om informatie-openbaarmaking de prestaties betrouwbaar verbetert across diverse modelfamilies, wat suggereert dat proactieve transparantie een cruciale hefboom is voor agentoptimalisatie. Over het geheel genomen suggereert onze studie dat bewustzijn van informatietransparantie een cruciaal maar onderbelicht perspectief is voor het toekomstige ontwerp van redenerende agenten in realistische scenario's. Onze code is beschikbaar op https://github.com/deeplearning-wisc/Thinking-Agent.
Onlangs hebben autoregressieve (AR) videodiffusiemodellen opmerkelijke prestaties geleverd. Vanwege hun beperkte trainingsduur ontstaat er echter een kloof tussen training en testen bij het testen over langere tijdshorizonten, wat leidt tot snelle visuele degradatie. In navolging van Self Forcing, dat de train-testkloof binnen de trainingsduur bestudeert, onderzoekt dit werk de train-testkloof voorbij de trainingsduur, namelijk de kloof tussen de beperkte horizonten tijdens de training en de open-einde horizonten tijdens het testen. Aangezien open-einde testen zich voorbij elke eindige trainingsperiode kan uitstrekken en training met lange video's rekenkundig kostbaar is, streven we naar een trainingsvrije oplossing om deze kloof te overbruggen. Om een trainingsvrije oplossing te verkennen, voeren we een systematische analyse uit van AR-cacheonderhoud. Deze inzichten leiden tot Rolling Sink. Gebaseerd op Self Forcing (getraind op slechts 5s clips), schaalt Rolling Sink de AR-videosynthese effectief op naar ultralange duur (bijvoorbeeld 5-30 minuten bij 16 FPS) tijdens het testen, met consistente onderwerpen, stabiele kleuren, samenhangende structuren en vloeiende bewegingen. Zoals aangetoond door uitgebreide experimenten, bereikt Rolling Sink superieure visuele kwaliteit en temporele consistentie over lange horizonten vergeleken met state-of-the-art baseline-methoden. Projectpagina: https://rolling-sink.github.io/
Huidige paradigma's voor codeverificatie zijn sterk afhankelijk van externe mechanismen - zoals op uitvoering gebaseerde unittests of aanvullende LLM-beoordelaars - die vaak arbeidsintensief zijn of beperkt worden door de capaciteiten van het beoordelende model zelf. Dit roept een fundamentele, maar nog ononderzochte vraag op: Kan de functionele correctheid van een LLM uitsluitend worden beoordeeld op basis van zijn interne computationele structuur? Ons primaire doel is te onderzoeken of de neurale dynamiek van het model intern decodeerbare signalen bevat die voorspellend zijn voor logische geldigheid tijdens codegeneratie. Geïnspireerd door mechanistische interpreteerbaarheid stellen wij voor om codeverificatie te behandelen als een mechanistische diagnostische taak, waarbij de expliciete algoritmische trajectorie van het model wordt gemapt naar attributiegrafieken op regelniveau. Door complexe residuele stromen te decomponeren, streven we ernaar de structurele signaturen te identificeren die correcte redenering onderscheiden van logisch falen binnen de interne circuits van het model. Analyse over Python, C++ en Java bevestigt dat intrinsieke correctheidssignalen robuust zijn over diverse syntaxen. Topologische kenmerken van deze interne grafieken voorspellen correctheid betrouwbaarder dan oppervlakkige heuristieken en maken gerichte causale interventies mogelijk om foutieve logica te herstellen. Deze bevindingen vestigen interne introspectie als een decodeerbare eigenschap voor het verifiëren van gegenereerde code. Onze code staat op https://github.com/bruno686/CodeCircuit.
De ontwikkeling van kunstmatige intelligentie kan worden gezien als een evolutie van data-gedreven leerparadigma's, waarbij opeenvolgende verschuivingen in data-organisatie en -gebruik de vooruitgang in modelcapaciteit continu aansturen. Het huidige LLM-onderzoek wordt gedomineerd door een paradigma dat sterk leunt op unidirectionele schaalvergroting van dataschaal, wat steeds vaker botst met knelpunten in data-beschikbaarheid, verwervingskosten en trainingsrendement. In dit werk betogen wij dat de ontwikkeling van AGI een nieuwe fase van data-model co-evolutie ingaat, waarin modellen actief databeheer sturen terwijl hoogwaardige data op hun beurt modelcapaciteiten versterkt. Om deze visie te implementeren, stellen we een gelaagd data management framework voor, ontworpen om de volledige LLM-trainingslevenscyclus te ondersteunen bij heterogene leerdoelen en kostenbeperkingen. Concreet introduceren we een L0-L4 gelaagd data management framework, variërend van ruwe onbewerkte bronnen tot georganiseerde en verifieerbare kennis. Cruciaal is dat LLM's volledig worden ingezet in data management processen, zoals kwaliteitsscoring en contentbewerking, om data tussen lagen te verfijnen. Elke laag kenmerkt zich door distinctieve data-eigenschappen, beheerstrategieën en trainingsrollen, waardoor data strategisch kan worden toegewezen aan LLM-trainingsfasen, inclusief pre-training, mid-training en alignment. Het framework balanceert data-kwaliteit, verwervingskosten en marginaal trainingsrendement, en biedt een systematische aanpak voor schaalbaar en duurzaam data management. We valideren de effectiviteit van het voorgestelde framework via empirische studies, waarbij gelaagde datasets uit ruwe corpora worden opgebouwd en ingezet in meerdere trainingsfasen. Experimentele resultaten tonen aan dat laagbewust data-gebruik trainingsrendement en modelprestaties significant verbetert. Om vervolgonderzoek te faciliteren, stellen we onze gelaagde datasets en verwerkingsinstrumenten beschikbaar aan de onderzoeksgemeenschap.
Hoewel de afgelopen jaren een snelle vooruitgang in spraaksynthese te zien was, kampen open-source zangstemsynthesesystemen (SVS) nog steeds met aanzienlijke belemmeringen voor industriële implementatie, met name op het gebied van robuustheid en zero-shot generalisatie. In dit rapport introduceren we SoulX-Singer, een hoogwaardig open-source SVS-systeem dat is ontworpen met praktische implementatieoverwegingen in het achterhoofd. SoulX-Singer ondersteunt controleerbare zanggeneratie op basis van symbolische partituren (MIDI) of melodische representaties, wat flexibele en expressieve controle in real-world productieworkflows mogelijk maakt. Getraind op meer dan 42.000 uur aan vocale data, ondersteunt het systeem Mandarijn Chinees, Engels en Kantonees en behaalt het consistent state-of-the-art synthesekwaliteit over verschillende talen heen onder uiteenlopende muzikale omstandigheden. Verder construeren we, om een betrouwbare evaluatie van zero-shot SVS-prestaties in praktijkscenario's mogelijk te maken, SoulX-Singer-Eval: een toegewijd benchmark met strikte scheiding tussen trainings- en testdata, wat systematische beoordeling in zero-shot settings vergemakkelijkt.
Agent skills breiden large language model (LLM)-agents uit met herbruikbare, programma-achtige modules die triggercondities, procedurele logica en toolinteracties definiëren. Naarmate deze skills zich verspreiden via openbare marktplaatsen, is het onduidelijk welke typen beschikbaar zijn, hoe gebruikers ze adopteren en welke risico's ze met zich meebrengen. Om deze vragen te beantwoorden, voeren we een grootschalige, datagedreven analyse uit van 40.285 openbaar geliste skills van een grote marktplaats. Onze resultaten tonen aan dat skillpublicatie vaak plaatsvindt in kortstondige pieken die samenhangen met verschuivingen in de aandacht van de community. We constateren ook dat skillinhoud sterk geconcentreerd is in software-engineeringwerkstromen, terwijl informatie-ophaling en contentcreatie een aanzienlijk deel van de adoptie uitmaken. Naast inhoudelijke trends leggen we een duidelijke disbalans tussen aanbod en vraag tussen categorieën bloot, en tonen we aan dat de meeste skills binnen typische promptbudgets blijven ondanks een zwaar-verdeelde lengtedistributie. Ten slotte observeren we een sterke ecosystemhomogeniteit, met wijdverspreide redundantie op intentieniveau, en identificeren we niet-triviale veiligheidsrisico's, waaronder skills die staatswijzigende of systeemniveau-acties mogelijk maken. Over het geheel genomen bieden onze bevindingen een kwantitatieve momentopname van agent skills als een opkomende infrastructuurlaag voor agents, en informeren ze toekomstig werk over skillhergebruik, standaardisatie en veiligheidsbewust ontwerp.
Versterkend leren (RL) wordt veel gebruikt voor humanoïde robotbesturing, waarbij on-policy methoden zoals Proximal Policy Optimization (PPO) robuuste training mogelijk maken via grootschalige parallelle simulatie en in sommige gevallen zero-shot-implementatie op echte robots. De lage steekproefefficiëntie van on-policy algoritmen beperkt echter een veilige aanpassing aan nieuwe omgevingen. Hoewel off-policy RL en modelgebaseerd RL een verbeterde steekproefefficiëntie hebben getoond, blijft de kloof tussen grootschalige pretraining en efficiënte finetuning op humanoïden bestaan. In dit artikel tonen we aan dat off-policy Soft Actor-Critic (SAC), met grootschalige batch-updates en een hoge Update-To-Data (UTD)-verhouding, betrouwbaar grootschalige pretraining van humanoïde locomotiebeleidsregels ondersteunt, wat zero-shot-implementatie op echte robots realiseert. Voor aanpassing demonstreren we dat deze SAC-voorgetrainde beleidsregels kunnen worden gefinetuned in nieuwe omgevingen en out-of-distribution taken met modelgebaseerde methoden. Datacollectie in de nieuwe omgeving gebruikt een deterministisch beleid, terwijl stochastische exploratie beperkt blijft tot een fysica-geïnformeerd wereldmodel. Deze scheiding vermindert de risico's van willekeurige exploratie tijdens aanpassing, terwijl de verkenningsdekking voor verbetering behouden blijft. Al met al combineert de aanpak de tijdsefficiëntie van grootschalige simulatie tijdens pretraining met de steekproefefficiëntie van modelgebaseerd leren tijdens finetuning.
Het bereiken van stabiele en energie-efficiënte voortbeweging is essentieel voor humanoïde robots om continu in real-world toepassingen te kunnen functioneren. Bestaande MPC- en RL-benaderingen baseren zich vaak op energiegerelateerde metrieken die zijn ingebed in een multi-objectief optimalisatiekader, wat uitgebreide afstemming van hyperparameters vereist en vaak leidt tot suboptimale policies. Om deze uitdagingen aan te pakken, stellen we ECO (Energy-Constrained Optimization) voor, een constrained RL-kader dat energiegerelateerde metrieken scheidt van beloningen en ze herformuleert als expliciete ongelijkheidsbeperkingen. Deze methode biedt een duidelijke en interpreteerbare fysieke representatie van energiekosten, waardoor efficiëntere en intuïtievere afstemming van hyperparameters mogelijk wordt voor verbeterde energie-efficiëntie. ECO introduceert toegewijde beperkingen voor energieverbruik en referentiebeweging, afgedwongen door de Lagrangiaanse methode, om stabiel, symmetrisch en energie-efficiënt lopen voor humanoïde robots te realiseren. We evalueerden ECO tegenover MPC, standaard RL met reward shaping, en vier geavanceerde constrained RL-methoden. Experimenten, inclusief sim-to-sim en sim-to-real transfers op de kindermaat humanoïde robot BRUCE, tonen aan dat ECO het energieverbruik significant verlaagt in vergelijking met de baseline-methoden, terwijl robuuste loopprestaties behouden blijven. Deze resultaten markeren een aanzienlijke vooruitgang in energie-efficiënte humanoïde voortbeweging. Alle experimentele demonstraties zijn te vinden op de projectwebsite: https://sites.google.com/view/eco-humanoid.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een cruciale methode om de redeneercapaciteiten van Large Language Models (LLM's) te verbeteren. Continue training leidt echter vaak tot een beleidsentropie-collaps, gekenmerkt door een snelle afname van de entropie die resulteert in voortijdige overmoed, verminderde outputdiversiteit en verdwijnende gradiëntnormen die het leren belemmeren. Gradient-Preserving Clipping is een primaire factor die deze dynamiek beïnvloedt, maar bestaande mitigatiestrategieën zijn grotendeels statisch en missen een raamwerk dat clippingmechanismen verbindt met precieze entropiecontrole. Dit artikel stelt voor om entropiecontrole in RL te hervormen vanuit het perspectief van Gradient-Preserving Clipping. We verifiëren eerst theoretisch en empirisch de bijdragen van specifieke important sampling ratio-regio's aan entropiegroei en -reductie. Gebruikmakend van deze bevindingen, introduceren we een nieuwe regulatiemechanisme met een dynamische clippingdrempel om de entropie precies te beheren. Verder ontwerpen en evalueren we dynamische entropiecontrole-strategieën, waaronder 'toenemen-dan-afnemen', 'afnemen-toenemen-afnemen' en oscillerend verval. Experimentele resultaten tonen aan dat deze strategieën entropie-collaps effectief mitigeren en superieure prestaties behalen op meerdere benchmarks.
Beloningsmodellen (RMs) zijn cruciaal voor de training van grote taalmmodellen (LLM's), maar zijn doorgaans afhankelijk van grootschalige door mensen geannoteerde voorkeursparen. Met de wijdverspreide inzet van LLM's zijn interacties in de praktijk naar voren gekomen als een rijke bron van impliciete beloningssignalen. Dit roept de vraag op: Kunnen we beloningsmodellen rechtstreeks ontwikkelen vanuit praktijkinteracties? In dit werk verkennen we deze mogelijkheid door WildChat als interactiebron te gebruiken en stellen we een pijplijn voor om betrouwbare menselijke feedback te extraheren, wat resulteert in 186k hoogwaardige instanties voor het trainen van WildReward via ordinale regressie rechtstreeks op gebruikersfeedback, zonder voorkeursparen. Uitgebreide experimenten tonen aan dat WildReward vergelijkbare of zelfs betere prestaties bereikt in vergelijking met conventionele beloningsmodellen, met verbeterde kalibratie en consistentie tussen steekproeven. We observeren ook dat WildReward rechtstreeks profiteert van gebruikersdiversiteit, waarbij meer gebruikers sterkere beloningsmodellen opleveren. Ten slotte passen we WildReward toe op online DPO-training en observeren we significante verbeteringen bij diverse taken. Code en data zijn vrijgegeven op https://github.com/THU-KEG/WildReward.
Tokenisatie is een cruciale ontwerpkeuze voor neurale taalmodellering in morfologisch rijke talen (MRL's) zoals het Turks, waar productieve agglutinatie zowel de vocabulaire-efficiëntie als de morfologische getrouwheid onder druk zet. Eerdere studies hebben tokenizer-families en vocabulairegroottes onderzocht, maar variëren doorgaans (i) het vocabulaire zonder de trainingscorpus van de tokenizer systematisch te controleren, (ii) bieden beperkte intrinsieke diagnostiek, en (iii) evalueren een smalle reeks downstream-taken. Wij presenteren de eerste uitgebreide, principiële studie naar Turkse subword-tokenisatie; een "subwords manifest", dat gezamenlijk vocabulairegrootte en de grootte van de tokenizer-trainingscorpus varieert (koppeling van data en vocabulaire), meerdere tokenizer-families vergelijkt binnen gelijke parameterbudgetten (WordPiece, morfologieniveau en character-baselines), en evalueert over semantische (NLI, STS, sentimentanalyse, NER), syntactische (POS, dependency parsing) en morfologiegevoelige probes. Om te verklaren waarom tokenizers slagen of falen, introduceren we een morfologiebewuste diagnostische toolkit die verder gaat dan grove aggregaten naar boundary-level micro/macro F1, ontkoppelde lemma-atomiciteit versus surface boundary hits, over/onder-segmentatie-indices, karakter/woord-editie-afstanden (CER/WER), continuatiepercentages, en dekking van affixtypen en token-level atomiciteit. Onze bijdragen zijn viervoudig: (i) een systematisch onderzoek naar de triade vocabulaire-corpus-succes; (ii) een uniform, morfologiebewust evaluatiekader dat intrinsieke diagnostiek koppelt aan extrinsieke resultaten; (iii) gecontroleerde vergelijkingen die identificeren wanneer tokenisatie op karakterniveau en morfologieniveau rendeert; en (iv) een open-source release van evaluatiecode, tokenizer-pipelines en modellen. Als eerste werk in zijn soort biedt dit "subwords manifest" bruikbare richtlijnen voor het bouwen van effectieve tokenizers in MRL's en legt het een reproduceerbare basis voor toekomstig onderzoek.
Wij introduceren MotionCrafter, een op videodiffusie gebaseerd raamwerk dat gezamenlijk 4D-geometrie reconstrueert en dichte beweging schat uit een monovideo. De kern van onze methode is een nieuwe gezamenlijke representatie van dichte 3D-puntenkaarten en 3D-scene flows in een gedeeld coördinatenstelsel, en een nieuwe 4D-VAE om deze representatie effectief aan te leren. In tegenstelling tot eerder werk dat 3D-waarden en latenten forceert strikt uit te lijnen met RGB-VAE-latenten – ondanks hun fundamenteel verschillende verdelingen – tonen wij aan dat een dergelijke uitlijning onnodig is en leidt tot suboptimale prestaties. In plaats daarvan introduceren wij een nieuwe datanormalisatie- en VAE-trainingsstrategie die diffusieprioriteiten beter overdraagt en de reconstructiekwaliteit aanzienlijk verbetert. Uitgebreide experimenten op meerdere datasets tonen aan dat MotionCrafter state-of-the-art prestaties bereikt in zowel geometriereconstructie als dichte scene flow-schatting, met respectievelijk 38,64% en 25,0% verbeteringen in geometrie- en bewegingsreconstructie, allemaal zonder enige post-optimalisatie. Projectpagina: https://ruijiezhu94.github.io/MotionCrafter_Page
Wij introduceren Aster, een AI-agent voor autonome wetenschappelijke ontdekking die meer dan 20 keer sneller kan werken dan bestaande raamwerken. Gegeven een taak, een initieel programma en een script om de prestaties van het programma te evalueren, verbetert Aster het programma iteratief, wat vaak leidt tot nieuwe state-of-the-art prestaties. De aanzienlijke vermindering van het aantal iteraties dat Aster nodig heeft voor nieuwe ontdekkingen, breidt het domein van hanteerbare problemen uit naar taken met lange evaluatieduren, zoals meeruren durende machine learning-trainingsruns. Wij pasten Aster toe op problemen in de wiskunde, GPU-kernelengineering, biologie, neurowetenschappen en de training van taalmodel(len). Meer specifiek: het Erdős-minimum-overlap-probleem, het optimaliseren van de TriMul-kernel, een ruisonderdrukkingsprobleem bij single-cell-analyse, het trainen van een neurale activiteitsvoorspellingsmodel voor goede prestaties op ZAPBench, en de NanoGPT Speedrun Competition. Aster behaalt state-of-the-art resultaten in elke taak, met uitzondering van ZAPBench, waar het de prestaties van de beste menselijke oplossing evenaart met minder dan 1/190e van de rekenkracht. Aster is toegankelijk via een webinterface en API op asterlab.ai.
Recente vooruitgang in mixture-of-experts-architecturen heeft aangetoond dat individuele expertmodellen gefedereerd kunnen worden getraind, d.w.z. geïsoleerd van andere experts, door gebruik te maken van een gemeenschappelijk basismodel om coördinatie te vergemakkelijken. Wij veronderstellen echter dat experts op volledige schaal niet voor alle domeinen noodzakelijk zijn en dat in plaats daarvan low-rank-adapters voldoende kunnen zijn. Hier introduceren wij FlexMoRE, een Flexibel Mengsel van Rank-heterogene Experts, die ofwel experts op volledige schaal kunnen zijn, ofwel adapters met een geschikte rang. Wij onderzoeken systematisch de afweging tussen de rang van de expert en de prestaties op downstreamtaken door 6 experts te evalueren met rangen van 2^0 tot 2^{14, wat resulteert in experimenten met 150 mengsels (96 met 2 experts, 54 met 7 experts) die worden geëvalueerd over 120 taken. Voor onze experimenten bouwen wij voort op FlexOlmo en zetten diens vooraf getrainde experts om in low-rank-versies. Onze regressieanalyse van expertrang naar downstreamtaakprestatie onthult dat de best presterende rang aanzienlijk hoger is voor benchmarks die zwaar op redeneren leunen dan voor benchmarks die zwaar op kennis leunen. Deze bevindingen over ranggevoeligheid hebben directe implicaties voor geheugenefficiëntie: door gebruik te maken van optimale rangen levert FlexMoRE verbeterde downstreamtaakprestaties (gemiddelde score 47,18) op in vergelijking met de baseline, een FlexOlmo-stijl mengsel van experts op volledige schaal (gemiddelde score 45,46), met minder dan een derde van de parameters (10,75B voor FlexMoRE vs. 33,27B voor FlexOlmo). Alle code zal beschikbaar worden gesteld.
Grote taalmodellen maken gebruik van kv-caches om redundante berekeningen tijdens autoregressieve decodering te vermijden, maar naarmate de contextlengte toeneemt, kunnen het lezen en schrijven van de cache snel de GPU-geheugenbandbreedte verzadigen. Recent onderzoek heeft kv-cache-compressie verkend, maar de meeste methoden negeren de data-afhankelijke aard van kv-caches en hun variatie tussen lagen. Wij introduceren KV-CoRE (KV-cache Compressibility by Rank Evaluation), een SVD-gebaseerde methode om de data-afhankelijke lage-rangcompressibiliteit van kv-caches te kwantificeren. KV-CoRE berekent de optimale lage-rangbenadering onder de Frobeniusnorm en maakt, doordat het gradient-vrij en incrementeel is, efficiënte evaluatie op datasetniveau en per laag mogelijk. Met deze methode analyseren we meerdere modellen en datasets die vijf Engelstalige domeinen en zestien talen beslaan, waarbij we systematische patronen ontdekken die compressibiliteit koppelen aan modelarchitectuur, trainingsdata en taaldekking. Als onderdeel van deze analyse gebruiken we de Genormaliseerde Effectieve Rang als maatstaf voor compressibiliteit en tonen we aan dat deze sterk correleert met prestatieverlies onder compressie. Onze studie vestigt een principieel evaluatieraamwerk en de eerste grootschalige benchmark voor kv-cache-compressibiliteit in grote taalmodellen, wat inzichten biedt voor dynamische, data-bewuste compressie en data-gefocuste modelontwikkeling.
Multi-vector late-interaction retrievers zoals ColBERT bereiken state-of-the-art retrievalkwaliteit, maar hun querytijdkosten worden gedomineerd door het exhaustief berekenen van token-level MaxSim-interacties voor elk kandidaatdocument. Hoewel approximatie van late interactie met single-vector representaties de kosten reduceert, leidt dit vaak tot substantieel accuratesseverlies. Wij introduceren Col-Bandit, een querytijd pruning-algoritme dat deze computationele last vermindert door herrangschikking te modelleren als een eindige-populatie Top-K identificatieprobleem. Col-Bandit houdt onzekerheidsbewuste grenzen aan voor partieel geobserveerde documentscores en onthult adaptief alleen de (document, query token) MaxSim-ingangen die nodig zijn om de topresultaten te bepalen onder statistische beslissingsgrenzen met een afstembare relaxatie. In tegenstelling tot coarse-grained benaderingen die volledige documenten of tokens offline wegprunen, sparsificeert Col-Bandit de interactiematrix on-the-fly. Het opereert als een zero-shot, drop-in laag bovenop standaard multi-vector systemen, vereist geen indexmodificaties, offline preprocessing of modelhertraining. Experimenten op tekstuele (BEIR) en multimodale (REAL-MM-RAG) benchmarks tonen aan dat Col-Bandit rankingfideliteit behoudt terwijl het MaxSim FLOPs met tot 5 keer reduceert, wat aangeeft dat dichte late-interactie scoring substantiële redundantie bevat die efficiënt geïdentificeerd en weggepruned kan worden tijdens querytijd.
Test-tijd compute-toewijzing in grote redeneermodellen (LRM's) wordt veelvuldig toegepast en kent toepassingen in wiskundig probleemoplossen, codesynthese en planning. Recent werk heeft dit probleem aangepakt door schaalvergroting van zelfconsistentie en parallel denken, door het toevoegen van generieke "denktokens" en door modellen aan te sporen de vraag opnieuw te lezen voordat ze antwoorden. Helaas injecteren deze benaderingen ofwel taakonafhankelijke tokens, of leggen ze heuristieken op die de spontane herhaling die veel LRM's vertonen aan het begin van hun interne redeneerketens niet verklaren – en vaak negeren. Daarentegen analyseren en benutten wij de neiging van het model om de vraag te herformuleren, wat wij de Echo van de Prompt (EOP) noemen, als een vooraf ingelaste, compute-vormende mechanisme. Wij formaliseren de probabilistische kost ervan door echo-verwijdering te modelleren als conditionering op basis van verwerping en door de Echo Waarschijnlijkheidskloof ΔL te definiëren als een berekenbare proxy. Dit voorziet in de ontbrekende theoretische schakel die vroege herhaling verbindt aan waarschijnlijkheidswinst en downstream-nauwkeurigheid. Dit specificeert echter op zichzelf niet hoe EOP te exploiteren. Derhalve ontwikkelen wij Echo-Gedistilleerde SFT (ED-SFT) om een "echo-dan-redeneer"-patroon in te prenten door supervised finetuning, en Echoïsche Prompting (EP) om het model midden in de redeneerreeks opnieuw te gronden zonder training. Hoewel veelbelovend, is het kwantificeren van voordelen voorbij loutere woordrijkheid niet triviaal. Daarom voeren wij lengte- en suffix-gecontroleerde waarschijnlijkheidsanalyses uit, samen met onderzoek naar aandacht per laag, waaruit blijkt dat EOP de aandacht voor het antwoord ten opzichte van het antwoordvoorvoegsel in de middelste lagen vergroot, in overeenstemming met een mechanisme van aandacht-herafstelling. Wij evalueren op GSM8K, MathQA, Hendrycks-MATH, AIME24 en MATH-500 onder identieke decodeerinstellingen en -budgetten, en vinden consistente winsten ten opzichte van de basislijnen. Code is beschikbaar op https://github.com/hhh2210/echoes-as-anchors.
Agentische systemen worden geëvalueerd aan de hand van benchmarks waarbij agenten interacteren met omgevingen om taken op te lossen. De meeste publicaties rapporteren een pass@1-score die wordt berekend op basis van een enkele run per taak, in de veronderstelling dat dit een betrouwbare prestatieschatting oplevert. Wij testen deze aanname door 60.000 agentische trajecten te verzamelen op SWE-Bench-Verified, verspreid over drie modellen en twee scaffolds. We constateren aanzienlijke variantie: pass@1-schattingen op basis van één run variëren met 2,2 tot 6,0 procentpunten afhankelijk van welke run wordt geselecteerd, met standaarddeviaties groter dan 1,5 procentpunten, zelfs bij temperatuur 0. Deze variantie heeft kritieke implicaties: gerapporteerde verbeteringen van 2–3 procentpunten kunnen evaluatieruis weerspiegelen in plaats van echte algoritmische vooruitgang. Door analyse op tokenniveau tonen we aan dat trajecten vroeg divergeren, vaak binnen de eerste paar procent van de tokens, en dat deze kleine verschillen uitmonden in verschillende oplossingsstrategieën. Om betrouwbare evaluatie van agentische systemen mogelijk te maken, bevelen we drie concrete praktijken aan: (1) schat pass@1 op basis van meerdere onafhankelijke runs per taak, vooral bij het meten van kleine verbeteringen, (2) gebruik statistische poweranalyse om het aantal benodigde runs te bepalen om verwachte effectgroottes te detecteren, en (3) overweeg metrieken zoals pass@k (optimistische grens) en pass^k (pessimistische grens) met k>1 om het volledige prestatiebereik beter te karakteriseren. Hoewel deze praktijken de evaluatiekosten verhogen, zijn ze essentieel om echte wetenschappelijke vooruitgang te onderscheiden van statistische ruis.
Tekst-embeddingen maken talloze NLP-toepassingen mogelijk, maar lopen ernstige privacyrisico's door embedding-inversieaanvallen, die gevoelige attributen kunnen blootleggen of ruwe tekst kunnen reconstrueren. Bestaande differentiële-privacyverdedigingen gaan uit van uniforme gevoeligheid over alle embeddingdimensies, wat leidt tot excessieve ruis en verminderde functionaliteit. Wij stellen SPARSE voor, een gebruikersgericht raamwerk voor conceptspecifieke privacybescherming in tekst-embeddingen. SPARSE combineert (1) differentieerbare maskerlearning om privacygevoelige dimensies voor door gebruikers gedefinieerde concepten te identificeren, en (2) het Mahalanobis-mechanisme dat elliptische ruis toepast, gekalibreerd op dimensiegevoeligheid. In tegenstelling tot traditionele sferische ruisinjectie, verstoort SPARSE selectief privacygevoelige dimensies terwijl niet-gevoelige semantiek behouden blijft. Evaluaties over zes datasets met drie embeddingmodellen en aanvalsscenario's tonen aan dat SPARSE consequent privacylekken vermindert en superieure downstreamprestaties bereikt vergeleken met state-of-the-art DP-methoden.
Moderne taalmodelen (TM's) hebben de neiging om delen van hun trainingsdata te memoriseren en letterlijke fragmenten uit te sturen. Wanneer de onderliggende bronnen gevoelig of auteursrechtelijk beschermd zijn, roept een dergelijke reproductie kwesties op van toestemming en compensatie voor makers en compliancerisico's voor ontwikkelaars. Wij stellen *Anchored Decoding* voor, een plug-and-play methode tijdens de inferentiefase om letterlijke kopieeracties te onderdrukken: het maakt decodering mogelijk vanuit elk risicovol TM dat is getraind op data met gemengde licenties, door de gegenereerde tekst binnen een begrensde nabijheid van een veilig TM te houden dat onder een permissieve licentie is getraind. *Anchored Decoding* wijst adaptief een door de gebruiker gekozen informatiebudget toe over het generatietraject en handhaaft beperkingen per stap die een garantie op sequentieniveau opleveren, waardoor een afstemmbare risico-nuttigheid trade-off mogelijk wordt. Om *Anchored Decoding* praktisch bruikbaar te maken, introduceren we een nieuw, onder een permissieve licentie getraind veilig model (TinyComma 1.8B), evenals *Anchored_{Byte} Decoding*, een byte-level variant van onze methode die kruis-vocabularium fusie mogelijk maakt via het ByteSampler-framework (Hayase et al., 2025). We evalueren onze methoden over zes modelparen op lange-termijn evaluaties van auteursrechtelijk risico en nuttigheid. *Anchored* en *Anchored_{Byte} Decoding* definiëren een nieuwe Pareto-frontier, waarbij ze bijna de oorspronkelijke vlotheid en feitelijkheid behouden terwijl ze tot 75% van de meetbare kopieerkloof (gemiddeld over zes kopieermetrieken) tussen de risicovolle baseline en een veilige referentie elimineren, tegen een bescheiden inferentie-overhead.
Causale ontdekking is essentieel voor de vooruitgang van data-gedreven vakgebieden zoals wetenschappelijke AI en data-analyse, maar bestaande methoden kampen met aanzienlijke tijd- en ruimte-efficiëntieproblemen bij het opschalen naar grote grafen. Om deze uitdaging aan te pakken, presenteren we CauScale, een neurale architectuur ontworpen voor efficiënte causale ontdekking die inferentie opschaalt naar grafen met tot wel 1000 knopen. CauScale verbetert de tijdefficiëntie via een reductie-eenheid die data-embeddingen comprimeert en verbetert de ruimte-efficiëntie door gekoppelde aandachtgewichten toe te passen om het onderhouden van as-specifieke aandachtkaarten te vermijden. Om een hoge nauwkeurigheid in causale ontdekking te behouden, hanteert CauScale een tweestroomontwerp: een datastroom haalt relationeel bewijs uit hoogdimensionale observaties, terwijl een graafstroom statistische graafpriors integreert en belangrijke structurele signalen behoudt. CauScale schaalt succesvol op naar grafen met 500 knopen tijdens training, waar eerder werk faalt door ruimtebeperkingen. Over testdata met uiteenlopende graafschalen en causale mechanismen behaalt CauScale 99,6% mAP op in-distributiedata en 84,4% op out-of-distributiedata, terwijl het een 4 tot 13.000 keer snellere inferentie levert dan eerdere methoden. Onze projectpagina staat op https://github.com/OpenCausaLab/CauScale.
Emotiebegrip is essentieel voor het ontwikkelen van sociaal intelligente agents. Hoewel recente multimodale grote taalmodellen sterke prestaties vertonen bij deze taak, blijven twee belangrijke uitdagingen bestaan: spurious associaties tussen emoties en irrelevante audiovisuele cues, en hallucinaties van audiovisuele cues die worden aangedreven door tekstpriors in de taalmodel-backbone. Om deze problemen te kwantificeren en te begrijpen, introduceren we EmoReAlM, een benchmark ontworpen om MLLM's te evalueren op cue-emotie-associaties, hallucinaties en modaliteitsconsistentie. Vervolgens stellen we AVEm-DPO voor, een preference-optimalisatietechniek die modelresponsen afstemt op zowel audiovisuele invoer als emotiegerichte queries. Specifiek construeren we voorkeuren voor responsen die spurious associaties of hallucinaties vertonen, en audiovisuele invoerparen geleid door tekstuele prompts. We voegen ook een regularisatieterm toe die afhankelijkheid van tekstpriors bestraft, waardoor hallucinaties van modaliteit-specifieke cues worden verminderd. Experimentele resultaten op DFEW, RAVDESS en EMER tonen aan dat onze methode de prestaties van de referentie-baselinemodellen significant verbetert met relatieve prestatieverbeteringen van 6-19% in zero-shot settings. Door zowel een rigoureuze benchmark als een robuust optimalisatiekader te bieden, maakt dit werk principiële evaluatie en verbetering van MLLM's voor emotiebegrip en sociale AI mogelijk. Code, modellen en benchmark worden vrijgegeven op https://avere-iclr.github.io.
Retrieval-augmented generation (RAG) verbetert het redeneervermogen van grote taalmodel(len) bij kennisintensieve taken, maar bestaande RAG-pipelines veroorzaken aanzienlijke retrieval- en generatie-overhead wanneer ze worden toegepast op grootschalige entiteitskoppeling. Om deze beperking aan te pakken, introduceren wij CE-RAG4EM, een kostenefficiënte RAG-architectuur die de rekenkosten reduceert via blocking-gebaseerde batch-retrieval en -generatie. Wij presenteren tevens een uniform raamwerk voor het analyseren en evalueren van RAG-systemen voor entiteitskoppeling, met focus op blocking-aware optimalisaties en retrieval-granulariteit. Uitgebreide experimenten tonen aan dat CE-RAG4EM vergelijkbare of verbeterde koppelingskwaliteit kan bereiken, terwijl de end-to-end looptijd aanzienlijk wordt verkort ten opzichte van sterke baseline(s). Onze analyse onthult verder dat cruciale configuratieparameters een inherente afweging introduceren tussen prestaties en overhead, wat praktische richtlijnen biedt voor het ontwerpen van efficiënte en schaalbare RAG-systemen voor entiteitskoppeling en gegevensintegratie.
Partiële differentiaalvergelijkingen zijn nauwkeurig in het modelleren van fysische, biologische en grafische fenomenen. Echter lijden numerieke methoden onder het vloek-der-dimensionaliteit-probleem, hoge rekencosten en domeinspecifieke discretisatie. Wij beogen de voor- en nadelen van verschillende PDE-oplossers te onderzoeken en deze toe te passen op specifieke wetenschappelijke simulatiewetenschappelijke simulatieproblemen, waaronder voorwaartse oplossingen, inverse problemen en vergelijkingsontdekking. In het bijzonder breiden we de recente CNF (NeurIPS 2023) framework-oplosser uit naar multi-afhankelijke-variabele en niet-lineaire settings, samen met downstream-toepassingen. De resultaten omvatten implementatie van geselecteerde methoden, zelfoptimalisatietechnieken, evaluatie op benchmarkproblemen en een uitgebreid overzicht van neurale PDE-oplossers en wetenschappelijke simulatie-toepassingen.
Grote Taalmodellen (LLM's) beloven de ontdekking te versnellen door te redeneren over het zich uitbreidende wetenschappelijke landschap. De uitdaging is echter niet langer de toegang tot informatie, maar het op zinvolle, domeinoverschrijdende manieren verbinden ervan. In de materiaalkunde, waar innovatie de integratie van concepten vereist, van moleculaire chemie tot mechanische prestaties, is dit bijzonder acuut. Noch mensen, noch single-agent LLM's kunnen volledig het hoofd bieden aan deze stortvloed aan informatie, waarbij de laatste vaak vatbaar is voor hallucinaties. Om dit knelpunt aan te pakken, introduceren we een multi-agent raamwerk geleid door grootschalige kennisgrafen om duurzame vervangers te vinden voor per- en polyfluoralkylstoffen (PFAS) - chemicaliën die momenteel onder intense regelgevende scrutiny staan. Agenten in het raamwerk specialiseren zich in probleemdecompositie, bewijsretrieval, extractie van ontwerpparameters en grafdoorlopen, waarbij latente verbindingen tussen verschillende kennisbronnen worden blootgelegd om hypothesegeneratie te ondersteunen. Ablatiestudies tonen aan dat de volledige multi-agent pijplijn superieur presteert aan single-shot prompting, wat de waarde van gedistribueerde specialisatie en relationeel redeneren onderstreept. We demonstreren dat door het aanpassen van grafdoorloopstrategieën, het systeem afwisselt tussen exploiterende zoekopdrachten die focussen op domeinkritieke resultaten en explorerende zoekopdrachten die opkomende kruisverbindingen aan het licht brengen. Geïllustreerd aan de hand van het voorbeeld van biomedische slangen, genereert het raamwerk duurzame PFAS-vrije alternatieven die tribologische prestaties, thermische stabiliteit, chemische bestendigheid en biocompatibiliteit in balans brengen. Dit werk vestigt een raamwerk dat kennisgrafen combineert met multi-agent redeneren om de materiaalontwerpruimte te vergroten, en toont verschillende initiële ontwerpkandidaten om de aanpak te demonstreren.
Collectieve beweging in visscholen illustreert opkomende zelforganisatie in actieve materiesystemen, maar computationele hulpmiddelen voor het simuleren en analyseren van deze dynamiek blijven versnipperd over onderzoeksgroepen. Wij presenteren dewi-kadita, een open-source Python-bibliotheek die het driedimensionale Couzin zone-gebaseerde model implementeert met uitgebreide entropiediagnostiek toegesneden op onderzoek naar collectief gedrag in mariene systemen. De bibliotheek introduceert zeven informatie-theoretische metrieken – entropie van schoolcohesie, polarisatie-entropie, entropie van dieptestratificatie, entropie van hoekmoment, entropie van naaste buren, entropie van snelheidscorrelatie en entropie van schoolvorm – die distinctieve organisatorische kenmerken karakteriseren die ontoegankelijk zijn voor klassieke ordeparameters. Deze metrieken combineren tot een Oceanic Schooling Index (OSI) die een enkele scalaire maat voor collectieve wanorde biedt. Validatie over vier canonieke configuraties (zwerm, torus, dynamisch parallel, hoogparallel) bevestigt de correcte reproductie van bekende fasegedrag: de zwerm handhaaft wanorde met polarisatie P < 0,1 en OSI ≈ 0,71, terwijl de hoogparallelle toestand P = 0,998 bereikt met OSI = 0,24 en entropie van snelheidscorrelatie die naar nul verdwijnt. Het entropieraamwerk onderscheidt succesvol de torus- en dynamisch parallelle configuraties, die vergelijkbare ordeparametergrootten vertonen via verschillende organisatiemechanismen. Numba just-in-time (JIT)-compilatie versnelt paarsgewijze interactieberekeningen met 10–100 keer, waardoor simulaties van 150–250 agenten over 1000–2000 tijdstappen binnen vijf minuten mogelijk zijn op standaard werkstationhardware. NetCDF4-uitvoer zorgt voor interoperabiliteit met oceanografische analysetools. De bibliotheek voorziet in de behoefte aan gestandaardiseerde, reproduceerbare infrastructuur in collectief gedragsmodellering, analoog aan gevestigde moleculairdynamica-codes.
Universele Multimodale Retrieval (UMR) streeft naar zoekopdrachten van-ieder-type-naar-ieder-type over tekst en beeld, maar moderne embeddingmodellen blijven broos wanneer zoekopdrachten latent redeneren vereisen (bijvoorbeeld het oplossen van ongespecificeerde referenties of het matchen van compositionele beperkingen). Wij stellen dat deze broosheid vaak data-veroorzaakt is: wanneer afbeeldingen "stille" aanwijzingen bevatten en zoekopdrachten sleutelsemantiek impliciet laten, moet een enkele embeddingpassing zowel redeneren als comprimeren, wat spurieuze kenmerkmatching in de hand werkt. Wij stellen een data-centrisch raamwerk voor dat deze rollen ontkoppelt door redeneren extern te maken vóór retrieval. Met behulp van een sterk Vision–Language Model maken wij impliciete semantiek expliciet door visuele aanwijzingen in corpusitems dicht te beschrijven (dense captioning), dubbelzinnige multimodale referenties in zoekopdrachten op te lossen, en omslachtige instructies te herschrijven naar beknopte retrievalbeperkingen. Enhancemente tijdens inferentie alleen is onvoldoende; de retriever moet getraind worden op deze semantisch dichte representaties om distributieverschuiving te vermijden en het toegevoegde signaal volledig te benutten. Op M-BEIR levert onze met-redenering-versterkte trainingsmethode consistente verbeteringen op ten opzichte van sterke baselines, waarbij ablatiestudies aantonen dat corpusversterking vooral voordeel biedt bij kennisintensieve zoekopdrachten, terwijl queryversterking cruciaal is voor compositionele modificatieverzoeken. Onze code is openbaar beschikbaar op https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Recent onderzoek toont aan dat Preference Alignment (PA)-doelstellingen fungeren als divergentieschatters tussen uitgelijnde (gekozen) en niet-uitgelijnde (verworpen) responsverdelingen. In dit werk breiden we dit divergentie-gebaseerde perspectief uit naar algemene alignatiesettings, zoals reinforcement learning met verifieerbare beloningen (RLVR), waarbij alleen omgevingsbeloningen beschikbaar zijn. Binnen dit verenigde raamwerk stellen we f-Group Relative Policy Optimization (f-GRPO) voor, een klasse van on-policy reinforcement learning, en f-Hybrid Alignment Loss (f-HAL), een hybride on/off-policy doelstelling, voor algemene LLM-alignment op basis van de variationale representatie van f-divergenties. Wij bieden theoretische garanties dat deze klassen van doelstellingen de gemiddelde beloning na alignment verbeteren. Empirisch valideren we ons raamwerk voor zowel RLVR (wiskundig redeneren) als PA-taken (veiligheidsalignment), waarbij we superieure prestaties en flexibiliteit aantonen in vergelijking met huidige methoden.
Wij presenteren de eerste uitgebreide Lean 4-formalisering van de statistische leertheorie (SLT), gegrondvest in de theorie van empirische processen. Onze end-to-end formele infrastructuur implementeert de ontbrekende inhoud in de nieuwste Lean 4 Mathlib-bibliotheek, inclusief een complete ontwikkeling van Gaussische Lipschitz-concentratie, de eerste formalisering van Dudley's entropie-integraalstelling voor sub-Gaussische processen, en een toepassing op kleinste-kwadraten-(schaarse)regressie met een scherpe snelheid. Het project werd uitgevoerd met behulp van een mens-AI-samenwerkingsworkflow, waarbij mensen bewijsstrategieën ontwerpen en AI-agenten tactische bewijsconstructie uitvoeren, wat leidde tot de door mensen geverifieerde Lean 4-toolbox voor SLT. Naast de implementatie legt het formaliseringsproces impliciete aannames en ontbrekende details in standaard SLT-leerboeken bloot en lost deze op, waardoor een gedetailleerd, regel-voor-regel begrip van de theorie wordt afgedwongen. Dit werk vestigt een herbruikbare formele basis en opent de deur voor toekomstige ontwikkelingen in de machinaal leren-theorie. De code is beschikbaar op https://github.com/YuanheZ/lean-stat-learning-theory.