Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben opmerkelijke successen geboekt in het begrijpen van broncode, maar naarmate softwaresystemen in schaal toenemen, is computationele efficiëntie een kritieke bottleneck geworden. Momenteel vertrouwen deze modellen op een op tekst gebaseerd paradigma dat broncode behandelt als een lineaire reeks tokens, wat leidt tot een lineaire toename van de contextlengte en de daarmee gepaard gaande computationele kosten. De snelle vooruitgang van Multimodale LLMs (MLLMs) biedt een kans om de efficiëntie te optimaliseren door broncode weer te geven als gerenderde afbeeldingen. In tegenstelling tot tekst, die moeilijk te comprimeren is zonder semantische betekenis te verliezen, is de beeldmodaliteit van nature geschikt voor compressie. Door de resolutie aan te passen, kunnen afbeeldingen worden geschaald naar een fractie van hun oorspronkelijke tokenkost, terwijl ze herkenbaar blijven voor modellen met visuele capaciteiten. Om de haalbaarheid van deze aanpak te onderzoeken, voeren we de eerste systematische studie uit naar de effectiviteit van MLLMs voor codebegrip. Onze experimenten tonen aan dat: (1) MLLMs effectief code kunnen begrijpen met een aanzienlijke tokenreductie, waarbij compressie tot 8x wordt bereikt; (2) MLLMs effectief gebruik kunnen maken van visuele aanwijzingen zoals syntaxismarkering, wat de prestaties bij codecompletering verbetert bij 4x compressie; en (3) Codebegriptaken zoals klonedetectie een uitzonderlijke veerkracht vertonen ten opzichte van visuele compressie, waarbij sommige compressieverhoudingen zelfs lichtjes beter presteren dan onbewerkte tekstinvoer. Onze bevindingen belichten zowel de potentiële mogelijkheden als de huidige beperkingen van MLLMs in codebegrip, wat wijst op een verschuiving naar beeldmodaliteit-code-representatie als een weg naar efficiëntere inferentie.
Taalagentschappen tonen groot potentieel voor taakautomatisering. De verwezenlijking hiervan voor steeds complexere, langetermijntaken heeft geleid tot de opkomst van een subagent-als-hulpmiddelen-paradigma voor multiturn-taakoplossing. Bestaande ontwerpen missen echter een dynamisch abstractieperspectief op subagentschappen, wat de aanpasbaarheid schaadt. Wij pakken deze uitdaging aan met een uniforme, framework-agnostische agentabstractie die elk agentschap modelleert als een tuple (Instructie, Context, Hulpmiddelen, Model). Deze tuple fungeert als een compositioneel recept voor capaciteiten, waardoor het systeem gespecialiseerde uitvoerders voor elke taak naar behoefte kan genereren. Voortbouwend op deze abstractie introduceren we een agentisch systeem, AOrchestra, waarbij de centrale orchestrator bij elke stap de tuple concretiseert: het kurateert taakrelevante context, selecteert hulpmiddelen en modellen, en delegeert uitvoering via automatische agentcreatie on-the-fly. Dergelijke ontwerpen maken vermindering van menselijke engineeringinspanningen mogelijk en blijven framework-agnostisch met plug-and-play-ondersteuning voor diverse agentschappen als taakuitvoerders. Het stelt ook een beheersbare prestatie-kostenafweging in staat, waardoor het systeem Pareto-efficiëntie kan benaderen. Over drie uitdagende benchmarks (GAIA, SWE-Bench, Terminal-Bench) behaalt AOrchestra een relatieve verbetering van 16,28% ten opzichte van de sterkste baseline wanneer gekoppeld aan Gemini-3-Flash. De code is beschikbaar op: https://github.com/FoundationAgents/AOrchestra
Dit werk vloeit voort uit eerdere complementaire observaties over de dynamiek van Chain-of-Thought (CoT): Grote Taalmodellen (LLM's) vertonen latente planning van daaropvolgende redenering vóór de opkomst van CoT, waardoor het belang van expliciete CoT afneemt; terwijl CoT cruciaal blijft voor taken die meerstapsredenering vereisen. Om het begrip tussen de interne toestanden van LLM's en hun verbaal gemaakte redeneertrajecten te verdiepen, onderzoeken we de latente planningssterkte van LLM's via onze peilmethode, Tele-Lens, toegepast op verborgen toestanden in diverse taakdomeinen. Onze empirische resultaten geven aan dat LLM's een myopische horizon vertonen en voornamelijk incrementele overgangen uitvoeren zonder precieze globale planning. Gebruikmakend van deze karakteristiek, stellen we een hypothese voor over het verbeteren van onzekerheidsinschatting bij CoT, waarbij we valideren dat een kleine subset van CoT-posities effectief de onzekerheid van het gehele pad kan vertegenwoordigen. We benadrukken verder het belang van het benutten van CoT-dynamiek en tonen aan dat automatische herkenning van CoT-omleiding kan worden bereikt zonder prestatieverlies. Onze code, data en modellen zijn vrijgegeven op https://github.com/lxucs/tele-lens.
Het automatiseren van AI-onderzoek verschilt van algemene software-engineering door computationeel dure evaluatie (bijvoorbeeld modeltraining) en ondoorzichtige prestatietoewijzing. Huidige op LLM gebaseerde agents worstelen hier vaak mee en genereren monolithische scripts die uitvoeringskosten en causale factoren negeren. Wij introduceren MARS (Modular Agent with Reflective Search), een raamwerk geoptimaliseerd voor autonoom AI-onderzoek. MARS steunt op drie pijlers: (1) Budgetbewuste Planning via kostenbeperkte Monte Carlo Tree Search (MCTS) om prestaties expliciet af te wegen tegen uitvoeringskosten; (2) Modulaire Constructie, waarbij een "Ontwerp-Ontleed-Implementeer"-pijplijn wordt gebruikt om complexe onderzoeksrepositories te beheren; en (3) Vergelijkend Reflectief Geheugen, dat de toewijzing van verdiensten aanpakt door oplossingsverschillen te analyseren om hoog-signaal inzichten te destilleren. MARS behaalt state-of-the-art prestaties onder open-source raamwerken op MLE-Bench onder vergelijkbare omstandigheden en blijft concurrerend met de topmethoden op het globale klassement. Bovendien vertoont het systeem kwalitatieve "Aha!"-momenten, waarbij 63% van alle gebruikte lessen afkomstig is uit kruisende transfer tussen zoekpaden, wat aantoont dat de agent inzichten effectief generaliseert over zoekpaden heen.
Hoewel Large Language Models (LLM's) uitblinken in kortetermijntaken, blijft het opschalen ervan naar langetermijn, agent-gestuurde workflows een uitdaging. De belangrijkste bottleneck ligt in de schaarste aan trainingsdata die authentieke langetermijnafhankelijkheidsstructuren en evolutiedynamiek tussen fasen vastlegt – bestaande synthesemethoden beperken zich tot scenario's met één feature, begrensd door het modelbereik, of brengen onbetaalbare kosten voor menselijke annotatie met zich mee, waardoor ze geen schaalbare, hoogwaardige supervisie kunnen bieden. Wij pakken dit aan door datasynthese opnieuw te conceptualiseren door de lens van echte software-evolutie. Onze kerninzicht: Pull Request (PR)-reeksen belichamen van nature de supervisiesignalen voor leren op de lange termijn. Ze ontleden complexe doelstellingen in verifieerbare eenheden, handhaven functionele samenhang tussen iteraties en coderen authentieke verfijningspatronen door middel van bug-fix geschiedenissen. Hierop voortbouwend stellen wij daVinci-Agency voor, dat gestructureerde supervisie systematisch ontgint uit ketens van PR's via drie in elkaar grijpende mechanismen: (1) progressieve taakdecompositie via continue commits, (2) handhaving van langetermijnconsistentie door middel van verenigde functionele doelstellingen, en (3) verifieerbare verfijning vanuit authentieke bug-fix trajecten. In tegenstelling tot synthetische trajecten die elke stap onafhankelijk behandelt, behoudt de op PR's gefundeerde structuur van daVinci-Agency inherent de causale afhankelijkheden en iteratieve verfijningen die essentieel zijn voor het aanleren van persistent doelgericht gedrag, en maakt het een natuurlijke afstemming met projectniveau, volledige-cyclus taakmodellering mogelijk. De resulterende trajecten zijn substantieel – gemiddeld 85k tokens en 116 toolaanroepen – maar toch opmerkelijk data-efficiënt: het fine-tunen van GLM-4.6 op slechts 239 daVinci-Agency monsters leidt tot brede verbeteringen op benchmarks, met name een relatieve winst van 47% op Toolathlon. Naast benchmarkprestaties bevestigt onze analyse...
Bestaande methoden voor bewegingscontrole bij videogeneratie maken doorgaans gebruik van 2D-poses of expliciete 3D-parametrische modellen (zoals SMPL) als stuursignalen. 2D-poses koppelen de beweging echter rigide aan het sturende perspectief, wat nieuwe-weergavesynthese verhindert. Expliciete 3D-modellen, hoewel structureel informatief, lijden onder inherente onnauwkeurigheden (zoals diepte-ambiguïteit en onnauwkeurige dynamiek) die, wanneer gebruikt als sterke beperking, het krachtige intrinsieke 3D-bewustzijn van grootschalige videogeneratoren overschrijven. In dit werk benaderen we bewegingscontrole opnieuw vanuit een 3D-bewust perspectief, waarbij we pleiten voor een impliciete, view-agnostische bewegingrepresentatie die natuurlijk aansluit bij de ruimtelijke priors van de generator in plaats van af te hangen van extern gereconstrueerde beperkingen. Wij introduceren 3DiMo, dat een beweging-encoder gezamenlijk traint met een voorgetrainde videogenerator om sturende frames te destilleren tot compacte, view-agnostische bewegingstokens, die semantisch worden geïnjecteerd via cross-attention. Om 3D-bewustzijn te bevorderen, trainen we met view-rijke supervisie (d.w.z. enkelvoudig perspectief, meervoudig perspectief en bewegende-cameravideo's), waardoor bewegingconsistentie wordt afgedwongen over diverse gezichtspunten. Daarnaast gebruiken we aanvullende geometrische supervisie die SMPL alleen benut voor vroege initialisatie en wordt afgebouwd naar nul, zodat het model kan overgaan van externe 3D-begeleiding naar het leren van een authentiek begrip van ruimtelijke 3D-beweging vanuit de data en de priors van de generator. Experimenten bevestigen dat 3DiMo sturende bewegingen nauwkeurig reproduceert met flexibele, tekstgestuurde cameracontrole, en bestaande methoden significant overtreft in zowel bewegingstrouw als visuele kwaliteit.
Wereldmodellen zijn naar voren gekomen als een cruciaal onderzoeksfront in de AI, met als doel grote modellen te verbeteren door ze te voorzien van kennis over fysieke dynamica en de wereld. De kern doelstelling is om agents in staat te stellen complexe omgevingen te begrijpen, voorspellen en ermee te interacteren. Het huidige onderzoekslandschap blijft echter gefragmenteerd, waarbij benaderingen zich vooral richten op het injecteren van wereldkennis in geïsoleerde taken, zoals visuele voorspelling, 3D-schatting of symbol grounding, in plaats van op het vestigen van een uniforme definitie of raamwerk. Hoewel deze taakspecifieke integraties prestatieverbeteringen opleveren, ontbreekt het hen vaak aan de systematische samenhang die nodig is voor een holistisch wereldbegrip. In dit artikel analyseren we de beperkingen van dergelijke gefragmenteerde benaderingen en stellen we een uniforme ontwerpspecificatie voor wereldmodellen voor. Wij beargumenteren dat een robuust wereldmodel geen losse verzameling capaciteiten moet zijn, maar een normatief raamwerk dat interactie, perceptie, symbolisch redeneren en ruimtelijke representatie integraal incorporeert. Dit werk beoogt een gestructureerd perspectief te bieden om toekomstig onderzoek te leiden naar meer algemene, robuuste en principiële modellen van de wereld.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een cruciale aanpak voor het verbeteren van het redeneervermogen van grote taalmodelen (LLM's). Standaardkaders zoals Group Relative Policy Optimization (GRPO) hanteren echter doorgaans een uniform *rollout*-budget, wat leidt tot inefficiënt gebruik van middelen. Bovendien baseren bestaande adaptieve methoden zich vaak op instantie-specifieke metrieken, zoals taakslaagpercentages, waardoor ze de dynamische leerstatus van het model niet kunnen vastleggen. Om deze beperkingen aan te pakken, stellen wij CoBA-RL voor, een reinforcement learning-algoritme dat is ontworpen om *rollout*-budgetten adaptief toe te wijzen op basis van de evoluerende capaciteit van het model. Concreet gebruikt CoBA-RL een capaciteitsgerichte waardefunctie om taken aan hun potentiële trainingswinst te koppelen en zet het een op een hoop gebaseerde gretige strategie in om de verdeling van rekenresources efficiënt zelf te kalibreren naar samples met een hoge trainingswaarde. Uitgebreide experimenten tonen aan dat onze aanpak de afweging tussen exploratie en exploitatie effectief orchestreert, wat resulteert in consistente verbeteringen in generalisatie op meerdere uitdagende benchmarks. Deze bevindingen benadrukken dat het kwantificeren van de trainingswaarde van samples en het optimaliseren van budgettoewijzing cruciaal zijn voor het bevorderen van de efficiëntie van LLM's na de training.
Distributie-matchingdistillatie (DMD) brengt een multi-stap generator in overeenstemming met zijn tegenhanger met weinig stappen om hoogwaardige generatie tegen lage inferentiekosten mogelijk te maken. DMD heeft echter de neiging tot mode-collaps, omdat zijn reverse-KL-formulering van nature mode-zoekend gedrag aanmoedigt. Bestaande remedies zijn doorgaans afhankelijk van perceptuele of adversariële regularisatie, wat aanzienlijke rekenkosten en trainingsinstabiliteit met zich meebrengt. In dit werk stellen we een raamwerk voor op rolgescheiden distillatie dat de rollen van gedistilleerde stappen expliciet ontvlecht: de eerste stap is gewijd aan het behoud van steekproefdiversiteit via een doelvoorspellingsdoelstelling (bijv. v-predictie), terwijl volgende stappen zich richten op kwaliteitsverbetering onder het standaard DMD-verlies, waarbij gradienten van de DMD-doelstelling bij de eerste stap worden geblokkeerd. We noemen deze aanzoek Diversiteit-Behouden DMD (DP-DMD), die, ondanks zijn eenvoud – geen perceptuele backbone, geen discriminator, geen hulpnetwerken en geen extra grondwaarheidafbeeldingen – de steekproefdiversiteit behoudt en tegelijkertijd een visuele kwaliteit handhaaft die gelijk is aan state-of-the-art methoden in uitgebreide tekst-naar-beeld experimenten.
Recente vooruitgang in grote taalmodellen (LLM's) heeft software-engineeringagenten in staat gesteld complexe codewijzigingstaken aan te pakken. De meeste bestaande benaderingen vertrouwen op uitvoeringsfeedback van gecontaineriseerde omgevingen, die een afhankelijkheidscomplete setup en fysieke uitvoering van programma's en tests vereisen. Hoewel effectief, is dit paradigma resource-intensief en moeilijk te onderhouden, wat de training van agenten aanzienlijk compliceert en de schaalbaarheid beperkt. Wij stellen SWE-World voor, een Docker-vrij framework dat fysieke uitvoeringsomgevingen vervangt door een geleerde surrogaat voor het trainen en evalueren van software-engineeringagenten. SWE-World benut op LLM gebaseerde modellen, getraind op echte interactiedata tussen agent en omgeving, om tussenliggende uitvoeringsresultaten en uiteindelijke testfeedback te voorspellen, waardoor agenten kunnen leren zonder interactie met fysieke gecontaineriseerde omgevingen. Dit ontwerp behoudt de standaard interactielus tussen agent en omgeving, terwijl de behoefte aan kostbare omgevingsconstructie en -onderhoud tijdens agentoptimalisatie en evaluatie wordt geëlimineerd. Bovendien, omdat SWE-World de finale evaluatieresultaten van kandidaat-trajecten kan simuleren zonder echte inzending, maakt het de selectie van de beste oplossing mogelijk uit meerdere testtijdpogingen, waardoor effectieve schaling tijdens testtijd (TTS) in software-engineeringtaken wordt gefaciliteerd. Experimenten op SWE-bench Verified tonen aan dat SWE-World Qwen2.5-Coder-32B verhoogt van 6,2% naar 52,0% via Docker-vrije SFT, naar 55,0% met Docker-vrije RL, en naar 68,2% met verdere TTS. De code is beschikbaar op https://github.com/RUCAIBox/SWE-World.
In dit technisch rapport presenteren wij SWE-Master, een open-source en volledig reproduceerbaar post-training raamwerk voor het bouwen van effectieve software engineering agents. SWE-Master verkent systematisch de complete ontwikkelpijplijn voor agents, inclusief de synthese van teacher-trajecten en datacuratie, long-horizon SFT (Supervised Fine-Tuning), RL (Reinforcement Learning) met feedback van echte uitvoering, en het ontwerp van het inference-raamwerk. Uitgaande van een open-source basismodel met beperkte initiële SWE-capaciteit, demonstreert SWE-Master hoe een systematische optimalisatiemethode sterke lange-termijn SWE-taakoplossende vermogens kan ontlokken. Wij evalueren SWE-Master op SWE-bench Verified, een standaard benchmark voor realistische software engineering taken. Onder identieke experimentele omstandigheden behaalt onze aanpak een oplossingspercentage van 61.4% met Qwen2.5-Coder-32B, wat aanzienlijk beter is dan bestaande open-source baseline-methoden. Door verder test-time scaling (TTS) te integreren met op LLM gebaseerde omgevingsfeedback, bereikt SWE-Master 70.8% bij TTS@8, wat een sterk prestatiepotentieel aantoont. SWE-Master biedt een praktische en transparante basis voor het bevorderen van reproduceerbaar onderzoek naar software engineering agents. De code is beschikbaar op https://github.com/RUCAIBox/SWE-Master.
Tegenwoordig blijft het trainen en evalueren van DeepResearch-gegenereerde rapporten een uitdaging vanwege het gebrek aan verifieerbare beloningssignalen. Derhalve is op rubriek gebaseerde evaluatie een gangbare praktijk geworden. Bestaande benaderingen vertrouwen echter ofwel op grove, vooraf gedefinieerde rubrieken die onvoldoende granulariteit hebben, of zijn afhankelijk van handmatig geconstrueerde, queryspecifieke rubrieken die kostbaar zijn en moeilijk op te schalen. In dit artikel stellen we een pijplijn voor om queryspecifieke rubricgeneratoren te trainen die zijn afgestemd op menselijke voorkeuren, speciaal voor DeepResearch-rapportgeneratie. We construeren eerst een dataset van DeepResearch-stijl queries, geannoteerd met menselijke voorkeuren voor gepaarde rapporten, en trainen rubricgeneratoren via reinforcement learning met een hybride beloning die menselijke voorkeurssupervisie en op LLM gebaseerde rubric-evaluatie combineert. Om langetermijnredenering beter te kunnen hanteren, introduceren we verder een Multi-agent Markov-state (MaMs) workflow voor rapportgeneratie. We tonen empirisch aan dat onze voorgestelde rubricgeneratoren meer onderscheidende en beter op menselijke voorkeuren afgestemde supervisie opleveren dan bestaande rubricontwerpstrategieën. Bovendien presteren DeepResearch-systemen uitgerust met onze rubricgeneratoren, wanneer geïntegreerd in het MaMs-trainingskader, consistent beter dan alle open-source-baselines op de DeepResearch Bench en bereiken ze een prestatieniveau vergelijkbaar met dat van toonaangevende closed-source modellen.
Parallel denken is opgekomen als een veelbelovend paradigma voor redeneren, maar legt aanzienlijke computationele lasten op. Bestaande efficiëntiemethoden zijn voornamelijk gebaseerd op lokale, per-traject signalen en ontberen principiële mechanismen om globale dynamiek tussen parallelle takken te benutten. Wij introduceren 2D-peiling, een interface die de breedte-diepte dynamiek van parallel denken blootlegt door periodiek tussenantwoorden van alle takken op te vragen. Onze analyse onthult drie belangrijke inzichten: niet-monotone schaling over breedte-diepte allocaties, heterogene redeneerlengtes van takken, en vroege stabilisatie van globaal consensus. Geleid door deze inzichten introduceren wij Parallel-Probe, een trainingsvrije controller ontworpen om online parallel denken te optimaliseren. Parallel-Probe gebruikt consensus-gebaseerd vroegtijdig stoppen om de redeneerdiepte te reguleren en deviatie-gebaseerd takken snoeien om de breedte dynamisch aan te passen. Uitgebreide experimenten over drie benchmarks en meerdere modellen tonen aan dat Parallel-Probe een superieur Pareto-frontier vestigt voor testtijd-schaling. Vergeleken met standaard meerderheidsstemmen reduceert het sequentiële tokens met tot 35,8% en de totale tokenkost met meer dan 25,8% terwijl het competitieve nauwkeurigheid behoudt.
Recente ontwikkelingen in multimodale beloningsmodellen (RMs) hebben de vooruitgang in visuele generatie aanzienlijk versneld. Bestaande frameworks hanteren typisch Bradley-Terry-stijl preferentiemodellering of benutten generatieve VLMs als beoordelaars, om vervolgens visuele generatiemodellen te optimaliseren via reinforcement learning. Huidige RMs kampen echter met inherente beperkingen: zij volgen vaak een one-size-fits-all paradigma dat uitgaat van een monolitische preferentiedistributie of steunt op vaste beoordelingsrubrieken. Hierdoor zijn zij ongevoelig voor content-specifieke visuele aanwijzingen, wat leidt tot een systematische misalignering met subjectieve en contextafhankelijke menselijke voorkeuren. Geïnspireerd door menselijke beoordeling, stellen wij daarom UnifiedReward-Flex voor, een verenigd gepersonaliseerd beloningsmodel voor visuele generatie dat beloningsmodellering koppelt aan flexibele en contextadaptieve redenering. Concreet interpreteert het model, gegeven een prompt en de gegenereerde visuele inhoud, eerst de semantische intentie en grondt dit op visueel bewijs, om vervolgens dynamisch een hiërarchische beoordeling op te zetten door het instantiëren van fijnmazige criteria onder zowel vooraf gedefinieerde als zelf gegenereerde hoog-niveau dimensies. Onze trainingspijplijn volgt een tweefasenproces: (1) eerst distilleren we gestructureerde, hoogwaardige redeneersporen uit geavanceerde closed-source VLMs om SFT op te starten, waardoor het model flexibel en contextadaptief redeneergedrag verkrijgt; (2) vervolgens voeren we direct preference optimization (DPO) uit op zorgvuldig samengestelde preferentieparen om de redeneertrouw en discriminerende alignering verder te versterken. Om de effectiviteit te valideren, integreren we UnifiedReward-Flex in het GRPO-framework voor beeld- en videosynthese, en uitgebreide resultaten tonen de superioriteit ervan aan.
Herrangschikking is een cruciaal onderdeel van moderne retrievalsystemen, waarbij doorgaans een efficiënte eerste-fase-retriever wordt gecombineerd met een expressiever model om resultaten te verfijnen. Hoewel grote redeneermodellen een snelle vooruitgang hebben geboekt bij tekstgecentreerde herrangschikking, blijft op redeneren gebaseerde herrangschikking voor videoretrieval onderbelicht. Om deze leemte op te vullen, introduceren we RANKVIDEO, een op redeneren gebaseerde herrangschikker voor videoretrieve die expliciet redeneert over query-videoparen met behulp van videocontent om relevantie te beoordelen. RANKVIDEO wordt getraind met een tweefasencurriculum bestaande uit perceptie-gestuurde supervised fine-tuning, gevolgd door herrangschikkingstraining die pointwise-, pairwise- en teacher confidence-distillatiedoelen combineert, ondersteund door een datasynthesepijplijn voor het construeren van reasoning-intensieve query-videoparen. Experimenten op de grootschalige MultiVENT 2.0-benchmark tonen aan dat RANKVIDEO consistent de retrievalprestaties binnen een tweefasenraamwerk verbetert, met een gemiddelde verbetering van 31% op nDCG@10, en beter presteert dan tekstuele en vision-language-alternatieven voor herrangschikking, terwijl het efficiënter is.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft de redeneervaardigheid van grote taalmodelleen (LLM's) vooruitgebracht, maar wordt nog steeds beperkt door inefficiënte exploratie onder beperkte rollout-budgetten, wat leidt tot lage slaagkans bij sampling en onstabiele training in complexe taken. Wij constateren dat veel exploratiefouten niet voortkomen uit de probleemcomplexiteit, maar uit een klein aantal prompttokens die interferentie introduceren. Voortbouwend op dit inzicht stellen we het Less Noise Sampling Framework (LENS) voor, dat eerst prompt door interferentietokens te identificeren en te verwijderen. Vervolgens transfereert het succesvolle rollouts uit het zuiveringsproces om de policy-optimalisatie op de originele, ruisrijke prompts te superviseren, waardoor het model leert om interferentie te negeren in realistische, rumoerige promptomgevingen. Experimentele resultaten tonen aan dat LENS GRPO significant overtreft, met hogere prestaties en snellere convergentie, een gemiddelde winst van 3,88% en een meer dan 1,6 keer snellere snelheid. Ons werk benadrukt de cruciale rol van het snoeien van interferentietokens bij het verbeteren van de rollout-efficiëntie, en biedt een nieuw perspectief voor RLVR-onderzoek.
Zoekintelligentie evolueert van Diep Onderzoek naar Breed Onderzoek, een paradigma dat essentieel is voor het parallel ophalen en synthetiseren van uitgebreide informatie onder complexe beperkingen. De vooruitgang op dit gebied wordt echter belemmerd door het gebrek aan toegewijde benchmarks en optimalisatiemethodologieën voor zoekbreedte. Om deze uitdagingen aan te pakken, duiken we diep in Breed Onderzoek vanuit twee perspectieven: Datapijplijn en Agentoptimalisatie. Ten eerste produceren we WideSeekBench, een General Broad Information Seeking (GBIS)-benchmark die via een rigoureuze meerfasige datapijplijn is opgebouwd om diversiteit te garanderen in doelinformatievolume, logische beperkingen en domeinen. Ten tweede introduceren we WideSeek, een dynamische hiërarchische multi-agentarchitectuur die autonoom parallelle subagenten kan splitsen op basis van taakvereisten. Verder ontwerpen we een uniform trainingsraamwerk dat multi-agenttrajecten lineariseert en het systeem optimaliseert met end-to-end reinforcement learning. Experimentele resultaten tonen de effectiviteit van WideSeek en multi-agent RL aan, en benadrukken dat het schalen van het aantal agenten een veelbelovende richting is voor de verdere ontwikkeling van het Breed Onderzoek-paradigma.
In discrete generatieve modellering vertonen twee dominante paradigma's uiteenlopende capaciteiten: Gemaskeerde Diffusie Taalmodellen (MDLM) blinken uit in semantisch begrip en zero-shot generalisatie, terwijl Uniforme-ruis Diffusie Taalmodellen (UDLM) sterke kwaliteit bereiken bij generatie in weinig stappen. Geen van beide behaalt evenwichtige prestaties op beide dimensies. Om dit aan te pakken, stellen we XDLM voor, dat de twee paradigma's verbindt via een stationaire ruiskernel. XDLM biedt twee belangrijke bijdragen: (1) het verschaft een principiële theoretische unificatie van MDLM en UDLM, waarbij elk paradigma wordt gerecupereerd als een speciaal geval; en (2) een verlichte geheugenbottleneck mogelijk gemaakt door een algebraïsche vereenvoudiging van de posterior kansen. Experimenten tonen aan dat XDLM de Pareto-frontier tussen begripscapaciteit en generatiekwaliteit verlegt. Kwantitatief overtreft XDLM UDLM met 5.4 punten op zero-shot tekstbenchmarks en presteert het beter dan MDLM bij beeldgeneratie in weinig stappen (FID 54.1 vs. 80.8). Bij het opschalen om een groot taalmodel van 8B parameters af te stemmen, behaalt XDLM 15.0 MBPP in slechts 32 stappen, wat de basislijngprestatie effectief verdubbelt. Ten slotte onthult analyse van de traindynamiek XDLM's superieure potentieel voor langetermijnschaling. Code is beschikbaar op https://github.com/MzeroMiko/XDLM.
Het Homotopie-paradigma, een algemeen principe voor het oplossen van uitdagende problemen, komt voor in diverse domeinen zoals robuuste optimalisatie, globale optimalisatie, het vinden van polynoomwortels en steekproefname. Praktische oplossers voor deze problemen volgen typisch een predictor-corrector (PC) structuur, maar steunen op handmatig gemaakte heuristieken voor stapgroottes en iteratie-einde, die vaak suboptimaal en taakspecifiek zijn. Om dit aan te pakken, verenigen we deze problemen onder een enkel kader, wat het ontwerp van een algemene neurale oplosser mogelijk maakt. Voortbouwend op deze verenigde visie, stellen we Neural Predictor-Corrector (NPC) voor, die handmatige heuristieken vervangt door automatisch aangeleerde beleidsregels. NPC formuleert beleidsselectie als een sequentieel besluitvormingsprobleem en benut reinforcement learning om efficiënte strategieën automatisch te ontdekken. Om de generalisatie verder te verbeteren, introduceren we een geamortiseerd trainingsmechanisme, dat eenmalige offline training voor een klasse van problemen en efficiënte online inferentie op nieuwe instanties mogelijk maakt. Experimenten op vier representatieve homotopieproblemen tonen aan dat onze methode effectief generaliseert naar ongeziene instanties. Het overtreft consistent klassieke en gespecialiseerde baseline-methoden in efficiëntie, terwijl het superieure stabiliteit aantoont over taken heen, wat de waarde benadrukt van het verenigen van homotopiemethoden in een enkel neuraal kader.
De kwadratische complexiteit van aandacht blijft het centrale knelpunt bij inferentie met lange contexten voor grote-taalmodellen. Bestaande versnellingsmethoden sparsifiëren de aandachtmatrix met gestructureerde patronen of verwijderen tokens permanent op specifieke lagen, wat kan resulteren in het behoud van irrelevante tokens of onomkeerbare vroege beslissingen ondanks de laag- en hoofdafhankelijke dynamiek van tokenbelang. In dit artikel stellen we Token Sparse Attention voor, een lichtgewicht en dynamisch sparsificatiemechanisme op tokenniveau dat per hoofd de Q, K, V comprimeert naar een gereduceerde tokenset tijdens de aandachtswerking, en vervolgens de output terug decomprimeert naar de oorspronkelijke sequentie, waardoor tokeninformatie in volgende lagen opnieuw kan worden overwogen. Bovendien biedt Token Sparse Attention een nieuw ontwerppunt op het snijvlak van tokenselectie en sparse attention. Onze aanpak is volledig compatibel met dichte aandacht-implementaties, zoals Flash Attention, en kan naadloos worden gecombineerd met bestaande sparse attention-kernels. Experimentele resultaten tonen aan dat Token Sparse Attention consistent de nauwkeurigheid-latency trade-off verbetert, met een snelheidswinst van tot 3,23× voor aandacht bij een contextlengte van 128K en minder dan 1% nauwkeurigheidsverlies. Deze resultaten demonstreren dat dynamische en geïnterleefde sparsificatie op tokenniveau een complementaire en effectieve strategie is voor schaalbare inferentie met lange contexten.
Het assisteren van niet-deskundige gebruikers bij het ontwikkelen van complexe interactieve websites is een populaire taak geworden voor LLM-gestuurde code-agents. Bestaande code-agents genereren echter vaak alleen frontend webpagina's, waarbij het gebrek aan echte full-stack gegevensverwerking en -opslag wordt verhuld met uitgebreide visuele effecten. Het construeren van productieklasse full-stack webapplicaties is aanzienlijk uitdagender dan alleen het genereren van frontend webpagina's, omdat dit zorgvuldige controle van de gegevensstroom vereist, een uitgebreid begrip van constant bijgewerkte pakketten en afhankelijkheden, en accurate lokalisatie van onduidelijke bugs in de codebase. Om deze problemen aan te pakken, introduceren we FullStack-Agent, een uniform agentsysteem voor full-stack agentgebaseerd programmeren dat uit drie delen bestaat: (1) FullStack-Dev, een multi-agent framework met sterke plannings-, codebewerkings-, codebase-navigatie- en buglokalisatiecapaciteiten. (2) FullStack-Learn, een innovatieve methode voor dataschaling en zelfverbetering die gecrawlde en gesynthetiseerde websiterepositories terugvertaalt om het backbone LLM van FullStack-Dev te verbeteren. (3) FullStack-Bench, een uitgebreide benchmark die de frontend-, backend- en databasefunctionaliteiten van de gegenereerde website systematisch test. Onze FullStack-Dev presteert 8,7%, 38,2% en 15,9% beter dan de vorige state-of-the-art methode op respectievelijk de frontend-, backend- en databasetestcases. Bovendien verhoogt FullStack-Learn de prestaties van een 30B-model met 9,7%, 9,5% en 2,8% op de drie sets testcases door zelfverbetering, wat de effectiviteit van onze aanpak aantoont. De code is vrijgegeven op https://github.com/mnluzimu/FullStack-Agent.
Het bepalen van een effectieve datamix is een cruciale factor bij het vooraf trainen van Large Language Models (LLM's), waarbij modellen een balans moeten vinden tussen algemene competentie en bekwaamheid in moeilijke taken zoals wiskunde en code. Het identificeren van een optimale mix blijft echter een open uitdaging, omdat bestaande benaderingen ofwel vertrouwen op onbetrouwbare kleinschalige proxy-experimenten ofwel een verboden dure grootschalige verkenning vereisen. Om dit aan te pakken, stellen we Decouple Searching from Training Mix (DeMix) voor, een nieuw raamwerk dat modelmerging gebruikt om optimale dataverhoudingen te voorspellen. In plaats van voor elke bemonsterde mix proxymodellen te trainen, traint DeMix componentmodellen op kandidaat-datasets op schaal en leidt het datamix-proxies af via gewogen modelmerging. Dit paradigma ontkoppelt de zoekkosten van de trainingskosten, waardoor de evaluatie van onbeperkte bemonsterde mixes mogelijk wordt zonder extra trainingslast en zo een betere mixontdekking vergemakkelijkt door meer zoekpogingen. Uitgebreide experimenten tonen aan dat DeMix de afweging tussen volledigheid, nauwkeurigheid en efficiëntie doorbreekt, waarbij de optimale mix wordt verkregen met hogere benchmarkprestaties tegen lagere zoekkosten. Daarnaast brengen we de DeMix Corpora uit, een uitgebreide dataset van 22T tokens bestaande uit hoogwaardige trainingsdata met gevalideerde mixes om open onderzoek te faciliteren. Onze code en DeMix Corpora zijn beschikbaar op https://github.com/Lucius-lsr/DeMix.
Adaptieve multimodale redeneervaardigheid is naar voren gekomen als een veelbelovend onderzoeksfront in Vision-Language Models (VLMs), met als doel om dynamisch te schakelen tussen tool-ondersteund visueel redeneren en tekstueel redeneren om zowel effectiviteit als efficiëntie te verbeteren. Bestaande evaluatiemethoden vertrouwen echter op statische moeilijkheidslabels en simplistische metrieken, die de dynamische aard van moeilijkheid in relatie tot variërende modelcapaciteiten niet kunnen vastleggen. Hierdoor vervaagt het onderscheid tussen adaptieve modusselectie en algemene prestaties, terwijl fijnmazige procesanalyses worden verwaarloosd. In dit artikel introduceren we AdaptMMBench, een uitgebreide benchmark voor adaptief multimodaal redeneren over vijf domeinen: alledaagse situaties, OCR, GUI, kennis en wiskunde, die zowel directe perceptie als complexe redeneertaken omvat. AdaptMMBench gebruikt de Matthews Correlatiecoëfficiënt (MCC) als metriek om de selectierationaliteit van verschillende redeneermodi te evalueren, waarbij dit metacognitieve vermogen wordt geïsoleerd door taakmoeilijkheden dynamisch te identificeren op basis van de capaciteitsgrenzen van modellen. Bovendien maakt AdaptMMBench een multidimensionale procesevaluatie mogelijk over de dekking van kerstappen, tool-effectiviteit en computationele efficiëntie. Onze evaluatie toont aan dat hoewel adaptieve modusselectie schaalt met modelcapaciteit, het opmerkelijk losstaat van de uiteindelijke nauwkeurigheid. Daarentegen correleert de dekking van kerstappen wel met prestaties, hoewel tool-effectiviteit sterk inconsistent blijft tussen modelarchitecturen.
Het begrijpen van cultuur vereist redeneren over context, traditie en impliciete sociale kennis, wat ver uitstijgt boven het reproduceren van geïsoleerde feiten. Toch baseren de meeste vraag-antwoordbenchmarks (QA) met een culturele focus zich op enkelvoudige vragen, waarbij modellen mogelijk oppervlakkige aanwijzingen kunnen benutten in plaats van echt cultureel redeneervermogen te tonen. In dit werk introduceren we ID-MoCQA, de eerste grootschalige multi-hop QA-dataset voor het beoordelen van het cultuurbegrip van grote taalmodellen (LLM's), geworteld in Indonesische tradities en beschikbaar in zowel het Engels als het Indonesisch. We presenteren een nieuw raamwerk dat systematisch enkelvoudige culturele vragen omzet in multi-hop redeneerketens over zes soorten aanwijzingen (zoals gezond verstand, temporele en geografische aanwijzingen). Onze pijplijn voor validatie in meerdere fasen, die expertbeoordeling en filtering door een LLM als rechter combineert, garandeert hoogwaardige vraag-antwoordparen. Onze evaluatie van state-of-the-art modellen toont aanzienlijke hiaten in cultureel redeneren, vooral bij taken die genuanceerde inferentie vereisen. ID-MoCQA biedt een uitdagende en essentiële benchmark voor het bevorderen van de culturele competentie van LLM's.
Autoregressieve videowereldmodellen voorspellen toekomstige visuele waarnemingen op basis van acties. Hoewel ze effectief zijn over korte tijdshorizons, worstelen deze modellen vaak met generatie over lange horizons, omdat kleine voorspellingsfouten zich in de tijd opstapelen. Eerdere methoden verlichten dit door voorgetrainde leraarmodellen en sequentieniveau-distributie-afstemming in te voeren, wat extra rekenkosten met zich meebrengt en niet voorkomt dat fouten zich voorbij de trainingshorizon voortplanten. In dit werk stellen we LIVE voor, een Long-horizon Interactive Video world modEl die begrensde foutaccumulatie afdwingt via een nieuwe cyclusconsistentie-objectief, waardoor op leraren gebaseerde distillatie overbodig wordt. Specifiek voert LIVE eerst een forward rollout uit vanaf grondwaarheid-frames en past vervolgens een omgekeerd generatieproces toe om de initiële staat te reconstrueren. Het diffusieverlies wordt vervolgens berekend op de gereconstrueerde eindtoestand, wat een expliciete beperking oplegt aan foutvoortplanting over lange horizons. Bovendien bieden we een verenigde kijk die verschillende benaderingen omvat en introduceren we een progressieve trainingscurriculum om de training te stabiliseren. Experimenten tonen aan dat LIVE state-of-the-art prestaties bereikt op lange-horizon benchmarks, waarbij stabiele, hoogwaardige video's worden gegenereerd ver voorbij de trainingsrollout-lengtes.
Modaliteitsvolging is het vermogen van multimodale grote taalmodellen (MLLMs) om multimodale contexten selectief te benutten op basis van gebruikersinstructies. Dit vermogen is fundamenteel voor het waarborgen van veiligheid en betrouwbaarheid in praktijktoepassingen. De onderliggende mechanismen die dit besluitvormingsproces sturen, zijn echter nog grotendeels onbegrepen. In dit artikel onderzoeken we het werkingsmechanisme door de lens van informatiestromen. Onze bevindingen onthullen dat instructietokens functioneren als structurele ankers voor modaliteitsarbitrage: Oppervlakkige aandachtslagen voeren een niet-selectieve informatieoverdracht uit en leiden multimodale signalen naar deze ankers als een latente buffer; Modaliteitscompetitie wordt opgelost in diepe aandachtslagen, geleid door de intentie van de instructie, terwijl MLP-lagen semantische inertie vertonen en als een tegenwerkende kracht optreden. Verder identificeren we een beperkte set gespecialiseerde aandachtshoofden die deze arbitrage aandrijven. Causale interventies tonen aan dat het manipuleren van slechts 5% van deze kritieke hoofden de modaliteitsvolgratio met 60% kan verlagen door blokkering, of met 60% kan verhogen door gerichte amplificatie van mislukte voorbeelden. Ons werk vormt een significante stap richting modeltransparantie en biedt een principieel kader voor de orchestratie van multimodale informatie in MLLMs.
Rolspecialisatie in multi-LLM-agentensystemen wordt vaak gerealiseerd via multi-LoRA, waarbij agenten een vooraf getrainde backbone delen en alleen verschillen door middel van lichtgewicht adapters. Ondanks het delen van de basismodelgewichten, bouwt en slaat elke agent onafhankelijk zijn eigen KV-cache op voor dezelfde, uitgebreide, met tools verrijkte trajecten, wat aanzienlijke geheugen- en rekenoverhead met zich meebrengt. Bestaande methoden voor het delen van KV-caches houden grotendeels geen rekening met deze multi-LoRA-instelling. Wij observeren dat, tussen agenten onderling, cacheverschillen voornamelijk worden gedomineerd door adapteroutputs, terwijl activaties van de gedeelde vooraf getrainde backbone zeer gelijkwaardig blijven. Gebaseerd op deze observatie stellen wij LRAgent voor, een KV-cache-delingraamwerk voor multi-LoRA-agenten dat de cache ontbindt in een gedeelde basiscomponent van de vooraf getrainde gewichten en een adapter-afhankelijke component van de LoRA-gewichten. LRAgent vermindert de geheugenoverhead door de basiscomponent te delen en de adaptercomponent op te slaan in zijn inherente low-rank vorm, en vermindert verder de rekenoverhead, mogelijk gemaakt door shared-A multi-LoRA-architecturen, door ook de low-rank cache te delen en redundante berekeningen te vermijden voor contexten die reeds door andere agenten zijn verwerkt. Om adapterbijdragen tijdens runtime efficiënt te reconstrueren, introduceren wij Flash-LoRA-Attention, een kernel die de aandacht-berekening herordent om te voorkomen dat de low-rank cache naar volledige dimensie wordt gematerialiseerd. LRAgent bereikt een doorvoer en latentie-tot-eerste-teken die dicht bij volledig gedeelde caching liggen, terwijl de nauwkeurigheid nabij de niet-gedeelde caching-basislijn wordt behouden in benchmarks voor agent-gebaseerde vraag-antwoordtaken.
Zoekgeïntegreerd redeneren stelt taalmodelagenten in staat om statische parametrische kennis te overstijgen door actief externe bronnen te bevragen. De training van dergelijke agenten via reinforcement learning wordt echter belemmerd door het probleem van krediettoewijzing op meerdere schalen: bestaande methodes vertrouwen doorgaans op schaarse, trajectgebaseerde beloningen die geen onderscheid maken tussen hoogwaardig redeneren en toevallige correcte gokken, wat leidt tot redundante of misleidende zoekgedragingen. Om dit aan te pakken, stellen wij Search-R2 voor, een nieuw Actor-Refiner samenwerkingsraamwerk dat het redeneren verbetert via gerichte interventie, waarbij beide componenten gezamenlijk worden geoptimaliseerd tijdens de training. Onze aanpak deelt het generatieproces op in een Actor, die initiële redeneertrajecten produceert, en een Meta-Refiner, die selectief defecte stappen diagnosticeert en repareert via een 'knippen en opnieuw genereren'-mechanisme. Voor fijnmazige supervisie introduceren wij een hybride beloningsontwerp dat uitkomstcorrectheid koppelt aan een dicht procesbeloning die de informatiedichtheid van opgehaald bewijsmateriaal kwantificeert. Theoretisch formaliseren wij de Actor-Refiner interactie als een gladgemaakt mengselbeleid, waarbij wordt bewezen dat selectieve correctie strikte prestatieverbeteringen oplevert ten opzichte van sterke baseline-methoden. Uitgebreide experimenten op diverse algemene en multi-hop vraag-antwoorddatasets tonen aan dat Search-R2 consistent sterke RAG- en RL-gebaseerde baseline-methoden overtreft across verschillende modelschalen, en superieure redeneernauwkeurigheid bereikt met minimale overhead.
Naarmate grote taalmodelen (LLM's) zich verplaatsen van gecureerde trainingssets naar open-ended, realistische omgevingen, duikt een fundamentele beperking op: statische training kan de voortdurende veranderingen in de implementatieomgeving niet bijbenen. Het opschalen van rekenkracht tijdens training en inferentie verbetert de statische capaciteit, maar overbrugt deze kloof tussen training en implementatie niet. Wij stellen dat het aanpakken van deze beperking een nieuwe schaalas vereist: evolutie. Bestaande aanpassingsmethoden tijdens implementatie, of het nu gaat om parametrische fine-tuning of heuristische geheugenaccumulatie, missen de strategische agentiviteit die nodig is om fouten te diagnosticeren en duurzame verbeteringen te produceren. Ons standpunt is dat agent-gebaseerde evolutie de onvermijdelijke toekomst vertegenwoordigt van LLM-aanpassing, waarbij evolutie zelf wordt verheven van een vaste pijplijn naar een autonome evolutie-agent. Wij concretiseren deze visie in een algemeen framework, A-Evolve, dat verbetering tijdens implementatie behandelt als een doelgericht optimalisatieproces van persistente systeemtoestand. Verder stellen wij de evolutie-schalingshypothese voor: de aanpassingscapaciteit schaalt met de aan evolutie toegewezen rekenkracht, wat agent-gebaseerde evolutie positioneert als een schaalbare weg naar volgehouden, open-ended aanpassing in de echte wereld.
Wij introduceren WorldVQA, een benchmark ontworpen om het atomaire visuele wereldkennis van Multimodale Grote Taalmodellen (MLLM's) te evalueren. In tegenstelling tot huidige evaluaties, die het ophalen van visuele kennis vaak vermengen met redeneren, ontkoppelt WorldVQA deze capaciteiten om strikt te meten "wat het model heeft gememoriseerd". De benchmark beoordeelt de atomaire capaciteit om visuele entiteiten te grondvesten en te benoemen volgens een gelaagde taxonomie, die zich uitstrekt van alledaagse hoofdklasse-objecten tot zeldzame exemplaren uit de 'long tail'. Wij verwachten dat WorldVQA zal dienen als een rigoureuze test voor visuele feitelijkheid, en zo een standaard zal vestigen voor het beoordelen van de encyclopedische breedte en hallucinatiepercentages van huidige en toekomstige frontier-modellen.
Autonome agents aangedreven door grote taalmodellen (LLM's) beloven wetenschappelijke ontdekkingen end-to-end te versnellen, maar het rigoureus evalueren van hun vermogen voor verifieerbare ontdekkingen blijft een centrale uitdaging. Bestaande benchmarks kampen met een afweging: ze vertrouwen zwaar op LLM-als-beoordelaar-evaluaties van automatisch gegenereerde onderzoeksoutput of optimaliseren handige maar geïsoleerde prestatiemetrics die grove proxies vormen voor wetenschappelijk inzicht. Om deze kloof te dichten, introduceren we FIRE-Bench (Full-cycle Insight Rediscovery Evaluation), een benchmark die agents evalueert via de herontdekking van gevestigde bevindingen uit recent, impactvol machine learning-onderzoek. Agents krijgen alleen een hoogoverzoeksvraag uit een gepubliceerde, geverifieerde studie en moeten autonoom ideeën verkennen, experimenten ontwerpen, code implementeren, hun plannen uitvoeren en conclusies afleiden die door empirisch bewijs worden ondersteund. We evalueren een reeks state-of-the-art agents met frontier LLM-backbones zoals gpt-5 op FIRE-Bench. Onze resultaten tonen aan dat volledig cyclisch wetenschappelijk onderzoek uitdagend blijft voor huidige agentsystemen: zelfs de sterkste agents behalen beperkt herontdekkingssucces (<50 F1), vertonen een hoge variantie tussen runs en tonen terugkerende faalpatronen in experimenteel ontwerp, uitvoering en evidence-based redenering. FIRE-Bench biedt een rigoureus en diagnostisch kader om de voortgang naar betrouwbare agent-gedreven wetenschappelijke ontdekking te meten.
Het afstemmen van objecten op bijbehorende tekstuele beschrijvingen is een fundamentele uitdaging en een realistische vereiste in visueel-taalkundig begrip. Hoewel recente multimodale inbeddingsmodellen uitblinken in globale beeld-tekst-afstemming, hebben ze vaak moeite met fijnmazige afstemming tussen beeldregio's en specifieke zinsdelen. In dit werk presenteren we ObjEmbed, een nieuw MLLM-inbeddingsmodel dat het invoerbeeld ontleedt in meerdere regionale inbeddingen, elk corresponderend met een individueel object, samen met globale inbeddingen. Het ondersteunt een breed scala aan visuele begriptaken zoals visuele verankering, lokale beeldretrieval en globale beeldretrieval. ObjEmbed beschikt over drie belangrijke eigenschappen: (1) Objectgeoriënteerde representatie: Het vangt zowel semantische als ruimtelijke aspecten van objecten door twee complementaire inbeddingen voor elke regio te genereren: een objectinbedding voor semantische matching en een IoU-inbedding die de localisatiekwaliteit voorspelt. De uiteindelijke objectmatchingscore combineert semantische gelijkenis met de voorspelde IoU, wat nauwkeurigere retrieval mogelijk maakt. (2) Veelzijdigheid: Het verwerkt naadloos zowel regioniveau- als beeldniveautaken. (3) Efficiënte codering: Alle objecten in een beeld, samen met het volledige beeld, worden in één voorwaartse passage gecodeerd voor hoge efficiëntie. Superieure prestaties op 18 diverse benchmarks demonstreren zijn sterke semantische discriminatie.
Pan-kankerscreening in grootschalige CT-scans blijft een uitdaging voor bestaande AI-methoden, voornamelijk vanwege de moeilijkheid om diverse soorten kleine laesies in grote CT-volumes te lokaliseren. De extreme onbalans tussen voor- en achtergrond belemmert modellen aanzienlijk om zich op zieke regio's te concentreren, terwijl overbodige focus op gezonde regio's niet alleen de efficiëntie verlaagt maar ook de vals-positieven verhoogt. Geïnspireerd door de diagnostische strategie van radiologen om eerst globaal te kijken en zich vervolgens te focussen, introduceren wij GF-Screen, een Glance and Focus reinforcement learning-raamwerk voor pan-kankerscreening. GF-Screen gebruikt een Glance-model om de zieke regio's te lokaliseren en een Focus-model om de laesies precies te segmenteren, waarbij de segmentatieresultaten van het Focus-model worden gebruikt om het Glance-model te belonen via Reinforcement Learning (RL). Specifiek snijdt het Glance-model een groep subvolumes uit het gehele CT-volume en leert het de subvolumes met laesies te selecteren voor segmentatie door het Focus-model. Aangezien de selectie-operatie niet differentieerbaar is voor segmentatietraining, stellen wij voor om de segmentatieresultaten te gebruiken om het Glance-model te belonen. Om het Glance-model te optimaliseren, introduceren wij een nieuw groep-relatief leerparadigma, dat groep-relatieve vergelijking gebruikt om voorspellingen met hoog voordeel te prioriteren en voorspellingen met laag voordeel binnen subvolume-groepen te negeren, wat niet alleen de efficiëntie verbetert maar ook vals-positieven vermindert. Op deze manier breiden wij voor het eerst state-of-the-art RL-technieken effectief uit om de specifieke uitdagingen in pan-kankerscreening aan te pakken. Uitgebreide experimenten op 16 interne en 7 externe datasets over 9 laesie-types demonstreerden de effectiviteit van GF-Screen. Opmerkelijk is dat GF-Screen de leiding neemt op het publieke validatie leaderboard van de MICCAI FLARE25 pan-kanker challenge, waarbij het de FLARE24 kampioensoplossing met ruime marge overtrof (+25.6% DSC en +28.2% NSD).
Recentelijk is er aanzienlijke onderzoeksinteresse ontstaan in het trainen van grote taalmmodellen (LLM's) met reinforcement learning (RL) voor real-world taken, zoals multi-turn codegeneratie. Hoewel online RL de neiging heeft beter te presteren dan offline RL, verhinderen de hogere trainingskosten en instabiliteit ervan een brede adoptie. In dit artikel bouwen we voort op de observatie dat multi-turn codegeneratie geformuleerd kan worden als een één-staps herstelbaar Markov-beslissingsproces en stellen we *contextual bandit learning with offline trajectories* (Cobalt) voor, een nieuwe methode die de voordelen van online en offline RL combineert. Cobalt verzamelt eerst codegeneratietrajecten met behulp van een referentie-LLM en deelt deze op in partiële trajecten als contextuele prompts. Vervolgens wordt de LLM tijdens online bandit-learning getraind om elke partiële traject-prompt aan te vullen via één-staps codegeneratie. Cobalt presteert beter dan twee multi-turn online RL-baselines gebaseerd op GRPO en VeRPO, en verbetert R1-Distill 8B en Qwen3 8B aanzienlijk met respectievelijk tot 9,0 en 6,2 absolute Pass@1-scores op LiveCodeBench. Daarnaast analyseren we *in-context reward hacking*-gedrag van LLM's en verrijken we de Cobalt-training met verstoorde trajecten om dit probleem te mitigeren. Over het geheel genomen tonen onze resultaten aan dat Cobalt een veelbelovende oplossing is voor iteratieve besluitvormingstaken zoals multi-turn codegeneratie. Onze code en data zijn beschikbaar op https://github.com/OSU-NLP-Group/cobalt.
Ondanks recente vooruitgang in visueel-taalkundige modellen (VTM's) slagen bestaande benaderingen er vaak niet in om gepersonaliseerde antwoorden te genereren op basis van de specifieke ervaringen van de gebruiker, omdat ze niet in staat zijn visuele input te associëren met de opgebouwde visueel-tekstuele context van een gebruiker. Wij formuleren deze uitdaging nieuw als *contextuele visuele personalisatie*, wat vereist dat VTM's bij het interpreteren van nieuwe afbeeldingen persoonlijke visuele ervaringen zowel visueel herkennen als tekstueel kunnen opzoeken. Om dit probleem aan te pakken, stellen wij CoViP voor, een uniform raamwerk dat gepersonaliseerde beeldbeschrijving behandelt als een kerntaak voor contextuele visuele personalisatie en deze capaciteit verbetert via *reinforcement-learning*-gebaseerde natraining en beschrijvings-aangevulde generatie. Wij introduceren verder diagnostische evaluaties die tekstuele *shortcut*-oplossingen expliciet uitsluiten en verifiëren of VTM's daadwerkelijk visuele context benutten. Uitgebreide experimenten tonen aan dat bestaande open-source en propriëtaire VTM's aanzienlijke beperkingen vertonen, terwijl CoViP niet alleen gepersonaliseerde beeldbeschrijving verbetert, maar ook holistische winst oplevert across downstream personalisatietaken. Deze resultaten onderstrepen CoViP als een cruciale stap naar robuuste en generaliseerbare contextuele visuele personalisatie.
Grote Taalmodellen (LLM's) en Visie-Taalmodellen (VLM's) hebben opmerkelijke capaciteiten getoond. Hun inzet wordt echter belemmerd door aanzienlijke computationele kosten. Bestaande methoden voor gestructureerd snoeien, hoewel hardware-efficiënt, lijden vaak onder een significante nauwkeurigheidsafname. In dit artikel betogen wij dat dit falen voortkomt uit een fase-agnostische snoeiaanpak die de asymmetrische rollen tussen de prefill- en decodefase over het hoofd ziet. Door de introductie van een virtueel-gatemechanisme toont ons belanganalyse aan dat diepe lagen cruciaal zijn voor voorspelling van de volgende token (decode) maar grotendeels overbodig zijn voor contextcodering (prefill). Gebruikmakend van dit inzicht stellen wij Prefill-Only Pruning (POP) voor, een fase-bewuste inferentiestrategie die veilig diepe lagen weglaat tijdens de computationeel intensieve prefill-fase, terwijl het volledige model behouden blijft voor de gevoelige decode-fase. Om de overgang tussen fasen mogelijk te maken, introduceren wij onafhankelijke Key-Value (KV)-projecties om de cache-integriteit te behouden, en een boundary handling-strategie om de nauwkeurigheid van de eerste gegenereerde token te waarborgen. Uitgebreide experimenten met Llama-3.1, Qwen3-VL en Gemma-3 over diverse modaliteiten tonen aan dat POP een versnelling van de prefill-latentie tot 1,37 keer bereikt met minimaal prestatieverlies, waardoor de nauwkeurigheid-efficiëntie afweging van bestaande gestructureerde snoeimethoden effectief wordt overwonnen.
Graphical User Interface (GUI) grounding heeft als doel natuurlijke taal-instructies te vertalen naar uitvoerbare schermcoördinaten, waardoor geautomatiseerde GUI-interactie mogelijk wordt. Onjuiste grounding kan echter leiden tot kostbare, moeilijk terug te draaien acties (zoals foutieve betalingsgoedkeuringen), wat zorgen oproept over de betrouwbaarheid van modellen. In dit artikel introduceren we SafeGround, een onzekerheidsbewust raamwerk voor GUI-groundingmodellen dat risicobewuste voorspellingen mogelijk maakt door kalibraties vóór de testfase. SafeGround benut een distributiebewuste methode voor onzekerheidskwantificering om de ruimtelijke spreiding van stochastische samples uit de outputs van een willekeurig model vast te leggen. Vervolgens leidt SafeGround via het kalibratieproces een beslissingsdrempelwaarde tijdens testtijd af met een statistisch gegarandeerde beheersing van het false discovery rate (FDR). We passen SafeGround toe op meerdere GUI-groundingmodellen voor de uitdagende ScreenSpot-Pro-benchmark. Experimentele resultaten tonen aan dat onze onzekerheidsmaat consistent beter presteert dan bestaande baseline-methoden in het onderscheiden van correcte en incorrecte voorspellingen, terwijl de gekalibreerde drempelwaarde betrouwbaar strenge risicobeheersing en het potentieel voor substantiële nauwkeurigheidsverbeteringen op systeemniveau mogelijk maakt. Over meerdere GUI-groundingmodellen verbetert SafeGround de nauwkeurigheid op systeemniveau met tot 5,38 procentpunt ten opzichte van inference met alleen Gemini.
Recente vooruitgang in grote taalmodellen (LLM's) heeft nieuwe mogelijkheden geopend om wetenschappelijk onderzoek te versnellen. Hoewel modellen in toenemende mate in staat zijn om te assisteren bij routinematige taken, is hun vermogen om bij te dragen aan nieuwe, expert-level wiskundige ontdekkingen minder goed begrepen. Wij presenteren een reeks casestudies die aantonen hoe onderzoekers met succes hebben samengewerkt met geavanceerde AI-modellen, specifiek Google's op Gemini gebaseerde modellen (met name Gemini Deep Think en zijn geavanceerde varianten), om open problemen op te lossen, vermoedens te weerleggen en nieuwe bewijzen te genereren op diverse gebieden binnen de theoretische informatica, evenals andere gebieden zoals economie, optimalisatie en natuurkunde. Op basis van deze ervaringen destilleren we gemeenschappelijke technieken voor effectieve mens-AI-samenwerking in theoretisch onderzoek, zoals iteratieve verfijning, probleemdecompositie en interdisciplinaire kennisoverdracht. Hoewel de meerderheid van onze resultaten voortkomt uit deze interactieve, conversatiemethode, belichten we ook specifieke gevallen die verder gaan dan standaard chat-interfaces. Deze omvatten het inzetten van het model als een rigoureuze adversariële reviewer om subtiele fouten in bestaande bewijzen op te sporen, en het inbedden ervan in een "neuro-symbolische" lus die autonoom code schrijft en uitvoert om complexe afleidingen te verifiëren. Samen illustreren deze voorbeelden het potentieel van AI niet alleen als een tool voor automatisering, maar als een veelzijdige, authentieke partner in het creatieve proces van wetenschappelijke ontdekking.
Transformatiegebaseerde privacybeschermende gezichtsherkenning (PPFR) heeft als doel identiteiten te verifiëren terwijl gezichtsgegevens verborgen worden voor aanvallers en kwaadwillende dienstverleners. Bestaande evaluaties behandelen privacy voornamelijk als weerstand tegen reconstructie op pixelniveau, gemeten met PSNR en SSIM. Wij tonen aan dat deze reconstructiegerichte visie tekortschiet. Wij presenteren FaceLinkGen, een identiteitsextractie-aanval die koppeling/matching en gezichtsregeneratie direct uit beschermde templates uitvoert zonder originele pixels te herstellen. Op drie recente PPFR-systemen bereikt FaceLinkGen een matchingnauwkeurigheid van meer dan 98,5% en een regeneratiesucces van boven 96%, en blijft het zelfs in een near zero knowledge-setting meer dan 92% matching en 94% regeneratie halen. Deze resultaten onthullen een structurele kloof tussen pixelvervormingsmetrieken, die veel worden gebruikt bij PPFR-evaluatie, en werkelijke privacy. Wij tonen aan dat visuele obfuscatie identiteitsinformatie grotendeels blootstelt aan zowel externe indringers als onbetrouwbare dienstverleners.
Kleinere taalmodellen worden steeds meer gezien als een veelbelovende, kosteneffectieve benadering voor agent-gebaseerde AI, waarbij voorstanders beweren dat ze voldoende capaciteit hebben voor agent-workflows. Echter, hoewel kleinere agents de prestaties van grotere kunnen evenaren bij eenvoudige taken, is het onduidelijk hoe hun prestaties zich verhouden tot de taakcomplexiteit, wanneer grote modellen noodzakelijk worden, en hoe kleine agents beter kunnen worden ingezet voor langetermijnworkloads. In dit werk tonen we empirisch aan dat de prestaties van kleine agents niet meeschalen met de complexiteit van diepe zoek- en codeertaken, en introduceren we Strategy Auctions for Workload Efficiency (SALE), een agent-framework geïnspireerd op freelancersmarkten. In SALE bieden agents met korte strategische plannen, die worden beoordeeld door een systematisch kosten-waardemechanisme en verfijnd via een gedeeld auction-geheugen. Dit maakt taakspecifieke routering en continue zelfverbetering mogelijk zonder een aparte router te trainen of alle modellen volledig te laten draaien. Over diepe zoek- en codeertaken van uiteenlopende complexiteit reduceert SALE de afhankelijkheid van de grootste agent met 53%, verlaagt het de totale kosten met 35% en verbetert het consistent de pass@1-score van de grootste agent, met slechts een verwaarloosbare overhead buiten het uitvoeren van de uiteindelijke trace. Gevestigde routers die op taakbeschrijvingen vertrouwen, presteren daarentegen slechter dan de grootste agent of slagen er niet in de kosten te verlagen – vaak beide – wat hun slechte geschiktheid voor agent-workflows onderstreept. Deze resultaten suggereren dat hoewel kleine agents onvoldoende kunnen zijn voor complexe workloads, ze effectief kunnen worden "opgeschaald" door gecoördineerde taaktoewijzing en zelfverbetering tijdens het testen. In bredere zin pleiten ze voor een systeemniveau-benadering van agent-gebaseerde AI, waarbij prestatieverbeteringen minder komen van steeds grotere individuele modellen en meer van marktgeïnspireerde coördinatiemechanismen die heterogene agents organiseren tot efficiënte, adaptieve ecosystemen.
In dit werk onderzoeken we Transformer-optimalisatie opnieuw vanuit het perspectief van tweede-orde-geometrie en leggen we een direct verband tussen architectuurontwerp, activatieschaal, de Hessiaanmatrix en het maximaal verdraagbare leertempo. We introduceren een eenvoudige normalisatiestrategie, genaamd SimpleNorm, die intermediaire activatieschalen van nature stabiliseert. Vervolgens tonen we theoretisch aan, door de Hessiaan van het verlies ten opzichte van netwerkactivaties te analyseren, dat SimpleNorm de spectrale norm van de Hessiaan aanzienlijk reduceert, waardoor grotere stabiele leertempo's mogelijk worden. We valideren onze theoretische bevindingen met uitgebreide experimenten op grote GPT-modellen met parameterschalen van 1B, 1.4B, 7B en 8B. Empirisch gezien verdraagt SimpleGPT, ons op SimpleNorm gebaseerde netwerk, leertempo's die 3 tot 10 keer hoger zijn dan de standaardconventie, toont het consistente optimalisatiestabiliteit en behaalt het aanzienlijk betere prestaties dan gevestigde baseline-modellen. Specifiek, bij het trainen van modellen op 7B-schaal voor 60K stappen, behaalt SimpleGPT een trainigsverlies dat 0,08 lager ligt dan dat van LLaMA2 met QKNorm, waarbij het verlies daalt van 2,290 naar 2,208. Onze broncode zal worden vrijgegeven op https://github.com/Ocram7/SimpleGPT.
Met de opkomst van grootschalige taalmmodellen (LLM's) hebben algemene agents fundamentele vooruitgang geboekt. Het evalueren van deze agents brengt echter unieke uitdagingen met zich mee die hen onderscheiden van statische vraag-antwoordbenchmarks. Wij constateren dat huidige agentbenchmarks sterk worden verstoord door externe factoren, waaronder systeemprompts, toolconfiguraties en omgevingsdynamiek. Bestaande evaluaties zijn vaak gebaseerd op gefragmenteerde, onderzoekerspecifieke raamwerken waarin de promptengineering voor redenering en toolgebruik aanzienlijk varieert, waardoor het moeilijk is prestatiewinst aan het model zelf toe te schrijven. Bovendien leidt het ontbreken van gestandaardiseerde omgevingsdata tot ontraceerbare fouten en niet-reproduceerbare resultaten. Dit gebrek aan standaardisatie introduceert aanzienlijke oneerlijkheid en ondoorzichtigheid in het vakgebied. Wij stellen dat een uniform evaluatieraamwerk essentieel is voor de rigoureuze vooruitgang van agentevaluatie. Daartoe introduceren wij een voorstel gericht op het standaardiseren van agentevaluatie.
Medische beeldsegmentatie evolueert van taakspecifieke modellen naar generaliseerbare raamwerken. Recent onderzoek benut Multi-modale Grote Taalmodellen (MLLM's) als autonome agents, waarbij reinforcement learning met verifieerbare beloning (RLVR) wordt ingezet om gespecialiseerde tools zoals het Segment Anything Model (SAM) te coördineren. Deze benaderingen steunen echter vaak op eenmalige, rigide interactiestrategieën en missen procesniveau-supervisie tijdens de training, wat hun vermogen beperkt om het dynamische potentieel van interactieve tools ten volle te benutten en leidt tot redundante acties. Om deze kloof te overbruggen, stellen wij MedSAM-Agent voor, een raamwerk dat interactieve segmentatie herformuleert als een meerstaps autonoom besluitvormingsproces. Ten eerste introduceren we een hybride promptstrategie voor het genereren van door experts samengestelde trajecten, waardoor het model menselijke beslissingsheuristieken en adaptieve verfijningsstrategieën kan internaliseren. Verder ontwikkelen we een tweefasig trainingsproces dat meerronde, end-to-end resultaatverificatie integreert met een klinisch-getrouw procesbeloningsontwerp om interactiesoberheid en besluitvormingsefficiëntie te bevorderen. Uitgebreide experimenten over 6 medische modaliteiten en 21 datasets tonen aan dat MedSAM-Agent state-of-the-art prestaties bereikt en autonome medische redenering effectief verenigt met robuuste, iteratieve optimalisatie. Code is beschikbaar op https://github.com/CUHK-AIM-Group/MedSAM-Agent.
Klinische brein-naar-tekst-interfaces zijn ontworpen voor verlamde patiënten die geen uitgebreide trainingsopnames kunnen verstrekken. Pre-training verbetert data-efficiënte generalisatie door het leren van statistische priors over proefpersonen heen, maar deze priors zijn cruciaal afhankelijk van context. Terwijl natuurlijke spraak zich geleidelijk over minuten kan ontvouwen, pre-trainen de meeste methodes met slechts enkele seconden context. Daarom stellen we MEG-XL voor, een model dat pre-getraind is met 2,5 minuten MEG-context per sample, 5-300 keer langer dan eerder werk, en gelijkwaardig aan 191k tokens, waardoor uitgebreide neurale context wordt vastgelegd. Na fine-tuning voor de taak van woorddecodering uit breindata, evenaart MEG-XL supervised prestaties met een fractie van de data (bijv. 1 uur vs. 50 uur) en overtreft het brein foundation modellen. We ontdekken dat modellen die met langere contexten zijn pre-getraind, representaties leren die beter overdraagbaar zijn naar woorddecodering. Onze resultaten geven aan dat pre-training met lange context helpt om uitgebreide neurale context te benutten die andere methodes onnodig wegwerpen. Code, modelgewichten en instructies zijn beschikbaar op https://github.com/neural-processing-lab/MEG-XL.
Onderzoek met privacygevoelige gegevens wordt traditioneel beperkt door dataschaarste, wat een scherp contrast vormt met andere domeinen die hebben geprofiteerd van data-schaalvergroting. Deze uitdaging wordt steeds urgenter nu moderne AI-agenten – zoals OpenClaw en Gemini Agent – permanente toegang krijgen tot zeer gevoelige persoonlijke informatie. Om dit langdurige knelpunt en de groeiende risico's aan te pakken, presenteren wij Privasis (een samentrekking van 'privacy oasis' of privacy-oase), de eerste miljoen-schaal volledig synthetische dataset die volledig vanaf nul is opgebouwd – een uitgebreid reservoir van teksten met rijke en gevarieerde privé-informatie – ontworpen om onderzoek te verbreden en te versnellen in domeinen waar de verwerking van gevoelige sociale data onvermijdelijk is. In vergelijking met bestaande datasets biedt Privasis, bestaande uit 1,4 miljoen records, een orde-grootte grotere schaal met kwaliteit, en een aanzienlijk grotere diversiteit aan documenttypen, waaronder medische geschiedenis, juridische documenten, financiële dossiers, agenda's en tekstberichten, met in totaal 55,1 miljoen geannoteerde attributen zoals etniciteit, geboortedatum, werkplek, enz. Wij benutten Privasis om een parallel corpus te construeren voor tekstsanering met onze pijplijn die teksten decomposeert en gerichte sanering toepast. Onze compacte saneringsmodellen (<=4B) die op deze dataset zijn getraind, overtreffen state-of-the-art large language models, zoals GPT-5 en Qwen-3 235B. Wij zijn van plan data, modellen en code vrij te geven om toekomstig onderzoek op privacygevoelige domeinen en voor agents te versnellen.
Het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's) berust doorgaans op het vermogen van het model om een correcte oplossing te bemonsteren die kan worden versterkt, of op het bestaan van een sterker model dat het probleem kan oplossen. Voor veel moeilijke problemen blijven echter zelfs de huidige frontiermodellen ontoereikend, wat het verkrijgen van valide trainingsignalen verhindert. Een veelbelovend alternatief is het benutten van hoogwaardige expertoplossingen van mensen, maar een naïeve imitatie van deze data faalt omdat deze fundamenteel buiten de distributie valt: expertoplossingen zijn doorgaans didactisch van aard en bevatten impliciete redeneerhiaten die bedoeld zijn voor menselijke lezers in plaats van computationele modellen. Bovendien zijn hoogwaardige expertoplossingen kostbaar, wat generaliseerbare, sample-efficiënte trainingsmethoden noodzakelijk maakt. Wij stellen Distribution Aligned Imitation Learning (DAIL) voor, een tweestapsmethode die de distributionele kloof overbrugt door eerst expertoplossingen om te zetten in gedetailleerde, binnen-de-distributie vallende redeneersporen en vervolgens een contrastief doel toe te passen om het leren te richten op expertinzichten en -methodologieën. Wij constateren dat DAIL met minder dan 1000 hoogwaardige expertoplossingen pass@k-winsten van 10-25% kan bereiken op Qwen2.5-Instruct- en Qwen3-modellen, de redeneerefficiëntie met 2x tot 4x kan verbeteren en generalisatie buiten het domein mogelijk maakt.
Hoogwaardige feedback is essentieel voor effectieve mens-AI-interactie. Het overbrugt kennislacunes, corrigeert afdwalingen en vormt het systeemgedrag, zowel tijdens de interactie als gedurende de gehele modelontwikkeling. Ondanks dit belang is menselijke feedback aan AI echter vaak weinig frequent en van lage kwaliteit. Deze kloof motiveert een kritisch onderzoek naar menselijke feedback tijdens interacties met AI's. Om de uitdagingen te begrijpen en te overwinnen die gebruikers ervan weerhouden hoogwaardige feedback te geven, voerden we twee onderzoeken uit naar de feedbackdynamiek tussen mensen en conversationele agents (CA's). Ons formatieve onderzoek identificeerde, door de lens van Grice's maximes, vier feedbackbarrières – Gemeenschappelijke Grond, Verifieerbaarheid, Communicatie en Informativiteit – die hoogwaardige feedback door gebruikers verhinderen. Voortbouwend op deze bevindingen leiden we drie ontwerpvereisten af en tonen we aan dat systemen met ondersteunende structuren die aan deze vereisten voldoen, gebruikers in staat stelden feedback van hogere kwaliteit te geven. Ten slotte doen we een oproep tot actie aan de bredere AI-gemeenschap voor vooruitgang in de capaciteiten van Large Language Models om feedbackbarrières te overwinnen.
De relaties tussen objecten en taal zijn fundamenteel voor betekenisvolle communicatie tussen mensen en AI, en voor praktisch bruikbare belichaamde intelligentie. Wij introduceren HieraNav, een multi-granulariteit, open-vocabulary doel-navigatietaak waarbij agents natuurlijke taal instructies interpreteren om doelen te bereiken op vier semantische niveaus: scène, kamer, regio en instantie. Hiertoe presenteren wij Language as a Map (LangMap), een grootschalige benchmark gebaseerd op real-world 3D indoor-scans met uitgebreide, door mensen geverifieerde annotaties en taken die deze niveaus omspannen. LangMap biedt regiogebiedlabels, onderscheidende regiobeschrijvingen, onderscheidende instantiebeschrijvingen die 414 objectcategorieën beslaan, en meer dan 18K navigatietaken. Elk doel kenmerkt zich door zowel beknopte als gedetailleerde beschrijvingen, wat evaluatie over verschillende instructiestijlen mogelijk maakt. LangMap bereikt een superieure annotatiekwaliteit en overtreft GOAT-Bench met 23,8% in onderscheidend vermogen met viermaal minder woorden. Uitgebreide evaluaties van zero-shot en supervised modellen op LangMap onthullen dat rijkere context en geheugen het succes verbeteren, terwijl long-tailed, kleine, contextafhankelijke en verre doelen, evenals multi-doel voltooiing, uitdagend blijven. HieraNav en LangMap vormen een rigoureuze testomgeving voor de vooruitgang van taalgedreven belichaamde navigatie. Project: https://bo-miao.github.io/LangMap
Het begrijpen van de werking van transformatorcomponenten in grote taalmodel(len) is belangrijk, aangezien dit de kern vormt van recente technologische vooruitgang in kunstmatige intelligentie. In dit werk herbezien we de uitdagingen die gepaard gaan met de interpreteerbaarheid van feed-forward modules (FFN's) en stellen we MemoryLLM voor, dat als doel heeft FFN's los te koppelen van zelf-attentie en ons in staat stelt de losgekoppelde FFN's te bestuderen als contextvrij, token-gewijs neurale ophaalgeheugen. In detail onderzoeken we hoe invoertokens toegang krijgen tot geheugenlocaties binnen de FFN-parameters en het belang van FFN-geheugen bij verschillende downstreamtaken. MemoryLLM bereikt contextvrije FFN's door ze geïsoleerd van zelf-attentie te trainen, rechtstreeks met behulp van de token-embeddingen. Deze aanpak maakt het mogelijk FFN's vooraf te berekenen als token-gewijze opzoekingen (ToL's), wat een on-demand overdracht tussen VRAM en opslag mogelijk maakt en bovendien de inferentie-efficiëntie verbetert. We introduceren ook Flex-MemoryLLM en positioneren dit tussen een conventionele transformatorarchitectuur en MemoryLLM. Deze architectuur overbrugt het prestatieverschil dat wordt veroorzaakt door het trainen van FFN's met contextvrije token-gewijze embeddingen.
Multimodale aanbevelingssystemen integreren doorgaans gebruikersgedrag met multimodale gegevens van items, waardoor nauwkeurigere gebruikersvoorkeuren worden vastgesteld. Tegelijkertijd, met de opkomst van grote modellen (LM's), benut multimodale aanbeveling steeds vaker hun sterke punten in semantisch begrip en contextueel redeneren. Echter, LM-representaties zijn inherent geoptimaliseerd voor algemene semantische taken, terwijl aanbevelingsmodellen sterk leunen op sparse unieke identiteit (ID)-kenmerken van gebruikers/items. Bestaande werken negeren de fundamentele representatiekloof tussen grote modellen en aanbevelingssystemen, wat leidt tot incompatibele multimodale representaties en suboptimale aanbevelingsprestaties. Om deze kloof te overbruggen, stellen we RecGOAT voor, een nieuw maar eenvoudig dual semantisch aligneringskader voor LLM-verbeterde multimodale aanbeveling, dat theoretisch gegarandeerde aligneringscapaciteit biedt. RecGOAT gebruikt eerst graph attention-netwerken om collaboratieve semantiek te verrijken door item-item-, gebruiker-item- en gebruiker-gebruikerrelaties te modelleren, waarbij gebruik wordt gemaakt van LM-representaties en interactiegeschiedenis van gebruikers/items. Verder ontwerpen we een dual-granulariteit progressief multimodaliteit-ID-aligneringskader, dat instantieniveau- en distributieniveau-semantische alignering bereikt via respectievelijk cross-modale contrastieve learning (CMCL) en optimaal adaptief transport (OAT). Theoretisch tonen we aan dat de verenigde representaties afkomstig van ons aligneringskader superieure semantische consistentie en volledigheid vertonen. Uitgebreide experimenten op drie publieke benchmarks tonen aan dat onze RecGOAT state-of-the-art prestaties bereikt, wat onze theoretische inzichten empirisch valideert. Bovendien bevestigt de implementatie op een grootschalig online advertentieplatform de effectiviteit en schaalbaarheid van het model in industriële aanbevelingsscenario's. Code beschikbaar op https://github.com/6lyc/RecGOAT-LLM4Rec.
Veel machineleersystemen hebben toegang tot meerdere informatiebronnen voor hetzelfde voorspellingsdoel, maar deze bronnen verschillen vaak in betrouwbaarheid en informatiewaarde per invoer. Bij bio-akoestische classificatie kan soortidentiteit worden afgeleid zowel uit het akoestische signaal als uit spatiotemporele context zoals locatie en seizoen; hoewel Bayesiaanse inferentie multiplicatieve combinatie van bewijsmateriaal motiveert, hebben we in de praktijk typisch alleen toegang tot discriminerende voorspellers in plaats van gekalibreerde generatieve modellen. Wij introduceren Fusion under INdependent Conditional Hypotheses (FINCH), een adaptief log-lineair kader voor evidence-fusie dat een vooraf getrainde audioclassificeerder integreert met een gestructureerde spatiotemporele voorspeller. FINCH leert een per-sample gatingfunctie die de betrouwbaarheid van contextuele informatie schat uit onzekerheids- en informatiewaardestatistieken. De resulterende fusiefamilie bevat de uitsluitend op audio gebaseerde classificeerder als speciaal geval en begrenst expliciet de invloed van contextueel bewijsmateriaal, wat resulteert in een risicobeheerde hypotheseklasse met een interpreteerbare audio-only fallback. In benchmarks presteert FINCH consistent beter dan fusie met vaste gewichten en uitsluitend op audio gebaseerde systemen, waarbij robuustheid en foutafwegingen verbeteren zelfs wanneer contextuele informatie op zichzelf zwak is. Wij bereiken state-of-the-art prestaties op CBI en competitieve of verbeterde prestaties op verschillende subsets van BirdSet met een lichtgewicht, interpreteerbare, op bewijsmateriaal gebaseerde aanpak. Code is beschikbaar: \href{https://anonymous.4open.science/r/birdnoise-85CD/README.md}{anonieme repository}.
De Key-Value (KV)-cache van Large Language Models (LLM's) is prefix-gebaseerd, wat het zeer inefficiënt maakt voor het verwerken van contexten die in willekeurige volgorde worden opgehaald. Position-Independent Caching (PIC) is voorgesteld om KV-hergebruik mogelijk te maken zonder positionele beperkingen; bestaande benaderingen leiden echter vaak tot aanzienlijke nauwkeurigheidsverliezen, wat hun praktische adoptie beperkt. Om dit probleem aan te pakken, stellen we native PIC voor door de encoder opnieuw te introduceren in gangbare decoder-only LLM's en deze expliciet te trainen om PIC te ondersteunen. We ontwikkelen verder COMB, een PIC-bewust cachesysteem dat naadloos integreert met bestaande inferentieframeworks. Experimentele resultaten tonen aan dat COMB de Time-to-First-Token (TTFT) met 51-94% vermindert en de doorvoer verdrievoudigt met vergelijkbare nauwkeurigheid. Bovendien toont de kwaliteitsverbetering bij gebruik van DeepSeek-V2-Lite-Chat de toepasbaarheid van COMB op andere typen decoder-only LLM's aan. Onze code is beschikbaar op https://github.com/shijuzhao/Comb.