Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De relatie tussen computersystemen en het brein heeft sinds John von Neumann en Alan Turing als motivatie gediend voor baanbrekende theoretici. Uniforme, schaalvrije biologische netwerken, zoals het brein, beschikken over krachtige eigenschappen, waaronder generalisatie over tijd, wat de belangrijkste barrière is voor Machine Learning op weg naar Universele Redeneermodellen. We introduceren `Dragon Hatchling' (BDH), een nieuwe architectuur voor Large Language Models gebaseerd op een schaalvrij, biologisch geïnspireerd netwerk van lokaal interagerende neuronale deeltjes. BDH combineert sterke theoretische fundamenten en inherente interpreteerbaarheid zonder in te leveren op Transformer-achtige prestaties. BDH is een praktische, hoogpresterende state-of-the-art architectuur voor sequentieel leren op basis van aandacht en toestandsruimte. Naast een grafisch model te zijn, biedt BDH een GPU-vriendelijke formulering. Het vertoont Transformer-achtige schaalwetten: empirisch gezien kan BDH de prestaties van GPT2 evenaren bij taal- en vertaaltaakjes, met hetzelfde aantal parameters (10M tot 1B), en met dezelfde trainingsdata. BDH kan worden weergegeven als een breinmodel. Het werkgeheugen van BDH tijdens inferentie berust volledig op synaptische plasticiteit met Hebbiaans leren via spiking neurons. We bevestigen empirisch dat specifieke, individuele synapsen de verbinding versterken wanneer BDH een specifiek concept hoort of overweegt tijdens het verwerken van taalinvoer. Het neuronale interactienetwerk van BDH is een grafiek met een hoge modulariteit en een zwaarstaartige gradenverdeling. Het BDH-model is biologisch plausibel en verklaart een mogelijk mechanisme dat menselijke neuronen zouden kunnen gebruiken om spraak te realiseren. BDH is ontworpen voor interpreteerbaarheid. Activatievectoren van BDH zijn spaarzaam en positief. We demonstreren monosemantiek in BDH bij taaltaken. Interpreteerbaarheid van de toestand, die verder gaat dan de interpreteerbaarheid van neuronen en modelparameters, is een inherent kenmerk van de BDH-architectuur.
MCP standaardiseert hoe LLM's interageren met externe systemen, en vormt daarmee de basis voor algemene agents. Bestaande MCP-benchmarks blijven echter beperkt in scope: ze richten zich op taken die vooral lezen vereisen of taken met beperkte interactiediepte, en slagen er niet in de complexiteit en realiteit van workflows uit de praktijk te vatten. Om deze kloof te dichten, stellen we MCPMark voor, een benchmark die is ontworpen om het gebruik van MCP op een realistischer en uitgebreidere manier te evalueren. Het bestaat uit 127 hoogwaardige taken die in samenwerking met domeinexperts en AI-agents zijn ontwikkeld. Elke taak begint met een zorgvuldig samengestelde initiële staat en bevat een programmatisch script voor automatische verificatie. Deze taken vereisen rijkere en meer diverse interacties met de omgeving, waarbij een breed scala aan create, read, update en delete (CRUD) operaties betrokken is. We voeren een uitgebreide evaluatie uit van state-of-the-art LLM's met behulp van een minimaal agentframework dat opereert in een tool-calling loop. Empirische resultaten laten zien dat het best presterende model, gpt-5-medium, slechts 52,56\% pass@1 en 33,86\% pass^4 behaalt, terwijl andere algemeen erkende sterke modellen, waaronder claude-sonnet-4 en o3, onder de 30\% pass@1 en 15\% pass^4 blijven. Gemiddeld hebben LLM's 16,2 uitvoeringsrondes en 17,4 tool calls per taak nodig, wat aanzienlijk hoger is dan in eerdere MCP-benchmarks en de stresstestnatuur van MCPMark benadrukt.
Hoewel reinforcement learning (RL) effectief de redeneervaardigheden van vision-language models (VLMs) kan verbeteren, blijven huidige methoden sterk afhankelijk van arbeidsintensieve datasets die uitgebreide handmatige constructie en verificatie vereisen, wat leidt tot extreem hoge trainingskosten en daardoor de praktische inzet van VLMs beperkt. Om deze uitdaging aan te pakken, stellen we Vision-Zero voor, een domein-agnostisch framework dat VLM-zelfverbetering mogelijk maakt door middel van competitieve visuele spellen gegenereerd uit willekeurige beeldparen. Specifiek omvat Vision-Zero drie hoofdkenmerken: (1) Strategisch Zelfspel Framework: Vision-Zero traint VLMs in "Wie is de Spion"-achtige spellen, waarbij de modellen strategisch redeneren en handelen in meerdere rollen. Door interactief spel genereren de modellen autonoom hun trainingsdata zonder menselijke annotatie. (2) Spelgeneratie uit Willekeurige Beelden: In tegenstelling tot bestaande gegamificeerde frameworks, kan Vision-Zero spellen genereren uit willekeurige beelden, waardoor het redeneervermogen van het model over diverse domeinen wordt verbeterd en het sterke generalisatie naar verschillende taken vertoont. We demonstreren deze veelzijdigheid met drie verschillende soorten beelddatasets: CLEVR-gebaseerde synthetische scènes, grafieken en real-world beelden. (3) Duurzame Prestatieverbetering: We introduceren Iterative Self-Play Policy Optimization (Iterative-SPO), een nieuw trainingsalgoritme dat afwisselt tussen Zelfspel en reinforcement learning met verifieerbare beloningen (RLVR), waardoor het prestatieplateau dat vaak wordt gezien bij alleen zelfspel-training wordt gemitigeerd en duurzame langetermijnverbeteringen worden bereikt. Ondanks het gebruik van labelvrije data, behaalt Vision-Zero state-of-the-art prestaties op redeneer-, grafiekvraagbeantwoordings- en visiegerichte begripstaken, en overtreft het andere annotatiegebaseerde methoden. Modellen en code zijn vrijgegeven op https://github.com/wangqinsi1/Vision-Zero.
Redeneren is naar voren gekomen als een cruciale vaardigheid in grote taalmodel- len (LLMs). Door middel van Reinforcement Learning (RL), meestal Group Relative Policy Optimization (GRPO), zijn deze modellen in staat complexe taken op te lossen, zoals wiskunde en codegeneratie. Gebaseerd op deze vooruitgang heeft recent onder- zoek geprobeerd redeneren uit te breiden naar visueel-taalmodel-len (VLMs), wat veelbelovende resultaten heeft opgeleverd voor diverse visuele taken. Ondanks deze vooruitgang onthult onze studie de dubbele aard van multimodaal redeneren: hoewel het logische inferentie aanzienlijk verbetert en prestaties op uitdagende problemen faciliteert, kan het geleidelijk aan de perceptuele verankering aantasten, wat leidt tot herkenningsfouten bij anders eenvoudige visuele vragen. Door verdere analyse schrij- ven we dit fenomeen toe aan visueel vergeten, waarbij langdurig redeneren ervoor zorgt dat het model visuele input steeds meer negeert. Om dit aan te pakken, stellen we Vision-Anchored Policy Optimization (VAPO) voor, een eenvoudige maar effectieve methode die het redeneerproces expliciet stuurt naar visueel verankerde trajecten. Ons resulterende model, VAPO-Thinker-7B, versterkt de afhankelijkheid van het model van visuele informatie aanzienlijk en behaalt nieuwe state-of-the-art resultaten op een breed scala aan gevestigde benchmarks. Projectpagina: https://xytian1008.github.io/VAPO/
Naarmate supervised fine-tuning (SFT) evolueert van een lichtgewicht stap na de training naar een rekenintensieve fase die qua omvang vergelijkbaar is met mid-training, is data-efficiëntie cruciaal geworden voor het afstemmen van grote taalmodellen (LLM's) onder strikte budgetten. Bestaande methoden voor data-pruning lijden onder een gefragmenteerd ontwerp: ze werken ofwel op het niveau van individuele voorbeelden ofwel op het niveau van tokens, zonder beide dimensies gezamenlijk te optimaliseren. Deze disconnectie leidt tot aanzienlijke inefficiënties—hoogwaardige voorbeelden kunnen nog steeds redundante tokens bevatten, terwijl token-level pruning vaak cruciale instructie- of correctiesignalen in individuele voorbeelden wegwerpt. Om dit knelpunt aan te pakken, introduceren we het Error-Uncertainty (EU) Vlak, een diagnostisch raamwerk dat de heterogene bruikbaarheid van trainingsdata gezamenlijk karakteriseert over zowel voorbeelden als tokens. Geleid door dit inzicht stellen we Quadrant-based Tuning (Q-Tuning) voor, een uniform raamwerk dat strategisch sample-pruning en token-pruning coördineert. Q-Tuning hanteert een tweestapsstrategie: eerst voert het een triage op voorbeeldniveau uit om voorbeelden te behouden die rijk zijn aan informatieve misvattingen of calibratiesignalen; vervolgens past het een asymmetrisch token-pruningbeleid toe, waarbij een contextbewust scoringsmechanisme wordt gebruikt om minder prominente tokens uitsluitend uit misvatting-voorbeelden te verwijderen, terwijl calibratie-voorbeelden in hun geheel worden behouden. Onze methode vestigt een nieuwe staat van de kunst over vijf diverse benchmarks. Opmerkelijk is dat Q-Tuning op SmolLM2-1.7B een gemiddelde verbetering van +38\% bereikt ten opzichte van de volledige-data SFT-baseline, met slechts 12,5\% van de oorspronkelijke trainingsdata. Als de eerste dynamische pruning-aanpak die consistent beter presteert dan volledige-data training, biedt Q-Tuning een praktische en schaalbare blauwdruk voor het maximaliseren van data-gebruik in budgetbeperkte LLM SFT.
Hoewel grote taalmodellen (LLMs) sterke prestaties hebben laten zien op het gebied van feitelijke vraagbeantwoording, zijn ze nog steeds gevoelig voor hallucinaties en onwaarachtige antwoorden, vooral wanneer taken informatie vereisen die buiten hun parametrische kennis valt. Waarachtigheid vereist inderdaad meer dan alleen nauwkeurigheid — modellen moeten ook onzekerheid herkennen en zich onthouden van antwoorden wanneer ze niet zeker zijn, om hallucinaties te voorkomen. Dit vormt een fundamentele uitdaging voor bestaande methoden: benaderingen die optimaliseren voor nauwkeurigheid versterken vaak hallucinaties, terwijl methoden die onthouding aanmoedigen te conservatief kunnen worden, waardoor correcte antwoorden worden opgeofferd. Beide extremen ondermijnen uiteindelijk de waarachtigheid. In dit werk presenteren we TruthRL, een algemeen reinforcement learning (RL) raamwerk dat direct optimaliseert voor de waarachtigheid van LLMs. Specifiek implementeren we TruthRL met behulp van GRPO met een eenvoudig maar effectief ternair beloningssysteem dat correcte antwoorden, hallucinaties en onthoudingen onderscheidt. Het stimuleert modellen om hallucinaties te verminderen, niet alleen door correcte antwoorden te geven, maar ook door onthouding mogelijk te maken wanneer ze onzeker zijn, waardoor de waarachtigheid wordt verbeterd. Uitgebreide experimenten over vier kennisintensieve benchmarks laten zien dat, vergeleken met standaard RL, TruthRL hallucinaties significant vermindert met 28,9% en de waarachtigheid verbetert met 21,1%, met consistente verbeteringen over verschillende basismodellen (bijv. Qwen, Llama) onder zowel retrieval- als niet-retrieval setups. Een diepgaande ablatiestudie toont aan dat standaard nauwkeurigheidsgedreven methoden, zoals supervised fine-tuning of RL met een binair beloningssysteem, moeite hebben om feitelijke correctheid en onzekerheid in balans te brengen. Daarentegen bereikt onze voorgestelde waarachtigheidsgedreven TruthRL sterke prestaties in zowel nauwkeurigheid als waarachtigheid, wat het belang benadrukt van het ontwerp van leerdoelen voor het ontwikkelen van waarachtige LLMs.
Grote Taalmodellen (LLMs), ondanks dat ze alleen op tekst zijn getraind, ontwikkelen verrassend genoeg rijke visuele voorkennis. Deze voorkennis maakt het mogelijk om latente visuele capaciteiten te ontgrendelen voor visuele taken met een relatief kleine hoeveelheid multimodale data, en in sommige gevallen zelfs visuele taken uit te voeren zonder ooit een beeld te hebben gezien. Door systematische analyse onthullen we dat visuele voorkennis - de impliciete, emergente kennis over de visuele wereld die wordt verworven tijdens taalpretraining - bestaat uit afzonderlijke perceptie- en redeneervoorkennis met unieke schaalpatronen en oorsprongen. We laten zien dat de latente visuele redeneervaardigheid van een LLM voornamelijk wordt ontwikkeld door pretraining op redeneringsgerichte data (bijv. code, wiskunde, academische teksten) en progressief schaalt. Deze redeneervoorkennis die wordt verkregen uit taalpretraining is overdraagbaar en universeel toepasbaar op visueel redeneren. Daarentegen ontstaat een perceptievoorkennis meer diffuus uit brede corpora, en is perceptievermogen gevoeliger voor de visuele encoder en visuele instructieafstemmingsdata. Tegelijkertijd blijkt tekst die de visuele wereld beschrijft cruciaal, hoewel de prestatie-impact ervan snel verzadigt. Gebruikmakend van deze inzichten, stellen we een data-gerichte aanpak voor voor het pretrainen van visueel bewuste LLMs en verifiëren we deze op een schaal van 1T tokens pretraining. Onze bevindingen zijn gebaseerd op meer dan 100 gecontroleerde experimenten die 500.000 GPU-uren in beslag nemen, en beslaan de volledige MLLM-constructiepijplijn - van LLM-pretraining tot visuele afstemming en gesuperviseerde multimodale fine-tuning - over vijf modelschalen, een breed scala aan datacategorieën en -mengsels, en meerdere aanpassingsopstellingen. Naast onze belangrijkste bevindingen, stellen we verschillende hypothesen voor en onderzoeken we deze, en introduceren we de Multi-Level Existence Bench (MLE-Bench). Samen biedt dit werk een nieuwe manier om bewust visuele voorkennis te cultiveren uit taalpretraining, wat de weg vrijmaakt voor de volgende generatie multimodale LLMs.
We introduceren DC-VideoGen, een post-trainingsversnellingsframework voor efficiënte videogeneratie. DC-VideoGen kan worden toegepast op elk vooraf getraind videodiffusiemodel, waarbij de efficiëntie wordt verbeterd door het aan te passen aan een diep gecomprimeerde latente ruimte met lichtgewicht fine-tuning. Het framework is gebaseerd op twee belangrijke innovaties: (i) een Deep Compression Video Autoencoder met een nieuw chunk-causaal temporeel ontwerp dat een 32x/64x ruimtelijke en 4x temporele compressie bereikt, terwijl de reconstructiekwaliteit en generalisatie naar langere video's behouden blijven; en (ii) AE-Adapt-V, een robuuste aanpassingsstrategie die een snelle en stabiele overdracht van vooraf getrainde modellen naar de nieuwe latente ruimte mogelijk maakt. Het aanpassen van het vooraf getrainde Wan-2.1-14B-model met DC-VideoGen vereist slechts 10 GPU-dagen op de NVIDIA H100 GPU. De versnelde modellen bereiken tot 14,8x lagere inferentielatentie dan hun basisvarianten zonder kwaliteitsverlies, en maken verder videogeneratie van 2160x3840 mogelijk op een enkele GPU. Code: https://github.com/dc-ai-projects/DC-VideoGen.
We introduceren OceanGym, de eerste uitgebreide benchmark voor onderwater-embodied agents in de oceaan, ontworpen om AI vooruit te helpen in een van de meest veeleisende real-world omgevingen. In tegenstelling tot terrestrische of luchtgebieden, bieden onderwateromgevingen extreme perceptuele en besluitvormingsuitdagingen, waaronder slecht zicht en dynamische oceaanstromingen, wat effectieve inzet van agents buitengewoon moeilijk maakt. OceanGym omvat acht realistische taakdomeinen en een uniform agent-framework aangedreven door Multi-modale Large Language Models (MLLMs), dat perceptie, geheugen en sequentiële besluitvorming integreert. Agents moeten optische en sonardata begrijpen, autonoom complexe omgevingen verkennen en langetermijndoelen bereiken onder deze barre omstandigheden. Uitgebreide experimenten tonen aanzienlijke verschillen tussen state-of-the-art MLLM-aangedreven agents en menselijke experts, wat de blijvende moeilijkheid van perceptie, planning en aanpassingsvermogen in onderwateroceaanomgevingen benadrukt. Door een hoogwaardig, rigoureus ontworpen platform te bieden, stelt OceanGym een testomgeving in voor het ontwikkelen van robuuste embodied AI en het overdragen van deze capaciteiten naar real-world autonome onderwateroceaanvoertuigen, wat een beslissende stap markeert naar intelligente agents die kunnen opereren in een van de laatste onontgonnen gebieden van de aarde. De code en data zijn beschikbaar op https://github.com/OceanGPT/OceanGym.
Reinforcement Learning met Verifieerbare Beloning (RLVR) lost effectief complexe taken op, maar vereist tijdens de training extreem lange contextlengtes, wat aanzienlijke rekenkosten met zich meebrengt. Hoewel meerfasige training dit gedeeltelijk kan verzachten, leidt het starten met te korte contexten vaak tot onomkeerbare prestatievermindering, waardoor het uiteindelijk niet lukt om de totale trainingsrekentijd significant te verminderen. In dit artikel introduceren we **T**hinking-**F**ree **P**olicy **I**nitialization (**TFPI**), een eenvoudige maar effectieve aanpassing aan RLVR die lange Chain-of-Thought (CoT)-distillatie en standaard RLVR met elkaar verbindt. TFPI maakt gebruik van een eenvoudige *ThinkFree*-operatie, waarbij denkinhoud expliciet wordt weggegooid via een directe *</think>*-toevoeging, om het tokengebruik tijdens inferentie te verminderen. Trainen met *ThinkFree*-aangepaste invoer verbetert de prestaties en verlaagt het tokenverbruik, zelfs in de oorspronkelijke langzaam-denken-modus. Uitgebreide experimenten op diverse benchmarks hebben aangetoond dat TFPI de RL-convergentie versnelt, een hoger prestatieplafond bereikt en meer token-efficiënte redeneermodellen oplevert zonder gespecialiseerde beloningen of complexe trainingsontwerpen. Met alleen TFPI trainen we een 4B-model om een nauwkeurigheid van 89,0% op AIME24 en 65,5% op LiveCodeBench te bereiken met minder dan 4K H20-uren.
Large Language Model (LLM)-gebaseerde beoordelingen maken gebruik van krachtige LLM's om kandidaat-inhoud efficiënt te evalueren en beoordelingsscores te geven. De inherente vooroordelen en kwetsbaarheden van LLM-gegenereerde beoordelingen roepen echter zorgen op, wat de dringende noodzaak benadrukt om ze te onderscheiden in gevoelige scenario's zoals academische peer review. In dit werk stellen we de taak van beoordelingsdetectie voor en formaliseren deze, en onderzoeken we systematisch de detecteerbaarheid van LLM-gegenereerde beoordelingen. In tegenstelling tot LLM-gegenereerde tekstdetectie, is beoordelingsdetectie uitsluitend gebaseerd op beoordelingsscores en kandidaten, wat realistische scenario's weerspiegelt waarin tekstuele feedback vaak niet beschikbaar is tijdens het detectieproces. Onze voorlopige analyse toont aan dat bestaande methoden voor LLM-gegenereerde tekstdetectie slecht presteren vanwege hun onvermogen om de interactie tussen beoordelingsscores en kandidaat-inhoud te vatten – een aspect dat cruciaal is voor effectieve beoordelingsdetectie. Geïnspireerd door dit inzicht introduceren we J-Detector, een lichtgewicht en transparante neurale detector die is versterkt met expliciet geëxtraheerde linguïstische en LLM-verbeterde kenmerken om de vooroordelen van LLM-beoordelaars te koppelen aan de eigenschappen van kandidaten voor nauwkeurige detectie. Experimenten met diverse datasets demonstreren de effectiviteit van J-Detector en laten zien hoe de interpreteerbaarheid ervan het mogelijk maakt om vooroordelen in LLM-beoordelaars te kwantificeren. Tot slot analyseren we belangrijke factoren die de detecteerbaarheid van LLM-gegenereerde beoordelingen beïnvloeden en valideren we de praktische bruikbaarheid van beoordelingsdetectie in realistische scenario's.
De betrouwbaarheid van grote taalmodellen (LLMs) tijdens schaling op testmoment wordt vaak beoordeeld met externe verificatoren of beloningsmodellen die correcte redenering onderscheiden van gebrekkige logica. Eerdere onderzoeken gaan er over het algemeen van uit dat procesbeloningsmodellen (PRMs), die elke tussenliggende redeneerstap beoordelen, beter presteren dan uitkomstbeloningsmodellen (ORMs) die alleen het eindantwoord beoordelen. Deze opvatting is voornamelijk gebaseerd op bewijs uit smalle, wiskundige domeinen. Wij presenteren de eerste geïntegreerde evaluatie van vier varianten van beloningsmodellen, discriminerende ORM en PRM (\DisORM, \DisPRM) en generatieve ORM en PRM (\GenORM, \GenPRM), over 14 diverse domeinen. In tegenstelling tot de conventionele wijsheid, vinden wij dat (i) \DisORM even goed presteert als \DisPRM, (ii) \GenPRM niet competitief is, en (iii) over het algemeen \GenORM het meest robuust is, met significante en consistente verbeteringen over elk getest domein. Wij schrijven dit toe aan stapgewijze scoring in PRM-stijl, die labelruis erft van automatische labeling door LLMs en moeite heeft met het evalueren van lange redeneertrajecten, inclusief die waarbij zelfcorrigerende redenering betrokken is. Onze theoretische analyse toont aan dat stapgewijze aggregatie fouten versterkt naarmate de redeneerlengte toeneemt, en onze empirische observaties bevestigen dit effect. Deze bevindingen dagen de heersende aanname uit dat fijnmazige supervisie altijd beter is en ondersteunen generatieve uitkomstverificatie voor implementatie in meerdere domeinen. Wij maken onze code, datasets en checkpoints openbaar op https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} om toekomstig onderzoek in multi-domein settings te faciliteren.
Panorama heeft een volledig gezichtsveld (FoV) van 360°×180°, wat een completere visuele beschrijving biedt dan perspectiefbeelden. Dankzij deze eigenschap krijgt panoramische diepteschatting steeds meer aandacht in 3D-visie. Echter, vanwege de schaarste aan panoramische data zijn eerdere methoden vaak beperkt tot in-domein instellingen, wat leidt tot slechte zero-shot generalisatie. Bovendien vertrouwen veel benaderingen vanwege de inherente sferische vervormingen in panorama's op perspectiefsplitsing (bijv. kubuskaarten), wat resulteert in suboptimale efficiëntie. Om deze uitdagingen aan te pakken, stellen we DA² voor: Depth Anything in Any Direction, een nauwkeurige, zero-shot generaliseerbare en volledig end-to-end panoramische diepteschatter. Specifiek introduceren we, om panoramische data op te schalen, een data-curatie-engine voor het genereren van hoogwaardige panoramische dieptedata vanuit perspectief, en creëren we ~543K panoramische RGB-diepteparen, wat het totaal op ~607K brengt. Om de sferische vervormingen verder te verminderen, presenteren we SphereViT, dat expliciet gebruikmaakt van sferische coördinaten om de sferische geometrische consistentie in panoramische beeldkenmerken te handhaven, wat resulteert in verbeterde prestaties. Een uitgebreide benchmark op meerdere datasets toont duidelijk de state-of-the-art prestaties van DA² aan, met een gemiddelde verbetering van 38% op AbsRel ten opzichte van de sterkste zero-shot baseline. Verrassend genoeg overtreft DA² zelfs eerdere in-domein methoden, wat zijn superieure zero-shot generalisatie benadrukt. Bovendien, als een end-to-end oplossing, vertoont DA² een veel hogere efficiëntie in vergelijking met fusiegebaseerde benaderingen. Zowel de code als de gecureerde panoramische data zullen worden vrijgegeven. Projectpagina: https://depth-any-in-any-dir.github.io/.
De opmerkelijke capaciteiten van moderne grote redeneermodellen worden grotendeels ontsloten door post-trainings technieken zoals supervised fine-tuning en reinforcement learning. De architectonische mechanismen achter dergelijke verbeteringen blijven echter grotendeels ondoorzichtig. In dit werk gebruiken we circuitanalyse om aan te tonen dat post-training voor complex redeneren de opkomst van nieuwe, functioneel gespecialiseerde aandachtskoppen stimuleert. Deze koppen ondersteunen gezamenlijk gestructureerd redeneren en berekeningen. Onze vergelijkende analyse over de Qwen-families en het DeepSeek-gedistilleerde model onthult dat deze opkomende koppen zich verschillend ontwikkelen onder verschillende trainingsregimes. Distillatie en SFT bevorderen een cumulatieve toevoeging van stabiele redeneerkoppen. Daarentegen opereert group relative policy optimization in een dynamische zoekmodus: relatief weinig aandachtskoppen worden iteratief geactiveerd, geëvalueerd en gesnoeid, waarbij hun overleving nauw samenhangt met fluctuaties in het taakbeloningssignaal. Bovendien ontdekken we dat beheersbare think on/off-modellen geen toegewijde denkkoppen bezitten. In plaats daarvan activeert het uitschakelen van expliciet redeneren een bredere – maar minder efficiënte – set van compenserende koppen. Door middel van ablatie en kwalitatieve analyses verbinden we deze circuitniveau-dynamiek aan een cruciaal prestatie-afweging: versterkte koppen maken geavanceerde probleemoplossingsstrategieën mogelijk voor moeilijke problemen, maar kunnen ook overdenk-faalmodi introduceren, zoals rekenfouten of logische lussen bij eenvoudigere taken. Deze bevindingen verbinden circuitniveau-dynamiek aan macroniveau-prestaties en identificeren een inherente spanning waarbij complex redeneren ten koste gaat van elementaire berekeningen. In bredere zin wijst ons werk op toekomstige richtingen voor het ontwerpen van trainingsbeleid, waarbij de nadruk ligt op het balanceren van de ontwikkeling van effectieve redeneerstrategieën met de zekerheid van betrouwbare, foutloze uitvoering.
Naarmate LLM-gebaseerde agenten steeds vaker worden ingezet in realistische scenario's, slagen bestaande benchmarks er niet in om hun inherente complexiteit te vatten bij het verwerken van uitgebreide informatie, het benutten van diverse bronnen en het beheren van dynamische gebruikersinteracties. Om dit gat te dichten, introduceren we VitaBench, een uitdagende benchmark die agenten evalueert op veelzijdige interactieve taken die geworteld zijn in realistische omgevingen. Geïnspireerd door dagelijkse toepassingen zoals maaltijdbezorging, in-store consumptie en online reisdiensten, biedt VitaBench agenten de meest complexe levensondersteunende simulatieomgeving tot nu toe, bestaande uit 66 tools. Via een raamwerk dat domeinspecifieke beleidsregels elimineert, maken we een flexibele samenstelling van deze scenario's en tools mogelijk, wat resulteert in 100 cross-scenario taken (hoofdresultaten) en 300 single-scenario taken. Elke taak is afgeleid van meerdere echte gebruikersverzoeken en vereist dat agenten redeneren over temporele en ruimtelijke dimensies, complexe toolsets gebruiken, proactief onduidelijke instructies verhelderen en verschuivende gebruikersintenties volgen tijdens meerzijdige gesprekken. Bovendien stellen we een rubric-gebaseerde sliding window evaluator voor, die een robuuste beoordeling mogelijk maakt van diverse oplossingspaden in complexe omgevingen en stochastische interacties. Onze uitgebreide evaluatie toont aan dat zelfs de meest geavanceerde modellen slechts een slagingspercentage van 30% behalen op cross-scenario taken, en minder dan 50% op andere taken. Over het algemeen geloven we dat VitaBench een waardevolle bron zal zijn voor het bevorderen van de ontwikkeling van AI-agenten in praktische real-world toepassingen. De code, dataset en leaderboard zijn beschikbaar op https://vitabench.github.io/.
Beeld-naar-video-generatie heeft aanzienlijke vooruitgang geboekt met de ontwikkelingen in diffusiemodellen, maar het genereren van video's met realistische beweging blijft zeer uitdagend. Deze moeilijkheid ontstaat door de complexiteit van het nauwkeurig modelleren van beweging, wat het vastleggen van fysieke beperkingen, objectinteracties en domeinspecifieke dynamiek omvat die niet gemakkelijk kunnen worden gegeneraliseerd over diverse scenario's. Om dit aan te pakken, stellen we MotionRAG voor, een retrieval-augmented raamwerk dat de realistische beweging verbetert door bewegingvoorafkennis aan te passen vanuit relevante referentievideo's via Context-Aware Motion Adaptation (CAMA). De belangrijkste technische innovaties omvatten: (i) een retrieval-gebaseerde pijplijn die hoogwaardige bewegingskenmerken extraheert met behulp van een video-encoder en gespecialiseerde resamplers om semantische bewegingsrepresentaties te destilleren; (ii) een in-context leerbenadering voor bewegingaanpassing geïmplementeerd via een causale transformer-architectuur; (iii) een aandacht-gebaseerde beweginginjectie-adapter die overgedragen bewegingskenmerken naadloos integreert in vooraf getrainde videodiffusiemodellen. Uitgebreide experimenten tonen aan dat onze methode aanzienlijke verbeteringen bereikt over meerdere domeinen en verschillende basismodellen, allemaal met verwaarloosbare rekenkosten tijdens inferentie. Bovendien maakt ons modulaire ontwerp zero-shot generalisatie naar nieuwe domeinen mogelijk door simpelweg de retrievabledatabase bij te werken zonder enige componenten opnieuw te trainen. Dit onderzoek verbetert de kerncapaciteit van videogeneratiesystemen door het effectief ophalen en overdragen van bewegingvoorafkennis mogelijk te maken, wat de synthese van realistische bewegingsdynamiek vergemakkelijkt.
Diffusion grote taalmodellen (dLLMs) hebben recentelijk aanzienlijke aandacht getrokken binnen de onderzoeksgemeenschap als een veelbelovend alternatief voor autoregressieve generatie, waarbij ze parallelle tokenvoorspelling en lagere inferentielatentie bieden. Toch blijft hun potentieel voor parallelle decodering grotendeels onbenut, aangezien bestaande open-source modellen nog steeds bijna token-lengte decoderingstappen vereisen om de prestaties te garanderen. Om dit aan te pakken, introduceren we dParallel, een eenvoudige en effectieve methode die het inherente parallellisme van dLLMs ontsluit voor snelle sampling. We identificeren dat de belangrijkste bottleneck voor parallelle decodering voortkomt uit de sequentiële zekerheidsconvergentie voor gemaskeerde tokens. Op basis van dit inzicht introduceren we de kern van onze aanpak: certainty-forcing distillatie, een nieuwe trainingsstrategie die het model distilleert om zijn oorspronkelijke samplingtrajecten te volgen, terwijl het wordt afgedwongen om sneller en parallel hoge zekerheid te bereiken voor gemaskeerde tokens. Uitgebreide experimenten over verschillende benchmarks tonen aan dat onze methode het aantal decoderingstappen aanzienlijk kan verminderen terwijl de prestaties behouden blijven. Wanneer toegepast op het LLaDA-8B-Instruct model, reduceert dParallel de decoderingstappen van 256 naar 30 op GSM8K, wat een 8,5x versnelling oplevert zonder prestatieverlies. Op de MBPP-benchmark worden de decoderingstappen teruggebracht van 256 naar 24, wat resulteert in een 10,5x versnelling terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://github.com/czg1225/dParallel.
De Muon-optimizer is consistent sneller dan Adam bij het trainen van grote taalmmodellen (LLM's), maar het mechanisme achter dit succes blijft onduidelijk. Dit artikel ontrafelt dit mechanisme door de lens van associatief geheugen. Door de transformer-componenten die door Muon worden geoptimaliseerd te verwijderen, tonen we aan dat de associatieve geheugenparameters van LLM's, namelijk de Value- en Output (VO) aandachtgewichten en Feed-Forward Networks (FFN's), de belangrijkste bijdragers zijn aan de superioriteit van Muon. Gemotiveerd door dit associatieve geheugenperspectief, verklaren we vervolgens de superioriteit van Muon op real-world corpora, die intrinsiek zwaarstaartig zijn: een paar klassen (staartklassen) komen veel minder vaak voor dan andere. De superioriteit wordt verklaard door twee sleutel eigenschappen: (i) de update-regel levert consistent een meer isotroop singulier spectrum op dan Adam; en als gevolg daarvan, (ii) optimaliseert het op zwaarstaartige data staartklassen effectiever dan Adam. Naast empirisch bevestigen we deze bevindingen theoretisch door een eenlaags associatief geheugenmodel te analyseren onder klasse-onbalansdata. We bewijzen dat Muon consistent gebalanceerd leren over klassen bereikt, ongeacht feature embeddings, terwijl Adam grote verschillen in leerfouten kan veroorzaken afhankelijk van de eigenschappen van embeddings. Samengevat onthullen onze empirische observaties en theoretische analyses het kernvoordeel van Muon: de update-regel sluit aan bij de outer-product structuur van lineaire associatieve geheugens, waardoor het meer gebalanceerd en effectief leren van staartklassen in zwaarstaartige verdelingen mogelijk maakt dan Adam.
Het waarborgen van precieze multimodale afstemming tussen door diffusie gegenereerde afbeeldingen en invoerprompts is al lang een uitdaging. Eerdere werken finetunen diffusiegewichten met behulp van hoogwaardige voorkeursdata, die vaak beperkt en moeilijk op te schalen zijn. Recente op bewerking gebaseerde methoden verfijnen lokale regio's van gegenereerde afbeeldingen verder, maar kunnen de algehele beeldkwaliteit in gevaar brengen. In dit werk stellen we Implicit Multimodal Guidance (IMG) voor, een nieuw hergeneratie-gebaseerd multimodaal afstemmingsraamwerk dat geen extra data of bewerkingen vereist. Specifiek maakt IMG, gegeven een gegenereerde afbeelding en de bijbehorende prompt, a) gebruik van een multimodaal groot taalmodel (MLLM) om misalignments te identificeren; b) introduceert een Implicit Aligner die diffusieconditioneringskenmerken manipuleert om misalignments te verminderen en hergeneratie mogelijk te maken; en c) formuleert het heraligneringsdoel in een trainbaar objectief, namelijk het Iteratief Bijgewerkte Voorkeursobjectief. Uitgebreide kwalitatieve en kwantitatieve evaluaties op SDXL, SDXL-DPO en FLUX tonen aan dat IMG bestaande afstemmingsmethoden overtreft. Bovendien fungeert IMG als een flexibele plug-and-play adapter, die naadloos eerdere op finetuning gebaseerde afstemmingsmethoden versterkt. Onze code zal beschikbaar zijn op https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
Kunnen mensen AI-gegenereerde (nep)video's identificeren en onderbouwde redenen geven? Hoewel videogeneratiemodellen snel zijn gevorderd, is een kritische dimensie -- of mensen deepfake-sporen in een gegenereerde video kunnen detecteren, d.w.z. spatiotemporeel verankerde visuele artefacten die een video als machinaal gegenereerd onthullen -- grotendeels over het hoofd gezien. We introduceren DeeptraceReward, de eerste fijnmazige, ruimtelijk en temporeel bewuste benchmark die door mensen waargenomen nep-sporen annoteert voor videogeneratiebeloning. De dataset omvat 4.3K gedetailleerde annotaties over 3.3K hoogwaardige gegenereerde video's. Elke annotatie biedt een natuurlijktaaluitleg, wijst een begrenzingsvlak aan dat het waargenomen spoor bevat, en markeert precieze begin- en eindtijden. We consolideren deze annotaties in 9 hoofdcategorieën van deepfake-sporen die mensen ertoe brengen een video als AI-gegenereerd te identificeren, en trainen multimodale taalmodel(len) (LM's) als beloningsmodellen om menselijke oordelen en lokalisaties na te bootsen. Op DeeptraceReward presteert ons 7B beloningsmodel gemiddeld 34.7% beter dan GPT-5 op het identificeren van nep-aanwijzingen, verankering en uitleg. Interessant genoeg observeren we een consistent moeilijkheidsgradiënt: binaire nep versus echte classificatie is aanzienlijk eenvoudiger dan fijnmazige deepfake-spoordetectie; binnen dat laatste neemt de prestaties af van natuurlijktaaluitleg (het eenvoudigst), naar ruimtelijke verankering, naar temporele labeling (het moeilijkst). Door door mensen waargenomen deepfake-sporen naar voren te halen, biedt DeeptraceReward een rigoureuze testomgeving en trainingssignaal voor sociaal bewuste en betrouwbare videogeneratie.
Hoewel eerdere AI Scientist-systemen nieuwe bevindingen kunnen genereren, missen ze vaak de focus om wetenschappelijk waardevolle bijdragen te leveren die dringende, door mensen gedefinieerde uitdagingen aanpakken. Wij introduceren DeepScientist, een systeem dat is ontworpen om dit te overwinnen door doelgerichte, volledig autonome wetenschappelijke ontdekkingen uit te voeren over tijdlijnen van maanden. Het formaliseert ontdekking als een Bayesiaanse optimalisatieprobleem, geoperationaliseerd via een hiërarchisch evaluatieproces bestaande uit "hypotheseren, verifiëren en analyseren". Door gebruik te maken van een cumulatieve Bevindingen Geheugen, balanceert deze lus intelligent de exploratie van nieuwe hypothesen met exploitatie, waarbij de meest veelbelovende bevindingen selectief worden bevorderd naar hogere validatieniveaus. Na meer dan 20.000 GPU-uren te hebben verbruikt, genereerde het systeem ongeveer 5.000 unieke wetenschappelijke ideeën en valideerde experimenteel ongeveer 1100 daarvan, waardoor het uiteindelijk door mensen ontworpen state-of-the-art (SOTA) methoden overtrof op drie frontier AI-taken met respectievelijk 183,7%, 1,9% en 7,9%. Dit werk levert het eerste grootschalige bewijs van een AI die ontdekkingen bereikt die geleidelijk de menselijke SOTA overtreffen op wetenschappelijke taken, en waardevolle bevindingen produceert die de grens van wetenschappelijke ontdekking echt verleggen. Om verder onderzoek naar dit proces te vergemakkelijken, zullen we alle experimentele logs en systeemcode openbaar maken op https://github.com/ResearAI/DeepScientist/.
We bestuderen code-naar-metric-regressie: het voorspellen van numerieke uitkomsten van code-uitvoeringen, een uitdagende taak vanwege de open-eindige aard van programmeertalen. Terwijl eerdere methoden zwaar leunden op domeinspecifieke feature-engineering, tonen we aan dat een enkelvoudig, verenigd Regression Language Model (RLM) tegelijkertijd direct vanuit tekst kan voorspellen: (i) het geheugengebruik van code over meerdere hogere programmeertalen zoals Python en C++, (ii) de latentie van Triton GPU-kernels, en (iii) de nauwkeurigheid en snelheid van getrainde neurale netwerken weergegeven in ONNX. In het bijzonder behaalt een relatief klein RLM met 300M parameters, geïnitialiseerd vanuit T5Gemma, een Spearman-rang van > 0.9 op competitieve programmeerinzendingen van APPS, en een enkel verenigd model bereikt een gemiddelde Spearman-rang van > 0.5 over 17 afzonderlijke talen van CodeNet. Bovendien kan het RLM de hoogste gemiddelde Kendall-Tau van 0.46 behalen op vijf klassieke NAS-ontwerpruimtes die voorheen werden gedomineerd door grafische neurale netwerken, en tegelijkertijd architectuurlatenties voorspellen op talrijke hardwareplatforms.
Grote taalmodellen (LLM) agents worden beperkt door beperkte contextvensters, waardoor externe geheugensystemen nodig zijn voor langetermijninformatiebegrip. Huidige geheugenversterkte agents zijn doorgaans afhankelijk van vooraf gedefinieerde instructies en tools voor geheugenupdates. Taalmodellen hebben echter mogelijk niet het vermogen om te bepalen welke informatie moet worden opgeslagen, hoe deze gestructureerd moet worden en wanneer deze moet worden bijgewerkt, vooral naarmate geheugensystemen complexer worden. Dit resulteert in suboptimale geheugenconstructie en informatieverlies. Daarom stellen we Mem-alpha voor, een reinforcement learning-framework dat agents traint om complexe geheugensystemen effectief te beheren door interactie en feedback. We construeren ook een gespecialiseerde trainingsdataset die diverse meerzijdige interactiepatronen omvat, gekoppeld aan uitgebreide evaluatievragen die zijn ontworpen om effectief geheugenbeheer aan te leren. Tijdens de training verwerken agents sequentiële informatiebrokken, leren ze relevante inhoud te extraheren en op te slaan, en werken ze vervolgens het geheugensysteem bij. Het beloningssignaal is afgeleid van de nauwkeurigheid van vraag-antwoordtaken over de volledige interactiegeschiedenis, wat direct optimaliseert voor geheugenconstructie. Om de effectiviteit van ons trainingsframework te illustreren, ontwerpen we een geheugenarchitectuur bestaande uit kern-, episodische en semantische componenten, uitgerust met meerdere tools voor geheugenoperaties. Empirische evaluatie toont aan dat Mem-alpha aanzienlijke verbeteringen bereikt ten opzichte van bestaande geheugenversterkte agent-baselines. Ondanks dat ze uitsluitend zijn getraind op instanties met een maximale lengte van 30k tokens, vertonen onze agents opmerkelijke generalisatie naar sequenties die 400k tokens overschrijden, meer dan 13 keer de trainingslengte, wat de robuustheid van Mem-alpha benadrukt.
Moderne Recurrente Neurale Netwerken zijn een competitieve architectuur geworden voor 3D-reconstructie vanwege hun lineaire tijdscomplexiteit. Hun prestaties nemen echter aanzienlijk af wanneer ze worden toegepast buiten de contextlengte van de training, wat een beperkte lengtegeneralizatie aan het licht brengt. In dit werk herzien we de fundamenten van 3D-reconstructiemodellen vanuit een Test-Time Training-perspectief, waarbij we hun ontwerpen beschouwen als een online leerprobleem. Op basis van dit perspectief benutten we de uitlijningszekerheid tussen de geheugenstatus en binnenkomende observaties om een gesloten leercurve af te leiden voor geheugenupdates, om een balans te vinden tussen het behouden van historische informatie en het aanpassen aan nieuwe observaties. Deze trainingsvrije interventie, genaamd TTT3R, verbetert de lengtegeneralizatie aanzienlijk en behaalt een 2-voudige verbetering in globale pose-estimatie ten opzichte van de basislijnen, terwijl het opereert met 20 FPS en slechts 6 GB GPU-geheugen om duizenden afbeeldingen te verwerken. Code beschikbaar op https://rover-xingyu.github.io/TTT3R.
Audio-visuele spraakscheiding (AVSS) methoden maken gebruik van visuele aanwijzingen om doelsignalen te extraheren en hebben een sterke scheidingskwaliteit aangetoond in rumoerige akoestische omgevingen. Deze methoden omvatten echter meestal een groot aantal parameters en vereisen een hoge rekencapaciteit, wat onaanvaardbaar is in veel toepassingen waar spraakscheiding slechts een voorbewerkingsstap is voor verdere spraakverwerking. Om dit probleem aan te pakken, stellen we een efficiënte AVSS-methode voor, genaamd Dolphin. Voor het extraheren van visuele kenmerken ontwikkelen we DP-LipCoder, een dual-path lichtgewicht video-encoder die lipbewegingen omzet in discrete audio-uitgelijnde semantische tokens. Voor audioscheiding construeren we een lichtgewicht encoder-decoder scheider, waarin elke laag een global-local attention (GLA) blok bevat om efficiënt multi-schaal afhankelijkheden vast te leggen. Experimenten op drie benchmark datasets toonden aan dat Dolphin niet alleen het huidige state-of-the-art (SOTA) model in scheidingskwaliteit overtrof, maar ook opmerkelijke verbeteringen in efficiëntie bereikte: meer dan 50% minder parameters, een reductie van meer dan 2,4x in MACs, en een GPU-inferentiesnelheid die meer dan 6x sneller is. Deze resultaten geven aan dat Dolphin een praktische en inzetbare oplossing biedt voor hoogwaardige AVSS in real-world scenario's. Onze code en demopagina zijn publiekelijk beschikbaar op http://cslikai.cn/Dolphin/.
Reinforcement Learning (RL) heeft opmerkelijke successen geboekt bij het verbeteren van de redeneervaardigheden van Large Language Models (LLMs). Process-Supervised RL (PSRL) is naar voren gekomen als een effectiever paradigma vergeleken met outcome-based RL. Bestaande PSRL-benaderingen kampen echter met beperkte verkennings efficiëntie, zowel wat betreft vertakkingsposities als sampling. In dit artikel introduceren we een nieuw PSRL-framework (AttnRL), dat efficiënte verkenning mogelijk maakt voor redeneermodellen. Geïnspireerd door voorlopige observaties dat stappen met hoge attentiescores correleren met redeneergedrag, stellen we voor om te vertakken vanuit posities met hoge waarden. Daarnaast ontwikkelen we een adaptieve samplingstrategie die rekening houdt met de moeilijkheidsgraad van het probleem en de historische batchgrootte, waardoor de hele trainingsbatch niet-nul voordeelwaarden behoudt. Om de samplingefficiëntie verder te verbeteren, ontwerpen we een one-step off-policy trainingspijplijn voor PSRL. Uitgebreide experimenten op meerdere uitdagende wiskundige redeneerbenchmarks tonen aan dat onze methode consistent beter presteert dan eerdere benaderingen wat betreft prestaties, sampling- en trainings efficiëntie.
Online alignment (bijv. GRPO) presteert over het algemeen beter dan offline alignment (bijv. DPO) — maar waarom? Gebruikmakend van de prospecttheorie uit de gedragseconomie, stellen we een mensgerichte verklaring voor. We bewijzen dat online on-policy sampling beter de door mensen waargenomen verdeling benadert van wat het model kan produceren, en dat PPO/GRPO-style clipping — oorspronkelijk geïntroduceerd om de training te stabiliseren — een perceptuele bias herstelt in hoe mensen waarschijnlijkheid waarnemen. In die zin fungeren PPO/GRPO al als perceptuele verliesfuncties. Onze theorie suggereert verder dat de online/offline dichotomie zelf incidenteel is voor het maximaliseren van menselijk nut, aangezien we hetzelfde effect kunnen bereiken door selectief te trainen op alle data op een manier die menselijke perceptie nabootst, in plaats van ons te beperken tot online on-policy data. Dit zou ons in staat stellen om sneller, goedkoper en flexibeler na te trainen zonder in te leveren op prestaties. Hiertoe stellen we een ontwerppatroon voor dat expliciet perceptuele vervormingen van waarschijnlijkheid incorporeert in doelen zoals DPO/KTO/GRPO, waardoor humanline-varianten ervan ontstaan. Verrassend genoeg ontdekken we dat deze humanline-varianten, zelfs wanneer getraind met offline off-policy data, de prestaties van hun online tegenhangers kunnen evenaren, zowel bij verifieerbare als niet-verifieerbare taken.
Het ontwikkelen van grote taalmodelagenten die hun capaciteiten uitbreiden door interactie met externe tools, vertegenwoordigt een nieuwe grens in AI-onderzoek en -toepassingen. In dit artikel introduceren we InfoAgent, een diepgaande onderzoeksagent aangedreven door een innovatieve datasynthesepijplijn en georkestreerde zoektools op het web. Om uitdagende, moeilijk te vinden vragen te construeren, bouwen we entiteitsbomen en passen we sub-boomsteekproeven toe met entiteitsvervaging om de moeilijkheidsgraad van vragen systematisch te verhogen. In tegenstelling tot eerder werk dat sterk leunt op commerciële zoektools, ontwikkelen we een toegewijde zelf-gehoste zoekinfrastructuur, waardoor de transparantie van agentomgevingen wordt verbeterd en de verdere ontwikkeling van agentcapaciteiten wordt gefaciliteerd. We evalueren de effectiviteit van onze datapijplijn door het gemiddelde aantal toolaanroepen te meten dat nodig is om een vraag correct te beantwoorden, en laten ook zien dat onze agent betere prestaties levert wanneer deze is uitgerust met onze tools. Onze InfoAgent is na-afgestemd vanaf Qwen3-14B met behulp van een tweestapsrecept: cold-start supervised finetuning om langetermijnzoekgedrag in te prenten, gevolgd door reinforcement learning dat het gebruik van tools die door redenering worden aangedreven aanzienlijk verbetert. Met onze methoden behaalt InfoAgent een nauwkeurigheid van 15,3% op BrowseComp, 29,2% op BrowseComp-ZH en 40,4% op Xbench-DS, waarmee het eerdere open-source diepgaande onderzoeksagenten zoals WebSailor-72B en DeepDive-32B overtreft.
Veiligheid van Large Language Models (LLM's) is een van de meest urgente uitdagingen voor het mogelijk maken van grootschalige inzet. Terwijl de meeste studies en wereldwijde discussies zich richten op algemene risico's, zoals modellen die gebruikers helpen zichzelf of anderen te schaden, hebben bedrijven een meer fundamentele zorg: of LLM-gebaseerde agents veilig zijn voor hun beoogde gebruiksscenario. Om dit aan te pakken, introduceren we operationele veiligheid, gedefinieerd als het vermogen van een LLM om gebruikersverzoeken op gepaste wijze te accepteren of te weigeren wanneer deze een specifiek doel dienen. We stellen verder OffTopicEval voor, een evaluatiesuite en benchmark voor het meten van operationele veiligheid, zowel in het algemeen als binnen specifieke agentgebruiksscenario's. Onze evaluaties van zes modelfamilies bestaande uit 20 open-weight LLM's laten zien dat, hoewel de prestaties variëren tussen modellen, allemaal nog steeds zeer operationeel onveilig zijn. Zelfs de sterkste modellen — Qwen-3 (235B) met 77,77% en Mistral (24B) met 79,96% — blijven ver verwijderd van betrouwbare operationele veiligheid, terwijl GPT-modellen een plateau bereiken in het bereik van 62–73%, Phi slechts middelmatige scores behaalt (48–70%), en Gemma en Llama-3 instorten naar respectievelijk 39,53% en 23,84%. Hoewel operationele veiligheid een kernprobleem is van modelalignment, stellen we prompt-based steering-methoden voor om deze fouten te onderdrukken: query grounding (Q-ground) en system-prompt grounding (P-ground), die de OOD-weigering aanzienlijk verbeteren. Q-ground levert consistente verbeteringen van tot 23%, terwijl P-ground nog grotere verbeteringen biedt, waarbij Llama-3.3 (70B) met 41% en Qwen-3 (30B) met 27% worden verhoogd. Deze resultaten benadrukken zowel de dringende behoefte aan interventies voor operationele veiligheid als de belofte van prompt-based steering als een eerste stap naar betrouwbaardere LLM-gebaseerde agents.
Recente methoden voor reinforcement learning (RL) hebben de planningscapaciteiten van Large Language Models (LLMs) aanzienlijk verbeterd, maar de theoretische basis voor hun effectiviteit blijft ongrijpbaar. In dit werk onderzoeken we de voordelen en beperkingen van RL via een behapbare, op grafieken gebaseerde abstractie, met een focus op policy gradient (PG) en Q-learning methoden. Onze theoretische analyses tonen aan dat supervised fine-tuning (SFT) spurious oplossingen op basis van co-voorkomen kan introduceren, terwijl RL correct plannen bereikt voornamelijk door exploratie, wat de rol van exploratie benadrukt bij het mogelijk maken van betere generalisatie. We laten echter ook zien dat PG lijdt onder diversiteitscollaps, waarbij de uitvoerdiversiteit tijdens de training afneemt en zelfs na het bereiken van perfecte nauwkeurigheid blijft bestaan. Daarentegen biedt Q-learning twee belangrijke voordelen: off-policy leren en het behoud van diversiteit bij convergentie. We tonen verder aan dat een zorgvuldige beloningsontwerp noodzakelijk is om beloningsmanipulatie in Q-learning te voorkomen. Ten slotte, door ons framework toe te passen op de real-world planningsbenchmark Blocksworld, bevestigen we dat deze gedragingen in de praktijk voorkomen.
De opkomst van open grote taalmodellen (LLMs) stimuleert een levendig ecosysteem van onderzoek en innovatie in kunstmatige intelligentie (AI). Echter, de samenwerkingsmethoden die worden gebruikt om open LLMs te ontwikkelen, zowel voor als na hun openbare release, zijn nog niet uitgebreid bestudeerd, wat ons begrip beperkt van hoe open LLM-projecten worden geïnitieerd, georganiseerd en bestuurd, evenals van de mogelijkheden om dit ecosysteem verder te bevorderen. Wij vullen deze leemte aan door middel van een verkennende analyse van open samenwerking gedurende de ontwikkelings- en hergebruikscyclus van open LLMs, waarbij we putten uit semi-gestructureerde interviews met de ontwikkelaars van 14 open LLMs uit grassrootsprojecten, onderzoeksinstituten, startups en grote techbedrijven in Noord-Amerika, Europa, Afrika en Azië. Wij leveren drie belangrijke bijdragen aan onderzoek en praktijk. Ten eerste strekt samenwerking in open LLM-projecten zich ver uit buiten de LLMs zelf, en omvat datasets, benchmarks, open-source frameworks, leaderboards, kennisuitwisseling en discussieforums, en rekenpartnerschappen, onder andere. Ten tweede hebben ontwikkelaars van open LLMs diverse sociale, economische en technologische motivaties, variërend van het democratiseren van AI-toegang en het bevorderen van open wetenschap tot het opbouwen van regionale ecosystemen en het uitbreiden van taalrepresentatie. Ten derde vertonen de bemonsterde open LLM-projecten vijf verschillende organisatiemodellen, variërend van projecten van één bedrijf tot door non-profits gesponsorde grassrootsprojecten, die verschillen in hun centralisatie van controle en gemeenschapsbetrokkenheidsstrategieën die worden gebruikt gedurende de levenscyclus van open LLMs. We sluiten af met praktische aanbevelingen voor belanghebbenden die de wereldwijde gemeenschap willen ondersteunen bij het bouwen van een meer open toekomst voor AI.
Is het basisvisuele begrip echt opgelost in state-of-the-art visuele taalmodellen (VLMs)? Wij presenteren VisualOverload, een iets andere benchmark voor visuele vraagbeantwoording (VQA) die bestaat uit 2.720 vraag-antwoordparen, met privé bewaarde grondwaarheid-antwoorden. In tegenstelling tot eerdere VQA-datasets die zich doorgaans richten op bijna globaal beeldbegrip, daagt VisualOverload modellen uit om eenvoudige, kennisvrije visuele taken uit te voeren in dichtbevolkte (of overbelaste) scènes. Onze dataset bestaat uit hoogwaardige scans van publiek domein schilderijen die gevuld zijn met meerdere figuren, acties en ontvouwend subplots tegen uitgebreid gedetailleerde achtergronden. We hebben deze afbeeldingen handmatig geannoteerd met vragen over zes taakcategorieën om een grondig begrip van de scène te onderzoeken. We veronderstellen dat huidige benchmarks de prestaties van VLMs overschatten, en het coderen en redeneren over details blijft een uitdagende taak voor hen, vooral als ze worden geconfronteerd met dichtbevolkte scènes. Inderdaad, we observeren dat zelfs het beste model (o3) van de 37 geteste modellen slechts 19,6% nauwkeurigheid behaalt op onze moeilijkste testset en in totaal 69,5% nauwkeurigheid op alle vragen. Naast een grondige evaluatie, vullen we onze benchmark aan met een foutenanalyse die meerdere faalmodi onthult, waaronder een gebrek aan telvaardigheden, falen in OCR en opvallende logische inconsistenties onder complexe taken. Al met al legt VisualOverload een kritieke kloof bloot in huidige visuele modellen en biedt het een cruciale bron voor de gemeenschap om betere modellen te ontwikkelen. Benchmark: http://paulgavrikov.github.io/visualoverload
We presenteren Voice Evaluation of Reasoning Ability (VERA), een benchmark voor het evalueren van redeneervermogen in spraakinteractieve systemen onder real-time gespreksbeperkingen. VERA bestaat uit 2.931 spraakgerichte episodes afgeleid van gevestigde tekstbenchmarks en georganiseerd in vijf tracks (Wiskunde, Web, Wetenschap, Lange Context, Feitelijk). Elk item is aangepast voor spraakinteractie terwijl de redeneermoeilijkheid behouden blijft. VERA maakt directe tekst-spraakvergelijkingen mogelijk binnen modelfamilies en ondersteunt analyse van hoe architectuurkeuzes de betrouwbaarheid beïnvloeden. We evalueren 12 hedendaagse spraaksystemen naast sterke tekstbaselines en observeren grote, consistente modaliteitsverschillen: bij wedstrijdwiskunde behaalt een toonaangevend tekstmodel 74,8% nauwkeurigheid, terwijl het bijbehorende spraakmodel 6,1% haalt; gemiddeld over de tracks behalen de beste tekstmodellen 54,0% versus 11,3% voor spraak. Latentie-nauwkeurigheidsanalyses onthullen een plateau bij lage latentie, waar snelle spraaksystemen clusteren rond ~10% nauwkeurigheid, terwijl het benaderen van tekstprestaties het opofferen van real-time interactie vereist. Diagnostische experimenten geven aan dat veelvoorkomende mitigaties onvoldoende zijn. Het verlengen van "denktijd" levert verwaarloosbare verbeteringen op; een ontkoppelde cascade die redeneren scheidt van vertellen verbetert de nauwkeurigheid maar blijft ver achter bij tekst en introduceert karakteristieke grondings-/consistentiefouten. Foutanalyses tonen verder verschillende foutsignaturen tussen native streaming, end-to-end en cascade-ontwerpen. VERA biedt een reproduceerbare testomgeving en gerichte diagnostiek voor architecturen die denken en spreken ontkoppelen, en biedt een principiële manier om voortgang te meten naar real-time spraakassistenten die zowel vloeiend als betrouwbaar beredeneerd zijn.
Het ontwikkelen van autonome agents die effectief interacteren met Grafische Gebruikersinterfaces (GUI's) blijft een uitdagend open probleem, vooral voor kleine on-device modellen. In dit artikel presenteren we Ferret-UI Lite, een compacte, end-to-end GUI-agent die opereert op diverse platforms, waaronder mobiel, web en desktop. Door gebruik te maken van technieken die geoptimaliseerd zijn voor het ontwikkelen van kleine modellen, bouwen we onze 3B Ferret-UI Lite-agent door een diverse GUI-datamix te cureren uit echte en synthetische bronnen, de inferentieprestaties te versterken via chain-of-thought redenering en visueel gereedschapsgebruik, en reinforcement learning met ontworpen beloningen. Ferret-UI Lite behaalt competitieve prestaties in vergelijking met andere kleinschalige GUI-agents. In GUI-gronding behaalt Ferret-UI Lite scores van 91,6%, 53,3% en 61,2% op respectievelijk de ScreenSpot-V2, ScreenSpot-Pro en OSWorld-G benchmarks. Voor GUI-navigatie behaalt Ferret-UI Lite succespercentages van 28,0% op AndroidWorld en 19,8% op OSWorld. We delen onze methoden en de lessen die we hebben geleerd bij het ontwikkelen van compacte, on-device GUI-agents.
Aanbieders van grote taalmodelen (LLM's) pronken met grote aantallen voor maximale contextvenstergroottes. Om het praktische gebruik van contextvensters te testen, hebben we 1) een concept van het maximale effectieve contextvenster gedefinieerd, 2) een testmethode geformuleerd om de effectiviteit van een contextvenster over verschillende groottes en probleemtypen te evalueren, en 3) een gestandaardiseerde manier gecreëerd om de modelprestaties voor steeds grotere contextvenstergroottes te vergelijken om het breekpunt te vinden. We hebben honderdduizenden datapunten verzameld over verschillende modellen en significante verschillen gevonden tussen de gerapporteerde Maximale Contextvenstergrootte (MCW) en de Maximale Effectieve Contextvenstergrootte (MECW). Onze bevindingen tonen aan dat de MECW niet alleen drastisch verschilt van de MCW, maar ook verschuift op basis van het probleemtype. Een paar topmodellen in onze testgroep faalden al bij slechts 100 tokens in de context; de meeste vertoonden ernstige achteruitgang in nauwkeurigheid bij 1000 tokens in de context. Alle modellen bleven ver achter bij hun Maximale Contextvenster, soms tot wel 99 procent. Onze gegevens laten zien dat het Maximale Effectieve Contextvenster verschuift op basis van het type probleem dat wordt aangeboden, wat duidelijke en bruikbare inzichten biedt over hoe de modelnauwkeurigheid kan worden verbeterd en de hallucinatiefrequentie van modellen kan worden verminderd.
Grote Taalmodellen (LLM's) gebruiken multi-turn interactie als een fundamenteel paradigma voor het voltooien van complexe taken. Hun prestaties verslechteren echter vaak bij langdurige interacties, omdat ze doorgaans getraind zijn op statische, single-turn data, wat hun vermogen om zich aan te passen aan real-time gebruikersfeedback belemmert. Om deze beperking aan te pakken, stellen we eerst een nieuw paradigma voor: Test-Time Policy Adaptation for Multi-Turn Interactions (T2PAM), dat gebruikersfeedback uit de lopende interactie gebruikt als een beloningssignaal om een latent optimaal beleid te schatten dat is afgestemd op gebruikersvoorkeuren, waarna een kleine subset van parameters wordt bijgewerkt om het model naar dit beleid te sturen, wat uiteindelijk efficiënte zelfcorrectie tijdens het gesprek mogelijk maakt. Vervolgens introduceren we Optimum-Referenced One-Step Adaptation (ROSA), een lichtgewicht algoritme dat T2PAM operationaliseert. ROSA stuurt de modelparameters in één efficiënte update stap richting een theoretisch optimaal beleid, waardoor kostbare iteratieve gradient-gebaseerde optimalisatie wordt vermeden en de rekenkundige overhead wordt geminimaliseerd. We bieden een rigoureuze theoretische analyse die garandeert dat het beleid van ROSA convergeert naar de voorkeur van de gebruiker naarmate het aantal interacties toeneemt. Uitgebreide experimenten op uitdagende benchmarks tonen aan dat ROSA aanzienlijke verbeteringen bereikt in zowel taakeffectiviteit als efficiëntie.
jina-reranker-v3 is een 0,6B parameter multitalig documentherordenaar die een nieuwe 'last but not late'-interactie introduceert. In tegenstelling tot late interactiemodellen zoals ColBERT, die afzonderlijke codering uitvoeren gevolgd door multi-vector matching, voert onze aanpak causale zelf-attentie uit tussen query en documenten binnen hetzelfde contextvenster, wat rijke kruisdocumentinteracties mogelijk maakt voordat contextuele embeddings worden geëxtraheerd uit de laatste token van elk document. Deze compacte architectuur behaalt state-of-the-art BEIR-prestaties met 61,94 nDCG@10 terwijl het tien keer kleiner is dan generatieve listwise herordenaars.
Grote taalmodellen blinken uit met reinforcement learning (RL), maar het volledig benutten van dit potentieel vereist een mid-training fase. Een effectieve mid-training fase zou een compacte set nuttige acties moeten identificeren en snelle selectie daartussen mogelijk maken via online RL. We formaliseren deze intuïtie door het eerste theoretische resultaat te presenteren over hoe mid-training post-training vormt: het karakteriseert een actiesubruimte die zowel de waardebenaderingsfout door snoeien als de RL-fout tijdens daaropvolgende planning minimaliseert. Onze analyse onthult twee cruciale determinanten van de effectiviteit van mid-training: snoeiefficiëntie, die de prior van het initiële RL-beleid vormt, en de impact ervan op RL-convergentie, die bepaalt in hoeverre dat beleid kan worden verbeterd via online interacties. Deze resultaten suggereren dat mid-training het meest effectief is wanneer de beslissingsruimte compact is en de effectieve horizon kort is, wat het belang benadrukt van opereren in de ruimte van actieabstracties in plaats van primitieve acties. Gebaseerd op deze inzichten stellen we Reasoning as Action Abstractions (RA3) voor, een schaalbare mid-training algoritme. Specifiek leiden we een sequentiële variatie-ondergrens af en optimaliseren we deze door iteratief temporeel consistente latente structuren te ontdekken via RL, gevolgd door fine-tuning op de gebootstrapte data. Experimenten op codegeneratietaken demonstreren de effectiviteit van onze aanpak. Over meerdere basismodellen verbetert RA3 de gemiddelde prestatie op HumanEval en MBPP met respectievelijk 8 en 4 punten ten opzichte van het basismodel en de next-token voorspellingsbaseline. Bovendien bereikt RA3 snellere convergentie en hogere asymptotische prestaties in RLVR op HumanEval+, MBPP+, LiveCodeBench en Codeforces.
KV-cachecompressie belooft een hogere doorvoer en efficiëntie met een verwaarloosbaar verlies in prestaties. Hoewel de winst in doorvoer onbetwistbaar is en recente literatuur inderdaad minimale degradatie op specifieke benchmarks heeft aangetoond, zijn de gevolgen van compressie in realistische scenario's zoals multi-instructie-prompting over het algemeen onvoldoende bestudeerd. In dit artikel identificeren we verschillende valkuilen waar praktijkmensen zich bewust van moeten zijn bij het implementeren van KV-cache-gecomprimeerde LLM's. Belangrijk is dat we aantonen dat bepaalde instructies veel sneller achteruitgaan bij compressie, waardoor ze in feite volledig worden genegeerd door de LLM. Als een praktisch voorbeeld hiervan belichten we het lekken van systeemprompts als een case study, waarbij we empirisch het effect van compressie op lekken en het volgen van algemene instructies aantonen. We laten verschillende factoren zien die een rol spelen bij het lekken van prompts: compressiemethode, instructievolgorde en KV-verwijderingsbias. Vervolgens stellen we eenvoudige wijzigingen voor in het verwijderingsbeleid van de KV-cache die de impact van deze factoren kunnen verminderen en de algehele prestaties bij multi-instructietaken kunnen verbeteren.
Huidige zoektechnieken zijn beperkt tot standaard RAG query-documenttoepassingen. In dit artikel stellen we een nieuwe techniek voor om de code en index uit te breiden voor het voorspellen van de benodigde API's, waardoor hoogwaardige, end-to-end codegeneratie direct mogelijk wordt voor auto-completion en agentische AI-toepassingen. We pakken het probleem van API-lekken in huidige code-naar-code benchmarkdatasets aan door een nieuwe dataset te introduceren die is opgebouwd uit real-world ServiceNow Script Includes, waardoor de uitdaging van onduidelijke API-gebruiksintentie in de code wordt vastgelegd. Onze evaluatiemetrics laten zien dat deze methode een top-40 retrievalnauwkeurigheid van 87,86% bereikt, waardoor de kritieke context met API's die nodig is voor succesvolle downstream codegeneratie wordt geboden. Om real-time voorspellingen mogelijk te maken, ontwikkelen we een uitgebreide post-trainingspipeline die een compacte 0,6B reranker optimaliseert door middel van synthetische datasetgeneratie, supervised fine-tuning en reinforcement learning. Deze aanpak stelt onze compacte reranker in staat om een veel groter 8B-model te overtreffen, terwijl de latentie met 2,5x wordt verminderd, waardoor de nuances van ondernemingsspecifieke code effectief worden aangepakt zonder de rekenkundige overhead van grotere modellen.
Grote Taalmodellen (LLM's) worden steeds vaker bestudeerd als neurale kennisbanken voor het ondersteunen van kennisintensieve toepassingen zoals vraagbeantwoording en feitencontrole. De structurele organisatie van hun kennis blijft echter onontgonnen. Geïnspireerd door bevindingen uit de cognitieve neurowetenschappen, zoals semantische clustering en priming, waarbij het kennen van één feit de kans vergroot om gerelateerde feiten te herinneren, onderzoeken we een vergelijkbaar kennis-homofiliepatroon in LLM's. Hiertoe vertalen we de kennis van LLM's naar een grafische representatie door kenniscontrole op zowel triplet- als entiteitsniveau. Vervolgens analyseren we de kennisrelatie tussen een entiteit en zijn buren, waarbij we ontdekken dat LLM's de neiging hebben om een vergelijkbaar kennisniveau te hebben over entiteiten die dichter bij elkaar in de grafiek zijn gepositioneerd. Gemotiveerd door dit homofilieprincipe stellen we een Grafisch Neuraal Netwerk (GNN) regressiemodel voor om kennisniveauscores op entiteitsniveau voor tripletten te schatten door gebruik te maken van hun buurtscores. De voorspelde kennisniveaus stellen ons in staat om het controleren van minder bekende tripletten te prioriteren, waardoor de kennisdekking wordt gemaximaliseerd binnen hetzelfde labelbudget. Dit verbetert niet alleen de efficiëntie van actieve labeling voor fine-tuning om kennis in LLM's te injecteren, maar versterkt ook de meerhops-padretrieval bij redeneerintensieve vraagbeantwoording.
Huidige online reinforcement learning (RL) algoritmen zoals GRPO delen een belangrijke beperking in LLM-redenering: ze kunnen niet leren van problemen die "onoplosbaar" zijn voor het model. Met andere woorden, ze kunnen alleen de prestaties verbeteren op problemen waarbij het model in staat is het juiste antwoord te verkennen. Hierdoor blijft de "bovengrens" van het model onveranderd na RL-training, ook al kan de kans op het oplossen van eenvoudigere, oplosbare problemen toenemen. Deze moeilijke voorbeelden kunnen niet bijdragen aan de training, omdat geen enkele rollout beloningen oplevert en er dus geen gradients worden gegenereerd. Om leren van deze moeilijke voorbeelden mogelijk te maken, stellen we NuRL voor, een "nudging"-methode die ernaar streeft de bovengrens van LLM-redenering te verleggen met behulp van zelf gegenereerde hints, d.w.z. abstracte aanwijzingen die helpen de probleem moeilijkheid voor het model te verminderen. Gegeven een vraag en het juiste antwoord, genereert het model een CoT (Chain of Thought) en produceert vervolgens een hint die de kernkennis bevat die nodig is om het probleem op te lossen. Tijdens de training genereren we G rollouts vanuit het basisbeleid en gebruiken we het slagingspercentage om te beslissen of de hint moet worden geïnjecteerd. Voor moeilijke voorbeelden met een slagingspercentage van 0% injecteren we de hint en genereren we een nieuwe batch trajecten. Dit levert twee voordelen op: (1) de hint verhoogt de slagingspercentages (van 0% naar niet-nul), waardoor trainingssignalen worden geïntroduceerd voor voorheen onoplosbare voorbeelden, en (2) de hints zijn zelf gegenereerd, waardoor distributieverschuiving wordt vermeden en er geen afhankelijkheid is van externe modellen. NuRL behaalt consistente verbeteringen over 6 benchmarks en 3 modellen, terwijl het complementair blijft aan test-time scaling. Opmerkelijk is dat NuRL de bovengrens van het model kan verhogen, terwijl GRPO pass@1024 onveranderd laat ten opzichte van het basismodel. Bovendien presenteren we een systematische studie van wat een effectieve hint maakt en wanneer hints het meest nuttig zijn. Interessant is dat de beste hints abstract en hoog over zijn, en het meest nuttig zijn wanneer ze noodzakelijk worden toegepast en nadat GRPO is geconvergeerd.
Diffusie-gebaseerde grote taalmodellen (dLLMs), ondanks hun veelbelovende prestaties, hebben nog steeds te kampen met inferentie-efficiëntie van mindere kwaliteit. Dit komt doordat dLLMs afhankelijk zijn van bidirectionele aandacht en niet direct kunnen profiteren van de standaard key-value (KV) cache zoals autoregressieve modellen (ARMs) dat wel kunnen. Om dit probleem aan te pakken, introduceren we Dual aDaptive Cache (d^2Cache), een trainingsvrij, benaderend KV cache-framework voor het versnellen van dLLM-inferentie. d^2Cache beschikt over een tweestaps fijnmazige selectiestrategie om tokens te identificeren en hun KV-statussen adaptief bij te werken bij elke decodeerstap, terwijl de KV-statussen van de overige tokens worden gecached voor hergebruik. Bovendien biedt d^2Cache van nature een betrouwbaarder decodeeralternatief, dat quasi links-naar-rechts generatie mogelijk maakt en voortijdige overmoedigheid in tokens aan het einde van de reeks kan verminderen. Uitgebreide experimentele resultaten op twee representatieve dLLMs (\ie, LLaDA en Dream) tonen aan dat d^2Cache niet alleen aanzienlijke inferentieversnellingen bereikt, maar ook consistente verbeteringen in de generatiekwaliteit oplevert. De code is beschikbaar op https://github.com/Kamichanw/d2Cache.
Recente empirische studies hebben het idee onderzocht om een model tijdens de testfase verder te trainen voor een specifieke taak, bekend als test-time training (TTT), en hebben ontdekt dat dit aanzienlijke prestatieverbeteringen oplevert. Er is echter beperkt begrip van waarom en wanneer TTT effectief is. Eerdere verklaringen richtten zich vooral op de observatie dat TTT nuttig kan zijn bij out-of-distribution aanpassing of bij gebruik van geprivilegieerde data. De toenemende schaal van foundation-modellen, waarbij de meeste testdata in-distribution zijn, zet deze verklaringen echter ter discussie. Wij stellen in plaats daarvan dat foundation-modellen globaal ondergeparameteriseerd blijven, waarbij TTT een mechanisme biedt voor specialisatie na generalisatie, waarbij de capaciteit wordt gericht op concepten die relevant zijn voor de testtaak. Specifiek stellen we, onder de hypothese van lineaire representatie, een model voor waarin TTT een aanzienlijk kleinere in-distribution testfout bereikt dan globale training. We valideren de belangrijkste aannames van ons model empirisch door een sparse autoencoder op ImageNet te trainen, waarbij we aantonen dat semantisch gerelateerde datapunten worden verklaard door slechts enkele gedeelde concepten. Ten slotte voeren we schaalstudies uit over beeld- en taal taken die de praktische implicaties van ons model bevestigen, waarbij we de regimes identificeren waarin specialisatie het meest effectief is.
Transformer-gebaseerde modellen hebben aanzienlijke vooruitgang geboekt in tijdreeksvoorspelling, waarbij patch-gebaseerde invoerstrategieën efficiëntie en verbeterde modellering op lange termijn bieden. Toch vertrouwen bestaande benaderingen op temporeel-agnostische patchconstructie, waarbij willekeurige startposities en vaste lengtes temporele samenhang verstoren door natuurlijke overgangen over grenzen heen te splitsen. Deze naïeve segmentatie verstoort vaak kortetermijnafhankelijkheden en verzwakt representatie-leren. Als reactie hierop stellen we EntroPE (Entropy-Guided Dynamic Patch Encoder) voor, een nieuw, temporeel geïnformeerd framework dat dynamisch overgangspunten detecteert via conditionele entropie en dynamisch patchgrenzen plaatst. Dit behoudt de temporele structuur terwijl de computationele voordelen van patching behouden blijven. EntroPE bestaat uit twee belangrijke modules, namelijk een Entropie-gebaseerde Dynamische Patcher (EDP) die informatie-theoretische criteria toepast om natuurlijke temporele verschuivingen te lokaliseren en patchgrenzen te bepalen, en een Adaptieve Patch Encoder (APE) die pooling en cross-attention gebruikt om intra-patch afhankelijkheden vast te leggen en vaste grootte latente representaties te produceren. Deze embeddings worden vervolgens verwerkt door een globale transformer om inter-patch dynamiek te modelleren. Experimenten op benchmarks voor langetermijnvoorspelling tonen aan dat EntroPE zowel nauwkeurigheid als efficiëntie verbetert, en entropie-geleide dynamische patching vestigt als een veelbelovend nieuw paradigma voor tijdreeksmodellering. Code is beschikbaar op: https://github.com/Sachithx/EntroPE.
Multimodale Large Language Models (MLLMs) hebben hoogwaardige visuele informatie nodig om fijnmazige waarneming uit te voeren, maar het verwerken van volledige hoogresolutiebeelden is rekenkundig onhaalbaar. Hoewel recente methoden een Region-of-Interest (RoI)-mechanisme gebruiken om zich op belangrijke gebieden te concentreren, bieden ze doorgaans een moeilijke afweging: op training gebaseerde benaderingen zijn afhankelijk van grootschalige geannoteerde datasets, terwijl trainingsvrije methoden die gebruikmaken van de interne aandacht van het model rekenkundig inefficiënt en minder nauwkeurig zijn, wat ofwel multi-pass prefill-fasen vereist of afhankelijk is van het trage auto-regressieve decodeerproces. In dit artikel stellen we een efficiënt, annotatievrij Self-Distilled Region Proposal Network (SD-RPN) voor dat deze afweging oplost. De SD-RPN is gebouwd rond een pijplijn die de ruisachtige aandachtkaarten uit de middelste lagen van de MLLM omzet in hoogwaardige pseudo-RoI-labels door het signaal expliciet te ontdoen van ruis en ambiguïteit op te lossen. We gebruiken deze labels om een lichtgewicht Region Proposal Network (RPN) te trainen dat een nauwkeurigere lokalisatie leert. Dit RPN is ook zeer efficiënt en voorspelt de RoI in een enkele voorwaartse pass met behulp van kenmerken uit de middelste lagen van de MLLM, waardoor de RoI-identificatie wordt ontkoppeld van de auto-regressieve generatie en kostbare multi-pass operaties worden vermeden. Om onze aanpak te valideren, integreren we het framework in de LLaVA-1.5-architectuur. Ondanks dat het getraind is op slechts enkele (bijv. 10K) vraag-antwoordparen, toont onze methode uitzonderlijke data-efficiëntie en generalisatie, met een absolute nauwkeurigheidsverbetering van meer dan 10% op onbekende benchmarks, waaronder TextVQA, DocVQA en V-Star. Ons werk biedt een praktische en schaalbare oplossing voor het verbeteren van de fijnmazige waarneming van MLLMs zonder kostbaar toezicht of volledige modelafstemming te vereisen. Code is beschikbaar op https://github.com/YuHengsss/SD-RPN.
Grote audio-taalmodellen ontwikkelen zich snel, maar de meeste evaluaties leggen de nadruk op spraak of wereldwijd verzamelde geluiden, waarbij cultureel onderscheidende signalen over het hoofd worden gezien. Deze kloof roept een kritische vraag op: kunnen huidige modellen generaliseren naar gelokaliseerde, niet-semantische audio die gemeenschappen direct herkennen maar buitenstaanders niet? Om dit aan te pakken, presenteren we TAU (Taiwan Audio Understanding), een benchmark van alledaagse Taiwanese "soundmarks." TAU is opgebouwd via een pijplijn die gecureerde bronnen, menselijke bewerking en LLM-ondersteunde vraaggeneratie combineert, wat resulteert in 702 clips en 1.794 meerkeuzevragen die niet alleen met transcripten kunnen worden opgelost. Experimenten tonen aan dat state-of-the-art LALM's, waaronder Gemini 2.5 en Qwen2-Audio, ver onder het niveau van lokale mensen presteren. TAU toont de noodzaak aan van gelokaliseerde benchmarks om culturele blinde vlekken te onthullen, meer rechtvaardige multimodale evaluatie te begeleiden en ervoor te zorgen dat modellen gemeenschappen buiten de mondiale mainstream dienen.
Moderne AI is gebaseerd op diepe kunstmatige neurale netwerken (NN's). Vanaf 2025 is het meest geciteerde wetenschappelijke artikel van de 21e eeuw een NN-paper over diep residueel leren met residuele verbindingen. Wie heeft dit uitgevonden? We presenteren een tijdlijn van de evolutie van diep residueel leren.
Het automatisch compileren van open-source software (OSS) projecten is een cruciale, arbeidsintensieve en complexe taak, wat het een goede uitdaging maakt voor LLM-agents. Bestaande methoden vertrouwen op handmatig samengestelde regels en workflows, die zich niet kunnen aanpassen aan OSS die aangepaste configuratie of omgevingsinstellingen vereist. Recente pogingen met behulp van Large Language Models (LLMs) maakten gebruik van selectieve evaluatie op een subset van hoog gewaardeerde OSS, een praktijk die de realistische uitdagingen van OSS-compilatie onderschat. In de praktijk ontbreken compilatie-instructies vaak, zijn afhankelijkheden niet gedocumenteerd, en kunnen succesvolle builds zelfs het patchen van bronbestanden of het aanpassen van build-scripts vereisen. Wij stellen een uitdagender en realistischer benchmark voor, BUILD-BENCH, bestaande uit OSS die diverser zijn in kwaliteit, schaal en kenmerken. Bovendien stellen wij een sterke baseline LLM-gebaseerde agent voor, OSS-BUILD-AGENT, een effectief systeem met een verbeterde module voor het ophalen van build-instructies dat state-of-the-art prestaties behaalt op BUILD-BENCH en aanpasbaar is aan heterogene OSS-kenmerken. Wij bieden ook een gedetailleerde analyse met betrekking tot verschillende ontwerpkeuzes voor compilatiemethoden en hun invloed op de gehele taak, wat inzichten biedt om toekomstige vooruitgang te begeleiden. Wij geloven dat prestaties op BUILD-BENCH het vermogen van een agent om compilatie als een complexe software-engineeringtaak aan te pakken, nauwkeurig kunnen weerspiegelen, en als zodanig zal onze benchmark innovatie stimuleren met een significante impact op downstream toepassingen in de velden van softwareontwikkeling en softwaresecurity.
Diffusiemodellen bieden een fysisch onderbouwd raamwerk voor probabilistische weersvoorspellingen, maar hun gebruikelijke afhankelijkheid van trage, iteratieve oplossers tijdens inferentie maakt ze onpraktisch voor subseizoensgebonden tot seizoensgebonden (S2S) toepassingen, waar lange voorspellingstermijnen en domeingestuurde kalibratie essentieel zijn. Om dit aan te pakken, introduceren we Swift, een single-step consistentiemodel dat voor het eerst autoregressieve finetuning van een probabilistisch stromingsmodel mogelijk maakt met een continuous ranked probability score (CRPS) doelstelling. Hierdoor is multi-model ensembling of parameterperturbaties niet langer nodig. Resultaten tonen aan dat Swift vaardige 6-uurvoorspellingen produceert die stabiel blijven tot 75 dagen, en 39 keer sneller werkt dan state-of-the-art diffusiebaselines, terwijl het voorspellingsvaardigheid bereikt die concurreert met de op numerieke methoden gebaseerde, operationele IFS ENS. Dit markeert een stap in de richting van efficiënte en betrouwbare ensemblevoorspellingen van middellange tot seizoensgebonden schalen.
Ontwerpers maken en bewerken grafische ontwerpen in een laagrepresentatie, maar laaggedreven bewerking wordt onmogelijk zodra het is samengesteld tot een rasterafbeelding. In dit werk stellen we LayerD voor, een methode om rastergrafische ontwerpen te ontleden in lagen voor een opnieuw bewerkbare creatieve workflow. LayerD behandelt de ontledingstaak door iteratief onbedekte voorgrondlagen te extraheren. We stellen een eenvoudige maar effectieve verfijningsaanpak voor die gebruikmaakt van de aanname dat lagen in grafische ontwerpen vaak een uniform uiterlijk vertonen. Omdat ontleding een slecht gesteld probleem is en de grondwaarheid van de laagstructuur mogelijk niet betrouwbaar is, ontwikkelen we een kwaliteitsmetriek die deze moeilijkheid aanpakt. In experimenten tonen we aan dat LayerD met succes hoogwaardige ontleding bereikt en de referentiemethoden overtreft. We demonstreren ook het gebruik van LayerD met state-of-the-art beeldgeneratoren en laaggedreven bewerking.
Adversariale zuivering met diffusiemodellen is naar voren gekomen als een veelbelovende verdedigingsstrategie, maar bestaande methoden vertrouwen doorgaans op uniforme ruisinjectie, die alle frequenties ongericht verstoort, semantische structuren aantast en de robuustheid ondermijnt. Onze empirische studie toont aan dat adversariale verstoringen niet uniform verdeeld zijn: ze zijn voornamelijk geconcentreerd in hoogfrequente gebieden, met heterogene intensiteitspatronen die variëren over frequenties en aanvalstypen. Geïnspireerd door deze observatie introduceren we MANI-Pure, een magnitude-adaptief zuiveringsframework dat het magnitudespectrum van inputs gebruikt om het zuiveringsproces te sturen. In plaats van homogene ruis te injecteren, past MANI-Pure adaptief heterogene, frequentiegerichte ruis toe, waardoor adversariale verstoringen effectief worden onderdrukt in kwetsbare hoogfrequente, laagmagnitude banden, terwijl semantisch kritieke laagfrequente inhoud behouden blijft. Uitgebreide experimenten op CIFAR-10 en ImageNet-1K valideren de effectiviteit van MANI-Pure. Het verkleint het gat in nauwkeurigheid op schone data tot binnen 0,59 van de oorspronkelijke classifier, terwijl het de robuuste nauwkeurigheid met 2,15 verhoogt, en behaalt de top-1 robuuste nauwkeurigheid op de RobustBench leaderboard, waarmee het de vorige state-of-the-art methode overtreft.
Bestaande multimodale audiogeneratiemodellen bieden vaak geen precieze gebruikerscontrole, wat hun toepasbaarheid in professionele Foley-workflows beperkt. In het bijzonder richten deze modellen zich op de volledige video en bieden ze geen nauwkeurige methoden om een specifiek object in een scène te prioriteren, waardoor onnodige achtergrondgeluiden worden gegenereerd of de verkeerde objecten worden benadrukt. Om dit gat te dichten, introduceren we de nieuwe taak van video-objectsegmentatiebewuste audiogeneratie, waarbij de geluidssynthese expliciet wordt geconditioneerd op objectniveau-segmentatiekaarten. We presenteren SAGANet, een nieuw multimodaal generatief model dat controleerbare audiogeneratie mogelijk maakt door gebruik te maken van visuele segmentatiemaskers samen met video- en tekstuele aanwijzingen. Ons model biedt gebruikers fijnmazige en visueel gelokaliseerde controle over audiogeneratie. Om deze taak te ondersteunen en verder onderzoek naar segmentatiebewuste Foley te faciliteren, stellen we Segmented Music Solos voor, een benchmarkdataset van muziekinstrumentuitvoeringsvideo's met segmentatie-informatie. Onze methode toont aanzienlijke verbeteringen ten opzichte van huidige state-of-the-art-methoden en zet een nieuwe standaard voor controleerbare, hoogwaardige Foley-synthese. Code, voorbeelden en Segmented Music Solos zijn beschikbaar op https://saganet.notion.site.
Multi-agent systemen (MAS) worden steeds beter in staat om complexe taken uit de echte wereld aan te pakken, maar hun afhankelijkheid van inter-agent coördinatie, gereedschapsgebruik en langetermijnredenering maakt het herkennen van fouten bijzonder uitdagend. Kleine fouten kunnen zich verspreiden over meerdere agents, wat kan escaleren tot taakfouten en lange, verweven uitvoeringstrajecten oplevert die aanzienlijke kosten met zich meebrengen voor zowel menselijke ontwikkelaars als geautomatiseerde systemen om te debuggen en te analyseren. Onze belangrijkste inzicht is dat, ondanks oppervlakkige verschillen in fouttrajecten (bijv. logs), MAS-fouten vaak terugkeren met vergelijkbare structurele patronen. Dit artikel presenteert CORRECT, het eerste lichtgewicht, trainingsvrije framework dat gebruikmaakt van een online cache van gedistilleerde foutschema's om kennis van foutstructuren te herkennen en over te dragen naar nieuwe verzoeken. Dit cache-gebaseerde hergebruik stelt LLM's in staat om gerichte foutlokalisatie uit te voeren tijdens inferentie, waardoor dure hertraining wordt vermeden en aanpassing aan dynamische MAS-implementaties in subseconden mogelijk wordt gemaakt. Om rigoureus onderzoek in dit domein te ondersteunen, introduceren we ook CORRECT-Error, een grootschalige dataset van meer dan 2.000 geannoteerde trajecten die zijn verzameld via een nieuwe foutinjectiepipeline die wordt geleid door real-world distributies, en verder gevalideerd door menselijke evaluatie om afstemming met natuurlijke foutpatronen te waarborgen. Experimenten over zeven diverse MAS-toepassingen laten zien dat CORRECT de stapgewijze foutlokalisatie met tot wel 19,8% verbetert ten opzichte van bestaande vooruitgangen, terwijl het bijna geen overhead heeft, waardoor de kloof tussen geautomatiseerde en menselijke foutherkenning aanzienlijk wordt verkleind.
Time series foundation models (TSFMs) bieden sterke zero-shot voorspellingen via grootschalige voorafgaande training, maar fine-tuning blijft cruciaal om de prestaties te verbeteren in domeinen met beperkte openbare data. Met het groeiende aantal TSFMs wordt het efficiënt identificeren van het beste model voor downstream fine-tuning steeds uitdagender. In dit werk introduceren we TimeTic, een raamwerk voor overdraagbaarheidsschatting dat modelselectie herformuleert als een in-context-leerprobleem: gegeven observaties op bekende (bron) datasets, voorspelt het hoe een TSFM zal presteren na fine-tuning op een downstream (doel) dataset. TimeTic organiseert flexibel de waargenomen model-data relaties als contextuele informatie, waardoor het naadloos kan aanpassen aan verschillende testscenario's. Door gebruik te maken van de natuurlijke tabelstructuur gevormd door dataset meta-kenmerken, modelkenmerken en fine-tuning prestaties, zetten we tabel foundation models in als in-context learners. We introduceren verder een nieuwe modelkarakterisering gebaseerd op entropie-evolutie over model lagen, die onderscheidingen in de embedding-ruimte vastlegt en TimeTic in staat stelt te generaliseren over willekeurige modelsets. We stellen een uitgebreide benchmark op voor overdraagbaarheidsschatting, inclusief 10 datasets, 10 foundation models en 3 voorspellingstaken. Op deze benchmark toont TimeTic's schatting een sterke overeenkomst met de daadwerkelijke fine-tuning prestaties voor voorheen onbekende datasets, met een gemiddelde rangcorrelatie van ongeveer 0.6 en een verbetering van 30% vergeleken met het gebruik van zero-shot prestaties als overdraagbaarheidsscore.
We introduceren de Convolutional Set Transformer (CST), een nieuwe neurale architectuur ontworpen om afbeeldingssets van willekeurige grootte te verwerken die visueel heterogeen zijn maar hoogwaardige semantiek delen - zoals een gemeenschappelijke categorie, scène of concept. Bestaande netwerken voor set-input, zoals Deep Sets en Set Transformer, zijn beperkt tot vectorinputs en kunnen niet direct omgaan met 3D-afbeeldingstensors. Als gevolg hiervan moeten ze worden gekoppeld aan een feature extractor, meestal een CNN, die afbeeldingen codeert in embeddings voordat het set-input netwerk inter-afbeeldingsrelaties kan modelleren. In tegenstelling hiermee werkt CST direct op 3D-afbeeldingstensors, waarbij het feature extractie en contextuele modellering gelijktijdig uitvoert, waardoor synergieën tussen deze twee processen mogelijk worden. Dit ontwerp levert superieure prestaties op in taken zoals Set Classificatie en Set Anomalie Detectie en biedt bovendien native compatibiliteit met CNN-verklaarbaarheidsmethoden zoals Grad-CAM, in tegenstelling tot concurrerende benaderingen die ondoorzichtig blijven. Tot slot laten we zien dat CST's kunnen worden voorgetraind op grootschalige datasets en vervolgens kunnen worden aangepast aan nieuwe domeinen en taken via standaard Transfer Learning schema's. Om verder onderzoek te ondersteunen, brengen we CST-15 uit, een CST-backbone voorgetraind op ImageNet (https://github.com/chinefed/convolutional-set-transformer).
Hoewel grote taalmodellen (LLMs) met redeneervaardigheden snel vooruitgang boeken op het gebied van middelbare school wiskundewedstrijden en programmeren, kunnen ze effectief redeneren door complexe, open uitdagingen die worden aangetroffen in grensverleggend natuurkundig onderzoek? En cruciaal, met welke soorten redeneertaken willen natuurkundigen dat LLMs hen assisteren? Om deze vragen te beantwoorden, presenteren we de CritPt (Complex Research using Integrated Thinking - Physics Test, uitgesproken als "critical point"), de eerste benchmark ontworpen om LLMs te testen op ongepubliceerde, onderzoeksniveau redeneertaken die breed de moderne onderzoeksgebieden van de natuurkunde bestrijken, waaronder gecondenseerde materie, kwantumfysica, atomaire, moleculaire & optische fysica, astrofysica, hoge-energiefysica, mathematische fysica, statistische fysica, kernfysica, niet-lineaire dynamica, vloeistofdynamica en biofysica. CritPt bestaat uit 71 samengestelde onderzoeksuitdagingen ontworpen om volledige onderzoeksprojecten op instapniveau te simuleren, die ook zijn opgedeeld in 190 eenvoudigere checkpointtaken voor meer gedetailleerde inzichten. Alle problemen zijn nieuw gecreëerd door 50+ actieve natuurkundeonderzoekers op basis van hun eigen onderzoek. Elk probleem is handmatig samengesteld om een gokbestendig en machine-verifieerbaar antwoord toe te laten en wordt geëvalueerd door een geautomatiseerd beoordelingsproces dat sterk is aangepast voor geavanceerde, natuurkunde-specifieke uitvoerformaten. We constateren dat hoewel huidige state-of-the-art LLMs vroege belofte tonen op geïsoleerde checkpoints, ze nog ver verwijderd zijn van het betrouwbaar kunnen oplossen van volledige onderzoeksschaal uitdagingen: de beste gemiddelde nauwkeurigheid onder basismodellen is slechts 4,0%, behaald door GPT-5 (hoog), wat matig stijgt tot ongeveer 10% wanneer uitgerust met programmeertools. Door de realistische maar gestandaardiseerde evaluatie die CritPt biedt, benadrukken we een grote kloof tussen de huidige modelmogelijkheden en realistische natuurkundeonderzoeksbehoeften, en bieden we een basis om de ontwikkeling van wetenschappelijk onderbouwde AI-tools te begeleiden.
Watermarking voor grote taalmodellen (LLM's) integreert een statistisch signaal tijdens het genereren om de detectie van door het model geproduceerde tekst mogelijk te maken. Hoewel watermarking effectief is gebleken in goedaardige omgevingen, blijft de robuustheid ervan onder adversariale ontwijking betwist. Om een rigoureus begrip en evaluatie van dergelijke kwetsbaarheden te bevorderen, stellen we de Bias-Inversion Rewriting Attack (BIRA) voor, die theoretisch onderbouwd en model-agnostisch is. BIRA verzwakt het watermerksignaal door de logits van waarschijnlijk gewatermerkte tokens te onderdrukken tijdens het herschrijven op basis van LLM's, zonder enige kennis van het onderliggende watermerkschema. Over recente watermerkmethoden heen bereikt BIRA meer dan 99% ontwijking terwijl de semantische inhoud van de oorspronkelijke tekst behouden blijft. Naast het demonstreren van een aanval, onthullen onze resultaten een systematische kwetsbaarheid, wat de noodzaak benadrukt van stresstesten en robuuste verdedigingen.
Recente vooruitgang in videogeneratie heeft hoogwaardige videosynthese mogelijk gemaakt op basis van door gebruikers verstrekte prompts. Bestaande modellen en benchmarks slagen er echter niet in de complexiteit en vereisten van professionele videogeneratie vast te leggen. Met dat doel voor ogen introduceren we Stable Cinemetrics, een gestructureerd evaluatieraamwerk dat filmtechnische controles formaliseert in vier ontvlochten, hiërarchische taxonomieën: Setup, Gebeurtenis, Belichting en Camera. Samen definiëren deze taxonomieën 76 fijnmazige controlepunten die zijn verankerd in industriële praktijken. Met behulp van deze taxonomieën construeren we een benchmark van prompts die zijn afgestemd op professionele use cases en ontwikkelen we een geautomatiseerde pipeline voor promptcategorisatie en vraaggeneratie, waardoor onafhankelijke evaluatie van elk controledimensie mogelijk wordt. We voeren een grootschalige menselijke studie uit die meer dan 10 modellen en 20.000 video's omvat, geannoteerd door een pool van meer dan 80 filmprofessionals. Onze analyse, zowel op grof als fijnmazig niveau, toont aan dat zelfs de sterkste huidige modellen aanzienlijke tekortkomingen vertonen, met name in Gebeurtenissen en Camera-gerelateerde controles. Om schaalbare evaluatie mogelijk te maken, trainen we een automatische evaluator, een vision-language model dat is afgestemd op expertannotaties en dat bestaande zero-shot-baselines overtreft. SCINE is de eerste aanpak die professionele videogeneratie plaatst binnen het landschap van videogeneratieve modellen, door taxonomieën te introduceren die zijn gericht op cinematische controles en deze te ondersteunen met gestructureerde evaluatiepijplijnen en gedetailleerde analyses om toekomstig onderzoek te begeleiden.
Bestaande benaderingen voor het schatten van vaardigheidsniveaus vertrouwen vaak op black-box videoclassificatoren, waarbij multi-view context wordt genegeerd en uitlegbaarheid ontbreekt. Wij presenteren ProfVLM, een compact vision-language model dat deze taak herformuleert als generatief redeneren: het voorspelt gezamenlijk het vaardigheidsniveau en genereert expertachtige feedback op basis van egocentrische en exocentrische video's. Centraal in onze methode staat een AttentiveGatedProjector die multi-view kenmerken dynamisch samenvoegt, geprojecteerd vanuit een bevroren TimeSformer-backbone naar een taalmodel dat is afgestemd op feedbackgeneratie. Getraind op EgoExo4D met expertcommentaren, overtreft ProfVLM state-of-the-art methoden terwijl het tot 20x minder parameters gebruikt en de trainingsduur met tot 60% reduceert. Onze benadering bereikt niet alleen superieure nauwkeurigheid over diverse activiteiten, maar produceert ook natuurlijke taalkritieken die zijn afgestemd op de prestaties, waardoor transparant redeneren wordt geboden. Deze resultaten benadrukken generatieve vision-language modellering als een krachtige nieuwe richting voor vaardigheidsbeoordeling.
Naar intelligente beeldbewerking toe zou objectverwijdering zowel het doelobject als de bijbehorende visuele artefacten, zoals schaduwen en reflecties, moeten elimineren. Bestaande methoden op basis van beeldweergave volgen echter strikt masker-uitgelijnde training en slagen er niet in deze causale effecten te verwijderen die niet expliciet zijn gemaskeerd, of ze hanteren losjes masker-uitgelijnde strategieën die gebrek aan controleerbaarheid hebben en mogelijk andere objecten onbedoeld overmatig wissen. Wij identificeren dat deze beperkingen voortkomen uit het negeren van de causale relatie tussen de geometrische aanwezigheid van een object en de visuele effecten ervan. Om deze beperking aan te pakken, stellen we een geometrie-bewust tweestaps raamwerk voor dat objectverwijdering ontkoppelt in (1) geometrie-verwijdering en (2) weergave-rendering. In de eerste fase verwijderen we het object direct uit de geometrie (bijv. diepte) met strikt masker-uitgelijnd toezicht, wat structuurbewuste bewerking mogelijk maakt met sterke geometrische beperkingen. In de tweede fase renderen we een fotorealistisch RGB-beeld, gebaseerd op de bijgewerkte geometrie, waarbij causale visuele effecten impliciet worden overwogen als gevolg van de gewijzigde 3D-geometrie. Om het leren in de geometrie-verwijderingsfase te begeleiden, introduceren we een voorkeur-gestuurd doel gebaseerd op positieve en negatieve voorbeeldparen, wat het model aanmoedigt om zowel objecten als hun causale visuele artefacten te verwijderen, terwijl nieuwe structurele toevoegingen worden vermeden. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt in het verwijderen van zowel objecten als hun geassocieerde artefacten op twee populaire benchmarks. De code is beschikbaar op https://github.com/buxiangzhiren/GeoRemover.