Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het overstijgen van menselijke cognitieve beperkingen vormt een cruciaal front in de training van LLM's. Propriëtaire agentische systemen zoals DeepResearch hebben bovenmenselijke prestaties getoond op extreem complexe informatiezoekbenchmarks zoals BrowseComp, een prestatie die voorheen onhaalbaar was. Wij stellen dat hun succes berust op een geavanceerd redeneerpatroon dat afwezig is in open-source modellen: het vermogen om extreme onzekerheid systematisch te reduceren bij het navigeren door uitgestrekte informatielandschappen. Gebaseerd op dit inzicht introduceren we WebSailor, een complete post-trainingsmethodologie ontworpen om deze cruciale capaciteit in te brengen. Onze aanpak omvat het genereren van nieuwe, hoog-onzekerheidstaken via gestructureerde steekproeven en informatieverduistering, RFT cold start, en een efficiënt agentisch RL-trainingsalgoritme, Duplicating Sampling Policy Optimization (DUPO). Met deze geïntegreerde pijplijn presteert WebSailor aanzienlijk beter dan alle open-source agenten in complexe informatiezoektaken, waarbij het de prestaties van propriëtaire agenten evenaart en de capaciteitskloof dicht.
Recente vooruitgang in multimodale redenering is aanzienlijk bevorderd door tekstuele Chain-of-Thought (CoT), een paradigma waarbij modellen redenering uitvoeren binnen taal. Deze tekstgerichte benadering behandelt visie echter als een statische, initiële context, wat een fundamentele "semantische kloof" creëert tussen rijke perceptuele data en discreet symbolisch denken. Menselijke cognitie gaat vaak verder dan taal, waarbij visie wordt gebruikt als een dynamisch mentaal schetsblok. Een vergelijkbare evolutie vindt nu plaats in AI, wat een fundamentele paradigmaverschuiving markeert van modellen die slechts over afbeeldingen nadenken naar modellen die daadwerkelijk met afbeeldingen kunnen denken. Dit opkomende paradigma wordt gekenmerkt door modellen die visuele informatie gebruiken als tussenstappen in hun denkproces, waardoor visie transformeert van een passieve input naar een dynamische, manipuleerbare cognitieve werkruimte. In dit overzicht schetsen we deze evolutie van intelligentie langs een traject van toenemende cognitieve autonomie, dat zich ontvouwt in drie belangrijke fasen: van externe toolverkenning, via programmatische manipulatie, naar intrinsieke verbeelding. Om dit snel evoluerende veld te structureren, levert ons overzicht vier belangrijke bijdragen. (1) We leggen de fundamentele principes vast van het denken met afbeeldingen-paradigma en het driefasenraamwerk. (2) We bieden een uitgebreid overzicht van de kernmethoden die elke fase van deze routekaart kenmerken. (3) We analyseren het kritieke landschap van evaluatiebenchmarks en transformerende toepassingen. (4) We identificeren belangrijke uitdagingen en schetsen veelbelovende toekomstige richtingen. Door dit gestructureerde overzicht te bieden, streven we ernaar een duidelijke routekaart te bieden voor toekomstig onderzoek naar krachtigere en meer mensgerichte multimodale AI.
Inferentie-tijd rekentechnieken, analoog aan menselijk Systeem 2 Denken, zijn recentelijk populair geworden voor het verbeteren van modelprestaties. De meeste bestaande benaderingen hebben echter verschillende beperkingen: ze zijn modaal-specifiek (bijvoorbeeld alleen werkend in tekst), probleem-specifiek (bijvoorbeeld verifieerbare domeinen zoals wiskunde en codering), of vereisen extra supervisie/training bovenop ongesuperviseerde voorafgaande training (bijvoorbeeld verificators of verifieerbare beloningen). In dit artikel stellen we de vraag: "Is het mogelijk om deze Systeem 2 Denken-benaderingen te generaliseren, en modellen te ontwikkelen die leren denken uitsluitend vanuit ongesuperviseerd leren?" Interessant genoeg vinden we dat het antwoord ja is, door expliciet te leren de compatibiliteit tussen invoer en kandidaat-voorspellingen te verifiëren, en vervolgens voorspellingsproblemen te herformuleren als optimalisatie met betrekking tot deze verificator. Specifiek trainen we Energy-Based Transformers (EBTs) – een nieuwe klasse van Energy-Based Models (EBMs) – om een energie-waarde toe te kennen aan elk invoer- en kandidaat-voorspellingspaar, waardoor voorspellingen mogelijk worden via energie-minimalisatie op basis van gradient descent tot convergentie. Over zowel discrete (tekst) als continue (visuele) modaliteiten heen, vinden we dat EBTs sneller schalen dan de dominante Transformer++-benadering tijdens training, met een tot 35% hogere schaalsnelheid ten opzichte van data, batchgrootte, parameters, FLOPs en diepte. Tijdens inferentie verbeteren EBTs de prestaties met Systeem 2 Denken met 29% meer dan de Transformer++ bij taal-taken, en presteren EBTs beter dan Diffusion Transformers bij beeldruisverwijdering terwijl ze minder forward passes gebruiken. Verder vinden we dat EBTs betere resultaten behalen dan bestaande modellen bij de meeste downstream-taken gegeven dezelfde of slechtere voorafgaande trainingsprestaties, wat suggereert dat EBTs beter generaliseren dan bestaande benaderingen. Bijgevolg zijn EBTs een veelbelovend nieuw paradigma voor het schalen van zowel de leer- als denkcapaciteiten van modellen.
Het herstellen van 3D-structuren met open-vocabulary scene understanding vanuit 2D-beelden is een fundamentele maar uitdagende taak. Recente ontwikkelingen hebben dit bereikt door per-scene optimalisatie uit te voeren met ingebedde taal informatie. Echter, ze zijn sterk afhankelijk van het gekalibreerde dense-view reconstructie paradigma, waardoor ze te lijden hebben onder ernstige rendering artefacten en ongeloofwaardige semantische synthese wanneer er beperkte views beschikbaar zijn. In dit artikel introduceren we een nieuw generatief framework, genaamd LangScene-X, om 3D-consistente multimodale informatie te unificeren en te genereren voor reconstructie en begrip. Aangedreven door de generatieve capaciteit om meer consistente nieuwe observaties te creëren, kunnen we generaliseerbare 3D taal-ingebedde scenes bouwen vanuit slechts spaarzame views. Specifiek trainen we eerst een TriMap video diffusie model dat verschijning (RGB's), geometrie (normalen) en semantiek (segmentatiekaarten) kan genereren vanuit spaarzame inputs door middel van progressieve kennisintegratie. Verder stellen we een Language Quantized Compressor (LQC) voor, getraind op grootschalige beelddatasets, om taal embeddings efficiënt te coderen, waardoor cross-scene generalisatie mogelijk wordt zonder per-scene hertraining. Ten slotte reconstrueren we de taal oppervlakte velden door taal informatie uit te lijnen op het oppervlak van 3D-scenes, waardoor open-ended taal queries mogelijk worden. Uitgebreide experimenten op real-world data demonstreren de superioriteit van onze LangScene-X ten opzichte van state-of-the-art methoden in termen van kwaliteit en generaliseerbaarheid. Project Pagina: https://liuff19.github.io/LangScene-X.
Ondanks de cruciale rol van beloningsmodellen (RMs) in reinforcement learning met menselijke feedback (RLHF), presteren de huidige state-of-the-art open RMs slecht op de meeste bestaande evaluatiebenchmarks, waarbij ze niet in staat zijn om het spectrum van genuanceerde en verfijnde menselijke voorkeuren vast te leggen. Zelfs benaderingen die geavanceerde trainingstechnieken incorporeren, hebben geen significante prestatieverbeteringen opgeleverd. We veronderstellen dat deze broosheid voornamelijk voortkomt uit beperkingen in voorkeursdatasets, die vaak beperkt in scope zijn, synthetisch gelabeld, of gebrek aan rigoureuze kwaliteitscontrole. Om deze uitdagingen aan te pakken, presenteren we een grootschalige voorkeursdataset bestaande uit 40 miljoen voorkeursparen, genaamd SynPref-40M. Om data-curatie op grote schaal mogelijk te maken, ontwerpen we een mens-AI synergetische tweefasenpijplijn die de complementaire sterke punten van menselijke annotatiekwaliteit en AI-schaalbaarheid benut. In deze pijplijn leveren mensen geverifieerde annotaties, terwijl grote taalmodellen automatische curatie uitvoeren op basis van menselijke begeleiding. Door te trainen op dit voorkeursmengsel, introduceren we Skywork-Reward-V2, een reeks van acht beloningsmodellen variërend van 0,6B tot 8B parameters, getraind op een zorgvuldig gecureerde subset van 26 miljoen voorkeursparen uit SynPref-40M. We demonstreren dat Skywork-Reward-V2 veelzijdig is over een breed scala aan capaciteiten, waaronder afstemming met menselijke voorkeuren, objectieve correctheid, veiligheid, weerstand tegen stilistische vooroordelen, en best-of-N schaling, waarbij het state-of-the-art prestaties behaalt op zeven belangrijke beloningsmodelbenchmarks. Ablatiestudies bevestigen dat de effectiviteit van onze aanpak niet alleen voortkomt uit de schaal van de data, maar ook uit hoogwaardige curatie. De Skywork-Reward-V2-serie vertegenwoordigt een aanzienlijke vooruitgang in open beloningsmodellen, waarbij het onbenutte potentieel van bestaande voorkeursdatasets wordt benadrukt en wordt gedemonstreerd hoe mens-AI curatiesynergie aanzienlijk hogere data-kwaliteit kan ontsluiten.
Ondanks aanzienlijke vooruitgang in tekst-naar-beeld diffusiemodellen, blijft het bereiken van precieze ruimtelijke controle over gegenereerde uitvoer een uitdaging. ControlNet adresseert dit door een aanvullende conditioneringsmodule te introduceren, terwijl ControlNet++ de uitlijning verder verfijnt door een cyclusconsistentieverlies toe te passen op alleen de laatste denoisestappen. Deze benadering negeert echter de tussenliggende generatiefasen, wat de effectiviteit beperkt. Wij stellen InnerControl voor, een trainingsstrategie die ruimtelijke consistentie afdwingt over alle diffusiestappen. Onze methode traint lichtgewicht convolutionele probes om invoercontrolesignalen (bijv. randen, diepte) te reconstrueren uit tussenliggende UNet-kenmerken bij elke denoisestap. Deze probes extraheren efficiënt signalen, zelfs uit sterk ruisende latente representaties, waardoor pseudo grondwaarheidcontroles voor training mogelijk worden. Door de discrepantie tussen voorspelde en doelcondities gedurende het gehele diffusieproces te minimaliseren, verbetert ons uitlijningsverlies zowel de controlefideliteit als de generatiekwaliteit. In combinatie met gevestigde technieken zoals ControlNet++ bereikt InnerControl state-of-the-art prestaties over diverse conditioneringsmethoden (bijv. randen, diepte).
We introduceren IntFold, een controleerbaar foundation model voor zowel algemene als gespecialiseerde biomoleculaire structuurvoorspelling. IntFold toont voorspellende nauwkeurigheid die vergelijkbaar is met de state-of-the-art AlphaFold3, terwijl het gebruik maakt van een superieur aangepast aandachtskernel. Naast standaard structuurvoorspelling kan IntFold worden aangepast om allosterische toestanden, beperkte structuren en bindingsaffiniteit te voorspellen door het gebruik van individuele adapters. Bovendien introduceren we een nieuw vertrouwenshoofd om de dockingskwaliteit te schatten, wat een meer genuanceerde beoordeling biedt voor uitdagende doelen zoals antigeen-antilichaamcomplexen. Tot slot delen we inzichten die zijn opgedaan tijdens het trainingsproces van dit rekenintensieve model.
Recent werk heeft aangetoond dat het trainingsverlies schaalt volgens een machtswet met zowel de modelgrootte als het aantal tokens, en dat het bereiken van compute-optimale modellen vereist dat de modelgrootte en het tokenaantal samen worden geschaald. Deze schaalwetten gaan echter uit van een oneindige hoeveelheid data en zijn voornamelijk van toepassing in compute-gebonden situaties. Aangezien moderne grote taalmodellen steeds meer vertrouwen op enorme internet-schaal datasets, wordt de aanname dat ze compute-gebonden zijn steeds minder geldig. Deze verschuiving benadrukt de noodzaak voor architecturen die token-efficiëntie prioriteren. In dit werk onderzoeken we het gebruik van de 2-simpliciale Transformer, een architectuur die standaard dot-product aandacht generaliseert naar trilineaire functies via een efficiënte Triton kernel-implementatie. We tonen aan dat de 2-simpliciale Transformer betere token-efficiëntie bereikt dan standaard Transformers: voor een vast tokenbudget presteren vergelijkbaar grote modellen beter dan hun dot-product tegenhangers bij taken die wiskunde, coderen, redeneren en logica betreffen. We kwantificeren deze winst door aan te tonen dat 2-simpliciale aandacht de exponent in de schaalwetten verandert voor kennis- en redeneertaken in vergelijking met dot-product aandacht.
Complexe informatiebehoeften in real-world zoekscenario's vereisen diepgaand redeneren en kennissynthese over diverse bronnen, waar traditionele retrieval-augmented generation (RAG) pijplijnen moeite mee hebben om effectief aan te pakken. Huidige op redenering gebaseerde benaderingen kampen met een fundamentele beperking: ze gebruiken één model om zowel hoogwaardige planning als gedetailleerde uitvoering te hanteren, wat leidt tot inefficiënt redeneren en beperkte schaalbaarheid. In dit artikel introduceren we HiRA, een hiërarchisch framework dat strategische planning scheidt van gespecialiseerde uitvoering. Onze aanpak deconstrueert complexe zoektaken in gerichte subtaken, wijst elke subtask toe aan domeinspecifieke agents die zijn uitgerust met externe tools en redeneervermogen, en coördineert de resultaten via een gestructureerd integratiemechanisme. Deze scheiding voorkomt dat uitvoeringsdetails het hoogwaardige redeneren verstoren, terwijl het systeem gespecialiseerde expertise kan benutten voor verschillende soorten informatieverwerking. Experimenten op vier complexe, cross-modale diepe zoekbenchmarks tonen aan dat HiRA aanzienlijk beter presteert dan state-of-the-art RAG en agent-gebaseerde systemen. Onze resultaten laten verbeteringen zien in zowel antwoordkwaliteit als systeemefficiëntie, wat de effectiviteit van ontkoppelde planning en uitvoering voor meerstaps informatiezoektaken benadrukt. Onze code is beschikbaar op https://github.com/ignorejjj/HiRA.
Peer review is essentieel voor wetenschappelijk onderzoek, maar de groeiende hoeveelheid publicaties heeft de uitdagingen van dit expertise-intensieve proces versterkt. Hoewel LLM's (Large Language Models) veelbelovend zijn in diverse wetenschappelijke taken, blijft hun potentieel om bij te dragen aan peer review, met name bij het identificeren van beperkingen in papers, onderbelicht. We presenteren eerst een uitgebreide taxonomie van beperkingstypen in wetenschappelijk onderzoek, met een focus op AI. Geleid door deze taxonomie introduceren we voor het bestuderen van beperkingen LimitGen, de eerste uitgebreide benchmark voor het evalueren van de capaciteit van LLM's om vroegtijdige feedback te ondersteunen en menselijke peer review aan te vullen. Onze benchmark bestaat uit twee subsets: LimitGen-Syn, een synthetische dataset zorgvuldig gecreëerd door gecontroleerde verstoringen van hoogwaardige papers, en LimitGen-Human, een verzameling van echt door mensen geschreven beperkingen. Om het vermogen van LLM-systemen om beperkingen te identificeren te verbeteren, verrijken we ze met literatuurretrieval, wat essentieel is voor het verankeren van het identificeren van beperkingen in eerdere wetenschappelijke bevindingen. Onze aanpak versterkt de capaciteiten van LLM-systemen om beperkingen in onderzoekspapers te genereren, waardoor ze in staat zijn om meer concrete en constructieve feedback te bieden.
Redeneren blijft een uitdagende taak voor grote taalmodellen (LLMs), vooral binnen de logisch beperkte omgeving van automatisch theorema bewijzen (ATP), vanwege schaarse beloningen en de enorme omvang van bewijzen. Deze uitdagingen worden versterkt in benchmarks zoals PutnamBench, die universiteitsniveau problemen bevatten die complexe, meerstaps redenering vereisen. Om dit aan te pakken, introduceren we zelf gegenereerde doel-conditie MDPs (sG-MDPs), een nieuw raamwerk waarin agenten hun subdoelen genereren en nastreven op basis van de evoluerende bewijsstaat. Door deze meer gestructureerde generatie van doelen wordt het resulterende probleem beter geschikt voor zoekalgoritmen. Vervolgens passen we Monte Carlo Tree Search (MCTS)-achtige algoritmen toe om de sG-MDP op te lossen, waarbij we onze aanpak implementeren in Bourbaki (7B), een modulair systeem dat meerdere 7B LLMs kan samenbrengen voor subdoelgeneratie en tactieksynthese. Op PutnamBench lost Bourbaki (7B) 26 problemen op, waarmee het nieuwe state-of-the-art resultaten behaalt met modellen van deze schaal.
Lineaire aandachtmechanismen bieden aanzienlijke voordelen voor Large Language Models (LLM's) door lineaire computationele complexiteit te bieden, waardoor efficiënte verwerking van ultra-lange sequenties mogelijk wordt (bijv. 1M context). Bestaande Sequence Parallelism (SP)-methoden, die essentieel zijn voor het verdelen van deze workloads over apparaten, worden echter het primaire knelpunt vanwege aanzienlijke communicatie-overhead. In dit artikel introduceren we ZeCO (Zero Communication Overhead) sequence parallelism voor lineaire aandachtmodellen, een nieuwe SP-methode die ontworpen is om deze beperkingen te overwinnen en end-to-end bijna-lineaire schaalbaarheid te bereiken voor training met lange sequenties. Zo duurt het trainen van een model met een sequentielengte van 1M over 64 apparaten met ZeCO ongeveer even lang als trainen met een sequentie van 16k op een enkel apparaat. De kern van ZeCO is All-Scan, een nieuw collectief communicatieprimitief. All-Scan voorziet elke SP-rank van precies de initiële operatorstatus die het nodig heeft, terwijl een minimale communicatievoetafdruk wordt gehandhaafd, waardoor communicatie-overhead effectief wordt geëlimineerd. Theoretisch bewijzen we de optimaliteit van ZeCO, waarbij we aantonen dat het slechts verwaarloosbare tijd- en ruimte-overhead introduceert. Empirisch vergelijken we de communicatiekosten van verschillende sequence parallelism-strategieën en tonen we aan dat All-Scan de snelste communicatie bereikt in SP-scenario's. Specifiek, op 256 GPU's met een sequentielengte van 8M, behaalt ZeCO een snelheidswinst van 60\% ten opzichte van de huidige state-of-the-art (SOTA) SP-methode. Wij geloven dat ZeCO een duidelijke weg opent naar efficiënte training van next-generation LLM's op voorheen onhanteerbare sequentielengtes.
Hoewel grote taalmodellen (LLMs) transformerend zijn geworden, maken ze nog steeds fouten en kunnen ze onproductieve redeneerpaden verkennen. Zelfcorrectie is een belangrijke vaardigheid voor een betrouwbaar LLM, met name een autoregressief LLM. Hoewel LLMs fouten in gebruikersinvoer kunnen identificeren, vertonen ze een systematische 'Zelfcorrectie-Blindheid' - ze slagen er niet in identieke fouten in hun eigen uitvoer te corrigeren. Om dit fenomeen systematisch te bestuderen, introduceren we Self-Correction Bench, een systematisch raamwerk om dit fenomeen te meten door middel van gecontroleerde foutinjectie op drie complexiteitsniveaus. Na het testen van 14 modellen, vinden we een gemiddeld blindheidspercentage van 64,5%. We vinden meerdere aanwijzingen dat deze beperking verband houdt met de samenstelling van de trainingsdata: menselijke trainingsdemonstraties tonen voornamelijk foutloze reacties in plaats van foutcorrectie-sequenties, in tegenstelling tot RL-getrainde modellen die foutcorrectie leren door middel van uitkomstfeedback. Opmerkelijk is dat het simpelweg toevoegen van "Wacht" de blindheid met 89,3% vermindert, wat suggereert dat de capaciteit aanwezig is maar geactiveerd moet worden. Ons werk belicht een kritieke beperking in huidige LLMs en biedt mogelijke wegen om hun betrouwbaarheid en vertrouwen te verbeteren.
Supervised fine-tuning (SFT) wordt veel gebruikt om grote taalmmodellen (LLMs) af te stemmen op informatie-extractie (IE) taken, zoals named entity recognition (NER). Het annoteren van dergelijke fijnmazige labels en het trainen van domeinspecifieke modellen is echter kostbaar. Bestaande werken trainen doorgaans een uniform model voor meerdere domeinen, maar dergelijke benaderingen missen aanpassingsvermogen en schaalbaarheid, omdat niet alle trainingsgegevens voordeel bieden voor de doeldomeinen en het schalen van getrainde modellen een uitdaging blijft. Wij stellen het SaM-framework voor, dat dynamisch expertmodellen selecteert en samenvoegt tijdens de inferentiefase. Specifiek selecteren we voor een doeldomein domeinspecifieke experts die vooraf zijn getraind op bestaande domeinen, gebaseerd op (i) domeingelijkheid met het doeldomein en (ii) prestaties op bemonsterde instanties. De experts worden vervolgens samengevoegd om taakspecifieke modellen te creëren die zijn geoptimaliseerd voor het doeldomein. Door dynamisch experts samen te voegen die voordelig zijn voor doeldomeinen, verbeteren we de generalisatie over verschillende domeinen zonder extra training. Bovendien kunnen experts eenvoudig worden toegevoegd of verwijderd, wat leidt tot grote schaalbaarheid. Uitgebreide experimenten op meerdere benchmarks tonen de effectiviteit van ons framework aan, dat het uniforme model gemiddeld met 10% overtreft. We bieden verder inzichten in mogelijke verbeteringen, praktische ervaringen en uitbreidingen van ons framework.
Reinforcement learning (RL) is uitgegroeid tot een cruciale technologie in de post-trainingsfase van grote taalmmodellen (LLMs). Traditionele taak-geco-lokaliseerde RL-frameworks kampen met aanzienlijke schaalbaarheidsproblemen, terwijl taak-gescheiden RL-frameworks uitdagingen ondervinden bij complexe dataflows en de bijbehorende resource-inactiviteit en werkbelastingsonevenwichtigheden. Bovendien zijn de meeste bestaande frameworks nauw verbonden met LLM-trainings- of inferentie-engines, wat het ondersteunen van aangepaste engines bemoeilijkt. Om deze uitdagingen aan te pakken, stellen we AsyncFlow voor, een asynchroon streaming RL-framework voor efficiënte post-training. Specifiek introduceren we een gedistribueerde dataopslag- en overdrachtsmodule die een uniforme data management en fijnmazige planningscapaciteit biedt op een volledig gestroomde manier. Deze architectuur vergemakkelijkt inherent geautomatiseerde pipeline-overlapping tussen RL-taken en dynamische belastingsbalancering. Daarnaast stellen we een op producent-consument gebaseerde asynchrone workflow voor, ontworpen om computationele inactiviteit te minimaliseren door strategisch parameterupdateprocessen uit te stellen binnen verouderingsdrempels. Ten slotte is de kerncapaciteit van AsyncFlow architecturaal ontkoppeld van onderliggende trainings- en inferentie-engines en ingekapseld door servicegerichte gebruikersinterfaces, wat een modulaire en aanpasbare gebruikerservaring biedt. Uitgebreide experimenten tonen een gemiddelde doorvoerverbetering van 1,59 vergeleken met state-of-the-art baseline. De gepresenteerde architectuur in dit werk biedt praktische inzichten voor het ontwerp van next-generation RL-trainingssystemen.
Multi-organ medische segmentatie is een cruciaal onderdeel van medische beeldverwerking, essentieel voor artsen om nauwkeurige diagnoses te stellen en effectieve behandelplannen te ontwikkelen. Ondanks aanzienlijke vooruitgang in dit veld, lijden huidige multi-organ segmentatiemodellen vaak onder onnauwkeurige details, afhankelijkheid van geometrische prompts en verlies van ruimtelijke informatie. Om deze uitdagingen aan te pakken, introduceren we een nieuw model genaamd CRISP-SAM2 met CRoss-modale Interactie en Semantische Prompting gebaseerd op SAM2. Dit model vertegenwoordigt een veelbelovende aanpak voor multi-organ medische segmentatie geleid door tekstuele beschrijvingen van organen. Onze methode begint met het omzetten van visuele en tekstuele inputs in cross-modale gecontextualiseerde semantiek met behulp van een progressief cross-attention interactiemechanisme. Deze semantiek wordt vervolgens geïnjecteerd in de beeldencoder om het gedetailleerde begrip van visuele informatie te verbeteren. Om de afhankelijkheid van geometrische prompts te elimineren, gebruiken we een semantische prompting strategie, waarbij de originele prompt encoder wordt vervangen om de perceptie van uitdagende doelen te verscherpen. Daarnaast wordt een gelijkenis-sorterende zelf-uppdaterende strategie voor geheugen en een masker-verfijningsproces toegepast om verder aan te passen aan medische beeldvorming en gelokaliseerde details te verbeteren. Vergelijkende experimenten uitgevoerd op zeven publieke datasets geven aan dat CRISP-SAM2 bestaande modellen overtreft. Uitgebreide analyse toont ook de effectiviteit van onze methode aan, waardoor de superieure prestaties worden bevestigd, vooral in het aanpakken van de eerder genoemde beperkingen. Onze code is beschikbaar op: https://github.com/YU-deep/CRISP\_SAM2.git.
Recente vooruitgang in visueel-taalkundige segmentatie heeft het begrip van visuele context aanzienlijk verbeterd. Deze modellen vertonen echter vaak hallucinaties door segmentatiemaskers te produceren voor objecten die niet in de beeldinhoud aanwezig zijn of door irrelevante regio's onjuist te labelen. Bestaande evaluatieprotocollen voor segmentatiehallucinaties richten zich voornamelijk op label- of tekstuele hallucinaties zonder de visuele context te manipuleren, wat hun vermogen beperkt om kritieke fouten te diagnosticeren. Als reactie hierop introduceren we HalluSegBench, de eerste benchmark die specifiek is ontworpen om hallucinaties in visuele gronding te evalueren door de lens van contrafeitelijke visuele redenering. Onze benchmark bestaat uit een nieuwe dataset van 1340 contrafeitelijke instantieparen die 281 unieke objectklassen omvatten, en een reeks nieuw geïntroduceerde metrieken die de gevoeligheid voor hallucinaties kwantificeren onder visueel coherente scènebewerkingen. Experimenten met HalluSegBench op state-of-the-art visueel-taalkundige segmentatiemodellen laten zien dat visueel gedreven hallucinaties aanzienlijk vaker voorkomen dan labelgedreven hallucinaties, waarbij modellen vaak volharden in valse segmentatie, wat de noodzaak van contrafeitelijke redenering benadrukt om de grondingsbetrouwbaarheid te diagnosticeren.