Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) genereren vloeiende en complexe uitvoer, maar slagen er vaak niet in hun eigen fouten en hallucinaties te herkennen. Bestaande benaderingen maken meestal gebruik van externe beoordelaars, consistentie over meerdere steekproeven of op tekst gebaseerde zelfkritiek, wat extra rekenkracht vereist of slechts zwak correleert met daadwerkelijke correctheid. Wij vragen: kunnen LLM's hun eigen mislukkingen voorspellen door tijdens de inferentie naar interne toestanden te kijken? Wij introduceren Gnosis, een lichtgewicht zelfbewustzijnsmechanisme dat bevroren LLM's in staat stelt intrinsieke zelfverificatie uit te voeren door signalen uit verborgen toestanden en aandachtspatronen te decoderen. Gnosis observeert passief interne sporen, comprimeert deze naar descriptoren met een vast budget en voorspelt correctheid met verwaarloosbare inferentiekosten, door slechts ~5M parameters toe te voegen en onafhankelijk van de sequentielengte te werken. Over benchmarks voor wiskundig redeneren, open-domein vraag-antwoordtaken en academische kennis, en over bevroren backbones variërend van 1,7B tot 20B parameters, presteert Gnosis consistent beter dan sterke interne baseline-methoden en grote externe beoordelaars in zowel nauwkeurigheid als calibratie. Bovendien generaliseert het zero-shot naar partiële generaties, wat vroege detectie van mislukkende trajecten en rekenbewuste controle mogelijk maakt. Deze resultaten tonen aan dat betrouwbare correctheidssignalen intrinsiek zijn aan het generatieproces en efficiënt kunnen worden geëxtraheerd zonder externe supervisie.
Wij presenteren NextFlow, een uniforme decoder-only autoregressieve transformer getraind op 6 biljoen geïnterleaveerde tekst-beeld discrete tokens. Door gebruik te maken van een uniforme visuele representatie binnen een uniforme autoregressieve architectuur, activeert NextFlow op natuurlijke wijze multimodale begrips- en generatiecapaciteiten, waardoor mogelijkheden voor beeldbewerking, geïnterleaveerde content en videogeneratie worden ontsloten. Gemotiveerd door de verschillende aard van modaliteiten - waarbij tekst strikt sequentieel is en beelden inherent hiërarchisch - behouden we next-token predictie voor tekst maar adopteren we next-scale predictie voor visuele generatie. Dit wijkt af van traditionele raster-scan methoden en maakt de generatie van 1024x1024 beelden mogelijk in slechts 5 seconden - ordes van grootte sneller dan vergelijkbare AR-modellen. Wij adresseren de instabiliteiten van multi-scale generatie via een robuust trainingsrecept. Verder introduceren we een prefix-tuning strategie voor reinforcement learning. Experimenten tonen aan dat NextFlow state-of-the-art prestaties bereikt onder uniforme modellen en kan rivaliseren met gespecialiseerde diffusion baseline-modellen in visuele kwaliteit.
Dit technisch rapport presenteert K-EXAONE, een grootschalig meertalig taalmodel ontwikkeld door LG AI Research. K-EXAONE is gebouwd op een Mixture-of-Experts-architectuur met in totaal 236B parameters, waarbij 23B parameters worden geactiveerd tijdens inferentie. Het ondersteunt een contextvenster van 256K tokens en behandelt zes talen: Koreaans, Engels, Spaans, Duits, Japans en Vietnamees. Wij evalueren K-EXAONE op een uitgebreide reeks benchmarks die redeneer-, agent-, algemene, Koreaanse en meertalige vaardigheden omvatten. In deze evaluaties toont K-EXAONE een prestatieniveau dat vergelijkbaar is met open-weight modellen van vergelijkbare omvang. K-EXAONE, ontworpen om AI te bevorderen voor een beter leven, positioneert zich als een krachtig propriëtair AI-foundationmodel voor een breed scala aan industriële en onderzoeksapplicaties.
Video Face Swapping (VFS) vereist het naadloos injecteren van een bronidentiteit in een doelvideo, waarbij de oorspronkelijke houding, expressie, belichting, achtergrond en dynamische informatie nauwkeurig behouden blijven. Bestaande methoden hebben moeite om identiteitsgelijkheid en attribuutbehoud te combineren met temporele consistentie. Om deze uitdaging aan te pakken, stellen we een uitgebreid raamwerk voor om de superioriteit van Image Face Swapping (IFS) naadloos over te brengen naar het videodomein. We introduceren eerst een nieuwe datapijplijn, SyncID-Pipe, die een Identity-Anchored Video Synthesizer vooraf traint en deze combineert met IFS-modellen om bidirectionele ID-vierlingen te construeren voor expliciete supervisie. Voortbouwend op gepaarde data stellen we het eerste op Diffusion Transformer gebaseerde raamwerk DreamID-V voor, dat een kern Modality-Aware Conditioning module gebruikt om multi-model condities discriminerend in te spuiten. Tegelijkertijd stellen we een Synthetic-to-Real Curriculum mechanisme en een Identity-Coherence Reinforcement Learning strategie voor om de visuele realiteit en identiteitsconsistentie in uitdagende scenario's te verbeteren. Om het probleem van beperkte benchmarks aan te pakken, introduceren we IDBench-V, een uitgebreide benchmark die diverse scènes omvat. Uitgebreide experimenten tonen aan dat DreamID-V state-of-the-art methoden overtreft en verder uitzonderlijke veelzijdigheid vertoont, waardoor het naadloos kan worden aangepast aan diverse swap-gerelateerde taken.
Visuele generatie wordt gedomineerd door drie paradigma's: AutoRegressieve (AR), diffusie- en Visuele AutoRegressieve (VAR) modellen. In tegenstelling tot AR- en diffusiemodellen werken VAR's met heterogene invoerstructuren tijdens hun generatiestappen, wat ernstige asynchrone beleidsconflicten veroorzaakt. Dit probleem wordt bijzonder acuut in reinforcement learning (RL) scenario's, wat leidt tot instabiele training en suboptimale afstemming. Om dit op te lossen, stellen we een nieuw raamwerk voor om Groepsrelatief Beleidsoptimalisatie (GRPO) te verbeteren door deze conflicten expliciet te beheren. Onze methode integreert drie synergetische componenten: 1) een stabiliserende tussenbeloning om de vroege generatiefase te sturen; 2) een dynamisch herwegingsschema voor tijdsstappen voor precieze krediettoewijzing; en 3) een nieuw maskerpropagatie-algoritme, afgeleid van principes van Reward Feedback Learning (ReFL), ontworpen om optimalisatie-effecten zowel ruimtelijk als temporeel te isoleren. Onze aanpak toont significante verbeteringen in samplekwaliteit en objectieve afstemming ten opzichte van de standaard GRPO-basislijn, waardoor robuuste en effectieve optimalisatie voor VAR-modellen mogelijk wordt.
Het finetunen van diffusiemodellen via online reinforcement learning (RL) heeft groot potentieel getoond voor het verbeteren van tekst-naar-beeld-afstemming. Omdat het echter een uitdaging blijft om een grondwaarheid-doelstelling voor visuele taken precies te specificeren, worden de modellen vaak geoptimaliseerd met behulp van een proxy-beloning die het werkelijke doel slechts gedeeltelijk weergeeft. Deze mismatch leidt vaak tot reward hacking, waarbij proxy-scores stijgen terwijl de werkelijke beeldkwaliteit verslechtert en de generatiediversiteit ineenstort. Hoewel gebruikelijke oplossingen regularisatie toevoegen ten opzichte van het referentiebeleid om reward hacking te voorkomen, gaan deze ten koste van de steekproefefficiëntie en belemmeren ze de verkenning van nieuwe, hoogbeloonde regio's, aangezien het referentiebeleid meestal suboptimaal is. Om aan de concurrerende eisen van steekproefefficiëntie, effectieve verkenning en beperking van reward hacking te voldoen, stellen we Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO) voor, een veelzijdig raamwerk dat compatibel is met verschillende RL-algoritmen. Onze belangrijkste inzicht is dat regularisatie niet universeel toegepast hoeft te worden; in plaats daarvan is het zeer effectief om selectief een subset van steekproeven te bestraffen die een hoge onzekerheid vertonen. Om de verkenninguitdaging aan te pakken, introduceert GARDO een adaptief regularisatiemechanisme waarbij het referentiemodel periodiek wordt bijgewerkt om aan te sluiten bij de capaciteiten van het online beleid, zodat een relevant regularisatiedoel wordt gegarandeerd. Om het mode collapse-probleem in RL aan te pakken, versterkt GARDO de beloningen voor hoogwaardige steekproeven die ook een hoge diversiteit vertonen, waardoor mode coverage wordt aangemoedigd zonder het optimalisatieproces te destabiliseren. Uitgebreide experimenten met diverse proxy-beloningen en onafhankelijke, ongeziene metrieken tonen consistent aan dat GARDO reward hacking beperkt en de generatiediversiteit verbetert zonder in te leveren op steekproefefficiëntie of verkenning, wat de effectiviteit en robuustheid ervan onderstreept.
Wij presenteren VINO, een uniforme visuele generator die beeld- en videogeneratie en -bewerking uitvoert binnen één enkel raamwerk. In plaats van te vertrouwen op taakspecifieke modellen of onafhankelijke modules voor elke modaliteit, gebruikt VINO een gedeelde diffusie-backbone die conditioneert op tekst, beelden en video's, waardoor een breed scala aan visuele creatie- en bewerkingstaken mogelijk wordt binnen één model. Specifiek koppelt VINO een vision-language model (VLM) aan een Multimodal Diffusion Transformer (MMDiT), waarbij multimodale invoer wordt gecodeerd als interleaved conditioneringstokens, die vervolgens worden gebruikt om het diffusieproces te sturen. Dit ontwerp ondersteunt multi-referentie gronding, het volgen van lange instructies en coherente identiteitspreservatie in statische en dynamische content, zonder gebruik te maken van modaliteitsspecifieke architectuurcomponenten. Om zo'n uniform systeem te trainen, introduceren we een meerfasig trainingspijplijn dat een basisvideogeneratiemodel progressief uitbreidt naar een uniforme, multitask-generator die zowel beeld- als video-invoer en -uitvoer aankan. Op diverse generatie- en bewerkingsbenchmarks toont VINO sterke visuele kwaliteit, nauwgezet instructievolgen, verbeterde referentie- en attribuutpreservatie en beter beheerbare multi-identiteitsbewerkingen. Onze resultaten belichten een praktisch pad naar schaalbare uniforme visuele generatie en de belofte van interleaved, in-context berekening als fundament voor algemeen-toepasbare visuele creatie.
De grootse visie om persistent, grootschalig 3D-visueel geometriebegrip mogelijk te maken, wordt geketend door de onverenigbare eisen van schaalbaarheid en langetermijnstabiliteit. Hoewel offline modellen zoals VGGT indrukwekkende geometrische capaciteiten bereiken, maakt hun batchgebaseerde aard ze ongeschikt voor live systemen. Streaming-architecturen, hoewel bedoeld als oplossing voor live operaties, blijken ontoereikend. Bestaande methoden ondersteunen ofwel geen werkelijk oneindige invoerreeksen, of lijden onder catastrofale drift over lange sequenties. Wij doorbreken dit lang bestaande dilemma met InfiniteVGGT, een causaal visueel geometrie-transformer-model dat het concept van een rollend geheugen operationaliseert via een begrensde, maar adaptieve en voortdurend expressieve KV-cache. Hierop voortbordurend ontwikkelen we een trainingsvrije, aandacht-agnostische pruningstrategie die verouderde informatie intelligent verwijdert en het geheugen effectief naar voren 'rolt' met elk nieuw frame. Volledig compatibel met FlashAttention, maakt InfiniteVGGT eindelijk een einde aan het compromis: het stelt oneindige streaming mogelijk en overtreft bestaande streamingmethoden in langetermijnstabiliteit. De ultieme test voor een dergelijk systeem is de prestaties over een werkelijk oneindige reeks, een capaciteit die onmogelijk rigoureus te valideren was vanwege het ontbreken van extreem langdurige, continue benchmarks. Om dit kritieke hiaat te adresseren, introduceren we de Long3D-benchmark, die voor het eerst een rigoureuze evaluatie mogelijk maakt van continue 3D-geometrieschatting op sequenties van ongeveer 10.000 frames. Dit biedt het definitieve evaluatieplatform voor toekomstig onderzoek naar langetermijn-3D-geometriebegrip. Code is beschikbaar op: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Wij onderzoeken het mogelijk maken van het verwerken van willekeurig lange prompts door grote taalmodellen (LLM's) vanuit het perspectief van schaalvergroting tijdens inferentie. Wij stellen Recursieve Taalmodellen (RTL's) voor, een algemene inferentiestrategie die lange prompts behandelt als onderdeel van een externe omgeving en het LLM in staat stelt om programmatisch de prompt te onderzoeken, te decomposeren en recursief zichzelf aan te roepen voor fragmenten van de prompt. Wij constateren dat RTL's inputs aankunnen tot twee orden van grootte verder dan de contextvensters van het model en, zelfs voor kortere prompts, de kwaliteit van basis-LLM's en veelgebruikte steigers voor lange context aanzienlijk overtreffen bij vier uiteenlopende taken met lange context, terwijl de kosten per query vergelijkbaar (of lager) zijn.
Dit werk introduceert Falcon-H1R, een 7B-parameter model geoptimaliseerd voor redeneervaardigheid, dat de haalbaarheid aantoont van concurrerende redeneerprestaties met kleine taalmodellen (SLM's). Falcon-H1R onderscheidt zich door zijn parameter-efficiëntie, waarbij het consistent evenaart of overtreft state-of-the-art redeneermodellen die 2 tot 7 keer groter zijn op diverse reasoning-intensieve benchmarks. Deze resultaten benadrukken het belang van zorgvuldige datacuratie en gerichte trainingsstrategieën (via zowel efficiënte SFT als RL-schaling) om aanzienlijke prestatieverbeteringen te bereiken zonder het modelformaat te vergroten. Bovendien verlegt Falcon-H1R de 3D-grenzen van rekenrendement door snellere inferentie (middels zijn hybride-parallelle architectuurontwerp), token-efficiëntie en hogere nauwkeurigheid te combineren. Deze unieke combinatie maakt Falcon-H1R-7B tot een praktische ruggengraat voor het schalen van geavanceerde redeneersystemen, vooral in scenario's die uitgebreide 'chain-of-thoughts'-generatie en parallelle testtijd-schaling vereisen. Gebruikmakend van de recent geïntroduceerde DeepConf-aanpak bereikt Falcon-H1R state-of-the-art efficiëntie bij testtijd-schaling, wat aanzienlijke verbeteringen biedt in zowel nauwkeurigheid als rekencosten. Hieruit blijkt dat compacte modellen, door gerichte modeltraining en architecturale keuzes, robuuste en schaalbare redeneerprestaties kunnen leveren.
Wij introduceren Talk2Move, een op reinforcement learning (RL) gebaseerd raamwerk voor de ruimtelijke transformatie van objecten in scènes met behulp van tekstinstructies. Het ruimtelijk manipuleren van objecten in een scène via natuurlijke taal vormt een uitdaging voor multimodale generatiesystemen. Hoewel bestaande op tekst gebaseerde manipulatiemethoden het uiterlijk of de stijl kunnen aanpassen, hebben zij moeite met het uitvoeren van objectgeometrische transformaties—zoals het verplaatsen, roteren of herschalen van objecten—vanwege schaars gekoppeld toezicht en beperkingen op pixelniveau-optimalisatie. Talk2Move gebruikt Group Relative Policy Optimization (GRPO) om geometrische acties te verkennen via diverse rollouts gegenereerd vanuit invoerafbeeldingen en lichte tekstuele variaties, waardoor de behoefte aan kostbare gekoppelde data wordt geëlimineerd. Een ruimtelijk beloningsgestuurd model brengt geometrische transformaties in overeenstemming met linguïstische beschrijvingen, terwijl off-policy stapevaluatie en actieve stapbemonstering de leer efficiëntie verbeteren door zich te richten op informatieve transformatiefasen. Verder ontwerpen wij objectgecentreerde ruimtelijke beloningen die verplaatsing, rotatie en schaalgdrag direct evalueren, wat interpreteerbare en samenhangende transformaties mogelijk maakt. Experimenten op samengestelde benchmarks tonen aan dat Talk2Move precieze, consistente en semantisch getrouwe objecttransformaties bereikt, en bestaande tekstgestuurde bewerkingsbenaderingen overtreft in zowel ruimtelijke nauwkeurigheid als scènecoherentie.
Hoewel betrouwbaarheidsschatting een veelbelovende richting is om hallucinaties in Large Language Models (LLM's) te verminderen, richt huidig onderzoek zich voornamelijk op single-turn settings. De dynamiek van modelbetrouwbaarheid in meerdaagse gesprekken, waarbij context zich opstapelt en dubbelzinnigheid geleidelijk wordt opgelost, blijft grotendeels onontgonnen. Betrouwbare betrouwbaarheidsschatting in meerdaagse settings is cruciaal voor veel downstream-toepassingen, zoals autonome agents en human-in-the-loop systemen. Dit werk presenteert de eerste systematische studie naar betrouwbaarheidsschatting in meerdaagse interacties, en stelt een formeel evaluatiekader op dat gebaseerd is op twee kernvereisten: calibratie per beurt en de monotoniciteit van de betrouwbaarheid naarmate meer informatie beschikbaar komt. Om dit te faciliteren, introduceren we nieuwe metrieken, waaronder een lengte-genormaliseerde Expected Calibration Error (InfoECE), en een nieuw "Hinter-Guesser"-paradigma voor het genereren van gecontroleerde evaluatiedatasets. Onze experimenten tonen aan dat veelgebruikte betrouwbaarheidstechnieken moeite hebben met calibratie en monotoniciteit in meerdaagse dialogen. Wij stellen P(Sufficient) voor, een op logits gebaseerde probe die relatief betere prestaties bereikt, hoewel de taak verre van opgelost is. Ons werk biedt een fundamentele methodologie voor het ontwikkelen van betrouwbaardere en vertrouwenswaardigere conversationele agents.
Hoewel grote taalmodelle (LLM's) krachtige inbeddingsbackbones zijn, worden hun toepassingen in trainingsvrije settings geconfronteerd met twee structurele uitdagingen: causale aandacht verhindert dat vroege tokens toegang hebben tot de daaropvolgende context, en het next-token-voorspellingsdoel vertekent de representaties in de richting van generatie in plaats van semantische compressie. Om deze beperkingen aan te pakken, stellen we KV-Embedding voor, een raamwerk dat de latente representatiekracht van bevroren LLM's activeert. Onze methode maakt gebruik van de observatie dat de key-value (KV)-toestanden van het laatste token in elke laag een gecomprimeerd beeld van de sequentie coderen. Door deze toestanden om te leiden als een voorgeplaatst prefix, stellen we alle tokens in staat om toegang te krijgen tot sequentieniveau-context binnen een enkele voorwaartse pass. Om model-onafhankelijke toepasbaarheid te garanderen, introduceren we een geautomatiseerde laagselectiestrategie gebaseerd op intrinsieke dimensionaliteit. Evaluaties op de MTEB-benchmark met Qwen-, Mistral- en Llama-backbones tonen aan dat KV-Embedding bestaande trainingsvrije baseline-methoden met tot 10% overtreft, terwijl het robuuste prestaties behoudt op sequenties tot 4.096 tokens. Deze resultaten tonen aan dat manipulatie van interne toestanden een efficiënt alternatief biedt voor inputmodificatie, en we hopen dat dit werk verder onderzoek naar de interne werking van LLM's voor representationeel leren aanmoedigt.
Wij introduceren CPPO, een Contrastive Perception Policy Optimization-methode voor het finetunen van vision-language modellen (VLM's). Hoewel reinforcement learning (RL) de redeneervaardigheid van taalmodellen heeft verbeterd, vereist de uitbreiding naar multimodaal redeneren verbetering van zowel de perceptuele als de redeneeraspecten. Eerdere werken pakken deze uitdaging vooral aan met expliciete perceptiebeloningen, maar het ontwarren van perceptietokens van redeneertokens is moeilijk en vereist extra grote taalmodellen, grondwaarheid-data, geforceerde scheiding van perceptie en redeneren door het beleidsmodel, of het ongericht toepassen van beloningen op alle outputtokens. CPPO lost dit probleem op door perceptietokens te detecteren via entropieverschuivingen in de modeloutputs onder verstoorde invoerafbeeldingen. CPPO breidt vervolgens de RL-doelfunctie uit met een Contrastive Perception Loss (CPL) die consistentie afdwingt onder informatiebehoudende verstoringen en gevoeligheid onder informatieverwijderende verstoringen. Experimenten tonen aan dat CPPO eerdere methoden met perceptiebeloning overtreft, terwijl het extra modellen vermijdt, waardoor de training efficiënter en schaalbaarder wordt.
De reconstructie van menselijke mesh-modellen uit beelden met meerdere gezichtspunten kampt met een fundamentele uitdaging: real-world datasets bevatten onvolmaakte grondwaarheid-annotaties die de training van modellen beïnvloeden, terwijl synthetische data met precieze supervisie lijdt onder een domeinkloof. In dit artikel stellen we DiffProxy voor, een nieuw raamwerk dat consistente menselijke proxies voor mesh-reconstructie genereert vanuit meerdere gezichtspunten. De kern van DiffProxy is het benutten van op diffusie gebaseerde generatieve prior kennis om de synthetische training en generalisatie naar de echte wereld te overbruggen. De belangrijkste innovaties omvatten: (1) een multi-conditioneel mechanisme voor het genereren van multi-view consistente, pixel-uitgelijnde menselijke proxies; (2) een handverfijningsmodule die flexibele visuele prompts integreert om lokale details te verbeteren; en (3) een onzekerheidsbewuste schalingsmethode tijdens testtijd die de robuustheid voor uitdagende gevallen tijdens optimalisatie vergroot. Deze ontwerpen zorgen ervoor dat het mesh-reconstructieproces effectief profiteert van de precieze synthetische grondwaarheid en de generatieve voordelen van de op diffusie gebaseerde pijplijn. Volledig getraind op synthetische data behaalt DiffProxy state-of-the-art prestaties op vijf real-world benchmarks, wat een sterke zero-shot generalisatie aantoont, vooral in uitdagende scenario's met occlusies en gedeeltelijke aanzichten. Projectpagina: https://wrk226.github.io/DiffProxy.html
Met de inzet van grote taalmodellen in kritieke bedrijfstoepassingen, van gezondheidszorg tot financiën, is het waarborgen van naleving van organisatiespecifiek beleid essentieel geworden. Toch richten bestaande veiligheidsevaluaties zich uitsluitend op universele risico's. Wij presenteren COMPASS (Company/Organization Policy Alignment Assessment), het eerste systematische kader voor het evalueren of LLM's voldoen aan organisatorische allowlist- en denylist-beleidsregels. We passen COMPASS toe op acht diverse industriescenario's, waarbij we 5.920 queries genereren en valideren die zowel routinematige naleving als adversariële robuustheid testen via strategisch ontworpen edge cases. Na evaluatie van zeven state-of-the-art modellen onthullen we een fundamentele asymmetrie: modellen verwerken legitieme verzoeken betrouwbaar (>95% nauwkeurigheid), maar falen catastrofaal bij het handhaven van verboden, waarbij slechts 13-40% van de adversariële denylist-overtredingen wordt geweigerd. Deze resultaten tonen aan dat huidige LLM's niet de vereiste robuustheid bezitten voor beleidskritieke implementaties, waarmee COMPASS zich vestigt als een essentieel evaluatiekader voor organisatorische AI-veiligheid.
Half-gesuperviseerde semantische segmentatie van remote sensing (RS) beelden biedt een veelbelovende oplossing om de last van uitputtende annotatie te verlichten, maar kampt fundamenteel met pseudo-labeldrift, een fenomeen waarbij bevestigingsbias leidt tot de accumulatie van fouten tijdens de training. In dit werk stellen we Co2S voor, een stabiel half-gesuperviseerd RS-segmentatieraamwerk dat op synergetische wijze prior knowledge van vision-language modellen en zelf-gesuperviseerde modellen fuseert. Concreet construeren we een heterogene dual-student architectuur bestaande uit twee verschillende ViT-gebaseerde vision foundation modellen, geïnitialiseerd met voorgetrainde CLIP en DINOv3, om foutenaccumulatie en pseudo-labeldrift te mitigeren. Om deze verschillende prior knowledge effectief te incorporeren, wordt een expliciet-impliciet semantisch co-guidance mechanisme geïntroduceerd dat tekst-embeddings en leerbare queries gebruikt om respectievelijk expliciete en impliciete klasse-niveau begeleiding te bieden, waardoor de semantische consistentie gezamenlijk wordt verbeterd. Verder wordt een global-local feature collaborative fusion strategie ontwikkeld om de globale contextuele informatie vastgelegd door CLIP effectief te fusioneren met de lokale details geproduceerd door DINOv3, waardoor het model in staat wordt gesteld zeer precieze segmentatieresultaten te genereren. Uitgebreide experimenten op zes populaire datasets demonstreren de superioriteit van de voorgestelde methode, die consistent leidende prestaties behaalt across verschillende partitieprotocollen en uiteenlopende scenario's. De projectpagina is beschikbaar op https://xavierjiezou.github.io/Co2S/.
Wij presenteren SWE-Lego, een recept voor supervised fine-tuning (SFT) dat is ontworpen om state-of-the-art prestaties te bereiken bij het oplossen van software engineering (SWE) issues. In tegenstelling tot gangbare methoden die steunen op complexe trainingsparadigma's (zoals mid-training, SFT, reinforcement learning en combinaties daarvan), onderzoeken wij hoe de grenzen van een lichtgewicht, uitsluitend op SFT gebaseerde aanpak voor SWE-taken kunnen worden verlegd. SWE-Lego omvat drie kernbouwstenen, waarbij de belangrijkste bevindingen als volgt worden samengevat: 1) de SWE-Lego dataset, een verzameling van 32k hoogwaardige taakinstanties en 18k gevalideerde trajecten, die reële en synthetische data combineert om elkaar aan te vullen in zowel kwaliteit als kwantiteit; 2) een verfijnde SFT-procedure met error masking en een op moeilijkheidsgraad gebaseerd curriculum, waarvan aantoonbaar is dat het de actiekwaliteit en algehele prestaties verbetert. Empirische resultaten tonen aan dat met alleen deze twee bouwstenen, de SFT SWE-Lego-modellen naar state-of-the-art prestaties kan stuwen onder open-source modellen van vergelijkbare omvang op SWE-bench Verified: SWE-Lego-Qwen3-8B bereikt 42,2%, en SWE-Lego-Qwen3-32B behaalt 52,6%. 3) Wij evalueren en verbeteren verder test-time scaling (TTS), gebouwd op de SFT-fundering. Gebaseerd op een goed getrainde verifier, kunnen SWE-Lego-modellen significant worden verbeterd—bijvoorbeeld van 42,2% naar 49,6% en van 52,6% naar 58,8% onder TTS@16 voor respectievelijk de 8B en 32B modellen.
Het beoordelen van originaliteit is cruciaal maar uitdagend bij peer review, omdat beoordelaars inzendingen moeten toetsen aan een uitgebreide, snel evoluerende literatuur. Dit rapport presenteert OpenNovelty, een op LLM gebaseerd agent-systeem voor transparante, op bewijs gestoelde originaliteitsanalyse. Het systeem werkt via vier fasen: (1) het extraheren van de kerntaak en bijdrageclaims om zoektermen te genereren; (2) het ophalen van relevante eerdere werken op basis van de geëxtraheerde zoektermen via een semantische zoekmachine; (3) het construeren van een hiërarchische taxonomie van kerntaak-gerelateerd werk en het uitvoeren van volledige-tekstvergelijkingen op bijdrageniveau voor elke bijdrage; en (4) het synthetiseren van alle analyses in een gestructureerd originaliteitsrapport met expliciete citaten en bewijsstukken. In tegenstelling tot naïeve op LLM gebaseerde benaderingen, grondvest OpenNovelty alle beoordelingen in opgehaalde echte publicaties, wat controleerbare oordelen waarborgt. We implementeren ons systeem op 500+ ICLR 2026-inzendingen met alle rapporten openbaar beschikbaar op onze website, en voorlopige analyse suggereert dat het relevante eerdere werken kan identificeren, inclusief nauw verwante publicaties die auteurs mogelijk over het hoofd zien. OpenNovelty beoogt de onderzoeksgemeenschap te empoweren met een schaalbaar instrument dat een eerlijke, consistente en op bewijs gestoelde peer review bevordert.
Wij introduceren materiomuziek als een generatief raamwerk dat de hiërarchische structuren van materie verbindt met de compositionele logica van muziek. In eiwitten, spinnenwebben en vlamdynamiek keren vibrationele en architectonische principes terug als tonale hiërarchieën, harmonische progressies en muzikale vorm op lange afstand. Door middel van omkeerbare afbeeldingen, van moleculaire spectra naar muzikale tonen en van driedimensionale netwerken naar bespeelbare instrumenten, tonen wij aan hoe geluid functioneert als een wetenschappelijke sonde, een epistemische inversie waarbij luisteren een manier van zien wordt en muzikale compositie een blauwdruk voor materie. Deze afbeeldingen graven diepe tijd op: patronen die ontstaan in femtoseconde-moleculaire trillingen of evolutionaire geschiedenissen van miljarden jaren worden hoorbaar. Wij stellen dat vernieuwing in wetenschap en kunst ontstaat wanneer beperkingen niet binnen bestaande vrijheidsgraden kunnen worden voldaan, wat een uitbreiding van de ruimte van levensvatbare configuraties forceert. Selectieve imperfectie verschaft het mechanisme dat de balans tussen coherentie en aanpasbaarheid herstelt. Kwantitatieve ondersteuning komt van de uitputtende enumeratie van alle 2^12 muziekschalen, welke onthult dat cultureel significante systemen clusteren in een midden-entropie, midden-defect corridor, direct parallel aan het Hall-Petch optimum waar intermediaire defectdichtheden de materiaalsterkte maximaliseren. Het itereren van deze afbeeldingen creëert productieve botsingen tussen menselijke creativiteit en natuurkunde, waarbij nieuwe informatie wordt gegenereerd wanneer muzikale structuren evolutionaire beperkingen tegenkomen. Wij tonen aan hoe op zwermen gebaseerde AI-modellen muziek componeren die mens-achtige structurele signaturen vertoont, zoals small-world connectiviteit, modulaire integratie en coherentie op lange afstand, wat een route voorbij interpolatie richting uitvinding suggereert. Wij tonen aan dat wetenschap en kunst generatieve daden van wereldopbouw onder beperking zijn, met trilling als een gedeelde grammatica die structuur over schalen organiseert.
Multi-annotator medische beeldsegmentatie is een belangrijk onderzoeksprobleem, maar vereist geannoteerde datasets die duur zijn om te verzamelen. Dermoscopische beeldvorming van huidlaesies stelt menselijke experts en AI-systemen in staat om morfologische structuren te observeren die anders niet waarneembaar zijn vanuit reguliere klinische foto's. Er zijn echter momenteel geen grootschalige, openbaar beschikbare multi-annotator huidlaesie-segmentatie (SLS) datasets met annotator-labels voor dermoscopische beeldvorming van huidlaesies. Wij introduceren ISIC MultiAnnot++, een grote, openbare multi-annotator huidlaesie-segmentatiedataset voor afbeeldingen uit het ISIC-archief. De uiteindelijke dataset bevat 17.684 segmentatiemaskers verspreid over 14.967 dermoscopische afbeeldingen, waarbij 2.394 dermoscopische afbeeldingen 2-5 segmentaties per afbeelding hebben, wat het de grootste openbaar beschikbare SLS-dataset maakt. Verder is metadata over de segmentatie, waaronder het vaardigheidsniveau van de annotators en het gebruikte segmentatiegereedschap, opgenomen, wat onderzoek mogelijk maakt naar onderwerpen zoals annotator-specifieke voorkeursmodellering voor segmentatie en analyse van annotator-metadata. Wij bieden een analyse van de kenmerken van deze dataset, samengestelde data-partities en consensus-segmentatiemaskers.
Geo-Foundation Models (GFM's) hebben hun effectiviteit bewezen in diverse downstream-toepassingen, zoals semantische segmentatie, classificatie- en regressietaken. Bij het in kaart brengen van overstromingen met de Sen1Flood11-dataset als downstream-taak, slagen GFM's er echter niet in om de baseline U-Net te overtreffen, wat de beperking van het model aantoont in het vastleggen van kritieke lokale nuances. Om dit aan te pakken, presenteren we de Prithvi-Complementary Adaptive Fusion Encoder (CAFE), die de voorgetrainde Prithvi GFM-encoder integreert met een parallelle CNN-residualtak die is verbeterd met Convolutional Attention Modules (CAM). Prithvi-CAFE maakt snelle en efficiënte fine-tuning mogelijk via adapters in Prithvi en voert multi-schaal, multi-level fusie uit met CNN-features, waarbij kritieke lokale details worden vastgelegd terwijl lange-afstandsafhankelijkheden behouden blijven. We behalen state-of-the-art resultaten op twee uitgebreide overstromingskaartdatasets: Sen1Flood11 en FloodPlanet. Op de Sen1Flood11-testdata presteert Prithvi-CAFE (IoU 83,41) beter dan de originele Prithvi (IoU 82,50) en andere grote GFM's (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). De verbetering is nog duidelijker op de hold-out testlocatie, waar Prithvi-CAFE een IoU behaalt van 81,37 vergeleken met de baseline U-Net (70,57) en de originele Prithvi (72,42). Op FloodPlanet overtreft Prithvi-CAFE eveneens de baseline U-Net en andere GFM's, met een IoU van 64,70 tegenover U-Net (60,14), Terramind (62,33), DOFA (59,15) en Prithvi 2.0 (61,91). Onze voorgestelde, eenvoudige maar effectieve Prithvi-CAFE toont sterk potentieel voor het verbeteren van segmentatietaken waarbij multi-channel en multi-modale data complementaire informatie bieden en lokale details cruciaal zijn. De code is vrijgegeven op https://github.com/Sk-2103/Prithvi-CAFE{Prithvi-CAFE Github}
Naarmate Large Language Model (LLM)-agenten steeds vaker worden ingezet voor autonome besluitvorming met grote gevolgen, is de transparantie van hun redeneerprocessen een kritieke veiligheidskwestie geworden. Hoewel Chain-of-Thought (CoT)-prompting agenten in staat stelt menselijk leesbare redeneersporen te genereren, is het onduidelijk of deze sporen getrouwe generatieve drijvers van de modeloutput zijn of slechts post-hoc rationalisaties. Wij introduceren Project Ariadne, een nieuw XAI-raamwerk dat Structurele Causale Modellen (SCM's) en contrafeitelijke logica gebruikt om de causale integriteit van agentisch redeneren te auditen. In tegenstelling tot bestaande interpreteerbaarheidsmethoden die vertrouwen op oppervlakkige tekstuele gelijkenis, voert Project Ariadne harde interventies (do-calculus) uit op intermediaire redeneerknooppunten – door systematisch logica om te keren, premissen te ontkennen en feitelijke beweringen om te draaien – om de Causale Gevoeligheid (φ) van het uiteindelijke antwoord te meten. Onze empirische evaluatie van state-of-the-art modellen onthult een hardnekkige Getrouwheidskloof. Wij definiëren en detecteren een wijdverbreide faalmodus, genaamd Causale Ontkoppeling, waarbij agenten een overtredingsdichtheid (ρ) vertonen van tot 0.77 in feitelijke en wetenschappelijke domeinen. In deze gevallen komen agenten tot identieke conclusies ondanks tegenstrijdige interne logica, wat bewijst dat hun redeneersporen functioneren als "Reasoning Theater" terwijl de besluitvorming wordt gestuurd door latente parametrische prioren. Onze bevindingen suggereren dat huidige agentische architecturen inherent vatbaar zijn voor ongetrouwe verklaringen, en wij stellen de Ariadne-score voor als een nieuwe benchmark voor het afstemmen van vermelde logica op modelactie.
Tekst-naar-beeld diffusiemodellen kunnen schadelijke of auteursrechtelijk beschermde inhoud genereren, wat onderzoek naar het wissen van concepten motiveert. Bestaande benaderingen richten zich echter voornamelijk op het wissen van concepten uit tekstprompts, waarbij andere invoermodaliteiten over het hoofd worden gezien die in real-world toepassingen zoals beeldbewerking en gepersonaliseerde generatie steeds kritischer worden. Deze modaliteiten kunnen aanvalsoppervlakken worden, waar gewiste concepten opnieuw opduiken ondanks verdedigingsmaatregelen. Om deze kloof te overbruggen, introduceren we M-ErasureBench, een nieuw multimodaal evaluatieraamwerk dat conceptwis methoden systematisch benchmarkt over drie invoermodaliteiten: tekstprompts, aangeleerde embeddings en geïnverteerde latenties. Voor de laatste twee evalueren we zowel white-box als black-box toegang, wat vijf evaluatiescenario's oplevert. Onze analyse toont aan dat bestaande methoden sterke wisprestaties leveren tegen tekstprompts, maar grotendeels falen bij aangeleerde embeddings en geïnverteerde latenties, met een Concept Reproducatie Ratio (CRR) van meer dan 90% in de white-box setting. Om deze kwetsbaarheden aan te pakken, stellen we IRECE voor (Inference-time Robustness Enhancement for Concept Erasure), een plug-and-play module die doelconcepten lokaliseert via cross-attention en de bijbehorende latenties verstoort tijdens denoisen. Experimenten tonen aan dat IRECE consistent robuustheid herstelt, de CRR met tot 40% reduceert in het meest uitdagende white-box latentie-inversiescenario, terwijl de visuele kwaliteit behouden blijft. Voor zover wij weten, biedt M-ErasureBench de eerste uitgebreide benchmark voor het wissen van concepten voorbij tekstprompts. Samen met IRECE biedt onze benchmark praktische waarborgen voor het bouwen van betrouwbaardere beschermende generatieve modellen.