Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De evolutie van Large Language Models (LLM's) naar autonome agents heeft de reikwijdte van AI-codering uitgebreid van lokale codegeneratie naar complexe, repository-brede en uitvoeringsgedreven probleemoplossing. Huidige benchmarks evalueren echter voornamelijk codelogica in statische contexten, waarbij de dynamische, volledige-proces vereisten van echte engineering worden verwaarloosd. Dit is met name problematisch in backend-ontwikkeling, die rigoureuze omgevingsconfiguratie en servicedeployments vereist. Om deze leemte te adresseren, introduceren wij ABC-Bench, een benchmark die expliciet is ontworpen om agent-gestuurde backend-codering te evalueren binnen een realistische, uitvoerbare workflow. Met behulp van een schaalbare geautomatiseerde pijplijn hebben wij 224 praktische taken samengesteld, verspreid over 8 programmeertalen en 19 frameworks, afkomstig uit open-source repositories. In tegenstelling tot eerdere evaluaties, vereist ABC-Bench dat de agents de volledige ontwikkelingslevenscyclus beheren – van repository-verkenning tot het instantiëren van gecontaineriseerde services – en dat zij externe end-to-end API-tests doorstaan. Onze uitgebreide evaluatie toont aan dat zelfs state-of-the-art modellen moeite hebben om betrouwbare prestaties te leveren bij deze holistische taken, wat een aanzienlijke kloof benadrukt tussen de huidige modelcapaciteiten en de eisen van praktische backend-engineering. Onze code is beschikbaar op https://github.com/OpenMOSS/ABC-Bench.
Grote taalmodellen lossen complexe redeneertaken vaak effectiever op met Chain-of-Thought (CoT), maar tegen de kost van lange, laagbandbreedte tokenreeksen. Mensen daarentegen redeneren vaak op een 'zachte' manier door een verdeling aan te houden over plausibele volgende stappen. Gemotiveerd door dit gegeven stellen wij Multiplex Thinking voor, een stochastisch zacht redeneermechanisme dat bij elke denkstap K kandidaat-tokens bemonstert en hun embeddings aggregeert tot een enkel continu multiplex-token. Dit behoudt de prior van de vocabulaire-embedding en de bemonsteringsdynamiek van standaard discrete generatie, terwijl het een hanteerbare kansverdeling induceert over multiplex-rollouts. Hierdoor kunnen multiplex-trajecten direct worden geoptimaliseerd met on-policy reinforcement learning (RL). Belangrijk is dat Multiplex Thinking zelfadaptief is: wanneer het model zeker is, is het multiplex-token bijna discreet en gedraagt het zich zoals standaard CoT; wanneer het onzeker is, representeert het compact meerdere plausibele volgende stappen zonder de reekslengte te vergroten. Op uitdagende wiskundige redeneerbenchmarks presteert Multiplex Thinking consistent beter dan sterke discrete CoT- en RL-baselines van Pass@1 tot Pass@1024, terwijl het kortere sequenties produceert. De code en checkpoints zijn beschikbaar op https://github.com/GMLR-Penn/Multiplex-Thinking.
Het nauwkeurig beoordelen van modelvertrouwen is essentieel voor de inzet van grote taalmmodellen (LLM's) in feitelijke domeinen waar geen fouten kunnen worden toegestaan. Hoewel retrieval-augmented generation (RAG) algemeen wordt toegepast om de onderbouwing te verbeteren, blijft confidence calibration in RAG-omgevingen slecht begrepen. Wij voeren een systematische studie uit over vier benchmarks, waaruit blijkt dat LLM's een slechte kalibratieprestatie vertonen als gevolg van ruis in opgehaalde contexten. Specifiek neigt tegenstrijdig of irrelevant bewijsmateriaal ertoe te leiden dat het model een valse zekerheid krijgt, wat resulteert in ernstige overmoedigheid. Om dit aan te pakken, stellen wij NAACL Rules (Noise-AwAre Confidence CaLibration Rules) voor om een principiële basis te bieden voor het oplossen van overmoedigheid bij ruis. Wij ontwerpen verder NAACL, een ruisbewust kalibratieraamwerk dat supervisie synthetiseert uit ongeveer 2.000 HotpotQA-voorbeelden, geleid door deze regels. Door supervised fine-tuning (SFT) uit te voeren met deze data, rust NAACL modellen uit met een intrinsiek ruisbewustzijn zonder afhankelijk te zijn van sterkere leraarmodellen. Empirische resultaten tonen aan dat NAACL aanzienlijke verbeteringen oplevert, met een verbetering van de ECE-scores met 10,9% in-domein en 8,0% out-of-domein. Door de kloof tussen retrievalruis en verbale kalibratie te overbruggen, baant NAACL de weg voor zowel nauwkeurige als epistemisch betrouwbare LLM's.
Promptbare segmentatiefoundationmodellen zoals SAM3 hebben sterke generalisatiecapaciteiten gedemonstreerd door interactieve en conceptgebaseerde prompting. Hun directe toepasbaarheid op medische beeldsegmentatie blijft echter beperkt door ernstige domeinverschuivingen, de afwezigheid van geprivilegieerde ruimtelijke prompts en de noodzaak om te redeneren over complexe anatomische en volumetrische structuren. Hier presenteren we Medical SAM3, een foundationmodel voor universele prompt-gestuurde medische beeldsegmentatie, verkregen door volledige fine-tuning van SAM3 op grootschalige, heterogene 2D- en 3D-medische beeldvormingsdatasets met gekoppelde segmentatiemaskers en tekstprompts. Door een systematische analyse van de standaard SAM3 observeren we dat de prestaties aanzienlijk verslechteren op medische data, waarbij de schijnbare competitiviteit grotendeels steunt op sterke geometrische aannames zoals ground-truth-afgeleide begrenzingskaders. Deze bevindingen motiveren volledige modelaanpassing die verder gaat dan alleen promptengineering. Door fine-tuning van de modelparameters van SAM3 op 33 datasets verspreid over 10 medische beeldvormingsmodaliteiten, verwerft Medical SAM3 robuuste domeinspecifieke representaties terwijl de prompt-gestuurde flexibiliteit behouden blijft. Uitgebreide experimenten over organen, beeldvormingsmodaliteiten en dimensionaliteiten tonen consistente en significante prestatieverbeteringen, vooral in uitdagende scenario's gekenmerkt door semantische ambiguïteit, complexe morfologie en 3D-context over lange afstanden. Onze resultaten positioneren Medical SAM3 als een universeel, tekstgestuurd segmentatiefoundationmodel voor medische beeldvorming en benadrukken het belang van holistische modelaanpassing voor het bereiken van robuuste prompt-gestuurde segmentatie onder ernstige domeinverschuiving. Code en model zullen beschikbaar worden gesteld op https://github.com/AIM-Research-Lab/Medical-SAM3.
PubMed-OCR is een OCR-gecentreerd corpus van wetenschappelijke artikelen, afgeleid van PubMed Central Open Access PDF's. Elke pagina-afbeelding is geannoteerd met Google Cloud Vision en vrijgegeven in een compact JSON-schema met begrenzingskaders op woord-, regel- en alineaniveau. Het corpus beslaat 209.500 artikelen (1,5 miljoen pagina's; circa 1,3 miljard woorden) en ondersteunt lay-outbewuste modellering, coördinaat-gebaseerde vraag-antwoordtaken en evaluatie van OCR-afhankelijke pijplijnen. Wij analyseren corpuskenmerken (zoals tijdschriftdekking en gedetecteerde lay-outkenmerken) en bespreken beperkingen, waaronder de afhankelijkheid van een enkele OCR-engine en heuristische lijnreconstructie. Wij geven de data en het schema vrij om vervolgonderzoek te vergemakkelijken en nodigen uit tot uitbreidingen.
Grote taalmodellen kunnen een verscheidenheid aan persona's vertegenwoordigen, maar vallen doorgaans terug op een behulpzame Assistent-identiteit die is aangeleerd tijdens de nafase van de training. Wij onderzoeken de structuur van de ruimte van modelpersona's door activatierichtingen te extraheren die corresponderen met diverse karakterarchetypen. In verschillende modellen ontdekken we dat de belangrijkste component van deze persoonlijke ruimte een "Assistent-as" is, die weergeeft in hoeverre een model functioneert in zijn standaard Assistent-modus. Sturen in de richting van de Assistent versterkt behulpzaam en onschadelijk gedrag; wegsturen vergroot de neiging van het model om zich als andere entiteiten te identificeren. Bovendien leidt wegsturen met extremere waarden vaak tot een mystieke, theatrale spreekstijl. We ontdekken dat deze as ook aanwezig is in vooraf getrainde modellen, waar deze voornamelijk behulpzame menselijke archetypen zoals consultants en coaches bevordert en spirituele archetypen remt. Het meten van afwijkingen langs de Assistent-as voorspelt "persona-drift", een fenomeen waarbij modellen vervallen in schadelijk of bizar gedrag dat niet kenmerkend is voor hun gebruikelijke persona. We stellen vast dat persona-drift vaak wordt veroorzaakt door gesprekken die meta-reflectie op de processen van het model eisen, of gesprekken met emotioneel kwetsbare gebruikers. We tonen aan het beperken van activaties tot een vaste regio langs de Assistent-as het modelgedrag kan stabiliseren in deze scenario's – en ook bij confrontatie met adversariële, op persona's gebaseerde jailbreaks. Onze resultaten suggereren dat de nafase van de training modellen naar een specifieke regio in de persoonlijke ruimte stuurt, maar ze er slechts losjes aan bindt, wat werk motiveert aan trainings- en stuurstrategieën die modellen dieper verankeren in een coherente persona.
Karakterbeeldanimatie wint aanzienlijk aan belang in diverse domeinen, gedreven door de vraag naar robuuste en flexible weergave van meerdere onderwerpen. Hoewel bestaande methoden uitblinken in animatie van één persoon, hebben ze moeite met een willekeurig aantal onderwerpen, diverse karaktertypes en ruimtelijke uitlijning tussen de referentieafbeelding en de sturende poses. Wij schrijven deze beperkingen toe aan een te rigide ruimtelijke binding die een strikte pixelgewijze uitlijning tussen de pose en de referentie afdwingt, en een onvermogen om beweging consistent opnieuw te binden aan beoogde onderwerpen. Om deze uitdagingen aan te pakken, stellen we CoDance voor, een nieuw Unbind-Rebind raamwerk dat de animatie mogelijk maakt van een willekeurig aantal onderwerpen, types en ruimtelijke configuraties, geconditioneerd op een enkele, mogelijk niet-uitgelijnde posereeks. Specifiek gebruikt de Unbind-module een nieuwe pose shift encoder om de rigide ruimtelijke binding tussen de pose en de referentie te verbreken door stochastische perturbaties in te voeren op zowel poses als hun latente kenmerken, waardoor het model gedwongen wordt een locatie-onafhankelijke bewegingrepresentatie aan te leren. Om precieze controle en onderwerpassociatie te waarborgen, ontwerpen we vervolgens een Rebind-module die gebruikmaakt van semantische begeleiding vanuit tekstprompts en ruimtelijke begeleiding vanuit onderwerpmaskers om de aangeleerde beweging naar de beoogde karakters te dirigeren. Verder introduceren we, om uitgebreide evaluatie mogelijk te maken, een nieuwe multi-subject CoDanceBench. Uitgebreide experimenten op CoDanceBench en bestaande datasets tonen aan dat CoDance state-of-the-art prestaties bereikt, met een opmerkelijke generalisatie over diverse onderwerpen en ruimtelijke lay-outs. De code en gewichten zullen openbaar worden gemaakt.
Versterkend Leren met Verifieerbare Beloningen (RLVR) is zeer effectief voor het verbeteren van het redeneervermogen van LLM's, maar recent bewijs toont aan dat modellen zoals Qwen 2.5 aanzienlijke vooruitgang boeken zelfs met onjuiste of foutieve beloningen. Wij onderzoeken dit fenomeen en identificeren een "Perplexiteitsparadox": RLVR met foutieve beloningen veroorzaakt een divergentie waarbij de perplexiteit van de antwoordtokens daalt, terwijl de coherentie aan de promptzijde verslechtert. Dit suggereert dat het model redeneren omzeilt ten gunste van memorisatie. Met behulp van Path Patching, Logit Lens, JSD-analyse en Neurale Differentiaalvergelijkingen ontdekken we een verborgen Anker-Adapter-circuit dat deze shortcut vergemakkelijkt. We lokaliseren een Functioneel Anker in de middelste lagen (L18-20) dat het ophalen van gememoriseerde oplossingen activeert, gevolgd door Structurele Adapters in latere lagen (L21+) die representaties transformeren om het shortcutsignaal te accommoderen. Ten slotte tonen we aan dat het schalen van specifieke MLP-sleutels binnen dit circuit bidirectioneel causaal sturen mogelijk maakt – het kunstmatig versterken of onderdrukken van prestatie gedreven door contaminatie. Onze resultaten bieden een mechanistische routekaart voor het identificeren en mitigeren van datacontaminatie in met RLVR afgestemde modellen. Code is beschikbaar op https://github.com/idwts/How-RLVR-Activates-Memorization-Shortcuts.
Het sturen van grote taalmodellen (LLM's) via activatie-interventies is naar voren gekomen als een lichtgewicht alternatief voor fine-tuning voor alignment en personalisatie. Recent werk over Bi-directionele Preference Optimalisatie (BiPO) toont aan dat dichte stuurvectoren direct kunnen worden geleerd van preferentiedata op een Direct Preference Optimization (DPO)-manier, waardoor controle over waarheidsgetrouwheid, hallucinaties en veiligheidsgedrag mogelijk wordt. Dichte stuurvectoren verstrengelen echter vaak meerdere latente factoren vanwege neuronale multi-semantiek, wat hun effectiviteit en stabiliteit beperkt in fijnmazige settings zoals culturele alignment, waar nauw verwante waarden en gedragingen (bijvoorbeeld onder Midden-Oosterse culturen) onderscheiden moeten worden. In dit artikel stellen we Yet another Policy Optimization (YaPO) voor, een referentievrije methode die sparse stuurvectoren leert in de latente ruimte van een Sparse Autoencoder (SAE). Door sparse codes te optimaliseren, produceert YaPO ontwarde, interpreteerbare en efficiënte stuurrichtingen. Empirisch tonen we aan dat YaPO sneller convergeert, sterkere prestaties bereikt en verbeterde trainingsstabiliteit vertoont in vergelijking met baseline-methoden die dichte vectoren gebruiken. Naast culturele alignment generaliseert YaPO naar een reeks alignment-gerelateerde gedragingen, waaronder hallucinatie, rijkdomzoekend gedrag, jailbreaks en machtszoekend gedrag. Belangrijk is dat YaPO algemene kennis behoudt, zonder meetbare achteruitgang op MMLU. Over het geheel genomen tonen onze resultaten aan dat YaPO een algemeen recept biedt voor efficiënte, stabiele en fijnmazige alignment van LLM's, met brede toepassingen voor bestuurbaarheid en domeinaanpassing. De bijbehorende code en data zijn publiekelijk beschikbaar op https://github.com/MBZUAI-Paris/YaPO.
Het evalueren of multimodale grote taalmodellen lange wetenschappelijke artikelen daadwerkelijk begrijpen, blijft een uitdaging: antwoordgerichte metrieken en synthetische "speld-in-een-hooiberg"-tests belonen vaak het matchen van antwoorden zonder een causale, op bewijs gebaseerde redeneerspoor in het document te vereisen. Wij stellen het "Vis-in-de-Oceaan"-paradigma (FITO) voor, dat modellen verplicht expliciete cross-modale bewijsketens binnen originele wetenschappelijke documenten te construeren. Om FITO operationeel te maken, bouwen we SIN-Data, een wetenschappelijke corpus met afwisselende tekst en figuren die de oorspronkelijke vervlechting behoudt. Daarop construeren we SIN-Bench met vier progressieve taken: bewijsontdekking (SIN-Find), hypotheseverificatie (SIN-Verify), gegronde vraag-antwoordtaken (SIN-QA) en verankerde synthese (SIN-Summary). We introduceren verder "Geen Bewijs, Geen Score", waarbij voorspellingen alleen worden gescoord wanneer ze verankerd zijn aan verifieerbare ankerpunten en de bewijskwaliteit wordt gediagnosticeerd via matching, relevantie en logica. Experimenten met acht MLLM's tonen aan dat verankering de primieke bottleneck is: Gemini-3-pro behaalt de beste gemiddelde overall score (0.573), terwijl GPT-5 de hoogste SIN-QA-antwoordsnauwkeurigheid (0.767) bereikt maar onderpresteert op evidence-gebaseerde overall scores, wat een kloof blootlegt tussen correctheid en traceerbare onderbouwing.
Om robots complexe manipulatie taken aan te leren, is het tegenwoordig gangbaar om een vooraf getraind vision-language-action model (VLA) te finetunen op taakspecifieke data. Omdat deze aanpak echter bestaande representaties aanpast, is ze ongeschikt voor langdurige inzet in de echte wereld, waar robots zich continu moeten aanpassen aan nieuwe taken en omgevingen, terwijl ze de reeds verworven kennis moeten behouden. Bestaande methoden voor continu leren in de robotica vereisen doorgaans het opslaan van vorige data (exemplaren), worstelen met lange taaksequenties, of zijn afhankelijk van taakidentificaties voor implementatie. Om deze beperkingen aan te pakken, stellen we CLARE voor, een algemeen, parameter-efficiënt raamwerk voor continu leren zonder exemplaren met VLA's. CLARE introduceert lichtgewicht modulaire adapters in geselecteerde feedforward-lagen en breidt het model autonoom alleen uit waar nodig bij het aanleren van een nieuwe taak, geleid door laaggewijze featuresimilariteit. Tijdens de implementatie activeert een op auto-encoders gebaseerd routeringsmechanisme dynamisch de meest relevante adapters zonder taaklabels te vereisen. Door middel van uitgebreide experimenten op de LIBERO-benchmark tonen we aan dat CLARE hoge prestaties behaalt op nieuwe taken zonder catastrofale vergetelheid van eerdere taken, en daarbij zelfs op exemplaren gebaseerde methoden significant overtreft. Code en data zijn beschikbaar op https://tum-lsy.github.io/clare.