Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Om de contextlimieten van grote taalmodellen (LLMs) te doorbreken die de nauwkeurigheid en efficiëntie van redeneren belemmeren, stellen we het Thread Inference Model (TIM) voor, een familie van LLMs die getraind zijn voor recursief en decompositieprobleemoplossend denken, en TIMRUN, een inferentie-runtime die gestructureerd redeneren over lange tijdshorizons mogelijk maakt, voorbij de contextlimieten. Samen ondersteunt TIM, gehost op TIMRUN, vrijwel onbeperkt werkgeheugen en multi-hop tool-aanroepen binnen een enkele taalmodelinferentie, waardoor outputlimieten, positionele inbeddingsbeperkingen en GPU-geheugenknelpunten worden overwonnen. Deze prestaties worden bereikt door natuurlijke taal te modelleren als redeneerbomen, gemeten op zowel lengte als diepte, in plaats van als lineaire sequenties. De redeneerbomen bestaan uit taken met gedachten, recursieve subtaken en conclusies, gebaseerd op het concept dat we hebben voorgesteld in Schroeder et al, 2025. Tijdens de generatie houden we een werkgeheugen aan dat alleen de sleutel-waardestaten van de meest relevante contexttokens behoudt, geselecteerd door een op regels gebaseerd subtaken-snoeimechanisme, waardoor hergebruik van positionele inbeddingen en GPU-geheugenpagina's gedurende het redeneren mogelijk wordt. Experimentele resultaten tonen aan dat ons systeem een hoge inferentie-doorvoersnelheid behoudt, zelfs wanneer tot 90% van de KV-cache in het GPU-geheugen wordt gemanipuleerd. Het levert ook nauwkeurige redenering op wiskundige taken en gaat om met uitdagingen op het gebied van informatieverwerking die langetermijnredenering en multi-hop toolgebruik vereisen.
Dit artikel presenteert Step-Audio~2, een end-to-end multimodaal groot taalmodel ontworpen voor industriële audioverstaanbaarheid en spraakconversatie. Door het integreren van een latente audio-encoder en reasoning-centric reinforcement learning (RL), behaalt Step-Audio 2 veelbelovende prestaties in automatische spraakherkenning (ASR) en audioverstaanbaarheid. Om echte end-to-end spraakconversatie mogelijk te maken, incorporeert Step-Audio 2 de generatie van discrete audiotokens in taalmodeling, wat de responsiviteit op paralinguïstische informatie zoals spreekstijlen en emoties aanzienlijk verbetert. Om effectief gebruik te maken van de rijke tekstuele en akoestische kennis in real-world data, integreert Step-Audio 2 retrieval-augmented generation (RAG) en is het in staat om externe tools zoals webzoekopdrachten aan te roepen om hallucinaties te verminderen en audiozoekopdrachten om timbres te wisselen. Getraind op miljoenen uren spraak- en audiogegevens, levert Step-Audio 2 intelligentie en expressiviteit in diverse conversatiescenario's. Evaluatieresultaten tonen aan dat Step-Audio 2 state-of-the-art prestaties behaalt op verschillende audioverstaanbaarheids- en conversatiebenchmarks in vergelijking met andere open-source en commerciële oplossingen. Bezoek https://github.com/stepfun-ai/Step-Audio2 voor meer informatie.
Wetenschappelijk redeneren is cruciaal voor het ontwikkelen van AI-wetenschappers en het ondersteunen van menselijke onderzoekers bij het verkennen van de grenzen van ontdekkingen in de natuurwetenschappen. De open-sourcegemeenschap heeft zich echter voornamelijk gericht op wiskunde en programmeren, terwijl het wetenschappelijke domein grotendeels is verwaarloosd, vooral vanwege het ontbreken van open, grootschalige, hoogwaardige en verifieerbare datasets voor wetenschappelijk redeneren. Om deze kloof te overbruggen, presenteren we eerst TextbookReasoning, een open dataset met waarheidsgetrouwe referentieantwoorden die zijn geëxtraheerd uit 12.000 wetenschappelijke studieboeken op universitair niveau, bestaande uit 650.000 redeneervragen die 7 wetenschappelijke disciplines bestrijken. Vervolgens introduceren we MegaScience, een grootschalige mix van hoogwaardige open-source datasets met in totaal 1,25 miljoen instanties, ontwikkeld door middel van systematische ablatiestudies die verschillende dataselectiemethodologieën evalueren om de optimale subset voor elke publiek beschikbare wetenschappelijke dataset te identificeren. Tegelijkertijd bouwen we een uitgebreid evaluatiesysteem dat diverse onderwerpen en vraagtypen bestrijkt over 15 benchmarks, waarbij uitgebreide antwoordextractiestrategieën worden geïntegreerd om nauwkeurige evaluatiemetrics te garanderen. Onze experimenten tonen aan dat onze datasets superieure prestaties en trainings efficiëntie bereiken met meer beknopte antwoordlengtes in vergelijking met bestaande open-source wetenschappelijke datasets. Bovendien trainen we Llama3.1, Qwen2.5 en Qwen3-serie basismodellen op MegaScience, die significant beter presteren dan de corresponderende officiële instructiemodellen in gemiddelde prestaties. Daarnaast blijkt MegaScience effectiever te zijn voor grotere en sterkere modellen, wat wijst op een schaalvoordeel voor wetenschappelijke afstemming. We stellen onze datacuratiepijplijn, evaluatiesysteem, datasets en zeven getrainde modellen beschikbaar aan de gemeenschap om onderzoek naar wetenschappelijk redeneren te bevorderen.
Vision-language-action (VLA) redeneertaken vereisen dat agenten multimodale instructies interpreteren, langetermijnplanning uitvoeren en adaptief handelen in dynamische omgevingen. Bestaande benaderingen trainen VLA-modellen doorgaans end-to-end, waarbij inputs direct worden vertaald naar acties zonder expliciet redeneren, wat hun vermogen beperkt om over meerdere stappen te plannen of zich aan te passen aan complexe taakvariaties. In dit artikel stellen we ThinkAct voor, een dual-systeemraamwerk dat hoogwaardig redeneren verbindt met laagniveau actie-uitvoering via versterkt visueel latent plannen. ThinkAct traint een multimodaal LLM om belichaamde redeneerplannen te genereren die worden geleid door versterkende actie-afgestemde visuele beloningen op basis van doelvoltooiing en trajectconsistentie. Deze redeneerplannen worden gecomprimeerd tot een visueel plan latent dat een downstream actiemodel conditioneert voor robuuste actie-uitvoering in doelomgevingen. Uitgebreide experimenten op benchmarks voor belichaamd redeneren en robotmanipulatie tonen aan dat ThinkAct weinig-voorbeeld-aanpassing, langetermijnplanning en zelfcorrectiegedrag mogelijk maakt in complexe belichaamde AI-taken.
Diffusie-transformers zijn naar voren gekomen als een alternatief voor U-net-gebaseerde diffusiemodellen voor het genereren van hoogwaardige afbeeldingen en video's, waarbij ze superieure schaalbaarheid bieden. Hun zware rekenkracht blijft echter een groot obstakel voor implementatie in de praktijk. Bestaande versnellingsmethoden maken vooral gebruik van de temporele dimensie, zoals het hergebruiken van gecachete features over diffusie-tijdstappen. Hier stellen we Region-Adaptive Latent Upsampling (RALU) voor, een trainingsvrij raamwerk dat de inferentie versnelt langs de ruimtelijke dimensie. RALU voert mixed-resolution sampling uit in drie fasen: 1) low-resolution denoising latent diffusie om efficiënt globale semantische structuren vast te leggen, 2) region-adaptieve upsampling op specifieke regio's die gevoelig zijn voor artefacten bij volledige resolutie, en 3) volledige latent upsampling bij volledige resolutie voor detailverfijning. Om generaties stabiel te houden tijdens resolutieovergangen, maken we gebruik van noise-timestep rescheduling om het ruisniveau aan te passen aan verschillende resoluties. Onze methode vermindert de rekenkracht aanzienlijk terwijl de beeldkwaliteit behouden blijft, met een versnelling tot 7,0 keer op FLUX en 3,0 keer op Stable Diffusion 3 met minimale kwaliteitsvermindering. Bovendien is RALU complementair aan bestaande temporele versnellingsmethoden zoals cachingmethoden, waardoor het naadloos kan worden geïntegreerd om de inferentie-latentie verder te verminderen zonder in te leveren op generatiekwaliteit.
Mensen gebruiken vaak visuele hulpmiddelen, zoals diagrammen of schetsen, bij het oplossen van complexe problemen. Het trainen van multimodale modellen om hetzelfde te doen, bekend als Visual Chain of Thought (Visual CoT), is uitdagend vanwege: (1) slechte prestaties van standaard Visual CoT, wat reinforcement learning belemmert, en (2) het gebrek aan hoogwaardige trainingsdata voor Visual CoT. Wij introduceren Zebra-CoT, een diverse grootschalige dataset met 182.384 voorbeelden, die logisch samenhangende, verweven tekst-beeld redeneersporen bevat. We richten ons op vier categorieën taken waarbij schetsen of visueel redeneren bijzonder natuurlijk is, variërend van wetenschappelijke vragen zoals geometrie, natuurkunde en algoritmen; 2D-visuele redeneertaken zoals visueel zoeken en legpuzzels; 3D-redeneertaken, waaronder 3D multi-hop inferentie, embodied en robotplanning; visuele logische problemen en strategische spellen zoals schaken. Het finetunen van het Anole-7B-model op de Zebra-CoT trainingscorpus resulteert in een verbetering van +12% in onze testsetnauwkeurigheid en levert tot +13% prestatieverbetering op bij standaard VLM-benchmarkevaluaties. Het finetunen van Bagel-7B levert een model op dat hoogwaardige, verweven visuele redeneersporen genereert, wat de effectiviteit van Zebra-CoT voor het ontwikkelen van multimodale redeneervaardigheden onderstreept. We maken onze dataset en modellen open source om de ontwikkeling en evaluatie van Visual CoT te ondersteunen.
Het verbeteren van grote visie-taalmodellen (LVLMs) met visueel langzaam-denken redeneren is cruciaal voor het oplossen van complexe multimodale taken. Omdat LVLMs echter voornamelijk worden getraind met visie-taalafstemming, is het moeilijk om on-policy reinforcement learning (RL) toe te passen om het langzaam-denken vermogen te ontwikkelen, aangezien de rollout-ruimte beperkt wordt door de initiële vaardigheden. Off-policy RL biedt een manier om verder te gaan dan het huidige beleid, maar het direct destilleren van trajecten uit externe modellen kan visuele hallucinaties veroorzaken vanwege mismatches in visuele perceptievaardigheden tussen modellen. Om deze problemen aan te pakken, stelt dit artikel SOPHIA voor, een eenvoudige en schaalbare Semi-Off-Policy RL voor visie-taal langzaam-denken redeneren. SOPHIA bouwt een semi-off-policy gedragsmodel door on-policy visueel begrip van een trainbare LVLM te combineren met off-policy langzaam-denken redeneren van een taalmodel, wijst uitkomstgebaseerde beloningen toe aan redeneren, en propageert visuele beloningen achterwaarts. Vervolgens leert de LVLM het langzaam-denken redeneervermogen van de verkregen redeneertrajecten met behulp van gepropageerde beloningen via off-policy RL-algoritmen. Uitgebreide experimenten met InternVL2.5 en InternVL3.0 met 8B en 38B grootten tonen de effectiviteit van SOPHIA aan. Opmerkelijk is dat SOPHIA InternVL3.0-38B met gemiddeld 8.50% verbetert, wat resulteert in state-of-the-art prestaties onder open-source LVLMs op meerdere multimodale redeneerbenchmarks, en zelfs sommige closed-source modellen (bijv. GPT-4.1) overtreft op de uitdagende MathVision en OlympiadBench, met respectievelijk 49.08% en 49.95% pass@1 nauwkeurigheid. Analyse toont aan dat SOPHIA supervised fine-tuning en directe on-policy RL-methoden overtreft, en biedt een betere beleidsinitialisatie voor verdere on-policy training.
Vision-language models (VLMs) worden veelvuldig ingezet in robotica om autonome planning mogelijk te maken. Het blijft echter een uitdaging om VLMs, die oorspronkelijk zijn getraind op internetdata, te verankeren in diverse real-world robots. Dit artikel introduceert ExpTeach, een raamwerk dat VLMs verankert in fysieke robots door een zelf gegenereerd geheugen van real-world ervaringen op te bouwen. In ExpTeach plant de VLM autonoom acties, verifieert resultaten, reflecteert op mislukkingen en past robotgedragingen aan in een gesloten lus. De zelf gegenereerde ervaringen tijdens dit proces worden samengevat in een langetermijngeheugen, waardoor opgedane kennis kan worden opgehaald om toekomstige taken te begeleiden via retrieval-augmented generation (RAG). Daarnaast verbetert ExpTeach het ruimtelijk begrip van VLMs met een module voor on-demand beeldannotatie. In experimenten tonen we aan dat reflectie de slagingspercentages verbetert van 36% naar 84% bij vier uitdagende robotica-taken en observeren we het ontstaan van intelligente objectinteracties, waaronder creatief gereedschapsgebruik. Uit uitgebreide tests in 12 real-world scenario's (waaronder acht onbekende) blijkt dat verankering met langetermijngeheugen de slagingspercentages in één poging verhoogt van 22% naar 80%, wat de effectiviteit en generaliseerbaarheid van ExpTeach aantoont.
Met de snelle vooruitgang van Large Language Models (LLMs) is het ontwikkelen van effectieve critic-modules voor precieze begeleiding cruciaal maar uitdagend geworden. In dit artikel tonen we eerst aan dat supervised fine-tuning voor het bouwen van critic-modules (wat veel wordt gebruikt in huidige oplossingen) niet echt de kritische vaardigheden van modellen verbetert, wat resulteert in oppervlakkige kritieken met onvoldoende reflectie en verificatie. Om de ongekende kritische capaciteiten te ontsluiten, stellen we RefCritic voor, een long-chain-of-thought critic-module gebaseerd op reinforcement learning met dubbele regelgebaseerde beloningen: (1) de correctheid van oplossingsbeoordelingen op instantieniveau en (2) de verfijningsnauwkeurigheden van het beleidsmodel op basis van kritieken, met als doel hoogwaardige evaluaties te genereren met bruikbare feedback die effectief modelverfijning begeleidt. We evalueren RefCritic op Qwen2.5-14B-Instruct en DeepSeek-R1-Distill-Qwen-14B over vijf benchmarks. In kritiek- en verfijningsinstellingen toont RefCritic consistente voordelen over alle benchmarks, bijvoorbeeld 6,8\% en 7,2\% winst op AIME25 voor de respectieve basismodellen. Opmerkelijk is dat onder meerderheidsstemming beleidsmodellen die door RefCritic zijn gefilterd, superieure schaalbaarheid vertonen bij een toename van het aantal stemmen. Bovendien presteert RefCritic, ondanks training op oplossingsniveau, beter dan stapgewijs supervised benaderingen op ProcessBench, een benchmark om foutieve stappen in wiskundige redenering te identificeren.
Hoewel bestaande methoden voor beeldgeleide compositie kunnen helpen om een voorgrondobject in te voegen in een door de gebruiker gespecificeerd gebied van een achtergrondafbeelding, waarbij een natuurlijke overvloeiing binnen het gebied wordt bereikt terwijl de rest van de afbeelding ongewijzigd blijft, merken we op dat deze bestaande methoden vaak moeite hebben met het synthetiseren van naadloze interactiebewuste composities wanneer de taak mens-objectinteracties omvat. In dit artikel stellen we eerst HOComp voor, een nieuwe aanpak voor het samenstellen van een voorgrondobject in een mensgerichte achtergrondafbeelding, waarbij harmonieuze interacties tussen het voorgrondobject en de achtergrondpersoon en hun consistente uiterlijk worden gewaarborgd. Onze aanpak omvat twee belangrijke ontwerpen: (1) MLLMs-gestuurde regio-gebaseerde posebegeleiding (MRPG), die MLLMs gebruikt om de interactieregio en het interactietype (bijv. vasthouden en optillen) te identificeren om grove tot fijne beperkingen te bieden aan de gegenereerde pose voor de interactie, terwijl menselijke pose-landmarken worden geïntegreerd om actievariaties te volgen en fijnmazige posebeperkingen af te dwingen; en (2) Detail-Consistente Uiterlijkbehoud (DCAP), dat een vormbewust aandachtmodulatiemechanisme, een multi-view uiterlijkverlies en een achtergrondconsistentieverlies verenigt om consistente vormen/texturen van de voorgrond en een getrouwe weergave van de achtergrondpersoon te waarborgen. Vervolgens stellen we de eerste dataset voor, genaamd Interaction-aware Human-Object Composition (IHOC), voor deze taak. Experimentele resultaten op onze dataset tonen aan dat HOComp effectief harmonieuze mens-objectinteracties genereert met consistente uiterlijken, en kwalitatief en kwantitatief beter presteert dan relevante methoden.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben nieuwe mogelijkheden geopend voor het ophalen van academische literatuur. Bestaande systemen vertrouwen echter vaak op rigide pijplijnen en vertonen beperkte redeneervaardigheden. Wij introduceren SPAR, een multi-agent raamwerk dat RefChain-gebaseerde query-decompositie en query-evolutie incorporeert om een flexibelere en effectievere zoekopdracht mogelijk te maken. Om systematische evaluatie te vergemakkelijken, hebben we ook SPARBench geconstrueerd, een uitdagende benchmark met door experts geannoteerde relevantielabels. Experimentele resultaten tonen aan dat SPAR aanzienlijk beter presteert dan sterke baselines, met een verbetering van tot +56% F1 op AutoScholar en +23% F1 op SPARBench ten opzichte van de best presterende baseline. Samen bieden SPAR en SPARBench een schaalbare, interpreteerbare en hoogpresterende basis voor het bevorderen van onderzoek in wetenschappelijke retrieval. Code en data zullen beschikbaar zijn op: https://github.com/xiaofengShi/SPAR
Kwantisatie is een essentiële techniek om de netwerkgrootte en rekencomplexiteit te verminderen door de netwerkparameters met een lagere precisie weer te geven. Traditionele kwantisatiemethoden vereisen toegang tot de originele trainingsdata, wat vaak beperkt is vanwege privacyoverwegingen of beveiligingsuitdagingen. Zero-shot Kwantisatie (ZSQ) lost dit op door synthetische data te gebruiken die gegenereerd wordt uit vooraf getrainde modellen, waardoor de noodzaak voor echte trainingsdata wordt geëlimineerd. Recentelijk is ZSQ uitgebreid naar objectdetectie. Bestaande methoden gebruiken echter ongelabelde, taakongevoelige synthetische afbeeldingen die de specifieke informatie die nodig is voor objectdetectie missen, wat leidt tot suboptimale prestaties. In dit artikel stellen we een nieuw taakspecifiek ZSQ-framework voor objectdetectienetwerken voor, dat uit twee hoofdstadia bestaat. Ten eerste introduceren we een strategie voor het bemonsteren van begrenzingsvakken en categorieën om een taakspecifieke kalibratieset te synthetiseren uit het vooraf getrainde netwerk, waarbij objectlocaties, -groottes en categorieverdelingen worden gereconstrueerd zonder enige voorkennis. Ten tweede integreren we taakspecifieke training in het kennisdistillatieproces om de prestaties van gekwantiseerde detectienetwerken te herstellen. Uitgebreide experimenten uitgevoerd op de MS-COCO en Pascal VOC datasets demonstreren de efficiëntie en state-of-the-art prestaties van onze methode. Onze code is publiekelijk beschikbaar op: https://github.com/DFQ-Dojo/dfq-toolkit.
Het personaliseren van AI-systemen vereist niet alleen inzicht in wat gebruikers prefereren, maar ook in de redenen die aan die voorkeuren ten grondslag liggen – toch behandelen huidige voorkeursmodellen menselijk oordeel doorgaans als een black box. Wij introduceren PrefPalette, een raamwerk dat voorkeuren ontleedt in attribuutdimensies en zijn voorkeursvoorspelling afstemt op specifieke sociale gemeenschapswaarden op een menselijk interpreteerbare manier. PrefPalette operationaliseert een cognitief wetenschappelijk principe, bekend als multi-attribuut besluitvorming, op twee manieren: (1) een schaalbare stap voor contrafeitelijke attribuutsynthese waarbij synthetische trainingsdata worden gegenereerd om individuele attribuuteffecten te isoleren (bijv. formaliteit, humor, culturele waarden), en (2) aandacht-gebaseerde voorkeursmodellering die leert hoe verschillende sociale gemeenschappen deze attributen dynamisch wegen. Deze aanpak gaat verder dan aggregatie van voorkeursmodellering om de diverse evaluatiekaders vast te leggen die menselijk oordeel sturen. Bij evaluatie op 45 sociale gemeenschappen van het online platform Reddit, presteerde PrefPalette 46,6% beter dan GPT-4o in gemiddelde voorspellingsnauwkeurigheid. Naast ruwe voorspellingsverbeteringen, bood PrefPalette ook inzicht in intuïtieve, gemeenschapsspecifieke profielen: wetenschappelijke gemeenschappen prioriteren uitgebreidheid en stimulatie, conflictgerichte gemeenschappen waarderen sarcasme en directheid, en ondersteuningsgerichte gemeenschappen benadrukken empathie. Door de attribuut-gemedieerde structuur van menselijk oordeel te modelleren, levert PrefPalette zowel superieure voorkeursmodellering als transparante, interpreteerbare inzichten, en vormt het een eerste stap naar meer betrouwbare, waarde-bewuste gepersonaliseerde toepassingen.
3D Gaussian Splatting staat bekend om zijn hoogwaardige reconstructies en real-time synthese van nieuwe gezichtspunten, maar het ontbreken van semantisch begrip beperkt de objectniveau-perceptie. In dit werk stellen we ObjectGS voor, een objectbewust raamwerk dat 3D-scènereconstructie verenigt met semantisch begrip. In plaats van de scène als een geheel te behandelen, modelleert ObjectGS individuele objecten als lokale ankers die neurale Gaussians genereren en object-ID's delen, wat een precieze reconstructie op objectniveau mogelijk maakt. Tijdens de training breiden we deze ankers dynamisch uit of snoeien ze, en optimaliseren we hun kenmerken, terwijl een one-hot ID-codering met een classificatieverlies duidelijke semantische beperkingen afdwingt. We tonen door middel van uitgebreide experimenten aan dat ObjectGS niet alleen state-of-the-art methoden overtreft op taken zoals open-vocabulary en panoptische segmentatie, maar ook naadloos integreert met toepassingen zoals meshextractie en scènebewerking. Projectpagina: https://ruijiezhu94.github.io/ObjectGS_page
Onlangs hebben Zaremba et al. aangetoond dat het verhogen van de rekentijd tijdens inferentie de robuustheid verbetert in grote, propriëtaire redeneer-LLM's. In dit artikel laten we eerst zien dat ook kleinschalige, open-source modellen (bijv. DeepSeek R1, Qwen3, Phi-reasoning) baat kunnen hebben bij het schalen van inferentietijd door middel van een eenvoudige budgetforcingstrategie. Belangrijker is dat we een impliciete aanname in eerder werk blootleggen en kritisch onderzoeken: tussenliggende redeneerstappen zijn verborgen voor tegenstanders. Door deze aanname te versoepelen, identificeren we een belangrijk beveiligingsrisico, intuïtief gemotiveerd en empirisch geverifieerd als een omgekeerde schaalwet: als tussenliggende redeneerstappen expliciet toegankelijk worden, vermindert een verhoogde rekentijd tijdens inferentie consistent de robuustheid van het model. Ten slotte bespreken we praktische scenario's waarin modellen met verborgen redeneerketens nog steeds kwetsbaar zijn voor aanvallen, zoals modellen met tool-geïntegreerd redeneren en geavanceerde redeneerextractie-aanvallen. Onze bevindingen tonen gezamenlijk aan dat de robuustheidsvoordelen van het schalen van inferentietijd sterk afhankelijk zijn van de adversariële setting en de implementatiecontext. We dringen er bij praktijkmensen op aan om deze subtiele afwegingen zorgvuldig te overwegen voordat ze inferentie-schaling toepassen in beveiligingsgevoelige, real-world toepassingen.
Het finetunen van grote taalmodellen (LLMs) kan leiden tot onbedoelde generalisatie buiten de distributie. Standaardbenaderingen voor dit probleem zijn gebaseerd op het aanpassen van de trainingsdata, bijvoorbeeld door data toe te voegen die de beoogde generalisatie beter specificeren. Dit is echter niet altijd praktisch. Wij introduceren Concept Ablation Fine-Tuning (CAFT), een techniek die interpretatietools benut om te bepalen hoe LLMs generaliseren na finetunen, zonder dat de trainingsdata aangepast hoeft te worden of data van de doeldistributie gebruikt moet worden. Gegeven een set richtingen in de latente ruimte van een LLM die corresponderen met ongewenste concepten, werkt CAFT door deze concepten te ableren met lineaire projecties tijdens het finetunen, waardoor het model wordt gestuurd om onbedoelde generalisaties te vermijden. We passen CAFT succesvol toe op drie finetuningtaken, waaronder emergent misalignment, een fenomeen waarbij LLMs die gefinetuned zijn op een specifieke taak generaliseren om ernstig verkeerde antwoorden te geven op algemene vragen. Zonder enige aanpassingen aan de finetuningdata reduceert CAFT verkeerde antwoorden met een factor 10 zonder de prestaties op de trainingsdistributie te verslechteren. Over het algemeen vertegenwoordigt CAFT een nieuwe benadering om de generalisatie van LLMs te sturen zonder de trainingsdata aan te passen.