Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We bestuderen zelfbelonende redenerende grote taalmodellen (LLM's), die tegelijkertijd stapsgewijze redenering kunnen genereren en de juistheid van hun uitvoer kunnen evalueren tijdens de inferentietijd - zonder externe feedback. Deze geïntegreerde aanpak stelt een enkel model in staat om zelfstandig zijn redeneerproces te sturen, wat computationele voordelen biedt voor modelimplementatie. We richten ons in het bijzonder op de representatieve taak van zelfcorrectie, waar modellen autonoom fouten in hun antwoorden detecteren, uitvoer herzien en beslissen wanneer iteratieve verfijningslussen moeten worden beëindigd. Om dit mogelijk te maken, stellen we een tweestaps algoritmisch kader voor om zelfbelonende redenerende modellen te construeren met behulp van alleen zelf gegenereerde gegevens. In de eerste fase maken we gebruik van sequentiële verwerpingssampling om lange denktrajecten te synthetiseren die zowel zelfbelonende als zelfcorrectiemechanismen bevatten. Het fine-tunen van modellen op deze samengestelde gegevens stelt hen in staat om de patronen van zelfbeloning en zelfcorrectie te leren. In de tweede fase verbeteren we verder het vermogen van de modellen om de nauwkeurigheid van de respons te beoordelen en de uitvoer te verfijnen door middel van reinforcement learning met op regels gebaseerde signalen. Experimenten met Llama-3 en Qwen-2.5 tonen aan dat onze benadering intrinsieke zelfcorrectiemogelijkheden overtreft en prestaties behaalt die vergelijkbaar zijn met systemen die vertrouwen op externe beloningsmodellen.
Redenering is een kritieke grens voor de vooruitgang van medische beeldanalyse, waar transparantie en betrouwbaarheid een centrale rol spelen in zowel het vertrouwen van clinici als de goedkeuring door regelgevende instanties. Hoewel Medische Visuele Taalmodellen (VLM's) veelbelovend zijn voor radiologische taken, produceren de meeste bestaande VLM's slechts eindantwoorden zonder de onderliggende redenering bloot te leggen. Om deze lacune aan te pakken, introduceren we MedVLM-R1, een medisch VLM dat expliciet natuurlijke taalredenering genereert om transparantie en betrouwbaarheid te verbeteren. In plaats van te vertrouwen op begeleid fijnafstemmen (SFT), wat vaak lijdt onder overpassing aan trainingsdistributies en niet in staat is om echte redenering te bevorderen, maakt MedVLM-R1 gebruik van een versterkend leerframework dat het model stimuleert om menselijk interpreteerbare redeneringspaden te ontdekken zonder gebruik te maken van enige redeneringsreferenties. Ondanks beperkte trainingsgegevens (600 voorbeeldmonsters voor visuele vraagbeantwoording) en modelparameters (2B), verhoogt MedVLM-R1 de nauwkeurigheid van 55,11% naar 78,22% over MRI, CT en X-ray benchmarks, waarbij het grotere modellen die zijn getraind op meer dan een miljoen monsters overtreft. Het toont ook robuuste domeingeneralisatie onder taken buiten de distributie aan. Door medische beeldanalyse te verenigen met expliciete redenering, markeert MedVLM-R1 een cruciale stap naar betrouwbare en interpreteerbare AI in de klinische praktijk.
In grote multimodale modellen (LMM's) is de perceptie van niet-talige modaliteiten (bijv. visuele representaties) meestal niet gelijk aan de krachtige redeneermogelijkheden van grote taalmodellen (LLM's), waardoor de prestaties van LMM's op uitdagende downstream taken worden belemmerd. Deze zwakte is recentelijk verminderd door de visuele encoder te vervangen door een mengsel-van-experts (MoE), die rijke, multi-granulaire en diverse representaties biedt die vereist zijn voor diverse downstream taken. De prestatie van multimodale MoE is grotendeels afhankelijk van zijn router, die de representaties van verschillende experts voor elk invoer herweegt en mengt. We vinden echter dat de end-to-end getrainde router niet altijd optimale routingsgewichten produceert voor elk testvoorbeeld. Om deze kloof te overbruggen, stellen we een nieuw en efficiënte methode voor genaamd "Her-Routing in Test-Tijd (R2-T2)" die lokaal de vector van routingsgewichten optimaliseert in testtijd door deze te verplaatsen naar die vectoren van correct voorspelde voorbeelden in een buurt van het testvoorbeeld. We stellen drie R2-T2 strategieën voor met verschillende optimalisatiedoelen en zoekruimtes voor buren. R2-T2 verbetert consequent en aanzienlijk de prestaties van toonaangevende LMM's op uitdagende benchmarks van diverse taken, zonder enige basismodelparameters te trainen.
LongRoPE2 is een nieuw benadering die het effectieve contextvenster van vooraf getrainde grote taalmodellen (LLM's) uitbreidt naar de doellengte, terwijl de prestaties op het oorspronkelijke kortere contextvenster behouden blijven. Dit wordt bereikt door drie bijdragen: (1) een hypothese dat onvoldoende training in hogere RoPE-dimensies bijdraagt aan de aanhoudende out-of-distribution (OOD) problemen die worden waargenomen in bestaande methoden; (2) een effectief RoPE-herschalingsalgoritme dat evolutionaire zoekopdrachten overneemt, geleid door "naaldgestuurde" perplexiteit om het probleem van onvoldoende training aan te pakken; (3) een gemengde contextvenstertrainingsbenadering die modelgewichten fijnafstemt om aangepaste RoPE aan te nemen voor lange-contextreeksen, terwijl de prestaties met korte context met de oorspronkelijke RoPE behouden blijven. Uitgebreide experimenten op LLaMA3-8B en Phi3-mini-3.8B over verschillende benchmarks bevestigen de hypothese en tonen de effectiviteit van LongRoPE2 aan. Opmerkelijk genoeg breidt LongRoPE2 LLaMA3-8B uit om een effectieve contextlengte van 128K te bereiken, terwijl meer dan 98,5% van de prestaties met kort context behouden blijft, met slechts 10B tokens - 80x minder dan de benadering van Meta, die er niet in slaagt om de beoogde effectieve contextlengte te bereiken. De code zal beschikbaar zijn op https://github.com/microsoft/LongRoPE.
Recente innovaties in architectuur, vooraf trainen en fijnafstemming hebben geleid tot opmerkelijke leermogelijkheden en redeneervermogens in context van grote autoregressieve taalmodellen zoals LLaMA en DeepSeek. In tegenstelling hiermee hebben encoders zoals BERT en RoBERTa niet hetzelfde niveau van vooruitgang gezien, ondanks dat ze fundamenteel zijn voor veel downstream NLP-toepassingen. Om deze kloof te overbruggen, introduceren we NeoBERT, een encoder van de volgende generatie die de mogelijkheden van bidirectionele modellen herdefinieert door de nieuwste ontwikkelingen in architectuur, moderne gegevens en geoptimaliseerde vooraf trainingsmethoden te integreren. NeoBERT is ontworpen voor naadloze adoptie: het dient als een plug-and-play vervanging voor bestaande basismodellen, vertrouwt op een optimale diepte-breedte verhouding en maakt gebruik van een verlengde contextlengte van 4.096 tokens. Ondanks zijn compacte 250M parameteromvang behaalt het state-of-the-art resultaten op de uitgebreide MTEB benchmark, waarbij het BERT large, RoBERTa large, NomicBERT en ModernBERT overtreft onder identieke fijnafstemmingsomstandigheden. Bovendien evalueren we grondig de impact van elke wijziging op GLUE en ontwerpen we een uniform fijnafstemmings- en evaluatiekader voor MTEB. We stellen alle code, gegevens, checkpoints en trainingscripts beschikbaar om onderzoek en adoptie in de praktijk te versnellen.
De representatiekloof tussen visuele generatie en begrip legt een kritische kloof bloot bij het integreren van deze mogelijkheden in een enkel kader. Om deze kloof te overbruggen, introduceren we UniTok, een discrete visuele tokenizer die fijngestructureerde details codeert voor generatie en tegelijkertijd hoog-niveau semantiek vastlegt voor begrip. Ondanks recente studies die hebben aangetoond dat deze doelstellingen verliesconflicten kunnen veroorzaken tijdens training, onthullen we dat de onderliggende bottleneck voortkomt uit de beperkte representatiecapaciteit van discrete tokens. We pakken dit aan door multi-codebook kwantisatie te introduceren, die vector kwantisatie verdeelt met verschillende onafhankelijke sub-codebooks om de latente functieruimte uit te breiden, terwijl training instabiliteit veroorzaakt door te grote codebooks wordt vermeden. Onze methode verhoogt aanzienlijk de bovengrens van verenigde discrete tokenizers om domeinspecifieke continue tokenizers te evenaren of zelfs te overtreffen. Zo behaalt UniTok bijvoorbeeld een opmerkelijke rFID van 0.38 (versus 0.87 voor SD-VAE) en een zero-shot nauwkeurigheid van 78.6% (versus 76.2% voor CLIP) op ImageNet. Onze code is beschikbaar op https://github.com/FoundationVision/UniTok.
Het domein van geavanceerde tekst-naar-afbeelding generatie ziet de opkomst van geïntegreerde frameworks die krachtige tekstencoders, zoals CLIP en T5, combineren met Diffusion Transformer backbones. Hoewel er inspanningen zijn geweest om uitvoerafbeeldingen te controleren met aanvullende voorwaarden, zoals canny en dieptekaart, ontbreekt nog steeds een allesomvattend framework voor willekeurige tekst-afbeelding interleaved controle. Dit hiaat is vooral duidelijk wanneer geprobeerd wordt concepten of visuele elementen van meerdere afbeeldingen samen te voegen in het generatieproces. Om dit hiaat te verkleinen, hebben we voorlopige experimenten uitgevoerd waaruit blijkt dat grote multimodale modellen (LMM's) een effectieve gedeelde representatieruimte bieden, waar afbeelding en tekst goed uitgelijnd kunnen worden om te dienen als voorwaarde voor externe diffusion modellen. Op basis van deze ontdekking stellen we Dream Engine voor, een efficiënt en geïntegreerd framework ontworpen voor willekeurige tekst-afbeelding interleaved controle in afbeeldingsgeneratiemodellen. Voortbouwend op krachtige tekst-naar-afbeelding modellen zoals SD3.5, vervangen we de originele alleen-tekst encoders door het opnemen van veelzijdige multimodale informatie encoders zoals QwenVL. Onze aanpak maakt gebruik van een tweefasen trainingsparadigma, bestaande uit gezamenlijke tekst-afbeelding uitlijning en multimodale interleaved instructieafstemming. Onze experimenten tonen aan dat deze trainingsmethode effectief is, met een algehele score van 0.69 op de GenEval benchmark, en overeenkomt met de prestaties van state-of-the-art tekst-naar-afbeelding modellen zoals SD3.5 en FLUX.
Veel uitdagende redeneertaken vereisen niet alleen snelle, intuïtieve reacties, maar ook een meer doordachte, meerstappenbenadering. Recente vooruitgang in grote taalmodellen (TTM's) benadrukt een belangrijke verschuiving van de "Systeem 1" manier van snelle reacties naar de "Systeem 2" stijl van reflectie-en-correctie probleemoplossing. Huidige benchmarks vertrouwen echter zwaar op de nauwkeurigheid van het eindantwoord, waardoor veel van de tussenliggende redeneerstappen van een model ongeëxamineerd blijven. Dit faalt om de mogelijkheid van het model om fouten te overdenken en te corrigeren binnen het redeneerproces te beoordelen. Om deze kloof te overbruggen, introduceren we FINEREASON, een logische puzzelbenchmark voor een gedetailleerde evaluatie van de redeneermogelijkheden van TTM's. Elke puzzel kan worden opgesplitst in atomaire stappen, waardoor het ideaal is voor een grondige validatie van tussenliggende correctheid. Voortbouwend hierop introduceren we twee taken: statuscontrole en statusovergang, voor een uitgebreide evaluatie van hoe modellen de huidige situatie beoordelen en de volgende zet plannen. Om breder onderzoek te ondersteunen, bieden we ook een puzzeltrainingsset aan die gericht is op het verbeteren van de prestaties op algemene wiskundige taken. We tonen aan dat modellen die zijn getraind op onze statuscontrole- en overgangsgegevens verbeteringen in wiskundig redeneren laten zien tot wel 5,1% op GSM8K.
Grote Taalmodellen (LLMs) hebben uitzonderlijke prestaties vertoond in software engineering, maar staan voor uitdagingen bij het aanpassen aan voortdurend evoluerende codekennis, met name met betrekking tot de frequente updates van API's van externe bibliotheken. Deze beperking, voortkomend uit statische voorafgaande trainingsdatasets, resulteert vaak in niet-uitvoerbare code of implementaties met suboptimale veiligheid en efficiëntie. Daarom introduceert dit artikel CODESYNC, een gegevensengine voor het identificeren van verouderde codepatronen en het verzamelen van real-time codekennisupdates van Python-bibliotheken van derden. Voortbouwend op CODESYNC ontwikkelen we CODESYNCBENCH, een uitgebreide benchmark om de mogelijkheid van LLMs om gesynchroniseerd te blijven met code-evolutie te beoordelen, die real-world updates omvat voor 220 API's van zes Python-bibliotheken. Onze benchmark biedt 3.300 testcases over drie evaluatietaken en een dataset voor het afstemmen van instructies met bewustzijn van updates, bestaande uit 2.200 trainingsvoorbeelden. Uitgebreide experimenten met 14 toonaangevende LLMs tonen aan dat ze moeite hebben met dynamische code-evolutie, zelfs met de ondersteuning van geavanceerde kennisupdate-methoden (bijv. DPO, ORPO en SimPO). Wij geloven dat onze benchmark een sterke basis kan bieden voor de ontwikkeling van effectievere methoden voor real-time codekennisupdates in de toekomst. De experimentele code en dataset zijn openbaar beschikbaar op: https://github.com/Lucky-voyage/Code-Sync.
Ondanks hun opmerkelijke prestaties worden moderne Diffusion Transformers belemmerd door aanzienlijke resourcevereisten tijdens inferentie, voortkomend uit de vaste en grote hoeveelheid rekenkracht die nodig is voor elke denoising stap. In dit werk herzien we het conventionele statische paradigma dat een vast rekenbudget toewijst per denoising iteratie en stellen in plaats daarvan een dynamische strategie voor. Ons eenvoudige en sample-efficiënte raamwerk maakt het mogelijk om vooraf getrainde DiT-modellen om te zetten in flexibele modellen - genaamd FlexiDiT - waardoor ze inputs kunnen verwerken bij variërende rekenbudgetten. We tonen aan hoe een enkel flexibel model afbeeldingen kan genereren zonder enige kwaliteitsvermindering, terwijl de benodigde FLOPs met meer dan 40% worden verminderd in vergelijking met hun statische tegenhangers, zowel voor class-geconditioneerde als tekst-geconditioneerde beeldgeneratie. Onze methode is algemeen toepasbaar en onafhankelijk van input- en conditioneringmodaliteiten. We laten zien hoe onze benadering eenvoudig kan worden uitgebreid voor videogeneratie, waar FlexiDiT-modellen monsters genereren met tot wel 75% minder rekenkracht zonder prestatieverlies.
We presenteren Mobius, een nieuwe methode om naadloos lussende video's te genereren vanuit tekstbeschrijvingen zonder enige gebruikersannotaties, waardoor nieuwe visuele materialen worden gecreëerd voor multimediapresentaties. Onze methode hergebruikt het voorgeleerde videolatentiediffusiemodel voor het genereren van lussende video's vanuit tekstprompts zonder enige training. Tijdens inferentie construeren we eerst een latentiecirkel door het verbinden van het start- en eindgeluid van de video's. Aangezien de temporele consistentie kan worden gehandhaafd door de context van het videodiffusiemodel, voeren we meervoudige latentie-ruisvermindering uit door geleidelijk het latentie van het eerste frame naar het einde te verschuiven in elke stap. Als gevolg hiervan varieert de ruisonderdrukkingscontext in elke stap terwijl de consistentie gedurende het inferentieproces behouden blijft. Bovendien kan de latentiecirkel in onze methode van elke lengte zijn. Dit breidt onze latentieverschuivingsbenadering uit om naadloze lussende video's te genereren buiten de context van het videodiffusiemodel. In tegenstelling tot eerdere cinemagraphs vereist de voorgestelde methode geen afbeelding als verschijning, wat de bewegingen van de gegenereerde resultaten zou beperken. In plaats daarvan kan onze methode meer dynamische beweging en een betere visuele kwaliteit produceren. We voeren meerdere experimenten en vergelijkingen uit om de effectiviteit van de voorgestelde methode te verifiëren, waarbij we de doeltreffendheid ervan in verschillende scenario's aantonen. Alle code zal beschikbaar worden gesteld.
Autoregressieve (AR) modellering, bekend om zijn paradigma voor voorspelling van het volgende token, vormt de basis voor toonaangevende taal- en visuele generatieve modellen. Traditioneel wordt een "token" behandeld als de kleinste voorspellingsunit, vaak een discreet symbool in taal of een gekwantiseerd blok in visie. De optimale definitie van een token voor 2D beeldstructuren blijft echter een open vraagstuk. Bovendien hebben AR-modellen last van blootstellingsbias, waarbij het gebruik van teacher forcing tijdens training leidt tot foutenopbouw bij inferentie. In dit artikel stellen we xAR voor, een gegeneraliseerd AR-framework dat het begrip van een token uitbreidt naar een entiteit X, die een individueel bloktoken, een cel (een k keer k groepering van naburige blokken), een subsample (een niet-lokale groepering van verre blokken), een schaal (grof-naar-fijne resolutie) of zelfs een heel beeld kan vertegenwoordigen. Bovendien hervormen we discrete tokenclassificatie als continue entiteitsregressie, waarbij we flow-matching methoden gebruiken bij elke AR-stap. Deze aanpak conditioneert training op ruisachtige entiteiten in plaats van grondwaarheidtokens, wat leidt tot Noisy Context Learning, dat blootstellingsbias effectief verlicht. Als gevolg hiervan biedt xAR twee belangrijke voordelen: (1) het maakt flexibele voorspellingsunits mogelijk die verschillende contextuele granulariteit en ruimtelijke structuren vastleggen, en (2) het vermindert blootstellingsbias door niet te vertrouwen op teacher forcing. Op de ImageNet-256 generatie benchmark presteert ons basismodel, xAR-B (172M), beter dan DiT-XL/SiT-XL (675M) en bereikt het 20 keer snellere inferentie. Ondertussen zet xAR-H een nieuwe state-of-the-art neer met een FID van 1.24, waarbij het 2.2 keer sneller werkt dan het vorige best presterende model zonder te vertrouwen op visuele funderingsmodules (bijv. DINOv2) of geavanceerde begeleide intervalsteekproeven.
Het bouwen van gearticuleerde objecten is een belangrijke uitdaging in de computervisie. Bestaande methoden falen vaak om informatie effectief te integreren over verschillende objecttoestanden, wat de nauwkeurigheid van de reconstructie van deel-meshes en de modellering van deeldynamiek beperkt, met name voor complexe multi-deel gearticuleerde objecten. We introduceren ArtGS, een nieuw benadering die 3D-Gaussianen gebruikt als een flexibele en efficiënte representatie om deze problemen aan te pakken. Onze methode omvat canonieke Gaussianen met een grof-naar-fijn initialisatie en updates voor het uitlijnen van gearticuleerde deelinformatie over verschillende objecttoestanden, en maakt gebruik van een op huid geïnspireerde module voor de modellering van deeldynamiek om zowel de reconstructie van deel-meshes als de articulatie-leren te verbeteren. Uitgebreide experimenten op zowel synthetische als echte datasets, inclusief een nieuwe benchmark voor complexe multi-deel objecten, tonen aan dat ArtGS state-of-the-art prestaties behaalt in gezamenlijke parameter schatting en deel mesh reconstructie. Onze benadering verbetert aanzienlijk de kwaliteit en efficiëntie van reconstructie, vooral voor multi-deel gearticuleerde objecten. Bovendien bieden we uitgebreide analyses van onze ontwerpkeuzes, waarbij de effectiviteit van elk onderdeel wordt bevestigd om mogelijke gebieden voor toekomstige verbetering te benadrukken.
Proximal Policy Optimization (PPO)-gebaseerd Versterkend Leren van Menselijke Feedback (RLHF) is essentieel voor het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Het vereist gezamenlijke training van een acteur en criticus met een voorgeleerd, vast beloningsmodel voor begeleiding. Deze benadering verhoogt de computationele complexiteit en instabiliteit als gevolg van de onderlinge afhankelijkheid van acteur en criticus. Bovendien heeft PPO geen toegang tot echte omgevingsbeloningen bij LLM-taken, wat de aanpasbaarheid beperkt. Onder dergelijke omstandigheden komt het voortrainen van een waarde- of beloningsmodel op hetzelfde neer, aangezien beide vaste toezichtsignalen bieden zonder nieuwe feedback van de grond waarheid. Om deze problemen aan te pakken, stellen we Decoupled Value Policy Optimization (DVPO) voor, een slank raamwerk dat traditionele beloningsmodellering vervangt door een voorgeleerd mondiaal waarde-model (GVM). De GVM is geconditioneerd op beleidstrajecten en voorspelt schattingen van tokenniveau-return-to-go. Door het waarde-model te ontkoppelen van de beleidstraining (via bevroren GVM-gestuurde RL-doelstellingen), elimineert DVPO de onderlinge afhankelijkheid van acteur en criticus, waardoor het GPU-geheugengebruik met 40% wordt verminderd en de trainingsduur met 35% ten opzichte van conventionele RLHF. Experimenten op benchmarks tonen aan dat DVPO efficiënte RLHF-methoden (bijv. DPO) overtreft en tegelijkertijd presteert op het niveau van state-of-the-art PPO.
De autonome AI-agenten die gebruikmaken van grote taalmodellen kunnen onbetwistbare waarden creëren in alle lagen van de samenleving, maar ze worden geconfronteerd met beveiligingsbedreigingen van tegenstanders die onmiddellijke beschermende oplossingen rechtvaardigen, omdat er vertrouwens- en veiligheidskwesties ontstaan. Gezien de vele pogingen tot jailbreak en misleidende afstemming als enkele van de belangrijkste geavanceerde aanvallen, die niet kunnen worden verminderd door de statische veiligheidsmaatregelen die worden gebruikt tijdens de begeleide training, wijst op een cruciale onderzoeksprioriteit voor robuustheid in de echte wereld. De combinatie van statische veiligheidsmaatregelen in een dynamisch multi-agentensysteem faalt om zich te verdedigen tegen die aanvallen. We zijn van plan de beveiliging voor op LLM gebaseerde agenten te verbeteren door de ontwikkeling van nieuwe evaluatiekaders die bedreigingen identificeren en tegengaan voor veilige operationele implementatie. Ons werk maakt gebruik van drie onderzoeksmethoden om rogue agenten te detecteren via een Omgekeerde Turingtest en om misleidende afstemming te analyseren via multi-agentensimulaties en ontwikkelt een anti-jailbreaksysteem door het te testen met GEMINI 1.5 pro en llama-3.3-70B, deepseek r1-modellen met behulp van door tools gemedieerde vijandige scenario's. De detectiemogelijkheden zijn sterk, zoals 94% nauwkeurigheid voor GEMINI 1.5 pro, maar het systeem vertoont aanhoudende kwetsbaarheden bij langdurige aanvallen, aangezien de lengte van de prompt de succespercentages van aanvallen verhoogt en diversiteitsmetingen ineffectief worden in voorspelling terwijl ze meerdere complexe systeemfouten onthullen. De bevindingen tonen de noodzaak aan van het aannemen van flexibele beveiligingssystemen op basis van actieve monitoring die kan worden uitgevoerd door de agenten zelf, samen met aanpasbare interventies door systeembeheerders, aangezien de huidige modellen kwetsbaarheden kunnen creëren die kunnen leiden tot een onbetrouwbaar en kwetsbaar systeem. Daarom proberen we in ons werk dergelijke situaties aan te pakken en stellen we een allesomvattend kader voor om de beveiligingsproblemen tegen te gaan.
Gangbare probleemoplossingskaders vertrouwen voornamelijk op commerciële modellen, wat leidt tot hoge kosten en privacyzorgen. Bestaande trainingsbenaderingen voor probleemoplossing worstelen met slechte generalisatie en slagen er niet in om volledig gebruik te maken van open-source ontwikkelingsbronnen. Wij stellen Subtaakgericht Versterkt Fijnafstemming (SoRFT) voor, een nieuwe trainingsbenadering om de probleemoplossingscapaciteit van LLM's te verbeteren. We ontleden probleemoplossing in gestructureerde subtaken: bestandslokalisatie, functielokalisatie, regellokalisatie en codebewerkingsgeneratie. SoRFT bestaat uit twee trainingsfasen: (1) afwijzingsgesamplede begeleide fijnafstemming, Chain of Thought (CoT)-gegevens worden gefilterd met behulp van grondwaarheid voordat de LLM wordt fijngestemd, en (2) op regels gebaseerd versterkend leren, dat gebruikmaakt van PPO met op grondwaarheid gebaseerde beloningen. We evalueren het door SoRFT getrainde model op SWE-Bench Verified en SWE-Bench Lite, waarbij we state-of-the-art (SOTA) prestaties behalen onder open-source modellen (bijv. 21,4% van de problemen opgelost op SWE-Bench Verified met SoRFT-Qwen-7B). De experimentele resultaten tonen aan dat SoRFT de prestaties van probleemoplossing aanzienlijk verbetert, de modelgeneralisatie verbetert en een kostenefficiënt alternatief biedt voor commerciële modellen.
Ondanks recente doorbraken in redenering-versterkte grote taalmodellen (LLM's) zoals DeepSeek-R1, is het integreren van redenering op het moment van inferentie in machinale vertaling (MT), waar menselijke vertalers natuurlijk gestructureerde, meerlagige redeneringsketens van gedachten (CoTs) gebruiken, nog onvoldoende onderzocht. Bestaande methoden ontwerpen ofwel een vaste CoT op maat voor een specifieke MT subtaak (bijv. literatuurvertaling), of vertrouwen op het synthetiseren van CoTs die niet in lijn zijn met menselijke CoTs en op supervisie gebaseerde fijne afstemming (SFT) die gevoelig is voor catastrofaal vergeten, waardoor hun aanpasbaarheid aan diverse vertalingsscenario's beperkt is. Dit artikel introduceert R1-Vertaler (R1-T1), een nieuw raamwerk om redenering op het moment van inferentie te bereiken voor algemene MT via reinforcement learning (RL) met op mensen afgestemde CoTs bestaande uit zes veelvoorkomende patronen. Onze aanpak pioniert drie innovaties: (1) het uitbreiden van redenering-gebaseerde vertaling buiten MT subtaken naar zes talen en diverse taken (bijv. juridische/medische domeinaanpassing, idioomoplossing); (2) het formaliseren van zes door experts samengestelde CoT-templates die hybride menselijke strategieën weerspiegelen zoals contextbewust parafraseren en terugvertalen; en (3) het mogelijk maken van zelf-evoluerende CoT-ontdekking en anti-vergeten aanpassing via RL met KL-beperkte beloningen. Experimentele resultaten tonen een gestage verbetering van de vertaalprestaties in 21 talen en 80 vertaalrichtingen op de Flores-101 testset, vooral in de 15 talen die niet tijdens de training zijn gezien, waarbij de algemene meertalige mogelijkheden behouden blijven in vergelijking met gewone SFT.
In grote taalmodellen (LLM's) kunnen bepaalde neuronen afzonderlijke stukjes kennis opslaan die tijdens de voorafgaande training zijn geleerd. Hoewel kennis doorgaans verschijnt als een combinatie van relaties en entiteiten, is het nog onduidelijk of sommige neuronen zich richten op een relatie op zichzelf - los van enige entiteit. Wij veronderstellen dat dergelijke neuronen een relatie in de invoertekst detecteren en de generatie die betrekking heeft op zo'n relatie sturen. Om dit te onderzoeken, bestuderen we de Llama-2 familie met een gekozen set relaties met een op statistieken gebaseerde methode. Onze experimenten tonen het bestaan van relatie-specifieke neuronen aan. We meten het effect van selectief deactiveren van kandidaat-neuronen die specifiek zijn voor relatie r op het vermogen van de LLM om (1) feiten waarvan de relatie r is en (2) feiten waarvan de relatie een andere relatie r' neq r is, te verwerken. Met betrekking tot hun vermogen om relatie-informatie te coderen, leveren we bewijs voor de volgende drie eigenschappen van relatie-specifieke neuronen. (i) Neuron cumulativiteit. De neuronen voor r vertonen een cumulatief effect, zodat het deactiveren van een groter deel ervan resulteert in de degradatie van meer feiten in r. (ii) Neuron veelzijdigheid. Neuronen kunnen worden gedeeld over meerdere nauw verwante en minder verwante relaties. Sommige relatie-neuronen worden overgedragen tussen talen. (iii) Neuron interferentie. Het deactiveren van neuronen die specifiek zijn voor één relatie kan de prestaties van LLM-generatie verbeteren voor feiten van andere relaties. We zullen onze code openbaar beschikbaar maken op https://github.com/cisnlp/relation-specific-neurons.
Recente agent frameworks en algoritmes voor inferentie-tijd hebben vaak moeite met complexe planningsproblemen vanwege beperkingen bij het verifiëren van gegenereerde plannen of redeneren en variërende complexiteit van instanties binnen een enkele taak. Veel bestaande methoden voor deze taken voeren ofwel taakniveau-verificatie uit zonder rekening te houden met beperkingen, of passen inferentie-tijd algoritmes toe zonder zich aan te passen aan instantie-niveau complexiteit. Om deze beperkingen aan te pakken, stellen wij PlanGEN voor, een model-agnostisch en eenvoudig schaalbaar agent framework met drie kerncomponenten: constraint, verificatie en selectie agents. Specifiek stelt onze aanpak constraint-geleide iteratieve verificatie voor om de prestaties van inferentie-tijd algoritmes - Best of N, Tree-of-Thought en REBASE - te verbeteren. In het PlanGEN framework optimaliseert de selectie agent de keuze van algoritme op basis van instantiecomplexiteit, waardoor een betere aanpassingsvermogen aan complexe planningsproblemen wordt gegarandeerd. Experimentele resultaten tonen significante verbeteringen ten opzichte van de sterkste baseline over meerdere benchmarks, waarbij state-of-the-art resultaten worden behaald op NATURAL PLAN (ong. 8% verbetering), OlympiadBench (ong. 4% verbetering), DocFinQA (ong. 7% verbetering) en GPQA (ong. 1% verbetering). Onze belangrijkste bevinding benadrukt dat constraint-geleide iteratieve verificatie inferentie-tijd algoritmes verbetert, en adaptieve selectie de prestaties op complexe plannings- en redeneerproblemen verder verbetert.
Consistentietraining (CT) is recentelijk naar voren gekomen als een veelbelovend alternatief voor diffusiemodellen, waarbij het competitieve prestaties behaalt bij beeldgeneratietaken. Echter, niet-verdampende consistentietraining heeft vaak te kampen met hoge variantie en instabiliteit, en het analyseren en verbeteren van de trainingsdynamiek is een actief onderzoeksgebied. In dit werk stellen we een nieuw CT-trainingsbenadering voor op basis van het Flow Matching-framework. Onze belangrijkste bijdrage is een getraind ruis-koppelingsmechanisme geïnspireerd op de architectuur van Variational Autoencoders (VAE). Door een op data gebaseerd ruisemissiemodel te trainen dat geïmplementeerd is als een encoderarchitectuur, kan onze methode indirect de geometrie van de ruis-naar-data mapping leren, wat in klassieke CT in plaats daarvan vastligt door de keuze van het voorwaartse proces. Empirische resultaten over diverse beelddatasets tonen aanzienlijke generatieve verbeteringen, waarbij ons model beter presteert dan baselines en de state-of-the-art (SoTA) non-distillation CT FID behaalt op CIFAR-10, en een FID behaalt die gelijk is aan SoTA op ImageNet bij een resolutie van 64 bij 64 in 2-staps generatie. Onze code is beschikbaar op https://github.com/sony/vct.
Het renderen van dynamische scènes van monoculaire video's is een cruciale maar uitdagende taak. De recente methode van vervormbare Gaussische Splatting is naar voren gekomen als een robuuste oplossing om echte dynamische scènes weer te geven. Echter, het leidt vaak tot sterk redundante Gaussians, die proberen elke trainingsweergave op verschillende tijdstappen te passen, wat resulteert in langzamere renderingsnelheden. Bovendien zijn de eigenschappen van Gaussians in statische gebieden tijdinvariant, waardoor het onnodig is om elke Gaussian te modelleren, wat kan leiden tot schokken in statische regio's. In de praktijk is de belangrijkste beperking in renderingsnelheid voor dynamische scènes het aantal Gaussians. Als reactie introduceren we Efficiënte Dynamische Gaussische Splatting (EDGS), die dynamische scènes vertegenwoordigt via schaarse tijdvariante attribuutmodellering. Onze aanpak formuleert dynamische scènes met behulp van een schaarse ankerrooster representatie, waarbij de bewegingsstroom van dichte Gaussians wordt berekend via een klassieke kernel representatie. Bovendien stellen we een ongesuperviseerde strategie voor om efficiënt ankers te filteren die overeenkomen met statische gebieden. Alleen ankers die verband houden met vervormbare objecten worden ingevoerd in MLP's om tijdvariante attributen op te vragen. Experimenten op twee real-world datasets tonen aan dat onze EDGS aanzienlijk de renderingsnelheid verbetert met superieure renderkwaliteit in vergelijking met eerdere state-of-the-art methoden.