Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel introduceren we een nieuw leerparadigma, genaamd Chain-of-Model (CoM), dat de causale relatie incorporeert in de verborgen toestanden van elke laag in een kettingstijl, waardoor een grote schaalbaarheidsefficiëntie wordt geïntroduceerd in modeltraining en flexibiliteit in inferentie tijdens implementatie. We introduceren het concept van Chain-of-Representation (CoR), dat de verborgen toestanden in elke laag formuleert als een combinatie van meerdere subrepresentaties (d.w.z. kettingen) op het niveau van de verborgen dimensie. In elke laag kan elke ketting van de uitvoerrepresentaties alleen al zijn voorgaande kettingen in de invoerrepresentaties zien. Hierdoor kan het model dat is gebouwd op het CoM-framework progressief opschalen door kettingen toe te voegen op basis van eerdere modellen (d.w.z. kettingen), en biedt het meerdere submodellen van verschillende groottes voor elastische inferentie door verschillende aantallen kettingen te gebruiken. Op basis van dit principe ontwikkelen we Chain-of-Language-Model (CoLM), dat het idee van CoM incorporeert in elke laag van de Transformer-architectuur. Op basis van CoLM introduceren we verder CoLM-Air door een KV-delingmechanisme te introduceren, dat alle sleutels en waarden binnen de eerste ketting berekent en vervolgens deelt over alle kettingen. Dit ontwerp toont aanvullende uitbreidingsmogelijkheden, zoals het mogelijk maken van naadloze LM-switching, prefilling-versnelling en meer. Experimentele resultaten tonen aan dat onze CoLM-familie vergelijkbare prestaties kan bereiken als de standaard Transformer, terwijl tegelijkertijd meer flexibiliteit wordt geboden, zoals progressief schalen om de trainings efficiëntie te verbeteren en meerdere modelgroottes te bieden voor elastische inferentie, wat een nieuwe weg opent naar het bouwen van taalmmodellen. Onze code zal in de toekomst worden vrijgegeven op: https://github.com/microsoft/CoLM.
Onlangs hebben grote redeneermodellen indrukwekkende prestaties geleverd op verschillende taken door mensachtig diep nadenken toe te passen. Het langdurige denkproces verhoogt echter aanzienlijk de inferentie-overhead, waardoor efficiëntie een kritieke bottleneck wordt. In dit werk tonen we eerst aan dat NoThinking, waarbij het redeneermodel wordt aangemoedigd om het denken over te slaan en direct de uiteindelijke oplossing te genereren, een betere keuze is voor relatief eenvoudige taken wat betreft zowel prestaties als efficiëntie. Hierdoor geïnspireerd, stellen we AdaptThink voor, een nieuw RL-algoritme om redeneermodellen te leren het optimale denkmodus adaptief te kiezen op basis van de probleemcomplexiteit. Specifiek kenmerkt AdaptThink zich door twee kerncomponenten: (1) een geoptimaliseerd doel dat het model aanmoedigt om NoThinking te kiezen terwijl de algehele prestaties behouden blijven; (2) een importance sampling-strategie die Thinking- en NoThinking- voorbeelden in balans brengt tijdens on-policy training, waardoor een koude start mogelijk wordt en het model beide denkmodi kan verkennen en benutten gedurende het trainingsproces. Onze experimenten tonen aan dat AdaptThink de inferentiekosten aanzienlijk verlaagt terwijl de prestaties verder worden verbeterd. Opmerkelijk is dat AdaptThink op drie wiskundige datasets de gemiddelde responslengte van DeepSeek- R1-Distill-Qwen-1.5B met 53% reduceert en de nauwkeurigheid met 2,4% verbetert, wat de belofte van adaptieve denkmodusselectie benadrukt voor het optimaliseren van de balans tussen redeneerkwaliteit en efficiëntie. Onze codes en modellen zijn beschikbaar op https://github.com/THU-KEG/AdaptThink.
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond, maar komen vaak voor uitdagingen te staan bij taken die geavanceerd redeneren vereisen. Hoewel Chain-of-Thought (CoT) prompting het redeneren aanzienlijk verbetert, genereert het onnodig uitgebreide redeneerstappen voor alle queries, wat leidt tot aanzienlijke computationale kosten en inefficiëntie, vooral voor eenvoudigere inputs. Om dit kritieke probleem aan te pakken, introduceren we AdaCoT (Adaptive Chain-of-Thought), een nieuw framework dat LLM's in staat stelt adaptief te beslissen wanneer CoT moet worden ingezet. AdaCoT benadert adaptief redeneren als een Pareto-optimalisatieprobleem dat streeft naar een balans tussen modelprestaties en de kosten verbonden aan het inzetten van CoT (zowel frequentie als computationale overhead). We stellen een op reinforcement learning (RL) gebaseerde methode voor, specifiek gebruikmakend van Proximal Policy Optimization (PPO), om dynamisch de beslissingsgrens voor CoT-triggering te beheersen door strafcoëfficiënten aan te passen, waardoor het model de noodzaak van CoT kan bepalen op basis van impliciete querycomplexiteit. Een belangrijke technische bijdrage is Selective Loss Masking (SLM), ontworpen om beslissingsgrensinstorting tijdens meerfasige RL-training tegen te gaan, wat robuste en stabiele adaptieve triggering garandeert. Experimentele resultaten tonen aan dat AdaCoT succesvol de Pareto-grens navigeert, met aanzienlijke verminderingen in CoT-gebruik voor queries die geen uitgebreid redeneren vereisen. Op onze productieverkeer-testset reduceerde AdaCoT bijvoorbeeld de CoT-triggeringspercentages tot slechts 3,18% en verminderde het gemiddelde aantal respons-tokens met 69,06%, terwijl hoge prestaties op complexe taken behouden bleven.
Redenerende Taalmodellen, die in staat zijn tot uitgebreide keten-van-gedachten-redenering, hebben opmerkelijke prestaties getoond bij taken die complexe logische inferentie vereisen. Het toepassen van uitgebreide redenering voor alle vragen resulteert echter vaak in aanzienlijke computationele inefficiënties, vooral wanneer veel problemen eenvoudige oplossingen toelaten. Dit roept een open vraag op: Kunnen LLM's leren wanneer ze moeten nadenken? Om dit te beantwoorden, stellen we Thinkless voor, een leerbaar raamwerk dat een LLM in staat stelt om adaptief te kiezen tussen korte en lange redeneringen, gebaseerd op zowel de taakcomplexiteit als het vermogen van het model. Thinkless wordt getraind onder een reinforcement learning paradigma en maakt gebruik van twee controle-tokens, <short> voor beknopte antwoorden en <think> voor gedetailleerde redenering. De kern van onze methode is een Decoupled Group Relative Policy Optimization (DeGRPO) algoritme, dat het leerdoel van hybride redenering ontleedt in twee componenten: (1) een controle-token verlies dat de selectie van de redeneermodus beheerst, en (2) een antwoordverlies dat de nauwkeurigheid van de gegenereerde antwoorden verbetert. Deze ontkoppelde formulering maakt fijnmazige controle mogelijk over de bijdragen van elk doel, stabiliseert de training en voorkomt effectief het instorten dat wordt waargenomen bij standaard GRPO. Empirisch gezien is Thinkless op verschillende benchmarks zoals Minerva Algebra, MATH-500 en GSM8K in staat om het gebruik van lange-keten-denken met 50% - 90% te verminderen, waardoor de efficiëntie van Redenerende Taalmodellen aanzienlijk wordt verbeterd. De code is beschikbaar op https://github.com/VainF/Thinkless.
Het aandachtmechanisme van een transformer heeft een kwadratische complexiteit, wat leidt tot hoge inferentiekosten en latentie voor lange sequenties. Echter zijn aandachtmatrices meestal spaarzaam, wat impliceert dat veel elementen kunnen worden weggelaten bij de berekening voor efficiënte inferentie. Methoden voor spaarzame aandachtinferentie hebben als doel deze rekenlast te verminderen; ze gaan echter ook gepaard met een vervelende prestatievermindering. Wij ontdekken dat een reden voor deze vermindering is dat de spaarzame berekening een distributieverschuiving induceert in de aandachtuitvoer. Deze distributieverschuiving zorgt ervoor dat queries tijdens het decoderen niet goed aansluiten bij de juiste sleutels uit de prefill-fase, wat leidt tot een prestatieverlies. Wij stellen een eenvoudige, nieuwe en effectieve procedure voor om deze distributieverschuiving te corrigeren, waardoor de distributie van spaarzame aandachtuitvoer dichter bij die van kwadratische aandacht komt. Onze methode kan worden toegepast bovenop elke spaarzame aandachtmethode en resulteert in een gemiddelde prestatieverbetering van 36 procentpunt, waarbij 88% van de nauwkeurigheid van kwadratische aandacht wordt hersteld op de 131K RULER-benchmark wanneer deze wordt toegepast bovenop sliding window attention met sink tokens, terwijl slechts een kleine overhead wordt toegevoegd. Onze methode kan ongeveer 98,5% spaarzaamheid behouden ten opzichte van volledige kwadratische aandacht, waardoor ons model 32 keer sneller is dan Flash Attention 2 bij het verwerken van 1M token prefills.
Gebruikersinterface-gronding (GUI-gronding), het vermogen om natuurlijke taal instructies te koppelen aan specifieke acties op grafische gebruikersinterfaces, blijft een kritieke bottleneck in de ontwikkeling van computergebruik-agenten. Huidige benchmarks vereenvoudigen grondingstaken tot korte verwijzingen, waardoor de complexiteit van real-world interacties die software commonsense, lay-outbegrip en fijnmazige manipulatiewaarden vereisen, niet wordt vastgelegd. Om deze beperkingen aan te pakken, introduceren we OSWorld-G, een uitgebreide benchmark bestaande uit 564 nauwkeurig geannoteerde voorbeelden over diverse taaktypen, waaronder tekstmatching, elementherkenning, lay-outbegrip en precieze manipulatie. Daarnaast synthetiseren en publiceren we de grootste dataset voor computergebruik-gronding, Jedi, die 4 miljoen voorbeelden bevat door middel van multi-perspectief ontkoppeling van taken. Onze multi-schaalmodellen getraind op Jedi tonen de effectiviteit aan door bestaande benaderingen te overtreffen op ScreenSpot-v2, ScreenSpot-Pro en onze OSWorld-G. Verder laten we zien dat verbeterde gronding met Jedi direct de agentische capaciteiten van algemene foundation-modellen verbetert bij complexe computertaken, met een verbetering van 5% naar 27% op OSWorld. Door gedetailleerde ablatiestudies identificeren we sleutelfactoren die bijdragen aan grondingsprestaties en verifiëren we dat het combineren van gespecialiseerde data voor verschillende interface-elementen compositorische generalisatie naar nieuwe interfaces mogelijk maakt. Alle benchmarks, data, checkpoints en code zijn open-source en beschikbaar op https://osworld-grounding.github.io.
Model merging is naar voren gekomen als een veelbelovende techniek voor het verbeteren van grote taalmodelen, hoewel de toepassing ervan in grootschalige voorafgaande training relatief onontgonnen blijft. In dit artikel presenteren we een uitgebreid onderzoek naar model merging-technieken tijdens het voorafgaande trainingsproces. Door middel van uitgebreide experimenten met zowel dense als Mixture-of-Experts (MoE) architecturen, variërend van miljoenen tot meer dan 100 miljard parameters, tonen we aan dat het samenvoegen van checkpoints die zijn getraind met constante leerpercentages niet alleen aanzienlijke prestatieverbeteringen oplevert, maar ook een nauwkeurige voorspelling van annealing-gedrag mogelijk maakt. Deze verbeteringen leiden zowel tot efficiëntere modelontwikkeling als aanzienlijk lagere trainingskosten. Onze gedetailleerde ablatiestudies naar merging-strategieën en hyperparameters bieden nieuwe inzichten in de onderliggende mechanismen, terwijl ze nieuwe toepassingen blootleggen. Door middel van uitgebreide experimentele analyse bieden we de open-source gemeenschap praktische richtlijnen voor effectieve model merging tijdens de voorafgaande training.
Het schalen van video-diffusietransformers (DiTs) wordt beperkt door hun kwadratische 3D-attentie, ook al concentreert het grootste deel van de aandacht zich op een kleine subset van posities. We vertalen deze observatie naar VSA, een trainbare, hardware-efficiënte sparse attention die volledige aandacht vervangt tijdens zowel training als inferentie. In VSA groepeert een lichtgewicht grove fase tokens in tegels en identificeert kritieke tokens met een hoog gewicht; een fijne fase berekent token-level aandacht alleen binnen die tegels, onderworpen aan een blokcomputing-layout om harde efficiëntie te garanderen. Dit resulteert in een enkel differentieerbaar kernel dat end-to-end traint, geen post-hoc profilering vereist en 85\% van de FlashAttention3 MFU behoudt. We voeren een grote reeks ablatiestudies en schaalwetexperimenten uit door DiTs te pretrainen van 60M tot 1,4B parameters. VSA bereikt een Pareto-punt dat de trainings-FLOPS met 2,53 keer vermindert zonder verlies in diffusieverlies. Het retrofitten van het open-source Wan-2.1-model versnelt de aandachtstijd met 6 keer en verlaagt de end-to-end generatietijd van 31s naar 18s met vergelijkbare kwaliteit. Deze resultaten vestigen trainbare sparse attention als een praktisch alternatief voor volledige aandacht en een belangrijke enabler voor verdere schaling van video-diffusiemodellen.
Het meten van hoe realistisch afbeeldingen eruitzien is een complexe taak in kunstmatige intelligentie-onderzoek. Een afbeelding van een jongen met een stofzuiger in een woestijn gaat bijvoorbeeld in tegen het gezond verstand. We introduceren een nieuwe methode, die we Through the Looking Glass (TLG) noemen, om de consistentie van afbeeldingen met het gezond verstand te beoordelen met behulp van Large Vision-Language Models (LVLMs) en een Transformer-gebaseerde encoder. Door LVLMs te gebruiken om atomische feiten uit deze afbeeldingen te extraheren, verkrijgen we een mix van nauwkeurige feiten. Vervolgens fine-tunen we een compacte aandachtspooling-classificator op gecodeerde atomische feiten. Onze TLG heeft een nieuwe state-of-the-art-prestatie behaald op de WHOOPS!- en WEIRD-datasets, terwijl een compact fine-tuning-component wordt benut.
Recente vooruitgang in dynamische 3D-scène-reconstructie heeft veelbelovende resultaten laten zien, waardoor hoogwaardige 3D-nieuwe-weergave-synthese met verbeterde temporele consistentie mogelijk wordt gemaakt. Onder deze ontwikkelingen is 4D Gaussian Splatting (4DGS) naar voren gekomen als een aantrekkelijke benadering vanwege het vermogen om hoogwaardige ruimtelijke en temporele variaties te modelleren. Bestaande methoden kampen echter met aanzienlijke reken- en geheugenoverhead door de overbodige toewijzing van 4D Gaussians aan statische regio's, wat ook de beeldkwaliteit kan aantasten. In dit werk introduceren we hybride 3D-4D Gaussian Splatting (3D-4DGS), een nieuw raamwerk dat statische regio's adaptief representeert met 3D Gaussians terwijl 4D Gaussians gereserveerd blijven voor dynamische elementen. Onze methode begint met een volledige 4D Gaussian-representatie en converteert iteratief temporeel invariante Gaussians naar 3D, wat het aantal parameters aanzienlijk vermindert en de rekenkundige efficiëntie verbetert. Tegelijkertijd behouden dynamische Gaussians hun volledige 4D-representatie, waardoor complexe bewegingen met hoge kwaliteit worden vastgelegd. Onze benadering resulteert in aanzienlijk kortere trainingstijden in vergelijking met baseline 4D Gaussian Splatting-methoden, terwijl de visuele kwaliteit behouden blijft of zelfs verbetert.
Redeneervermogen, een kerncomponent van menselijke intelligentie, blijft een aanzienlijke uitdaging vormen voor Large Language Models (LLMs) in de zoektocht naar AGI. Hoewel de modelprestaties zijn verbeterd onder de schaalwet van training, blijven er aanzienlijke uitdagingen bestaan, met name op het gebied van trainingsalgoritmen, zoals catastrofaal vergeten, en de beperkte beschikbaarheid van nieuwe trainingsdata. Als alternatief verbetert test-time scaling het redeneervermogen door de test-time berekening te vergroten zonder parameterupdates. In tegenstelling tot eerdere methoden in dit paradigma die zich richtten op tokenruimte, stellen wij voor om latent space te benutten voor effectiever redeneren en een betere naleving van de test-time schaalwet. Wij introduceren LatentSeek, een nieuw framework dat het redeneervermogen van LLMs verbetert door Test-Time Instance-level Adaptation (TTIA) binnen de latent space van het model. Specifiek maakt LatentSeek gebruik van policy gradient om latent representaties iteratief bij te werken, geleid door zelf gegenereerde beloningssignalen. LatentSeek wordt geëvalueerd op een reeks redeneerbenchmarks, waaronder GSM8K, MATH-500 en AIME2024, over meerdere LLM-architecturen. De resultaten tonen aan dat LatentSeek consistent sterke baselines overtreft, zoals Chain-of-Thought prompting en fine-tuning-gebaseerde methoden. Bovendien toont onze analyse aan dat LatentSeek zeer efficiënt is, doorgaans convergerend binnen enkele iteraties voor problemen van gemiddelde complexiteit, terwijl het ook profiteert van extra iteraties, wat het potentieel van test-time scaling in de latent space benadrukt. Deze bevindingen positioneren LatentSeek als een lichtgewicht, schaalbaar en effectieve oplossing voor het verbeteren van de redeneercapaciteiten van LLMs.
Hoewel Multimodale Grote Taalmodellen (MLLMs) indrukwekkende vooruitgang hebben geboekt in visueel-taalkundig begrip, hebben ze nog steeds moeite met complexe meerstaps redenering, waarbij ze vaak logisch inconsistente of gedeeltelijk correcte oplossingen produceren. Een belangrijke beperking ligt in het gebrek aan gedetailleerd toezicht op tussenliggende redeneerstappen. Om dit aan te pakken, stellen we MM-PRM voor, een procesbeloningsmodel dat is getraind binnen een volledig geautomatiseerd, schaalbaar raamwerk. We bouwen eerst MM-Policy, een sterk multimodaal model dat is getraind op diverse wiskundige redeneergegevens. Vervolgens construeren we MM-K12, een gecureerde dataset van 10.000 multimodale wiskundeproblemen met verifieerbare antwoorden, die dient als startdata. Met behulp van een Monte Carlo Tree Search (MCTS)-gebaseerde pijplijn genereren we meer dan 700k stapniveau annotaties zonder menselijke labeling. Het resulterende PRM wordt gebruikt om kandidaat-redeneerpaden te scoren in de Best-of-N inferentieopstelling en behaalt significante verbeteringen op zowel in-domein (MM-K12 testset) als out-of-domein (OlympiadBench, MathVista, etc.) benchmarks. Verdere analyse bevestigt de effectiviteit van zachte labels, kleinere leerpercentages en pad diversiteit in het optimaliseren van PRM-prestaties. MM-PRM toont aan dat procesbegeleiding een krachtig hulpmiddel is voor het verbeteren van de logische robuustheid van multimodale redeneersystemen. We maken al onze codes en data beschikbaar op https://github.com/ModalMinds/MM-PRM.
Recente vooruitgang in regelgebaseerd reinforcement learning (RL) heeft de redeneercapaciteit van taalmodelen (LMs) met regelgebaseerde beloningen aanzienlijk verbeterd. Bestaande RL-methoden — zoals GRPO, REINFORCE++ en RLOO — kampen echter vaak met trainingsinstabiliteit, waarbij grote beleidsupdates en onjuist clippen kunnen leiden tot een ineenstorting van de training. Om dit probleem aan te pakken, stellen we Clipped Policy Gradient Optimization with Policy Drift (CPGD) voor, een nieuw algoritme ontworpen om beleidsleren in LMs te stabiliseren. CPGD introduceert een beleidsdriftbeperking gebaseerd op KL-divergentie om beleidsupdates dynamisch te regulariseren, en maakt gebruik van een clipmechanisme op de logaritme van de verhouding om excessieve beleidsupdates te voorkomen. We bieden een theoretische onderbouwing voor CPGD en laten door empirische analyse zien dat het de instabiliteit die bij eerdere benaderingen werd waargenomen, vermindert. Bovendien tonen we aan dat CPGD de prestaties aanzienlijk verbetert terwijl de trainingsstabiliteit behouden blijft. Onze implementatie balanceert theoretische strengheid met praktische bruikbaarheid, en biedt een robuust alternatief voor RL in de na-training van LMs. We hebben onze code vrijgegeven op https://github.com/ModalMinds/MM-EUREKA.
Large Language Models (LLMs) hebben aanzienlijke vooruitgang geboekt, maar hun groeiende aantal parameters en contextvensters brengen onhoudbare reken-, energie- en monetaire kosten met zich mee. Wij introduceren EfficientLLM, een nieuwe benchmark en de eerste uitgebreide empirische studie die efficiëntietechnieken voor LLMs op grote schaal evalueert. Uitgevoerd op een productieklasse cluster (48xGH200, 8xH200 GPU's), verkent onze studie systematisch drie belangrijke assen: (1) architectuurpretraining (efficiënte aandachtvarianten: MQA, GQA, MLA, NSA; sparse Mixture-of-Experts (MoE)), (2) fine-tuning (parameter-efficiënte methoden: LoRA, RSLoRA, DoRA), en (3) inferentie (kwantiseringsmethoden: int4, float16). We definiëren zes fijnmazige metrieken (Geheugengebruik, Rekengebruik, Latentie, Doorvoer, Energieverbruik, Compressieratio) om hardwareverzadiging, latentie-doorvoerbalans en koolstofkosten vast te leggen. Door meer dan 100 model-techniekparen (0,5B-72B parameters) te evalueren, leiden we drie kerninzichten af: (i) Efficiëntie houdt kwantificeerbare afwegingen in: geen enkele methode is universeel optimaal; bijvoorbeeld, MoE vermindert FLOPs en verbetert de nauwkeurigheid maar verhoogt het VRAM met 40%, terwijl int4-kwantisering het geheugen/energieverbruik tot 3,9x vermindert bij een nauwkeurigheidsverlies van 3-5%. (ii) Optima zijn taak- en schaalafhankelijk: MQA biedt optimale geheugen-latentieafwegingen voor beperkte apparaten, MLA bereikt de laagste perplexiteit voor kwaliteitskritieke taken, en RSLoRA overtreft de efficiëntie van LoRA alleen bij meer dan 14B parameters. (iii) Technieken generaliseren over modaliteiten: we breiden de evaluaties uit naar Large Vision Models (Stable Diffusion 3.5, Wan 2.1) en Vision-Language Models (Qwen2.5-VL), wat de effectieve overdraagbaarheid bevestigt. Door datasets, evaluatiepijplijnen en leaderboards openbaar te maken, biedt EfficientLLM essentiële richtlijnen voor onderzoekers en ingenieurs die de efficiëntie-prestatielandschap van next-generation foundation models navigeren.
Low-Rank Adaptation (LoRA), waarbij een product van twee trainbare laag-rang matrices wordt geïntroduceerd in bevroren vooraf getrainde gewichten, wordt veel gebruikt voor efficiënte fine-tuning van taalmodelen in federated learning (FL). Wanneer het echter wordt gecombineerd met differentially private stochastic gradient descent (DP-SGD), ondervindt LoRA aanzienlijke ruisversterking: DP-SGD verstoort per-sample gradients, en de matrixvermenigvuldiging van de LoRA-update (BA) versterkt dit effect. Het bevriezen van één matrix (bijvoorbeeld A) vermindert de ruis maar beperkt de expressiviteit van het model, wat vaak resulteert in suboptimale aanpassing. Om dit aan te pakken, stellen we FedSVD voor, een eenvoudige maar effectieve methode die een globale herparameterisatie introduceert op basis van singular value decomposition (SVD). In onze aanpak optimaliseert elke client alleen de B-matrix en stuurt deze naar de server. De server aggregeert de B-matrices, berekent het product BA met de vorige A, en herfactoriseert het resultaat via SVD. Dit levert een nieuwe adaptieve A op, samengesteld uit de orthonormale rechter singuliere vectoren van BA, en een bijgewerkte B die de resterende SVD-componenten bevat. Deze herparameterisatie vermijdt kwadratische ruisversterking, terwijl A in staat wordt gesteld om de belangrijkste richtingen van de geaggregeerde updates beter vast te leggen. Bovendien begrenst de orthonormale structuur van A de gradientnormen van B en behoudt het meer signaal onder DP-SGD, zoals bevestigd door onze theoretische analyse. Als gevolg hiervan verbetert FedSVD consistent de stabiliteit en prestaties over een verscheidenheid aan privacy-instellingen en benchmarks, en overtreft het relevante baseline-methoden onder zowel private als niet-private regimes.
Inferentie-schaaltechnieken hebben de redeneercapaciteiten van grote taalmmodellen (LLM's) aanzienlijk versterkt door extra rekenkracht te benutten tijdens de inferentie zonder hertraining. Evenzo verbeteren Chain-of-Thought (CoT) prompting en de uitbreiding daarvan, Long CoT, de nauwkeurigheid door rijke tussenliggende redeneertrajecten te genereren, maar deze methoden brengen aanzienlijke tokenkosten met zich mee die hun inzet in latentiegevoelige omgevingen belemmeren. In dit werk tonen we eerst aan dat afgekapte CoT, waarbij het redeneren voortijdig wordt gestopt en direct het eindantwoord wordt gegenereerd, vaak overeenkomt met volledige CoT-steekproeven terwijl aanzienlijk minder tokens worden gebruikt. Op basis van dit inzicht introduceren we Fractured Sampling, een uniforme inferentie-strategie die interpoleert tussen volledige CoT en oplossingsgerichte steekproeven langs drie orthogonale assen: (1) het aantal redeneertrajecten, (2) het aantal eindoplossingen per traject, en (3) de diepte waarop redeneersporen worden afgekapt. Door uitgebreide experimenten op vijf diverse redeneerbenchmarks en verschillende modelschalen, tonen we aan dat Fractured Sampling consequent superieure nauwkeurigheid-kostenverhoudingen bereikt, wat leidt tot sterke log-lineaire schaalwinsten in Pass@k versus tokenbudget. Onze analyse onthult hoe rekenkracht over deze dimensies kan worden toegewezen om de prestaties te maximaliseren, wat de weg vrijmaakt voor efficiëntere en schaalbaardere LLM-redenering.
Grote taalmodellen (LLMs) vertonen verschillende niveaus van vertrouwen bij verschillende invoerprompts (vragen): sommige leiden tot consistente, semantisch vergelijkbare antwoorden, terwijl andere diverse of tegenstrijdige uitvoer opleveren. Deze variatie weerspiegelt de onzekerheid van het LLM over de invoerprompt, een signaal van hoe zeker het model een bepaald probleem begrijpt. Echter, de standaard Group Relative Policy Optimization (GRPO) behandelt alle prompts gelijk tijdens beleidsupdates, waarbij deze belangrijke informatie over de kennisgrenzen van het model wordt genegeerd. Om deze beperking aan te pakken, stellen we SEED-GRPO (Semantic Entropy EnhanceD GRPO) voor, dat expliciet de onzekerheid van LLMs over de semantische entropie van de invoerprompts meet. Semantische entropie meet de diversiteit van betekenis in meerdere gegenereerde antwoorden gegeven een prompt en gebruikt dit om de omvang van beleidsupdates te moduleren. Dit onzekerheidsbewuste trainingsmechanisme maakt dynamische aanpassing van de omvang van beleidsupdates mogelijk op basis van de onzekerheid van de vraag. Het maakt conservatievere updates mogelijk bij vragen met een hoge onzekerheid, terwijl het oorspronkelijke leersignaal behouden blijft bij vragen waar het model zeker van is. Experimentele resultaten op vijf wiskundige redeneerbenchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2, en OlympiadBench 48.0) tonen aan dat SEED-GRPO een nieuwe state-of-the-art prestaties bereikt in gemiddelde nauwkeurigheid, wat de effectiviteit van onzekerheidsbewuste beleidsoptimalisatie valideert.
Grote visueel-taalmodelen vertonen inherente capaciteiten om diverse visuele waarnemingstaken te verwerken. In dit artikel introduceren we VisionReasoner, een uniform raamwerk dat in staat is om te redeneren en meerdere visuele waarnemingstaken op te lossen binnen een gedeeld model. Specifiek versterkt VisionReasoner zijn redeneervaardigheden door het ontwerpen van nieuwe multi-object cognitieve leerstrategieën en systematische taakherformulering, waardoor het visuele inputs kan analyseren en diverse waarnemingstaken in een uniform raamwerk kan aanpakken. Het model genereert een gestructureerd redeneerproces voordat het de gewenste uitvoer levert in reactie op gebruikersvragen. Om de uniforme visuele waarnemingscapaciteiten rigoureus te beoordelen, evalueren we VisionReasoner op tien diverse taken die drie kritieke domeinen beslaan: detectie, segmentatie en tellen. Experimentele resultaten tonen aan dat VisionReasoner superieure prestaties behaalt als een uniform model, waarbij het Qwen2.5VL overtreft met relatieve marges van 29,1% op COCO (detectie), 22,1% op ReasonSeg (segmentatie) en 15,3% op CountBench (tellen).
Het begrijpen van grafieken vormt een unieke uitdaging voor grote visueel-taalkundige modellen (LVLMs), omdat het de integratie vereist van geavanceerde tekstuele en visuele redeneervaardigheden. Huidige LVLMs vertonen echter een opvallende onbalans tussen deze vaardigheden, waarbij ze tekortschieten in visueel redeneren dat moeilijk in tekst uit te voeren is. We voeren een casestudy uit met behulp van een synthetische dataset die alleen via visueel redeneren op te lossen is en laten zien dat de modelprestaties aanzienlijk verslechteren bij toenemende visuele complexiteit, terwijl de menselijke prestaties robuust blijven. Vervolgens introduceren we ChartMuseum, een nieuwe Chart Question Answering (QA) benchmark met 1.162 expert-geannoteerde vragen die verschillende redeneertypes omvatten, samengesteld uit real-world grafieken van 184 bronnen, specifiek ontworpen om complex visueel en tekstueel redeneren te evalueren. In tegenstelling tot eerdere benchmarks voor het begrijpen van grafieken – waar toonaangevende modellen vergelijkbaar en bijna verzadigd presteren – legt onze benchmark een aanzienlijke kloof bloot tussen model- en menselijke prestaties, terwijl het effectief onderscheid maakt tussen modelcapaciteiten: hoewel mensen een nauwkeurigheid van 93% bereiken, haalt het best presterende model Gemini-2.5-Pro slechts 63,0%, en het leidende open-source LVLM Qwen2.5-VL-72B-Instruct bereikt slechts 38,5%. Bovendien ervaren alle modellen bij vragen die vooral visueel redeneren vereisen een prestatieverlies van 35%-55% ten opzichte van vragen die vooral tekstueel redeneren vereisen. Tot slot onthult onze kwalitatieve foutenanalyse specifieke categorieën van visueel redeneren die uitdagend zijn voor huidige LVLMs.
Het nauwkeurig herkennen van zoekintentie in Retrieval-Augmented Generation (RAG)-systemen blijft een uitdagend doel, vooral onder beperkte middelen en voor complexe query's met geneste structuren en afhankelijkheden. Dit artikel introduceert QCompiler, een neuro-symbolisch raamwerk geïnspireerd door linguïstische grammaticaregels en compilatorontwerp, om deze kloof te overbruggen. Het ontwerpt theoretisch een minimale maar voldoende Backus-Naur Form (BNF)-grammatica G[q] om complexe query's te formaliseren. In tegenstelling tot eerdere methoden behoudt deze grammatica volledigheid terwijl redundantie wordt geminimaliseerd. Op basis hiervan omvat QCompiler een Query Expression Translator, een Lexical Syntax Parser en een Recursive Descent Processor om query's te compileren naar Abstract Syntax Trees (AST's) voor uitvoering. De atomiciteit van de subquery's in de bladknopen zorgt voor nauwkeurigere documentretrieval en responsgeneratie, wat het vermogen van het RAG-systeem om complexe query's aan te pakken aanzienlijk verbetert.
Het integreren van grote taalmodellen met symbolische planners is een veelbelovende richting voor het verkrijgen van verifieerbare en gegronde plannen in vergelijking met plannen in natuurlijke taal, waarbij recente werken dit idee uitbreiden naar visuele domeinen met behulp van Vision-Language Models (VLMs). Echter, een rigoureuze vergelijking tussen VLM-gegronde symbolische benaderingen en methoden die direct plannen met een VLM is belemmerd door een gebrek aan gemeenschappelijke omgevingen, evaluatieprotocollen en modeldekking. Wij introduceren ViPlan, de eerste open-source benchmark voor Visueel Plannen met symbolische predicaten en VLMs. ViPlan bevat een reeks steeds uitdagender taken in twee domeinen: een visuele variant van het klassieke Blocksworld-planningsprobleem en een gesimuleerde huishoudelijke robotica-omgeving. We benchmarken negen open-source VLM-families in verschillende groottes, samen met geselecteerde gesloten modellen, waarbij we zowel VLM-gegronde symbolische planning evalueren als het direct gebruiken van de modellen om acties voor te stellen. We ontdekken dat symbolische planning beter presteert dan directe VLM-planning in Blocksworld, waar nauwkeurige beeldgronding cruciaal is, terwijl het tegenovergestelde geldt voor de huishoudelijke robotica-taken, waar gezond verstand en het vermogen om van fouten te herstellen voordelig zijn. Tot slot laten we zien dat er bij de meeste modellen en methoden geen significant voordeel is aan het gebruik van Chain-of-Thought prompting, wat suggereert dat huidige VLMs nog steeds moeite hebben met visueel redeneren.
Beloningsmodellen zijn essentieel voor het afstemmen van taalmodeluitvoer op menselijke voorkeuren, maar bestaande benaderingen missen vaak zowel beheersbaarheid als interpreteerbaarheid. Deze modellen zijn doorgaans geoptimaliseerd voor specifieke doelen, wat hun generaliseerbaarheid naar bredere downstreamtaken beperkt. Bovendien zijn hun scalaire uitvoer moeilijk te interpreteren zonder contextuele redenering. Om deze beperkingen aan te pakken, introduceren we R3, een nieuw raamwerk voor beloningsmodellering dat rubric-onafhankelijk is, generaliseerbaar over evaluatiedimensies, en interpreteerbare, beredeneerde scoretoewijzingen biedt. R3 maakt een transparantere en flexibelere evaluatie van taalmodellen mogelijk, wat een robuuste afstemming ondersteunt met diverse menselijke waarden en use cases. Onze modellen, data en code zijn beschikbaar als open source op https://github.com/rubricreward/r3.
We introduceren SLED, een alternatieve benadering voor spraaktaalmodellering door spraakgolven te coderen in reeksen van continue latente representaties en deze autoregressief te modelleren met behulp van een energiedistance-doelstelling. De energiedistance biedt een analytische maatstaf voor de distributiekloof door gesimuleerde en doelmonsters te vergelijken, wat efficiënte training mogelijk maakt om de onderliggende continue autoregressieve distributie vast te leggen. Door de afhankelijkheid van residuele vectorkwantisatie te omzeilen, vermijdt SLED discretisatiefouten en elimineert het de noodzaak voor de ingewikkelde hiërarchische architecturen die gebruikelijk zijn in bestaande spraaktaalmodellen. Het vereenvoudigt de algehele modelleerpipeline terwijl de rijkdom van spraakinformatie behouden blijft en de inferentie-efficiëntie gehandhaafd wordt. Empirische resultaten tonen aan dat SLED sterke prestaties levert in zowel zero-shot als streaming spraaksynthese, wat het potentieel aantoont voor bredere toepassingen in algemene spraaktaalmodellen.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de visie van geautomatiseerde wetenschappelijke ontdekking, vaak AI Co-Wetenschappers genoemd, aangewakkerd. Tot op heden hebben eerdere studies deze systemen voorgesteld als generatieve co-auteurs die verantwoordelijk zijn voor het formuleren van hypothesen, het samenstellen van code of het opstellen van manuscripten. In dit werk verkennen we een complementaire toepassing: het gebruik van LLMs als verificatoren om de academische verificatie van wetenschappelijke manuscripten te automatiseren. Hiertoe introduceren we SPOT, een dataset van 83 gepubliceerde artikelen gepaard met 91 fouten die significant genoeg waren om errata of terugtrekking te veroorzaken, gecrossvalideerd met daadwerkelijke auteurs en menselijke annotators. Bij het evalueren van state-of-the-art LLMs op SPOT, ontdekken we dat geen enkel model een recall van meer dan 21,1% of een precisie van meer dan 6,1% behaalt (o3 scoort het beste, terwijl alle andere modellen bijna nul scoren). Bovendien zijn de betrouwbaarheidsschattingen uniform laag, en over acht onafhankelijke runs heen ontdekken de modellen zelden dezelfde fouten opnieuw, wat hun betrouwbaarheid ondermijnt. Ten slotte onthult kwalitatieve analyse met domeinexperts dat zelfs de sterkste modellen fouten maken die lijken op misvattingen op studentenniveau, voortkomend uit misverstanden. Deze bevindingen benadrukken de aanzienlijke kloof tussen de huidige mogelijkheden van LLMs en de vereisten voor betrouwbare AI-ondersteunde academische verificatie.
Het animeren van menselijke beelden heeft steeds meer aandacht gekregen en zich snel ontwikkeld vanwege de brede toepassingen in digitale mensen. Bestaande methoden vertrouwen echter grotendeels op 2D-gerenderde posebeelden voor bewegingsbegeleiding, wat de generalisatie beperkt en essentiële 3D-informatie voor animatie in de open wereld verwaarloost. Om dit probleem aan te pakken, stellen we MTVCrafter (Motion Tokenization Video Crafter) voor, het eerste framework dat direct ruwe 3D-bewegingssequenties (d.w.z. 4D-beweging) modelleert voor het animeren van menselijke beelden. Specifiek introduceren we 4DMoT (4D motion tokenizer) om 3D-bewegingssequenties te kwantiseren in 4D-bewegingstokens. In vergelijking met 2D-gerenderde posebeelden bieden 4D-bewegingstokens robuustere ruimtelijk-temporele aanwijzingen en vermijden ze strikte pixel-nauwkeurige uitlijning tussen posebeeld en karakter, wat flexibelere en ontvlochten controle mogelijk maakt. Vervolgens introduceren we MV-DiT (Motion-aware Video DiT). Door unieke bewegingsobjectie te ontwerpen met 4D-positionele coderingen, kan MV-DiT effectief gebruikmaken van bewegings-tokens als 4D compacte maar expressieve context voor het animeren van menselijke beelden in de complexe 3D-wereld. Het markeert dus een belangrijke stap voorwaarts in dit veld en opent een nieuwe richting voor pose-gestuurde menselijke videogeneratie. Experimenten tonen aan dat onze MTVCrafter state-of-the-art resultaten behaalt met een FID-VID van 6,98, wat de op één na beste methode met 65% overtreft. Aangedreven door robuuste bewegings-tokens, generaliseert MTVCrafter ook goed naar diverse open-wereld karakters (enkel/meervoudig, volledig/halflichaam) in verschillende stijlen en scenario's. Onze videodemo's en code zijn te vinden op: https://github.com/DINGYANB/MTVCrafter.
Beeldgeneratiemodellen hebben brede toepassingen gevonden. Een voorbeeld is het TarFlow-model, dat de transformer-architectuur combineert met Normalizing Flow-modellen en state-of-the-art resultaten behaalt op meerdere benchmarks. Door de causale vorm van aandacht die sequentiële berekening vereist, is het samplingproces van TarFlow echter extreem traag. In dit artikel tonen we aan dat door een reeks optimalisatiestrategieën het TarFlow-sampling aanzienlijk kan worden versneld door gebruik te maken van de Gauss-Seidel-Jacobi (afgekort als GS-Jacobi) iteratiemethode. Specifiek ontdekken we dat blokken in het TarFlow-model variërend belang hebben: een klein aantal blokken speelt een grote rol in beeldgeneratietaken, terwijl andere blokken relatief weinig bijdragen; sommige blokken zijn gevoelig voor beginwaarden en gevoelig voor numerieke overloop, terwijl andere relatief robuust zijn. Op basis van deze twee kenmerken stellen we de Convergence Ranking Metric (CRM) en de Initial Guessing Metric (IGM) voor: CRM wordt gebruikt om te bepalen of een TarFlow-blok "eenvoudig" is (convergeert in weinig iteraties) of "moeilijk" (vereist meer iteraties); IGM wordt gebruikt om te evalueren of de beginwaarde van de iteratie goed is. Experimenten op vier TarFlow-modellen tonen aan dat GS-Jacobi-sampling de samplingefficiëntie aanzienlijk kan verbeteren terwijl de kwaliteit van de gegenereerde beelden (gemeten door FID) behouden blijft, met snelheidsverbeteringen van 4,53x in Img128cond, 5,32x in AFHQ, 2,96x in Img64uncond en 2,51x in Img64cond zonder afbreuk te doen aan FID-scores of samplekwaliteit. Code en checkpoints zijn toegankelijk op https://github.com/encoreus/GS-Jacobi_for_TarFlow.
Tiny QA Benchmark++ (TQB++) biedt een ultralichte, meertalige smoke-test suite die is ontworpen om grote-taalmodellen (LLM) pipelines een unit-test-stijl veiligheidsnetdataset te bieden die binnen enkele seconden draait tegen minimale kosten. Ontstaan uit de behoefte aan strakke feedbackloops tijdens de ontwikkeling van de Comet Opik prompt-optimalisatie SDK, waar het wachten op zware benchmarks de ontwikkelaarsflow verstoort. TQB++ combineert een 52-item Engels gouden dataset (minder dan 20 kB) met een kleine synthetische-data generator pypi-pakket gebouwd op provider-agnostische LiteLLM. De generator stelt gebruikers in staat om hun eigen kleine datasets te maken in elke taal, domein of moeilijkheidsgraad, terwijl tien kant-en-klare datasets al Arabisch, Chinees, Frans, Duits, Japans, Koreaans, Portugees, Russisch, Spaans en Turks dekken. Elke dataset wordt geleverd met Croissant-metadata en plug-and-play bestanden voor OpenAI-Evals, LangChain en standaard CI-tools, zodat teams deterministische micro-benchmarks direct kunnen integreren in pull-request gates, prompt-engineering loops en productiedashboards zonder GPU-budgetten aan te raken. Een volledige TQB++ run voegt slechts enkele seconden toe aan de pijplijnlatentie, maar signaleert betrouwbaar prompt-template fouten, tokenizer drift en fine-tuning bijwerkingen lang voordat volledige suites zoals MMLU of BIG-Bench klaar zijn met configureren. Het hele framework is vrijgegeven om continue, resource-efficiënte kwaliteitsborging in het generatieve AI-ecosysteem te versnellen.
Artsen en patiënten gebruiken steeds vaker Large Language Models (LLMs) om klinische gevallen te diagnosticeren. In tegenstelling tot domeinen zoals wiskunde of programmeren, waar correctheid objectief kan worden bepaald door het uiteindelijke antwoord, vereist medische diagnose zowel een accuraat resultaat als een correct redeneerproces. Momenteel meten veelgebruikte medische benchmarks zoals MedQA en MMLU alleen de nauwkeurigheid van het uiteindelijke antwoord, waarbij de kwaliteit en betrouwbaarheid van het klinische redeneerproces over het hoofd worden gezien. Om deze beperking aan te pakken, introduceren we MedCaseReasoning, de eerste open-access dataset voor het evalueren van LLMs op hun vermogen om aan te sluiten bij door clinici geschreven diagnostische redeneringen. De dataset omvat 14.489 diagnostische vraag-en-antwoordgevallen, elk gekoppeld aan gedetailleerde redeneerverklaringen afgeleid uit open-access medische casusrapporten. We evalueren state-of-the-art redeneer-LLMs op MedCaseReasoning en constateren aanzienlijke tekortkomingen in hun diagnoses en redeneringen: bijvoorbeeld, het best presterende open-source model, DeepSeek-R1, behaalt slechts 48% diagnostische nauwkeurigheid bij 10-shot en noemt slechts 64% van de redeneerverklaringen van clinici (recall). We tonen echter aan dat het finetunen van LLMs op de redeneersporen afgeleid uit MedCaseReasoning de diagnostische nauwkeurigheid en de recall van klinische redeneringen aanzienlijk verbetert, met een gemiddelde relatieve winst van respectievelijk 29% en 41%. De open-source dataset, code en modellen zijn beschikbaar op https://github.com/kevinwu23/Stanford-MedCaseReasoning.
Ondanks aanzienlijke vooruitgang in videogeneratie blijft het synthetiseren van fysiek plausibele menselijke acties een hardnekkige uitdaging, met name bij het modelleren van fijnmazige semantiek en complexe temporele dynamiek. Het genereren van gymnastiekoefeningen zoals een "switch leap met 0.5 draai" vormt bijvoorbeeld aanzienlijke moeilijkheden voor huidige methoden, wat vaak tot onbevredigende resultaten leidt. Om deze kloof te overbruggen, stellen we FinePhys voor, een fijnmazig raamwerk voor het genereren van menselijke acties dat fysica integreert om effectieve skeletbegeleiding te verkrijgen. Specifiek schat FinePhys eerst 2D-posities op een online manier in en voert vervolgens een 2D-naar-3D dimensieverhoging uit via in-context leren. Om de instabiliteit en beperkte interpreteerbaarheid van puur data-gedreven 3D-posities te verminderen, introduceren we verder een op fysica gebaseerde bewegingherschattingsmodule die wordt bestuurd door Euler-Lagrange-vergelijkingen, waarbij gewrichtsversnellingen worden berekend via bidirectionele temporele updating. De fysiek voorspelde 3D-posities worden vervolgens gefuseerd met data-gedreven posities, wat multi-schaal 2D heatmap-begeleiding biedt voor het diffusieproces. Geëvalueerd op drie fijnmazige actiesubsets van FineGym (FX-JUMP, FX-TURN en FX-SALTO), presteert FinePhys aanzienlijk beter dan concurrerende baselines. Uitgebreide kwalitatieve resultaten tonen verder aan dat FinePhys in staat is om natuurlijkere en plausibelere fijnmazige menselijke acties te genereren.
Test-Time Scaling (TTS) verwijst naar benaderingen die de redeneerprestaties verbeteren door extra rekenkracht toe te wijzen tijdens de inferentie, zonder de parameters van het model aan te passen. Terwijl bestaande TTS-methoden werken in een discrete tokenruimte door meer tussenstappen te genereren, hebben recente studies in Coconut en SoftCoT aangetoond dat denken in de continue latente ruimte de redeneerprestaties verder kan verbeteren. Dergelijke latente gedachten coderen informatieve denkprocessen zonder het informatieverlies dat gepaard gaat met autoregressieve token-generatie, wat een groeiende interesse in redeneren in continue ruimte heeft aangewakkerd. In tegenstelling tot discrete decodering, waarbij herhaalde steekproeven het mogelijk maken om diverse redeneerpaden te verkennen, zijn latente representaties in continue ruimte vast voor een gegeven invoer, wat diverse verkenning beperkt, aangezien alle gedecodeerde paden voortkomen uit dezelfde latente gedachte. Om deze beperking te overwinnen, introduceren we SoftCoT++ om SoftCoT uit te breiden naar het Test-Time Scaling-paradigma door diverse verkenning van denkpaden mogelijk te maken. Specifiek verstoren we latente gedachten via meerdere gespecialiseerde begintokens en passen we contrastief leren toe om diversiteit onder zachte gedachtenrepresentaties te bevorderen. Experimenten over vijf redeneerbenchmarks en twee verschillende LLM-architecturen tonen aan dat SoftCoT++ SoftCoT aanzienlijk verbetert en ook beter presteert dan SoftCoT met self-consistency scaling. Bovendien toont het sterke compatibiliteit met conventionele schaaltechnieken zoals self-consistency. Broncode is beschikbaar op https://github.com/xuyige/SoftCoT.
Videodiffusiemodellen (DMs) hebben hoogwaardige videosynthese mogelijk gemaakt. Hun aanzienlijke rekenkundige en geheugeneisen vormen echter serieuze uitdagingen voor implementatie in de praktijk, zelfs op high-end GPU's. Kwantisatie, een veelgebruikte oplossing, heeft opmerkelijke successen geboekt bij het reduceren van kosten voor beeld-DMs, maar de directe toepassing ervan op videodiffusiemodellen blijft ineffectief. In dit artikel presenteren we QVGen, een nieuw kwantisatiebewust trainingsframework (QAT) dat is afgestemd op hoogwaardige en inferentie-efficiënte videodiffusiemodellen onder extreem lage-bit kwantisatie (bijv. 4-bit of lager). We beginnen met een theoretische analyse die aantoont dat het verminderen van de gradiëntnorm essentieel is om convergentie voor QAT te bevorderen. Hiertoe introduceren we hulpmodules (Phi) om grote kwantisatiefouten te verminderen, wat leidt tot aanzienlijk verbeterde convergentie. Om de inferentie-overhead van Phi te elimineren, stellen we een rangvervalstrategie voor die Phi geleidelijk uitschakelt. Specifiek passen we herhaaldelijk singulierewaardedecompositie (SVD) en een voorgestelde ranggebaseerde regularisatie gamma toe om componenten met een lage bijdrage te identificeren en af te bouwen. Deze strategie behoudt de prestaties terwijl de inferentie-overhead wordt geëlimineerd. Uitgebreide experimenten met 4 state-of-the-art (SOTA) videodiffusiemodellen, met parameters van 1,3B tot 14B, tonen aan dat QVGen als eerste een kwaliteit bereikt die vergelijkbaar is met volledige precisie onder 4-bit instellingen. Bovendien presteert het aanzienlijk beter dan bestaande methoden. Zo behaalt onze 3-bit CogVideoX-2B verbeteringen van +25,28 in Dynamische Graad en +8,43 in Scèneconsistentie op VBench.
De afgelopen jaren hebben grote redeneermodellen (LRM's), zoals OpenAI-o1 en DeepSeek-R1, indrukwekkende capaciteiten getoond bij complexe problemen, zoals wiskunde en programmeren. Enkele baanbrekende studies proberen het succes van LRM's toe te passen op neurale machinaalvertaling (MT). Ze proberen LRM's te bouwen met een diep redeneervermogen voor MT via reinforcement learning (RL). Ondanks enige vooruitgang die is geboekt, richten deze pogingen zich over het algemeen op enkele hoog-resourcetalen, zoals Engels en Chinees, waardoor de prestaties op andere talen onduidelijk blijven. Bovendien benutten de beloningsmodelleringsmethoden in eerder werk het potentieel van reinforcement learning in MT niet volledig. In dit werk ontwerpen we eerst een nieuwe beloningsmodelleringsmethode die de vertaalresultaten van het beleids-MT-model vergelijkt met een sterk LRM (d.w.z. DeepSeek-R1-671B), en deze vergelijkingen kwantificeert om beloningen te bieden. Experimentele resultaten tonen de superioriteit van de beloningsmodelleringsmethode aan. Met Qwen2.5-7B-Instruct als basis bereikt het getrainde model de nieuwe state-of-the-art prestaties in literaire vertaling en overtreft het sterke LRM's, waaronder OpenAI-o1 en DeepSeek-R1. Bovendien breiden we onze methode uit naar meertalige instellingen met 11 talen. Met een zorgvuldig ontworpen lichtgewicht beloningsmodellering in RL kunnen we eenvoudig de sterke MT-capaciteit van één richting overbrengen naar meerdere (d.w.z. 90) vertaalrichtingen en indrukwekkende meertalige MT-prestaties behalen.
Recente ontwikkelingen in Digitale Pathologie (DP), met name door middel van kunstmatige intelligentie en Foundation Models, hebben het belang benadrukt van grootschalige, diverse en rijkelijk geannoteerde datasets. Ondanks hun cruciale rol ontbreekt het vaak aan voldoende schaal, weefseldiversiteit en uitgebreide klinische metadata in publiek beschikbare Whole Slide Image (WSI)-datasets, wat de robuustheid en generaliseerbaarheid van AI-modellen beperkt. Als reactie hierop introduceren we de HISTAI-dataset, een grote, multimodale, open-access WSI-collectie bestaande uit meer dan 60.000 slides van verschillende weefseltypen. Elk geval in de HISTAI-dataset wordt vergezeld door uitgebreide klinische metadata, waaronder diagnose, demografische informatie, gedetailleerde pathologische annotaties en gestandaardiseerde diagnostische codering. De dataset heeft als doel de hiaten in bestaande bronnen op te vullen, innovatie, reproduceerbaarheid en de ontwikkeling van klinisch relevante computationele pathologieoplossingen te bevorderen. De dataset is toegankelijk op https://github.com/HistAI/HISTAI.
Voorkeursdatasets zijn essentieel voor het trainen van algemene, instructievolgende taalmmodellen met Reinforcement Learning from Human Feedback (RLHF). Elke nieuwe datarelease verhoogt de verwachtingen voor toekomstige datacollectie, wat betekent dat er een constante behoefte is aan het verbeteren van de kwaliteit en diversiteit van openbaar beschikbare voorkeursdata. Om aan deze behoefte tegemoet te komen, introduceren we HelpSteer3-Preference, een hoogwaardige, door mensen geannoteerde voorkeursdataset met een permissieve licentie (CC-BY-4.0), bestaande uit meer dan 40.000 samples. Deze samples beslaan diverse real-world toepassingen van grote taalmmodellen (LLMs), inclusief taken gerelateerd aan STEM, programmeren en meertalige scenario's. Met behulp van HelpSteer3-Preference trainen we Reward Models (RMs) die topprestaties behalen op RM-Bench (82,4%) en JudgeBench (73,7%). Dit vertegenwoordigt een aanzienlijke verbetering (~10% absoluut) ten opzichte van de eerder gerapporteerde beste resultaten van bestaande RMs. We demonstreren dat HelpSteer3-Preference ook kan worden toegepast voor het trainen van Generative RMs en hoe beleidsmodellen kunnen worden afgestemd met RLHF met behulp van onze RMs. Dataset (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference
Mens-computerinteractie heeft lang technologieën voor ogen gehad die ons begrijpen - van onze voorkeuren en gewoonten tot de timing en het doel van onze dagelijkse handelingen. Toch blijven huidige gebruikersmodellen gefragmenteerd, nauw toegesneden op specifieke apps, en niet in staat tot het flexibele redeneren dat nodig is om deze visies te verwezenlijken. Dit artikel presenteert een architectuur voor een algemeen gebruikersmodel (GUM) dat over je leert door elke interactie die je met je computer hebt te observeren. Het GUM neemt als invoer elke ongestructureerde observatie van een gebruiker (bijv., schermafbeeldingen van apparaten) en construeert vertrouwensgewogen proposities die die gebruikerskennis en voorkeuren vastleggen. GUMs kunnen afleiden dat een gebruiker zich voorbereidt op een bruiloft waar ze naartoe gaan, op basis van berichten met een vriend. Of herkennen dat een gebruiker moeite heeft met feedback van een medewerker op een concept door meerdere gestagneerde bewerkingen en een overstap naar het lezen van gerelateerd werk te observeren. GUMs introduceren een architectuur die nieuwe proposities over een gebruiker afleidt uit multimodale observaties, gerelateerde proposities ophaalt voor context, en bestaande proposities continu herziet. Om de breedte van toepassingen die GUMs mogelijk maken te illustreren, demonstreren we hoe ze chatgebaseerde assistenten verrijken met context, OS-meldingen beheren om selectief belangrijke informatie naar voren te halen, en interactieve agents mogelijk maken die zich aanpassen aan voorkeuren over apps heen. We concretiseren ook proactieve assistenten (GUMBOs) die nuttige suggesties ontdekken en uitvoeren namens een gebruiker met behulp van hun GUM. In onze evaluaties vinden we dat GUMs gekalibreerde en accurate inferenties over gebruikers maken, en dat assistenten gebouwd op GUMs proactief acties identificeren en uitvoeren die gebruikers niet expliciet zouden aanvragen. Al met al introduceren GUMs methoden die multimodale modellen benutten om ongestructureerde context te begrijpen, waardoor lang gekoesterde visies van HCI en geheel nieuwe interactieve systemen die gebruikersbehoeften anticiperen mogelijk worden.
Homograafdisambiguatie blijft een aanzienlijke uitdaging in grafeem-naar-foneem (G2P) conversie, vooral voor talen met beperkte bronnen. Deze uitdaging is tweeledig: (1) het creëren van gebalanceerde en uitgebreide homograafdatasets is arbeidsintensief en kostbaar, en (2) specifieke disambiguatiestrategieën introduceren extra latentie, waardoor ze ongeschikt zijn voor realtime toepassingen zoals schermlezers en andere toegankelijkheidstools. In dit artikel pakken we beide problemen aan. Ten eerste stellen we een semi-geautomatiseerde pipeline voor voor het construeren van homograafgerichte datasets, introduceren we de HomoRich dataset die via deze pipeline is gegenereerd, en demonstreren we de effectiviteit ervan door deze toe te passen om een state-of-the-art deep learning-gebaseerd G2P-systeem voor Perzisch te verbeteren. Ten tweede pleiten we voor een paradigmaverschuiving - het gebruik van rijke offline datasets om de ontwikkeling van snelle, op regels gebaseerde methoden te informeren die geschikt zijn voor latentiegevoelige toegankelijkheidstoepassingen zoals schermlezers. Hiertoe verbeteren we een van de meest bekende op regels gebaseerde G2P-systemen, eSpeak, tot een snelle homograafbewuste versie, HomoFast eSpeak. Onze resultaten laten een verbetering van ongeveer 30% zien in de nauwkeurigheid van homograafdisambiguatie voor zowel het deep learning-gebaseerde systeem als het eSpeak-systeem.
Vroege holbewoners vertrouwden op gebaren, vocalisaties en eenvoudige signalen om te coördineren, te plannen, roofdieren te vermijden en middelen te delen. Tegenwoordig werken mensen samen met behulp van complexe talen om opmerkelijke resultaten te bereiken. Wat drijft deze evolutie in communicatie? Hoe ontstaat taal, past deze zich aan en wordt deze essentieel voor teamwork? Het begrijpen van de oorsprong van taal blijft een uitdaging. Een toonaangevende hypothese in de taalkunde en antropologie stelt dat taal evolueerde om te voldoen aan de ecologische en sociale eisen van vroege menselijke samenwerking. Taal ontstond niet in isolatie, maar door gedeelde overlevingsdoelen. Geïnspireerd door dit perspectief onderzoeken we het ontstaan van taal in multi-agent Foraging Games. Deze omgevingen zijn ontworpen om de cognitieve en ecologische beperkingen te weerspiegelen waarvan wordt aangenomen dat ze de evolutie van communicatie hebben beïnvloed. Agenten opereren in een gedeelde rasterwereld met slechts gedeeltelijke kennis over andere agenten en de omgeving, en moeten coördineren om spellen te voltooien, zoals het oppakken van hoogwaardige doelen of het uitvoeren van tijdelijk geordende acties. Met end-to-end deep reinforcement learning leren agenten zowel acties als communicatiestrategieën vanaf nul. We ontdekken dat agenten communicatieprotocollen ontwikkelen met kenmerkende eigenschappen van natuurlijke taal: willekeurigheid, uitwisselbaarheid, verplaatsing, culturele overdracht en compositionaliteit. We kwantificeren elke eigenschap en analyseren hoe verschillende factoren, zoals populatiegrootte en temporele afhankelijkheden, specifieke aspecten van de opkomende taal vormgeven. Ons framework dient als een platform om te bestuderen hoe taal kan evolueren uit gedeeltelijke observeerbaarheid, temporeel redeneren en coöperatieve doelen in belichaamde multi-agent omgevingen. We zullen alle data, code en modellen openbaar vrijgeven.
Het trainen van hoogpresterende Kleine Taalmodellen (SLMs) blijft kostbaar, zelfs met kennisdistillatie en pruning van grotere leraarmodellen. Bestaand werk wordt vaak geconfronteerd met drie belangrijke uitdagingen: (1) informatieverlies door harde pruning, (2) inefficiënte uitlijning van representaties, en (3) onderbenutting van informatieve activaties, met name van Feed-Forward Networks (FFNs). Om deze uitdagingen aan te pakken, introduceren we Low-Rank Clone (LRC), een efficiënte pre-trainingsmethode die SLMs construeert die streven naar gedragsequivalentie met sterke leraarmodellen. LRC traint een set van laag-rang projectiematrices die gezamenlijk zachte pruning mogelijk maken door de gewichten van de leraar te comprimeren, en activatieklonen door de activaties van de student, inclusief FFN-signalen, uit te lijnen met die van de leraar. Dit geïntegreerde ontwerp maximaliseert kennisoverdracht terwijl de behoefte aan expliciete uitlijningsmodules wordt weggenomen. Uitgebreide experimenten met open-source leraarmodellen (bijv. Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) tonen aan dat LRC de prestaties van state-of-the-art modellen die getraind zijn op biljoenen tokens evenaart of overtreft—terwijl slechts 20B tokens worden gebruikt, wat een trainingsrendement van meer dan 1.000x oplevert. Onze code en modelcheckpoints zijn beschikbaar op https://github.com/CURRENTF/LowRankClone en https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.
Het nauwkeurig identificeren van adversariële technieken in beveiligingsteksten is cruciaal voor effectieve cyberverdediging. Bestaande methoden kampen echter met een fundamentele afweging: ze zijn ofwel gebaseerd op generieke modellen met beperkte domeinprecisie, of vereisen resource-intensieve pijplijnen die afhankelijk zijn van grote gelabelde datasets en taakspecifieke optimalisaties, zoals aangepaste hard-negative mining en denoising, middelen die zelden beschikbaar zijn in gespecialiseerde domeinen. Wij stellen TechniqueRAG voor, een domeinspecifiek retrieval-augmented generation (RAG) framework dat deze kloof overbrugt door off-the-shelf retrievers, instruction-tuned LLM's en minimale tekst-techniekparen te integreren. Onze aanpak gaat het probleem van dataschaarste te lijf door alleen het generatiecomponent te fine-tunen op beperkte in-domeinvoorbeelden, waardoor de noodzaak voor resource-intensieve retrievertraining wordt omzeild. Hoewel conventionele RAG hallucinatie vermindert door retrieval en generatie te koppelen, introduceert de afhankelijkheid van generieke retrievers vaak ruis in de kandidaten, wat de domeinspecifieke precisie beperkt. Om dit aan te pakken, verbeteren we de retrievalkwaliteit en domeinspecificiteit door middel van zero-shot LLM herrangschikking, die expliciet de opgehaalde kandidaten afstemt op adversariële technieken. Experimenten op meerdere beveiligingsbenchmarks tonen aan dat TechniqueRAG state-of-the-art prestaties bereikt zonder uitgebreide taakspecifieke optimalisaties of gelabelde data, terwijl een uitgebreide analyse verdere inzichten biedt.
De Image Signal Processor (ISP) is een fundamenteel onderdeel in moderne smartphonecamera's en is verantwoordelijk voor de omzetting van RAW-sensorbeeldgegevens naar RGB-beelden, met een sterke focus op perceptuele kwaliteit. Recent onderzoek benadrukt het potentieel van deep learning-benaderingen en hun vermogen om details vast te leggen met een kwaliteit die steeds dichter in de buurt komt van die van professionele camera's. Een moeilijke en kostbare stap bij het ontwikkelen van een geleerde ISP is het verkrijgen van pixelgewijs uitgelijnde gepaarde gegevens die de raw-beelden vastgelegd door een smartphonecamerasensor koppelen aan hoogwaardige referentiebeelden. In dit werk pakken we deze uitdaging aan door een nieuwe trainingsmethode voor een leerbare ISP voor te stellen die de noodzaak van directe correspondentie tussen raw-beelden en grondwaarheidsgegevens met overeenkomende inhoud elimineert. Onze ongepaarde aanpak maakt gebruik van een multi-term verliesfunctie die wordt geleid door adversarial training met meerdere discriminatoren die feature maps verwerken van vooraf getrainde netwerken om de inhoudsstructuur te behouden terwijl kleur- en textuurkenmerken worden geleerd uit de doel-RGB-dataset. Met lichtgewicht neurale netwerkarchitecturen die geschikt zijn voor mobiele apparaten als backbone, hebben we onze methode geëvalueerd op de Zurich RAW to RGB- en Fujifilm UltraISP-datasets. In vergelijking met gepaarde trainingsmethoden toont onze ongepaarde leerstrategie sterk potentieel en behaalt het een hoge betrouwbaarheid over meerdere evaluatiemetrics. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data.
Het identificeren van subtiele technische fouten binnen complexe wetenschappelijke en technische documenten, met name die welke multimodale interpretatie vereisen (bijvoorbeeld formules in afbeeldingen), vormt een aanzienlijke uitdaging voor Large Language Models (LLMs), waarvan de inherente neiging tot foutcorrectie onnauwkeurigheden kan verhullen. Deze verkennende proof-of-concept (PoC)-studie onderzoekt gestructureerde LLM-contextconditionering, geïnformeerd door de principes van Persistent Workflow Prompting (PWP), als een methodologische strategie om dit LLM-gedrag tijdens inferentie te moduleren. De aanpak is ontworpen om de betrouwbaarheid van algemeen beschikbare, algemene LLMs (specifiek Gemini 2.5 Pro en ChatGPT Plus o3) te verbeteren voor precieze validatietaken, waarbij cruciaal alleen gebruik wordt gemaakt van hun standaard chatinterfaces zonder API-toegang of modelaanpassingen. Om deze methodologie te verkennen, richtten we ons op het valideren van chemische formules binnen een enkel, complex testdocument met bekende tekstuele en op afbeeldingen gebaseerde fouten. Verschillende promptstrategieën werden geëvalueerd: terwijl basisprompts onbetrouwbaar bleken, leek een aanpak die PWP-structuren aanpaste om de analytische mindset van de LLM rigoureus te conditioneren, de identificatie van tekstuele fouten bij beide modellen te verbeteren. Opmerkelijk was dat deze methode Gemini 2.5 Pro ook leidde tot het herhaaldelijk identificeren van een subtiele, op afbeeldingen gebaseerde formulefout die eerder tijdens handmatige controle over het hoofd was gezien, een taak waarbij ChatGPT Plus o3 in onze tests faalde. Deze voorlopige bevindingen belichten specifieke LLM-operationele modi die detailgerichte validatie belemmeren en suggereren dat PWP-geïnformeerde contextconditionering een veelbelovende en zeer toegankelijke techniek biedt voor het ontwikkelen van robuustere LLM-gedreven analytische workflows, met name voor taken die nauwgezette foutdetectie in wetenschappelijke en technische documenten vereisen. Uitgebreide validatie buiten deze beperkte PoC is noodzakelijk om de bredere toepasbaarheid vast te stellen.
Dit onderzoek verkent Large Language Models (LLMs) als autonome agents voor taken in de echte wereld, waaronder freelance softwareontwikkeling. Dit werk introduceert een nieuwe benchmark die LLMs evalueert op freelance programmeer- en data-analysetaken afgeleid van economische data. We construeren de benchmark met synthetische taken gemaakt van een Kaggle Freelancer dataset van vacatures, waarbij alle prijzen gestandaardiseerd zijn in USD (mediaan vaste projectprijs rond 250, en een gemiddelde van 306). Elke taak wordt vergezeld door gestructureerde invoer-uitvoer testgevallen en een geschat prijskaartje, wat geautomatiseerde correctheidscontrole en een monetaire prestatie-evaluatie mogelijk maakt. Deze aanpak is geïnspireerd door OpenAI's recente SWE-Lancer benchmark (1.400 echte Upwork taken ter waarde van 1 miljoen totaal). Toch vereenvoudigt ons framework de evaluatie door gebruik te maken van programmatisch testbare taken en voorspelde prijswaarden, waardoor het zeer schaalbaar en herhaalbaar is. Op deze benchmark evalueren we vier moderne LLMs - Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5, en Mistral. We rapporteren de nauwkeurigheid van elk model (taaksuccespercentage en testgeval slaagpercentage) en de totale "freelance verdiensten" die het behaalt (som van de prijzen van opgeloste taken). Onze resultaten tonen aan dat Claude 3.5 Haiku het beste presteert, met een verdienste van ongeveer 1,52 miljoen USD, op de voet gevolgd door GPT-4o-mini met 1,49 miljoen, dan Qwen 2.5 (1,33 miljoen) en Mistral (0,70 miljoen). We analyseren de verdeling van fouten per taak en observeren dat de sterkste modellen de meeste taken oplossen en zelden volledig falen bij een project. We bespreken de implicaties van deze resultaten voor de haalbaarheid van AI als freelance ontwikkelaar, de voordelen en beperkingen van onze geautomatiseerde benchmark aanpak, en de kloof tussen prestaties op gestructureerde taken versus de echte complexiteit van real-world freelance banen.
Kritische collegiale toetsing van wetenschappelijke manuscripten vormt een aanzienlijke uitdaging voor Large Language Models (LLMs), deels vanwege beperkingen in data en de complexiteit van expertredeneringen. Dit rapport introduceert Persistent Workflow Prompting (PWP), een potentieel breed toepasbare prompt engineering methodologie die is ontworpen om deze kloof te overbruggen met behulp van standaard LLM-chatinterfaces (zero-code, geen API's). We presenteren een proof-of-concept PWP-prompt voor de kritische analyse van experimentele chemiemanuscripten, met een hiërarchische, modulaire architectuur (gestructureerd via Markdown) die gedetailleerde analysewerkstromen definieert. We ontwikkelen deze PWP-prompt door iteratieve toepassing van meta-promptingtechnieken en meta-redenering, gericht op het systematisch codificeren van expertreviewwerkstromen, inclusief impliciete kennis. Eenmaal ingediend aan het begin van een sessie, voorziet deze PWP-prompt de LLM van persistente werkstromen die worden geactiveerd door vervolgvragen, waardoor moderne redenerende LLMs worden geleid door systematische, multimodale evaluaties. Demonstraties tonen aan dat de PWP-gestuurde LLM grote methodologische fouten identificeert in een testcase, terwijl LLM-invoervooroordelen worden gemitigeerd en complexe taken worden uitgevoerd, zoals het onderscheiden van claims van bewijs, het integreren van tekst/foto/figuuranalyse om parameters af te leiden, het uitvoeren van kwantitatieve haalbaarheidscontroles, het vergelijken van schattingen met claims en het beoordelen van a priori plausibiliteit. Om transparantie te waarborgen en replicatie te vergemakkelijken, bieden we volledige prompts, gedetailleerde demonstratieanalyses en logs van interactieve chats als aanvullende bronnen. Naast de specifieke toepassing biedt dit werk inzichten in het meta-ontwikkelingsproces zelf, waarbij het potentieel van PWP, geïnformeerd door gedetailleerde formalisering van werkstromen, wordt benadrukt om geavanceerde analyse mogelijk te maken met gemakkelijk beschikbare LLMs voor complexe wetenschappelijke taken.