Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel RLVR een essentieel onderdeel is geworden voor het ontwikkelen van geavanceerde redeneervaardigheden in LLM's, hebben recente studies trainingsplateaus gedocumenteerd die ontstaan na duizenden optimalisatiestappen, wat opmerkelijke afnames in prestatieverbeteringen laat zien ondanks een grotere computationele investering. Deze beperking komt voort uit de schaarse verkenningspatronen die inherent zijn aan de huidige RLVR-praktijken, waarbij modellen vertrouwen op beperkte rollouts die vaak kritieke redeneerpaden missen en geen systematische dekking van de oplossingsruimte bieden. Wij presenteren DeepSearch, een raamwerk dat Monte Carlo Tree Search direct integreert in RLVR-training. In tegenstelling tot bestaande methoden die alleen tijdens inferentie gebruikmaken van boomzoeken, integreert DeepSearch gestructureerd zoeken in de trainingslus, wat systematische exploratie en fijnmazige krediettoewijzing over redeneerstappen mogelijk maakt. Door exploratie tijdens de training adresseert DeepSearch het fundamentele knelpunt van onvoldoende exploratie, wat leidt tot afnemende prestatieverbeteringen bij langdurige trainingsstappen. Onze bijdragen omvatten: (1) een globale frontier-selectiestrategie die veelbelovende knooppunten in de zoekboom prioriteert, (2) selectie met entropie-gestuurde begeleiding die zelfverzekerde paden identificeert voor supervisie, en (3) adaptieve replay buffer-training met oplossingscaching voor efficiëntie. Experimenten op wiskundige redeneerbenchmarks tonen aan dat DeepSearch een gemiddelde nauwkeurigheid van 62,95% bereikt en een nieuwe state-of-the-art vestigt voor 1,5B redeneermodellen - met 5,7x minder GPU-uren dan uitgebreide trainingsbenaderingen. Deze resultaten benadrukken het belang van strategische exploratie boven brute-force schaling en tonen de belofte van algoritmische innovatie voor het bevorderen van RLVR-methodologieën. DeepSearch zet een nieuwe richting uit voor het schalen van redeneervaardigheden door middel van systematisch zoeken in plaats van langdurige berekeningen.
Het trainingsparadigma voor grote taalmodellen (LLMs) verschuift van statische datasets naar ervaringsgericht leren, waarbij agents vaardigheden verwerven door interactie met complexe omgevingen. Om deze overgang te vergemakkelijken introduceren we GEM (General Experience Maker), een open-source omgevingssimulator ontworpen voor het tijdperk van LLMs. Vergelijkbaar met OpenAI-Gym voor traditionele reinforcement learning (RL), biedt GEM een gestandaardiseerd raamwerk voor de omgeving-agent interface, inclusief asynchrone, vectorized uitvoering voor hoge doorvoer, en flexibele wrappers voor eenvoudige uitbreidbaarheid. GEM beschikt ook over een diverse reeks omgevingen, robuuste geïntegreerde tools, en voorbeeldscripts in één bestand die het gebruik van GEM met vijf populaire RL-trainingsframeworks demonstreren. Daarnaast bieden we een set van baseline-resultaten over 24 omgevingen met behulp van REINFORCE met Return Batch Normalization (ReBN), dat – in tegenstelling tot GRPO – compatibel is met de volledige RL-instelling van dichte beloningen per beurt en betere krediettoewijzing biedt. We voeren verder een eerlijke vergelijking uit van PPO, GRPO en REINFORCE in zowel enkele- als meervoudige beurt-instellingen met behulp van GEM om inzicht te geven in de algoritmische ontwerpen. Tot slot fungeert GEM ook als een handig evaluatie-toolkit naast een trainingsomgeving. We hopen dat dit raamwerk toekomstig onderzoek naar agentische LLMs kan versnellen.
Post-training kwantisatie is uitgegroeid tot de meest gebruikte strategie voor het implementeren van grote taalmodellen met lage precisie. Toch laten huidige methoden een verslechtering van de perplexiteit zien bij bitbreedtes van 4 of minder, deels omdat het representeren van uitschieters precisieproblemen veroorzaakt in parameters die dezelfde schalen delen als deze uitschieters. Dit probleem is vooral prominent bij kalibratievrije, uniforme kwantisatiemethoden. We introduceren SINQ om bestaande post-training kwantisatoren uit te breiden met een extra schaalfactor op de tweede as en een snel Sinkhorn-Knopp-stijl algoritme dat schalen vindt om de varianties per rij en per kolom te normaliseren, waardoor een nieuw proxy-doel voor kwantisatie wordt geminimaliseerd: de matrixonbalans. Onze methode heeft geen interacties tussen lagen en kan eenvoudig worden toegepast op nieuwe architecturen om lineaire lagen te kwantiseren. We evalueren onze methode op de Qwen3-modelfamilie en DeepSeek-V2.5. SINQ verbetert de WikiText2- en C4-perplexiteit aanzienlijk ten opzichte van ongekalibreerde uniforme kwantisatie-baselines en kan verder worden verbeterd door het te combineren met kalibratie en niet-uniforme kwantisatieniveaus. Code om de resultaten van dit werk te reproduceren en om modellen eenvoudig te kwantiseren met SINQ is beschikbaar op https://github.com/huawei-csl/SINQ.
Vision-Language-Action (VLA)-modellen maken belichaamde besluitvorming mogelijk, maar zijn sterk afhankelijk van imitatieleren, wat leidt tot cumulatieve fouten en een gebrek aan robuustheid bij distributieverschuivingen. Reinforcement learning (RL) kan deze problemen verminderen, maar vereist doorgaans kostbare interacties in de echte wereld of lijdt onder sim-to-real-kloof. Wij introduceren VLA-RFT, een reinforcement fine-tuning-framework dat gebruikmaakt van een data-gedreven wereldmodel als een controleerbare simulator. Getraind op basis van echte interactiedata, voorspelt de simulator toekomstige visuele observaties op basis van acties, waardoor policy-rollouts mogelijk worden met dichte, trajectniveau beloningen afgeleid van doelbereikingsreferenties. Dit ontwerp biedt een efficiënt en actie-afgestemd leersignaal, waardoor de benodigde steekproeven aanzienlijk worden verminderd. Met minder dan 400 fine-tuning-stappen overtreft VLA-RFT sterke supervised baselines en behaalt het een grotere efficiëntie dan simulator-gebaseerd RL. Bovendien toont het sterke robuustheid onder verstoorde omstandigheden, waarbij het een stabiele taakuitvoering behoudt. Onze resultaten vestigen wereldmodel-gebaseerde RFT als een praktisch post-trainingsparadigma om de generalisatie en robuustheid van VLA-modellen te verbeteren. Voor meer details, zie https://vla-rft.github.io/.
Grote Taalmodellen (LLM's) kunnen zichzelf verbeteren via reinforcement learning, waarbij ze trajecten genereren om te verkennen en betere oplossingen te ontdekken. Dit verkenningsproces is echter rekenkundig kostbaar, waardoor huidige methoden vaak gedwongen zijn om beperkte verkenningsbudgetten toe te wijzen aan elke taak. Deze uniforme toewijzing creëert problematische randgevallen: eenvoudige taken slagen consistent terwijl moeilijke taken consistent falen, wat beide nulgradiënten oplevert tijdens trainingsupdates voor het veelgebruikte Group Relative Policy Optimization (GRPO). Wij benaderen dit probleem vanuit het perspectief van verkenningsbudgettoewijzing. Door de verkenning van elke taak te zien als een "item" met een specifieke "waarde" en "kosten", leggen we een verband met het klassieke knapzakprobleem. Deze formulering stelt ons in staat om een optimale toewijzingsregel af te leiden die adaptief middelen verdeelt op basis van de huidige leerstatus van het model. Wanneer toegepast op GRPO, verhoogt onze methode de effectieve verhouding van niet-nulbeleidsgradiënten met 20-40% tijdens de training. Als een rekenkundige "gratis lunch" kan onze aanpak verkenningsbudgetten herverdelen van taken waar het leren verzadigd is naar taken waar het het meest impactvol is. Hierdoor kunnen aanzienlijk grotere budgetten (bijv. 93 rollouts) worden toegewezen aan bijzonder uitdagende problemen, wat rekenkundig onhaalbaar zou zijn onder een uniforme toewijzing. Deze verbeteringen vertalen zich naar betekenisvolle vooruitgang op wiskundige redeneerbenchmarks, met gemiddelde verbeteringen van 2-4 punten en piekverbeteringen van 9 punten op specifieke taken. Opmerkelijk is dat het bereiken van vergelijkbare prestaties met traditionele homogene toewijzing ongeveer 2x de rekenkundige middelen zou vereisen.
Omgevingsconfiguratie - het proces van het instellen van het systeem om te werken met een specifiek softwareproject - vormt een aanhoudende uitdaging in Software Engineering (SE). Geautomatiseerde methoden voor omgevingsconfiguratie kunnen ontwikkelaars ondersteunen door volledig geconfigureerde omgevingen te bieden voor willekeurige repositories zonder handmatige inspanning. Dit helpt ook SE-onderzoekers om op uitvoering gebaseerde benchmarks op te schalen. Recente studies tonen echter aan dat zelfs state-of-the-art Large Language Models (LLMs) beperkt succes hebben bij het automatiseren van deze taak. Om deze beperking aan te pakken, tunen we een gespecialiseerd model voor omgevingsconfiguratie. We combineren supervised fine-tuning voor het genereren van correcte Bash-scripts en Reinforcement Learning with Verifiable Rewards (RLVR) om het aan te passen aan de taak van omgevingsconfiguratie. Op EnvBench-Python stelt onze methode Qwen3-8B (een model dat op consumentenhardware kan draaien) in staat om op hetzelfde niveau te presteren als grotere modellen - Qwen3-32B en GPT-4o. De trainingscode en modelcheckpoints zijn online beschikbaar: https://github.com/JetBrains-Research/PIPer.
Hoewel recente generatieve modellen vooruitgang boeken in de synthese van video's in pixelruimte, blijven ze beperkt in het produceren van professionele educatieve video's, die disciplinaire kennis, precieze visuele structuren en samenhangende overgangen vereisen, wat hun toepasbaarheid in educatieve scenario's beperkt. Intuïtief worden dergelijke vereisten beter aangepakt door de manipulatie van een renderbare omgeving, die expliciet kan worden bestuurd via logische commando's (bijvoorbeeld code). In dit werk stellen we Code2Video voor, een code-centraal agentframework voor het genereren van educatieve video's via uitvoerbare Python-code. Het framework bestaat uit drie samenwerkende agents: (i) Planner, die lezinginhoud structureert in temporeel samenhangende stromen en de bijbehorende visuele middelen voorbereidt; (ii) Coder, die gestructureerde instructies omzet in uitvoerbare Python-codes terwijl scope-gestuurde automatische correcties worden ingebouwd om de efficiëntie te verbeteren; en (iii) Critic, die vision-language modellen (VLM) gebruikt met visuele ankerprompts om de ruimtelijke lay-out te verfijnen en duidelijkheid te waarborgen. Om systematische evaluatie te ondersteunen, bouwen we MMMC, een benchmark van professioneel geproduceerde, disciplinespecifieke educatieve video's. We evalueren MMMC over diverse dimensies, waaronder esthetische scores van VLM-as-a-Judge, code-efficiëntie, en met name TeachQuiz, een nieuwe end-to-end metriek die kwantificeert hoe goed een VLM, na het afleren, kennis kan herstellen door het bekijken van de gegenereerde video's. Onze resultaten tonen het potentieel van Code2Video aan als een schaalbare, interpreteerbare en controleerbare aanpak, met een verbetering van 40% ten opzichte van directe codegeneratie en het produceren van video's die vergelijkbaar zijn met door mensen gemaakte tutorials. De code en datasets zijn beschikbaar op https://github.com/showlab/Code2Video.
Group Relative Policy Optimization (GRPO) is een prominent reinforcement learning-algoritme voor het na-trainen van Large Language Models (LLM's). Het is algemeen aangenomen dat GRPO een grote groepsgrootte vereist om stabiele training te garanderen via nauwkeurige statistische schatting, wat aanzienlijke rekenkosten met zich meebrengt. In dit werk dagen we deze aanname uit door GRPO te herformuleren als een vorm van contrastief leren, wat een fundamentele verbinding met Direct Preference Optimization (DPO) onthult. Gemotiveerd door het empirische succes van DPO, onderzoeken we het minimale geval van twee rollouts (2-GRPO), een configuratie die voorheen als onhaalbaar werd beschouwd. We bieden een rigoureuze theoretische analyse om 2-GRPO te valideren en tonen empirisch aan dat het prestaties bereikt die vergelijkbaar zijn met 16-GRPO, ondanks het gebruik van slechts 1/8 van de rollouts en een vermindering van de trainingsduur met meer dan 70%.
Grote taalmmodellen (LLMs) worden steeds vaker ingezet als agenten in dynamische, real-world omgevingen, waar succes zowel redeneren als effectief gebruik van tools vereist. Een centrale uitdaging voor agentische taken is de groeiende contextlengte, aangezien agenten lange geschiedenissen van acties en observaties moeten accumuleren. Deze uitbreiding verhoogt de kosten en vermindert de efficiëntie bij taken met een lange horizon, terwijl eerder werk over contextcompressie zich vooral richtte op taken met één stap of beperkte toepassingen. Wij introduceren Agent Context Optimization (ACON), een uniform raamwerk dat zowel omgevingsobservaties als interactiegeschiedenissen optimaal comprimeert tot beknopte maar informatieve samenvattingen. ACON maakt gebruik van optimalisatie van compressierichtlijnen in de natuurlijke taalruimte: gegeven gepaarde trajecten waarbij volledige context slaagt maar gecomprimeerde context faalt, analyseren capabele LLMs de oorzaken van het falen, en wordt de compressierichtlijn dienovereenkomstig bijgewerkt. Bovendien stellen we voor om de geoptimaliseerde LLM-compressor te destilleren in kleinere modellen om de overhead van de aanvullende module te verminderen. Experimenten op AppWorld, OfficeBench en Multi-objective QA tonen aan dat ACON het geheugengebruik met 26-54% (piektokens) vermindert terwijl de taakprestaties grotendeels behouden blijven, meer dan 95% van de nauwkeurigheid behoudt wanneer het wordt gedestilleerd in kleinere compressors, en kleinere LM's versterkt als agenten met een lange horizon met een prestatieverbetering tot 46%.
Onlangs hebben we grote vooruitgang gezien in beeldbewerking met natuurlijke taal instructies. Verschillende closed-source modellen zoals GPT-Image-1, Seedream en Google-Nano-Banana hebben veelbelovende resultaten laten zien. De open-source modellen lopen echter nog achter. Het belangrijkste knelpunt is het ontbreken van een betrouwbaar beloningsmodel om hoogwaardige synthetische trainingsdata op te schalen. Om dit kritieke knelpunt aan te pakken, hebben we \mname ontwikkeld, getraind met onze nieuwe grootschalige dataset van menselijke voorkeuren, zorgvuldig geannoteerd door getrainde experts volgens een rigoureus protocol met meer dan 200K voorkeursparen. \mname toont een superieure afstemming met menselijke voorkeuren in taken voor beeldbewerking op basis van instructies. Experimenten tonen aan dat \mname state-of-the-art correlatie met menselijke beoordelingen bereikt op gevestigde benchmarks zoals GenAI-Bench, AURORA-Bench, ImagenHub en onze nieuwe \benchname, en daarbij een breed scala aan VLM-as-judge modellen overtreft. Bovendien gebruiken we \mname om een hoogwaardige subset te selecteren uit de bestaande, lawaaierige ShareGPT-4o-Image dataset. We trainen Step1X-Edit op de geselecteerde subset, wat een significante verbetering laat zien ten opzichte van training op de volledige dataset. Dit toont de mogelijkheid van \mname aan om te dienen als een beloningsmodel voor het opschalen van hoogwaardige trainingsdata voor beeldbewerking. Daarnaast suggereert de sterke afstemming het potentieel voor geavanceerde toepassingen zoals reinforcement learning-gebaseerde post-training en test-time scaling van beeldbewerkingsmodellen. \mname en de bijbehorende trainingsdataset zullen worden vrijgegeven om de gemeenschap te helpen meer hoogwaardige trainingsdatasets voor beeldbewerking te bouwen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een cruciaal element voor het ontgrendelen van complexe redeneervaardigheden in grote taalmodelen. Recent werk, ProRL, heeft belofte getoond in het opschalen van RL door het aantal trainingsstappen te verhogen. Echter, de prestaties bereiken een plateau na duizenden stappen, met duidelijk afnemende rendementen door meer rekenkracht toe te wijzen aan extra training. In dit werk onderzoeken we een complementair paradigma voor het opschalen van RL, BroRL, door het aantal rollouts per voorbeeld te verhogen tot honderden om uitgebreid te exploreren, wat continue prestatieverbeteringen oplevert voorbij het verzadigingspunt dat wordt waargenomen in ProRL bij het opschalen van het aantal trainingsstappen. Onze aanpak is gemotiveerd door een analyse van een massabalansvergelijking, waardoor we de veranderingssnelheid van de waarschijnlijkheidsmassa voor correcte en incorrecte tokens tijdens het reinforcementproces kunnen karakteriseren. We laten zien dat onder een aanname van één-stap RL, gesample rollout tokens altijd bijdragen aan de uitbreiding van correcte massa, terwijl niet-gesample tokens buiten rollouts kunnen leiden tot winst of verlies, afhankelijk van hun verdeling en de netto beloningsbalans. Belangrijk is dat naarmate het aantal rollouts per voorbeeld N toeneemt, het effect van niet-gesample termen afneemt, wat een algehele uitbreiding van de correcte massa garandeert. Om onze theoretische analyse te valideren, voeren we simulaties uit onder meer ontspannen voorwaarden en vinden we dat een voldoende grote rolloutgrootte N – wat overeenkomt met uitgebreide exploratie – een toename in de waarschijnlijkheidsmassa van alle correcte tokens garandeert. Empirisch gezien brengt BroRL modellen die verzadigd zijn na 3K ProRL-trainingsstappen weer tot leven en toont het robuuste, continue verbeteringen, wat resulteert in state-of-the-art resultaten voor het 1.5B-model op diverse benchmarks.
Grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in complexe redeneertaken wanneer ze zijn uitgerust met externe tools. Huidige frameworks vertrouwen echter voornamelijk op sequentiële verwerking, wat leidt tot inefficiënte uitvoering, vooral voor taken die uitgebreide toolinteractie vereisen. Dit artikel introduceert Flash-Searcher, een nieuw parallel agent-reasoning framework dat het uitvoeringsparadigma fundamenteel herdenkt van sequentiële ketens naar gerichte acyclische grafieken (DAGs). Flash-Searcher deconstrueert complexe taken in subtaken met expliciete afhankelijkheden, waardoor gelijktijdige uitvoering van onafhankelijke redeneerpaden mogelijk is, terwijl logische beperkingen worden gehandhaafd. Door dynamische workflowoptimalisatie verfijnt ons framework continu de uitvoeringsgrafiek op basis van tussentijdse resultaten en integreert het effectief een samenvattingsmodule. Uitgebreide evaluaties over meerdere benchmarks tonen aan dat Flash-Searcher consistent beter presteert dan bestaande benaderingen. Specifiek behaalt het een nauwkeurigheid van 67,7% op BrowseComp en 83% op xbench-DeepSearch, terwijl het het aantal agent-uitvoeringsstappen met tot wel 35% vermindert in vergelijking met huidige frameworks. Bovendien, wanneer we deze parallelle redeneerpijplijn destilleren in enkele modellen, observeren we aanzienlijke prestatieverbeteringen over diverse backbone-architecturen, wat de generaliseerbaarheid van onze methodologie onderstreept. Ons werk vertegenwoordigt dus een significante vooruitgang in het ontwerp van agent-architectuur, en biedt een schaalbaarder en efficiënter paradigma voor complexe redeneertaken.
Taalmodellen worden steeds capabeler, maar falen nog steeds bij een ogenschijnlijk eenvoudige taak als het vermenigvuldigen van meerdere cijfers. In dit werk onderzoeken we waarom, door een model dat succesvol vermenigvuldigen leert via impliciete gedachtegangen te reverse-engineeren, en rapporteren we drie bevindingen: (1) Bewijs van langeafstandsstructuur: Logit-attributies en lineaire probes geven aan dat het model de benodigde langeafstandsafhankelijkheden voor het vermenigvuldigen van meerdere cijfers codeert. (2) Mechanisme: het model codeert langeafstandsafhankelijkheden door middel van aandacht om een gerichte acyclische graaf te construeren om paarswijze deelproducten te "cachen" en "op te halen". (3) Geometrie: het model implementeert deelproducten in aandachtkoppen door Minkowski-sommen te vormen tussen paren cijfers, en cijfers worden gerepresenteerd met behulp van een Fourier-basis, beide intuïtieve en efficiënte representaties die het standaard fine-tuning model mist. Met deze inzichten herzien we de leer dynamiek van standaard fine-tuning en ontdekken we dat het model convergeert naar een lokaal optimum dat de benodigde langeafstandsafhankelijkheden mist. We valideren dit begrip verder door een hulploss in te voeren die de "lopende som" voorspelt via een lineaire regressie-probe, wat een inductieve bias biedt die het model in staat stelt om succesvol het vermenigvuldigen van meerdere cijfers te leren. Samengevat, door de mechanismen van een impliciet gedachtegangenmodel te reverse-engineeren, ontdekken we een valkuil voor het leren van langeafstandsafhankelijkheden in Transformers en bieden we een voorbeeld van hoe de juiste inductieve bias dit probleem kan oplossen.
Bestaande onderzoeken naar methoden voor het verminderen van bias in grote taalmodellen (LLMs) gebruiken diverse basislijnen en metrieken om de prestaties van debiasing te evalueren, wat leidt tot inconsistente vergelijkingen tussen deze methoden. Bovendien zijn hun evaluaties voornamelijk gebaseerd op de vergelijking tussen de waarschijnlijkheden van bevooroordeelde en onbevooroordeelde contexten in LLMs, wat de kloof negeert tussen dergelijke evaluaties en real-world gebruiksscenario's waarin gebruikers interacteren met LLMs door modelresponsen te lezen en eerlijke en veilige uitvoer verwachten in plaats van de waarschijnlijkheden van LLMs. Om consistente evaluatie over debiasingmethoden mogelijk te maken en deze kloof te overbruggen, introduceren we BiasFreeBench, een empirische benchmark die acht mainstream bias-mitigatietechnieken (waaronder vier prompt-gebaseerde en vier training-gebaseerde methoden) uitgebreid vergelijkt in twee testsituaties (meerkeuzevragen en open-eindige multi-turn vragen) door bestaande datasets te herstructureren in een uniforme query-responsopzet. We introduceren verder een responsniveau-meting, de Bias-Free Score, om te meten in hoeverre LLM-responsen eerlijk, veilig en anti-stereotypisch zijn. Debiasingprestaties worden systematisch vergeleken en geanalyseerd over belangrijke dimensies: het prompten versus het trainen van paradigma's, modelgrootte, en de generalisatie van verschillende trainingsstrategieën naar onbekende biassoorten. We zullen onze benchmark openbaar beschikbaar maken, met als doel een uniforme testomgeving te creëren voor onderzoek naar bias-mitigatie.
Het ontwerpen en optimaliseren van taakspecifieke quantumberekeningen is cruciaal om het voordeel van quantumcomputing te benutten. Recentelijk is het genereren van quantumcircuits op basis van grote taalmodelen (LLM) naar voren gekomen als een veelbelovende automatische oplossing. De fundamentele uitdagingen blijven echter onopgelost: (i) geparametriseerde quantumpoorten vereisen precieze numerieke waarden voor optimale prestaties, die ook afhankelijk zijn van meerdere aspecten, waaronder het aantal quantumpoorten, hun parameters en de opbouw/diepte van de circuits. (ii) LLM's genereren vaak quantumcircuits van lage kwaliteit of incorrecte quantumcircuits vanwege het ontbreken van domeinspecifieke kennis over quantumcomputing. Wij stellen QUASAR voor, een agent-gebaseerd reinforcement learning (RL) raamwerk voor het genereren en optimaliseren van quantumcircuits op basis van tool-augmented LLM's. Om het LLM af te stemmen op quantum-specifieke kennis en de gegenereerde quantumcircuits te verbeteren, ontwerpt QUASAR (i) een benadering voor het verifiëren van quantumcircuits met externe quantum simulatoren en (ii) een geavanceerd hiërarchisch beloningsmechanisme in RL-training. Uitgebreide evaluatie toont verbeteringen in zowel de syntactische als semantische prestaties van de gegenereerde quantumcircuits. Bij het augmenteren van een 4B LLM heeft QUASAR een geldigheid bereikt van 99,31% in Pass@1 en 100% in Pass@10, wat beter presteert dan industriële LLM's zoals GPT-4o, GPT-5 en DeepSeek-V3 en verschillende supervised-fine-tuning (SFT)-only en RL-only baseline-modellen.
Het verkrijgen van hoogwaardige generaties in moderne LLM's is grotendeels benaderd als een selectieprobleem: het identificeren van één winnende generatie uit een diverse pool van N steekproeven, de Best-of-N (BoN). Deze aanpak is echter inherent zero-sum, waarbij diverse en potentieel nuttige informatie uit de pool wordt weggegooid. In plaats daarvan verkennen we een collaboratieve opzet, waarbij alle kandidaten potentieel kunnen bijdragen aan de uiteindelijke winnende generatie. Hiertoe stellen we Fusion-of-N (FusioN) voor: een methode die een algemene LLM-rechter gebruikt om de meest informatieve elementen van elke steekproef te synthetiseren tot één definitief antwoord. We vergelijken FusioN met BoN in twee settings: (i) test-time scaling, waarbij we steekproeven nemen en aggregeren van één model tijdens test-time, en (ii) synthetische datageneratie, waarbij we steekproeven uit een pool van diverse leraren samenvoegen om een studentmodel te verbeteren. We benchmarken beide opzetten uitgebreid over 11 talen, 3 diverse taken en variërende modelschalen. Over de hele linie presteert FusioN consistent beter dan BoN, wat wijst op veelzijdigheid en robuustheid zowel in test-time scaling als in downstream winsten door synthetische datageneratie. We voeren ook uitgebreide analyses uit op FusioN, waar het verrassende sterke punten en robuustheid toont onder uitdagende omstandigheden. Deze resultaten laten zien dat we onze manier van denken over het evalueren en benutten van LLM-generaties moeten verschuiven van een monolitische maatstaf van kwaliteit naar het omarmen van hun polylithische aard. Deze verschuiving stelt ons in staat om diverse sterke punten te integreren, latent potentieel te ontsluiten en verbeteringen te bereiken die voorheen niet toegankelijk waren door alleen selectie.
Recente vooruitgang in de redeneervaardigheden van grote taalmodellen (LLMs) wordt grotendeels aangedreven door reinforcement learning (RL), maar de onderliggende parameterdynamiek tijdens RL-training blijft slecht begrepen. Dit werk identificeert twee fundamentele eigenschappen van RL-geïnduceerde parameterupdates in LLMs: (1) Rang-1 Dominantie, waarbij de top singuliere deelruimte van de parameterupdate-matrix bijna volledig de verbeteringen in redenering bepaalt, wat meer dan 99% van de prestatieverbeteringen verklaart; en (2) Rang-1 Lineaire Dynamiek, waarbij deze dominante deelruimte lineair evolueert gedurende de training, wat nauwkeurige voorspellingen vanaf vroege checkpoints mogelijk maakt. Uitgebreide experimenten met 8 LLMs en 7 algoritmen valideren de generaliseerbaarheid van deze eigenschappen. Belangrijker nog, op basis van deze bevindingen stellen we AlphaRL voor, een plug-in versnellingsframework dat de uiteindelijke parameterupdate extrapoleert met behulp van een kort vroeg trainingsvenster, wat een versnelling tot 2,5 keer oplevert terwijl meer dan 96% van de redeneerprestaties behouden blijft, zonder extra modules of hyperparameterafstemming. Dit positioneert onze bevinding als een veelzijdig en praktisch hulpmiddel voor grootschalige RL, en opent een pad naar een principieel, interpreteerbaar en efficiënt trainingsparadigma voor LLMs.
Supervised fine-tuning (SFT) is de standaardaanpak voor het na-trainen van grote taalmodelen (LLMs), maar toont vaak beperkte generalisatie. Wij herleiden deze beperking tot het standaard trainingsdoel: negatieve log likelihood (NLL). Hoewel NLL klassiek optimaal is bij trainen vanaf nul, werkt na-trainen in een ander paradigma en kan het de optimaliteitsaannames schenden, waarbij modellen al taakrelevante prioriteiten coderen en de supervisie lang en ruisachtig kan zijn. Daarom bestuderen we een algemene familie van op waarschijnlijkheid gebaseerde doelen en karakteriseren we hun effectiviteit onder verschillende omstandigheden. Door middel van uitgebreide experimenten en uitgebreide ablatiestudies over 7 modelbackbones, 14 benchmarks en 3 domeinen, ontdekken we een kritieke dimensie die het gedrag van doelen bepaalt: het model-capaciteitcontinuüm. Aan het model-sterke uiteinde overtreffen prior-leaning doelen die tokens met een lage waarschijnlijkheid minder zwaar wegen (bijv. -p, -p^{10}, drempelvarianten) consistent NLL; aan het model-zwakke uiteinde domineert NLL; daartussenin prevaleert geen enkel doel. Onze theoretische analyse verduidelijkt verder hoe doelen van plaats wisselen over het continuüm, en biedt een principiële basis voor het aanpassen van doelen aan modelcapaciteit. Onze code is beschikbaar op https://github.com/GaotangLi/Beyond-Log-Likelihood.
We presenteren MixtureVitae, een open-access pretrainingscorpus dat is ontwikkeld om juridische risico's te minimaliseren terwijl het sterke modelprestaties biedt. MixtureVitae volgt een risicogemodereerde bronstrategie die tekst uit het publieke domein en permissief gelicentieerde tekst (bijv. CC-BY/Apache) combineert met zorgvuldig gerechtvaardigde toevoegingen met een laag risico (bijv. overheidsdocumenten en EU TDM-in aanmerking komende bronnen), naast gerichte instructie, redenering en synthetische data met gedocumenteerde herkomst. We beschrijven een transparante, meerfasige pijplijn voor licentiebewuste filtering, veiligheids- en kwaliteitscontrole, en domeinbewuste mixen, en we publiceren de dataset en curatierecepten om reproduceerbaar onderzoek te ondersteunen. In gecontroleerde experimenten met het open-sci-ref trainingsprotocol (vaste architecturen met 130M/400M/1.3B/1.7B parameters; trainingsbudgetten van 50B en 300B tokens), presteren modellen getraind op MixtureVitae consistent beter dan andere permissieve datasets op een reeks standaardbenchmarks, en bij de 1.7B/300B instelling overtreffen ze FineWeb-Edu en benaderen ze DCLM in de latere fasen van de training. De prestaties zijn vooral sterk op wiskunde/code en competitief op QA-taken. Deze resultaten tonen aan dat permissief-eerst, risicogemodereerde data een praktische en juridisch gemodereerde basis biedt voor het trainen van capabele LLM's, waardoor de afhankelijkheid van ongerichte webscraping wordt verminderd zonder in te leveren op competitiviteit. Code: https://github.com/ontocord/mixturevitae
Grafische gebruikersinterface (GUI) agents gebouwd op visie-taalmodellen zijn naar voren gekomen als een veelbelovende aanpak om mens-computer workflows te automatiseren. Ze worden echter ook geconfronteerd met het inefficiëntieprobleem, omdat ze lange sequenties van hoogresolutie schermafbeeldingen verwerken en taken met een lange horizon oplossen, wat de inferentie traag, kostbaar en geheugenintensief maakt. Hoewel key-value (KV) caching dit kan verzachten, is het opslaan van de volledige cache onhaalbaar voor beeldrijke contexten. Bestaande cachecompressiemethoden zijn suboptimaal omdat ze geen rekening houden met de ruimtelijke en temporele redundantie van GUI's. In dit werk analyseren we eerst aandachtspatronen in GUI-agentworkloads en ontdekken dat, in tegenstelling tot natuurlijke afbeeldingen, de aandachtssparsheid uniform hoog is over alle transformerlagen. Dit inzicht motiveert een eenvoudige uniforme budgettoewijzingsstrategie, die empirisch beter presteert dan complexere laagvariërende schema's. Hierop voortbouwend introduceren we GUI-KV, een plug-and-play KV-cachecompressiemethode voor GUI-agents die geen hertraining vereist. GUI-KV combineert twee nieuwe technieken: (i) ruimtelijke saliëntiebegeleiding, die aandachtsscores aanvult met de L2-norm van verborgen toestanden om visuele tokens met semantisch belang beter te behouden, en (ii) temporele redundantiescoring, die sleutels van vorige frames projecteert op de sleutelsubruimte van het huidige frame om redundante geschiedenis selectief te verwijderen. Over standaard GUI-agentbenchmarks en modellen presteert GUI-KV beter dan competitieve KV-compressiebaselines en benadert het nauwkeurig de nauwkeurigheid van de volledige cache bij bescheiden budgetten. Opmerkelijk is dat in een instelling met 5 schermafbeeldingen op de AgentNetBench-benchmark GUI-KV de decodeer-FLOPs met 38,9% vermindert terwijl de stapnauwkeurigheid met 4,1% toeneemt ten opzichte van de volledige cachebaseline. Deze resultaten tonen aan dat het benutten van GUI-specifieke redundanties efficiënte en betrouwbare agentprestaties mogelijk maakt.
Process Reward Models (PRMs) bieden stap-voor-stap supervisie die de betrouwbaarheid van redeneren in grote taalmodellen verbetert. Hoewel PRMs uitgebreid zijn bestudeerd in tekstgebaseerde domeinen, blijft hun uitbreiding naar Vision Language Models (VLMs) beperkt. Bestaande Vision-Language PRMs (VL-PRMs) vertrouwen op Monte Carlo Tree Search (MCTS) voor dataconstructie, wat vaak ruisachtige supervisiesignalen kan produceren en de generalisatie over taken kan beperken. In dit werk streven we ernaar om de ontwerpruimte van VL-PRMs te verhelderen door diverse strategieën voor datasetconstructie, training en schaling tijdens de testfase te onderzoeken. Ten eerste introduceren we een hybride data-syntheseframework dat MCTS combineert met beoordelingen van een sterk VLM, waardoor nauwkeurigere stap-voor-stap labels worden geproduceerd. Ten tweede stellen we perceptiegerichte supervisie voor, waardoor onze PRM expliciet fouten kan detecteren in de visuele verankeringsfase van het redeneren. Ten derde evalueren we systematisch meerdere schaalstrategieën tijdens de testfase, waarbij we aantonen dat onze PRMs VLMs betrouwbaar kunnen begeleiden naar nauwkeurigere oplossingen. Onze experimenten, die vijf diverse multimodale benchmarks omvatten (MMMU, PuzzleVQA, AlgoPuzzleVQA, MathVista en MathVision), onthullen verschillende belangrijke inzichten: (i) VL-PRMs kunnen, wanneer ze worden gebruikt als Outcome Reward Models (ORMs) tijdens schaling in de testfase (TTS), VL-PRM-geleide processtapselectie overtreffen, (ii) kleinere VL-PRMs kunnen grotere evenaren of zelfs overtreffen in het detecteren van procesfouten, (iii) VL-PRMs onthullen latente redeneervaardigheden in sterkere VLM-backbones, (iv) perceptieniveau-supervisie leidt tot significante verbeteringen in schaling tijdens de testfase, en (v) de TTS-prestaties van verschillende beleidslijnen verbeteren op geavanceerde wiskundige redeneerdatasets, ondanks dat VL-PRMs niet op dergelijke datasets zijn getraind. We hopen dat ons werk verder onderzoek zal stimuleren en de vooruitgang van VLMs zal ondersteunen.
LLM's kunnen hun parametrische kennisgrenzen niet betrouwbaar herkennen en verzinnen vaak antwoorden op vragen die buiten deze grenzen vallen. Daarentegen herkennen mensen hun beperkingen en kunnen ze voor dergelijke vragen externe hulp zoeken of zich onthouden van een antwoord. In dit artikel introduceren we MASH (Modeling Abstention via Selective Help-seeking), een trainingsframework dat gemakkelijk onthoudingen uit LLM's kan extraheren. Onze kernidee is dat elke externe hulpzoekactie door een LLM, zoals het gebruik van een zoektool, kan dienen als een proxy voor onthouding, mits de externe hulp (zoekactie) op de juiste manier wordt bestraft terwijl de nauwkeurigheid van het antwoord tegelijkertijd wordt beloond. MASH operationaliseert dit idee door middel van reinforcement learning met een pay-per-search beloning. We voeren experimenten uit op drie kennisintensieve QA-datasets. Onze resultaten laten zien dat MASH aanzienlijk verbetert op het gebied van selectief hulpzoeken in vergelijking met eerdere efficiënte zoekbenaderingen; op multi-hop datasets verbetert MASH de antwoordnauwkeurigheid met 7,6%. Bovendien toont MASH sterke out-of-the-box onthouding – het kan onderscheid maken tussen onbeantwoordbare en beantwoordbare vragen en selectief antwoorden genereren voor beantwoordbare vragen – wat gedrag vertoont dat analoog is aan gespecialiseerde onthoudingsbenaderingen. We benadrukken dat, in tegenstelling tot eerdere onthoudingsmethoden, MASH niet vereist dat kennisgrenzen vooraf worden bepaald om trainingsdata te construeren. In plaats daarvan zijn de onthoudingen van MASH een bijproduct van het trainen voor de aanvullende taak van selectief hulpzoeken. Over het algemeen laten we zien dat MASH-training het gebruik van zoektools effectief afstemt op parametrische kennis, wat succesvol kan worden benut voor het nemen van onthoudingsbeslissingen.
Theory of Mind (ToM) – het begrijpen van de mentale toestanden van anderen – is een belangrijk aspect van menselijke sociale intelligentie, maar chatbots en sociale agents gebaseerd op grote taalmodelen (LLM’s) integreren dit doorgaans niet. In dit werk tonen we aan dat LLM’s die ToM expliciet gebruiken beter worden in dialoog en doelen effectiever bereiken. Nadat we aantonen dat het simpelweg aanmoedigen van modellen om mentale toestanden te genereren tussen dialoogwisselingen al aanzienlijke voordelen biedt, introduceren we verder ToMAgent (ToMA), een dialoogagent die gericht is op ToM. ToMA wordt getraind door ToM te combineren met dialoogvooruitblik om mentale toestanden te produceren die maximaal nuttig zijn voor het bereiken van dialoogdoelen. Experimenten op de Sotopia interactieve sociale evaluatiebenchmark demonstreren de effectiviteit van onze methode ten opzichte van een reeks baselines. Uitgebreide analyse laat zien dat ToMA meer strategisch, doelgericht redeneergedrag vertoont, wat langetermijnaanpassing mogelijk maakt, terwijl het betere relaties onderhoudt met zijn partners. Onze resultaten suggereren een stap voorwaarts in het integreren van ToM voor het bouwen van sociaal intelligente LLM-agents.
De Diffusion Transformer heeft opmerkelijke vaardigheden getoond in het genereren van hoogwaardige video's, waarbij visueel samenhangende frames en rijke details over langere tijdsperioden worden geleverd. Bestaande videogeneratiemodellen schieten echter nog tekort in het genereren van onderwerp-consistente video's vanwege een inherente moeilijkheid in het interpreteren van prompts die complexe ruimtelijke relaties, temporele logica en interacties tussen meerdere onderwerpen specificeren. Om dit probleem aan te pakken, stellen we BindWeave voor, een uniform raamwerk dat een breed scala aan onderwerp-naar-video-scenario's afhandelt, van gevallen met één onderwerp tot complexe scènes met meerdere onderwerpen en heterogene entiteiten. Om complexe promptsemantiek te koppelen aan concrete visuele onderwerpen, introduceren we een MLLM-DiT-raamwerk waarin een vooraf getraind multimodaal groot taalmodel diepe cross-modale redenering uitvoert om entiteiten te verankeren en rollen, attributen en interacties te ontwarren, wat resulteert in onderwerp-bewuste verborgen toestanden die de diffusion transformer conditioneren voor hoogwaardige, onderwerp-consistente videogeneratie. Experimenten op de OpenS2V-benchmark tonen aan dat onze methode superieure prestaties bereikt op het gebied van onderwerpconsistentie, natuurlijkheid en tekstrelevantie in gegenereerde video's, en daarbij bestaande open-source en commerciële modellen overtreft.
We bestuderen geheime kennisontsluiting: het ontdekken van kennis die een AI bezit maar niet expliciet verwoordt. Als testomgeving trainen we drie families van grote taalmodelen (LLMs) om specifieke kennis te bezitten die ze downstream toepassen, maar ontkennen wanneer er direct naar gevraagd wordt. In één scenario trainen we bijvoorbeeld een LLM om antwoorden te genereren die consistent zijn met de kennis dat de gebruiker vrouwelijk is, terwijl het deze kennis ontkent bij directe vragen. Vervolgens ontwerpen we verschillende black-box en white-box technieken voor geheime kennisontsluiting en evalueren we deze op basis van hun vermogen om een LLM-auditor te helpen de geheime kennis correct te raden. Veel van onze technieken presteren beter dan eenvoudige baselines. Onze meest effectieve technieken (die in 2/3 scenario’s het beste presteren) zijn gebaseerd op prefill-aanvallen, een black-box techniek waarbij de LLM geheime kennis onthult bij het genereren van een voltooiing vanuit een vooraf gedefinieerd prefix. In ons overige scenario zijn white-box technieken gebaseerd op logit lens en sparse autoencoders (SAEs) het meest effectief. We maken onze modellen en code openbaar, waarmee we een publieke benchmark creëren voor het evalueren van methoden voor geheime kennisontsluiting.
Wij stellen ImitSAT voor, een vertakkingsbeleid voor conflict-gestuurde clausulelerende (CDCL) oplossers, gebaseerd op imitatieleren voor het Booleaanse vervulbaarheidsprobleem (SAT). In tegenstelling tot eerdere methoden die instantieniveau-signalen voorspellen om CDCL-vertakking indirect te verbeteren, of die vertrouwen op reinforcement learning en onvoldoende CDCL-informatie om vertakking te verbeteren, leert ImitSAT van expert KeyTrace dat een volledige uitvoering samenvat in de reeks overlevende beslissingen. Het herspelen van een KeyTrace op hetzelfde instantie is bijna conflictvrij, wat dichte beslissingsniveau-supervisie biedt en propagaties direct vermindert -- de dominante factor in de werkelijke rekentijd. Deze voorvoegsel-geconditioneerde supervisie stelt ImitSAT in staat om hoogwaardige vertakkingen te reproduceren zonder exploratie, wat resulteert in snellere convergentie, stabiele training en naadloze integratie in CDCL. Uitgebreide experimenten tonen aan dat ImitSAT het aantal propagaties en de rekentijd vermindert, en daarbij state-of-the-art geleerde benaderingen overtreft. Wij hebben de broncode en het getrainde model vrijgegeven op https://github.com/zewei-Zhang/ImitSAT.
Grote Taalmodellen worden steeds vaker ingezet als autonome agents voor complexe taken in de echte wereld, maar bestaande systemen richten zich vaak op geïsoleerde verbeteringen zonder een overkoepelend ontwerp voor robuustheid en aanpasbaarheid. Wij stellen een generalistische agentarchitectuur voor die drie kerncomponenten integreert: een collectief multi-agent raamwerk dat plannings- en uitvoeringsagents combineert met stemmen van criticusmodellen, een hiërarchisch geheugensysteem dat werk-, semantische en procedurele lagen omvat, en een verfijnde gereedschapsset voor zoeken, code-uitvoering en multimodale parsing. Geëvalueerd op een uitgebreide benchmark, presteert ons raamwerk consistent beter dan open-source basislijnen en benadert het de prestaties van propriëtaire systemen. Deze resultaten tonen het belang aan van systeemniveau-integratie en belichten een pad naar schaalbare, veerkrachtige en aanpasbare AI-assistenten die in staat zijn om te opereren in diverse domeinen en taken.
AI-agents gebaseerd op foundation models (FM) worden snel geadopteerd in diverse domeinen, maar hun inherente non-determinisme en niet-reproduceerbaarheid brengen uitdagingen met zich mee voor testen en kwaliteitsborging. Hoewel recente benchmarks taakniveau-evaluaties bieden, is er beperkt inzicht in hoe ontwikkelaars de interne correctheid van deze agents verifiëren tijdens de ontwikkeling. Om deze kloof te dichten, voeren we de eerste grootschalige empirische studie uit naar testpraktijken in het ecosysteem van AI-agents, waarbij we 39 open-source agentframeworks en 439 agentische applicaties analyseren. We identificeren tien verschillende testpatronen en constateren dat nieuwe, agent-specifieke methoden zoals DeepEval zelden worden gebruikt (ongeveer 1%), terwijl traditionele patronen zoals negatieve en lidmaatschaptesten breed worden aangepast om FM-onzekerheid te beheersen. Door deze patronen te koppelen aan canonieke architectuurcomponenten van agentframeworks en agentische applicaties, ontdekken we een fundamentele omkering van testinspanning: deterministische componenten zoals Resource Artifacts (tools) en Coordination Artifacts (workflows) nemen meer dan 70% van de testinspanning in beslag, terwijl het FM-gebaseerde Plan Body minder dan 5% krijgt. Cruciaal is dat dit een kritieke blinde vlek blootlegt, aangezien de Trigger-component (prompts) verwaarloosd blijft en in ongeveer 1% van alle tests voorkomt. Onze bevindingen bieden de eerste empirische testbasislijn in FM-gebaseerde agentframeworks en agentische applicaties, wat een rationele maar onvolledige aanpassing aan non-determinisme onthult. Om dit aan te pakken, moeten frameworkontwikkelaars de ondersteuning voor nieuwe testmethoden verbeteren, moeten applicatieontwikkelaars prompt-regressietesten omarmen, en moeten onderzoekers barrières voor adoptie verkennen. Het versterken van deze praktijken is essentieel voor het bouwen van robuustere en betrouwbaardere AI-agents.
Vision-Language Models (VLMs) blinken uit in het begrijpen van scènes op hoog niveau, maar falen bij fijnmazige perceptietaken die precieze lokalisatie vereisen. Dit falen komt voort uit een fundamentele mismatch, aangezien het genereren van exacte numerieke coördinaten een uitdagende taak is voor taalgerichte architecturen. In dit artikel introduceren we VLM-FO1, een nieuw framework dat deze beperking overwint door objectgerichte perceptie te herformuleren van een broos coördinatengeneratieprobleem naar een robuuste feature retrieval-taak. Onze methode functioneert als een plug-and-play module die integreert met elke vooraf getrainde VLM. Het maakt gebruik van een Hybrid Fine-grained Region Encoder (HFRE), met een dubbele visuele encoder, om krachtige regiotokens te genereren die rijk zijn aan zowel semantische als ruimtelijke details. Een token-gebaseerd referentiesysteem stelt de LLM vervolgens in staat om naadloos te redeneren over en taal te verankeren in deze specifieke visuele regio's. Experimenten tonen aan dat VLM-FO1 state-of-the-art prestaties behaalt op een diverse reeks benchmarks, waarbij het uitzonderlijke capaciteiten demonstreert in objectverankering, regionaal generatief begrip en visueel regionaal redeneren. Cruciaal is dat onze tweefasige trainingsstrategie ervoor zorgt dat deze perceptiewinsten worden behaald zonder de algemene visuele begripscapaciteiten van het basismodel aan te tasten. VLM-FO1 vestigt een effectief en flexibel paradigma voor het bouwen van perceptiebewuste VLMs, waardoor de kloof tussen hoogwaardig redeneren en fijnmazige visuele verankering wordt overbrugd.
De opkomst van Large Language Models (LLMs) is multimodale modellen aan het hervormen, waarbij spraaksynthese een prominente toepassing is. Bestaande benaderingen maken echter vaak onvoldoende gebruik van de linguïstische intelligentie van deze modellen, waarbij hun krachtige instructievolgcapaciteiten meestal niet worden benut. Deze beperking belemmert het vermogen van het model om tekstinstructies te volgen voor beheerbare Text-to-Speech (TTS). Om dit aan te pakken, stellen we een nieuw paradigma voor, geïnspireerd door "operationisme", dat het begrijpen van instructies loskoppelt van spraakgeneratie. We introduceren BatonVoice, een framework waarin een LLM fungeert als een "dirigent" die gebruikersinstructies begrijpt en een tekstueel "plan" genereert — expliciete vocale kenmerken (bijv. toonhoogte, energie). Een apart TTS-model, het "orkest", genereert vervolgens de spraak vanuit deze kenmerken. Om deze component te realiseren, ontwikkelen we BatonTTS, een TTS-model dat specifiek voor deze taak is getraind. Onze experimenten tonen aan dat BatonVoice sterke prestaties levert in beheerbare en emotionele spraaksynthese, en daarbij sterke open-source en closed-source baseline-modellen overtreft. Opmerkelijk is dat onze aanpak opmerkelijke zero-shot cross-linguale generalisatie mogelijk maakt, waarbij de kenmerkcontrole-vaardigheden nauwkeurig worden toegepast op talen die niet zijn gezien tijdens de post-training. Dit toont aan dat het objectiveren van spraak in tekstuele vocale kenmerken de linguïstische intelligentie van LLMs effectiever kan ontsluiten.
Distributie-afstemming is essentieel voor veel visuele en grafische taken, waarbij de veelgebruikte Wasserstein-afstand te kostbaar is om te berekenen voor hoogdimensionale distributies. De Gesneden Wasserstein-afstand (SWD) biedt een schaalbare alternatief, maar de Monte Carlo-schatter ervan lijdt onder een hoge variantie, wat resulteert in ruisachtige gradiënten en trage convergentie. Wij introduceren Reservoir SWD (ReSWD), dat Gewogen Reservoir Sampling integreert in SWD om adaptief informatieve projectierichtingen te behouden tijdens optimalisatiestappen, wat resulteert in stabiele gradiënten terwijl het onbevooroordeeld blijft. Experimenten op synthetische benchmarks en real-world taken zoals kleurcorrectie en diffusiebegeleiding tonen aan dat ReSWD consequent beter presteert dan standaard SWD en andere variantiereductie-baselines. Projectpagina: https://reservoirswd.github.io/
Grote taalmodellen (LLMs) worden steeds vaker bestudeerd in de context van meerfasen redenering, waarbij modellen hun uitvoer iteratief verfijnen op basis van door gebruikers verstrekte feedback. Dergelijke situaties zijn cruciaal voor taken die complexe redenering vereisen, maar bestaande feedbackparadigma's zijn vaak gebaseerd op het versturen van nieuwe berichten. LLMs hebben moeite om deze betrouwbaar te integreren, wat leidt tot inconsistente verbeteringen. In dit werk introduceren we in-place feedback, een nieuw interactieparadigma waarbij gebruikers een eerdere reactie van een LLM direct bewerken, en het model zich baseert op deze aangepaste reactie om zijn revisie te genereren. Empirische evaluaties op diverse redeneringsintensieve benchmarks laten zien dat in-place feedback betere prestaties bereikt dan conventionele meerfasen feedback, terwijl het 79,1% minder tokens gebruikt. Complementaire analyses in gecontroleerde omgevingen tonen verder aan dat in-place feedback een kernbeperking van meerfasen feedback oplost: modellen slagen er vaak niet in om feedback precies toe te passen op foutieve delen van de reactie, waardoor fouten ongecorrigeerd blijven en soms nieuwe fouten worden geïntroduceerd in eerder correcte inhoud. Deze bevindingen suggereren dat in-place feedback een natuurlijker en effectiever mechanisme biedt voor het begeleiden van LLMs in redeneringsintensieve taken.
Het leren van controlebeleid voor complexe, langetermijntaken is een centrale uitdaging in robotica en autonome systemen. Signal Temporal Logic (STL) biedt een krachtige en expressieve taal om dergelijke taken te specificeren, maar zijn niet-Markoviaanse aard en inherente schaarse beloning maken het moeilijk om opgelost te worden via standaard Reinforcement Learning (RL)-algoritmen. Eerdere RL-benaderingen richten zich alleen op beperkte STL-fragmenten of gebruiken STL-robustheidsscores als schaarse eindbeloningen. In dit artikel stellen we TGPO, Temporal Grounded Policy Optimization, voor om algemene STL-taken op te lossen. TGPO deelt STL op in getimede subdoelen en invariante beperkingen en biedt een hiërarchisch raamwerk om het probleem aan te pakken. Het hoogste niveau van TGPO stelt concrete tijdsallocaties voor deze subdoelen voor, en het laagste niveau, het tijd-geconditioneerde beleid, leert om de gespecificeerde subdoelen te bereiken met behulp van een dichte, fasegewijze beloningssignaal. Tijdens inferentie nemen we verschillende tijdsallocaties en selecteren de meest veelbelovende toewijzing voor het beleidsnetwerk om de oplossingstrajectorie uit te rollen. Om efficiënt beleidsleren voor complexe STL met meerdere subdoelen te bevorderen, benutten we de geleerde criticus om de hoogste temporele zoektocht te begeleiden via Metropolis-Hastings sampling, waarbij de verkenning gericht is op temporeel haalbare oplossingen. We voeren experimenten uit in vijf omgevingen, variërend van laagdimensionale navigatie tot manipulatie, drone- en viervoetige voortbeweging. Onder een breed scala aan STL-taken presteert TGPO aanzienlijk beter dan state-of-the-art baselines (met name voor hoogdimensionale en langetermijngevallen), met een gemiddelde verbetering van 31,6% in taaksuccespercentage vergeleken met de beste baseline. De code zal beschikbaar zijn op https://github.com/mengyuest/TGPO.
In dit werk stellen we voor om voorgetrainde visuele encoders af te stemmen om te dienen als tokenizers voor latente diffusiemodellen in beeldgeneratie. In tegenstelling tot het trainen van een variational autoencoder (VAE) vanaf nul, wat vooral gericht is op laagniveau details, maakt onze aanpak gebruik van de rijke semantische structuur van foundation encoders. We introduceren een driestappen afstemmingsstrategie: (1) bevries de encoder en train een adapter en een decoder om een semantische latente ruimte te creëren; (2) optimaliseer alle componenten gezamenlijk met een extra semantisch behoudsverlies, waardoor de encoder perceptuele details kan vastleggen terwijl hoog-niveau semantiek behouden blijft; en (3) verfijn de decoder voor een verbeterde reconstructiekwaliteit. Deze afstemming resulteert in semantisch rijke beeldtokenizers die diffusiemodellen ten goede komen. Op ImageNet 256x256 versnelt onze tokenizer de convergentie van diffusiemodellen, waarbij een gFID van 1.90 wordt bereikt binnen slechts 64 epochs, en verbetert de generatie zowel met als zonder classifier-free guidance. Bij opschaling naar LAION, een tekst-naar-beeldmodel met 2B parameters getraind met onze tokenizer, presteert het consistent beter dan FLUX VAE onder dezelfde trainingsstappen. Over het algemeen is onze methode eenvoudig, schaalbaar en legt het een semantisch gefundeerd paradigma neer voor het ontwerpen van continue tokenizers.
Curriculum learning speelt een cruciale rol bij het verbeteren van de trainings efficiëntie van grote taalmodellen (LLMs) voor redeneertaken. Bestaande methoden houden echter vaak onvoldoende rekening met variaties in de moeilijkheidsgraad van prompts of vertrouwen op simplistische filtermechanismen om promptdatasets te selecteren binnen een smal criteriumbereik, wat resulteert in aanzienlijk computationeel verlies. In dit werk benaderen we het probleem vanuit het perspectief van reinforcement learning gradientoptimalisatie, waarbij we een systematisch en theoretisch onderzoek bieden naar hoe de trainings efficiëntie van LLMs kan worden verbeterd. We identificeren twee belangrijke factoren die de trainings efficiëntie beïnvloeden: de selectie van trainingsprompts en de toewijzing van rollout-aantallen over verschillende prompts. Onze theoretische analyse toont aan dat de steekproefverdeling van prompts de convergentiesnelheid van gradient descent bepaalt, terwijl de toewijzing van de rollout-aantallen de consistentie en stabiliteit van de algehele gradientupdates beïnvloedt. Op basis van deze inzichten stellen we CurES voor, een efficiënte trainingsmethode die convergentie versnelt en Bayesiaanse posterior-schatting gebruikt om de computationele overhead te minimaliseren. Experimenten tonen aan dat onze CurES Group Relative Policy Optimization (GRPO) overtreft met +3,30 punten en +4,82 punten voor respectievelijk 1,5B en 7B modellen. Daarnaast vertoont CurES een snellere convergentie in vergelijking met baseline-methoden, inclusief GRPO.
Ondanks hun mogelijkheden blijven Large Language Models (LLM's) ondoorzichtig met een beperkt begrip van hun interne representaties. Huidige interpreteerbaarheidsmethoden, zoals directe logit-toeschrijving (DLA) en sparse autoencoders (SAE's), bieden beperkt inzicht vanwege beperkingen zoals het uitvoervocabulaire van het model of onduidelijke feature-namen. Dit werk introduceert Hyperdimensional Probe, een nieuw paradigma voor het decoderen van informatie uit de LLM-vectorruimte. Het combineert ideeën uit symbolische representaties en neurale probing om de reststroom van het model te projecteren in interpreteerbare concepten via Vector Symbolic Architectures (VSA's). Deze probe combineert de sterke punten van SAE's en conventionele probes terwijl het hun belangrijkste beperkingen overwint. We valideren ons decoderingsparadigma met gecontroleerde invoer-voltooiingstaken, waarbij we de eindtoestand van het model onderzoeken voordat de volgende token wordt voorspeld op invoer die syntactische patroonherkenning, sleutel-waarde-associaties en abstracte inferentie omvat. We beoordelen het verder in een vraag-antwoordsetting, waarbij we de toestand van het model zowel voor als na tekstgeneratie onderzoeken. Onze experimenten tonen aan dat onze probe betrouwbaar betekenisvolle concepten extraheert over verschillende LLM's, embedding-groottes en invoerdomeinen, en helpt ook bij het identificeren van LLM-fouten. Ons werk bevordert het decoderen van informatie in de LLM-vectorruimte, waardoor het mogelijk wordt om meer informatieve, interpreteerbare en gestructureerde features uit neurale representaties te extraheren.