Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Policy-based reinforcement learning speelt momenteel een belangrijke rol bij het verbeteren van LLM's voor wiskundige redeneertaken. Bestaande rollout-gebaseerde reinforcement learning-methoden (GRPO, DAPO, GSPO, etc.) slagen er echter niet in om expliciet rekening te houden met het leervermogen van LLM's voor samples van verschillende moeilijkheidsgraden, wat in tegenspraak is met het menselijke cognitieve proces van wiskundige redeneertaken van makkelijk naar moeilijk. Intuïtief constateren we dat de variantie van de beloning van de rollout-groep in RLVR deels de moeilijkheid van het huidige sample voor LLM's weerspiegelt. Samples die te makkelijk of te moeilijk zijn, hebben een lagere variantie, terwijl samples met een gemiddelde moeilijkheidsgraad een hogere variantie hebben. Op basis hiervan stellen we VCRL voor, een curriculum reinforcement learning-framework dat de moeilijkheid van trainingsamples dynamisch aanpast op basis van de variantie van groepsbeloningen. Experimenten op vijf wiskundige benchmarks en twee modellen tonen de voordelen van VCRL aan ten opzichte van de huidige LLM RL-baselines.
Grote multimodale redeneermodellen hebben snelle vooruitgang geboekt, maar hun ontwikkeling wordt beperkt door twee belangrijke beperkingen: het ontbreken van open, grootschalige, hoogwaardige lange keten-van-gedachten (CoT) data, en de instabiliteit van reinforcement learning (RL) algoritmen na de training. Group Relative Policy Optimization (GRPO), het standaardkader voor RL-finetuning, is gevoelig voor verdwijnende gradients wanneer de beloningsvariantie laag is, wat de optimalisatiesignalen verzwakt en de convergentie belemmert. Dit werk levert drie bijdragen: (1) We stellen Variance-Aware Sampling (VAS) voor, een dataselectiestrategie geleid door Variance Promotion Score (VPS) die uitkomstvariantie en trajectdiversiteit combineert om beloningsvariantie te bevorderen en beleidsoptimalisatie te stabiliseren. (2) We brengen grootschalige, zorgvuldig samengestelde bronnen uit met ~1,6 miljoen lange CoT cold-start data en ~15.000 RL QA-paren, ontworpen om kwaliteit, moeilijkheid en diversiteit te waarborgen, samen met een volledig reproduceerbare end-to-end trainingscodebase. (3) We open-sourcen een familie van multimodale redeneermodellen in meerdere schalen, waarmee gestandaardiseerde basislijnen voor de gemeenschap worden vastgesteld. Experimenten op wiskundige redeneerbenchmarks tonen de effectiviteit aan van zowel de samengestelde data als de voorgestelde VAS. Uitgebreide ablatiestudies en analyses bieden verder inzicht in de bijdragen van elke component. Daarnaast leggen we theoretisch vast dat beloningsvariantie een ondergrens vormt voor de verwachte beleidsgradiëntgrootte, waarbij VAS dient als een praktisch mechanisme om deze garantie te realiseren. Onze code, data en checkpoints zijn beschikbaar op https://github.com/LengSicong/MMR1.
We presenteren een wetenschappelijk redeneerfundamentmodel dat natuurlijke taal afstemt op heterogene wetenschappelijke representaties. Het model is voorgetraind op een corpus van 206B tokens, bestaande uit wetenschappelijke tekst, pure sequenties en sequentie-tekstparen, en vervolgens afgestemd via SFT op 40M instructies, geannealeerd cold-start bootstrapping om langere ketens van gedachten op te roepen, en reinforcement learning met taakspecifieke beloningsvorming, wat bewust wetenschappelijk redeneren bevordert. Het ondersteunt vier vermogensfamilies, die tot 103 taken in workflows omvatten: (i) getrouwe vertaling tussen tekst en wetenschappelijke formaten, (ii) tekst/kennis extractie, (iii) eigenschapvoorspelling, (iv) eigenschapclassificatie, (v) onvoorwaardelijke en voorwaardelijke sequentiegeneratie en ontwerp. In vergelijking met gespecialiseerde systemen, breidt onze aanpak de instructiedekking uit, verbetert de cross-domein generalisatie en verhoogt de trouw. We gaan in detail in op datacuratie en training en laten zien dat leren over disciplines heen de transfer en downstream betrouwbaarheid versterkt. Het model, de instructieafstemmingsdatasets en de evaluatiecode zijn open source beschikbaar op https://huggingface.co/SciReason en https://github.com/open-sciencelab/SciReason.
Recente vooruitgang in reinforcement learning (RL) heeft de agentische capaciteiten van grote taalmodellen (LLMs) aanzienlijk verbeterd. Bij langdurige en meervoudige agenttaken kampen bestaande benaderingen die uitsluitend worden aangedreven door uitkomstbeloningen vaak met het probleem van schaarse supervisie. Om deze uitdaging aan te pakken, stellen we Tree-based Group Relative Policy Optimization (Tree-GRPO) voor, een gegroepeerde agent-RL-methode gebaseerd op boomzoeken, waarbij elke boomknoop de volledige agentinteractiestap vertegenwoordigt. Door gemeenschappelijke prefixen te delen, verhoogt het boomzoeken het aantal rollouts dat binnen een vast budget van tokens of toolaanroepen kan worden bereikt. Bovendien ontdekken we dat de boomgestructureerde trajecten op natuurlijke wijze de constructie van stapgewijze procesgesuperviseerde signalen mogelijk maken, zelfs bij gebruik van alleen de uitkomstbeloning. Op basis hiervan schat Tree-GRPO de gegroepeerde relatieve voordelen in op zowel intra-boom- als inter-boomniveau. Door theoretische analyse tonen we aan dat het doel van intra-boomniveau gegroepeerde relatieve beleidsoptimalisatie equivalent is aan dat van stapgewijze directe voorkeursleren. Experimenten over 11 datasets en 3 soorten QA-taken demonstreren de superioriteit van de voorgestelde boomgebaseerde RL-methode ten opzichte van de ketengebaseerde RL-methode.
We introduceren Seedream 4.0, een efficiënt en hoogwaardig multimodaal beeldgeneratiesysteem dat tekst-naar-beeld (T2I) synthese, beeldbewerking en multi-beeldcompositie verenigt binnen een enkel raamwerk. We ontwikkelen een zeer efficiënte diffusietransformer met een krachtige VAE die ook het aantal beeldtokens aanzienlijk kan verminderen. Dit maakt efficiënte training van ons model mogelijk en stelt het in staat om snel native hoogresolutiebeelden te genereren (bijv. 1K-4K). Seedream 4.0 is voorgetraind op miljarden tekst-beeldparen die diverse taxonomieën en kennisgerichte concepten omvatten. Uitgebreide dataverzameling over honderden verticale scenario's, gecombineerd met geoptimaliseerde strategieën, zorgt voor stabiele en grootschalige training met sterke generalisatie. Door een zorgvuldig afgestemd VLM-model te integreren, voeren we multimodale na-training uit voor het gezamenlijk trainen van zowel T2I- als beeldbewerkingstaken. Voor versnelling van de inferentie integreren we adversarial distillation, distributiematching en kwantisatie, evenals speculatieve decodering. Het bereikt een inferentietijd van maximaal 1,8 seconden voor het genereren van een 2K-beeld (zonder een LLM/VLM als PE-model). Uitgebreide evaluaties tonen aan dat Seedream 4.0 state-of-the-art resultaten kan behalen op zowel T2I als multimodale beeldbewerking. In het bijzonder toont het uitzonderlijke multimodale capaciteiten in complexe taken, waaronder precieze beeldbewerking en in-context redeneren, en maakt het ook multi-beeldreferentie mogelijk, waarbij het meerdere uitvoerbeelden kan genereren. Dit breidt traditionele T2I-systemen uit tot een meer interactief en multidimensionaal creatief hulpmiddel, waardoor de grenzen van generatieve AI worden verlegd voor zowel creativiteit als professionele toepassingen. Seedream 4.0 is nu toegankelijk op https://www.volcengine.com/experience/ark?launch=seedream.
Recente vooruitgang in 3D-native generatieve modellen heeft de creatie van assets voor games, films en design versneld. De meeste methoden zijn echter nog steeds voornamelijk afhankelijk van beeld- of tekstconditionering en missen fijnmazige, cross-modale controles, wat de bestuurbaarheid en praktische adoptie beperkt. Om dit gat te dichten, presenteren we Hunyuan3D-Omni, een uniform raamwerk voor fijnmazige, bestuurbare 3D-assetgeneratie, gebouwd op Hunyuan3D 2.1. Naast afbeeldingen accepteert Hunyuan3D-Omni puntenwolken, voxels, begrenzingsvakken en skeletpose-priors als conditioneringssignalen, waardoor precieze controle over geometrie, topologie en pose mogelijk wordt. In plaats van aparte heads voor elke modaliteit, verenigt ons model alle signalen in een enkele cross-modale architectuur. We trainen met een progressieve, moeilijkheidsbewuste samplingstrategie die één controlemodaliteit per voorbeeld selecteert en de sampling richting moeilijkere signalen (bijv. skeletpose) biasseert, terwijl eenvoudigere signalen (bijv. puntenwolken) worden afgezwakt, wat robuuste multi-modale fusie en elegant omgaan met ontbrekende invoer bevordert. Experimenten tonen aan dat deze aanvullende controles de generatienauwkeurigheid verbeteren, geometriebewuste transformaties mogelijk maken en de robuustheid voor productieworkflows vergroten.
AutoIntent is een geautomatiseerd machine learning-gereedschap voor tekstclassificatietaken. In tegenstelling tot bestaande oplossingen biedt AutoIntent end-to-end automatisering met selectie van embeddingmodellen, optimalisatie van classificatoren en afstemming van beslissingsdrempels, allemaal binnen een modulair, sklearn-achtig interface. Het framework is ontworpen om multi-label classificatie en detectie van buiten-scope gevallen te ondersteunen. AutoIntent toont superieure prestaties in vergelijking met bestaande AutoML-gereedschappen op standaard intentclassificatiedatasets en stelt gebruikers in staat om effectiviteit en resourceverbruik in balans te brengen.
De adoptie van Large Language Models (LLM's) als geautomatiseerde beoordelaars (LLM-as-a-judge) heeft kritieke inconsistenties in huidige evaluatieframeworks aan het licht gebracht. We identificeren twee fundamentele soorten inconsistenties: (1) Score-Vergelijkingsinconsistentie, waarbij lager gewaardeerde reacties beter presteren dan hoger gescoorde in paarsgewijze vergelijkingen, en (2) Paarsgewijze Transitiviteitsinconsistentie, die zich manifesteert door circulaire voorkeursketens (A>B>C>A) en equivalentie-tegenstrijdigheden (A=B=C≠A). We stellen dat deze problemen voortkomen uit informatieverlies in discrete beoordelingssystemen en ambiguïteit bij gelijkspelbeoordelingen tijdens paarsgewijze evaluatie. We introduceren TrustJudge, een probabilistisch framework dat deze beperkingen aanpakt via twee belangrijke innovaties: 1) distributiegevoelige scoring die continue verwachtingen berekent uit discrete beoordelingskansen, waardoor informatie-entropie behouden blijft voor nauwkeurigere scoring, en 2) waarschijnlijkheidsbewuste aggregatie die transitiviteitsschendingen oplost met behulp van bidirectionele voorkeurskansen of perplexiteit. We formaliseren ook de theoretische beperkingen van huidige LLM-as-a-judge frameworks en tonen aan hoe de componenten van TrustJudge deze overwinnen. Bij evaluatie met Llama-3.1-70B-Instruct als beoordelaar op basis van onze dataset, vermindert TrustJudge Score-Vergelijkingsinconsistentie met 8,43% (van 23,32% naar 14,89%) en Paarsgewijze Transitiviteitsinconsistentie met 10,82% (van 15,22% naar 4,40%), terwijl een hogere evaluatienauwkeurigheid wordt behouden. Ons werk biedt de eerste systematische analyse van evaluatieframeworkinconsistenties in LLM-as-a-judge paradigma's, met zowel theoretische inzichten als praktische oplossingen voor betrouwbare geautomatiseerde beoordeling. Het framework toont consistente verbeteringen over verschillende modelarchitecturen en schalen, waardoor betrouwbaardere LLM-evaluatie mogelijk wordt zonder extra training of menselijke annotaties. De codes zijn te vinden op https://github.com/TrustJudge/TrustJudge.
Dit artikel introduceert een eenvoudige en schaalbare aanpak om de data-efficiëntie van de training van grote taalmodellen (LLM's) te verbeteren door bestaande tekstdata aan te vullen met denkprocessen. De rekenkracht die nodig is voor het pre-trainen van LLM's groeit in een ongekend tempo, terwijl de beschikbaarheid van hoogwaardige data beperkt blijft. Hierdoor vormt het maximaliseren van het nut van beschikbare data een belangrijke onderzoeksuitdaging. Een primair obstakel is dat bepaalde hoogwaardige tokens moeilijk te leren zijn bij een vaste modelcapaciteit, omdat de onderliggende redenering voor een enkel token uitzonderlijk complex en diepgaand kan zijn. Om dit probleem aan te pakken, stellen we Thinking augmented Pre-Training (TPT) voor, een universele methodologie die tekst aanvult met automatisch gegenereerde denkprocessen. Deze aanvulling vergroot effectief de omvang van de trainingsdata en maakt hoogwaardige tokens beter leerbaar door middel van stapsgewijze redenering en decompositie. We passen TPT toe in diverse trainingsconfiguraties tot 100B tokens, waaronder pre-training met zowel beperkte als overvloedige data, evenals mid-training vanuit sterke open-source checkpoints. Experimentele resultaten tonen aan dat onze methode de prestaties van LLM's aanzienlijk verbetert over verschillende modelgroottes en -families. Met name verbetert TPT de data-efficiëntie van LLM pre-training met een factor 3. Voor een model met 3B parameters verbetert het de post-training prestaties met meer dan 10% op verschillende uitdagende redeneerbenchmarks.
Recente vooruitgang in gedragsklonering (BC) heeft indrukwekkende visuomotorische controlebeleidsregels mogelijk gemaakt. Deze benaderingen worden echter beperkt door de kwaliteit van menselijke demonstraties, de handmatige inspanning die nodig is voor gegevensverzameling en de afnemende meeropbrengsten van toenemende offline gegevens. In vergelijking traint reinforcement learning (RL) een agent door autonome interactie met de omgeving en heeft het opmerkelijke successen geboekt in verschillende domeinen. Toch blijft het trainen van RL-beleidsregels direct op robots in de echte wereld uitdagend vanwege de inefficiëntie van steekproeven, veiligheidsproblemen en de moeilijkheid om te leren van schaarse beloningen voor taken met een lange horizon, vooral voor systemen met een hoge mate van vrijheid (DoF). We presenteren een methode die de voordelen van BC en RL combineert via een residu-leerkader. Onze aanpak maakt gebruik van BC-beleidsregels als black-box-basis en leert lichtgewicht per-stap residucorrecties via steekproefefficiënt off-policy RL. We tonen aan dat onze methode slechts schaarse binaire beloningssignalen vereist en effectief manipulatiebeleidsregels kan verbeteren op systemen met een hoge mate van vrijheid (DoF) in zowel simulatie als de echte wereld. In het bijzonder demonstreren we, voor zover wij weten, de eerste succesvolle RL-training in de echte wereld op een humanoïde robot met behendige handen. Onze resultaten tonen state-of-the-art prestaties in verschillende visiegebaseerde taken, wat wijst op een praktische weg voor het inzetten van RL in de echte wereld. Projectwebsite: https://residual-offpolicy-rl.github.io
Reinforcement learning (RL) is uitgegroeid tot een krachtig paradigma voor het optimaliseren van grote taalmodelen (LLMs) om complexe redeneertaken aan te kunnen. Een kernuitdaging in dit proces ligt in het beheren van beleidsentropie, wat de balans tussen exploratie en exploitatie tijdens de training weerspiegelt. Bestaande methoden, zoals proximal policy optimization (PPO) en zijn varianten, verwerpen waardevolle gradiëntsignalen van tokens met een lage waarschijnlijkheid vanwege het clipping-mechanisme. We analyseren systematisch de entropiedynamiek en tonen aan dat deze geknipte tokens een cruciale maar over het hoofd gezien rol spelen bij het reguleren van de entropie-evolutie. We stellen Controlling Entropy via Gradient-Preserving Policy Optimization (CE-GPPO) voor, een nieuw algoritme dat op een zachte en begrensde manier gradiënten van geknipte tokens opnieuw introduceert in native PPO. Door de grootte van gradiënten van tokens buiten het clipping-interval te controleren, is CE-GPPO in staat een balans tussen exploratie en exploitatie te bereiken. We bieden theoretische rechtvaardiging en empirisch bewijs dat aantoont dat CE-GPPO entropie-instabiliteit effectief vermindert. Uitgebreide experimenten op benchmarks voor wiskundig redeneren laten zien dat CE-GPPO consistent sterke baseline-methoden overtreft bij verschillende modelschalen.
De afgelopen jaren hebben multimodale modellen opmerkelijke vooruitgang geboekt en de weg geëffend voor intelligente browsergebruiksagenten. Echter, bij het oplossen van taken op echte webpagina's in multi-turn, langetermijntrajecten, hebben huidige agenten nog steeds last van ongeordende actievolgordes en overmatig trial-and-error tijdens de uitvoering. Dit artikel introduceert Recon-Act, een zelf-evoluerend multi-agent raamwerk gebaseerd op het Reconnaissance-Action gedragsparadigma. Het systeem bestaat uit een Reconnaissance Team en een Action Team: het eerste voert vergelijkende analyses uit en genereert tools, terwijl het laatste zich bezighoudt met intentdecompositie, toolcoördinatie en uitvoering. Door foutieve trajecten te vergelijken met succesvolle, leidt het Reconnaissance Team remedies af en abstraheert deze naar een uniform begrip van gegeneraliseerde tools, uitgedrukt als hints of regelgebaseerde codes, en registreert deze in realtime in het toolarchief. Het Action Team herleidt het proces, ondersteund door deze gerichte tools, waardoor een gesloten trainingspijplijn van data-tools-actie-feedback wordt gevestigd. Volgens de 6-stappen implementatieroadmap die in dit werk wordt voorgesteld, hebben we momenteel niveau 3 bereikt (met beperkte menselijke tussenkomst). Door gebruik te maken van gegeneraliseerde tools verkregen via reconnaissance, verbetert Recon-Act aanzienlijk de aanpassingsvermogen aan onbekende websites en de oplosbaarheid van langetermijntaken, en behaalt het state-of-the-art prestaties op de uitdagende VisualWebArena dataset.
We presenteren CHARM, een nieuwe parametrische representatie en generatief framework voor het modelleren van anime-haarstijlen. Terwijl traditionele methoden voor haarmodellering zich richten op realistisch haar met behulp van strenggebaseerde of volumetrische representaties, vertonen anime-haarstijlen een sterk gestileerde, stuksgewijze geometrie die bestaande technieken uitdaagt. Bestaande werken vertrouwen vaak op dichte mesh-modellering of handgemaakte spline-curven, wat ze inefficiënt maakt voor bewerking en ongeschikt voor schaalbare leerprocessen. CHARM introduceert een compacte, omkeerbare parameterisatie op basis van controlepunten, waarbij een reeks controlepunten elke haarkaart vertegenwoordigt en elk punt wordt gecodeerd met slechts vijf geometrische parameters. Deze efficiënte en nauwkeurige representatie ondersteunt zowel kunstenaarsvriendelijk ontwerp als op leren gebaseerde generatie. Gebouwd op deze representatie introduceert CHARM een autoregressief generatief framework dat effectief anime-haarstijlen genereert uit invoerbeelden of puntenwolken. Door anime-haarstijlen te interpreteren als een sequentiële "haartaal", vangt onze autoregressieve transformer zowel lokale geometrie als globale haarstijltopologie, wat resulteert in hoogwaardige creatie van anime-haarstijlen. Om zowel training als evaluatie van anime-haarstijlgeneratie te vergemakkelijken, hebben we AnimeHair geconstrueerd, een grootschalige dataset van 37K hoogwaardige anime-haarstijlen met gescheiden haarkaarten en verwerkte mesh-gegevens. Uitgebreide experimenten tonen state-of-the-art prestaties van CHARM in zowel reconstructienauwkeurigheid als generatiekwaliteit, en bieden een expressieve en schaalbare oplossing voor het modelleren van anime-haarstijlen. Projectpagina: https://hyzcluster.github.io/charm/
Beeldsamenstelling heeft als doel om een door de gebruiker gespecificeerd object naadloos in een nieuwe scène in te voegen, maar bestaande modellen worstelen met complexe belichting (bijv. nauwkeurige schaduwen, waterreflecties) en diverse, hoogwaardige invoer. Moderne tekst-naar-beeld diffusiemodellen (bijv. SD3.5, FLUX) bevatten al essentiële fysieke en resolutieprioriteiten, maar missen een raamwerk om deze te benutten zonder gebruik te maken van latente inversie, wat vaak objectposities vastzet in contextueel ongeschikte oriëntaties, of kwetsbare aandachtschirurgie. Wij stellen SHINE voor, een trainingsvrij raamwerk voor Naadloze, Hoogwaardige Invoeging met Geneutraliseerde Fouten. SHINE introduceert manifold-gestuurde ankerverlies, waarbij gebruik wordt gemaakt van vooraf getrainde aanpassingsadapters (bijv. IP-Adapter) om latenten te begeleiden voor een getrouwe weergave van het onderwerp terwijl de achtergrondintegriteit behouden blijft. Degradatieonderdrukkende begeleiding en adaptieve achtergrondmenging worden voorgesteld om verdere lage kwaliteit uitvoer en zichtbare naden te elimineren. Om het gebrek aan rigoureuze benchmarks aan te pakken, introduceren wij ComplexCompo, met diverse resoluties en uitdagende omstandigheden zoals weinig licht, sterke verlichting, ingewikkelde schaduwen en reflecterende oppervlakken. Experimenten op ComplexCompo en DreamEditBench tonen state-of-the-art prestaties op standaard metrieken (bijv. DINOv2) en mensgericht scores (bijv. DreamSim, ImageReward, VisionReward). Code en benchmark zullen na publicatie openbaar beschikbaar zijn.
Hoewel Large Reasoning Models (LRM's) uitgebreide ketens van redeneringen genereren, ontbreekt een principieel kader om te begrijpen hoe deze gedachten gestructureerd zijn. In dit artikel introduceren we een nieuwe aanpak door Schoenfeld's Episode Theory, een klassiek cognitief kader voor menselijk wiskundig probleemoplossen, toe te passen om de redeneersporen van LRM's te analyseren. We hebben duizenden zinnen en alinea's uit door modellen gegenereerde oplossingen voor wiskundige problemen geannoteerd met zeven cognitieve labels (bijv. Plan, Implementeer, Verifieer). Het resultaat is de eerste publiek beschikbare benchmark voor de gedetailleerde analyse van machinaal redeneren, inclusief een grote geannoteerde corpus en gedetailleerde annotatiehandleidingen. Onze voorlopige analyse onthult duidelijke patronen in LRM-redeneringen, zoals de overgangsdynamiek tussen cognitieve toestanden. Dit kader biedt een theoretisch onderbouwde methodologie voor het interpreteren van LRM-cognitie en maakt toekomstig werk mogelijk aan meer controleerbare en transparante redeneersystemen.
Reinforcement learning (RL) heeft potentie getoond in het trainen van agentische modellen die verder gaan dan statische benchmarks om deel te nemen aan dynamische, multi-turn interacties. De uiteindelijke waarde van dergelijke agents ligt echter in hun vermogen om gebruikers te assisteren, een setting waarin de diversiteit en dynamiek van gebruikersinteracties uitdagingen vormen. In dit werk stellen we UserRL voor, een uniform raamwerk voor het trainen en evalueren van gebruikersgerichte vaardigheden door middel van gestandaardiseerde gym-omgevingen gekoppeld aan gesimuleerde gebruikers. We variëren systematisch de beloningstoewijzing op turn-niveau en de scoreberekening op trajectniveau om te analyseren hoe verschillende formuleringen het leren onder het GRPO-algoritme beïnvloeden. Onze experimenten met Qwen3-modellen onthullen drie belangrijke bevindingen: (i) SFT cold start is cruciaal voor het ontgrendelen van initieel interactievermogen en het mogelijk maken van aanhoudende RL-verbeteringen; (ii) bewuste trajectscoring leidt tot efficiëntere en effectievere multi-turn interacties; en (iii) hoewel sterkere gesimuleerde gebruikers (bijv. GPT-4o) de training vergemakkelijken, blijven open-source simulatoren (bijv. Qwen3-32B) een kosteneffectieve en overdraagbare optie. Samen benadrukken deze resultaten dat een zorgvuldige ontwerp van beloningsvorming en keuze van gebruikerssimulatie net zo cruciaal is als modelschaal, en vestigen UserRL als een praktische weg voor het ontwikkelen van robuuste gebruikersgerichte agentische modellen. Alle codes en data zijn openbaar voor toekomstig onderzoek.
We presenteren SD3.5-Flash, een efficiënt few-step distillatiekader dat hoogwaardige beeldgeneratie mogelijk maakt op toegankelijke consumentenapparaten. Onze aanpak distilleert computationeel veeleisende rectified flow-modellen via een herformuleerd distributiematchingsdoel dat specifiek is afgestemd op few-step generatie. We introduceren twee belangrijke innovaties: "timestep sharing" om ruis in de gradienten te verminderen en "split-timestep fine-tuning" om de promptafstemming te verbeteren. In combinatie met uitgebreide pipeline-optimalisaties zoals herstructurering van de tekstencoder en gespecialiseerde kwantisering, maakt ons systeem zowel snelle generatie als geheugenefficiënte implementatie mogelijk op verschillende hardwareconfiguraties. Dit democratiseert de toegang over het volledige spectrum van apparaten, van mobiele telefoons tot desktopcomputers. Door middel van uitgebreide evaluatie, inclusief grootschalige gebruikersstudies, tonen we aan dat SD3.5-Flash consistent beter presteert dan bestaande few-step methoden, waardoor geavanceerde generatieve AI echt toegankelijk wordt voor praktische implementatie.
Large Reasoning Models (LRMs) hebben indrukwekkende capaciteiten getoond in complexe probleemoplossing, waarbij ze vaak profiteren van training op moeilijke wiskundige problemen die ingewikkeld redeneren stimuleren. Recente inspanningen hebben de geautomatiseerde synthese van wiskundige problemen onderzocht door propriëtaire modellen of grootschalige open-source modellen aan te sturen met behulp van seed data of inherente wiskundige concepten. Het opschalen van deze methoden blijft echter een uitdaging vanwege de hoge computationele/API-kosten, de complexiteit van het aansturen en het beperkte moeilijkheidsniveau van de gegenereerde problemen. Om deze beperkingen te overwinnen, stellen we ScaleDiff voor, een eenvoudige maar effectieve pijplijn die is ontworpen om het creëren van moeilijke problemen op te schalen. We identificeren efficiënt moeilijke problemen uit bestaande datasets met slechts een enkele forward pass met behulp van een adaptief denkmodel, dat de moeilijkheidsgraad van problemen kan waarnemen en automatisch kan schakelen tussen "Denken" en "Niet Denken" modi. Vervolgens trainen we een gespecialiseerde generator voor moeilijke problemen (DiffGen-8B) op deze gefilterde moeilijke data, die op grote schaal nieuwe moeilijke problemen kan produceren, waardoor de noodzaak voor complexe, per-instantie aansturing en de bijbehorende hoge API-kosten wordt geëlimineerd. Het finetunen van Qwen2.5-Math-7B-Instruct op de ScaleDiff-Math dataset resulteert in een aanzienlijke prestatieverbetering van 11,3% in vergelijking met de originele dataset en behaalt een gemiddelde nauwkeurigheid van 65,9% op AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 en MATH500, wat recente sterke LRMs zoals OpenThinker3 overtreft. Opmerkelijk is dat deze prestatie wordt bereikt met behulp van het kostenefficiënte Qwen3-8B model als leraar, wat aantoont dat onze pijplijn geavanceerde redeneercapaciteiten effectief kan overdragen zonder te vertrouwen op grotere, duurdere leraarmodellen. Bovendien observeren we een duidelijk schaalverschijnsel in modelprestaties op moeilijke benchmarks naarmate de hoeveelheid moeilijke problemen toeneemt. Code: https://github.com/QizhiPei/ScaleDiff.
Code grote taalmodellen hebben opmerkelijke capaciteiten getoond bij programmeertaken, maar huidige benchmarks richten zich voornamelijk op enkele modaliteit in plaats van visuele spelontwikkeling. De meeste bestaande codegerelateerde benchmarks evalueren syntaxisnauwkeurigheid en uitvoeringscorrectheid, waarbij cruciale spel-specifieke metrieken zoals speelbaarheid, visuele esthetiek en gebruikersbetrokkenheid over het hoofd worden gezien, die essentieel zijn voor implementatie in de praktijk. Om de kloof te overbruggen tussen de huidige LLM-capaciteiten in algoritmisch probleemoplossen en competitief programmeren versus de uitgebreide vereisten van praktische spelontwikkeling, presenteren we V-GameGym, een uitgebreide benchmark bestaande uit 2.219 hoogwaardige samples verdeeld over 100 thematische clusters afkomstig uit real-world repositories, waarbij een nieuwe clustering-gebaseerde curatiemethodologie wordt gebruikt om zowel diversiteit als structurele volledigheid te waarborgen. Verder introduceren we een multimodaal evaluatieraamwerk met een geautomatiseerde LLM-gedreven pipeline voor visuele codesynthese met behulp van complete UI-sandboxomgevingen. Onze uitgebreide analyse toont aan dat V-GameGym effectief de kloof overbrugt tussen codegeneratienauwkeurigheid en praktische spelontwikkelingsworkflows, waarbij kwantificeerbare kwaliteitsmetrieken worden geboden voor visueel programmeren en het genereren van interactieve elementen.
Hoewel expliciete positionele coderingen zoals RoPE een primaire bron van positionele informatie zijn in Transformer-decoders, biedt ook het causale masker positionele informatie. In dit werk bewijzen we dat het causale masker positieafhankelijke patronen in aandachtsscores kan induceren, zelfs zonder parameters of causale afhankelijkheid in de invoer. Onze theoretische analyse geeft aan dat het geïnduceerde aandachtspatroon de neiging heeft om nabije query-sleutelparen te bevoordelen, wat het gedrag van veelvoorkomende positionele coderingen weerspiegelt. Empirische analyse bevestigt dat getrainde modellen hetzelfde gedrag vertonen, waarbij geleerde parameters deze patronen verder versterken. Opmerkelijk is dat we ontdekten dat de interactie tussen het causale masker en RoPE de relatieve aandachtsscorepatronen van RoPE vervormt tot niet-relatieve patronen. We hebben dit effect consistent waargenomen in moderne grote taalmodellen, wat het belang onderstreept van het beschouwen van het causale masker als een bron van positionele informatie naast expliciete positionele coderingen.
Indoor scene-synthese is steeds belangrijker geworden met de opkomst van Embodied AI, wat 3D-omgevingen vereist die niet alleen visueel realistisch zijn, maar ook fysiek plausibel en functioneel divers. Hoewel recente benaderingen de visuele kwaliteit hebben verbeterd, blijven ze vaak beperkt tot vaste scènecategorieën, ontbreekt het aan voldoende objectniveau-detail en fysieke consistentie, en hebben ze moeite om complexe gebruikersinstructies te volgen. In dit werk presenteren we SceneWeaver, een reflectief agentisch framework dat diverse scene-syntheseparadigma's verenigt via tool-gebaseerde iteratieve verfijning. SceneWeaver maakt in de kern gebruik van een taalmodel-gebaseerde planner om te kiezen uit een reeks uitbreidbare scene-generatietools, variërend van data-gedreven generatieve modellen tot visuele en LLM-gebaseerde methoden, geleid door zelfevaluatie van fysieke plausibiliteit, visuele realiteit en semantische afstemming met gebruikersinput. Dit gesloten-lus reden-handel-reflecteer ontwerp stelt de agent in staat om semantische inconsistenties te identificeren, gerichte tools aan te roepen en de omgeving over opeenvolgende iteraties bij te werken. Uitgebreide experimenten op zowel gangbare als open-vocabulair kamertypes tonen aan dat SceneWeaver niet alleen eerdere methoden overtreft op fysieke, visuele en semantische metrieken, maar ook effectief generaliseert naar complexe scènes met diverse instructies, wat een stap markeert richting algemene 3D-omgevingsgeneratie. Projectwebsite: https://scene-weaver.github.io/.
Leergebaseerde 3D-reconstructiemodellen, vertegenwoordigd door Visual Geometry Grounded Transformers (VGGTs), hebben opmerkelijke vooruitgang geboekt met het gebruik van grootschalige transformers. Hun buitensporige reken- en geheugenkosten belemmeren echter de inzet in de praktijk aanzienlijk. Post-Training Quantization (PTQ) is een gangbare praktijk geworden voor het comprimeren en versnellen van modellen. Wij observeren echter empirisch dat PTQ unieke obstakels tegenkomt bij het comprimeren van VGGTs op miljardenschaal: de data-onafhankelijke speciale tokens veroorzaken zwaarstaartige activatiedistributies, terwijl de multi-view aard van 3D-data de selectie van calibratiesteekproeven zeer onstabiel maakt. Dit artikel introduceert het eerste quantisatiekader voor VGGTs, genaamd QuantVGGT. Dit berust voornamelijk op twee technische bijdragen: Ten eerste introduceren we Dual-Smoothed Fine-Grained Quantization, dat pre-globale Hadamard-rotatie en post-lokale kanaalafvlakking integreert om zwaarstaartige distributies en interkanaalvariantie robuust te verminderen. Ten tweede ontwerpen we Noise-Filtered Diverse Sampling, dat uitbijters filtert via diepe-laagstatistieken en frame-bewuste diverse calibratieclusters construeert om stabiele quantisatiebereiken te garanderen. Uitgebreide experimenten tonen aan dat QuantVGGT state-of-the-art resultaten behaalt over verschillende benchmarks en bit-breedtes, en daarmee de vorige state-of-the-art generieke quantisatiemethode met een grote marge overtreft. Wij benadrukken dat onze 4-bits QuantVGGT een geheugenreductie van 3,7 keer en een versnelling van 2,5 keer kan leveren in real-hardware inferentie, terwijl de reconstructienauwkeurigheid boven de 98% van zijn volledige precisie-tegenhanger blijft. Dit toont de enorme voordelen en praktische bruikbaarheid van QuantVGGT in bronbeperkte scenario's aan. Onze code is vrijgegeven op https://github.com/wlfeng0509/QuantVGGT.
LLM-beoordeelde benchmarks worden steeds vaker gebruikt om complex modelgedrag te evalueren, maar hun ontwerp introduceert foutmodi die afwezig zijn in conventionele, op grondwaarheid gebaseerde benchmarks. Wij stellen dat zonder strikte doelstellingen en verifieerbare constructies, benchmarkrangschikkingen hoogvertrouwensrangschikkingen kunnen produceren die in feite grotendeels ruis zijn. We introduceren twee mechanismen om deze problemen te diagnosticeren. Schematische naleving kwantificeert hoeveel van de algehele uitspraak van een beoordelaar wordt verklaard door het expliciete evaluatieschema, waarbij onverklaarde variantie wordt onthuld wanneer beoordelaars afwijken van hun eigen beoordelingscriteria. Psychometrische validiteit aggregeert signalen van interne consistentie en discriminantvaliditeit om onherleidbare onzekerheid in elke benchmarkrun te kwantificeren. Door deze tools toe te passen op Arena-Hard Auto, vinden we ernstige schemaincoherentie en factorcollaps bij populaire beoordelaars: bijvoorbeeld onverklaarde variantie van meer dan 90 procent voor DeepSeek-R1-32B en factorcorrelaties boven 0,93 voor de meeste criteria. We tonen ook aan dat de ELO-stijl aggregatie die door Arena-Hard Auto wordt gebruikt, ineenstort en echte rangschikkingsonzekerheid maskeert. Onze resultaten benadrukken ontwerpfouten die de validiteit ondermijnen en bieden actiegerichte principes voor het bouwen van beter afgebakende, betrouwbaarheidsbewuste LLM-beoordeelde benchmarks. We geven onze code vrij op https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
Grote Taalmodellen (LLMs) worden geconfronteerd met aanzienlijke computationele uitdagingen bij het verwerken van lange contexten vanwege de kwadratische complexiteit van zelf-attentie. Hoewel zachte contextcompressiemethoden, waarbij invoertekst wordt omgezet in kleinere latente representaties, veelbelovend zijn, blijft hun praktische adoptie beperkt. Bestaande technieken comprimeren de context meestal als één geheel, wat leidt tot kwadratische compressiecomplexiteit en het onvermogen om berekeningen te hergebruiken bij queries met overlappende contexten. In dit werk introduceren we CompLLM, een zachte compressietechniek die is ontworpen voor praktische implementatie. In plaats van de context holistisch te verwerken, verdeelt CompLLM deze in segmenten en comprimeert elk segment onafhankelijk. Deze eenvoudige ontwerpkeuze levert drie cruciale eigenschappen op: efficiëntie, omdat de compressiestap lineair schaalt met de contextlengte; schaalbaarheid, waardoor modellen die zijn getraind op korte sequenties (bijv. 1k tokens) kunnen generaliseren naar contexten van 100k tokens; en herbruikbaarheid, waardoor gecomprimeerde segmenten kunnen worden gecached en hergebruikt bij verschillende queries. Onze experimenten tonen aan dat CompLLM bij een compressieratio van 2x en bij hoge contextlengtes de Time To First Token (TTFT) tot wel 4x versnelt en de grootte van de KV-cache met 50% reduceert. Bovendien presteert CompLLM vergelijkbaar met de ongecomprimeerde context en overtreft het deze zelfs bij zeer lange sequenties, wat de effectiviteit en praktische bruikbaarheid ervan aantoont.
Zoekondersteunde grote taalmodellen (LLMs) hebben informatiezoektaken verbeterd door het integreren van retrieval in generatie, waardoor de cognitieve belasting van gebruikers wordt verminderd in vergelijking met traditionele zoeksystemen. Toch zijn ze nog steeds ontoereikend om volledig tegemoet te komen aan de diverse behoeften van gebruikers, wat vereist dat wordt herkend hoe dezelfde zoekopdracht verschillende intenties kan weerspiegelen bij verschillende gebruikers en dat informatie wordt aangeboden in de voorkeursvormen van gebruikers. Hoewel recente systemen zoals ChatGPT en Gemini personalisatie proberen te bereiken door gebruik te maken van gebruikersgeschiedenissen, is systematische evaluatie van dergelijke personalisatie nog onderbelicht. Om deze leemte aan te pakken, stellen we BESPOKE voor, de realistische benchmark voor het evalueren van personalisatie in zoekondersteunde LLMs. BESPOKE is ontworpen om zowel realistisch te zijn, door authentieke chat- en zoekgeschiedenissen rechtstreeks van mensen te verzamelen, als diagnostisch, door reacties te koppelen aan gedetailleerde voorkeursscores en feedback. De benchmark is opgebouwd door langdurige, diepgaande menselijke annotatie, waarbij menselijke annotatoren hun eigen geschiedenissen hebben bijgedragen, zoekopdrachten hebben opgesteld met gedetailleerde informatiebehoeften, en reacties hebben geëvalueerd met scores en diagnostische feedback. Door gebruik te maken van BESPOKE, voeren we systematische analyses uit die belangrijke vereisten voor effectieve personalisatie in informatiezoektaken onthullen, en bieden we een basis voor gedetailleerde evaluatie van gepersonaliseerde zoekondersteunde LLMs. Onze code en gegevens zijn beschikbaar op https://augustinlib.github.io/BESPOKE/.
Ondanks gestage vooruitgang in layout-naar-beeldgeneratie, hebben huidige methoden nog steeds moeite met lay-outs die aanzienlijke overlap tussen begrenzingsvakken bevatten. We identificeren twee primaire uitdagingen: (1) grote overlappende gebieden en (2) overlappende instanties met minimale semantische onderscheiding. Door zowel kwalitatieve voorbeelden als kwantitatieve analyse tonen we aan hoe deze factoren de generatiekwaliteit verminderen. Om dit probleem systematisch te beoordelen, introduceren we OverLayScore, een nieuwe metriek die de complexiteit van overlappende begrenzingsvakken kwantificeert. Onze analyse onthult dat bestaande benchmarks bevooroordeeld zijn naar eenvoudigere gevallen met lage OverLayScore-waarden, wat hun effectiviteit beperkt in het evalueren van modelprestaties onder meer uitdagende omstandigheden. Om deze kloof te overbruggen, presenteren we OverLayBench, een nieuwe benchmark met hoogwaardige annotaties en een gebalanceerde verdeling over verschillende niveaus van OverLayScore. Als eerste stap naar het verbeteren van prestaties op complexe overlaps, stellen we ook CreatiLayout-AM voor, een model afgestemd op een gecureerde amodale maskerdataset. Samen leggen onze bijdragen de basis voor robuustere layout-naar-beeldgeneratie onder realistische en uitdagende scenario's. Projectlink: https://mlpc-ucsd.github.io/OverLayBench.
Video reasoning is naar voren gekomen als een cruciale vaardigheid voor multimodale grote taalmodellen (MLLMs), waarbij modellen verder moeten gaan dan statische perceptie naar een coherent begrip van temporele dynamiek in complexe scènes. Toch vertonen bestaande MLLMs vaak procesinconsistentie, waarbij het tussentijdse redeneren afwijkt van de videodynamiek, zelfs wanneer het uiteindelijke antwoord correct is, wat de interpreteerbaarheid en robuustheid ondermijnt. Om dit probleem aan te pakken, introduceren we MOSS-ChatV, een reinforcement learning-framework met een op Dynamic Time Warping (DTW) gebaseerde procesbeloning. Deze regelgebaseerde beloning zorgt ervoor dat redeneersporen worden afgestemd op temporeel verankerde referenties, waardoor efficiënte procesbegeleiding mogelijk wordt zonder aanvullende beloningsmodellen. We identificeren verder dynamische staatspredictie als een belangrijke maatstaf voor video reasoning en construeren MOSS-Video, een benchmark met geannoteerde redeneersporen, waarbij de trainingsset wordt gebruikt om MOSS-ChatV te finetunen en de gereserveerde set wordt gebruikt voor evaluatie. MOSS-ChatV behaalt 87,2\% op MOSS-Video (test) en verbetert de prestaties op algemene videobenchmarks zoals MVBench en MMVU. Het framework levert consistent verbeteringen op over verschillende architecturen, waaronder Qwen2.5-VL en Phi-2, wat de brede toepasbaarheid bevestigt. Evaluaties met GPT-4o-als-rechter tonen verder aan dat MOSS-ChatV meer consistente en stabiele redeneersporen produceert.
Traditionele aanbevelingssystemen vertrouwen op passieve feedbackmechanismen die gebruikers beperken tot eenvoudige keuzes zoals 'leuk' en 'niet leuk'. Deze grove signalen slagen er echter niet in om de genuanceerde gedragsmotivaties en intenties van gebruikers vast te leggen. Hierdoor kunnen huidige systemen ook niet onderscheiden welke specifieke itemkenmerken gebruikers tevredenheid of ontevredenheid veroorzaken, wat leidt tot onnauwkeurige voorkeursmodellering. Deze fundamentele beperkingen creëren een hardnekkige kloof tussen gebruikersintenties en systeeminterpretaties, wat uiteindelijk de gebruikers tevredenheid ondermijnt en de effectiviteit van het systeem schaadt. Om deze beperkingen aan te pakken, introduceren we de Interactive Recommendation Feed (IRF), een baanbrekend paradigma dat natuurlijke taalcommando's mogelijk maakt binnen mainstream aanbevelingsfeeds. In tegenstelling tot traditionele systemen die gebruikers beperken tot passieve impliciete gedragsbeïnvloeding, geeft IRF gebruikers actieve expliciete controle over aanbevelingsbeleid via real-time linguïstische commando's. Om dit paradigma te ondersteunen, ontwikkelen we RecBot, een dual-agent architectuur waarin een Parser Agent linguïstische uitdrukkingen omzet in gestructureerde voorkeuren en een Planner Agent dynamisch adaptieve toolketens orkestreert voor on-the-fly beleidsaanpassing. Om praktische implementatie mogelijk te maken, gebruiken we simulatie-augmented knowledge distillation om efficiënte prestaties te bereiken terwijl sterke redeneercapaciteiten behouden blijven. Door uitgebreide offline en langdurige online experimenten toont RecBot significante verbeteringen in zowel gebruikers tevredenheid als zakelijke resultaten.
Wij stellen een raamwerk voor dat neurale modellen in staat stelt om "te denken terwijl ze luisteren" naar alledaagse geluiden, waardoor de prestaties van audioclassificatie worden verbeterd. Geïnspireerd door recente vooruitgang in de redeneervaardigheden van grote taalmodel(len), behandelen we twee centrale vragen: (i) hoe kan denken worden geïntegreerd in bestaande audioclassificatiepijplijnen om redeneren in de categorie-ruimte mogelijk te maken en de prestaties te verbeteren, en (ii) kan een nieuwe architectuur vanaf de grond worden ontworpen om zowel denken als schaling tijdens de testfase te ondersteunen? Wij tonen aan dat in beide situaties onze modellen een verbeterde classificatienauwkeurigheid vertonen. Door gebruik te maken van schaling tijdens de testfase, observeren we consistente verbeteringen naarmate het aantal bemonsterde sporen toeneemt. Daarnaast evalueren we twee open-source redeneermodellen, GPT-OSS-20B en Qwen3-14B, en laten zien dat hoewel dergelijke modellen in staat zijn tot zero-shot redeneren, een lichtgewicht aanpak—waarbij alleen de embeddingmatrix van een bevroren, kleiner model zoals GPT-2 wordt hertraind—de prestaties van op tekst gebaseerde redeneermodellen met miljarden parameters kan overtreffen.
Perceptuele optimalisatie wordt voornamelijk aangedreven door het doel van trouwheid, dat zowel semantische consistentie als algemene visuele realisme afdwingt, terwijl het adversariële doel complementaire verfijning biedt door perceptuele scherpte en fijnmazige details te verbeteren. Ondanks hun centrale rol blijft de correlatie tussen hun effectiviteit als optimalisatiedoelen en hun vermogen als beeldkwaliteitsbeoordelingsmetrieken (IQA) onderbelicht. In dit werk voeren we een systematische analyse uit en onthullen een onverwachte asymmetrie tussen perceptuele optimalisatie en beoordeling: trouwheidsmetrieken die uitblinken in IQA zijn niet noodzakelijk effectief voor perceptuele optimalisatie, waarbij deze misalignment duidelijker naar voren komt onder adversariële training. Daarnaast, hoewel discriminatoren artefacten effectief onderdrukken tijdens optimalisatie, bieden hun geleerde representaties slechts beperkte voordelen wanneer ze worden hergebruikt als backbone-initialisaties voor IQA-modellen. Naast deze asymmetrie tonen onze bevindingen verder aan dat het ontwerp van de discriminator een beslissende rol speelt in het vormgeven van optimalisatie, waarbij patch-niveau en convolutionele architecturen een getrouwere detailreconstructie bieden dan standaard of Transformer-gebaseerde alternatieven. Deze inzichten bevorderen het begrip van het ontwerp van verliesfuncties en de verbinding met IQA-overdraagbaarheid, wat de weg effent voor meer principiële benaderingen van perceptuele optimalisatie.
End-to-End (E2E) oplossingen zijn uitgegroeid tot een mainstream benadering voor autonome rijsystemen, waarbij Vision-Language-Action (VLA) modellen een nieuw paradigma vertegenwoordigen dat gebruikmaakt van vooraf getrainde multimodale kennis uit Vision-Language Models (VLMs) om complexe real-world omgevingen te interpreteren en ermee te interacteren. Deze methoden blijven echter beperkt door de tekortkomingen van imitatieleren, dat moeite heeft om fysieke regels inherent te coderen tijdens de training. Bestaande benaderingen vertrouwen vaak op complexe regelgebaseerde nabewerking, gebruiken reinforcement learning dat grotendeels beperkt blijft tot simulaties, of maken gebruik van diffusiebegeleiding die rekenintensieve gradientberekeningen vereist. Om deze uitdagingen aan te pakken, introduceren we ReflectDrive, een nieuw op leren gebaseerd framework dat een reflectiemechanisme integreert voor veilige trajectgeneratie via discrete diffusie. We discretiseren eerst de tweedimensionale rijruimte om een actiecodeboek te construeren, waardoor het gebruik van vooraf getrainde Diffusion Language Models voor plannings taken mogelijk wordt door middel van fine-tuning. Centraal in onze aanpak staat een veiligheidsbewust reflectiemechanisme dat iteratieve zelfcorrectie uitvoert zonder gradientberekening. Onze methode begint met doelgerichte trajectgeneratie om multimodale rijgedragingen te modelleren. Vervolgens passen we lokale zoekmethoden toe om onveilige tokens te identificeren en haalbare oplossingen te bepalen, die vervolgens dienen als veilige ankers voor regeneratie op basis van inpainting. Geëvalueerd op de NAVSIM benchmark, toont ReflectDrive significante voordelen in veiligheidskritische trajectgeneratie, en biedt het een schaalbare en betrouwbare oplossing voor autonome rijsystemen.
De effectiviteit van Large Language Models (LLMs) wordt sterk beïnvloed door de redeneerstrategieën, of denkstijlen, die worden gebruikt in hun prompts. Echter, de interactie tussen deze denkstijlen, modelarchitectuur en taaktype blijft slecht begrepen. Om dit aan te pakken, introduceren we StyleBench, een uitgebreide benchmark voor het systematisch evalueren van denkstijlen over diverse taken en modellen. We beoordelen vijf representatieve denkstijlen, waaronder Chain of Thought (CoT), Tree of Thought (ToT), Algorithm of Thought (AoT), Sketch of Thought (SoT), en Chain-of-Draft (CoD) op vijf redeneertaken, waarbij we gebruikmaken van 15 open-source modellen uit belangrijke families (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi, en DeepSeek) met een bereik van 270M tot 120B parameters. Onze grootschalige analyse toont aan dat geen enkele stijl universeel optimaal is. We laten zien dat de effectiviteit van een strategie sterk afhankelijk is van zowel de schaal van het model als het type taak: zoekgebaseerde methoden (AoT, ToT) blinken uit in open-einde problemen maar vereisen grootschalige modellen, terwijl beknopte stijlen (SoT, CoD) radicale efficiëntiewinsten behalen op goed gedefinieerde taken. Bovendien identificeren we belangrijke gedragspatronen: kleinere modellen slagen er vaak niet in om uitvoerinstructies te volgen en vervallen in gissen, terwijl robuustheid in redeneren ontstaat als een functie van schaal. Onze bevindingen bieden een cruciale routekaart voor het selecteren van optimale redeneerstrategieën op basis van specifieke beperkingen, en we maken de benchmark openbaar op https://github.com/JamesJunyuGuo/Style_Bench.
Dit artikel introduceert het Hazard-Aware System Card (HASC), een nieuw raamwerk ontworpen om transparantie en verantwoordelijkheid te vergroten bij de ontwikkeling en implementatie van AI-systemen. De HASC bouwt voort op bestaande concepten zoals model cards en system cards door een uitgebreid, dynamisch overzicht te integreren van de beveiligings- en veiligheidsstatus van een AI-systeem. Het raamwerk stelt een gestandaardiseerd systeem van identificatoren voor, waaronder een nieuwe AI Safety Hazard (ASH) ID, om bestaande beveiligingsidentificatoren zoals CVEs aan te vullen, waardoor een duidelijke en consistente communicatie van opgeloste problemen mogelijk wordt. Door een enkele, toegankelijke bron van waarheid te bieden, stelt de HASC ontwikkelaars en belanghebbenden in staat om beter geïnformeerde beslissingen te nemen over de veiligheid van AI-systemen gedurende hun levenscyclus. Tot slot vergelijken we onze voorgestelde AI-system cards met de ISO/IEC 42001:2023-standaard en bespreken we hoe ze elkaar kunnen aanvullen, wat zorgt voor meer transparantie en verantwoordelijkheid voor AI-systemen.
Grote audio-taalmodelen (LALMs) tonen een sterke zero-shot-capaciteit bij spraaktaken, wat beloftevol is voor spraakemotieherkenning (SER). Echter faalt SER in praktijkimplementaties vaak onder domeinmismatch, waarbij brondata niet beschikbaar zijn en krachtige LALMs alleen toegankelijk zijn via een API. We stellen de vraag: kan een studentmodel, gegeven alleen ongelabelde doel-domein audio en een API-only LALM, worden aangepast om het LALM in het doeldomein te overtreffen? Hiertoe stellen we MI-Fuse voor, een gedenoisd label-fusiekader dat het LALM aanvult met een in het brondomein getrainde SER-classificator als aanvullende leraar. Het kader haalt meerdere stochastische voorspellingen op van beide leraren, weegt hun gemiddelde verdelingen op basis van wederzijdse-informatie-gerelateerde onzekerheid, en stabiliseert de training met een exponentieel voortschrijdend gemiddelde leraar. Experimenten over drie openbare emotiedatasets en zes domeinoverschrijdende transfers tonen consistente verbeteringen, waarbij de student het LALM overtreft en de sterkste baseline met 3,9% verslaat. Deze aanpak versterkt emotiebewuste spraaksystemen zonder brondata te delen, waardoor realistische aanpassing mogelijk wordt.
Het detecteren van hatelijke content is een uitdagend en belangrijk probleem. Geautomatiseerde tools, zoals machine learning-modellen, kunnen hierbij helpen, maar ze vereisen continue training om zich aan te passen aan het voortdurend veranderende landschap van sociale media. In dit werk evalueren we de capaciteit van acht open-source LLM's om antisemitische content te detecteren, waarbij we specifiek gebruikmaken van in-context definities als beleidsrichtlijn. We onderzoeken verschillende promptingtechnieken en ontwerpen een nieuwe CoT-achtige prompt, Guided-CoT. Guided-CoT gaat goed om met het in-context beleid en verbetert de prestaties van alle geëvalueerde modellen, ongeacht de decodeerconfiguratie, modelgroottes of redeneercapaciteit. Opmerkelijk is dat Llama 3.1 70B beter presteert dan een fijn afgestemd GPT-3.5. Daarnaast onderzoeken we fouten van LLM's en introduceren we metrieken om semantische divergentie in door modellen gegenereerde redeneringen te kwantificeren, wat opmerkelijke verschillen en paradoxaal gedrag onder LLM's aan het licht brengt. Onze experimenten benadrukken de verschillen in bruikbaarheid, verklaarbaarheid en betrouwbaarheid die worden waargenomen bij verschillende LLM's.