Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Trainingsstabiliteit blijft een centrale uitdaging bij reinforcement learning (RL) voor grote taalmmodellen (LLM's). Beleidsveroudering, asynchrone training en verschillen tussen trainings- en inferentie-engines zorgen er allemaal voor dat het gedragsbeleid afwijkt van het huidige beleid, wat het risico op trainingsinstorting met zich meebrengt. Belangsampling biedt een principiële correctie voor deze distributieverschuiving, maar lijdt onder hoge variantie; bestaande oplossingen zoals token-level clipping en sequentieniveau-normalisatie missen een eenduidige theoretische basis. Wij stellen Variational sEquence-level Soft Policy Optimization (VESPO) voor. Door variantiereductie op te nemen in een variationele formulering over voorstellingsdistributies, leidt VESPO een gesloten-vorm hervormingskernel af die rechtstreeks werkt op sequentieniveau-belanggewichten zonder lengtenormalisatie. Experimenten op wiskundige redeneerbenchmarks tonen aan dat VESPO een stabiele training handhaaft bij verouderingsratio's tot 64x en volledig asynchrone uitvoering, en consistente verbeteringen oplevert bij zowel dense modellen als Mixture-of-Experts-modellen. Code is beschikbaar op https://github.com/FloyedShen/VESPO.
Recente vooruitgang in grotere redeneermodellen (LRM's) heeft hun capaciteiten voor complexe redeneertaken aanzienlijk verbeterd door middel van Lange Denkketens (CoT's). Deze aanpak resulteert echter vaak in aanzienlijke redundantie, wat de computationele efficiëntie schaadt en aanzienlijke vertragingen veroorzaakt in real-time toepassingen. Recente studies tonen aan dat langere redeneerketens vaak geen verband houden met correctheid en zelfs nadelig kunnen zijn voor de nauwkeurigheid. In een verdere diepgaande analyse van dit fenomeen, ontdekken en verifiëren we verrassend genoeg empirisch dat LRM's impliciet weten wanneer ze moeten stoppen met denken, maar dat dit vermogen wordt verhuld door huidige samplingparadigma's. Gemotiveerd door deze bevinding introduceren we SAGE (Zelfbewust Gestuurd Efficiënt Redeneren), een nieuw samplingparadigma dat dit efficiënte redeneerpotentieel ontsluit. Bovendien stelt de integratie van SAGE als gemengde sampling in op groepen gebaseerde reinforcement learning (SAGE-RL) SAGE-RL in staat om efficiënte redeneerpatronen die door SAGE zijn ontdekt effectief te incorporeren in standaard pass@1-inferentie, waardoor zowel de redeneernauwkeurigheid als efficiëntie van LRM's aanzienlijk wordt verbeterd op meerdere uitdagende wiskundige benchmarks.
Extended reality (XR) vereist generatieve modellen die reageren op de getrackte bewegingen van gebruikers in de echte wereld. Toch accepteren huidige videowereldmodellen alleen grove stuursignalen zoals tekst of toetsenbordinvoer, wat hun bruikbaarheid voor belichaamde interactie beperkt. Wij introduceren een mensgericht videowereldmodel dat wordt gestuurd door zowel getrackte hoofdoriëntatie als handposities op gewrichtsniveau. Hiertoe evalueren we bestaande conditioneringstrategieën voor diffusion transformers en stellen we een effectief mechanisme voor voor 3D-hand- en hoofdsturing, waardoor behendige hand-objectinteracties mogelijk worden. We trainen een bidirectioneel videodiffusiemodel (leraar) met deze strategie en distilleren dit tot een causaal, interactief systeem dat egocentrische virtuele omgevingen genereert. We evalueren dit gegenereerde realiteit-systeem met menselijke proefpersonen en tonen verbeterde taakprestaties aan, evenals een significant hoger niveau van ervaren controle over de uitgevoerde handelingen in vergelijking met relevante baseline-methoden.
Visuele analogie-leren maakt beeldmanipulatie mogelijk door demonstratie in plaats van tekstuele beschrijving, waardoor gebruikers complexe transformaties kunnen specificeren die moeilijk onder woorden te brengen zijn. Gegeven een triplet {a, a', b} is het doel om b' te genereren zodanig dat a : a' :: b : b'. Recente methoden passen tekst-naar-beeld-modellen aan voor deze taak met behulp van een enkele Low-Rank Adaptation (LoRA)-module, maar ze kampen met een fundamentele beperking: pogingen om de diverse ruimte van visuele transformaties vast te leggen binnen een vaste adaptatiemodule beperken de generalisatiemogelijkheden. Geïnspireerd door recent onderzoek dat aantoont dat LoRA's in beperkte domeinen betekenisvolle, interpolatiebare semantische ruimtes omspannen, stellen wij LoRWeB voor: een nieuwe aanpak die het model specialiseert voor elke analogietaak tijdens inferentie door dynamische compositie van geleerde transformatieprimitieven, informeel gezegd door een punt te kiezen in een "ruimte van LoRA's". We introduceren twee sleutelcomponenten: (1) een leerbare basis van LoRA-modules om de ruimte van verschillende visuele transformaties te omspannen, en (2) een lichtgewicht encoder die deze basis-LoRA's dynamisch selecteert en weegt op basis van het invoeranalogiepaar. Uitgebreide evaluaties tonen aan dat onze aanpak state-of-the-art prestaties bereikt en de generalisatie naar onzichtbare visuele transformaties aanzienlijk verbetert. Onze bevindingen suggereren dat LoRA-basisdecomposities een veelbelovende richting zijn voor flexibele beeldmanipulatie. Code en data staan op https://research.nvidia.com/labs/par/lorweb.
Decoderen bevindt zich tussen een taalmodel en alles wat we ermee doen, maar wordt nog steeds behandeld als een heuristische oefening in het afstellen van knoppen. Wij beargumenteren dat decoderen moet worden begrepen als een principiële optimalisatielaag: bij elke token lossen we een geregulariseerd probleem op de waarschijnlijkheidssimplex op, dat een afweging maakt tussen de modelscore en structurele voorkeuren en beperkingen. Dit enkele template herleidt gulzig decoderen, Softmax-steekproefname, Top-K, Top-P en Sparsemax-achtige sparseheid als speciale gevallen, en verklaart hun gemeenschappelijke structuur via optimaliteitscondities. Belangrijker nog, het raamwerk maakt het gemakkelijk om nieuwe decoders te ontwerpen zonder folklore. We demonstreren dit door Best-of-K (BoK) te ontwerpen, een KL-verankerde dekkingsobjectief gericht op multi-sample pijplijnen (zelfconsistentie, herrangschikking, verifiëerselectie). BoK mikt op de waarschijnlijkheid om goede alternatieven te dekken binnen een vast K-sample budget en verbetert de empirische prestaties. We tonen aan dat dergelijke steekproeven de nauwkeurigheid kunnen verbeteren, bijvoorbeeld met +18,6% voor Qwen2.5-Math-7B op MATH500 bij hoge steekproeftemperaturen.
Mensen kunnen objecten in rommelige omgevingen herschikken met behulp van egocentrische perceptie, waarbij ze occlusies navigeren zonder globale coördinaten. Geïnspireerd door deze capaciteit bestuderen we langetermijn, multi-object, niet-grijpbare herschikking voor mobiele robots met een enkele egocentrische camera. We introduceren EgoPush, een raamwerk voor beleidsleren dat egocentrische, perceptiegestuurde herschikking mogelijk maakt zonder te vertrouwen op expliciete globale toestandsschatting, die vaak faalt in dynamische scènes. EgoPush ontwerpt een objectgecentreerde latente ruimte om relatieve ruimtelijke relaties tussen objecten te coderen, in plaats van absolute posities. Dit ontwerp stelt een geprivilegieerde reinforcement learning (RL) leraar in staat om gezamenlijk latente toestanden en mobiele acties te leren van schaarse keypoints, die vervolgens worden gedistilleerd in een puur visueel studentenbeleid. Om het toezichtverschil tussen de alwetende leraar en de gedeeltelijk geobserveerde student te verkleinen, beperken we de waarnemingen van de leraar tot visueel toegankelijke signalen. Dit induceert actieve perceptiegedragingen die herstelbaar zijn vanuit het gezichtspunt van de student. Om langetermijn credit assignment aan te pakken, ontbinden we herschikking in fasegewijze deelproblemen met behulp van tijdelijk vervallende, fase-lokale voltooiingsbeloningen. Uitgebreide simulatie-experimenten tonen aan dat EgoPush end-to-end RL-baselines significant overtreft in slagingspercentage, waarbij ablatiestudies elke ontwerpkeuze valideren. We demonstreren verder zero-shot sim-to-real transfer op een mobiel platform in de echte wereld. Code en video's zijn beschikbaar op https://ai4ce.github.io/EgoPush/.
Naarmate belichaamde agents een centrale rol gaan spelen in VR, telepresence en digitale mens-toepassingen, moet hun beweging verder gaan dan spraak-gebarende gebaren: agents moeten zich naar gebruikers toedraaien, reageren op hun bewegingen en een natuurlijke blikrichting behouden. Huidige methoden missen dit ruimtelijk bewustzijn. Wij dichten deze kloof met de eerste real-time, volledig causale methode voor ruimtelijk bewuste conversatiebeweging, die inzetbaar is op een streaming VR-headset. Gebaseerd op de positie van een gebruiker en dyadische audio, produceert onze aanpak volledige lichaamsbeweging die gebaren afstemt op spraak, terwijl de agent zich oriënteert volgens de gebruiker. Onze architectuur combineert een causale transformer-gebaseerde VAE met geïnterleefde latente tokens voor streaming inferentie en een flow matching-model geconditioneerd op gebruikersbaan en audio. Om variërende blikvoorkeuren te ondersteunen, introduceren we een blikscoringsmechanisme met classifier-free guidance om leren van controle te ontkoppelen: het model legt natuurlijke ruimtelijke afstemming vast uit data, terwijl gebruikers de intensiteit van oogcontact tijdens inferentie kunnen aanpassen. Op de Embody 3D-dataset behaalt onze methode state-of-the-art beweegkwaliteit met meer dan 300 FPS – 3x sneller dan niet-causale benchmarks – en vangt tegelijk de subtiele ruimtelijke dynamiek van natuurlijke conversatie. Wij valideren onze aanpak op een live VR-systeem, waardoor ruimtelijk bewuste conversatieagents real-time inzetbaar worden. Zie https://evonneng.github.io/sarah/ voor details.
Compacte vooraf getrainde bidirectionele encoders vormen nog steeds de ruggengraat van industriële NLP onder strikte reken- en geheugenbudgetten. Hun effectiviteit vloeit voort uit het vermogen van self-attention om hoogwaardige bidirectionele contextualisatie te bieden met parallelisme op sequentieniveau, zoals populair gemaakt door BERT-achtige architecturen. Recent werd Avey geïntroduceerd als een autoregressief, attention-vrij alternatief dat zich natuurlijk leent voor een encoder-only aanpassing. In dit artikel herformuleren we Avey voor het encoder-only paradigma en stellen we verschillende innovaties voor in de architectuur, waaronder ontkoppelde statische en dynamische parameterisaties, stabiliteitsgerichte normalisatie en neurale compressie. Resultaten tonen aan dat deze herformuleerde architectuur gunstig afsteekt tegen vier veelgebruikte Transformer-gebaseerde encoders, door hen consistent te overtreffen op standaard tokenclassificatie- en informatie-retrieval benchmarks, terwijl ze efficiënter schaalt naar lange contexten.
Reinforcement Learning with Verifiable Rewards (RLVR) is effectief gebleken in het verbeteren van het visueel reflectie- en redeneervermogen van Large Multimodal Models (LMM's). Bestaande datasets zijn echter voornamelijk afkomstig van kleinschalige handmatige constructie of recombinatie van bestaande bronnen, wat de diversiteit en dekking van de data beperkt en daardoor verdere verbetering van de modelprestaties in de weg staat. Daarom introduceren wij DeepVision-103K, een uitgebreide dataset voor RLVR-training die diverse wiskundeonderwerpen uit het K12-onderwijs, uitgebreide kennispunten en rijke visuele elementen omvat. Modellen die getraind zijn op DeepVision behalen sterke prestaties op multimodale wiskundige benchmarks en generaliseren effectief naar algemene multimodale redeneertaken. Verdere analyse toont een verbeterd visueel waarnemings-, reflectie- en redeneervermogen aan bij getrainde modellen, wat de effectiviteit van DeepVision voor het bevorderen van multimodaal redeneren bevestigt. Data: https://huggingface.co/datasets/skylenage/DeepVision-103K{deze url}.
Bestaande online videosegmentatiemodellen combineren doorgaans een per-frame-segmentatiemodel met complexe gespecialiseerde trackingmodules. Hoewel effectief, introduceren deze modules aanzienlijke architecturale complexiteit en rekenkosten. Recente studies suggereren dat standaard Vision Transformer (ViT)-encoders, wanneer geschaald met voldoende capaciteit en grootschalige voorafgaande training, nauwkeurige beeldsegmentatie kunnen uitvoeren zonder gespecialiseerde modules. Gemotiveerd door deze observatie stellen we de Video Encoder-only Mask Transformer (VidEoMT) voor, een eenvoudig encoder-only videosegmentatiemodel dat de noodzaak voor toegewijde trackingmodules elimineert. Om temporele modellering mogelijk te maken in een encoder-only ViT, introduceert VidEoMT een lichtgewicht querypropagatiemechanisme dat informatie tussen frames overdraagt door queries van het vorige frame te hergebruiken. Om dit in evenwicht te brengen met aanpassingsvermogen aan nieuwe inhoud, gebruikt het een queryfusiestrategie die de gepropageerde queries combineert met een set temporeel-agnostische aangeleerde queries. Hierdoor bereikt VidEoMT de voordelen van een tracker zonder toegevoegde complexiteit, waarbij het competitieve nauwkeurigheid behaalt terwijl het 5x tot 10x sneller is, met een snelheid tot 160 FPS met een ViT-L-backbone. Code: https://www.tue-mps.org/videomt/
Wij presenteren 4RC, een uniform feed-forward raamwerk voor 4D-reconstructie vanuit monoculaire video's. In tegenstelling tot bestaande benaderingen die beweging typisch ontkoppelen van geometrie of slechts beperkte 4D-attributen produceren, zoals sparse trajectoriën of tweebeeld scèneflow, leert 4RC een holistische 4D-representatie die dichte scènegeometrie en bewegingsdynamica gezamenlijk vastlegt. De kern van 4RC introduceert een nieuw 'encode-once, query-anywhere and anytime'-paradigma: een transformer-backbone codeert de volledige video in een compacte spatio-temporele latente ruimte, waaruit een conditionele decoder efficiënt 3D-geometrie en beweging kan opvragen voor elk query-frame op elk gewenst tijdstip. Om het leren te vergemakkelijken, representeren we 4D-attributen per viewpoint in een minimaal gefactoriseerde vorm door ze te decomponeren in basisgeometrie en tijd-afhankelijke relatieve beweging. Uitgebreide experimenten tonen aan dat 4RC eerdere en gelijktijdige methoden overtreft bij een breed scala aan 4D-reconstructietaken.
Versterkend leren biedt een raamwerk voor het leren van besturingsbeleid dat diverse bewegingen voor gesimuleerde karakters kan reproduceren. Dergelijk beleid maakt echter vaak gebruik van onnatuurlijke hoogfrequente signalen die niet haalbaar zijn voor mensen of fysieke robots, waardoor ze slechte representaties zijn van real-world gedrag. Bestaand werk lost dit op door een beloningsterm toe te voegen die grote veranderingen in acties over de tijd bestraft. Deze term vereist vaak aanzienlijke afstelinspanningen. Wij stellen voor om de actie-Jacobiaan-straf te gebruiken, die veranderingen in actie direct bestraft met betrekking tot veranderingen in de gesimuleerde toestand via automatische differentiatie. Dit elimineert effectief onrealistische hoogfrequente besturingssignalen zonder taakspecifieke afstelling. Hoewel effectief, introduceert de actie-Jacobiaan-straf een aanzienlijke rekenkundige overhead bij gebruik met traditionele volledig verbonden neurale netwerkarchitecturen. Om dit te verminderen, introduceren we een nieuwe architectuur genaamd een Lineair Beleidsnet (LPN) die de rekenlast voor het berekenen van de actie-Jacobiaan-straf tijdens de training aanzienlijk vermindert. Bovendien vereist een LPN geen parameterafstelling, vertoont het een snellere leerconvergentie vergeleken met baseline-methoden, en kan het efficiënter worden bevraagd tijdens inferentie vergeleken met een volledig verbonden neuraal netwerk. We tonen aan dat een Lineair Beleidsnet, gecombineerd met de actie-Jacobiaan-straf, in staat is beleid te leren dat gladde signalen genereert terwijl het een aantal beweging imitatietaken met verschillende kenmerken oplost, inclusief dynamische bewegingen zoals een backflip en diverse uitdagende parkourvaardigheden. Ten slotte passen we deze aanpak toe om beleid te creëren voor dynamische bewegingen op een fysieke viervoetige robot uitgerust met een arm.
Diffusion Language Models (DLM's) veroorzaken hoge inferentiekosten door iteratieve ruisverwijdering, wat de motivatie vormt voor efficiënte pruning. Bestaande pruningheuristieken, grotendeels overgenomen van autoregressieve (AR) LLM's, behouden typisch aandachtssink-tokens omdat AR-sinks fungeren als stabiele globale ankers. Wij tonen aan dat deze aanname niet opgaat voor DLM's: de positie van de aandachtssink vertoont aanzienlijk hogere variantie over het volledige generatietraject (gemeten aan de hand van hoe de dominante sinklocaties verschuiven tussen tijdstappen), wat aangeeft dat sinks vaak tijdelijk en minder structureel essentieel zijn dan in AR-modellen. Gebaseerd op deze observatie stellen wij **Sink-Aware Pruning** voor, dat automatisch onstabiele sinks in DLM's identificeert en wegprunt (eerdere studies behouden sinks meestal voor AR LLM's). Zonder hertraining bereikt onze methode een betere kwaliteit-efficiëntie-afweging en presteert beter dan sterke eerdere pruning-baselines bij gelijke rekenkracht. Onze code is beschikbaar op https://github.com/VILA-Lab/Sink-Aware-Pruning.
Grote Visueel-Taalmodellen (LVLM's) hebben opmerkelijke vooruitgang geboekt, maar lijden vaak aan taalvooroordeel, waarbij ze antwoorden produceren zonder zich op visueel bewijs te baseren. Hoewel eerder werk dit probleem probeert te verhelpen met decodeerstrategieën, architectuurwijzigingen of geselecteerde instructiedata, ontbreekt daarbij meestal een kwantitatieve maatstaf voor de vraag in hoeverre individuele trainingsvoorbeelden of tokens daadwerkelijk baat hebben bij de afbeelding. In dit werk introduceren we Visuele Informatiewinst (VIG), een op perplexiteit gebaseerde metriek die de vermindering van voorspellingsonzekerheid door visuele invoer meet. VIG maakt gedetailleerde analyse op zowel voorbeeld- als tokenniveau mogelijk en benadrukt effectief visueel onderbouwde elementen zoals kleuren, ruimtelijke relaties en attributen. Hierop voortbordurend stellen we een VIG-gestuurd selectief trainingsschema voor dat prioriteit geeft aan voorbeelden en tokens met een hoge VIG. Deze aanpak verbetert de visuele verankering en vermindert taalvooroordeel, wat superieure prestaties oplevert met aanzienlijk minder toezicht door uitsluitend te focussen op visueel informatieve voorbeelden en tokens.
Conversatie-agents aangedreven door grote taalmodellen (LLM's) met toolintegratie behalen sterke prestaties op vaste taakgerichte dialoogdatasets, maar blijven kwetsbaar voor onverwachte, door de gebruiker veroorzaakte fouten. In plaats van zich te richten op foutpreventie, richt dit werk zich op foutherstel, wat een accurate diagnose van foutieve dialoogcontexten en de uitvoering van passende herstelplannen vereist. Onder realistische beperkingen die model-finetuning of promptaanpassing uitsluiten vanwege aanzienlijke kosten- en tijdsvereisten, onderzoeken we of agents kunnen herstellen van contextueel gebrekkige interacties en hoe hun gedrag kan worden aangepast zonder modelparameters en prompts te wijzigen. Hiertoe stellen we Reasoning Inception (ReIn) voor, een interventiemethode tijdens het testen die een initiële redenering in het besluitvormingsproces van de agent plant. Specifiek identificeert een externe inception-module vooraf gedefinieerde fouten binnen de dialoogcontext en genereert herstelplannen, die vervolgens worden geïntegreerd in het interne redeneerproces van de agent om corrigerende acties te sturen, zonder de parameters of systeemprompts aan te passen. We evalueren ReIn door systematisch conversatiefaalscenario's te simuleren die de succesvolle voltooiing van gebruikersdoelen direct belemmeren: dubbelzinnige en niet-ondersteunde verzoeken van gebruikers. Over diverse combinaties van agentmodellen en inception-modules verbetert ReIn de taaksucces aanzienlijk en generaliseert het naar onbekende fouttypes. Bovendien presteert het consistent beter dan expliciete promptaanpassingsbenaderingen, wat het nut ervan als een efficiënte, real-time methode onderstreept. Een diepgaande analyse van het werkingsmechanisme, met name in relatie tot instructiehierarchie, geeft aan dat het gezamenlijk definiëren van hersteltools met ReIn kan dienen als een veilige en effectieve strategie om de veerkracht van conversatie-agents te verbeteren zonder de backbone-modellen of systeemprompts aan te passen.
Efficiënte stochastische optimalisatie integreert typisch een update-richting die goed presteert in het deterministische regime met een mechanisme dat zich aanpast aan stochastische verstoringen. Waar Adam adaptieve momentenschatters gebruikt om stabiliteit te bevorderen, benut Muon de matrixstructuur van gewichtslagen via gemet orthogonaliseerd momentum, wat superieure prestaties vertoont bij de training van grote taalmodelen. Wij stellen een nieuwe optimizer voor en een diagonale extensie, NAMO en NAMO-D, die de eerste principiële integratie bieden van orthogonaliseerd momentum met op normen gebaseerde Adam-type ruisadaptatie. NAMO schaalt orthogonaliseerd momentum met behulp van een enkele adaptieve stapgrootte, behoudt orthogonaliteit terwijl het presteert beter dan Muon tegen verwaarloosbare extra kosten. NAMO-D vermenigvuldigt orthogonaliseerd momentum daarentegen rechts met een diagonale matrix met geklemde invoeren. Dit ontwerp maakt ruisadaptatie per neuron mogelijk en sluit aan bij de gebruikelijke bijna blokdiagonale Hessiaanstructuur. Onder standaard aannames stellen we optimale convergentiesnelheden vast voor beide algoritmen in de deterministische setting en tonen we aan dat, in de stochastische setting, hun convergentiegaranties zich aanpassen aan het ruisniveau van stochastische gradiënten. Experimenten met het voor-trainen van GPT-2-modellen demonstreren verbeterde prestaties van zowel NAMO als NAMO-D in vergelijking met de AdamW- en Muon-baselines, waarbij NAMO-D verdere winst behaalt ten opzichte van NAMO via een extra klemhyperparameter die de concurrerende doelstellingen in evenwicht brengt van het handhaven van een goed-geconditioneerde update-richting en het benutten van fijnmazige ruisadaptatie.
Evaluatie- en afstemmingstrajecten voor grote taalmodellen maken in toenemende mate gebruik van op LLM's gebaseerde beoordelaars, waarvan het gedrag wordt gestuurd door natuurlijketaalrubriceringen en gevalideerd met behulp van benchmarks. Wij identificeren een kwetsbaarheid in deze workflow die tot nu toe onderkend is geweest, en die wij Rubric-Geïnduceerde Preferentiedrift (RIPD) noemen. Zelfs wanneer aanpassingen aan rubriceringen de benchmarkvalidatie doorstaan, kunnen ze toch systematische en directionele verschuivingen veroorzaken in de voorkeuren van een beoordelaar op doeldomeinen. Omdat rubriceringen fungeren als een hoogwaardige beslissingsinterface, kan dergelijke drift ontstaan door ogenschijnlijk natuurlijke, criterium-behoudende aanpassingen en moeilijk detecteerbaar blijven via geaggregeerde benchmarkmetingen of beperkte steekproeven. Wij tonen verder aan dat deze kwetsbaarheid kan worden uitgebuit via rubric-gebaseerde preferentieaanvallen, waarbij benchmark-conforme rubriceringaanpassingen de beoordelingen wegsturen van een vaste menselijke of vertrouwde referentie op doeldomeinen, waardoor systematisch RIPD wordt geïnduceerd en de nauwkeurigheid op het doeldomein met tot wel 9,5% (behulpzaamheid) en 27,9% (onschadelijkheid) afneemt. Wanneer deze beoordelingen worden gebruikt om preferentielabels te genereren voor downstream na-training, plant de geïnduceerde bias zich voort door afstemmingstrajecten en wordt deze geïnternaliseerd in getrainde beleidsregels. Dit leidt tot persistente en systematische drift in het modelgedrag. Over het geheel genomen belichten onze bevindingen evaluatierubriceringen als een gevoelige en manipuleerbare controle-interface, wat een systeemniveau afstemmingsrisico onthult dat verder reikt dan alleen de betrouwbaarheid van de beoordelaar. De code is beschikbaar op: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Waarschuwing: Bepaalde secties kunnen mogelijk schadelijk materiaal bevatten dat mogelijk niet geschikt is voor alle lezers.
Het verkrijgen van informatie om onzekerheid over latente groepsniveau-eigenschappen te verminderen uit enquêtes en andere collectieve beoordelingen vereist de toewijzing van beperkte vraagstelinspanning onder reële kosten en ontbrekende gegevens. Hoewel grote taalmodellen adaptieve, multi-turn interacties in natuurlijke taal mogelijk maken, optimaliseren de meeste bestaande elicitatiemethoden wat er gevraagd moet worden met een vaste groep respondenten, en passen zij de selectie van respondenten niet aan of benutten zij populatiestructuur niet wanneer reacties gedeeltelijk of onvolledig zijn. Om deze leemte aan te pakken, bestuderen wij adaptieve groepselicitatie, een multi-ronde setting waarin een agent adaptief zowel vragen als respondenten selecteert onder expliciete query- en deelnamebudgetten. Wij stellen een theoretisch onderbouwd raamwerk voor dat combineert (i) een op grote taalmodellen gebaseerd verwacht informatiewinstdoel voor het scoren van kandidaatvragen met (ii) heterogene grafische neuraalnetwerkpropagatie die waargenomen reacties en deelnemerskenmerken aggregeert om ontbrekende reacties in te vullen en de selectie van respondenten per ronde te sturen. Deze gesloten-lusprocedure bevraagt een kleine, informatieve subset van individuen terwijl populatieniveau-reacties worden afgeleid via gestructureerde gelijkenis. Over drie real-world opiniedatasets heen verbetert onze methode consistent de voorspelling van reacties op populatieniveau onder beperkte budgetten, inclusief een >12% relatieve winst op CES bij een 10% respondentenbudget.