Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het begrijpen van objecten in 3D vanuit een enkele afbeelding is een hoeksteen van ruimtelijke intelligentie. Een cruciale stap in deze richting is monocular 3D-objectdetectie – het herleiden van de afmetingen, locatie en oriëntatie van objecten vanuit een invoer-RGB-afbeelding. Om praktisch bruikbaar te zijn in de open wereld moet een dergelijke detector generaliseren voorbij gesloten categorieën, diverse promptmodaliteiten ondersteunen en, wanneer beschikbaar, gebruikmaken van geometrische aanwijzingen. De vooruitgang wordt belemmerd door twee knelpunten: bestaande methodes zijn ontworpen voor één type prompt en missen een mechanisme om aanvullende geometrische aanwijzingen te integreren, en huidige 3D-datasets beslaan slechts smalle categorieën in gecontroleerde omgevingen, wat de transfer naar de open wereld beperkt. In dit werk adresseren we beide tekortkomingen. Ten eerste introduceren we WildDet3D, een uniforme, geometriebewuste architectuur die van nature tekst-, punt- en vakprompts accepteert en die tijdens de inferentiefase aanvullende dieptesignalen kan incorporeren. Ten tweede presenteren we WildDet3D-Data, de grootste open 3D-detectiedataset tot nu toe, geconstrueerd door kandidaat-3D-vakken te genereren uit bestaande 2D-annotaties en alleen de door mensen geverifieerde te behouden, wat resulteert in meer dan 1 miljoen afbeeldingen verspreid over 13.500 categorieën in diverse real-world scènes. WildDet3D vestigt een nieuwe state-of-the-art across meerdere benchmarks en settings. In de open-world-setting behaalt het 22,6/24,8 AP3D op onze nieuw geïntroduceerde WildDet3D-Bench met tekst- en vakprompts. Op Omni3D bereikt het respectievelijk 34,2/36,4 AP3D met tekst- en vakprompts. In een zero-shot-evaluatie behaalt het 40,3/48,9 ODS op Argoverse 2 en ScanNet. Opmerkelijk is dat het incorporeren van diepte-aanwijzingen tijdens de inferentie aanzienlijke extra winst oplevert (+20,7 AP gemiddeld across alle settings).
De maakindustrie neemt in toenemende mate Multimodale Large Language Models (MLLM's) in gebruik om de overgang te maken van eenvoudige perceptie naar autonome uitvoering. Toch slagen huidige evaluatiemethoden er niet in om de strenge eisen van reële productieomgevingen te weerspiegelen. Vooruitgang wordt belemmerd door een gebrek aan data en een tekort aan gedetailleerde domeinsemantiek in bestaande datasets. Om deze kloof te overbruggen, introduceren we FORGE. We construeren eerst een hoogwaardige multimodale dataset die realistische 2D-beelden en 3D-puntenwolken combineert, geannoteerd met fijnmazige domeinsemantiek (bijvoorbeeld exacte modelnummers). Vervolgens evalueren we 18 state-of-the-art MLLM's op drie productietaken, namelijk werkstukverificatie, inspectie van structurele oppervlakken en assemblageverificatie, wat aanzienlijke prestatiekloofen aan het licht brengt. In tegenstelling tot de conventionele opvatting, toont de bottleneck-analyse aan dat visuele grounding niet de primaire beperkende factor is. In plaats daarvan is onvoldoende domeinspecifieke kennis de belangrijkste bottleneck, wat een duidelijke richting voor toekomstig onderzoek aangeeft. Naast evaluatie tonen we aan dat onze gestructureerde annotaties kunnen dienen als een bruikbare trainingsbron: supervised fine-tuning van een compact 3B-parameter model op onze data levert een relatieve verbetering in nauwkeurigheid van tot wel 90,8% op voor ongebruikte productiescenario's. Dit biedt een eerste aanwijzing voor een praktische weg naar domeinaangepaste productie-MLLM's. De code en datasets zijn beschikbaar op https://ai4manufacturing.github.io/forge-web.
Dit technisch rapport introduceert EXAONE 4.5, het eerste open-weight vision-language model dat wordt vrijgegeven door LG AI Research. EXAONE 4.5 is ontwikkeld door een speciale visuele encoder te integreren in het bestaande EXAONE 4.0-framework, wat native multimodale voortraining op zowel visuele als tekstuele modaliteiten mogelijk maakt. Het model is getraind op grootschalige, zorgvuldig samengestelde data, met bijzondere nadruk op document-gerichte corpora die aansluiten bij de strategische toepassingsdomeinen van LG. Dit gerichte data-ontwerp levert aanzienlijke prestatieverbeteringen op in documentbegrip en aanverwante taken, terwijl het ook brede verbeteringen biedt in algemene taalvaardigheden. EXAONE 4.5 breidt de contextlengte uit tot 256K tokens, wat lange-context redeneren en gebruiksscenario's op ondernemingsschaal vergemakkelijkt. Vergelijkende evaluaties tonen aan dat EXAONE 4.5 competitieve prestaties behaalt in algemene benchmarks, terwijl het state-of-the-art modellen van vergelijkbare schaal overtreft in documentbegrip en Koreaans contextueel redeneren. Als onderdeel van LG's voortdurende inspanningen voor praktische industriële implementatie, is EXAONE 4.5 ontworpen om continu uitgebreid te worden met extra domeinen en toepassingsscenario's om AI te bevorderen voor een beter leven.
Met de vooruitgang in interactieve videogeneratie hebben diffusiemodellen steeds meer hun potentieel getoond als wereldmodellen. Bestaande methoden worstelen echter nog steeds met het gelijktijdig bereiken van langetermijn temporele consistentie met geheugenmogelijkheden en realtime generatie van hoge resolutie, wat hun toepasbaarheid in realistische scenario's beperkt. Om dit aan te pakken, presenteren wij Matrix-Game 3.0, een met geheugen versterkt interactief wereldmodel ontworpen voor realtime langdurige videogeneratie in 720p. Voortbouwend op Matrix-Game 2.0 introduceren wij systematische verbeteringen op het gebied van data, model en inferentie. Ten eerste ontwikkelen wij een geüpgraded industrieel-schaal oneindig data-engine die synthetische data op basis van Unreal Engine integreert, grootschalige geautomatiseerde verzameling van AAA-games en augmentatie van real-world video's om op schaal hoogwaardige viertaldata (Video-Pose-Actie-Prompt) te produceren. Ten tweede stellen wij een trainingsframework voor voor consistentie op lange termijn: door het modelleren van voorspellingsresiduen en het opnieuw injecteren van imperfect gegenereerde frames tijdens de training, leert het basismodel zelfcorrectie; ondertussen stellen camera-aware geheugenretrieval en -injectie het basismodel in staat om langdurige spatiotemporele consistentie te bereiken. Ten derde ontwerpen wij een multi-segment autoregressieve distillatiestrategie gebaseerd op Distribution Matching Distillation (DMD), gecombineerd met modelkwantisatie en VAE-decodersnoei, om efficiënte realtime-inferentie te bereiken. Experimentele resultaten tonen aan dat Matrix-Game 3.0 realtime generatie bereikt tot 40 FPS bij 720p resolutie met een 5B-model, waarbij stabiele geheugenconsistentie over minutenlange sequenties behouden blijft. Opschaling naar een 2x14B-model verbetert verder de generatiekwaliteit, dynamiek en generalisatie. Onze aanpak biedt een praktisch pad richting industrieel-schaal inzetbare wereldmodellen.
Wij introduceren regiogerichte beeldverfijning als een toegewijd probleemstelling: gegeven een invoerbeeld en een door de gebruiker gespecificeerd gebied (bijvoorbeeld een gekrabbeld masker of een begrenzingskader), is het doel om fijngranulaire details te herstellen terwijl alle niet-bewerkte pixels strikt onveranderd blijven. Ondanks snelle vooruitgang in beeldgeneratie lijden moderne modellen nog steeds vaak aan plaatselijk detailverval (zoals vervormde tekst, logo's en dunne structuren). Bestaande instructiegestuurde bewerkingsmodellen leggen de nadruk op grove semantische aanpassingen en negeren vaak subtiele lokale defecten of veranderen onbedoeld de achtergrond, vooral wanneer de regio van interesse slechts een klein deel van een invoer met vaste resolutie inneemt. Wij presenteren RefineAnything, een multimodaal op diffusie gebaseerd verfijningsmodel dat zowel referentiegebaseerde als referentievrije verfijning ondersteunt. Voortbouwend op de contra-intuïtieve observatie dat bijsnijden-en-vergroten de lokale reconstructie aanzienlijk kan verbeteren onder een vaste VAE-invoerresolutie, stellen wij Focus-and-Refine voor, een regiogerichte verfijnings-en-terugplak-strategie die de verfijnings-effectiviteit en -efficiëntie verbetert door het resolutiebudget toe te wijzen aan het doelgebied, terwijl een gemengd-masker terugplakken strikte achtergrondbehoud garandeert. Wij introduceren verder een randbewust Boundary Consistency Loss om naadartefacten te verminderen en de natuurlijkheid van het terugplakken te verbeteren. Om deze nieuwe setting te ondersteunen, construeren wij Refine-30K (20K referentiegebaseerde en 10K referentievrije samples) en introduceren RefineEval, een benchmark die zowel de getrouwheid van het bewerkte gebied als de achtergrondconsistentie evalueert. Op RefineEval behaalt RefineAnything sterke verbeteringen ten opzichte van competitieve baselines en bijna perfect achtergrondbehoud, waarmee een praktische oplossing voor hoogprecisie lokale verfijning wordt gevestigd. Projectpagina: https://limuloo.github.io/RefineAnything/.
Wij introduceren Elastic Looped Transformers (ELT), een zeer parameter-efficiënte klasse van visuele generatieve modellen gebaseerd op een recurrent transformer-architectuur. Terwijl conventionele generatieve modellen vertrouwen op diepe stapels van unieke transformer-lagen, gebruikt onze aanpak iteratieve, gewichtsgedeelde transformer-blokken om het aantal parameters drastisch te verlagen terwijl een hoge synthesekwaliteit behouden blijft. Om deze modellen effectief te trainen voor beeld- en videogeneratie, stellen wij het idee van Intra-Loop Self Distillation (ILSD) voor, waarbij studentconfiguraties (intermediaire lussen) worden gedistilleerd vanuit de teacherconfiguratie (maximale trainingslussen) om consistentie over de diepte van het model te waarborgen in een enkele trainingsstap. Ons framework levert een familie van elastische modellen op vanuit een enkele trainingsrun, wat Any-Time inference-capaciteit mogelijk maakt met dynamische afwegingen tussen computationele kosten en generatiekwaliteit, bij hetzelfde aantal parameters. ELT verschuift de efficiëntiegrens voor visuele synthese aanzienlijk. Met een 4 keer lagere parameterhoeveelheid onder iso-inference-compute omstandigheden, behaalt ELT een competitieve FID van 2.0 op klasse-conditonele ImageNet 256×256 en een FVD van 72.8 op klasse-conditonele UCF-101.
Het genereren van röntgenrapporten van de borstkas (CXR-RG) heeft het potentieel om de werklast van radiologen aanzienlijk te verlichten. Conventionele autoregressieve visie-taalmodellen (VLM's) kampen echter met een hoge inferentielatentie als gevolg van sequentiële token-decodering. Op diffusie gebaseerde modellen bieden een veelbelovend alternatief door parallelle generatie, maar zij vereisen nog steeds meerdere denoiseringsiteraties. Het comprimeren van meerstaps-denoisering naar een enkele stap zou de latentie verder kunnen verminderen, maar gaat vaak ten koste van de tekstuele coherentie door de mean-field bias die wordt geïntroduceerd door token-gefactoriseerde denoisers. Om deze uitdaging aan te pakken, stellen wij ECHO voor, een efficiënt op diffusie gebaseerd VLM (dVLM) voor het genereren van röntgenrapporten van de borstkas. ECHO maakt stabiele inferentie met één stap per blok mogelijk via een nieuw Direct Conditional Distillation (DCD) raamwerk, dat de mean-field beperking mitigeert door ongefactoriseerde supervisie te construeren vanuit on-policy diffusietrajecten om gezamenlijke token-afhankelijkheden te coderen. Daarnaast introduceren wij een Response-Asymmetric Diffusion (RAD) trainingsstrategie die de trainings efficiëntie verder verbetert terwijl de model effectiviteit behouden blijft. Uitgebreide experimenten tonen aan dat ECHO state-of-the-art autoregressieve methoden overtreft, waarbij RaTE en SemScore respectievelijk met 64,33% en 60,58% verbeteren, en tegelijkertijd een 8-voudige versnelling van de inferentie bereikt zonder in te boeten aan klinische nauwkeurigheid.
Grootschalige taalmodelen (LLM's) en op LLM's gebaseerde agents worden steeds vaker ingezet als assistenten bij planning en besluitvorming. Toch zijn de meeste bestaande systemen impliciet geoptimaliseerd voor een enkel-principeel interactieparadigma, waarbij het model is ontworpen om de doelstellingen van één dominante gebruiker te dienen, wiens instructies worden beschouwd als de enige bron van autoriteit en nut. Naarmate ze echter worden geïntegreerd in teamwerkstromen en organisatorische tools, moeten ze in toenemende mate meerdere gebruikers gelijktijdig bedienen, elk met verschillende rollen, voorkeuren en autorisatieniveaus. Dit leidt tot multi-gebruiker, multi-principiële settings met onvermijdelijke conflicten, informatie-asymmetrie en privacybeperkingen. In dit werk presenteren we de eerste systematische studie naar multi-gebruiker LLM-agents. We beginnen met het formaliseren van multi-gebruiker interactie met LLM-agents als een multi-principieel beslissingsprobleem, waarbij één agent rekening moet houden met meerdere gebruikers met potentieel tegenstrijdige belangen en de daarmee gepaard gaande uitdagingen. Vervolgens introduceren we een uniform multi-gebruiker interactieprotocol en ontwerpen we drie gerichte stresstestscenario's om de capaciteiten van huidige LLM's te evalueren op het gebied van instructie-opvolging, privacybescherming en coördinatie. Onze resultaten onthullen systematische tekortkomingen: toonaangevende LLM's slagen er vaak niet in een stabiele prioritering aan te houden bij tegenstrijdige gebruikersdoelstellingen, vertonen een toename van privacyschendingen gedurende multi-turn interacties, en lijden onder efficiëntieknelpunten wanneer coördinatie iteratieve informatievergaring vereist.
Gedecentraliseerde naf-training van grote taalmodel(len) maakt gebruik van gegevens- en pijplijnparallellisme-technieken om de gegevens en het model te verdelen. Helaas kan gedecentraliseerde naf-training kwetsbaar zijn voor vergiftigings- en backdooraanvallen door een of meer kwaadwillende deelnemers. Er zijn verschillende werken verschenen over aanvallen en verdedigingen tegen gedecentraliseerd gegevensparallellisme of federatief leren. Bestaande onderzoeken naar de robuustheid van pijplijnparallellisme zijn echter beperkt tot vergiftigingsaanvallen. Voor zover wij weten, presenteert dit artikel de eerste backdooraanval op pijplijnparallellisme, die is ontworpen om het getrainde model te misaligneren. In onze opzet beheerst de tegenstander een tussenliggende fase van de pijplijn in plaats van het gehele model of de dataset, waardoor bestaande aanvallen, zoals gegevensvergiftiging, niet toepasbaar zijn. Onze experimentele resultaten tonen aan dat zelfs een dergelijke beperkte tegenstander de backdoor kan injecteren en misalignering van het model kan veroorzaken tijdens de naf-training, onafhankelijk van het geleerde domein of de dataset. Met onze aanval daalt het aligneringspercentage door de invoeging van het triggerwoord van 80% naar 6%. We testen de robuustheid van onze aanval verder door safety-alignmenttraining op het uiteindelijke model toe te passen, en tonen aan dat onze backdooraanval in 60% van de gevallen nog steeds slaagt.
Naarmate grote taalmodellen (LLM's) evolueren naar autonome agents voor langetermijn-informatiezoekopdrachten, is het beheren van beperkte contextcapaciteit een kritieke bottleneck geworden. Bestaande contextbeheermethoden hanteren doorgaans een enkele vaste strategie gedurende het gehele traject. Dergelijke statische ontwerpen kunnen in sommige toestanden goed werken, maar ze kunnen zich niet aanpassen naarmate de bruikbaarheid en betrouwbaarheid van de opgebouwde context evolueren tijdens een langdurige zoektocht. Om deze uitdaging te formaliseren, introduceren we een probabilistisch kader dat langetermijnsucces karakteriseert via twee complementaire dimensies: zoekefficiëntie en terminale precisie. Voortbouwend op dit perspectief presenteren we AgentSwing, een toestandsbewust adaptief parallel kader voor contextbeheerroutering. Op elk triggerpunt expandeert AgentSwing parallel meerdere context-gemanagede vertakkingen en gebruikt lookahead-routering om de meest veelbelovende voortzetting te selecteren. Experimenten met diverse benchmarks en agent-backbones tonen aan dat AgentSwing consequent sterke statische contextbeheermethoden overtreft, vaak hun prestaties evenaart of overstijgt met tot 3 keer minder interactiestappen, terwijl ook de uiteindelijke prestatiegrens van langetermijn-webagentschappen wordt verbeterd. Naast de empirische winst biedt het voorgestelde probabilistische kader een principieel perspectief voor het analyseren en ontwerpen van toekomstige contextbeheerstrategieën voor langetermijn-agentschappen.
Het menselijk begrip van videodynamiek is doorgaans verankerd in een gestructureerde mentale representatie van entiteiten, acties en temporele relaties, in plaats van uitsluitend te steunen op onmiddellijk deductief redeneren. In tegenstelling hiermee vertrouwen bestaande Video-LLM's grotendeels op ongestructureerde videoredenatie, waarbij kritisch visueel bewijs verweven zit in uitgebreide tekstuele beschrijvingen en temporele causaliteit vaak zwak wordt gemodelleerd. Dit leidt tot inefficiënte processen en fragiele causale inferentie. Om deze cognitieve kloof te overbruggen, stellen wij voor om vóór de redeneerfase een compacte representatie op te bouwen van salient gebeurtenissen en hun causale relaties, die wij Gestructureerde Gebeurtenis Feiten noemen. Deze gestructureerde prior dient als een expliciete constraint om beknopte en causaal onderbouwde redenering te bevorderen, terwijl het tussentijds bewijs ook beter verifieerbaar wordt. Om modellen effectief te trainen op dergelijke gestructureerde feiten, introduceren wij CausalFact-60K en een vierfasen trainingspipeline bestaande uit feitenalignering, format warm-start, denk-warm-start en reinforcement learning-gebaseerde na-training. Tijdens de RL-fase constateren wij dat dit framework concurrerende doelstellingen introduceert, omdat structurele volledigheid en causale trouw moeten worden afgewogen tegen de redeneerlengte, wat optimalisatie bemoeilijkt. Wij pakken deze uitdaging aan door de optimalisatie te formuleren als een Multi-Objective Reinforcement Learning (MORL) probleem en expliciet te optimaliseren richting de Pareto-frontier om deze afwegingen in balans te brengen. Als resultaat introduceren wij Factum-4B, dat tot betrouwbaardere redenering leidt en sterkere prestaties levert op uitdagende videobegriptaken die fijnmazige temporele inferentie vereisen.
Vision-language models (VLMs) hebben nog steeds moeite met visuele perceptietaken zoals ruimtelijk inzicht en herkenning van gezichtspunten. Een plausibele oorzaak is dat natuurlijke beelddatasets beperkte supervisie bieden voor laagniveau visuele vaardigheden. Dit roept de praktische vraag op: kan gerichte synthetische supervisie, gegenereerd met alleen een taakzoekwoord zoals 'Depth Order', deze zwakke punten verhelpen? Om deze vraag te onderzoeken, introduceren we VisionFoundry, een taakbewust synthetisch datageneratiepipeline die alleen de taaknaam als invoer neemt en grote taalmodellen (LLMs) gebruikt om vragen, antwoorden en tekst-naar-beeld (T2I) prompts te genereren, vervolgens beelden synthetiseert met T2I-modellen en de consistentie verifieert met een propriëtair VLM, zonder referentiebeelden of menselijke annotatie. Met VisionFoundry construeren we VisionFoundry-10K, een synthetische visuele vraag-antwoord (VQA) dataset met 10k beeld-vraag-antwoord triples verdeeld over 10 taken. Modellen getraind op VisionFoundry-10K behalen aanzienlijke verbeteringen op visuele perceptiebenchmarks: +7% op MMVP en +10% op CV-Bench-3D, terwijl ze bredere capaciteiten behouden en gunstige schaalbaarheid vertonen naarmate de dataschaal toeneemt. Onze resultaten suggereren dat beperkte taakgerichte supervisie een belangrijke bijdrage levert aan dit knelpunt en dat synthetische supervisie een veelbelovende weg is naar meer systematische training voor VLMs.
Veel vakgebieden stellen onderzoeksvragen in natuurlijke taal over grote documentverzamelingen, waarvan de antwoorden doorgaans gestructureerd bewijs vereisen. Traditioneel wordt dit verkregen door handmatig een annotatieschema te ontwerpen en de corpus exhaustief te labelen, een traag en foutgevoelig proces. Wij introduceren ScheMatiQ, dat gebruikmaakt van een backbone LLM om op basis van een vraag en een corpus een schema en een gefundeerde database te produceren, met een webinterface die het mogelijk maakt de extractie te sturen en te reviseren. In samenwerking met domeinexperts tonen we aan dat ScheMatiQ resultaten oplevert die real-world analyse ondersteunen in de rechten en de computationele biologie. Wij brengen ScheMatiQ uit als open source met een openbare webinterface en nodigen experts uit alle disciplines uit om het met hun eigen data te gebruiken. Alle bronnen, inclusief de website, broncode en demonstratievideo, zijn beschikbaar op: www.ScheMatiQ-ai.com.
Het nauwkeurig voorspellen van de evolutie van complexe, diverse scènes vereist modellen die onzekerheid representeren, simuleren langs uitgebreide interactieketens en efficiënt vele plausibele toekomsten verkennen. Toch vertrouwen de meeste bestaande methoden op dichte video- of latentieruimtevoorspelling, waarbij aanzienlijke capaciteit wordt besteed aan dichte verschijning in plaats van aan de onderliggende schaarse trajecten van punten in de scène. Dit maakt grootschalige verkenning van toekomsthypothesen kostbaar en beperkt de prestaties wanneer lange-termijn, multi-modale beweging essentieel is. Wij pakken dit aan door de voorspelling van open-set toekomstige scènedynamica te formuleren als stapsgewijze inferentie over schaarse punttrajecten. Ons autoregressieve diffusiemodel ontwikkelt deze trajecten verder door middel van korte, lokaal voorspelbare overgangen, waarbij expliciet de groei van onzekerheid in de tijd wordt gemodelleerd. Deze dynamiekgerichte representatie maakt een snelle uitrol mogelijk van duizenden diverse toekomsten vanuit één afbeelding, optioneel gestuurd door initiële beperkingen op beweging, met behoud van fysieke plausibiliteit en coherentie op lange termijn. Wij introduceren verder OWM, een benchmark voor open-set bewegingsvoorspelling gebaseerd op diverse in-the-wild video's, om de nauwkeurigheid en variabiliteit van voorspelde trajectverdelingen onder real-world onzekerheid te evalueren. Onze methode evenaart of overtreft dichte simulators in voorspellende nauwkeurigheid, terwijl een orde-van-grootte hogere sampelsnelheid wordt bereikt, waardoor open-set toekomstvoorspelling zowel schaalbaar als praktisch wordt. Projectpagina: http://compvis.github.io/myriad.
Grote taalmodellen (LLM's) ondergaan alignmenttraining om schadelijk gedrag te voorkomen, maar de resulterende veiligheidsmaatregelen blijven broos: jailbreaks omzeilen ze routinematig, en finetunen op specifieke domeinen kan "emergent misalignment" veroorzaken die zich breed generaliseert. Of deze broosheid een fundamenteel gebrek aan coherente interne organisatie voor schadelijkheid weerspiegelt, is onduidelijk. Hier gebruiken we gericht gewichtsprunen als causale interventie om de interne organisatie van schadelijkheid in LLM's te onderzoeken. Wij ontdekken dat de generatie van schadelijke inhoud afhangt van een compacte set gewichten die generiek is voor verschillende soorten schade en onderscheiden is van goedaardige capaciteiten. Gealigneerde modellen vertonen een grotere compressie van gewichten voor schadelijke generatie dan niet-gealigneerde tegenhangers, wat aangeeft dat alignment schadelijke representaties intern hervormt – ondanks de broosheid van de veiligheidsmaatregelen aan de oppervlakte. Deze compressie verklaart emergent misalignment: als gewichten voor schadelijke capaciteiten zijn gecomprimeerd, kan finetunen dat deze gewichten in één domein activeert, brede misalignment triggeren. In overeenstemming hiermee vermindert het wegsnoeien van gewesten voor schadelijke generatie in een smal domein de emergent misalignment aanzienlijk. Opmerkelijk is dat het vermogen van LLM's om schadelijke inhoud te genereren, losstaat van hoe zij dergelijke inhoud herkennen en uitleggen. Samen onthullen deze resultaten een coherente interne structuur voor schadelijkheid in LLM's die als basis kan dienen voor meer principiële benaderingen van veiligheid.
Promptoptimalisatie verbetert taalmodelprestaties zonder gewichten bij te werken door te zoeken naar een betere systeemprompt, maar de effectiviteit ervan varieert sterk per taak. Wij onderzoeken wat een taak geschikt maakt voor promptoptimalisatie. Wij tonen aan dat de variantie in beloning tussen verschillende systeemprompts kan worden opgesplitst in twee componenten: variantie tussen antwoorden, die de stochastische aard van generatie weergeeft, en variantie tussen systeemprompts, die verschillen in kwaliteit van systeemprompts vastlegt. Promptoptimalisatie slaagt wanneer de variantie tussen systeemprompts voldoende groot is, maar faalt wanneer de variantie tussen antwoorden dominant wordt ten opzichte van de variantie van de systeemprompts. Verrassend genoeg tonen we verder aan dat schaalvergroting naar meer gebruikersprompts de optimalisatie kan schaden door de variantie tussen systeemprompts te verkleinen, vooral bij heterogene datasets waar verschillende gebruikersprompts verschillende systeemprompts begunstigen. Gemotiveerd door dit inzicht stellen we **p1** voor, een eenvoudige gebruikerspromptfilteringsmethode die een kleine subset van gebruikersprompts selecteert met een hoge variantie tussen kandidaat-systéémprompts. Deze subset van gebruikersprompts maakt het mogelijk een goede systeemprompt te onderscheiden van een slechte, wat systeemoptimalisatie vergemakkelijkt. Experimenten op redeneerbenchmarks tonen aan dat p1 promptoptimalisatie aanzienlijk verbetert in vergelijking met training op de volledige dataset en sterke baselines zoals GEPA overtreft. Opmerkelijk is dat training op slechts twee prompts van AIME 24 een systeemprompt oplevert die goed generaliseert naar andere redeneerbenchmarks.
Naarmate SE(3)-equivariante grafische neurale netwerken zich ontwikkelen tot een kerninstrument voor 3D-atomistische modellering, is het verbeteren van hun efficiëntie, expressiviteit en fysieke consistentie een centrale uitdaging geworden voor grootschalige toepassingen. In dit werk introduceren we EquiformerV3, de derde generatie van de SE(3)-equivariante grafische aandachtstransformer, die is ontworpen om vooruitgang te boeken op alle drie de dimensies: efficiëntie, expressiviteit en algemeenheid. Voortbouwend op EquiformerV2 presenteren we de volgende drie belangrijke verbeteringen. Ten eerste optimaliseren we de software-implementatie, wat een 1,75 keer snellere verwerking oplevert. Ten tweede introduceren we eenvoudige en effectieve aanpassingen aan EquiformerV2, waaronder equivariante genormaliseerde samengevoegde lagen, verbeterde hyperparameters voor feedforward-netwerken en aandachtsscores met een vloeiende radius-afkapping. Ten derde stellen we SwiGLU-S^2-activaties voor om veeldeeltjesinteracties te incorporeren voor een betere theoretische expressiviteit en om strikte equivariantie te behouden terwijl de complexiteit van het bemonsteren van S^2-roosters wordt verminderd. Samen stellen SwiGLU-S^2-activaties en aandacht met vloeiende afkapping ons in staat om vloeiend variërende potentiaalenergieoppervlakken (PES) nauwkeurig te modelleren, waardoor EquiformerV3 wordt gegeneraliseerd voor taken die energiebehoudende simulaties en hogere-orde afgeleiden van PES vereisen. Met deze verbeteringen behaalt EquiformerV3, getraind met de aanvullende taak van het verwijderen van ruis uit niet-evenwichtsstructuren (DeNS), state-of-the-art resultaten op OC20, OMat24 en Matbench Discovery.
Redeneren in kennisdomeinen blijft uitdagend omdat tussenstappen vaak niet lokaal verifieerbaar zijn: in tegenstelling tot wiskunde of code kan het evalueren van de correctheid van een stap vereisen dat aanwijzingen uit grote externe kennisbronnen worden samengevoegd. Hierdoor kunnen subtiele fouten zich voortplanten door redeneersporen, mogelijk zonder ooit gedetecteerd te worden. Eerder onderzoek heeft procesbeloningsmodellen (PRM's) voorgesteld, inclusief retrieval-augmented varianten, maar deze methoden werken *post hoc* door voltooide trajecten te scoren, wat hun integratie in dynamische inferentieprocedures verhindert. Hier introduceren we Procesbeloningsagenten (PRA), een testtijdmethode om een bevroren beleid domeingegronde, online, stap-voor-stap beloningen te geven. In tegenstelling tot eerdere retrieval-augmented PRM's, stelt PRA op zoek gebaseerde decodering in staat om kandidaat-trajecten bij elke generatiestap te rangschikken en te snoeien. Experimenten op meerdere medische redeneerbenchmarks tonen aan dat PRA consistent sterke basislijnen overtreft, met een nauwkeurigheid van 80,8% op MedQA met Qwen3-4B, een nieuwe state-of-the-art op de 4B-schaal. Belangrijk is dat PRA generaliseert naar onzichtbare bevroren beleidsmodellen variërend van 0,5B tot 8B parameters, en hun nauwkeurigheid met tot 25,7% verbetert zonder enige beleidsmodelupdates. In bredere zin suggereert PRA een paradigma waarin bevroren redenaars worden ontkoppeld van domeinspecifieke beloningsmodules, waardoor de inzet van nieuwe backbones in complexe domeinen mogelijk wordt zonder hertraining.
Interpretatie is essentieel om de taal van kunst te ontcijferen: publiek communiceert met kunstenaars door betekenis te ontlenen aan visuele artefacten. Huidige evaluatiemethoden voor Generatieve Kunst (GenArt) blijven echter gefocust op oppervlakkige beeldkwaliteit of letterlijke promptnaleving, zonder het diepere symbolische of abstracte betekenisniveau van de maker te beoordelen. Wij dichten deze kloof door een Peirceaanse computationele semiotische theorie te formaliseren die mens-genart-interactie (HGI) modelleert als gecascadeerde semiosis. Dit raamwerk toont aan dat artistieke betekenis wordt overgebracht via drie modi - iconisch, symbolisch en indexicaal - terwijl bestaande evaluatoren voornamelijk binnen de iconische modus opereren en structureel blind zijn voor de laatste twee. Om deze structurele blindheid te overwinnen, stellen wij SemJudge voor. Deze evaluator beoordeelt expliciet symbolische en indexicale betekenis in HGI via een Hiërarchische Semiosis Grafiek (HSG) die het betekenisgevingsproces van prompt gegenereerd artefact reconstrueert. Uitgebreide kwantitatieve experimenten tonen aan dat SemJudge beter aansluit bij menselijke oordelen dan eerdere evaluatoren op een interpretatie-intensief fine-art benchmark. Gebruikersstudies tonen verder aan dat SemJudge diepere, meer inzichtelijke artistieke interpretaties produceert, waardoor de weg wordt geëffend voor GenArt om verder te gaan dan het genereren van "mooie" afbeeldingen naar een medium dat complexe menselijke ervaring kan uitdrukken. Projectpagina: https://github.com/songrise/SemJudge.
Dit onderzoek belicht de fundamentele kwetsbaarheid van state-of-the-art Vision-Language Models (VLMs) onder eenvoudige geometrische transformaties. Hoewel moderne VLMs uitblinken in semantische taken, zoals het herkennen van objecten in canonieke oriëntaties en het beschrijven van complexe scènes, vertonen ze systematische tekortkomingen op een meer fundamenteel niveau: het ontbreekt hen aan robuuste ruimtelijke invariantie en equivariantie die nodig zijn om objectidentiteit betrouwbaar te bepalen onder simpele rotaties, schalingen en identiteitstransformaties. We demonstreren deze beperking door middel van een systematische evaluatie in diverse visuele domeinen, waaronder symbolische schetsen, natuurlijke foto's en abstracte kunst. De prestaties nemen sterk af naarmate de semantische inhoud schaarser wordt, en dit gedrag wordt waargenomen bij verschillende architecturen, modelcapaciteiten en promptingstrategieën. Over het geheel genomen onthullen onze resultaten een systematische kloof tussen semantisch begrip en ruimtelijk redeneren in huidige VLMs, wat de noodzaak benadrukt van een sterkere geometrische fundering in toekomstige multimodale systemen.
Het genereren van pratende gezichten heeft aanzienlijke aandacht gekregen als een kernapplicatie van generatieve modellen. Om de expressiviteit en realisme van gesynthetiseerde video's te verbeteren, speelt emotiebewerking in video's van pratende gezichten een cruciale rol. Bestaande benaderingen beperken echter vaak de expressieve flexibiliteit en hebben moeite met het genereren van uitgebreide emoties. Labelgebaseerde methoden representeren emoties met discrete categorieën, die geen breed scala aan emoties kunnen vastleggen. Audiogebaseerde methoden kunnen gebruikmaken van emotierijke spraaksignalen - en zelfs profiteren van expressieve tekst-naar-spraak (TTS) synthese - maar zij slagen er niet in de doel-emoties uit te drukken omdat emoties en linguïstische inhoud verweven zijn in emotionele spraak. Op beelden gebaseerde methoden daarentegen, vertrouwen op doelreferentiebeelden om emotieoverdracht te sturen, maar zij vereisen hoogwaardige frontale aanzichten en ondervinden uitdagingen bij het verkrijgen van referentiedata voor uitgebreide emoties (bijvoorbeeld sarcasme). Om deze beperkingen aan te pakken, stellen wij Cross-Modale Emotie-Overdracht (C-MET) voor, een nieuwe aanpak die gezichtsuitdrukkingen genereert op basis van spraak door het modelleren van emotie-semantische vectoren tussen spraak- en visuele kenmerkruimten. C-MET benut een grootschalige vooraf getrainde audio-encoder en een ontvlochten encoder voor gezichtsuitdrukkingen om emotie-semantische vectoren te leren die het verschil representeren tussen twee verschillende emotionele inbeddingen across modaliteiten. Uitgebreide experimenten op de MEAD- en CREMA-D-datasets tonen aan dat onze methode de emotienauwkeurigheid met 14% verbetert ten opzichte van state-of-the-art methoden, terwijl expressieve video's van pratende gezichten worden gegenereerd - zelfs voor onzichtbare uitgebreide emoties. Code, checkpoint en demo zijn beschikbaar op https://chanhyeok-choi.github.io/C-MET/.
Diffusiemodellen en hun varianten, zoals gerechtigde flows, genereren diverse en hoogwaardige beelden, maar worden nog steeds belemmerd door trage iteratieve sampling als gevolg van de sterk gekromde generatieve paden die ze aanleren. Een belangrijke oorzaak van hoge kromming, zoals eerder onderzoek heeft aangetoond, is de onafhankelijkheid tussen de brondistributie (standaard Gaussisch) en de datadistributie. In dit werk pakken we deze beperking aan met twee complementaire bijdragen. Ten eerste proberen we af te stappen van de standaard Gaussische aanname door κ-FC te introduceren, een algemene formulering die de brondistributie conditioneert op een willekeurig signaal κ dat deze beter afstemt op de datadistributie. Vervolgens presenteren we MixFlow, een eenvoudige maar effectieve trainingsstrategie die de kromming van de generatieve paden vermindert en de sampling-efficiëntie aanzienlijk verbetert. MixFlow traint een flow-model op lineaire mengsels van een vaste onvoorwaardelijke distributie en een op κ-FC gebaseerde distributie. Dit eenvoudige mengsel verbetert de afstemming tussen bron en data, levert betere generatiekwaliteit op met minder benodigde samplingstappen, en versnelt de trainingsconvergentie aanzienlijk. Gemiddeld verbetert onze trainingsprocedure de generatiekwaliteit met 12% in FID vergeleken met standaard gerechtigde flow en met 7% vergeleken met eerdere baseline-methoden onder een vast samplingbudget. Code beschikbaar op: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}
Camera-bestuurbare videogeneratie heeft als doel video's te synthetiseren met flexibele en fysisch plausibele camerabewegingen. Bestaande methoden bieden echter ofwel onnauwkeurige camerabesturing via tekstprompts of zijn afhankelijk van arbeidsintensieve handmatige cameratrajectparameters, wat hun toepassing in geautomatiseerde scenario's beperkt. Om deze problemen aan te pakken, presenteren we een nieuw Vision-Language-Camera model, genaamd CT-1 (Camera Transformer 1), een gespecialiseerd model ontworpen om ruimtelijk redeneerkennis over te dragen naar videogeneratie door cameratrajecten nauwkeurig te schatten. Gebouwd op vision-language modules en een Diffusion Transformer-model, gebruikt CT-1 een Wavelet-gebaseerd Regularisatieverlies in het frequentiedomein om complexe cameratrajectverdelingen effectief aan te leren. Deze trajecten worden geïntegreerd in een videodiffusiemodel om ruimtelijk bewuste camerabesturing mogelijk te maken die aansluit bij gebruikersintenties. Om de training van CT-1 te vergemakkelijken, hebben we een toegewijd data-curatiepipeline ontworpen en CT-200K samengesteld, een grootschalige dataset met meer dan 47 miljoen frames. Experimentele resultaten tonen aan dat ons framework de kloof tussen ruimtelijk redeneren en videosynthese succesvol overbrugt, waarbij het getrouwe en hoogwaardige camera-bestuurbare video's oplevert en de nauwkeurigheid van camerabesturing met 25,7% verbetert ten opzichte van eerdere methoden.
Additieve kwantisatie maakt extreme LLM-compressie mogelijk met O(1) dekwantisatie via opzoektabellen, wat het aantrekkelijk maakt voor edge-implementatie. Echter, bij een precisie van 2 bits faalt het vaak catastrofaal, zelfs met uitgebreide zoekopdrachten en finetuning. Wij tonen aan dat de dominante bottleneck de initialisatie van het codeboek is. Greedy sequentiële initialisatie plaatst het model vaak in slechte optimalisatieregio's die latere beam search en PV-tuning moeilijk kunnen overwinnen. Wij analyseren dit gedrag via de representatieverhouding ho = N/KM, die de relatie tussen gewichtsgroepen en codeboekcapaciteit karakteriseert, en stellen OA-EM voor, een output-aware EM-initialisatiemethode die gebruikmaakt van de Hessiaan-gewogen Mahalanobis-afstand. Over compressieverhoudingen, zoekbudgetten en drie architecturen (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B) heen levert OA-EM consistent betere oplossingen op na PV-tuning en domineert het de kwaliteit-rekenkracht-grens. De ernst van de bottleneck schaalt met ho: matig bij 3 bpp maar extreem bij 2 bpp, waar slechte initialisatie de perplexiteit met ordes van grootte kan verslechteren. In bredere zin benadrukken onze resultaten het belang van optimalisatiegeometrie in gecomprimeerde modelruimten, waar initialisatie latere zoekopdrachten en finetuning kan domineren.
Text-to-Audio-Video (T2AV)-generatie ontwikkelt zich snel tot een kerninterface voor mediacreatie, maar de evaluatie ervan blijft gefragmenteerd. Bestaande benchmarks beoordelen audio en video grotendeels afzonderlijk of vertrouwen op grove embedding-similariteit, waardoor ze de fijnmazige gezamenlijke correctheid die realistische prompts vereisen niet vastleggen. Wij introduceren AVGen-Bench, een taakgestuurde benchmark voor T2AV-generatie met hoogwaardige prompts in 11 real-world categorieën. Om een uitgebreide beoordeling te ondersteunen, stellen we een multi-granulair evaluatieraamwerk voor dat lichtgewicht specialistenmodellen combineert met Multimodale Large Language Models (MLLM's), waardoor evaluatie mogelijk is van perceptuele kwaliteit tot fijnmazige semantische bestuurbaarheid. Onze evaluatie toont een duidelijke kloof tussen sterke audio-visuele esthetiek en zwakke semantische betrouwbaarheid, waaronder hardnekkige fouten in tekstweergave, spraakcoherentie, fysiek redeneren en een universeel falen in muzikale toonhoogtecontrole. Code en benchmarkmiddelen zijn beschikbaar op http://aka.ms/avgenbench.
Hoewel Large Language Models (LLM's) hoge prestaties leveren op standaard wiskundige benchmarks, blijft hun onderliggende redeneerproces sterk overfit op standaard tekstuele opmaak. Wij stellen een perturbatiepijplijn voor, bestaande uit 14 technieken, om de robuustheid van LLM-redenering te evalueren. We passen deze pijplijn toe op de AIME 2024-dataset en evalueren 8 state-of-the-art modellen op de resulterende benchmark. Hoewel frontier-modellen veerkracht vertonen, lijden open-weights redeneermodellen onder catastrofale ineenstortingen (tot 55% gemiddelde nauwkeurigheidsdaling over perturbaties heen en tot 100% bij sommige), wat structurele kwetsbaarheid blootlegt. Om mechanische parseerfouten verder te ontwarren van downstream redeneerfouten, isoleren we strikt het werkgeheugen van de modellen door hen meerdere onverstoorde wiskundige problemen sequentieel binnen een enkele contextvenster te laten oplossen. Onze resultaten geven aan dat open-weight modellen variërend van 7B tot 120B parameters, evenals Claude Opus 4.6, nauwkeurigheidsverval vertonen bij opeenvolgende problemen. Deze degradatie toont aan dat tussenliggende redeneerstappen standaard dense attention-mechanismen permanent vervuilen. Wij beargumenteren dat voor betrouwbaar redeneren toekomstige redeneerarchitecturen expliciete contextuele resets moeten integreren in de eigen Chain-of-Thought van een model, wat leidt tot fundamentele open vragen regarding de optimale granulariteit van atomare redeneertaken.
Standaard LLM-benchmarks evalueren de assistent-beurt: het model genereert een reactie op een invoer, een verificator scoort de correctheid, en de analyse eindigt. Dit paradigma laat ongemeten of het LLM enig besef codeert van wat er volgt op de assistent-reactie. Wij stellen gebruikers-beurt-generatie voor als een peiling van deze kloof: gegeven een gesprekscontext van gebruikersvraag en assistent-reactie, laten we een model genereren in de gebruikersrol. Als de gewichten van het model interactiebewustzijn coderen, zal de gegenereerde gebruikersbeurt een gegronde vervolgvraag zijn die reageert op de voorafgaande context. Door experimenten met 11 open-weight LLM's (Qwen3.5, gpt-oss, GLM) en 5 datasets (wiskundig redeneren, instructie-opvolging, conversatie) tonen we aan dat interactiebewustzijn ontkoppeld is van taaknauwkeurigheid. In het bijzonder: binnen de Qwen3.5-familie schaalt de GSM8K-nauwkeurigheid van 41% (0.8B) naar 96.8% (397B-A17B), toch blijven de percentages van authentieke vervolgvragen onder deterministische generatie nabij nul. Daarentegen onthult hogere temperatuur-sampling dat interactiebewustzijn latent aanwezig is, met vervolgpercentages tot 22%. Gecontroleerde perturbaties valideren dat de voorgestelde peiling een reële eigenschap van het model meet, en collaboratiegerichte natreining op Qwen3.5-2B demonstreert een toename in vervolgpercentages. Onze resultaten tonen aan dat gebruikers-beurt-generatie een dimensie van LLM-gedrag vastlegt, interactiebewustzijn, die onontgonnen en onzichtbaar is met huidige assistent-gerichte benchmarks.
Creatief denken is een fundamenteel aspect van de menselijke cognitie, en divergent denken – het vermogen om nieuwe en gevarieerde ideeën te genereren – wordt algemeen beschouwd als de kernmotor ervan. Grote taalmodel(len (LLM's) hebben onlangs indrukwekkende prestaties getoond op tests voor divergent denken, en eerder onderzoek heeft aangetoond dat modellen met een hogere taakprestatie doorgaans meer overeenkomen met menselijke hersenactiviteit. Bestaande studies naar de afstemming tussen hersenen en LLM's hebben zich echter gericht op passieve, niet-creatieve taken. Hier onderzoeken we de hersenafstemming tijdens creatief denken met behulp van fMRI-gegevens van 170 deelnemers die de Alternate Uses Task (AUT) uitvoerden. We extraheren representaties uit LLM's van uiteenlopende grootte (270M-72B) en meten de afstemming met hersenreacties via Representational Similarity Analysis (RSA), gericht op de creativiteitsgerelateerde default mode- en frontopariëtale netwerken. We ontdekken dat de hersen-LLM-afstemming toeneemt met de modelgrootte (alleen in het default mode-netwerk) en de originaliteit van ideeën (beide netwerken), waarbij de effecten het sterkst zijn vroeg in het creatieve proces. We tonen verder aan dat doelen na de training de afstemming op functioneel selectieve manieren vormgeven: een creativiteit-geoptimaliseerd Llama-3.1-8B-Instruct-model behoudt afstemming met neurale reacties bij hoge creativiteit terwijl het de afstemming met reacties bij lage creativiteit vermindert; een model afgestemd op menselijk gedrag verhoogt de afstemming met beide; en een op redeneren getrainde variant toont het tegenovergestelde patroon, wat suggereert dat chain-of-thought-training representaties wegstuurt van creatieve neurale geometrie naar analytische verwerking. Deze resultaten tonen aan dat doelen na de training de LLM-representaties selectief hervormen ten opzichte van de neurale geometrie van het menselijke creatieve denken.
Speculatief bemonsteren (SpS) is succesvol gebleken in het versnellen van de doorvoersnelheid bij decodering van auto-regressieve grote taalmodellen door gebruik te maken van kleinere draft-modellen. SpS handhaaft strikt dat de gegenereerde distributie overeenkomt met die van de verifier-LLM. Dit is onnodig restrictief, aangecht lichte variaties van de verifier-distributie, zoals bemonstering met top-k of temperatuur, eveneens acceptabel zouden zijn. Typische acceptatiebemonstering (TAS) verlicht dit probleem door meer tokens te accepteren op basis van op entropie gebaseerde heuristieken. Deze aanpak vervormt echter de verifier-distributie, wat de uitvoerkwaliteit kan aantasten wanneer de verifier kritieke informatie bevat. In dit werk formaliseren we het speculatieve bemonsteringsalgoritme vanuit het perspectief van constrained optimization. Gebaseerd op deze formulering stellen we Cactus (constrained acceptance speculative sampling) voor, een methode die een gecontroleerde divergentie van de verifier-distributie garandeert en de acceptatiepercentages verhoogt. Empirische resultaten over een breed scala aan benchmarks bevestigen de effectiviteit van onze aanpak.