HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

UniVidX: Een Verenigd Multimodaal Raamwerk voor Veelzijdige Videogeneratie via Diffusion Priors
UniVidX: A Unified Multimodal Framework for Versatile Video Generation via Diffusion Priors

May 1

ByHouyuan Chen, Hong Li, Xianghao Kong, Tianrui Zhu, Shaocong Xu, Weiqing Xiao, Yuwei Guo, Chongjie Ye, Lvmin Zhang, Hao Zhao, Anyi Rao

Recente vooruitgang heeft aangetoond dat videodiffusiemodellen (VDM's) kunnen worden ingezet voor diverse multimodale grafische taken. Bestaande methoden trainen echter vaak afzonderlijke modellen voor elke probleeminstelling, wat de input-output-koppeling vastlegt en de modellering van correlaties tussen modaliteiten beperkt. Wij presenteren UniVidX, een verenigd multimodaal framework dat gebruikmaakt van VDM-priors voor veelzijdige videogeneratie. UniVidX formuleert pixelgealigneeerde taken als conditionele generatie in een gedeelde multimodale ruimte, past zich aan aan modaliteit-specifieke distributies terwijl de natuurlijke priors van de backbone behouden blijven, en bevordert cross-modale consistentie tijdens de synthese. Het is gebouwd op drie kernontwerpen. Stochastische Condition Masking (SCM) verdeelt modaliteiten willekeurig in schone condities en ruisdoelen tijdens de training, wat omnidirectionele conditionele generatie mogelijk maakt in plaats van vaste koppelingen. Decoupled Gated LoRA (DGL) introduceert per-modaliteit LoRA's die worden geactiveerd wanneer een modaliteit als generatiedoel dient, waardoor de sterke priors van het VDM behouden blijven. Cross-Modal Self-Attention (CMSA) deelt sleutels en waarden tussen modaliteiten terwijl modaliteit-specifieke queries behouden blijven, wat informatie-uitwisseling en inter-modale alignering vergemakkelijkt. Wij concretiseren UniVidX in twee domeinen: UniVid-Intrinsic, voor RGB-video's en intrinsieke kaarten zoals albedo, irradiantie en normal; en UniVid-Alpha, voor geblende RGB-video's en hun samenstellende RGBA-lagen. Experimenten tonen aan dat beide modellen prestaties leveren die competitief zijn met state-of-the-art methoden voor verschillende taken en robuust generaliseren naar realistische scenario's, zelfs wanneer ze getraind zijn op minder dan 1.000 video's. Projectpagina: https://houyuanchen111.github.io/UniVidX.github.io/

Web2BigTable: Een Bi-Level Multi-Agent LLM-systeem voor Internet-schaal Informatiezoektocht en -extractie
Web2BigTable: A Bi-Level Multi-Agent LLM System for Internet-Scale Information Search and Extraction

Apr 29

ByYuxuan Huang, Yihang Chen, Zhiyuan He, Yuxiang Chen, Ka Yiu Lee, Huichi Zhou, Weilin Luo, Meng Fang, Jun Wang

Agentisch webzoeken wordt steeds vaker geconfronteerd met twee verschillende eisen: diep redeneren over een enkel doel, en gestructureerde aggregatie over vele entiteiten en heterogene bronnen. Huidige systemen worstelen op beide fronten. Breedte-gerichte taken vereisen schema-uitgelijnde outputs met brede dekking en consistentie tussen entiteiten, terwijl diepte-gerichte taken coherent redeneren vereisen over lange, vertakkende zoektrajecten. Wij introduceren Web2BigTable, een multi-agent framework voor web-naar-tabel zoeken dat beide regimes ondersteunt. Web2BigTable hanteert een bi-level architectuur waarin een orchestrator op hoog niveau de taak decomposeert in subproblemen en werker-agents op laag niveau deze parallel oplossen. Via een gesloten lus van uitvoeren-verifiëren-reflecteren verbetert het framework gezamenlijk de decompositie en uitvoering in de tijd via een persistente, mensleesbare extern geheugen, met zelf-evoluerende updates voor elke individuele agent. Tijdens de uitvoering coördineren werkers via een gedeelde werkruimte die deelresultaten zichtbaar maakt, waardoor ze redundante verkenning kunnen verminderen, tegenstrijdige bevindingen kunnen verzoenen en zich kunnen aanpassen aan opkomende dekkingshiaten. Web2BigTable vestigt een nieuwe state-of-the-art op WideSearch, met een Avg@4 Success Rate van 38.50 (7.5 keer de tweede beste met 5.10), Row F1 van 63.53 (+25.03 boven de tweede beste) en Item F1 van 80.12 (+14.42 boven de tweede beste). Het generaliseert ook naar diepte-gericht zoeken op XBench-DeepSearch, met een nauwkeurigheid van 73.0. Code is beschikbaar op https://github.com/web2bigtable/web2bigtable.

Map2World: Segmentatiekaart-geconditioneerde tekst naar 3D-wereldgeneratie
Map2World: Segment Map Conditioned Text to 3D World Generation

May 1

ByJaeyoung Chung, Suyoung Lee, Jianfeng Xiang, Jiaolong Yang, Kyoung Mu Lee

3D-wereldgeneratie is essentieel voor toepassingen zoals het creëren van immersieve content of simulaties voor autonoom rijden. Recente vooruitgang in 3D-wereldgeneratie heeft veelbelovende resultaten opgeleverd; deze methoden worden echter beperkt door rasterlay-outs en hebben last van inconsistenties in de schaal van objecten in de gehele wereld. In dit werk introduceren we een nieuw raamwerk, Map2World, dat als eerste 3D-wereldgeneratie mogelijk maakt op basis van door de gebruiker gedefinieerde segmentatiekaarten met willekeurige vormen en schalen, waardoor wereldwijde schaalconsistentie en flexibiliteit in uitgestrekte omgevingen wordt gegarandeerd. Om de kwaliteit verder te verbeteren, stellen we een detailverbeteraarsnetwerk voor dat fijne details van de wereld genereert. De detailverbeteraar maakt het mogelijk fijnmazige details toe te voegen zonder de algehele scènecoherentie aan te tasten, door globale structuurinformatie te integreren. We ontwerpen de gehele pijplijn om sterke aannames van assetgeneratoren te benutten, waardoor robuuste generalisatie over diverse domeinen wordt bereikt, zelfs bij beperkte trainingsdata voor scènegeneratie. Uitgebreide experimenten tonen aan dat onze methodologie bestaande benaderingen significant overtreft in gebruikersbestuurbaarheid, schaalconsistentie en inhoudelijke samenhang, waardoor gebruikers 3D-werelden kunnen genereren onder complexere condities.

Prox-E: Fijnmazige 3D-vormbewerking via op primitieven gebaseerde abstracties
Prox-E: Fine-Grained 3D Shape Editing via Primitive-Based Abstractions

Apr 29

ByEtai Sella, Hao Phung, Nitay Amiel, Or Litany, Or Patashnik, Hadar Averbuch-Elor

Op tekst gebaseerde 2D-beeldbewerkingsmodellen hebben recentelijk een indrukwekkend niveau van rijpheid bereikt, wat een groeiende hoeveelheid onderzoek motiveert die sterk afhankelijk is van deze modellen om 3D-bewerkingen aan te sturen. Hoewel ze effectief zijn voor op uiterlijk gebaseerde aanpassingen, hebben dergelijke 2D-centrische 3D-bewerkingspijplijnen vaak moeite met fijnmazige 3D-bewerkingen, waarbij gelokaliseerde structurele veranderingen moeten worden toegepast terwijl de algehele identiteit van een object strikt behouden blijft. Om deze beperking aan te pakken, stellen wij Prox-E voor, een trainingsvrij raamwerk dat fijnmazige 3D-controle mogelijk maakt door middel van een expliciete, op primitieven gebaseerde geometrische abstractie. Ons raamwerk abstraheert eerst een invoervorm in 3D naar een compacte set van geometrische primitieven. Een vooraf getraind vision-language model (VLM) bewerkt vervolgens deze abstractie om veranderingen op primitievenniveau te specificeren. Deze structurele bewerkingen worden vervolgens gebruikt om een generatief 3D-model aan te sturen, waardoor fijnmazige, gelokaliseerde aanpassingen mogelijk zijn terwijl ongewijzigde regio's van de oorspronkelijke vorm behouden blijven. Door middel van uitgebreide experimenten tonen we aan dat onze methode consistenter een balans vindt tussen identiteitsbehoud, vormkwaliteit en trouw aan de instructie dan verschillende bestaande benaderingen, waaronder op 2D gebaseerde 3D-editors en op training gebaseerde methoden.

Van vaardigheidstekst naar vaardigheidsstructuur: de plannings-structureel-logische representatie voor agentvaardigheden
From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

Apr 27

ByQiliang Liang, Hansi Wang, Zhong Liang, Yang Liu

LLM-agenten maken in toenemende mate gebruik van herbruikbare vaardigheden: capaciteitspakketten die instructies, controleflow, beperkingen en tool-aanroepen combineren. In de meeste huidige agentsystemen worden vaardigheden echter nog steeds vertegenwoordigd door tekstrijke artefacten, waaronder SKILL.md-stijl documenten en gestructureerde records waarvan de machinebruikbare evidentie grotendeels verborgen blijft in natuurlijke-taalbeschrijvingen. Dit vormt een uitdaging voor vaardigheidsgerichte agentsystemen: zowel het beheren van vaardigheidsverzamelingen als het gebruik van vaardigheden om agenten te ondersteunen vereisen redenering over aanroepinterfaces, uitvoeringsstructuur en concrete neveneffecten die vaak verweven zijn in een enkel tekstueel oppervlak. Een expliciete representatie van vaardigheidskennis kan daarom helpen om deze artefacten gemakkelijker voor machines te verwerven en te benutten. Voortbouwend op Memory Organization Packets, Script Theory en Conceptual Dependency uit het klassieke werk van Schank en Abelson over linguïstische kennisfrepresentatie, introduceren wij naar ons weten de eerste gestructureerde representatie voor agent-vaardigheidsartefacten die vaardigheidsniveau-planningssignalen, scèneniveau-uitvoeringsstructuur en logicaniveau-actie- en resourcegebruiksevidentie ontwart: de Scheduling-Structural-Logical (SSL)-representatie. Wij concretiseren SSL met een op LLM gebaseerde normalisator en evalueren het op een corpus van vaardigheden in twee taken, Vaardigheidsontdekking en Risicobeoordeling, en overtreffen de uitsluitend tekstuele basislijnen aanzienlijk: bij Vaardigheidsontdekking verbetert SSL de MRR van 0.573 naar 0.707; bij Risicobeoordeling verbetert het de macro F1-score van 0.744 naar 0.787. Deze bevindingen tonen aan dat expliciete, op de bron gegronde structuur agent-vaardigheden gemakkelijker doorzoekbaar en beoordeelbaar maakt. Zij suggereren ook dat SSL het best kan worden begrepen als een praktische stap naar meer inspecteerbare, herbruikbare en operationeel bruikbare vaardigheidsrepresentaties voor agentsystemen, in plaats van als een voltooide standaard of een end-to-end mechanisme voor het beheren en gebruiken van vaardigheden.

Stable-GFlowNet: Op Weg naar Diverse en Robuuste LLM Red-Teaming via Contrastieve Trajectoriebalans
Stable-GFlowNet: Toward Diverse and Robust LLM Red-Teaming via Contrastive Trajectory Balance

May 1

ByMinchan Kwon, Sunghyun Baek, Minseo Kim, Jaemyung Yu, Dongyoon Han, Junmo Kim

Large Language Model (LLM) Red-Teaming, dat proactief kwetsbaarheden van LLM's identificeert, is een essentieel proces om veiligheid te waarborgen. Het vinden van effectieve en diverse aanvallen tijdens red-teaming is belangrijk, maar het bereiken van beide is een uitdaging. Generative Flow Networks (GFN's) die distributie-matching uitvoeren, zijn veelbelovende methoden, maar ze staan bekend om trainingsinstabiliteit en mode collapse. Met name instabiele beloningen (rewards) in red-teaming versnellen mode collapse. Wij stellen Stable-GFN (S-GFN) voor, dat de schattingsfunctie voor de partitiefunctie Z in GFN elimineert en de trainingsinstabiliteit vermindert. S-GFN vermijdt Z-schatting door paarsgewijze vergelijkingen en gebruikt een robuuste masking-methodologie tegen ruisachtige beloningen. Daarnaast stellen we een fluency-stabilisator voor om te voorkomen dat het model vastloopt in lokale optima die onzin produceren. S-GFN biedt een stabielere training terwijl het het optimale beleid van GFN behoudt. We demonstreren de overweldigende aanvalsprestatie en diversiteit van S-GFN in verschillende settings.

Leren tijdens Inzet: Reinforcement Learning op Vlootschaal voor Algemene Robotbeleidsregels
Learning while Deploying: Fleet-Scale Reinforcement Learning for Generalist Robot Policies

May 1

ByYi Wang, Xinchen Li, Pengwei Xie, Pu Yang, Buqing Nie, Yunuo Cai, Qinglin Zhang, Chendi Qu, Jeffrey Wu, Jianheng Song, Xinlin Ren, Jingshun Huang, Mingjie Pan, Siyuan Feng, Zhi Chen, Jianlan Luo

Algemene robotbeleidsmodellen hebben steeds meer baat bij grootschalige voorafgaande training, maar offline data alleen is onvoldoende voor robuuste inzet in de echte wereld. Ingezette robots krijgen te maken met distributieverschuivingen, zeldzame fouten, taakvariatie en mogelijkheden voor menselijke correcties die vaste demonstratiedatasets niet volledig kunnen vastleggen. Wij presenteren Learning While Deploying (LWD), een offline-naar-online reinforcement learning-framework op vlootschaal voor continue na-training van algemene Vision-Language-Action (VLA)-beleidsmodellen. Uitgaande van een voorgetraind VLA-beleid sluit LWD de lus tussen inzet, gedeelde fysieke ervaring, beleidsverbetering en herinzet door gebruik te maken van autonome rollouts en menselijke interventies die zijn verzameld over een robotvloot. Om het leren van heterogene, schaars beloonde vlootdata te stabiliseren, combineert LWD Distributional Implicit Value Learning (DIVL) voor robuuste waardeschatting met Q-learning via Adjoint Matching (QAM) voor beleidsextractie in op stromen gebaseerde VLA-actiegeneratoren. Wij valideren LWD op een vloot van 16 dubbelarmige robots bij acht real-world manipulatietaken, waaronder semantisch hervullen van boodschappen en langetermijntaken van 3–5 minuten. Een enkel algemeen beleidsmodel verbetert naarmate de vlootervaring toeneemt, met een gemiddeld slagingspercentage van 95% en de grootste vooruitgang bij langetermijntaken.

Laat ViT Spreken: Generatieve Taal-Beeld Vooraf-training
Let ViT Speak: Generative Language-Image Pre-training

May 1

ByYan Fang, Mengcheng Lan, Zilong Huang, Weixian Lei, Yunqing Zhao, Yujie Zhong, Yingchen Yu, Qi She, Yao Zhao, Yunchao Wei

In dit artikel presenteren we Generative Language-Image Pre-training (GenLIP), een minimalistisch generatief voor-trainingsraamwerk voor Vision Transformers (ViTs) dat is ontworpen voor multimodale grote taalmodellen (MLLMs). Om visuele encoders beter af te stemmen op het autoregressieve karakter van LLMs, traint GenLIP een ViT om taaltokens direct vanuit visuele tokens te voorspellen met behulp van een standaard taalmodelleringsdoelstelling, zonder contrastieve batchconstructie of een extra tekstdecoder. Dit ontwerp biedt drie belangrijke voordelen: (1) Eenvoud: een enkele transformer modelleert gezamenlijk visuele en tekstuele tokens; (2) Schaalbaarheid: het schaalt effectief met zowel data- als modelgrootte; en (3) Prestaties: het behaalt concurrerende of superieure resultaten op diverse multimodale benchmarks. Getraind op 8B samples van Recap-DataComp-1B, evenaart of overtreft GenLIP sterke baseline-modellen ondanks het gebruik van aanzienlijk minder voor-trainingsdata. Na voortgezette training op multi-resolutie afbeeldingen met originele beeldverhoudingen, verbetert GenLIP verder op detailgevoelige taken zoals OCR en het begrijpen van grafieken, waardoor het een sterke basis vormt voor visuele encoders in MLLMs.

Wanneer leren diffusiemodellen meerdere objecten te genereren?
When Do Diffusion Models learn to Generate Multiple Objects?

Apr 30

ByYujin Jeong, Arnas Uselis, Iro Laina, Seong Joon Oh, Anna Rohrbach

Diffusiemodellen voor tekst-naar-beeld bereiken indrukwekkende visuele kwaliteit, maar blijven onbetrouwbaar in de generatie van meerdere objecten. Ondanks uitgebreid empirisch bewijs voor deze tekortkomingen, zijn de onderliggende oorzaken onduidelijk. We beginnen met de vraag in hoeverre deze beperking voortkomt uit de data zelf. Om data-effecten te ontwarren, beschouwen we twee regimes voor verschillende datasetgroottes: (1) conceptgeneralizatie, waarbij elk individueel concept tijdens de training wordt waargenomen onder mogelijk verstoorde datadistributies, en (2) compositionele generalizatie, waarbij specifieke combinaties van concepten systematisch worden weggelaten. Om deze regimes te bestuderen, introduceren we MOSAIC (Multi-Object Spatial relations, AttrIbution, Counting), een gecontroleerd raamwerk voor datasetgeneratie. Door diffusiemodellen op MOSAIC te trainen, ontdekken we dat scènecomplexiteit een dominante rol speelt in plaats van conceptonbalans, en dat tellen bijzonder moeilijk aan te leren is in regimes met weinig data. Bovendien stort compositionele generalizatie in elkaar naarmate meer conceptcombinaties tijdens de training worden weggelaten. Deze bevindingen belichten fundamentele beperkingen van diffusiemodellen en motiveren sterkere inductieve vooroordelen en datadesign voor robuuste compositionele generatie van meerdere objecten.

Bomen naar Stromen en Terug: De Eenwording van Beslissingsbomen en Diffusiemodellen
Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

May 1

BySai Niranjan Ramachandran, Suvrit Sra

Beslissingsbomen en diffusiemodellen zijn ogenschijnlijk verschillende modelklassen: de ene discreet en hiërarchisch, de andere continu en dynamisch. Dit werk verenigt beide door een heldere wiskundige correspondentie vast te stellen tussen hiërarchische beslissingsbomen en diffusieprocessen in geschikte limietregimes. Onze unificatie onthult een gedeeld optimalisatieprincipe: Global Trajectory Score Matching (GTSM), waarvoor gradient boosting (in een geïdealiseerde versie) asymptotisch optimaal is. Wij benadrukken de conceptuele waarde van ons werk via twee praktische toepassingen: \treeflow, dat competitieve generatiekwaliteit bereikt op tabelgegevens met hogere nauwkeurigheid en een 2× computationele versnelling, en \dsmtree, een nieuwe distillatiemethode die hiërarchische beslissingslogica overbrengt in neurale netwerken, waarbij de prestaties van de leraar op veel benchmarks binnen 2% worden geëvenaard.

Odysseus: Het Opschalen van VLMs naar Besluitvorming over 100+ Beurten in Spellen via Reinforcement Learning
Odysseus: Scaling VLMs to 100+ Turn Decision-Making in Games via Reinforcement Learning

May 1

ByChengshuai Shi, Wenzhe Li, Xinran Liang, Yizhou Lu, Wenjia Yang, Ruirong Feng, Seth Karten, Ziran Yang, Zihan Ding, Gabriel Sarch, Danqi Chen, Karthik Narasimhan, Chi Jin

Gezien de snel toenemende capaciteiten van visueel-taalkundige modellen (VLM's), is het uitbreiden ervan naar interactieve besluitvormingstaken zoals videogames een veelbelovende nieuwe richting geworden. Bestaande benaderingen vertrouwen echter ofwel op grootschalige supervised fine-tuning (SFT) op menselijke trajecten, ofwel passen ze reinforcement learning (RL) alleen toe in relatief kortdurende settings (typisch rond de 20-30 beurten). In dit werk bestuderen we RL-gebaseerde training van VLM's voor langetermijnbesluitvorming in Super Mario Land, een visueel onderbouwde omgeving die meer dan 100 interactiebeurten vereist met gecoördineerde perceptie, redenering en actie. We beginnen met een systematisch onderzoek naar belangrijke algoritmische componenten en stellen een aangepaste variant van PPO voor met een lichte criticus op beurtniveau, wat de trainingsstabiliteit en sample-efficiëntie aanzienlijk verbetert ten opzichte van criticus-vrije methoden zoals GRPO en Reinforce++. Verder tonen we aan dat vooraf getrainde VLM's sterke actie-priors bieden, wat de sample-efficiëntie tijdens RL-training significant verbetert en de behoefte aan handmatige ontwerpkeuzes, zoals actie-engineering, vermindert in vergelijking met klassieke deep RL die vanaf nul wordt getraind. Voortbouwend op deze inzichten introduceren we Odysseus, een open trainingsframework voor VLM-agenten, dat substantiële winst behaalt op meerdere niveaus van het spel en minstens 3 keer de gemiddelde spelvoortgang bereikt vergeleken met state-of-the-art modellen. Bovendien vertonen de getrainde modellen consistente verbeteringen onder zowel in-game als cross-game generalisatie-omstandigheden, terwijl ze algemene-domeincapaciteiten behouden. Al met al identificeren onze resultaten de belangrijkste ingrediënten om RL stabiel en effectief te maken in langdurige, multimodale settings, en bieden ze praktische richtlijnen voor de ontwikkeling van VLM's als belichaamde agenten.

End-to-end Autoregressieve Beeldgeneratie met 1D Semantische Tokenizer
End-to-End Autoregressive Image Generation with 1D Semantic Tokenizer

May 1

ByWenda Chu, Bingliang Zhang, Jiaqi Han, Yizhuo Li, Linjie Yang, Yisong Yue, Qiushan Guo

Autoregressieve beeldmodellering maakt gebruik van visuele tokenizers om afbeeldingen te comprimeren tot compacte latente representaties. Wij ontwikkelen een end-to-end trainingspijplijn die reconstructie en generatie gezamenlijk optimaliseert, waardoor directe supervisie van de generatieresultaten naar de tokenizer mogelijk wordt. Dit vormt een contrast met eerdere tweefasenbenaderingen waarbij tokenizers en generatieve modellen afzonderlijk worden getraind. Wij onderzoeken verder hoe vision foundation-modellen kunnen worden benut om 1D-tokenizers voor autoregressieve modellering te verbeteren. Ons autoregressief generatief model behaalt sterke empirische resultaten, waaronder een state-of-the-art FID-score van 1,48 zonder guidance bij ImageNet 256x256-generatie.

MASCing: Configureerbaar Mengsel-van-Experts Gedrag via Activatiesturingsmaskers
MASCing: Configurable Mixture-of-Experts Behavior via Activation Steering Masks

Apr 30

ByJona te Lintelo, Lichao Wu, Marina Krček, Sengim Karayalçin, Stjepan Picek

Mixture-of-Experts (MoE)-architecturen in Large Language Models (LLM's) hebben de inferentiekosten aanzienlijk verlaagd door middel van sparse activering. Deze sparse activeringsparadigma introduceert echter ook nieuwe veiligheidsuitdagingen. Omdat voor elke invoer slechts een subset van experts wordt ingeschakeld, wordt het modelgedrag gekoppeld aan routeringsbeslissingen, wat een moeilijk te controleren mechanisme oplevert dat kan variëren over veiligheidsrelevante scenario's. Tegelijkertijd is het aanpassen van modelgedrag via volledige fine-tuning of hertraining kostbaar, vooral wanneer ontwikkelaars hetzelfde model snel moeten configureren voor verschillende veiligheidsdoelstellingen. Wij presenteren MASCing (MoE Activation Steering Configuration), het eerste framework dat flexibele herconfiguratie van MoE-gedrag over diverse veiligheidsscenario's mogelijk maakt zonder hertraining. MASCing gebruikt een op LSTM gebaseerd surrogaatmodel om cross-layer routeringsafhankelijkheden vast te leggen en routeringslogits aan downstream gedrag te koppelen. Vervolgens optimaliseert het een stuurmatrix om gedragsrelevante expertcircuits te identificeren en past het tijdens inferentie stuurmaskers toe op de routeringspoorten om expertselectie te overschrijven. Hierdoor wordt gerichte versterking of onderdrukking van specifiek gedrag mogelijk, terwijl het algemene taalnut behouden blijft. Om de herconfigureerbaarheid aan te tonen, passen we MASCing toe op twee verschillende veiligheidsgerelateerde doelstellingen en observeren we consistente verbeteringen met verwaarloosbare overhead over zeven open-source MoE-modellen. Voor multi-turn jailbreak-defensie verbetert het het gemiddelde verdedigingssuccespercentage van 52,5% naar 83,9%, met verbeteringen tot 89,2%. Voor het genereren van inhoud voor volwassenen stelt MASCing modellen in staat om verzoeken die anders geweigerd zouden worden, na te komen, waardoor het gemiddelde generatiesuccespercentage stijgt van 52,6% naar 82,0%, met verbeteringen tot 93,0%. Deze resultaten vestigen MASCing als een praktisch, lichtgewicht en flexibel framework voor scenario-specifieke veiligheidsherconfiguratie in MoE-modellen.

Themis: Het Trainen van Robuuste Meertalige Codebeloningsmodellen voor Flexibele Multi-Criteria Beoordeling
Themis: Training Robust Multilingual Code Reward Models for Flexible Multi-Criteria Scoring

May 1

ByIndraneil Paul, Glavaš Glavas, Iryna Gurevych

Beloningsmodellen (RMs) zijn een onmisbaar onderdeel geworden van de gereedschapskist voor het na-trainen van taalmmodellen (LMs), omdat ze beleidsafstemming en schaling tijdens het testen mogelijk maken. Onderzoek naar de toepassing van RMs bij codegeneratie is echter relatief schaars, waarbij bestaand werk zich grotendeels richt op feedback via uitvoering. Deze keuze beperkt het na-trainen tot het optimaliseren van functionele correctheid voor zelfstandige uitvoerbare code. In dit werk onderzoeken we de training en evaluatie van meertalige, multi-criteria code-RMs. Hiertoe stellen we eerst **Themis-CodeRewardBench** samen, een benchmark om code-RMs te evalueren op vijf voorkeursdimensies (d.w.z. criteria) en acht programmeertalen, waarop we meer dan 50 code-, wiskunde- en algemene RMs profileren. Gezien de beperkte vaardigheid van huidige RMs verder dan het scoren op functionele correctheid, ontwikkelen we **Themis-CodePreference**, de grootste open-source verzameling codevoorkeuren tot nu toe (meer dan 350k voorkeursparen), en gebruiken we deze om **Themis-RM** te trainen, een reeks meertalige code-beloningsmodellen voor flexibele multi-criteria scoring, in grootte variërend van 600M tot 32B parameters. Onze experimenten en ablatiestudies tonen positieve schaalbaarheidstrends, sterke cross-linguale transfer bij training op diverse voorkeuren, en het belang van multi-criteria training voor betrouwbare code-beloningsmodellering aan.

Betere Modellen, Snellere Training: Sigmoid-Aandacht voor Single-Cell Foundation Models
Better Models, Faster Training: Sigmoid Attention for single-cell Foundation Models

Apr 29

ByVijay Sadashivaiah, Georgios Dasoulas, Judith Mueller, Soumya Ghosh

Het trainen van stabiele biologische foundation-modellen vereist een herziening van aandachtmechanismen: wij constateren dat het gebruik van sigmoid-attenatie als directe vervanging voor softmax-attenatie a) betere geleerde representaties oplevert: op zes diverse enkelceldatasets behaalt sigmoid 25% betere celtypescheiding, superieure cohesiemetrieken voor celtypen en een lagere validatiefout, b) snellere training: modellen met sigmoid-attenatie trainen tot 10% sneller dan hun softmax-equivalenten, en c) stabielere training door het elimineren van inherente bronnen van instabiliteit in softmax-attenatie. Wij tonen aan dat sigmoid-attenatie globaal begrensde afgeleiden (≤0.25) heeft in tegenstelling tot softmax, en een diagonale Jacobiaanstructuur bezit versus de dense koppeling bij softmax, wat gezamenlijk trainingsinstabiliteiten vermindert. In stresstests met bidirectionele aandachtmodellen van 160M parameters, getraind zonder gradient clipping op sequenties van 8K tokens, divergeert softmax catastrofaal met gradientschommelingen van vier grootteordes, terwijl sigmoid stabiel blijft. Tenslotte implementeren en open-sourcen wij TritonSigmoid, een efficiënte GPU-kernel die 515 TFLOPS bereikt op H100 GPU's en zowel FlashAttention-2 als FlashSigmoid overtreft, met native ondersteuning voor padding, wat essentieel is voor biologische sequenties. Onze resultaten positioneren sigmoid-attenatie als zowel theoretisch onderbouwd als empirisch superieur voor biologische foundation-modellen. Code is beschikbaar op https://github.com/MSDLLCpapers/triton-sigmoid.

AnalogRetriever: Het Leren van Cross-Modale Representaties voor het Ophalen van Analoge Schakelingen
AnalogRetriever: Learning Cross-Modal Representations for Analog Circuit Retrieval

Apr 25

ByYihan Wang, Lei Li, Yao Lai, Jing Wang, Yan Lu

Analoge schakelingontwerp is sterk afhankelijk van het hergebruik van bestaande intellectuele eigendomsblokken (IP), maar het zoeken over heterogene representaties zoals SPICE-netlists, schema's en functionele beschrijvingen blijft een uitdaging. Bestaande methoden zijn grotendeels beperkt tot exacte matching binnen één modaliteit, waarbij ze de semantische relaties tussen modaliteiten niet kunnen vastleggen. Om deze kloof te overbruggen, presenteren we AnalogRetriever, een uniform retrieval-framework met drie modaliteiten voor het zoeken naar analoge schakelingen. We bouwen eerst een hoogwaardige dataset op basis van Masala-CHAI via een pijplijn met twee reparatiestappen, waardoor het compilatiesucces van netlists wordt verhoogd van 22% naar 100%. Gebaseerd op deze fundering codeert AnalogRetriever schema's en beschrijvingen met een vision-language model en netlists met een port-aware relationeel grafisch convolutioneel netwerk, waarbij alle drie de modaliteiten in een gedeelde embeddedruimte worden gemapt via curriculum contrastief leren. Experimenten tonen aan dat AnalogRetriever een gemiddelde Recall@1 van 75,2% bereikt over alle zes de kruismodale retrievalrichtingen, wat aanzienlijk beter is dan bestaande baseline-methoden. Wanneer geïntegreerd in het AnalogCoder agent-framework als een retrieval-augmented generation-module, verbetert het consistent de functionele slagingspercentages en maakt het de voltooiing van voorheen onopgeloste taken mogelijk. Onze code en dataset zullen worden vrijgegeven.

Leren Handelen en Samenwerken voor Gedistribueerde Black-Box Consensusoptimalisatie
Learning to Act and Cooperate for Distributed Black-Box Consensus Optimization

May 1

ByZi-Bo Qin, Feng-Feng Wei, Tai-You Chen, Wei-Neng Chen

Gedistribueerde blackbox-consensusoptimalisatie is een fundamenteel probleem in multi-agent systemen, waarbij agents een globaal doel moeten verbeteren met uitsluitend lokale doelquery's en beperkte communicatie met buren. Bestaande methodes steunen grotendeels op handmatig ontworpen update-regels en statische samenwerkingspatronen, die vaak moeite hebben om lokale aanpassing, globale coördinatie en communicatie-efficiëntie in heterogene niet-convexe omgevingen in evenwicht te brengen. In dit artikel zetten we een eerste stap naar traject-gestuurde zelfontwerp voor gedistribueerde blackbox-consensusoptimalisatie. We herontwerpen eerst de dynamiek op agentniveau met een adaptief intern mechanisme dat is toegesneden op gedecentraliseerde consensusomgevingen, wat de balans tussen exploratie, convergentie en ontsnapping aan lokale optima verbetert. Gebouwd bovenop deze adaptieve uitvoeringslaag, stellen we Learning to Act and Cooperate (LACMAS) voor, een traject-gestuurd raamwerk waarin grote taalmodellen sporadische hoogwaardige richtlijnen bieden voor het vormen van zowel agent-interne actiegedragingen als agent-externe samenwerkingspatronen, gebaseerd op historische optimalisatietrajecten. We introduceren verder een gefaseerde cognitieve planningsstrategie om verschillende vormen van aanpassing op een resource-bewuste manier te activeren. Experimenten op standaard gedistribueerde blackbox benchmarks en real-world gedistribueerde taken tonen aan dat LACMAS consistent de oplossingskwaliteit, convergentie-efficiëntie en communicatie-efficiëntie verbetert ten opzichte van sterke baseline-methodes, wat een praktische route suggereert van handmatig ontworpen gedistribueerde coördinatie naar zelfontwerpende multi-agent optimalisatiesystemen.

Online Zelfkalibratie tegen Hallucinaties in Visueel-Taalmodellen
Online Self-Calibration Against Hallucination in Vision-Language Models

May 1

ByMinghui Chen, Chenxu Yang, Hengjie Zhu, Dayan Wu, Zheng Lin, Qingyi Si

Grote Vision-Language Modellen (LVLM's) hebben vaak last van hallucinaties, waarbij ze beschrijvingen genereren die visuele details bevatten die niet in de invoerafbeelding aanwezig zijn. Recente methoden voor voorkeursafstemming maken doorgaans gebruik van supervisie gedistilleerd uit sterkere modellen zoals GPT. Dit offline paradigma introduceert echter een Supervisie-Perceptie Mismatch: het studentenmodel wordt gedwongen zich af te stemmen op fijnmazige details die buiten zijn perceptieve vermogen liggen, waardoor het leert te raden in plaats van te zien. Om betrouwbare zelfsupervisie te verkrijgen voor online leren, identificeren we een Generatief-Discriminatief Kloof binnen LVLM's, waarbij modellen een hogere nauwkeurigheid vertonen bij discriminatieve verificatie dan bij open-einde generatie. Gebruikmakend van deze capaciteit, stellen we Online ZelfCAlibRatie (OSCAR) voor, een raamwerk dat Monte Carlo Boom Zoektocht integreert met een Dual-Granulariteit Beloningsmechanisme om voorkeursdata te construeren en het model iteratief verfijnt via Directe Voorkeursoptimalisatie. Uitgebreide experimenten tonen aan dat OSCAR state-of-the-art prestaties bereikt op hallucinatie benchmarks, terwijl het algemene multimodale capaciteiten verbetert.

Talker-T2AV: Gezamenlijke Generatie van Sprekende Audio en Video met Autoregressieve Diffusiemodellering
Talker-T2AV: Joint Talking Audio-Video Generation with Autoregressive Diffusion Modeling

Apr 26

ByZhen Ye, Xu Tan, Aoxiong Yin, Hongzhan Lin, Guangyan Zhang, Peiwen Sun, Yiming Li, Chi-Min Chan, Wei Ye, Shikun Zhang, Wei Xue

Gezamenlijke audio-videogeneratiemodellen hebben aangetoond dat uniforme generatie een sterkere cross-modale samenhang oplevert dan gecascadeerde benaderingen. Bestaande modellen koppelen modaliteiten echter gedurende het gehele denoiseproces via alomtegenwoordige aandacht, waarbij hoogwaardige semantiek en laagwaardige details op een volledig verstrengelde manier worden behandeld. Dit is suboptimaal voor talking head-synthese: hoewel audio en gezichtsbeweging semantisch gecorreleerd zijn, volgen hun laagwaardige realisaties (akoestische signalen en visuele texturen) distincte weergaveprocessen. Het afdwingen van gezamenlijke modellering op alle niveaus veroorzaakt onnodige verstrengeling en vermindert de efficiëntie. Wij stellen Talker-T2AV voor, een autogressief diffusieraamwerk waarbij hoogwaardige cross-modale modellering plaatsvindt in een gedeelde backbone, terwijl laagwaardige verfijning gebruikmaakt van modaliteitsspecifieke decoders. Een gedeeld autogressief taalmodel redeneert gezamenlijk over audio en video in een uniforme patchgebaseerde tokenruimte. Twee lichtgewicht diffusie-transformerkoppen decoderen de verborgen toestanden naar framegebaseerde audio- en videolatents. Experimenten op talking portrait-benchmarks tonen aan dat Talker-T2AV dual-branch-baselines overtreft in lip-sync-nauwkeurigheid, videokwaliteit en audiokwaliteit, en sterkere cross-modale consistentie bereikt dan gecascadeerde pijplijnen.

LASE: Taal-adversariële sprekerencodering voor Indic cross-script identiteitsbehoud
LASE: Language-Adversarial Speaker Encoding for Indic Cross-Script Identity Preservation

May 1

ByVenkata Pushpak Teja Menta

Een speaker-encoder voor meertalige stemkloning zou dezelfde spreker identiek moeten behandelen, ongeacht in welk script de audio is uitgesproken. Standaard encoders slagen hier niet in, en de fout is afhankelijk van het accent. Op een corpus van 1043 Westers-geaccentueerde stemparen in het Engels, Hindi, Telugu en Tamil verliest WavLM-base-plus-sv 0.082 absolute cosinusgelijkenis wanneer dezelfde stem van script wisselt, en ECAPA-TDNN verliest 0.105. Op een corpus van 1369 Indiaas-geaccentueerde stemparen krimpt het verschil tot 0.006 (WavLM-SV) en 0.044 (ECAPA-TDNN). Het lek is het grootst waar het er het meest toe doet voor TTS over scripts heen: wanneer een systeem een stem die niet op Indic-talen is getraind, projecteert in Indic-scripts. Wij presenteren LASE (Language-Adversarial Speaker Encoder), een kleine projectiekop op een bevroren WavLM-base-plus, getraind met twee verliesfuncties: een supervised contrastief verlies op stemidentiteit, en een gradient-reversal cross-entropy tegen een 4-talen-classifier die de embedding dwingt taal-oninformatief te zijn terwijl deze spreker-informatief blijft. Getraind op 1118 kwaliteitsgecontroleerde cross-script paren gesynthetiseerd uit 8 commerciële meertalige stemmen, is de resterende kloof van LASE consistent met nul op beide corpora (Δ = 0.013 Westers, Δ = 0.026 Indiaas; beide bootstrap 95% BI's omvatten nul) en vergroot de marge voor cross-script-versus-floor 2.4-2.7x ten opzichte van beide baselines. Een ECAPA+GRL-ablatie toont aan dat het GRL-doel elke backbone verbetert, maar de WavLM-keuze draagt eveneens bij. In synthetische multi-speaker diarisatie evenaart LASE ECAPA-TDNN qua cross-script speaker recall (0.788 vs. 0.789) met ~100x minder trainingsdata. Wij geven de r1 checkpoint, beide corpora en het bootstrap-recept vrij.

Zachte anisotrope diagrammen voor differentieerbare beeldrepresentatie
Soft Anisotropic Diagrams for Differentiable Image Representation

Apr 27

ByLaki Iinbor, Zhiyang Dou, Wojciech Matusik

Wij introduceren Soft Anisotrope Diagrammen (SAD), een expliciete en differentieerbare beeldrepresentatie geparameteriseerd door een set adaptieve locaties in het beeldvlak. In SAD specificeert elke locatie een anisotrope metriek en een additief gewogen afstandsscore, en wij berekenen pixelkleuren als een softmax-mengsel over een kleine per-pixel top-K subset van locaties. Wij induceren een zacht anisotroop additief gewogen Voronoi-diagram (een Apollonius-diagram) met leerbare temperatuurwaarden per locatie, waardoor informatieve gradiënten behouden blijven terwijl duidelijke, inhoudsuitgelijnde grenzen en expliciete 'eigenaarschap' mogelijk zijn. Een dergelijke formulering maakt efficiënte rendering mogelijk door het bijhouden van een per-query top-K kaart die de dichtstbijzijnde buren benadert onder dezelfde belichtingsscore, wat GPU-vriendelijke, lokale berekeningen met vaste grootte toelaat. Wij updaten deze lijst met behulp van ons top-K propagatieschema, geïnspireerd door jump flooding, aangevuld met stochastische injectie om probabilistische globale dekking te bieden. De training volgt een GPU-first pijplijn met gradiënt-gewogen initialisatie, Adam-optimalisatie en adaptieve budgetcontrole via verdichting en uitdunning. Op standaard benchmarks presteert SAD consistent beter dan Image-GS en Instant-NGP bij gelijke bitsnelheid. Op Kodak bereikt SAD 46.0 dB PSNR met een encoderingstijd van 2.2 s (versus 28 s voor Image-GS), en levert het 4-19 keer end-to-end trainingsversnelling op ten opzichte van state-of-the-art baseline-methoden. Wij demonstreren de effectiviteit van SAD door de naadloze integratie met differentieerbare pijplijnen voor forward en inverse problemen, de efficiëntie van snelle willekeurige toegang, en compacte opslag te tonen.

Van vaardigheidstekst naar vaardigheidsstructuur: de plannings-structureel-logische representatie voor agentvaardigheden
From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

Apr 27

ByQiliang Liang, Hansi Wang, Zhong Liang, Yang Liu