AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

REINFORCE++: Een eenvoudige en efficiënte aanpak voor het afstemmen van grote taalmodellen
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

Reinforcement Learning from Human Feedback (RLHF) is opgekomen als een kritieke benadering voor het afstemmen van grote taalmodellen op menselijke voorkeuren, waarbij een snelle algoritmische evolutie wordt waargenomen door methoden zoals Proximal Policy Optimization (PPO), Direct Preference Optimization (DPO), REINFORCE Leave One-Out (RLOO), ReMax, en Group Relative Policy Optimization (GRPO). We presenteren REINFORCE++, een verbeterde variant van het klassieke REINFORCE-algoritme dat belangrijke optimalisatietechnieken van PPO incorporeert terwijl de noodzaak voor een criticusnetwerk wordt geëlimineerd. REINFORCE++ bereikt drie primaire doelstellingen: (1) eenvoud, (2) verbeterde trainingsstabiliteit, en (3) verminderde computationele overhead. Door uitgebreide empirische evaluatie tonen we aan dat REINFORCE++ superieure stabiliteit vertoont in vergelijking met GRPO en een grotere computationele efficiëntie behaalt dan PPO, terwijl het vergelijkbare prestaties behoudt. De implementatie is beschikbaar op https://github.com/OpenRLHF/OpenRLHF.

Cosmos World Foundation Model Platform voor Fysieke AI.
Cosmos World Foundation Model Platform for Physical AI

Jan 7

ByNVIDIA, Niket Agarwal, Arslan Ali, Maciej Bala, Yogesh Balaji, Erik Barker, Tiffany Cai, Prithvijit Chattopadhyay, Yongxin Chen, Yin Cui, Yifan Ding, Daniel Dworakowski, Jiaojiao Fan, Michele Fenzi, Francesco Ferroni, Sanja Fidler, Dieter Fox, Songwei Ge, Yunhao Ge, Jinwei Gu, Siddharth Gururani, Ethan He, Jiahui Huang, Jacob Huffman, Pooya Jannaty, Jingyi Jin, Seung Wook Kim, Gergely Klár, Grace Lam, Shiyi Lan, Laura Leal-Taixe, Anqi Li, Zhaoshuo Li, Chen-Hsuan Lin, Tsung-Yi Lin, Huan Ling, Ming-Yu Liu, Xian Liu, Alice Luo, Qianli Ma, Hanzi Mao, Kaichun Mo, Arsalan Mousavian, Seungjun Nah, Sriharsha Niverty, David Page, Despoina Paschalidou, Zeeshan Patel, Lindsey Pavao, Morteza Ramezanali, Fitsum Reda, Xiaowei Ren, Vasanth Rao Naik Sabavat, Ed Schmerling, Stella Shi, Bartosz Stefaniak, Shitao Tang, Lyne Tchapmi, Przemek Tredak, Wei-Cheng Tseng, Jibin Varghese, Hao Wang, Haoxiang Wang, Heng Wang, Ting-Chun Wang, Fangyin Wei, Xinyue Wei, Jay Zhangjie Wu, Jiashu Xu, Wei Yang, Lin Yen-Chen, Xiaohui Zeng, Yu Zeng, Jing Zhang, Qinsheng Zhang, Yuxuan Zhang, Qingqing Zhao, Artur Zolkowski

Fysieke AI moet eerst digitaal worden getraind. Het heeft een digitale tweeling van zichzelf nodig, het beleidsmodel, en een digitale tweeling van de wereld, het wereldmodel. In dit artikel presenteren we het Cosmos World Foundation Model Platform om ontwikkelaars te helpen bij het bouwen van aangepaste wereldmodellen voor hun fysieke AI-opstellingen. We positioneren een wereldfoundation model als een algemeen wereldmodel dat kan worden afgestemd op aangepaste wereldmodellen voor downstream toepassingen. Ons platform omvat een videocuratiepijplijn, vooraf getrainde wereldfoundation modellen, voorbeelden van post-training van vooraf getrainde wereldfoundation modellen, en video-tokenizers. Om fysieke AI-bouwers te helpen bij het oplossen van de meest kritieke problemen van onze samenleving, maken we ons platform open-source en onze modellen open-weight met permissieve licenties beschikbaar via https://github.com/NVIDIA/Cosmos.

LLaVA-Mini: Efficiënte Grote Multimodale Modellen voor Afbeeldingen en Video's met Slechts één Visie Token
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

De opkomst van real-time grote multimodale modellen (LMM's) zoals GPT-4o heeft aanzienlijke interesse gewekt in efficiënte LMM's. LMM-frameworks coderen doorgaans visuele invoer in visuele tokens (continue representaties) en integreren deze en tekstuele instructies in de context van grote taalmodellen (LLM's), waarbij grootschalige parameters en talrijke contexttokens (voornamelijk visuele tokens) resulteren in aanzienlijke rekenkundige overhead. Eerdere inspanningen voor efficiënte LMM's richten zich altijd op het vervangen van de LLM-ruggengraat door kleinere modellen, terwijl ze het cruciale probleem van de hoeveelheid tokens verwaarlozen. In dit artikel introduceren we LLaVA-Mini, een efficiënte LMM met minimale visuele tokens. Om een hoge compressieverhouding van visuele tokens te bereiken en tegelijkertijd visuele informatie te behouden, analyseren we eerst hoe LMM's visuele tokens begrijpen en constateren we dat de meeste visuele tokens alleen een cruciale rol spelen in de vroege lagen van de LLM-ruggengraat, waar ze voornamelijk visuele informatie samenvoegen met teksttokens. Voortbouwend op deze bevinding introduceert LLaVA-Mini modaliteitsvoor-fusie om visuele informatie vooraf samen te voegen met teksttokens, waardoor de extreme compressie van visuele tokens die aan de LLM-ruggengraat worden gevoed tot één token wordt vergemakkelijkt. LLaVA-Mini is een verenigd groot multimodaal model dat het begrip van afbeeldingen, hoge-resolutieafbeeldingen en video's op een efficiënte manier kan ondersteunen. Experimenten over 11 op afbeeldingen gebaseerde en 7 op video gebaseerde benchmarks tonen aan dat LLaVA-Mini beter presteert dan LLaVA-v1.5 met slechts 1 visuele token in plaats van 576. Efficiëntieanalyses tonen aan dat LLaVA-Mini FLOP's met 77% kan verminderen, snelle reacties kan leveren binnen 40 milliseconden en meer dan 10.000 videoframes kan verwerken op de GPU-hardware met 24 GB geheugen.

Sa2VA: Het huwelijk van SAM2 met LLaVA voor een dichte, gefundeerde begrip van afbeeldingen en video's
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

Dit werk presenteert Sa2VA, het eerste verenigde model voor dichte verankerde begrip van zowel afbeeldingen als video's. In tegenstelling tot bestaande multimodale grote taalmodellen, die vaak beperkt zijn tot specifieke modaliteiten en taken, ondersteunt Sa2VA een breed scala aan beeld- en videotaken, waaronder verwijzende segmentatie en conversatie, met minimaal éénmalige instructieafstemming. Sa2VA combineert SAM-2, een basisvideosegmentatiemodel, met LLaVA, een geavanceerd visueel-taalmodel, en verenigt tekst, afbeelding en video in een gedeelde LLM-tokenruimte. Met behulp van de LLM genereert Sa2VA instructietokens die SAM-2 begeleiden bij het produceren van nauwkeurige maskers, waardoor een verankerd, multimodaal begrip van zowel statische als dynamische visuele inhoud mogelijk is. Daarnaast introduceren we Ref-SAV, een automatisch gelabelde dataset met meer dan 72k objectuitdrukkingen in complexe videoscènes, ontworpen om de modelprestaties te verbeteren. We valideren ook handmatig 2k video-objecten in de Ref-SAV-datasets om de verwijzende video-objectsegmentatie in complexe omgevingen te benchmarken. Experimenten tonen aan dat Sa2VA state-of-the-art bereikt op meerdere taken, met name in verwijzende video-objectsegmentatie, waarbij het potentieel voor complexe real-world toepassingen wordt benadrukt.

MotionBench: Benchmarken en Verbeteren van Fijnmazig Video Bewegingsbegrip voor Visie Taalmodellen
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

In de afgelopen jaren hebben visie-taalmodellen (VLM's) aanzienlijke vooruitgang geboekt op het gebied van videobegrip. Echter, een cruciale mogelijkheid - fijnmazig bewegingsbegrip - blijft onderbelicht in de huidige benchmarks. Om dit hiaat aan te pakken, stellen we MotionBench voor, een uitgebreide evaluatiebenchmark ontworpen om het fijnmazig bewegingsbegrip van videobegrijpende modellen te beoordelen. MotionBench evalueert het bewegingsniveau van modellen via zes primaire categorieën van bewegingsgerichte vraagtypen en bevat gegevens verzameld uit diverse bronnen, waardoor een brede representatie van real-world videomateriaal wordt gegarandeerd. Experimentele resultaten tonen aan dat bestaande VLM's slecht presteren in het begrijpen van fijnmazige bewegingen. Om de mogelijkheid van VLM's om fijnmazige beweging binnen een beperkte sequentielengte van LLM waar te nemen te verbeteren, voeren we uitgebreide experimenten uit waarbij VLM-architecturen worden beoordeeld die geoptimaliseerd zijn voor videokenmerkcompressie en stellen we een nieuw en efficiënte Door-Encoder (TE) Fusiemethode voor. Experimenten tonen aan dat hogere framesnelheid invoeren en TE Fusie verbeteringen opleveren in bewegingsbegrip, maar er is nog steeds aanzienlijke ruimte voor verbetering. Onze benchmark heeft tot doel de ontwikkeling van meer capabele videobegrijpende modellen te begeleiden en te stimuleren, waarbij de nadruk ligt op het belang van fijnmazig bewegingsbegrip. Projectpagina: https://motion-bench.github.io.

PPTAgent: Het Genereren en Evalueren van Presentaties Voorbij Tekst-naar-Slides.
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Het automatisch genereren van presentaties vanuit documenten is een uitdagende taak die een balans vereist tussen inhoudskwaliteit, visueel ontwerp en structurele coherentie. Bestaande methoden richten zich voornamelijk op het verbeteren en evalueren van de inhoudskwaliteit op zichzelf, waarbij vaak het visuele ontwerp en de structurele coherentie over het hoofd worden gezien, wat hun praktische toepasbaarheid beperkt. Om deze beperkingen aan te pakken, stellen we PPTAgent voor, dat de presentatiegeneratie op een allesomvattende manier verbetert door middel van een op bewerkingen gebaseerde aanpak geïnspireerd op menselijke workflows. PPTAgent analyseert eerst referentiepresentaties om hun structurele patronen en inhoudsschema's te begrijpen, stelt dan een opzet op en genereert dia's via codeacties om consistentie en afstemming te waarborgen. Om de kwaliteit van gegenereerde presentaties uitgebreid te evalueren, introduceren we verder PPTEval, een evaluatiekader dat presentaties beoordeelt op drie dimensies: Inhoud, Ontwerp en Coherentie. Experimenten tonen aan dat PPTAgent aanzienlijk beter presteert dan traditionele methoden voor automatische presentatiegeneratie op alle drie dimensies. De code en gegevens zijn beschikbaar op https://github.com/icip-cas/PPTAgent.

Diffusie als Shader: 3D-bewuste videodiffusie voor veelzijdige videoproductiecontrole
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

Diffusiemodellen hebben indrukwekkende prestaties aangetoond bij het genereren van hoogwaardige video's op basis van tekstprompts of afbeeldingen. Echter, precieze controle over het videogeneratieproces, zoals camerabewerking of inhoudsbewerking, blijft een aanzienlijke uitdaging. Bestaande methoden voor gecontroleerde videogeneratie zijn doorgaans beperkt tot een enkel type controle, waardoor ze niet flexibel genoeg zijn om diverse controle-eisen aan te kunnen. In dit artikel introduceren we Diffusie als Shader (DaS), een nieuw benadering die meerdere videobesturingstaken ondersteunt binnen een geünificeerde architectuur. Ons belangrijkste inzicht is dat het bereiken van veelzijdige videobesturing vereist dat er gebruik wordt gemaakt van 3D-besturingsignalen, aangezien video's in de kern 2D-weergaven zijn van dynamische 3D-inhoud. In tegenstelling tot eerdere methoden die beperkt zijn tot 2D-besturingsignalen, maakt DaS gebruik van 3D-trackingvideo's als besturingsinvoer, waardoor het videodiffusieproces inherent 3D-bewust is. Deze innovatie stelt DaS in staat om een breed scala aan videobesturingen te bereiken door eenvoudigweg de 3D-trackingvideo's te manipuleren. Een bijkomend voordeel van het gebruik van 3D-trackingvideo's is hun vermogen om frames effectief te verbinden, waardoor de temporele consistentie van de gegenereerde video's aanzienlijk wordt verbeterd. Met slechts 3 dagen fijntuning op 8 H800 GPU's met minder dan 10k video's, toont DaS sterke besturingsmogelijkheden aan over diverse taken, waaronder mesh-naar-video-generatie, camerabesturing, bewegingsoverdracht en objectmanipulatie.

OpenOmni: Grote taalmodellen draaien om nul-schot omni-modale uitlijning over talen met real-time zelfbewuste emotionele spraaksynthese.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

Recente ontwikkelingen in omnimodaal leren hebben vooruitgang geboekt in het begrijpen en genereren van beelden, tekst en spraak, zij het voornamelijk binnen eigen modellen. Beperkte omnimodale datasets en de inherente uitdagingen die gepaard gaan met het genereren van emotionele spraak in realtime hebben de voortgang van open-source projecten belemmerd. Om deze problemen aan te pakken, stellen we openomni voor, een tweefasige trainingsmethode die omnimodale afstemming en spraakgeneratie combineert om een state-of-the-art omnimodaal groot taalmodel te ontwikkelen. In de afstemmingsfase wordt een voorgeleerd spraakmodel verder getraind op tekst-beeldtaken om te generaliseren van visie naar spraak op een (bijna) zero-shot manier, waarbij modellen die zijn getraind op tri-modale datasets worden overtroffen. In de spraakgeneratiefase vergemakkelijkt een lichte decoder emotionele spraak in realtime door training op spraaktaken en voorkeursleren. Experimenten tonen aan dat openomni consequent verbeteringen laat zien bij omnimodale, visie-taal en spraak-taal evaluaties, waardoor natuurlijke, emotierijke dialogen en het genereren van emotionele spraak in realtime mogelijk worden gemaakt.

Dolfijn: Gesloten-lus Open-eindig Auto-onderzoek door Denken, Praktijk en Feedback
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

Het wetenschappelijke onderzoeksparadigma ondergaat een diepgaande transformatie als gevolg van de ontwikkeling van Kunstmatige Intelligentie (AI). Recente werken tonen aan dat verschillende AI-ondersteunde onderzoeksmethoden de onderzoeksefficiëntie aanzienlijk kunnen verbeteren door de gegevensanalyse te verbeteren, berekeningen te versnellen en het genereren van nieuwe ideeën te bevorderen. Om verder te streven naar het ultieme doel (d.w.z. automatisch wetenschappelijk onderzoek), stellen we in dit artikel Dolphin voor, het eerste gesloten-lus open-ended auto-onderzoekskader om het gehele proces van menselijk wetenschappelijk onderzoek verder op te bouwen. Dolphin kan onderzoeksideeën genereren, experimenten uitvoeren en feedback krijgen van experimentele resultaten om ideeën van hogere kwaliteit te genereren. Meer specifiek genereert Dolphin eerst nieuwe ideeën op basis van relevante papers die gerangschikt zijn op basis van de onderwerp- en taakeigenschappen. Vervolgens worden de codes automatisch gegenereerd en opgeschoond met de uitzondering-traceringsgestuurde lokale codestructuur. Ten slotte analyseert Dolphin automatisch de resultaten van elk idee en geeft de resultaten terug aan de volgende ronde van ideegeneratie. Experimenten worden uitgevoerd op benchmark datasets van verschillende onderwerpen en de resultaten tonen aan dat Dolphin voortdurend nieuwe ideeën kan genereren en het experiment in een lus kan voltooien. We benadrukken dat Dolphin automatisch methoden kan voorstellen die vergelijkbaar zijn met de state-of-the-art in sommige taken zoals 2D beeldclassificatie en 3D puntclassificatie.

Magische Spiegel: Video Generatie met Behoud van ID in Video Diffusie Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

Wij presenteren Magic Mirror, een raamwerk voor het genereren van identiteit-geconserveerde video's met een cinematografisch niveau van kwaliteit en dynamische beweging. Hoewel recente ontwikkelingen in video-diffusiemodellen indrukwekkende mogelijkheden hebben laten zien in tekst-naar-video generatie, blijft het uitdagend om consistente identiteit te behouden terwijl natuurlijke beweging wordt geproduceerd. Vorige methoden vereisen ofwel fijne afstemming per persoon of worstelen met het balanceren van identiteitsbehoud met bewegingsdiversiteit. Gebaseerd op Video Diffusion Transformers, introduceert onze methode drie essentiële componenten: (1) een dubbele tak voor het extraheren van gezichtskenmerken die zowel identiteit als structurele kenmerken vastlegt, (2) een lichtgewicht cross-modale adapter met Conditioned Adaptive Normalization voor efficiënte integratie van identiteit, en (3) een tweefasige trainingsstrategie die synthetische identiteitsparen combineert met videogegevens. Uitgebreide experimenten tonen aan dat Magic Mirror effectief identiteitsconsistentie balanceert met natuurlijke beweging, bestaande methoden overtreft op meerdere metingen en minimale toegevoegde parameters vereist. De code en het model zullen openbaar beschikbaar worden gesteld op: https://github.com/dvlab-research/MagicMirror/

MoDec-GS: Globale-naar-Lokale Bewegingsdecompositie en Temporele Interval Aanpassing voor Compacte Dynamische 3D Gaussische Splatting
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

3D Gaussian Splatting (3DGS) heeft aanzienlijke vooruitgang geboekt in scène-representatie en neurale rendering, waarbij intensieve inspanningen gericht zijn op het aanpassen ervan voor dynamische scènes. Ondanks opmerkelijke renderingkwaliteit en snelheid te leveren, hebben bestaande methoden moeite met opslagvereisten en het representeren van complexe real-world bewegingen. Om deze problemen aan te pakken, stellen we MoDecGS voor, een geheugenefficiënt Gaussian splatting-framework dat is ontworpen voor het reconstrueren van nieuwe weergaven in uitdagende scenario's met complexe bewegingen. We introduceren GlobaltoLocal Motion Decomposition (GLMD) om dynamische bewegingen effectief op een grof-naar-fijn manier vast te leggen. Deze aanpak maakt gebruik van Global Canonical Scaffolds (Global CS) en Local Canonical Scaffolds (Local CS), waarbij de statische Scaffolding-representatie wordt uitgebreid naar dynamische videoreconstructie. Voor Global CS stellen we Global Anchor Deformation (GAD) voor om globale dynamiek efficiënt te representeren langs complexe bewegingen, door rechtstreeks de impliciete Scaffolding-attributen te vervormen, namelijk ankerpositie, offset en lokale contextkenmerken. Vervolgens passen we lokale bewegingen fijn aan via de Local Gaussian Deformation (LGD) van Local CS expliciet. Daarnaast introduceren we Temporal Interval Adjustment (TIA) om automatisch de temporale dekking van elke Local CS tijdens training te regelen, waardoor MoDecGS optimale intervaltoewijzingen kan vinden op basis van het gespecificeerde aantal temporale segmenten. Uitgebreide evaluaties tonen aan dat MoDecGS een gemiddelde vermindering van 70% in modelgrootte bereikt ten opzichte van state-of-the-art methoden voor dynamische 3D Gaussians uit real-world dynamische video's, terwijl de renderingkwaliteit behouden blijft of zelfs verbetert.

Het segmenteren van tekst en het leren van hun beloningen voor verbeterde RLHF in taalmodellen.
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

Reinforcement learning van menselijke feedback (RLHF) wordt veelvuldig toegepast om taalmodellen (LM's) af te stemmen op menselijke voorkeuren. Voorheen gebruikte RLHF-methoden namen doorgaans een bandit-formulering aan, die, hoewel intuïtief, voorbijgaat aan de sequentiële aard van LM-generatie en te maken kan krijgen met het probleem van schaarse beloningen. Terwijl recente werken dichte token-niveau RLHF voorstellen, kan het behandelen van elk token als een actie te subtiel zijn voor een juiste beloningstoewijzing. In dit artikel streven we ernaar het beste van beide te combineren door een segment-niveau beloningsmodel te trainen en te gebruiken, dat een beloning toekent aan elk semantisch volledig tekstsegment dat zich uitstrekt over een korte reeks tokens. Voor beloningsleren staat onze methode dynamische tekstsegmentatie toe en is compatibel met standaard datasets voor sequentie-voorkeur. Voor effectieve RL-gebaseerde LM-training tegen segmentbeloning generaliseren we de klassieke scalaire bandit-beloningnormalisatoren naar locatiebewuste normalisatiefuncties en interpoleren we de segmentbeloning voor verdere verdichting. Met deze ontwerpen presteert onze methode competitief op drie populaire RLHF-benchmarks voor LM-beleid: AlpacaEval 2.0, Arena-Hard en MT-Bench. Ablatiestudies worden uitgevoerd om onze methode verder te demonstreren.

Grafiek-bewuste Isomorfe Aandacht voor Aanpasbare Dynamiek in Transformers
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

We presenteren een benadering om Transformer-architecturen aan te passen door grafiekbewuste relationele redenering te integreren in het aandachtsmechanisme, waarbij concepten uit grafiekneurale netwerken en taalmodellering worden samengevoegd. Voortbouwend op de inherente verbinding tussen aandacht en grafentheorie, herformuleren we het aandachtsmechanisme van de Transformer als een grafiekoperatie en stellen Graph-Aware Isomorphic Attention voor. Deze methode maakt gebruik van geavanceerde grafiekmodelleringsstrategieën, waaronder Graph Isomorphism Networks (GIN) en Principal Neighborhood Aggregation (PNA), om de representatie van relationele structuren te verrijken. Onze benadering legt complexe afhankelijkheden vast en generaliseert over taken, zoals blijkt uit een verminderde generalisatiekloof en verbeterde leerpresentatie. Bovendien breiden we het concept van grafiekbewuste aandacht uit om Sparse GIN-Attention te introduceren, een fijnafstemmingsbenadering die schaarse GIN's gebruikt. Door aandachtsmatrices te interpreteren als schaarse adjacentiemodellen, verbetert deze techniek de aanpasbaarheid van vooraf getrainde basismodellen met minimale rekenkundige overhead, waardoor ze worden voorzien van grafiekbewuste mogelijkheden. Fijnafstemming met Sparse GIN-Attention bereikt verbeterde trainingsdynamiek en betere generalisatie in vergelijking met alternatieve methoden zoals lage-rangschikkingaanpassing (LoRA). We bespreken latente grafiekachtige structuren binnen traditionele aandachtsmechanismen, waarbij een nieuwe kijk wordt geboden op hoe Transformers kunnen worden begrepen. Door Transformers te laten evolueren als hiërarchische GIN-modellen voor relationeel redeneren. Deze benadering suggereert diepgaande implicaties voor de ontwikkeling van basismodellen, waardoor het ontwerpen van architecturen die dynamisch kunnen aanpassen aan zowel lokale als globale afhankelijkheden mogelijk wordt. Toepassingen in bio-informatica, materiaalkunde, taalmodellering en verder zouden kunnen profiteren van deze synthese van relationele en sequentiële gegevensmodellering, wat de weg vrijmaakt voor interpreteerbare en generaliseerbare modelleringsstrategieën.

MagicFace: Hoogwaardige bewerking van gezichtsuitdrukkingen met controle over actie-eenheden
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

We pakken het probleem van het bewerken van gezichtsuitdrukkingen aan door de relatieve variatie van gezichtsactie-eenheden (AU) van dezelfde persoon te controleren. Dit stelt ons in staat om de expressie van deze specifieke persoon op een verfijnde, continue en interpreteerbare manier te bewerken, terwijl we hun identiteit, houding, achtergrond en gedetailleerde gezichtskenmerken behouden. Kern van ons model, dat we MagicFace noemen, is een diffusiemodel geconditioneerd op AU-variabelen en een ID-encoder om gezichtsdetails met een hoge consistentie te behouden. Specifiek, om de gezichtsdetails met de invoeridentiteit te behouden, benutten we de kracht van vooraf getrainde Stable-Diffusion modellen en ontwerpen we een ID-encoder om uiterlijke kenmerken samen te voegen via zelfaandacht. Om achtergrond- en houdingsconsistentie te behouden, introduceren we een efficiënte Attribuutcontroller door het model expliciet te informeren over de huidige achtergrond en houding van het doel. Door AU-variabelen in te voegen in een denoising UNet, kan ons model willekeurige identiteiten animeren met verschillende AU-combinaties, wat resulteert in superieure resultaten bij het bewerken van expressies met een hoge nauwkeurigheid in vergelijking met andere werken voor het bewerken van gezichtsuitdrukkingen. De code is openbaar beschikbaar op https://github.com/weimengting/MagicFace.

Generaliseerbare oorsprongsidentificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang

Tekstgestuurde beeld-naar-beeld diffusiemodellen excelleren in het vertalen van afbeeldingen op basis van tekstuele aanwijzingen, waardoor nauwkeurige en creatieve visuele aanpassingen mogelijk zijn. Echter kan zo'n krachtige techniek misbruikt worden voor het verspreiden van misinformatie, inbreuk maken op auteursrechten en het ontwijken van het traceren van inhoud. Dit motiveert ons om de taak van origine-identificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen (ID^2) te introduceren, met als doel de originele afbeelding van een gegeven vertaalde query op te halen. Een eenvoudige oplossing voor ID^2 omvat het trainen van een gespecialiseerd diep insluitingsmodel om kenmerken uit zowel de query als referentieafbeeldingen te extraheren en vergelijken. Echter, vanwege visuele discrepantie over generaties geproduceerd door verschillende diffusiemodellen, faalt deze op gelijkenis gebaseerde benadering wanneer getraind wordt op afbeeldingen van het ene model en getest op die van een ander, wat de effectiviteit beperkt in real-world toepassingen. Om dit uitdaging van de voorgestelde ID^2-taak op te lossen, dragen we bij met de eerste dataset en een theoretisch gegarandeerde methode, waarbij generaliseerbaarheid benadrukt wordt. De samengestelde dataset, OriPID, bevat overvloedige Origins en begeleide Prompts, die gebruikt kunnen worden om potentiële Identificatiemodellen te trainen en testen over verschillende diffusiemodellen. In de methodensectie bewijzen we eerst het bestaan van een lineaire transformatie die de afstand minimaliseert tussen de vooraf getrainde insluitingen van de variational autoencoder (VAE) van gegenereerde samples en hun oorsprongen. Vervolgens wordt aangetoond dat zo'n eenvoudige lineaire transformatie gegeneraliseerd kan worden over verschillende diffusiemodellen. Experimentele resultaten tonen aan dat de voorgestelde methode bevredigende generalisatieprestaties behaalt, aanzienlijk beter dan op gelijkenis gebaseerde methoden (+31.6% mAP), zelfs die met generalisatieontwerpen.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

REINFORCE++: Een eenvoudige en efficiënte aanpak voor het afstemmen van grote taalmodellen
REINFORCE++: A Simple and Efficient Approach for Aligning Large Language Models

Jan 4

ByJian Hu

104

Cosmos World Foundation Model Platform voor Fysieke AI.
Cosmos World Foundation Model Platform for Physical AI

Jan 7

LLaVA-Mini: Efficiënte Grote Multimodale Modellen voor Afbeeldingen en Video's met Slechts één Visie Token
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Jan 7

ByShaolei Zhang, Qingkai Fang, Zhe Yang, Yang Feng

Sa2VA: Het huwelijk van SAM2 met LLaVA voor een dichte, gefundeerde begrip van afbeeldingen en video's
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos

Jan 7

ByHaobo Yuan, Xiangtai Li, Tao Zhang, Zilong Huang, Shilin Xu, Shunping Ji, Yunhai Tong, Lu Qi, Jiashi Feng, Ming-Hsuan Yang

MotionBench: Benchmarken en Verbeteren van Fijnmazig Video Bewegingsbegrip voor Visie Taalmodellen
MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Jan 6

ByWenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

PPTAgent: Het Genereren en Evalueren van Presentaties Voorbij Tekst-naar-Slides.
PPTAgent: Generating and Evaluating Presentations Beyond Text-to-Slides

Jan 7

ByHao Zheng, Xinyan Guan, Hao Kong, Jia Zheng, Hongyu Lin, Yaojie Lu, Ben He, Xianpei Han, Le Sun

Diffusie als Shader: 3D-bewuste videodiffusie voor veelzijdige videoproductiecontrole
Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control

Jan 7

ByZekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, Yuan Liu

OpenOmni: Grote taalmodellen draaien om nul-schot omni-modale uitlijning over talen met real-time zelfbewuste emotionele spraaksynthese.
OpenOmni: Large Language Models Pivot Zero-shot Omnimodal Alignment across Language with Real-time Self-Aware Emotional Speech Synthesis

Jan 8

ByRun Luo, Ting-En Lin, Haonan Zhang, Yuchuan Wu, Xiong Liu, Min Yang, Yongbin Li, Longze Chen, Jiaming Li, Lei Zhang, Yangyi Chen, Hamid Alinejad-Rokny, Fei Huang

Dolfijn: Gesloten-lus Open-eindig Auto-onderzoek door Denken, Praktijk en Feedback
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback

Jan 7

ByJiakang Yuan, Xiangchao Yan, Botian Shi, Tao Chen, Wanli Ouyang, Bo Zhang, Lei Bai, Yu Qiao, Bowen Zhou

Magische Spiegel: Video Generatie met Behoud van ID in Video Diffusie Transformers
Magic Mirror: ID-Preserved Video Generation in Video Diffusion Transformers

Jan 7

ByYuechen Zhang, Yaoyang Liu, Bin Xia, Bohao Peng, Zexin Yan, Eric Lo, Jiaya Jia

MoDec-GS: Globale-naar-Lokale Bewegingsdecompositie en Temporele Interval Aanpassing voor Compacte Dynamische 3D Gaussische Splatting
MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting

Jan 7

BySangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim

Het segmenteren van tekst en het leren van hun beloningen voor verbeterde RLHF in taalmodellen.
Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

Jan 6

ByYueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Awadalla, Weizhu Chen, Mingyuan Zhou

Grafiek-bewuste Isomorfe Aandacht voor Aanpasbare Dynamiek in Transformers
Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

Jan 4

ByMarkus J. Buehler

MagicFace: Hoogwaardige bewerking van gezichtsuitdrukkingen met controle over actie-eenheden
MagicFace: High-Fidelity Facial Expression Editing with Action-Unit Control

Jan 4

ByMengting Wei, Tuomas Varanka, Xingxun Jiang, Huai-Qian Khor, Guoying Zhao

Generaliseerbare oorsprongsidentificatie voor tekstgestuurde beeld-naar-beeld diffusiemodellen
Generalizable Origin Identification for Text-Guided Image-to-Image Diffusion Models

Jan 4

ByWenhao Wang, Yifan Sun, Zongxin Yang, Zhentao Tan, Zhengdong Hu, Yi Yang