HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

18 papers found

LlamaFactory: Uniforme en Efficiënte Fine-Tuning van 100+ Taalmodellen
LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

Mar 20

ByYaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, Zheyan Luo

178

Efficiëne fine-tuning is essentieel voor het aanpassen van grote taalmodelen (LLM's) aan downstream taken. Het implementeren van deze methoden op verschillende modellen vereist echter aanzienlijke inspanningen. Wij presenteren LlamaFactory, een uniform raamwerk dat een reeks geavanceerde efficiënte trainingsmethoden integreert. Het stelt gebruikers in staat om de fine-tuning van meer dan 100 LLM's flexibel aan te passen zonder te hoeven programmeren, dankzij de ingebouwde webinterface LlamaBoard. We valideren empirisch de efficiëntie en effectiviteit van ons raamwerk voor taken op het gebied van taalmodellering en tekstgeneratie. Het is vrijgegeven op https://github.com/hiyouga/LLaMA-Factory en heeft al meer dan 13.000 sterren en 1.600 forks ontvangen.

Mora: Het mogelijk maken van algemene videogeneratie via een multi-agent raamwerk
Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

Mar 20

ByZhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun

Sora is het eerste grootschalige generalistische videogeneratiemodel dat aanzienlijke maatschappelijke aandacht heeft getrokken. Sinds de lancering door OpenAI in februari 2024, heeft geen enkel ander videogeneratiemodel de prestaties van Sora geëvenaard of diens vermogen om een breed scala aan videogeneratietaken te ondersteunen. Daarnaast zijn er slechts enkele volledig gepubliceerde videogeneratiemodellen, waarbij de meeste gesloten broncode hebben. Om dit gat te dichten, stelt dit artikel een nieuw multi-agent framework voor, genaamd Mora, dat verschillende geavanceerde visuele AI-agents integreert om de generalistische videogeneratie van Sora na te bootsen. In het bijzonder kan Mora meerdere visuele agents inzetten en met succes de videogeneratiecapaciteiten van Sora nabootsen in diverse taken, zoals (1) tekst-naar-video generatie, (2) tekst-conditionele beeld-naar-video generatie, (3) het verlengen van gegenereerde video's, (4) video-naar-video bewerking, (5) het verbinden van video's en (6) het simuleren van digitale werelden. Onze uitgebreide experimentele resultaten tonen aan dat Mora prestaties bereikt die dicht in de buurt komen van die van Sora in verschillende taken. Er bestaat echter een duidelijk prestatieverschil tussen ons werk en Sora wanneer dit holistisch wordt beoordeeld. Samenvattend hopen we dat dit project de toekomstige richting van videogeneratie kan sturen door middel van collaboratieve AI-agents.

Evolutionaire optimalisatie van model-samenvoegingsrecepten
Evolutionary Optimization of Model Merging Recipes

Mar 19

ByTakuya Akiba, Makoto Shing, Yujin Tang, Qi Sun, David Ha

We presenteren een nieuwe toepassing van evolutionaire algoritmen om het creëren van krachtige foundationmodellen te automatiseren. Hoewel modelmerging naar voren is gekomen als een veelbelovende benadering voor de ontwikkeling van LLM's vanwege de kosteneffectiviteit, is het momenteel afhankelijk van menselijke intuïtie en domeinkennis, wat het potentieel beperkt. Hier stellen we een evolutionaire benadering voor die deze beperking overwint door effectieve combinaties van diverse open-source modellen automatisch te ontdekken, waarbij hun collectieve intelligentie wordt benut zonder uitgebreide aanvullende trainingsdata of rekenkracht te vereisen. Onze benadering opereert zowel in de parameterruimte als in de dataflowruimte, waardoor optimalisatie mogelijk is die verder gaat dan alleen de gewichten van de individuele modellen. Deze benadering maakt zelfs cross-domain merging mogelijk, wat modellen genereert zoals een Japanse LLM met wiskundige redeneervaardigheden. Verrassend genoeg behaalde onze Japanse Math LLM state-of-the-art prestaties op een verscheidenheid aan gevestigde Japanse LLM-benchmarks, en overtrof zelfs modellen met aanzienlijk meer parameters, ondanks dat het niet expliciet voor dergelijke taken was getraind. Bovendien toont een cultureel bewuste Japanse VLM, gegenereerd via onze benadering, zijn effectiviteit in het beschrijven van Japans cultuurspecifieke inhoud, en presteert beter dan eerdere Japanse VLM's. Dit werk draagt niet alleen nieuwe state-of-the-art modellen bij aan de open-source gemeenschap, maar introduceert ook een nieuw paradigma voor geautomatiseerde modelcompositie, wat de weg effent voor het verkennen van alternatieve, efficiënte benaderingen voor de ontwikkeling van foundationmodellen.

SceneScript: Scènes reconstrueren met een autoregressief gestructureerd taalmodel
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model

Mar 19

ByArmen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas

We introduceren SceneScript, een methode die volledige scènemodellen direct produceert als een reeks gestructureerde taalcommando's met behulp van een autoregressieve, token-gebaseerde aanpak. Onze voorgestelde scène-representatie is geïnspireerd door recente successen in transformers en LLM's (Large Language Models), en wijkt af van meer traditionele methoden die scènes doorgaans beschrijven als meshes, voxelroosters, puntenwolken of stralingsvelden. Onze methode leidt de set gestructureerde taalcommando's direct af van gecodeerde visuele data met behulp van een scène-taal encoder-decoder architectuur. Om SceneScript te trainen, genereren en publiceren we een grootschalige synthetische dataset genaamd Aria Synthetic Environments, bestaande uit 100k hoogwaardige binnenscènes, met fotorealistische en grondwaarheid-geannoteerde renders van egocentrische scènewandelingen. Onze methode behaalt state-of-the-art resultaten in het schatten van architectonische lay-outs en competitieve resultaten in 3D-objectdetectie. Tot slot verkennen we een voordeel van SceneScript, namelijk het vermogen om zich eenvoudig aan te passen aan nieuwe commando's via eenvoudige toevoegingen aan de gestructureerde taal, wat we illustreren voor taken zoals grove 3D-objectonderdeelreconstructie.

Wanneer hebben we geen grotere visionmodellen nodig?
When Do We Not Need Larger Vision Models?

Mar 19

ByBaifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell

Het opschalen van de grootte van vision-modellen is de facto de standaard geworden om krachtigere visuele representaties te verkrijgen. In dit werk bespreken we het punt waarop grotere vision-modellen niet langer nodig zijn. Eerst tonen we de kracht van Scaling on Scales (S^2) aan, waarbij een vooraf getraind en bevroren kleiner vision-model (bijv. ViT-B of ViT-L), uitgevoerd over meerdere beeldschalen, grotere modellen (bijv. ViT-H of ViT-G) kan overtreffen op classificatie, segmentatie, diepteschatting, Multimodale LLM (MLLM)-benchmarks en robotmanipulatie. Opmerkelijk is dat S^2 state-of-the-art prestaties behaalt in gedetailleerd begrip van MLLM op de V*-benchmark, waarbij modellen zoals GPT-4V worden overtroffen. We onderzoeken de voorwaarden waaronder S^2 een voorkeursbenadering is voor schaling in vergelijking met schaling op modelgrootte. Hoewel grotere modellen het voordeel hebben van betere generalisatie op moeilijke voorbeelden, laten we zien dat de kenmerken van grotere vision-modellen goed kunnen worden benaderd door die van multi-schaal kleinere modellen. Dit suggereert dat de meeste, zo niet alle, representaties die door huidige grote vooraf getrainde modellen worden geleerd, ook kunnen worden verkregen uit multi-schaal kleinere modellen. Onze resultaten laten zien dat een multi-schaal kleiner model een vergelijkbare leercapaciteit heeft als een groter model, en dat het vooraf trainen van kleinere modellen met S^2 het voordeel van grotere modellen kan evenaren of zelfs overtreffen. We brengen een Python-pakket uit dat S^2 met één regel code op elk vision-model kan toepassen: https://github.com/bfshi/scaling_on_scales.

IDAdapter: Het leren van gemengde kenmerken voor afstemmingsvrije personalisatie van tekst-naar-beeldmodellen
IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models

Mar 20

BySiying Cui, Jiankang Deng, Jia Guo, Xiang An, Yongle Zhao, Xinyu Wei, Ziyong Feng

Het gebruik van Stable Diffusion voor het genereren van gepersonaliseerde portretten is naar voren gekomen als een krachtig en opmerkelijk hulpmiddel, waarmee gebruikers hoogwaardige, op maat gemaakte karakteravatars kunnen creëren op basis van hun specifieke prompts. Bestaande personalisatiemethoden kampen echter met uitdagingen, waaronder fine-tuning tijdens het testen, de vereiste van meerdere invoerafbeeldingen, een lage behoud van identiteit en beperkte diversiteit in de gegenereerde resultaten. Om deze uitdagingen te overwinnen, introduceren we IDAdapter, een aanpak zonder fine-tuning die de diversiteit en het behoud van identiteit in gepersonaliseerde beeldgeneratie vanuit een enkele gezichtsafbeelding verbetert. IDAdapter integreert een gepersonaliseerd concept in het generatieproces door een combinatie van tekstuele en visuele injecties en een gezichtsidentiteitsverlies. Tijdens de trainingsfase nemen we gemengde kenmerken van meerdere referentieafbeeldingen van een specifieke identiteit op om de details van identiteitsgerelateerde inhoud te verrijken, waardoor het model wordt geleid om afbeeldingen te genereren met meer diverse stijlen, uitdrukkingen en hoeken in vergelijking met eerdere werken. Uitgebreide evaluaties tonen de effectiviteit van onze methode aan, waarbij zowel diversiteit als identiteitsgetrouwheid in de gegenereerde afbeeldingen worden bereikt.

RewardBench: Evaluatie van Beloningsmodellen voor Taalmodellering
RewardBench: Evaluating Reward Models for Language Modeling

Mar 20

ByNathan Lambert, Valentina Pyatkin, Jacob Morrison, LJ Miranda, Bill Yuchen Lin, Khyathi Chandu, Nouha Dziri, Sachin Kumar, Tom Zick, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi

Beloningsmodellen (RMs) staan centraal in succesvolle RLHF (Reinforcement Learning from Human Feedback) om voorgetrainde modellen af te stemmen op menselijke voorkeuren, maar er is relatief weinig onderzoek dat zich richt op de evaluatie van deze beloningsmodellen. Het evalueren van beloningsmodellen biedt een kans om de ondoorzichtige technologieën die worden gebruikt voor het afstemmen van taalmodellen beter te begrijpen en te zien welke waarden erin zijn ingebed. Tot op heden bestaan er zeer weinig beschrijvingen van mogelijkheden, trainingsmethoden of open-source beloningsmodellen. In dit artikel presenteren we RewardBench, een benchmarkdataset en codebase voor evaluatie, om het wetenschappelijke begrip van beloningsmodellen te vergroten. De RewardBench-dataset is een verzameling van prompt-win-lose trio's die chat, redeneren en veiligheid omvatten, om te benchmarken hoe beloningsmodellen presteren op uitdagende, gestructureerde en out-of-distribution queries. We hebben specifieke vergelijkingsdatasets gemaakt voor RMs die subtiele, maar verifieerbare redenen hebben (bijv. bugs, incorrecte feiten) waarom het ene antwoord de voorkeur verdient boven het andere. Op het RewardBench-leaderboard evalueren we beloningsmodellen die zijn getraind met verschillende methoden, zoals de directe MLE-training van classificatoren en de impliciete beloningsmodellering van Direct Preference Optimization (DPO), en op een reeks datasets. We presenteren veel bevindingen over de neiging tot weigeringen, beperkingen in redeneren en tekortkomingen in het volgen van instructies van verschillende beloningsmodellen, om zo het RLHF-proces beter te begrijpen.

HyperLLaVA: Dynamische afstemming van visuele en taalkundige expertise voor multimodale grote taalmodellen
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models

Mar 20

ByWenqiao Zhang, Tianwei Lin, Jiang Liu, Fangxun Shu, Haoyuan Li, Lei Zhang, He Wanggui, Hao Zhou, Zheqi Lv, Hao Jiang, Juncheng Li, Siliang Tang, Yueting Zhuang

Recente ontwikkelingen tonen aan dat het opschalen van Multimodale Grote Taalmodellen (MLLMs) de prestaties op downstream multimodale taken effectief verbetert. Het heersende MLLM-paradigma, zoals LLaVA, zet visuele kenmerken om in tekstachtige tokens met behulp van een statische visie-taal-mapper, waardoor statische LLMs de mogelijkheid ontwikkelen om visuele informatie te begrijpen via visuele instructieafstemming. Hoewel veelbelovend, kan de statische afstemmingsstrategie~De statische afstemming verwijst naar het getrainde model met statische parameters. die dezelfde parameters deelt, de prestaties over verschillende downstream multimodale taken beperken. Met dit in gedachten introduceren we HyperLLaVA, waarbij adaptieve afstemming van de projectie- en LLM-parameters plaatsvindt, in combinatie met respectievelijk een dynamische visuele expert en een taalexpert. Deze experts zijn afgeleid van HyperNetworks, die adaptieve parametershifts genereren via visuele en taalgeleiding, waardoor dynamische projectie- en LLM-modellering mogelijk wordt in tweefasige training. Onze experimenten tonen aan dat onze oplossing LLaVA aanzienlijk overtreft op bestaande MLLM-benchmarks, waaronder MME, MMBench, SEED-Bench en LLaVA-Bench. ~Ons project is beschikbaar op de link https://github.com/DCDmllm/HyperLLaVA.

DepthFM: Snelle Monoculaire Diepteschatting met Flow Matching
DepthFM: Fast Monocular Depth Estimation with Flow Matching

Mar 20

ByMing Gui, Johannes S. Fischer, Ulrich Prestel, Pingchuan Ma, Dmytro Kotovenko, Olga Grebenkova, Stefan Andreas Baumann, Vincent Tao Hu, Björn Ommer

Monoculaire diepteschatting is cruciaal voor talrijke downstream visietaken en toepassingen. Huidige discriminerende benaderingen voor dit probleem zijn beperkt door wazige artefacten, terwijl state-of-the-art generatieve methoden te kampen hebben met trage sampling vanwege hun SDE-aard. In plaats van vanuit ruis te beginnen, streven we naar een directe mapping van invoerbeeld naar dieptekaart. We observeren dat dit effectief kan worden geformuleerd met behulp van flow matching, aangezien de rechte trajecten door de oplossingsruimte efficiëntie en hoge kwaliteit bieden. Onze studie toont aan dat een vooraf getraind beelddiffusiemodel kan dienen als een adequaat prior voor een flow matching dieptemodel, waardoor efficiënte training op alleen synthetische data mogelijk is om te generaliseren naar echte beelden. We constateren dat een aanvullende oppervlaktenormalenverlies de diepteschattingen verder verbetert. Vanwege de generatieve aard van onze aanpak, voorspelt ons model betrouwbaar het vertrouwen van zijn diepteschattingen. Op standaard benchmarks van complexe natuurlijke scènes vertoont onze lichtgewicht aanpak state-of-the-art prestaties tegen een gunstige lage rekenkost, ondanks dat deze slechts op weinig synthetische data is getraind.

RadSplat: Radiance Field-Geïnformeerd Gaussisch Splatting voor Robuust Real-Time Renderen met 900+ FPS
RadSplat: Radiance Field-Informed Gaussian Splatting for Robust Real-Time Rendering with 900+ FPS

Mar 20

ByMichael Niemeyer, Fabian Manhardt, Marie-Julie Rakotosaona, Michael Oechsle, Daniel Duckworth, Rama Gosula, Keisuke Tateno, John Bates, Dominik Kaeser, Federico Tombari

Recente vooruitgang in view synthesis en real-time rendering heeft fotorealistische kwaliteit bereikt met indrukwekkende rendersnelheden. Hoewel Radiance Field-gebaseerde methoden state-of-the-art kwaliteit behalen in uitdagende scenario's zoals in-the-wild opnames en grootschalige scènes, lijden ze vaak onder extreem hoge rekenvereisten die verband houden met volumetrische rendering. Gaussian Splatting-gebaseerde methoden daarentegen vertrouwen op rasterisatie en bereiken van nature real-time rendering, maar hebben last van broze optimalisatieheuristieken die onderpresteren in meer uitdagende scènes. In dit werk presenteren we RadSplat, een lichtgewicht methode voor robuuste real-time rendering van complexe scènes. Onze belangrijkste bijdragen zijn drievoudig. Ten eerste gebruiken we radiance fields als een prior en supervisiesignaal voor het optimaliseren van puntgebaseerde scène-representaties, wat leidt tot verbeterde kwaliteit en robuustere optimalisatie. Vervolgens ontwikkelen we een nieuwe pruning-techniek die het totale aantal punten vermindert terwijl de hoge kwaliteit behouden blijft, wat resulteert in kleinere en compacter scène-representaties met snellere inferentiesnelheden. Tot slot stellen we een nieuwe test-time filtering-aanpak voor die de rendering verder versnelt en schaalbaarheid naar grotere, huisgrote scènes mogelijk maakt. We constateren dat onze methode state-of-the-art synthese van complexe opnames mogelijk maakt met meer dan 900 FPS.

ZigMa: Zigzag Mamba Diffusiemodel
ZigMa: Zigzag Mamba Diffusion Model

Mar 20

ByVincent Tao Hu, Stefan Andreas Baumann, Ming Gui, Olga Grebenkova, Pingchuan Ma, Johannes Fischer, Bjorn Ommer

Het diffusiemodel wordt al lang geplaagd door schaalbaarheidsproblemen en kwadratische complexiteit, vooral binnen transformer-gebaseerde structuren. In deze studie streven we ernaar om de mogelijkheid van langere sequentiemodellering van een State-Space Model genaamd Mamba te benutten om de toepasbaarheid ervan uit te breiden naar visuele datageneratie. Ten eerste identificeren we een kritisch overzicht in de meeste huidige Mamba-gebaseerde visiemethoden, namelijk het gebrek aan aandacht voor ruimtelijke continuïteit in het scanschema van Mamba. Ten tweede, voortbouwend op dit inzicht, introduceren we een eenvoudige, plug-and-play, nul-parameter methode genaamd Zigzag Mamba, die de Mamba-gebaseerde basislijnen overtreft en verbeterde snelheid en geheugenbenutting laat zien in vergelijking met transformer-gebaseerde basislijnen. Tot slot integreren we Zigzag Mamba met het Stochastic Interpolant-framework om de schaalbaarheid van het model te onderzoeken op grote-resolutie visuele datasets, zoals FacesHQ 1024x1024 en UCF101, MultiModal-CelebA-HQ, en MS COCO 256x256. De code zal worden vrijgegeven op https://taohu.me/zigma/.

Magic Fixup: Stroomlijnen van Foto-bewerking door het Observeren van Dynamische Video's
Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos

Mar 19

ByHadi Alzayer, Zhihao Xia, Xuaner Zhang, Eli Shechtman, Jia-Bin Huang, Michael Gharbi

We stellen een generatief model voor dat, gegeven een grof bewerkte afbeelding, een fotorealistische uitvoer synthetiseert die de voorgeschreven lay-out volgt. Onze methode transfereert fijne details van de originele afbeelding en behoudt de identiteit van de onderdelen ervan. Tegelijkertijd past het deze aan aan de belichting en context die door de nieuwe lay-out worden gedefinieerd. Onze belangrijkste inzicht is dat video's een krachtige bron van supervisie zijn voor deze taak: objecten en camerabewegingen bieden veel observaties van hoe de wereld verandert met gezichtspunt, belichting en fysieke interacties. We construeren een afbeeldingsdataset waarin elk monster een paar bron- en doelbeelden is die uit dezelfde video zijn geëxtraheerd op willekeurig gekozen tijdsintervallen. We vervormen het bronbeeld naar het doelbeeld toe met behulp van twee bewegingsmodellen die de verwachte testtijdgebruikersbewerkingen nabootsen. We begeleiden ons model om het vervormde beeld om te zetten in de grondwaarheid, uitgaande van een vooraf getraind diffusiemodel. Ons modelontwerp maakt expliciet de overdracht van fijne details van het bronbeeld naar de gegenereerde afbeelding mogelijk, terwijl het nauwgezet de door de gebruiker gespecificeerde lay-out volgt. We tonen aan dat we door gebruik te maken van eenvoudige segmentaties en grove 2D-manipulaties een fotorealistische bewerking kunnen synthetiseren die trouw is aan de invoer van de gebruiker, terwijl we tweede-ordeeffecten aanpakken, zoals het harmoniseren van de belichting en fysieke interacties tussen bewerkte objecten.

Omgekeerde training om het omkeringseffect te verhelpen
Reverse Training to Nurse the Reversal Curse

Mar 20

ByOlga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar

Grote taalmodellen (LLM's) vertonen een opvallend falen: wanneer ze getraind worden op "A heeft een eigenschap B", generaliseren ze niet naar "B is een eigenschap van A", wat de Omkeringvloek wordt genoemd. Zelfs bij training met biljoenen tokens blijft dit probleem bestaan vanwege de wet van Zipf - zelfs als we trainen op het hele internet. Dit werk stelt een alternatief trainingsschema voor, genaamd omgekeerde training, waarbij alle woorden twee keer worden gebruikt, wat het aantal beschikbare tokens verdubbelt. Het LLM wordt getraind in zowel voorwaartse als omgekeerde richting door de trainingsreeksen om te keren, terwijl gekozen substrings, zoals entiteiten, behouden blijven (dus niet worden omgekeerd). We laten zien dat data-gematchede, omgekeerd getrainde modellen superieure prestaties leveren ten opzichte van standaardmodellen bij standaard taken, en compute-gematchede, omgekeerd getrainde modellen veel betere prestaties leveren bij omkerings taken, wat helpt bij het oplossen van het omkeringvloek-probleem.

Be-Your-Outpainter: Meester worden in video-outpainting door input-specifieke aanpassing
Be-Your-Outpainter: Mastering Video Outpainting through Input-Specific Adaptation

Mar 20

ByFu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li

Video outpainting is een uitdagende taak die gericht is op het genereren van video-inhoud buiten het zichtbare gebied van de invoervideo, waarbij consistentie tussen frames en binnen frames behouden blijft. Bestaande methoden schieten tekort in generatiekwaliteit of flexibiliteit. Wij introduceren MOTIA (Mastering Video Outpainting Through Input-Specific Adaptation), een op diffusie gebaseerde pijplijn die zowel de intrinsieke, data-specifieke patronen van de bronvideo als het generatieve voorafgaande beeld/video gebruikt voor effectieve outpainting. MOTIA bestaat uit twee hoofd fasen: input-specifieke aanpassing en patroonbewuste outpainting. De input-specifieke aanpassingsfase omvat het uitvoeren van efficiënt en effectief pseudo-outpainting leren op de single-shot bronvideo. Dit proces moedigt het model aan om patronen binnen de bronvideo te identificeren en te leren, en om de kloof tussen standaard generatieve processen en outpainting te overbruggen. De daaropvolgende fase, patroonbewuste outpainting, is gewijd aan de generalisatie van deze geleerde patronen om outpainting-resultaten te genereren. Aanvullende strategieën, waaronder ruimtelijk bewuste invoeging en ruisreizen, worden voorgesteld om het generatieve voorafgaande van het diffusiemodel en de verworven videopatronen uit bronvideo's beter te benutten. Uitgebreide evaluaties onderstrepen de superioriteit van MOTIA, die bestaande state-of-the-art methoden overtreft in algemeen erkende benchmarks. Opmerkelijk is dat deze vooruitgangen worden bereikt zonder uitgebreide, taakspecifieke afstemming te vereisen.

VSTAR: Generatieve Temporele Verzorging voor Langere Dynamische Video Synthese
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Mar 20

ByYumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva

Ondanks enorme vooruitgang op het gebied van tekst-naar-video (T2V) synthese, worstelen open-source T2V diffusiemodellen met het genereren van langere video's met dynamisch variërende en evoluerende inhoud. Ze hebben de neiging om quasi-statische video's te synthetiseren, waarbij ze de noodzakelijke visuele verandering in de tijd die in de tekstprompt wordt geïmpliceerd, negeren. Tegelijkertijd blijft het schalen van deze modellen om langere, meer dynamische video's te genereren vaak computationeel onhaalbaar. Om deze uitdaging aan te pakken, introduceren we het concept van Generatieve Temporele Verzorging (GTN), waarbij we ernaar streven het generatieve proces tijdens de inferentie aan te passen om de controle over de temporele dynamiek te verbeteren en het genereren van langere video's mogelijk te maken. We stellen een methode voor GTN voor, genaamd VSTAR, die uit twee belangrijke componenten bestaat: 1) Video Synopsis Prompting (VSP) - automatische generatie van een videosynopsis op basis van de oorspronkelijke enkele prompt met behulp van LLM's, die nauwkeurige tekstuele begeleiding biedt aan verschillende visuele toestanden van langere video's, en 2) Temporele Aandacht Regularisatie (TAR) - een regularisatietechniek om de temporele aandachtseenheden van de vooraf getrainde T2V diffusiemodellen te verfijnen, waardoor controle over de videodynamiek mogelijk wordt. We tonen experimenteel de superioriteit aan van de voorgestelde aanpak in het genereren van langere, visueel aantrekkelijke video's ten opzichte van bestaande open-source T2V-modellen. Daarnaast analyseren we de temporele aandachtskenmerken die met en zonder VSTAR worden gerealiseerd, wat het belang aantoont van het toepassen van onze methode om het negeren van de gewenste visuele verandering in de tijd te verminderen.

Naar 3D Molecuul-Tekst Interpretatie in Taalmodellen
Towards 3D Molecule-Text Interpretation in Language Models

Jan 25

BySihang Li, Zhiyuan Liu, Yanchen Luo, Xiang Wang, Xiangnan He, Kenji Kawaguchi, Tat-Seng Chua, Qi Tian

Taalmodelen (LMs) hebben een grote invloed gehad op diverse domeinen. Hun inherente beperking in het begrijpen van 3D-moleculaire structuren heeft echter hun potentieel in het biomoleculaire domein aanzienlijk beperkt. Om deze kloof te overbruggen, richten we ons op 3D-molecuul-tekstinterpretatie en stellen we 3D-MoLM voor: 3D-Moleculair Taalmodelleren. Specifiek stelt 3D-MoLM een LM in staat om 3D-moleculen te interpreteren en analyseren door de LM uit te rusten met een 3D-moleculaire encoder. Deze integratie wordt bereikt door een 3D-molecuul-tekstprojector, die de representatieruimte van de 3D-moleculaire encoder en de invoerruimte van de LM met elkaar verbindt. Bovendien hebben we, om het vermogen van 3D-MoLM voor kruismodale moleculaire interpretatie en instructievolging te verbeteren, zorgvuldig een 3D-molecuulgericht instructieafstemmingsdataset samengesteld -- 3D-MoIT. Door 3D-molecuul-tekstuitlijning en 3D-molecuulgerichte instructieafstemming, stelt 3D-MoLM een integratie van 3D-moleculaire encoder en LM tot stand. Het overtreft aanzienlijk bestaande basislijnen bij downstreamtaken, waaronder molecuul-tekstretrieval, molecuulbeschrijving en uitdagendere open-tekst moleculaire QA-taken, met name gericht op 3D-afhankelijke eigenschappen.

Compress3D: een gecomprimeerde latente ruimte voor 3D-generatie vanuit een enkele afbeelding
Compress3D: a Compressed Latent Space for 3D Generation from a Single Image

Mar 20

ByBowen Zhang, Tianyu Yang, Yu Li, Lei Zhang, Xi Zhao

3D-generatie heeft aanzienlijke vooruitgang geboekt, maar het efficiënt produceren van hoogwaardige 3D-assets vanuit een enkele afbeelding blijft een uitdaging. In dit artikel presenteren we een triplane-autoencoder, die 3D-modellen codeert in een compacte triplane-latente ruimte om zowel de 3D-geometrie als de textuurinformatie effectief te comprimeren. Binnen het autoencoder-framework introduceren we een 3D-bewust cross-attention-mechanisme, dat gebruikmaakt van latenterepresentaties met lage resolutie om kenmerken op te vragen uit een 3D-kenmerkvolume met hoge resolutie, waardoor de representatiecapaciteit van de latente ruimte wordt verbeterd. Vervolgens trainen we een diffusiemodel op deze verfijnde latente ruimte. In tegenstelling tot het uitsluitend vertrouwen op beeldembedding voor 3D-generatie, pleit onze voorgestelde methode voor het gelijktijdig gebruik van zowel beeldembedding als vormembedding als voorwaarden. Specifiek wordt de vormembedding geschat via een diffusieprior-model dat is geconditioneerd op de beeldembedding. Door middel van uitgebreide experimenten tonen we aan dat onze methode state-of-the-art algoritmen overtreft, waarbij superieure prestaties worden behaald terwijl minder trainingsdata en tijd nodig zijn. Onze aanpak maakt het mogelijk om hoogwaardige 3D-assets te genereren in slechts 7 seconden op een enkele A100 GPU.

Het evalueren van grensmodellen op gevaarlijke capaciteiten
Evaluating Frontier Models for Dangerous Capabilities

Mar 20

ByMary Phuong, Matthew Aitchison, Elliot Catt, Sarah Cogan, Alexandre Kaskasoli, Victoria Krakovna, David Lindner, Matthew Rahtz, Yannis Assael, Sarah Hodkinson, Heidi Howard, Tom Lieberum, Ramana Kumar, Maria Abi Raad, Albert Webson, Lewis Ho, Sharon Lin, Sebastian Farquhar, Marcus Hutter, Gregoire Deletang, Anian Ruoss, Seliem El-Sayed, Sasha Brown, Anca Dragan, Rohin Shah, Allan Dafoe, Toby Shevlane

Om de risico's van een nieuw AI-systeem te begrijpen, moeten we weten wat het wel en niet kan doen. Voortbouwend op eerder werk introduceren we een programma van nieuwe evaluaties van "gevaarlijke capaciteiten" en testen deze op Gemini 1.0-modellen. Onze evaluaties beslaan vier gebieden: (1) overtuiging en misleiding; (2) cyberbeveiliging; (3) zelfvermenigvuldiging; en (4) zelfredenering. We vinden geen bewijs van sterke gevaarlijke capaciteiten in de modellen die we hebben geëvalueerd, maar we signaleren vroege waarschuwingssignalen. Ons doel is om een rigoureuze wetenschap van evaluatie van gevaarlijke capaciteiten te bevorderen, ter voorbereiding op toekomstige modellen.

VSTAR: Generatieve Temporele Verzorging voor Langere Dynamische Video Synthese
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis

Mar 20

ByYumeng Li, William Beluch, Margret Keuper, Dan Zhang, Anna Khoreva