ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

ROICtrl: Versterking van Instantiecontrole voor Visuele Generatie
ROICtrl: Boosting Instance Control for Visual Generation

Nov 27
ByYuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou
71
2

De natuurlijke taal worstelt vaak om nauwkeurig positionele en attribuutinformatie te associëren met meerdere instanties, wat de huidige op tekst gebaseerde visuele generatiemodellen beperkt tot eenvoudigere composities met slechts een paar dominante instanties. Om deze beperking aan te pakken, verbetert dit werk diffusiemodellen door regionale instantiecontrole te introduceren, waarbij elke instantie wordt beheerst door een begrenzingskader gekoppeld aan een vrije tekstbijschrift. Vorige methoden op dit gebied vertrouwen doorgaans op impliciete positie-encodering of expliciete aandachtsmaskers om regio's van belang (ROIs) te scheiden, resulterend in ofwel onnauwkeurige coördinaatinjectie of grote computationele overhead. Geïnspireerd door ROI-Align in objectdetectie, introduceren we een aanvullende bewerking genaamd ROI-Unpool. Samen maken ROI-Align en ROI-Unpool expliciete, efficiënte en nauwkeurige ROI-manipulatie mogelijk op hoge-resolutie kenmerkkaarten voor visuele generatie. Voortbouwend op ROI-Unpool stellen we ROICtrl voor, een adapter voor vooraf getrainde diffusiemodellen die precieze regionale instantiecontrole mogelijk maakt. ROICtrl is compatibel met door de gemeenschap gefinetunede diffusiemodellen, evenals met bestaande op ruimte gebaseerde toevoegingen (bijv. ControlNet, T2I-Adapter) en op embedding gebaseerde toevoegingen (bijv. IP-Adapter, ED-LoRA), waardoor hun toepassingen worden uitgebreid naar multi-instantie generatie. Experimenten tonen aan dat ROICtrl superieure prestaties levert in regionale instantiecontrole en tegelijkertijd de computationele kosten aanzienlijk verlaagt.

2

CAT4D: Creëer Alles in 4D met Multi-View Video Diffusie Modellen
CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models

Nov 27
ByRundi Wu, Ruiqi Gao, Ben Poole, Alex Trevithick, Changxi Zheng, Jonathan T. Barron, Aleksander Holynski
58
5

We presenteren CAT4D, een methode voor het creëren van 4D (dynamische 3D) scènes van monoculair video. CAT4D maakt gebruik van een multi-view video diffusie model dat is getraind op een diverse combinatie van datasets om nieuwe weergavesynthese mogelijk te maken op elke gespecificeerde camerapositie en tijdstempel. Gecombineerd met een nieuwe bemonsteringsbenadering kan dit model een enkele monoculaire video transformeren naar een multi-view video, waardoor robuuste 4D reconstructie mogelijk is door optimalisatie van een vervormbare 3D Gaussische representatie. We tonen competitieve prestaties op benchmarks voor nieuwe weergavesynthese en dynamische scène reconstructie, en benadrukken de creatieve mogelijkheden voor 4D scène generatie van echte of gegenereerde video's. Zie onze projectpagina voor resultaten en interactieve demo's: cat-4d.github.io.

3

Grote taalmodel-gestuurde GUI-agenten: Een overzicht
Large Language Model-Brained GUI Agents: A Survey

Nov 27
ByChaoyun Zhang, Shilin He, Jiaxu Qian, Bowen Li, Liqun Li, Si Qin, Yu Kang, Minghua Ma, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang
31
3

GUI's zijn al lange tijd essentieel voor mens-computerinteractie, waarbij ze een intuïtieve en visueel gestuurde manier bieden om toegang te krijgen tot en te communiceren met digitale systemen. De opkomst van LLM's, met name multimodale modellen, heeft een nieuw tijdperk van GUI-automatisering ingeluid. Ze hebben uitzonderlijke capaciteiten aangetoond op het gebied van natuurlijke taalbegrip, codegeneratie en visuele verwerking. Dit heeft de weg vrijgemaakt voor een nieuwe generatie LLM-gestuurde GUI-agenten die in staat zijn complexe GUI-elementen te interpreteren en autonoom acties uit te voeren op basis van natuurlijke taalinstructies. Deze agenten vertegenwoordigen een paradigmaverschuiving, waardoor gebruikers ingewikkelde, meerstaps taken kunnen uitvoeren via eenvoudige conversatieopdrachten. Hun toepassingen strekken zich uit over webnavigatie, mobiele app-interacties en desktopautomatisering, en bieden een transformerende gebruikerservaring die de manier waarop individuen met software omgaan revolutioneert. Dit opkomende vakgebied maakt snelle vooruitgang, met aanzienlijke vooruitgang zowel in onderzoek als in de industrie. Om een gestructureerd inzicht te bieden in deze trend, presenteert dit artikel een uitgebreid overzicht van LLM-gestuurde GUI-agenten, waarbij hun historische evolutie, kerncomponenten en geavanceerde technieken worden verkend. We behandelen onderzoeksvragen zoals bestaande GUI-agentframeworks, de verzameling en het gebruik van gegevens voor het trainen van gespecialiseerde GUI-agenten, de ontwikkeling van grote actiemodellen op maat voor GUI-taken, en de evaluatiemetrics en benchmarks die nodig zijn om hun effectiviteit te beoordelen. Daarnaast onderzoeken we opkomende toepassingen aangedreven door deze agenten. Via een gedetailleerde analyse identificeert dit overzicht belangrijke onderzoeksleemtes en schetst het een routekaart voor toekomstige ontwikkelingen op dit gebied. Door fundamentele kennis en state-of-the-art ontwikkelingen te consolideren, beoogt dit werk zowel onderzoekers als beoefenaars te begeleiden bij het overwinnen van uitdagingen en het ontsluiten van het volledige potentieel van LLM-gestuurde GUI-agenten.

4

MARVEL-40M+: Multi-Level Visuele Uitwerking voor Hoogwaardige Tekst-naar-3D Inhoudcreatie
MARVEL-40M+: Multi-Level Visual Elaboration for High-Fidelity Text-to-3D Content Creation

Nov 26
BySankalp Sinha, Mohammad Sadil Khan, Muhammad Usama, Shino Sam, Didier Stricker, Sk Aziz Ali, Muhammad Zeshan Afzal
21
4

Het genereren van hoogwaardige 3D-inhoud vanuit tekstprompts blijft een aanzienlijke uitdaging in computer vision vanwege de beperkte omvang, diversiteit en annotatiediepte van de bestaande datasets. Om dit aan te pakken, introduceren we MARVEL-40M+, een uitgebreide dataset met 40 miljoen tekstannotaties voor meer dan 8,9 miljoen 3D-objecten verzameld uit zeven belangrijke 3D-datasets. Onze bijdrage is een nieuw multi-stage annotatiepijplijn die open-source voorgetrainde multi-view VLM's en LLM's integreert om automatisch multi-level beschrijvingen te produceren, variërend van gedetailleerd (150-200 woorden) tot beknopte semantische tags (10-20 woorden). Deze structuur ondersteunt zowel gedetailleerde 3D-reconstructie als snelle prototyping. Bovendien nemen we menselijke metadata van bron datasets op in onze annotatiepijplijn om domeinspecifieke informatie toe te voegen aan onze annotatie en VLM-hallucinaties te verminderen. Daarnaast ontwikkelen we MARVEL-FX3D, een tweestaps tekst-naar-3D-pijplijn. We fine-tunen Stable Diffusion met onze annotaties en gebruiken een voorgetraind beeld-naar-3D-netwerk om 3D-getextureerde meshes te genereren binnen 15 seconden. Uitgebreide evaluaties tonen aan dat MARVEL-40M+ aanzienlijk beter presteert dan bestaande datasets op het gebied van annotatiekwaliteit en taalkundige diversiteit, met winstpercentages van 72,41% door GPT-4 en 73,40% door menselijke beoordelaars.

5

Onderlinge Scene Graph voor Onderlinge Tekst-en-Afbeelding Generatie Evaluatie
Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment

Nov 26
ByDongping Chen, Ruoxi Chen, Shu Pu, Zhaoyi Liu, Yanru Wu, Caixi Chen, Benlin Liu, Yue Huang, Yao Wan, Pan Zhou, Ranjay Krishna
19
2

Veel gebruikersvragen in de echte wereld (bijv. "Hoe maak je gebakken rijst met ei?") zouden baat kunnen hebben bij systemen die in staat zijn om antwoorden te genereren met zowel tekstuele stappen als bijbehorende afbeeldingen, vergelijkbaar met een kookboek. Modellen die zijn ontworpen om afwisselend tekst en afbeeldingen te genereren, worden geconfronteerd met uitdagingen om consistentie te waarborgen binnen en tussen deze modaliteiten. Om deze uitdagingen aan te pakken, presenteren we ISG, een uitgebreid evaluatiekader voor afwisselende tekst-en-afbeelding generatie. ISG maakt gebruik van een scène grafiekstructuur om relaties tussen tekst- en afbeeldingsblokken vast te leggen, waarbij antwoorden worden geëvalueerd op vier niveaus van granulariteit: holistisch, structureel, blokniveau en beeldspecifiek. Deze meerlaagse evaluatie maakt een genuanceerde beoordeling van consistentie, samenhang en nauwkeurigheid mogelijk, en biedt interpreteerbare vraag-antwoord feedback. Samen met ISG introduceren we een benchmark, ISG-Bench, met in totaal 1.150 voorbeelden verdeeld over 8 categorieën en 21 subcategorieën. Deze benchmark dataset omvat complexe taal-visuele afhankelijkheden en gouden antwoorden om modellen effectief te evalueren op visiegerichte taken zoals stijloverdracht, een uitdagend gebied voor huidige modellen. Door ISG-Bench te gebruiken, tonen we aan dat recente verenigde visie-taalmodellen slecht presteren bij het genereren van afwisselende inhoud. Hoewel compositorische benaderingen die afzonderlijke taal- en beeldmodellen combineren een verbetering van 111% laten zien ten opzichte van verenigde modellen op holistisch niveau, blijft hun prestatie suboptimaal op zowel blok- als beeldniveaus. Om toekomstig werk te vergemakkelijken, ontwikkelen we ISG-Agent, een basisagent die een "plan-uitvoer-verfijn" pijplijn hanteert om tools aan te roepen, wat resulteert in een prestatieverbetering van 122%.

6

Diffusie Zelf-Destillatie voor Zero-Shot Aangepaste Beeldgeneratie
Diffusion Self-Distillation for Zero-Shot Customized Image Generation

Nov 27
ByShengqu Cai, Eric Chan, Yunzhi Zhang, Leonidas Guibas, Jiajun Wu, Gordon Wetzstein
16
6

Text-naar-afbeelding diffusiemodellen leveren indrukwekkende resultaten op maar zijn frustrerende tools voor kunstenaars die fijnmazige controle wensen. Een veelvoorkomend gebruiksscenario is bijvoorbeeld het creëren van afbeeldingen van een specifiek exemplaar in nieuwe contexten, oftewel "identiteit-bewarende generatie". Deze instelling, samen met vele andere taken (bijv. herbelichting), sluit natuurlijk aan bij afbeelding+tekst-geconditioneerde generatieve modellen. Er is echter onvoldoende hoogwaardige gekoppelde data om zo'n model rechtstreeks te trainen. Wij stellen Diffusie Zelf-Distillatie voor, een methode om een vooraf getraind text-naar-afbeelding model te gebruiken om zijn eigen dataset te genereren voor tekst-geconditioneerde afbeelding-naar-afbeelding taken. We benutten eerst de in-context generatievaardigheid van een text-naar-afbeelding diffusiemodel om rasterafbeeldingen te creëren en een grote gekoppelde dataset te selecteren met behulp van een Visueel-Taalmodel. Vervolgens verfijnen we het text-naar-afbeelding model tot een tekst+afbeelding-naar-afbeelding model met behulp van de samengestelde gekoppelde dataset. We tonen aan dat Diffusie Zelf-Distillatie beter presteert dan bestaande zero-shot methoden en concurrerend is met per-exemplaar afstemmingstechnieken op een breed scala van identiteitsbehoudende generatietaken, zonder dat er optimalisatie op testtijd nodig is.

7

3D Convex Splatting: Stralingsveldweergave met 3D Gladde Convexe vormen
3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes

Nov 22
ByJan Held, Renaud Vandeghen, Abdullah Hamdi, Adrien Deliege, Anthony Cioppa, Silvio Giancola, Andrea Vedaldi, Bernard Ghanem, Marc Van Droogenbroeck
16
5

Recente ontwikkelingen in de reconstructie van stralingsvelden, zoals 3D Gaussisch Splatting (3DGS), hebben hoogwaardige synthese van nieuwe weergaven en snelle rendering bereikt door scènes voor te stellen met samenstellingen van Gaussische primitieven. Echter, 3D Gaussiërs vertonen verschillende beperkingen voor scène reconstructie. Het nauwkeurig vastleggen van harde randen is uitdagend zonder het aantal Gaussiërs aanzienlijk te verhogen, wat resulteert in een grote geheugenfootprint. Bovendien hebben ze moeite met het representeren van vlakke oppervlakken, omdat ze verspreid zijn in de ruimte. Zonder handmatig ontworpen regularisatoren hebben ze de neiging onregelmatig rond het werkelijke oppervlak te verspreiden. Om deze problemen te omzeilen, introduceren we een nieuwe methode, genaamd 3D Convex Splatting (3DCS), die 3D gladde convexe vormen benut als primitieven voor het modelleren van geometrisch-betekenisvolle stralingsvelden vanuit multi-view beelden. Gladde convexe vormen bieden meer flexibiliteit dan Gaussiërs, waardoor een betere representatie van 3D scènes met harde randen en dichte volumes mogelijk is met minder primitieven. Aangedreven door onze efficiënte op CUDA gebaseerde rasterizer, behaalt 3DCS superieure prestaties ten opzichte van 3DGS op benchmarks zoals Mip-NeRF360, Tanks and Temples, en Deep Blending. Specifiek behaalt onze methode een verbetering tot 0.81 in PSNR en 0.026 in LPIPS vergeleken met 3DGS, terwijl hoge renderingsnelheden worden behouden en het aantal benodigde primitieven wordt verminderd. Onze resultaten benadrukken het potentieel van 3D Convex Splatting om de nieuwe standaard te worden voor hoogwaardige scène reconstructie en synthese van nieuwe weergaven. Projectpagina: convexsplatting.github.io.

8

DiffusionDrive: Afgekapt Diffusie Model voor End-to-End Autonoom Rijden
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving

Nov 22
ByBencheng Liao, Shaoyu Chen, Haoran Yin, Bo Jiang, Cheng Wang, Sixu Yan, Xinbang Zhang, Xiangyu Li, Ying Zhang, Qian Zhang, Xinggang Wang
14
2

Onlangs is het diffusiemodel naar voren gekomen als een krachtige generatieve techniek voor het leren van robotbeleid, in staat om multi-mode actieverdelingen te modelleren. Het benutten van zijn vermogen voor end-to-end autonoom rijden is een veelbelovende richting. Echter, de talrijke denoising-stappen in het robotdiffusiebeleid en de meer dynamische, open-wereld aard van verkeersscènes vormen aanzienlijke uitdagingen voor het genereren van diverse rijacties op realtime snelheid. Om deze uitdagingen aan te pakken, stellen we een nieuw afgekapt diffusiebeleid voor dat voorafgaande multi-mode ankers incorporeert en het diffusieschema afkapt, waardoor het model denoising kan leren van een verankerde Gauss-verdeling naar de multi-mode rijactieverdeling. Daarnaast ontwerpen we een efficiënte cascade diffusie-decoder voor verbeterde interactie met conditionele scènecontext. Het voorgestelde model, DiffusionDrive, toont een 10-voudige vermindering in denoising-stappen in vergelijking met het standaard diffusiebeleid, met superieure diversiteit en kwaliteit in slechts 2 stappen. Op de planningsgerichte NAVSIM-dataset, met de uitgelijnde ResNet-34 ruggengraat, behaalt DiffusionDrive 88.1 PDMS zonder toeters en bellen, wat een nieuw record vestigt, terwijl het draait op een realtime snelheid van 45 FPS op een NVIDIA 4090. Kwalitatieve resultaten in uitdagende scenario's bevestigen verder dat DiffusionDrive robuust diverse plausibele rijacties kan genereren. Code en model zijn beschikbaar op https://github.com/hustvl/DiffusionDrive.

9

Make-It-Animatable: Een Efficiënt Framework voor het Creëren van 3D-personages die Klaar zijn voor Animatie
Make-It-Animatable: An Efficient Framework for Authoring Animation-Ready 3D Characters

Nov 27
ByZhiyang Guo, Jinxu Xiang, Kai Ma, Wengang Zhou, Houqiang Li, Ran Zhang
14
4

3D-personages zijn essentieel voor moderne creatieve industrieën, maar het animatieklaar maken ervan vereist vaak uitgebreid handmatig werk, zoals rigging en skinning. Bestaande automatische riggingtools hebben verschillende beperkingen, waaronder de noodzaak van handmatige annotaties, rigide skelettopologieën en beperkte generalisatie over diverse vormen en poses. Een alternatieve benadering is het genereren van animeerbare avatars die vooraf gebonden zijn aan een gerigde sjabloonmesh. Echter, deze methode mist vaak flexibiliteit en is meestal beperkt tot realistische menselijke vormen. Om deze problemen aan te pakken, presenteren wij Make-It-Animatable, een nieuw op data gebaseerde methode om elk 3D-menselijk model binnen minder dan één seconde gereed te maken voor karakteranimatie, ongeacht de vormen en poses. Ons uniforme kader genereert blend weights, botten en pose-transformaties van hoge kwaliteit. Door een op deeltjes gebaseerde vormauto-encoder te integreren, ondersteunt onze benadering verschillende 3D-representaties, waaronder meshes en 3D-Gaussische vlekken. Daarnaast maken we gebruik van een grof-naar-fijne representatie en een structuur-bewuste modelleringsstrategie om zowel nauwkeurigheid als robuustheid te waarborgen, zelfs voor personages met niet-standaard skeletstructuren. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van ons kader te valideren. In vergelijking met bestaande methoden toont onze benadering aanzienlijke verbeteringen op zowel kwaliteit als snelheid.

10

UniPose: Een Verenigd Multimodaal Framework voor Begrip, Generatie en Bewerking van Menselijke Houdingen
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Nov 25
ByYiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
13
4

De houding van mensen speelt een cruciale rol in het digitale tijdperk. Hoewel recente werken indrukwekkende vooruitgang hebben geboekt in het begrijpen en genereren van menselijke poses, ondersteunen ze vaak slechts een enkele modaliteit van besturingsignalen en opereren ze geïsoleerd, wat hun toepassing in real-world scenario's beperkt. Dit artikel presenteert UniPose, een raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) om menselijke poses te begrijpen, genereren en bewerken over verschillende modaliteiten, waaronder afbeeldingen, tekst en 3D SMPL-poses. Specifiek passen we een pose-tokenizer toe om 3D-poses om te zetten in discrete pose-tokens, waardoor naadloze integratie in het LLM binnen een eenduidige woordenschat mogelijk is. Om de fijnmazige pose-perceptievermogens verder te verbeteren, faciliteren we UniPose met een mix van visuele encoders, waaronder een pose-specifieke visuele encoder. Door gebruik te maken van een eenduidige leermethode, draagt UniPose effectief kennis over tussen verschillende pose-gerelateerde taken, past zich aan ongeziene taken aan en vertoont uitgebreide mogelijkheden. Dit werk dient als de eerste poging om een algemeen raamwerk voor posebegrip, -generatie en -bewerking te bouwen. Uitgebreide experimenten benadrukken de competitieve en zelfs superieure prestaties van UniPose over verschillende pose-gerelateerde taken.

11

Identiteit-Behoudende Tekst-naar-Video Generatie door Frequentie Decompositie
Identity-Preserving Text-to-Video Generation by Frequency Decomposition

Nov 26
ByShenghai Yuan, Jinfa Huang, Xianyi He, Yunyuan Ge, Yujun Shi, Liuhan Chen, Jiebo Luo, Li Yuan
13
3

Identiteit-bewarende tekst-naar-video (IPT2V) generatie heeft als doel hoogwaardige video's te creëren met consistente menselijke identiteit. Het is een belangrijke taak in videogeneratie, maar blijft een open probleem voor generatieve modellen. Dit artikel verlegt de technische grenzen van IPT2V in twee richtingen die nog niet zijn opgelost in de literatuur: (1) Een afstemmingsvrij proces zonder tijdrovende geval-per-geval finetuning, en (2) Een frequentie-bewust heuristisch identiteit-bewarend DiT-gebaseerd regelsysteem. We stellen ConsisID voor, een afstemmingsvrij DiT-gebaseerd controleerbaar IPT2V-model om menselijke identiteit consistent te houden in de gegenereerde video. Geïnspireerd door eerdere bevindingen in frequentieanalyse van diffusietransformatoren, maakt het gebruik van identiteitscontrolesignalen in het frequentiedomein, waar gezichtskenmerken kunnen worden opgesplitst in laagfrequente globale kenmerken en hoogfrequente intrinsieke kenmerken. Ten eerste, vanuit een laagfrequente benadering, introduceren we een globale gezichtsextractor, die referentiebeelden en gezichtssleutelpunten codeert in een latente ruimte, waardoor functies worden gegenereerd die verrijkt zijn met laagfrequente informatie. Deze functies worden vervolgens geïntegreerd in ondiepe lagen van het netwerk om trainingsuitdagingen geassocieerd met DiT te verlichten. Ten tweede, vanuit een hoogfrequente benadering, ontwerpen we een lokale gezichtsextractor om hoogfrequente details vast te leggen en deze in transformerblokken te injecteren, waardoor het vermogen van het model om fijngestructureerde kenmerken te behouden wordt verbeterd. We stellen een hiërarchische trainingsstrategie voor om frequentie-informatie te benutten voor identiteitsbehoud, waardoor een standaard voorgeleerd videogeneratiemodel wordt omgezet in een IPT2V-model. Uitgebreide experimenten tonen aan dat ons frequentie-bewuste heuristische schema een optimale controleoplossing biedt voor DiT-gebaseerde modellen. Dankzij dit schema genereert onze ConsisID hoogwaardige, identiteit-bewarende video's, waarmee stappen worden gezet naar effectievere IPT2V.

12

Samenwerkend decoderen maakt visuele auto-regressieve modellering efficiënt.
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient

Nov 26
ByZigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang
12
2

In het snel evoluerende domein van beeldgeneratie heeft Visual Auto-Regressive (VAR) modellering aanzienlijke aandacht gekregen vanwege zijn innovatieve voorspellingsbenadering op de volgende schaal. Dit paradigma biedt aanzienlijke verbeteringen in efficiëntie, schaalbaarheid en generalisatie zonder training. Toch leidt de inherent grof-naar-fijn aard van VAR tot een langere reeks tokens, wat resulteert in een ontoelaatbaar geheugenverbruik en computationele redundanties. Om deze knelpunten aan te pakken, stellen we Collaborative Decoding (CoDe) voor, een nieuw efficiënte decodeerstrategie op maat gemaakt voor het VAR-framework. CoDe maakt gebruik van twee cruciale observaties: de aanzienlijk verminderde parametervereisten op grotere schalen en de exclusieve generatiepatronen over verschillende schalen. Op basis van deze inzichten verdelen we het multi-schaal inferentieproces in een naadloze samenwerking tussen een groot model en een klein model. Het grote model fungeert als de 'ontwerper', gespecialiseerd in het genereren van laagfrequente inhoud op kleinere schalen, terwijl het kleinere model fungeert als de 'verfijner', dat zich uitsluitend richt op het voorspellen van hoogfrequente details op grotere schalen. Deze samenwerking leidt tot opmerkelijke efficiëntie met minimale invloed op de kwaliteit: CoDe behaalt een versnelling van 1,7x, vermindert het geheugengebruik met ongeveer 50% en behoudt de beeldkwaliteit met slechts een verwaarloosbare FID-toename van 1,95 naar 1,98. Wanneer het aantal ontwerpstappen verder wordt verminderd, kan CoDe een indrukwekkende versnelling van 2,9x bereiken, met 41 beelden/s bij een resolutie van 256x256 op een enkele NVIDIA 4090 GPU, terwijl een bewonderenswaardige FID van 2,27 behouden blijft. De code is beschikbaar op https://github.com/czg1225/CoDe

13

DreamCache: Finetuning-vrije Lichtgewicht Gepersonaliseerde Afbeeldingsgeneratie via Functie Caching
DreamCache: Finetuning-Free Lightweight Personalized Image Generation via Feature Caching

Nov 26
ByEmanuele Aiello, Umberto Michieli, Diego Valsesia, Mete Ozay, Enrico Magli
12
3

Het genereren van gepersonaliseerde afbeeldingen vereist tekst-naar-afbeelding generatieve modellen die de kernkenmerken van een referentieonderwerp vastleggen om gecontroleerde generatie over verschillende contexten mogelijk te maken. Bestaande methoden worden geconfronteerd met uitdagingen door complexe trainingsvereisten, hoge inferentiekosten, beperkte flexibiliteit, of een combinatie van deze problemen. In dit artikel introduceren we DreamCache, een schaalbare aanpak voor efficiënte en hoogwaardige gepersonaliseerde afbeeldingsgeneratie. Door een klein aantal referentieafbeeldingskenmerken uit een subset van lagen en een enkele tijdstap van de voorgeleerde diffusie-denoiser te cachen, maakt DreamCache dynamische modulatie van de gegenereerde afbeeldingskenmerken mogelijk via lichtgewicht, getrainde conditionering-adapters. DreamCache bereikt state-of-the-art afbeeldings- en tekstuitlijning, met gebruik van een orde van grootte minder extra parameters, en is zowel rekenkundig effectiever als veelzijdiger dan bestaande modellen.

14

ChatRex: Het temmen van multimodale LLM voor gezamenlijke perceptie en begrip
ChatRex: Taming Multimodal LLM for Joint Perception and Understanding

Nov 27
ByQing Jiang, Gen luo, Yuqin Yang, Yuda Xiong, Yihao Chen, Zhaoyang Zeng, Tianhe Ren, Lei Zhang
10
3

Perceptie en begrip zijn twee pijlers van computervisie. Hoewel multimodale grote taalmodellen (MLLM) opmerkelijke visuele begripscapaciteiten hebben aangetoond, ontbreekt het hen naar verluidt aan nauwkeurige perceptievermogens, bijvoorbeeld het geavanceerde model Qwen2-VL behaalt slechts een recall-rate van 43,9 op de COCO-dataset, wat veel taken beperkt die de combinatie van perceptie en begrip vereisen. In dit werk streven we ernaar deze perceptiekloof te overbruggen vanuit zowel het ontwerp van het model als het ontwikkelen van gegevens. We introduceren eerst ChatRex, een MLLM met een losgekoppeld perceptieontwerp. In plaats van dat het LLM direct de vakcoördinaten voorspelt, voeren we de uitvoervakken van een universeel voorstelnetwerk in het LLM in, zodat het de overeenkomstige vakindices kan uitvoeren om zijn detectieresultaten weer te geven, waardoor de regressietaak wordt omgezet in een opvragingstaak die het LLM vaardiger afhandelt. Vanuit het gegevensperspectief bouwen we een volledig geautomatiseerde gegevensengine en construeren we de Rexverse-2M dataset die meerdere granulariteiten bezit om de gezamenlijke training van perceptie en begrip te ondersteunen. Na standaard tweefasentraining toont ChatRex sterke perceptievermogens terwijl het multimodale begripsprestaties behoudt. De combinatie van deze twee vermogens ontgrendelt gelijktijdig veel aantrekkelijke toepassingen, waarbij de complementaire rollen van zowel perceptie als begrip in MLLM worden aangetoond. De code is beschikbaar op https://github.com/IDEA-Research/ChatRex.

15

Video-geleide Foley-geluidsgeneratie met multimodale bedieningselementen
Video-Guided Foley Sound Generation with Multimodal Controls

Nov 26
ByZiyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
10
2

Het genereren van geluidseffecten voor video's vereist vaak het creëren van artistieke geluidseffecten die aanzienlijk afwijken van bronnen in het echte leven en flexibele controle in het geluidsontwerp. Om dit probleem aan te pakken, introduceren we MultiFoley, een model ontworpen voor video-geleide geluidsproductie dat multimodale conditionering ondersteunt via tekst, audio en video. Met behulp van een stille video en een tekstprompt stelt MultiFoley gebruikers in staat om schone geluiden te creëren (bijv. skateboardwielen die draaien zonder windgeluid) of meer grillige geluiden (bijv. een leeuwenbrul die klinkt als het gemiauw van een kat). MultiFoley stelt gebruikers ook in staat om referentie-audio te kiezen uit geluidseffecten (SFX) bibliotheken of gedeeltelijke video's voor conditionering. Een belangrijke noviteit van ons model ligt in zijn gezamenlijke training op zowel internetvideodatasets met audio van lage kwaliteit als professionele SFX-opnames, waardoor hoogwaardige, volledige bandbreedte (48 kHz) audioproductie mogelijk is. Door geautomatiseerde evaluaties en menselijke studies tonen we aan dat MultiFoley succesvol gesynchroniseerde geluiden van hoge kwaliteit genereert over verschillende conditionele invoer en bestaande methoden overtreft. Zie onze projectpagina voor videoregistraties: https://ificl.github.io/MultiFoley/

16

Omegance: Een Enkele Parameter voor Verschillende Korrelgroottes bij Diffusiegebaseerde Synthese
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis

Nov 26
ByXinyu Hou, Zongsheng Yue, Xiaoming Li, Chen Change Loy
8
2

In dit werk introduceren we een enkele parameter omega om effectief de granulariteit te regelen in diffusie-gebaseerde synthese. Deze parameter wordt opgenomen tijdens de denoising stappen van het reverse proces van het diffusiemodel. Onze benadering vereist geen hertraining van het model, architectonische aanpassingen of extra rekenkracht tijdens inferentie, maar maakt wel precieze controle mogelijk over het niveau van details in de gegenereerde uitvoer. Bovendien kunnen ruimtelijke maskers of denoising schema's met verschillende omega waarden worden toegepast om regio-specifieke of tijdstap-specifieke granulariteitscontrole te bereiken. Voorkennis van de samenstelling van afbeeldingen uit besturingsignalen of referentieafbeeldingen vergemakkelijkt verder de creatie van precieze omega maskers voor granulariteitscontrole op specifieke objecten. Om de rol van de parameter bij het regelen van subtiele detailvariaties te benadrukken, wordt de techniek Omegance genoemd, waarbij "omega" en "nuance" worden gecombineerd. Onze methode toont indrukwekkende prestaties bij verschillende beeld- en videosynthese taken en is aanpasbaar aan geavanceerde diffusiemodellen. De code is beschikbaar op https://github.com/itsmag11/Omegance.

17

Conceptueel Model Weet Wanneer te Stoppen: Een Zelf-Verificatie Lengtebeleid voor Speculatieve Decodering
Draft Model Knows When to Stop: A Self-Verification Length Policy for Speculative Decoding

Nov 27
ByZiyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu
6
2

Speculatief decoderen (SD) is een belangrijke techniek geworden om de inferentiesnelheid van grote taalmodellen te versnellen. Conventionele SD-methoden maken gebruik van een vaste conceptlengte, die de moeilijkheidsgraad van token-generatie over taken heen negeert. In dit artikel pakken we dit probleem aan en introduceren we SVIP - een moeilijkheidsbewust dynamisch conceptlengtebeleid voor speculatieve decodeersystemen. Gebaseerd op een theoretische ondergrens van de acceptatiesnelheid van concepttokens en de benadering van de inferentietijd, bepaalt SVIP adaptief de lengtes van conceptreeksen op basis van de entropie van elke concepttokenverdeling. Experimentele resultaten op gangbare SD-benchmarks en -frameworks tonen de superieure prestaties van SVIP aan, met een snelheidsverbetering van maximaal 20% op SpecBench ten opzichte van basismethoden voor SD en een snelheidsverbetering van 60% op MT-Bench voor de generatie van lange teksten tot 8K tokens. Bovendien is SVIP volledig trainingvrij en compatibel met alle bestaande SD-methoden die concepttokens autoregressief genereren. Experimentele resultaten tonen ook aan dat SVIP consistente snelheidsverbeteringen oplevert bovenop GliDe & CaPE en EAGLE-2.

18

VideoLLM Weet Wanneer Te Spreken: Het Verbeteren Van Tijdgevoelige Video Begrip Met Video-tekst Duet Interactie Formaat
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format

Nov 27
ByYueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Jiansheng Wei, Huishuai Zhang, Dongyan Zhao
5
2

Recente onderzoeken naar video large language models (VideoLLM) richten zich voornamelijk op modelarchitecturen en trainingsdatasets, waarbij het interactieformaat tussen de gebruiker en het model onderbelicht blijft. In bestaande werken interacteren gebruikers vaak met VideoLLM's door de hele video en een query als invoer te gebruiken, waarna het model een reactie genereert. Dit interactieformaat beperkt de toepassing van VideoLLM's in scenario's zoals begrip van live-streaming waar video's niet eindigen en reacties in realtime nodig zijn, en leidt ook tot onbevredigende prestaties bij tijdsgevoelige taken die vereisen dat videosegmenten gelokaliseerd worden. In dit artikel richten we ons op een video-tekst duet interactieformaat. Dit interactieformaat wordt gekenmerkt door de continue weergave van de video, waarbij zowel de gebruiker als het model hun tekstberichten op elk moment tijdens de videoweergave kunnen invoegen. Wanneer een tekstbericht eindigt, blijft de video doorspelen, vergelijkbaar met de afwisseling van twee artiesten in een duet. We construeren MMDuetIT, een video-tekst trainingsdataset die is ontworpen om VideoLLM's aan te passen aan het video-tekst duet interactieformaat. We introduceren ook de Multi-Answer Grounded Video Question Answering (MAGQA) taak om de real-time reactievermogen van VideoLLM's te beoordelen. Getraind op MMDuetIT, toont MMDuet aan dat het aannemen van het video-tekst duet interactieformaat het model in staat stelt significante verbeteringen te behalen in verschillende tijdsgevoelige taken (76% CIDEr bij YouCook2 dense video captioning, 90% mAP bij QVHighlights highlight detection en 25% R@0.5 bij Charades-STA temporal video grounding) met minimale trainingsinspanningen, en stelt VideoLLM's ook in staat om te reageren terwijl de video wordt afgespeeld. Code, data en demo zijn beschikbaar op: https://github.com/yellow-binary-tree/MMDuet.

19

Het optimaliseren van de segmentatie van hersentumoren met MedNeXt: BraTS 2024 SSA en Pediatrie
Optimizing Brain Tumor Segmentation with MedNeXt: BraTS 2024 SSA and Pediatrics

Nov 24
BySarim Hashmi, Juan Lugo, Abdelrahman Elsayed, Dinesh Saggurthi, Mohammed Elseiagy, Alikhan Nurkamal, Jaskaran Walia, Fadillah Adamsyah Maani, Mohammad Yaqub
5
2

Het identificeren van belangrijke pathologische kenmerken in hersen-MRI's is cruciaal voor de langetermijnoverleving van glioompatiënten. Echter, handmatige segmentatie is tijdrovend, vereist expertinterventie en is vatbaar voor menselijke fouten. Daarom is er aanzienlijk onderzoek gewijd aan het ontwikkelen van machine learning methoden die tumoren nauwkeurig kunnen segmenteren in 3D multimodale hersen-MRI-scans. Ondanks hun vooruitgang worden state-of-the-art modellen vaak beperkt door de data waarop ze zijn getraind, wat zorgen oproept over hun betrouwbaarheid bij toepassing op diverse populaties die distributieverschuivingen kunnen introduceren. Dergelijke verschuivingen kunnen voortkomen uit lagere kwaliteit MRI-technologie (bijv. in sub-Sahara Afrika) of variaties in patiëntdemografie (bijv. kinderen). De BraTS-2024 uitdaging biedt een platform om deze kwesties aan te pakken. Deze studie presenteert onze methodologie voor het segmenteren van tumoren in de BraTS-2024 SSA en Pediatrische Tumoren taken met behulp van MedNeXt, uitgebreide modelensemble en grondige postprocessing. Onze aanpak toonde sterke prestaties op de ongeziene validatieset, met een gemiddelde Dice Similarity Coefficient (DSC) van 0.896 op de BraTS-2024 SSA dataset en een gemiddelde DSC van 0.830 op de BraTS Pediatrische Tumor dataset. Daarnaast behaalde onze methode een gemiddelde Hausdorff Afstand (HD95) van 14.682 op de BraTS-2024 SSA dataset en een gemiddelde HD95 van 37.508 op de BraTS Pediatrische dataset. Ons GitHub-repository is hier toegankelijk: Project Repository: https://github.com/python-arch/BioMbz-Optimaliseren-Hersen-Tumor-Segmentatie-met-MedNeXt-BraTS-2024-SSA-en-Pediatrics

20

Adaptieve Blinde Alles-in-één Beeldherstel
Adaptive Blind All-in-One Image Restoration

Nov 27
ByDavid Serrano-Lozano, Luis Herranz, Shaolin Su, Javier Vazquez-Corral
4
2

Blind all-in-one beeldherstelmodellen hebben als doel een hoogwaardig beeld te herstellen van een invoer die is aangetast door onbekende vervormingen. Deze modellen vereisen echter dat alle mogelijke soorten degradatie gedefinieerd worden tijdens de trainingsfase, terwijl ze beperkte generalisatie vertonen naar ongeziene degradaties, wat hun praktische toepassing in complexe gevallen beperkt. In dit artikel stellen we een eenvoudig maar effectief adaptief blind all-in-one herstelmodel voor, genaamd ABAIR, dat meerdere degradaties kan aanpakken, goed generaliseert naar ongeziene degradaties en efficiënt nieuwe degradaties kan opnemen door een klein deel van de parameters te trainen. Ten eerste trainen we ons basismodel op een grote dataset van natuurlijke beelden met meerdere synthetische degradaties, aangevuld met een segmentatiekop om per pixel degradatietypen te schatten, resulterend in een krachtige ruggengraat die in staat is te generaliseren naar een breed scala van degradaties. Ten tweede passen we ons basismodel aan voor verschillende beeldhersteltaken met onafhankelijke low-rank adapters. Ten derde leren we om adapters adaptief te combineren voor veelzijdige beelden via een flexibele en lichtgewicht degradatieschatting. Ons model is zowel krachtig in het omgaan met specifieke vervormingen als flexibel in het aanpassen aan complexe taken. Het presteert niet alleen aanzienlijk beter dan de state-of-the-art op vijf- en drie-taak IR-opstellingen, maar toont ook verbeterde generalisatie naar ongeziene degradaties en samengestelde vervormingen.

21

Het trainen en evalueren van taalmodellen met op sjablonen gebaseerde gegevensgeneratie
Training and Evaluating Language Models with Template-based Data Generation

Nov 27
ByYifan Zhang
3
3

De snelle vooruitgang van grote taalmodellen (LLM's) zoals GPT-3, PaLM en Llama heeft het natuurlijke taalverwerking aanzienlijk getransformeerd, waarbij opmerkelijke mogelijkheden worden getoond in het begrijpen en genereren van taal. Echter, deze modellen worstelen vaak met taken die complex redeneren vereisen, met name bij wiskundige probleemoplossing, deels als gevolg van het gebrek aan grootschalige, hoogwaardige, domeinspecifieke datasets die nodig zijn voor het trainen van geavanceerde redeneervaardigheden. Om deze beperking aan te pakken, introduceren we Template-gebaseerde Gegevensgeneratie (TDG), een nieuw benadering die gebruikmaakt van LLM's (GPT-4) om automatisch geparametriseerde meta-templates te genereren, die vervolgens worden gebruikt om een breed scala aan hoogwaardige problemen en oplossingen te synthetiseren. Door TDG te benutten, creëren we TemplateMath Deel I: TemplateGSM, een dataset bestaande uit meer dan 7 miljoen synthetisch gegenereerde wiskundige problemen voor de basisschool - elk vergezeld van op code gebaseerde en natuurlijke taaloplossingen - met het potentieel om effectief een onbeperkt aantal meer te genereren. Deze dataset vermindert het gebrek aan grootschalige wiskundige datasets en dient als een waardevolle bron voor pre-training, fine-tuning en het evalueren van LLM's in wiskundig redeneren. Onze methode maakt niet alleen de generatie van praktisch oneindige gegevens mogelijk, maar tilt ook gegevensaugmentatie naar een nieuw niveau door GPT-4 te gebruiken voor meta-templategeneratie, waarbij diverse en hoogwaardige probleemstructuren worden gegarandeerd. De TemplateMath Deel I: TemplateGSM-dataset is openbaar beschikbaar op https://huggingface.co/datasets/math-ai/TemplateGSM. De code is beschikbaar op https://github.com/iiis-ai/TemplateMath.

22

Bewerk Weg en Mijn Gezicht Blijft Niet Staan: Persoonlijke Biometrische Verdediging tegen Kwaadwillige Generatieve Bewerking.
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing

Nov 25
ByHanhui Wang, Yihua Zhang, Ruizheng Bai, Yue Zhao, Sijia Liu, Zhengzhong Tu
2
3

Recente ontwikkelingen in diffusiemodellen hebben generatieve beeldbewerking toegankelijker gemaakt, waardoor creatieve bewerkingen mogelijk zijn maar ook ethische zorgen oproepen, met name met betrekking tot kwaadwillige bewerkingen van menselijke portretten die de privacy en identiteitsbeveiliging bedreigen. Bestaande beschermingsmethoden vertrouwen voornamelijk op vijandige verstoringen om bewerkingen teniet te doen, maar falen vaak bij diverse bewerkingsverzoeken. Wij stellen FaceLock voor, een nieuw benadering voor portretbescherming die vijandige verstoringen optimaliseert om biometrische informatie te vernietigen of aanzienlijk te wijzigen, waardoor bewerkte uitvoer biometrisch onherkenbaar wordt. FaceLock integreert gezichtsherkenning en visuele perceptie in de optimalisatie van verstoringen om robuuste bescherming te bieden tegen verschillende bewerkingspogingen. We benadrukken ook tekortkomingen in veelgebruikte evaluatiemetrics en onthullen hoe ze gemanipuleerd kunnen worden, waarbij de noodzaak van betrouwbare beoordelingen van bescherming wordt benadrukt. Experimenten tonen aan dat FaceLock beter presteert dan baselines bij het verdedigen tegen kwaadwillige bewerkingen en bestand is tegen zuiveringstechnieken. Ablatiestudies bevestigen de stabiliteit en brede toepasbaarheid ervan bij diffusie-gebaseerde bewerkingsalgoritmen. Ons werk bevordert biometrische verdediging en legt de basis voor privacybehoudende praktijken in beeldbewerking. De code is beschikbaar op: https://github.com/taco-group/FaceLock.

Nov 27
Nov 28
Nov 29