Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De natuurlijke taal worstelt vaak om nauwkeurig positionele en attribuutinformatie te associëren met meerdere instanties, wat de huidige op tekst gebaseerde visuele generatiemodellen beperkt tot eenvoudigere composities met slechts een paar dominante instanties. Om deze beperking aan te pakken, verbetert dit werk diffusiemodellen door regionale instantiecontrole te introduceren, waarbij elke instantie wordt beheerst door een begrenzingskader gekoppeld aan een vrije tekstbijschrift. Vorige methoden op dit gebied vertrouwen doorgaans op impliciete positie-encodering of expliciete aandachtsmaskers om regio's van belang (ROIs) te scheiden, resulterend in ofwel onnauwkeurige coördinaatinjectie of grote computationele overhead. Geïnspireerd door ROI-Align in objectdetectie, introduceren we een aanvullende bewerking genaamd ROI-Unpool. Samen maken ROI-Align en ROI-Unpool expliciete, efficiënte en nauwkeurige ROI-manipulatie mogelijk op hoge-resolutie kenmerkkaarten voor visuele generatie. Voortbouwend op ROI-Unpool stellen we ROICtrl voor, een adapter voor vooraf getrainde diffusiemodellen die precieze regionale instantiecontrole mogelijk maakt. ROICtrl is compatibel met door de gemeenschap gefinetunede diffusiemodellen, evenals met bestaande op ruimte gebaseerde toevoegingen (bijv. ControlNet, T2I-Adapter) en op embedding gebaseerde toevoegingen (bijv. IP-Adapter, ED-LoRA), waardoor hun toepassingen worden uitgebreid naar multi-instantie generatie. Experimenten tonen aan dat ROICtrl superieure prestaties levert in regionale instantiecontrole en tegelijkertijd de computationele kosten aanzienlijk verlaagt.
We presenteren CAT4D, een methode voor het creëren van 4D (dynamische 3D) scènes van monoculair video. CAT4D maakt gebruik van een multi-view video diffusie model dat is getraind op een diverse combinatie van datasets om nieuwe weergavesynthese mogelijk te maken op elke gespecificeerde camerapositie en tijdstempel. Gecombineerd met een nieuwe bemonsteringsbenadering kan dit model een enkele monoculaire video transformeren naar een multi-view video, waardoor robuuste 4D reconstructie mogelijk is door optimalisatie van een vervormbare 3D Gaussische representatie. We tonen competitieve prestaties op benchmarks voor nieuwe weergavesynthese en dynamische scène reconstructie, en benadrukken de creatieve mogelijkheden voor 4D scène generatie van echte of gegenereerde video's. Zie onze projectpagina voor resultaten en interactieve demo's: cat-4d.github.io.
GUI's zijn al lange tijd essentieel voor mens-computerinteractie, waarbij ze een intuïtieve en visueel gestuurde manier bieden om toegang te krijgen tot en te communiceren met digitale systemen. De opkomst van LLM's, met name multimodale modellen, heeft een nieuw tijdperk van GUI-automatisering ingeluid. Ze hebben uitzonderlijke capaciteiten aangetoond op het gebied van natuurlijke taalbegrip, codegeneratie en visuele verwerking. Dit heeft de weg vrijgemaakt voor een nieuwe generatie LLM-gestuurde GUI-agenten die in staat zijn complexe GUI-elementen te interpreteren en autonoom acties uit te voeren op basis van natuurlijke taalinstructies. Deze agenten vertegenwoordigen een paradigmaverschuiving, waardoor gebruikers ingewikkelde, meerstaps taken kunnen uitvoeren via eenvoudige conversatieopdrachten. Hun toepassingen strekken zich uit over webnavigatie, mobiele app-interacties en desktopautomatisering, en bieden een transformerende gebruikerservaring die de manier waarop individuen met software omgaan revolutioneert. Dit opkomende vakgebied maakt snelle vooruitgang, met aanzienlijke vooruitgang zowel in onderzoek als in de industrie. Om een gestructureerd inzicht te bieden in deze trend, presenteert dit artikel een uitgebreid overzicht van LLM-gestuurde GUI-agenten, waarbij hun historische evolutie, kerncomponenten en geavanceerde technieken worden verkend. We behandelen onderzoeksvragen zoals bestaande GUI-agentframeworks, de verzameling en het gebruik van gegevens voor het trainen van gespecialiseerde GUI-agenten, de ontwikkeling van grote actiemodellen op maat voor GUI-taken, en de evaluatiemetrics en benchmarks die nodig zijn om hun effectiviteit te beoordelen. Daarnaast onderzoeken we opkomende toepassingen aangedreven door deze agenten. Via een gedetailleerde analyse identificeert dit overzicht belangrijke onderzoeksleemtes en schetst het een routekaart voor toekomstige ontwikkelingen op dit gebied. Door fundamentele kennis en state-of-the-art ontwikkelingen te consolideren, beoogt dit werk zowel onderzoekers als beoefenaars te begeleiden bij het overwinnen van uitdagingen en het ontsluiten van het volledige potentieel van LLM-gestuurde GUI-agenten.
Het genereren van hoogwaardige 3D-inhoud vanuit tekstprompts blijft een aanzienlijke uitdaging in computer vision vanwege de beperkte omvang, diversiteit en annotatiediepte van de bestaande datasets. Om dit aan te pakken, introduceren we MARVEL-40M+, een uitgebreide dataset met 40 miljoen tekstannotaties voor meer dan 8,9 miljoen 3D-objecten verzameld uit zeven belangrijke 3D-datasets. Onze bijdrage is een nieuw multi-stage annotatiepijplijn die open-source voorgetrainde multi-view VLM's en LLM's integreert om automatisch multi-level beschrijvingen te produceren, variërend van gedetailleerd (150-200 woorden) tot beknopte semantische tags (10-20 woorden). Deze structuur ondersteunt zowel gedetailleerde 3D-reconstructie als snelle prototyping. Bovendien nemen we menselijke metadata van bron datasets op in onze annotatiepijplijn om domeinspecifieke informatie toe te voegen aan onze annotatie en VLM-hallucinaties te verminderen. Daarnaast ontwikkelen we MARVEL-FX3D, een tweestaps tekst-naar-3D-pijplijn. We fine-tunen Stable Diffusion met onze annotaties en gebruiken een voorgetraind beeld-naar-3D-netwerk om 3D-getextureerde meshes te genereren binnen 15 seconden. Uitgebreide evaluaties tonen aan dat MARVEL-40M+ aanzienlijk beter presteert dan bestaande datasets op het gebied van annotatiekwaliteit en taalkundige diversiteit, met winstpercentages van 72,41% door GPT-4 en 73,40% door menselijke beoordelaars.
Veel gebruikersvragen in de echte wereld (bijv. "Hoe maak je gebakken rijst met ei?") zouden baat kunnen hebben bij systemen die in staat zijn om antwoorden te genereren met zowel tekstuele stappen als bijbehorende afbeeldingen, vergelijkbaar met een kookboek. Modellen die zijn ontworpen om afwisselend tekst en afbeeldingen te genereren, worden geconfronteerd met uitdagingen om consistentie te waarborgen binnen en tussen deze modaliteiten. Om deze uitdagingen aan te pakken, presenteren we ISG, een uitgebreid evaluatiekader voor afwisselende tekst-en-afbeelding generatie. ISG maakt gebruik van een scène grafiekstructuur om relaties tussen tekst- en afbeeldingsblokken vast te leggen, waarbij antwoorden worden geëvalueerd op vier niveaus van granulariteit: holistisch, structureel, blokniveau en beeldspecifiek. Deze meerlaagse evaluatie maakt een genuanceerde beoordeling van consistentie, samenhang en nauwkeurigheid mogelijk, en biedt interpreteerbare vraag-antwoord feedback. Samen met ISG introduceren we een benchmark, ISG-Bench, met in totaal 1.150 voorbeelden verdeeld over 8 categorieën en 21 subcategorieën. Deze benchmark dataset omvat complexe taal-visuele afhankelijkheden en gouden antwoorden om modellen effectief te evalueren op visiegerichte taken zoals stijloverdracht, een uitdagend gebied voor huidige modellen. Door ISG-Bench te gebruiken, tonen we aan dat recente verenigde visie-taalmodellen slecht presteren bij het genereren van afwisselende inhoud. Hoewel compositorische benaderingen die afzonderlijke taal- en beeldmodellen combineren een verbetering van 111% laten zien ten opzichte van verenigde modellen op holistisch niveau, blijft hun prestatie suboptimaal op zowel blok- als beeldniveaus. Om toekomstig werk te vergemakkelijken, ontwikkelen we ISG-Agent, een basisagent die een "plan-uitvoer-verfijn" pijplijn hanteert om tools aan te roepen, wat resulteert in een prestatieverbetering van 122%.
Text-naar-afbeelding diffusiemodellen leveren indrukwekkende resultaten op maar zijn frustrerende tools voor kunstenaars die fijnmazige controle wensen. Een veelvoorkomend gebruiksscenario is bijvoorbeeld het creëren van afbeeldingen van een specifiek exemplaar in nieuwe contexten, oftewel "identiteit-bewarende generatie". Deze instelling, samen met vele andere taken (bijv. herbelichting), sluit natuurlijk aan bij afbeelding+tekst-geconditioneerde generatieve modellen. Er is echter onvoldoende hoogwaardige gekoppelde data om zo'n model rechtstreeks te trainen. Wij stellen Diffusie Zelf-Distillatie voor, een methode om een vooraf getraind text-naar-afbeelding model te gebruiken om zijn eigen dataset te genereren voor tekst-geconditioneerde afbeelding-naar-afbeelding taken. We benutten eerst de in-context generatievaardigheid van een text-naar-afbeelding diffusiemodel om rasterafbeeldingen te creëren en een grote gekoppelde dataset te selecteren met behulp van een Visueel-Taalmodel. Vervolgens verfijnen we het text-naar-afbeelding model tot een tekst+afbeelding-naar-afbeelding model met behulp van de samengestelde gekoppelde dataset. We tonen aan dat Diffusie Zelf-Distillatie beter presteert dan bestaande zero-shot methoden en concurrerend is met per-exemplaar afstemmingstechnieken op een breed scala van identiteitsbehoudende generatietaken, zonder dat er optimalisatie op testtijd nodig is.
Recente ontwikkelingen in de reconstructie van stralingsvelden, zoals 3D Gaussisch Splatting (3DGS), hebben hoogwaardige synthese van nieuwe weergaven en snelle rendering bereikt door scènes voor te stellen met samenstellingen van Gaussische primitieven. Echter, 3D Gaussiërs vertonen verschillende beperkingen voor scène reconstructie. Het nauwkeurig vastleggen van harde randen is uitdagend zonder het aantal Gaussiërs aanzienlijk te verhogen, wat resulteert in een grote geheugenfootprint. Bovendien hebben ze moeite met het representeren van vlakke oppervlakken, omdat ze verspreid zijn in de ruimte. Zonder handmatig ontworpen regularisatoren hebben ze de neiging onregelmatig rond het werkelijke oppervlak te verspreiden. Om deze problemen te omzeilen, introduceren we een nieuwe methode, genaamd 3D Convex Splatting (3DCS), die 3D gladde convexe vormen benut als primitieven voor het modelleren van geometrisch-betekenisvolle stralingsvelden vanuit multi-view beelden. Gladde convexe vormen bieden meer flexibiliteit dan Gaussiërs, waardoor een betere representatie van 3D scènes met harde randen en dichte volumes mogelijk is met minder primitieven. Aangedreven door onze efficiënte op CUDA gebaseerde rasterizer, behaalt 3DCS superieure prestaties ten opzichte van 3DGS op benchmarks zoals Mip-NeRF360, Tanks and Temples, en Deep Blending. Specifiek behaalt onze methode een verbetering tot 0.81 in PSNR en 0.026 in LPIPS vergeleken met 3DGS, terwijl hoge renderingsnelheden worden behouden en het aantal benodigde primitieven wordt verminderd. Onze resultaten benadrukken het potentieel van 3D Convex Splatting om de nieuwe standaard te worden voor hoogwaardige scène reconstructie en synthese van nieuwe weergaven. Projectpagina: convexsplatting.github.io.
Onlangs is het diffusiemodel naar voren gekomen als een krachtige generatieve techniek voor het leren van robotbeleid, in staat om multi-mode actieverdelingen te modelleren. Het benutten van zijn vermogen voor end-to-end autonoom rijden is een veelbelovende richting. Echter, de talrijke denoising-stappen in het robotdiffusiebeleid en de meer dynamische, open-wereld aard van verkeersscènes vormen aanzienlijke uitdagingen voor het genereren van diverse rijacties op realtime snelheid. Om deze uitdagingen aan te pakken, stellen we een nieuw afgekapt diffusiebeleid voor dat voorafgaande multi-mode ankers incorporeert en het diffusieschema afkapt, waardoor het model denoising kan leren van een verankerde Gauss-verdeling naar de multi-mode rijactieverdeling. Daarnaast ontwerpen we een efficiënte cascade diffusie-decoder voor verbeterde interactie met conditionele scènecontext. Het voorgestelde model, DiffusionDrive, toont een 10-voudige vermindering in denoising-stappen in vergelijking met het standaard diffusiebeleid, met superieure diversiteit en kwaliteit in slechts 2 stappen. Op de planningsgerichte NAVSIM-dataset, met de uitgelijnde ResNet-34 ruggengraat, behaalt DiffusionDrive 88.1 PDMS zonder toeters en bellen, wat een nieuw record vestigt, terwijl het draait op een realtime snelheid van 45 FPS op een NVIDIA 4090. Kwalitatieve resultaten in uitdagende scenario's bevestigen verder dat DiffusionDrive robuust diverse plausibele rijacties kan genereren. Code en model zijn beschikbaar op https://github.com/hustvl/DiffusionDrive.
3D-personages zijn essentieel voor moderne creatieve industrieën, maar het animatieklaar maken ervan vereist vaak uitgebreid handmatig werk, zoals rigging en skinning. Bestaande automatische riggingtools hebben verschillende beperkingen, waaronder de noodzaak van handmatige annotaties, rigide skelettopologieën en beperkte generalisatie over diverse vormen en poses. Een alternatieve benadering is het genereren van animeerbare avatars die vooraf gebonden zijn aan een gerigde sjabloonmesh. Echter, deze methode mist vaak flexibiliteit en is meestal beperkt tot realistische menselijke vormen. Om deze problemen aan te pakken, presenteren wij Make-It-Animatable, een nieuw op data gebaseerde methode om elk 3D-menselijk model binnen minder dan één seconde gereed te maken voor karakteranimatie, ongeacht de vormen en poses. Ons uniforme kader genereert blend weights, botten en pose-transformaties van hoge kwaliteit. Door een op deeltjes gebaseerde vormauto-encoder te integreren, ondersteunt onze benadering verschillende 3D-representaties, waaronder meshes en 3D-Gaussische vlekken. Daarnaast maken we gebruik van een grof-naar-fijne representatie en een structuur-bewuste modelleringsstrategie om zowel nauwkeurigheid als robuustheid te waarborgen, zelfs voor personages met niet-standaard skeletstructuren. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van ons kader te valideren. In vergelijking met bestaande methoden toont onze benadering aanzienlijke verbeteringen op zowel kwaliteit als snelheid.
De houding van mensen speelt een cruciale rol in het digitale tijdperk. Hoewel recente werken indrukwekkende vooruitgang hebben geboekt in het begrijpen en genereren van menselijke poses, ondersteunen ze vaak slechts een enkele modaliteit van besturingsignalen en opereren ze geïsoleerd, wat hun toepassing in real-world scenario's beperkt. Dit artikel presenteert UniPose, een raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) om menselijke poses te begrijpen, genereren en bewerken over verschillende modaliteiten, waaronder afbeeldingen, tekst en 3D SMPL-poses. Specifiek passen we een pose-tokenizer toe om 3D-poses om te zetten in discrete pose-tokens, waardoor naadloze integratie in het LLM binnen een eenduidige woordenschat mogelijk is. Om de fijnmazige pose-perceptievermogens verder te verbeteren, faciliteren we UniPose met een mix van visuele encoders, waaronder een pose-specifieke visuele encoder. Door gebruik te maken van een eenduidige leermethode, draagt UniPose effectief kennis over tussen verschillende pose-gerelateerde taken, past zich aan ongeziene taken aan en vertoont uitgebreide mogelijkheden. Dit werk dient als de eerste poging om een algemeen raamwerk voor posebegrip, -generatie en -bewerking te bouwen. Uitgebreide experimenten benadrukken de competitieve en zelfs superieure prestaties van UniPose over verschillende pose-gerelateerde taken.
Identiteit-bewarende tekst-naar-video (IPT2V) generatie heeft als doel hoogwaardige video's te creëren met consistente menselijke identiteit. Het is een belangrijke taak in videogeneratie, maar blijft een open probleem voor generatieve modellen. Dit artikel verlegt de technische grenzen van IPT2V in twee richtingen die nog niet zijn opgelost in de literatuur: (1) Een afstemmingsvrij proces zonder tijdrovende geval-per-geval finetuning, en (2) Een frequentie-bewust heuristisch identiteit-bewarend DiT-gebaseerd regelsysteem. We stellen ConsisID voor, een afstemmingsvrij DiT-gebaseerd controleerbaar IPT2V-model om menselijke identiteit consistent te houden in de gegenereerde video. Geïnspireerd door eerdere bevindingen in frequentieanalyse van diffusietransformatoren, maakt het gebruik van identiteitscontrolesignalen in het frequentiedomein, waar gezichtskenmerken kunnen worden opgesplitst in laagfrequente globale kenmerken en hoogfrequente intrinsieke kenmerken. Ten eerste, vanuit een laagfrequente benadering, introduceren we een globale gezichtsextractor, die referentiebeelden en gezichtssleutelpunten codeert in een latente ruimte, waardoor functies worden gegenereerd die verrijkt zijn met laagfrequente informatie. Deze functies worden vervolgens geïntegreerd in ondiepe lagen van het netwerk om trainingsuitdagingen geassocieerd met DiT te verlichten. Ten tweede, vanuit een hoogfrequente benadering, ontwerpen we een lokale gezichtsextractor om hoogfrequente details vast te leggen en deze in transformerblokken te injecteren, waardoor het vermogen van het model om fijngestructureerde kenmerken te behouden wordt verbeterd. We stellen een hiërarchische trainingsstrategie voor om frequentie-informatie te benutten voor identiteitsbehoud, waardoor een standaard voorgeleerd videogeneratiemodel wordt omgezet in een IPT2V-model. Uitgebreide experimenten tonen aan dat ons frequentie-bewuste heuristische schema een optimale controleoplossing biedt voor DiT-gebaseerde modellen. Dankzij dit schema genereert onze ConsisID hoogwaardige, identiteit-bewarende video's, waarmee stappen worden gezet naar effectievere IPT2V.
In het snel evoluerende domein van beeldgeneratie heeft Visual Auto-Regressive (VAR) modellering aanzienlijke aandacht gekregen vanwege zijn innovatieve voorspellingsbenadering op de volgende schaal. Dit paradigma biedt aanzienlijke verbeteringen in efficiëntie, schaalbaarheid en generalisatie zonder training. Toch leidt de inherent grof-naar-fijn aard van VAR tot een langere reeks tokens, wat resulteert in een ontoelaatbaar geheugenverbruik en computationele redundanties. Om deze knelpunten aan te pakken, stellen we Collaborative Decoding (CoDe) voor, een nieuw efficiënte decodeerstrategie op maat gemaakt voor het VAR-framework. CoDe maakt gebruik van twee cruciale observaties: de aanzienlijk verminderde parametervereisten op grotere schalen en de exclusieve generatiepatronen over verschillende schalen. Op basis van deze inzichten verdelen we het multi-schaal inferentieproces in een naadloze samenwerking tussen een groot model en een klein model. Het grote model fungeert als de 'ontwerper', gespecialiseerd in het genereren van laagfrequente inhoud op kleinere schalen, terwijl het kleinere model fungeert als de 'verfijner', dat zich uitsluitend richt op het voorspellen van hoogfrequente details op grotere schalen. Deze samenwerking leidt tot opmerkelijke efficiëntie met minimale invloed op de kwaliteit: CoDe behaalt een versnelling van 1,7x, vermindert het geheugengebruik met ongeveer 50% en behoudt de beeldkwaliteit met slechts een verwaarloosbare FID-toename van 1,95 naar 1,98. Wanneer het aantal ontwerpstappen verder wordt verminderd, kan CoDe een indrukwekkende versnelling van 2,9x bereiken, met 41 beelden/s bij een resolutie van 256x256 op een enkele NVIDIA 4090 GPU, terwijl een bewonderenswaardige FID van 2,27 behouden blijft. De code is beschikbaar op https://github.com/czg1225/CoDe
Het genereren van gepersonaliseerde afbeeldingen vereist tekst-naar-afbeelding generatieve modellen die de kernkenmerken van een referentieonderwerp vastleggen om gecontroleerde generatie over verschillende contexten mogelijk te maken. Bestaande methoden worden geconfronteerd met uitdagingen door complexe trainingsvereisten, hoge inferentiekosten, beperkte flexibiliteit, of een combinatie van deze problemen. In dit artikel introduceren we DreamCache, een schaalbare aanpak voor efficiënte en hoogwaardige gepersonaliseerde afbeeldingsgeneratie. Door een klein aantal referentieafbeeldingskenmerken uit een subset van lagen en een enkele tijdstap van de voorgeleerde diffusie-denoiser te cachen, maakt DreamCache dynamische modulatie van de gegenereerde afbeeldingskenmerken mogelijk via lichtgewicht, getrainde conditionering-adapters. DreamCache bereikt state-of-the-art afbeeldings- en tekstuitlijning, met gebruik van een orde van grootte minder extra parameters, en is zowel rekenkundig effectiever als veelzijdiger dan bestaande modellen.
Perceptie en begrip zijn twee pijlers van computervisie. Hoewel multimodale grote taalmodellen (MLLM) opmerkelijke visuele begripscapaciteiten hebben aangetoond, ontbreekt het hen naar verluidt aan nauwkeurige perceptievermogens, bijvoorbeeld het geavanceerde model Qwen2-VL behaalt slechts een recall-rate van 43,9 op de COCO-dataset, wat veel taken beperkt die de combinatie van perceptie en begrip vereisen. In dit werk streven we ernaar deze perceptiekloof te overbruggen vanuit zowel het ontwerp van het model als het ontwikkelen van gegevens. We introduceren eerst ChatRex, een MLLM met een losgekoppeld perceptieontwerp. In plaats van dat het LLM direct de vakcoördinaten voorspelt, voeren we de uitvoervakken van een universeel voorstelnetwerk in het LLM in, zodat het de overeenkomstige vakindices kan uitvoeren om zijn detectieresultaten weer te geven, waardoor de regressietaak wordt omgezet in een opvragingstaak die het LLM vaardiger afhandelt. Vanuit het gegevensperspectief bouwen we een volledig geautomatiseerde gegevensengine en construeren we de Rexverse-2M dataset die meerdere granulariteiten bezit om de gezamenlijke training van perceptie en begrip te ondersteunen. Na standaard tweefasentraining toont ChatRex sterke perceptievermogens terwijl het multimodale begripsprestaties behoudt. De combinatie van deze twee vermogens ontgrendelt gelijktijdig veel aantrekkelijke toepassingen, waarbij de complementaire rollen van zowel perceptie als begrip in MLLM worden aangetoond. De code is beschikbaar op https://github.com/IDEA-Research/ChatRex.
Het genereren van geluidseffecten voor video's vereist vaak het creëren van artistieke geluidseffecten die aanzienlijk afwijken van bronnen in het echte leven en flexibele controle in het geluidsontwerp. Om dit probleem aan te pakken, introduceren we MultiFoley, een model ontworpen voor video-geleide geluidsproductie dat multimodale conditionering ondersteunt via tekst, audio en video. Met behulp van een stille video en een tekstprompt stelt MultiFoley gebruikers in staat om schone geluiden te creëren (bijv. skateboardwielen die draaien zonder windgeluid) of meer grillige geluiden (bijv. een leeuwenbrul die klinkt als het gemiauw van een kat). MultiFoley stelt gebruikers ook in staat om referentie-audio te kiezen uit geluidseffecten (SFX) bibliotheken of gedeeltelijke video's voor conditionering. Een belangrijke noviteit van ons model ligt in zijn gezamenlijke training op zowel internetvideodatasets met audio van lage kwaliteit als professionele SFX-opnames, waardoor hoogwaardige, volledige bandbreedte (48 kHz) audioproductie mogelijk is. Door geautomatiseerde evaluaties en menselijke studies tonen we aan dat MultiFoley succesvol gesynchroniseerde geluiden van hoge kwaliteit genereert over verschillende conditionele invoer en bestaande methoden overtreft. Zie onze projectpagina voor videoregistraties: https://ificl.github.io/MultiFoley/
In dit werk introduceren we een enkele parameter omega om effectief de granulariteit te regelen in diffusie-gebaseerde synthese. Deze parameter wordt opgenomen tijdens de denoising stappen van het reverse proces van het diffusiemodel. Onze benadering vereist geen hertraining van het model, architectonische aanpassingen of extra rekenkracht tijdens inferentie, maar maakt wel precieze controle mogelijk over het niveau van details in de gegenereerde uitvoer. Bovendien kunnen ruimtelijke maskers of denoising schema's met verschillende omega waarden worden toegepast om regio-specifieke of tijdstap-specifieke granulariteitscontrole te bereiken. Voorkennis van de samenstelling van afbeeldingen uit besturingsignalen of referentieafbeeldingen vergemakkelijkt verder de creatie van precieze omega maskers voor granulariteitscontrole op specifieke objecten. Om de rol van de parameter bij het regelen van subtiele detailvariaties te benadrukken, wordt de techniek Omegance genoemd, waarbij "omega" en "nuance" worden gecombineerd. Onze methode toont indrukwekkende prestaties bij verschillende beeld- en videosynthese taken en is aanpasbaar aan geavanceerde diffusiemodellen. De code is beschikbaar op https://github.com/itsmag11/Omegance.
Speculatief decoderen (SD) is een belangrijke techniek geworden om de inferentiesnelheid van grote taalmodellen te versnellen. Conventionele SD-methoden maken gebruik van een vaste conceptlengte, die de moeilijkheidsgraad van token-generatie over taken heen negeert. In dit artikel pakken we dit probleem aan en introduceren we SVIP - een moeilijkheidsbewust dynamisch conceptlengtebeleid voor speculatieve decodeersystemen. Gebaseerd op een theoretische ondergrens van de acceptatiesnelheid van concepttokens en de benadering van de inferentietijd, bepaalt SVIP adaptief de lengtes van conceptreeksen op basis van de entropie van elke concepttokenverdeling. Experimentele resultaten op gangbare SD-benchmarks en -frameworks tonen de superieure prestaties van SVIP aan, met een snelheidsverbetering van maximaal 20% op SpecBench ten opzichte van basismethoden voor SD en een snelheidsverbetering van 60% op MT-Bench voor de generatie van lange teksten tot 8K tokens. Bovendien is SVIP volledig trainingvrij en compatibel met alle bestaande SD-methoden die concepttokens autoregressief genereren. Experimentele resultaten tonen ook aan dat SVIP consistente snelheidsverbeteringen oplevert bovenop GliDe & CaPE en EAGLE-2.
Recente onderzoeken naar video large language models (VideoLLM) richten zich voornamelijk op modelarchitecturen en trainingsdatasets, waarbij het interactieformaat tussen de gebruiker en het model onderbelicht blijft. In bestaande werken interacteren gebruikers vaak met VideoLLM's door de hele video en een query als invoer te gebruiken, waarna het model een reactie genereert. Dit interactieformaat beperkt de toepassing van VideoLLM's in scenario's zoals begrip van live-streaming waar video's niet eindigen en reacties in realtime nodig zijn, en leidt ook tot onbevredigende prestaties bij tijdsgevoelige taken die vereisen dat videosegmenten gelokaliseerd worden. In dit artikel richten we ons op een video-tekst duet interactieformaat. Dit interactieformaat wordt gekenmerkt door de continue weergave van de video, waarbij zowel de gebruiker als het model hun tekstberichten op elk moment tijdens de videoweergave kunnen invoegen. Wanneer een tekstbericht eindigt, blijft de video doorspelen, vergelijkbaar met de afwisseling van twee artiesten in een duet. We construeren MMDuetIT, een video-tekst trainingsdataset die is ontworpen om VideoLLM's aan te passen aan het video-tekst duet interactieformaat. We introduceren ook de Multi-Answer Grounded Video Question Answering (MAGQA) taak om de real-time reactievermogen van VideoLLM's te beoordelen. Getraind op MMDuetIT, toont MMDuet aan dat het aannemen van het video-tekst duet interactieformaat het model in staat stelt significante verbeteringen te behalen in verschillende tijdsgevoelige taken (76% CIDEr bij YouCook2 dense video captioning, 90% mAP bij QVHighlights highlight detection en 25% R@0.5 bij Charades-STA temporal video grounding) met minimale trainingsinspanningen, en stelt VideoLLM's ook in staat om te reageren terwijl de video wordt afgespeeld. Code, data en demo zijn beschikbaar op: https://github.com/yellow-binary-tree/MMDuet.
Het identificeren van belangrijke pathologische kenmerken in hersen-MRI's is cruciaal voor de langetermijnoverleving van glioompatiënten. Echter, handmatige segmentatie is tijdrovend, vereist expertinterventie en is vatbaar voor menselijke fouten. Daarom is er aanzienlijk onderzoek gewijd aan het ontwikkelen van machine learning methoden die tumoren nauwkeurig kunnen segmenteren in 3D multimodale hersen-MRI-scans. Ondanks hun vooruitgang worden state-of-the-art modellen vaak beperkt door de data waarop ze zijn getraind, wat zorgen oproept over hun betrouwbaarheid bij toepassing op diverse populaties die distributieverschuivingen kunnen introduceren. Dergelijke verschuivingen kunnen voortkomen uit lagere kwaliteit MRI-technologie (bijv. in sub-Sahara Afrika) of variaties in patiëntdemografie (bijv. kinderen). De BraTS-2024 uitdaging biedt een platform om deze kwesties aan te pakken. Deze studie presenteert onze methodologie voor het segmenteren van tumoren in de BraTS-2024 SSA en Pediatrische Tumoren taken met behulp van MedNeXt, uitgebreide modelensemble en grondige postprocessing. Onze aanpak toonde sterke prestaties op de ongeziene validatieset, met een gemiddelde Dice Similarity Coefficient (DSC) van 0.896 op de BraTS-2024 SSA dataset en een gemiddelde DSC van 0.830 op de BraTS Pediatrische Tumor dataset. Daarnaast behaalde onze methode een gemiddelde Hausdorff Afstand (HD95) van 14.682 op de BraTS-2024 SSA dataset en een gemiddelde HD95 van 37.508 op de BraTS Pediatrische dataset. Ons GitHub-repository is hier toegankelijk: Project Repository: https://github.com/python-arch/BioMbz-Optimaliseren-Hersen-Tumor-Segmentatie-met-MedNeXt-BraTS-2024-SSA-en-Pediatrics
Blind all-in-one beeldherstelmodellen hebben als doel een hoogwaardig beeld te herstellen van een invoer die is aangetast door onbekende vervormingen. Deze modellen vereisen echter dat alle mogelijke soorten degradatie gedefinieerd worden tijdens de trainingsfase, terwijl ze beperkte generalisatie vertonen naar ongeziene degradaties, wat hun praktische toepassing in complexe gevallen beperkt. In dit artikel stellen we een eenvoudig maar effectief adaptief blind all-in-one herstelmodel voor, genaamd ABAIR, dat meerdere degradaties kan aanpakken, goed generaliseert naar ongeziene degradaties en efficiënt nieuwe degradaties kan opnemen door een klein deel van de parameters te trainen. Ten eerste trainen we ons basismodel op een grote dataset van natuurlijke beelden met meerdere synthetische degradaties, aangevuld met een segmentatiekop om per pixel degradatietypen te schatten, resulterend in een krachtige ruggengraat die in staat is te generaliseren naar een breed scala van degradaties. Ten tweede passen we ons basismodel aan voor verschillende beeldhersteltaken met onafhankelijke low-rank adapters. Ten derde leren we om adapters adaptief te combineren voor veelzijdige beelden via een flexibele en lichtgewicht degradatieschatting. Ons model is zowel krachtig in het omgaan met specifieke vervormingen als flexibel in het aanpassen aan complexe taken. Het presteert niet alleen aanzienlijk beter dan de state-of-the-art op vijf- en drie-taak IR-opstellingen, maar toont ook verbeterde generalisatie naar ongeziene degradaties en samengestelde vervormingen.
De snelle vooruitgang van grote taalmodellen (LLM's) zoals GPT-3, PaLM en Llama heeft het natuurlijke taalverwerking aanzienlijk getransformeerd, waarbij opmerkelijke mogelijkheden worden getoond in het begrijpen en genereren van taal. Echter, deze modellen worstelen vaak met taken die complex redeneren vereisen, met name bij wiskundige probleemoplossing, deels als gevolg van het gebrek aan grootschalige, hoogwaardige, domeinspecifieke datasets die nodig zijn voor het trainen van geavanceerde redeneervaardigheden. Om deze beperking aan te pakken, introduceren we Template-gebaseerde Gegevensgeneratie (TDG), een nieuw benadering die gebruikmaakt van LLM's (GPT-4) om automatisch geparametriseerde meta-templates te genereren, die vervolgens worden gebruikt om een breed scala aan hoogwaardige problemen en oplossingen te synthetiseren. Door TDG te benutten, creëren we TemplateMath Deel I: TemplateGSM, een dataset bestaande uit meer dan 7 miljoen synthetisch gegenereerde wiskundige problemen voor de basisschool - elk vergezeld van op code gebaseerde en natuurlijke taaloplossingen - met het potentieel om effectief een onbeperkt aantal meer te genereren. Deze dataset vermindert het gebrek aan grootschalige wiskundige datasets en dient als een waardevolle bron voor pre-training, fine-tuning en het evalueren van LLM's in wiskundig redeneren. Onze methode maakt niet alleen de generatie van praktisch oneindige gegevens mogelijk, maar tilt ook gegevensaugmentatie naar een nieuw niveau door GPT-4 te gebruiken voor meta-templategeneratie, waarbij diverse en hoogwaardige probleemstructuren worden gegarandeerd. De TemplateMath Deel I: TemplateGSM-dataset is openbaar beschikbaar op https://huggingface.co/datasets/math-ai/TemplateGSM. De code is beschikbaar op https://github.com/iiis-ai/TemplateMath.
Recente ontwikkelingen in diffusiemodellen hebben generatieve beeldbewerking toegankelijker gemaakt, waardoor creatieve bewerkingen mogelijk zijn maar ook ethische zorgen oproepen, met name met betrekking tot kwaadwillige bewerkingen van menselijke portretten die de privacy en identiteitsbeveiliging bedreigen. Bestaande beschermingsmethoden vertrouwen voornamelijk op vijandige verstoringen om bewerkingen teniet te doen, maar falen vaak bij diverse bewerkingsverzoeken. Wij stellen FaceLock voor, een nieuw benadering voor portretbescherming die vijandige verstoringen optimaliseert om biometrische informatie te vernietigen of aanzienlijk te wijzigen, waardoor bewerkte uitvoer biometrisch onherkenbaar wordt. FaceLock integreert gezichtsherkenning en visuele perceptie in de optimalisatie van verstoringen om robuuste bescherming te bieden tegen verschillende bewerkingspogingen. We benadrukken ook tekortkomingen in veelgebruikte evaluatiemetrics en onthullen hoe ze gemanipuleerd kunnen worden, waarbij de noodzaak van betrouwbare beoordelingen van bescherming wordt benadrukt. Experimenten tonen aan dat FaceLock beter presteert dan baselines bij het verdedigen tegen kwaadwillige bewerkingen en bestand is tegen zuiveringstechnieken. Ablatiestudies bevestigen de stabiliteit en brede toepasbaarheid ervan bij diffusie-gebaseerde bewerkingsalgoritmen. Ons werk bevordert biometrische verdediging en legt de basis voor privacybehoudende praktijken in beeldbewerking. De code is beschikbaar op: https://github.com/taco-group/FaceLock.