Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusiemodellen zijn de belangrijkste drijfveer voor vooruitgang in beeld- en videosynthese, maar lijden onder een trage inferentiesnelheid. Distillatiemethoden, zoals de recent geïntroduceerde adversarial diffusion distillation (ADD), hebben als doel het model te verschuiven van veelstaps naar enkelstaps inferentie, zij het ten koste van dure en moeilijke optimalisatie vanwege de afhankelijkheid van een vaste, vooraf getrainde DINOv2-discriminator. Wij introduceren Latent Adversarial Diffusion Distillation (LADD), een nieuwe distillatiebenadering die de beperkingen van ADD overwint. In tegenstelling tot pixelgebaseerde ADD maakt LADD gebruik van generatieve kenmerken uit vooraf getrainde latente diffusiemodellen. Deze aanpak vereenvoudigt de training en verbetert de prestaties, waardoor hoogwaardige synthese van afbeeldingen met meerdere beeldverhoudingen mogelijk wordt. We passen LADD toe op Stable Diffusion 3 (8B) om SD3-Turbo te verkrijgen, een snel model dat de prestaties evenaart van state-of-the-art tekst-naar-beeldgeneratoren met slechts vier ongeleide samplingstappen. Bovendien onderzoeken we systematisch het schaalgedrag en demonstreren we de effectiviteit van LADD in diverse toepassingen zoals beeldbewerking en inpainting.
Reinforcement Learning from Human Feedback (RLHF) heeft zich bewezen als een krachtige methode om voorgetrainde grote taalmmodellen (LLMs) af te stemmen op menselijke voorkeuren. Het trainen van modellen met RLHF is echter rekenintensief en een complex proces. In dit werk bestuderen we RLHF waarbij de onderliggende modellen worden getraind met de parameter-efficiënte methode van Low-Rank Adaptation (LoRA), geïntroduceerd door Hu et al. [2021]. We onderzoeken de opzet van "Parameter Efficient Reinforcement Learning" (PERL), waarbij we zowel het trainen van het beloningsmodel als reinforcement learning uitvoeren met behulp van LoRA. We vergelijken PERL met conventionele fine-tuning (full-tuning) over verschillende configuraties voor 7 benchmarks, waaronder 2 nieuwe datasets, voor beloningsmodellering en reinforcement learning. We constateren dat PERL vergelijkbaar presteert met de conventionele RLHF-instelling, terwijl het sneller traint en minder geheugen gebruikt. Dit maakt de hoge prestaties van RLHF mogelijk, terwijl de rekenlast wordt verminderd die de adoptie ervan als een afstemmingstechniek voor grote taalmmodellen beperkt. We brengen ook 2 nieuwe datasets uit voor voorkeuren (thumbs up/down): "Taskmaster Coffee" en "Taskmaster Ticketing" om onderzoek rond RLHF te bevorderen.
Efficiënte en nauwkeurige updates van kennis die is opgeslagen in Large Language Models (LLM's) vormen een van de meest urgente onderzoeksuitdagingen van vandaag. Dit artikel introduceert Larimar - een nieuwe, door de hersenen geïnspireerde architectuur voor het verbeteren van LLM's met een gedistribueerd episodisch geheugen. Het geheugen van Larimar maakt dynamische, eenmalige updates van kennis mogelijk zonder dat er dure hertraining of fine-tuning nodig is. Experimentele resultaten op meerdere benchmarks voor het bewerken van feiten laten zien dat Larimar een nauwkeurigheid bereikt die vergelijkbaar is met de meest competitieve baselines, zelfs in de uitdagende sequentiële bewerkingsopzet, maar ook uitblinkt in snelheid - met versnellingen van 4-10x afhankelijk van de basis-LLM - evenals flexibiliteit vanwege de voorgestelde architectuur die eenvoudig, LLM-agnostisch en dus algemeen toepasbaar is. We bieden verder mechanismen voor selectief feitenvergeten en generalisatie van de invoercontextlengte met Larimar en tonen hun effectiviteit aan.
We presenteren Stable Video 3D (SV3D) -- een latent video-diffusiemodel voor hoogwaardige, beeld-naar-multi-view generatie van orbitale video's rond een 3D-object. Recente ontwikkelingen in 3D-generatie stellen technieken voor om 2D-generatieve modellen aan te passen voor nieuwe weergavesynthese (NVS) en 3D-optimalisatie. Deze methoden hebben echter verschillende nadelen vanwege beperkte weergaven of inconsistente NVS, wat de prestaties van 3D-objectgeneratie beïnvloedt. In dit werk stellen we SV3D voor, dat een beeld-naar-video diffusiemodel aanpast voor nieuwe multi-view synthese en 3D-generatie, waarbij de generalisatie en multi-view consistentie van videomodellen wordt benut, terwijl expliciete camerabesturing voor NVS wordt toegevoegd. We introduceren ook verbeterde 3D-optimalisatietechnieken om SV3D en zijn NVS-uitvoer te gebruiken voor beeld-naar-3D-generatie. Uitgebreide experimentele resultaten op meerdere datasets met zowel 2D- als 3D-metingen, evenals een gebruikersstudie, tonen aan dat SV3D state-of-the-art prestaties levert op het gebied van NVS en 3D-reconstructie in vergelijking met eerdere werken.
Gebruikmakend van recente vooruitgang in diffusiemodellen voor tekst-naar-beeldgeneratie, heeft identiteitsbehoudende personalisatie aanzienlijke vooruitgang geboekt in het nauwkeurig vastleggen van specifieke identiteiten met slechts één referentiebeeld. Bestaande methoden integreren echter voornamelijk referentiebeelden binnen de tekstembeddingruimte, wat leidt tot een complexe verstrengeling van beeld- en tekstinformatie, wat uitdagingen oplevert voor het behoud van zowel identiteitsgetrouwheid als semantische consistentie. Om deze uitdaging aan te pakken, stellen we Infinite-ID voor, een ID-semantiek-ontkoppelingsparadigma voor identiteitsbehoudende personalisatie. Specifiek introduceren we identiteitsversterkte training, waarbij een extra beeldkruisattentiemodule wordt opgenomen om voldoende ID-informatie vast te leggen, terwijl de oorspronkelijke tekstkruisattentiemodule van het diffusiemodel wordt gedeactiveerd. Dit zorgt ervoor dat de beeldstroom de identiteit van het referentiebeeld getrouw weergeeft, terwijl interferentie van tekstuele input wordt geminimaliseerd. Daarnaast introduceren we een functie-interactiemechanisme dat een gemengde attentiemodule combineert met een AdaIN-gemiddeldebewerking om de twee stromen naadloos te integreren. Dit mechanisme verbetert niet alleen de getrouwheid van identiteit en semantische consistentie, maar maakt ook een handige controle over de stijlen van de gegenereerde beelden mogelijk. Uitgebreide experimentele resultaten voor zowel de generatie van ruwe foto's als stijlbeeldgeneratie demonstreren de superieure prestaties van onze voorgestelde methode.
We introduceren LightIt, een methode voor expliciete belichtingscontrole bij beeldgeneratie. Recente generatieve methoden missen belichtingscontrole, wat cruciaal is voor tal van artistieke aspecten van beeldgeneratie, zoals het bepalen van de algehele sfeer of cinematografische uitstraling. Om deze beperkingen te overwinnen, stellen we voor om de generatie te conditioneren op schaduw- en normaal kaarten. We modelleren de belichting met enkelvoudige reflectieschaduw, inclusief slagschaduwen. We trainen eerst een schattingsmodule voor schaduw om een dataset van real-world beelden en schaduwparen te genereren. Vervolgens trainen we een controle netwerk met behulp van de geschatte schaduw en normalen als invoer. Onze methode toont hoogwaardige beeldgeneratie en belichtingscontrole in talrijke scènes. Daarnaast gebruiken we onze gegenereerde dataset om een identiteitsbehoudend herbelichtingsmodel te trainen, geconditioneerd op een beeld en een doel schaduw. Onze methode is de eerste die de generatie van beelden met controleerbare, consistente belichting mogelijk maakt en presteert op het niveau van gespecialiseerde state-of-the-art herbelichtingsmethoden.
Visuele codering vormt de basis van grote multimodale modellen (LMMs) voor het begrijpen van de visuele wereld. Traditionele LMMs verwerken afbeeldingen in vaste formaten en beperkte resoluties, terwijl recente onderzoeken op dit gebied beperkt zijn in aanpassingsvermogen, efficiëntie en zelfs correctheid. In dit werk nemen we eerst GPT-4V en LLaVA-1.5 als representatieve voorbeelden en leggen we systematische tekortkomingen bloot die geworteld zijn in hun visuele coderingsstrategie. Om deze uitdagingen aan te pakken, presenteren we LLaVA-UHD, een groot multimodaal model dat efficiënt afbeeldingen kan waarnemen in elke beeldverhouding en hoge resolutie. LLaVA-UHD omvat drie belangrijke componenten: (1) Een beeldmodularisatiestrategie die afbeeldingen in native resolutie verdeelt in kleinere, variabel grote segmenten voor efficiënte en uitbreidbare codering, (2) een compressiemodule die beeldtokens van visuele encoders verder comprimeert, en (3) een ruimtelijk schema om segmenttokens te organiseren voor LLMs. Uitgebreide experimenten tonen aan dat LLaVA-UHD gevestigde LMMs overtreft die getraind zijn met 2-3 ordes van grootte meer data op 9 benchmarks. Opmerkelijk is dat ons model, gebaseerd op LLaVA-1.5 336x336, afbeeldingen met een 6 keer grotere resolutie (d.w.z. 672x1088) ondersteunt met slechts 94% van de inferentieberekeningen, en een nauwkeurigheidsverbetering van 6,4 behaalt op TextVQA. Bovendien kan het model efficiënt worden getraind in academische omgevingen, binnen 23 uur op 8 A100 GPU's (vs. 26 uur voor LLaVA-1.5). We maken de data en code publiekelijk beschikbaar op https://github.com/thunlp/LLaVA-UHD.
Open-domain 3D-objectsynthese loopt achter op beeld-synthese vanwege beperkte data en hogere computationele complexiteit. Om deze kloof te overbruggen, hebben recente werken multi-view diffusie onderzocht, maar schieten vaak tekort in 3D-consistentie, visuele kwaliteit of efficiëntie. Dit artikel stelt MVEdit voor, dat functioneert als een 3D-tegenhanger van SDEdit, waarbij ancestrale sampling wordt gebruikt om multi-view beelden gezamenlijk te denoisen en hoogwaardige textuur-meshes te produceren. Gebaseerd op kant-en-klare 2D-diffusiemodellen, bereikt MVEdit 3D-consistentie via een trainingsvrije 3D-adapter, die de 2D-beelden van de laatste tijdstap omzet in een coherente 3D-representatie, en vervolgens de 2D-beelden van het volgende tijdstap conditioneert met behulp van gerenderde views, zonder in te leveren op visuele kwaliteit. Met een inferentietijd van slechts 2-5 minuten bereikt dit framework een betere balans tussen kwaliteit en snelheid dan score-distillatie. MVEdit is zeer veelzijdig en uitbreidbaar, met een breed scala aan toepassingen, waaronder tekst/beeld-naar-3D-generatie, 3D-naar-3D-bewerking en hoogwaardige textuur-synthese. Evaluaties tonen met name state-of-the-art prestaties aan in zowel beeld-naar-3D als tekstgeleide textuur-generatietaken. Daarnaast introduceren we een methode voor het fine-tunen van 2D-latente diffusiemodellen op kleine 3D-datasets met beperkte middelen, waardoor snelle lage-resolutie tekst-naar-3D-initialisatie mogelijk wordt.
Reconstructies van visuele waarneming uit hersenactiviteit zijn enorm verbeterd, maar de praktische bruikbaarheid van dergelijke methoden is beperkt gebleven. Dit komt doordat dergelijke modellen onafhankelijk per proefpersoon worden getraind, waarbij elke proefpersoon tientallen uren dure fMRI-trainingsdata nodig heeft om hoogwaardige resultaten te behalen. Dit werk toont hoogwaardige reconstructies met slechts 1 uur fMRI-trainingsdata. We pretrainen ons model over 7 proefpersonen en finetunen vervolgens op minimale data van een nieuwe proefpersoon. Onze nieuwe functionele aligneringsprocedure brengt alle hersendata lineair in kaart naar een gedeelde latente ruimte, gevolgd door een gedeelde niet-lineaire mapping naar de CLIP-beeldruimte. Vervolgens mappen we van de CLIP-ruimte naar de pixelruimte door Stable Diffusion XL te finetunen om CLIP-latenten als invoer te accepteren in plaats van tekst. Deze aanpak verbetert de generalisatie buiten de proefpersoon met beperkte trainingsdata en behaalt ook state-of-the-art metrieken voor beeldretrieval en reconstructie in vergelijking met benaderingen voor één proefpersoon. MindEye2 laat zien hoe nauwkeurige reconstructies van waarneming mogelijk zijn na een enkel bezoek aan de MRI-faciliteit. Alle code is beschikbaar op GitHub.
Vooruitgang in machine learning (ML) is aangedreven door het opschalen van neurale netwerkmodellen. Deze schaalvergroting is mogelijk gemaakt door steeds indrukwekkender technische prestaties, die nodig zijn voor ML-benaderingen die een hoge bandbreedtecommunicatie vereisen tussen parallel werkende apparaten. In dit werk stellen we een gecoördineerde modulaire architectuur en trainingsbenadering voor ML-modellen voor, genaamd DIstributed PAth COmposition (DiPaCo). Tijdens de training verdeelt DiPaCo de berekening over paden door een set gedeelde modules. Samen met een Local-SGD-geïnspireerde optimalisatie (DiLoCo) die modules synchroon houdt met sterk verminderde communicatie, vergemakkelijkt onze aanpak training over slecht verbonden en heterogene werkers, met een ontwerp dat robuustheid garandeert tegen werkerstoringen en onderbrekingen. Tijdens inferentie hoeft slechts één pad uitgevoerd te worden voor elke invoer, zonder de noodzaak van enige modelcompressie. We beschouwen deze aanpak als een eerste prototype naar een nieuw paradigma van grootschalig leren, een dat minder synchroon en meer modulair is. Onze experimenten op de veelgebruikte C4-benchmark laten zien dat, voor hetzelfde aantal trainingsstappen maar minder kloktijd, DiPaCo de prestaties overtreft van een dicht transformer-taalmodel met 1 miljard parameters door een van de 256 mogelijke paden te kiezen, elk met een grootte van 150 miljoen parameters.
We onderzoeken hoe het verzoenen van verschillende foundation models (grote taalmodellen en visueel-taalkundige modellen) met een nieuw geïntegreerd geheugenmechanisme het uitdagende probleem van videobegrip kan aanpakken, met name het vastleggen van langetermijn temporele relaties in lange video's. In het bijzonder stelt de voorgestelde multimodale agent VideoAgent: 1) een gestructureerd geheugen op om zowel generieke temporele gebeurtenisbeschrijvingen als objectgerichte trackingstatussen van de video op te slaan; 2) gegeven een invoertaakquery, maakt het gebruik van tools zoals videosegmentlokalisatie en objectgeheugenquery's, samen met andere visuele foundation models, om de taak interactief op te lossen, waarbij het de zero-shot tool-use mogelijkheid van LLMs benut. VideoAgent toont indrukwekkende prestaties op verschillende langetermijn videobegrip benchmarks, met een gemiddelde stijging van 6,6% op NExT-QA en 26,0% op EgoSchema ten opzichte van de basislijnen, waardoor de kloof tussen open-source modellen en private tegenhangers, waaronder Gemini 1.5 Pro, wordt verkleind.
Het vakgebied van neurale rendering heeft aanzienlijke vooruitgang geboekt met de ontwikkelingen in generatieve modellen en differentieerbare renderingtechnieken. Hoewel 2D-diffusie succes heeft behaald, blijft een uniforme 3D-diffusiepijplijn nog onopgelost. Dit artikel introduceert een nieuw raamwerk genaamd LN3Diff om deze kloof te overbruggen en snelle, hoogwaardige en generieke conditionele 3D-generatie mogelijk te maken. Onze aanpak maakt gebruik van een 3D-bewuste architectuur en een variational autoencoder (VAE) om de invoerafbeelding te coderen in een gestructureerde, compacte en 3D-latente ruimte. De latente representatie wordt door een transformer-gebaseerde decoder gedecodeerd in een hoogwaardig 3D-neuraal veld. Door een diffusiemodel te trainen op deze 3D-bewuste latente ruimte, bereikt onze methode state-of-the-art prestaties op ShapeNet voor 3D-generatie en toont het superieure prestaties in monoculaire 3D-reconstructie en conditionele 3D-generatie over verschillende datasets. Bovendien overtreft het bestaande 3D-diffusiemethoden wat betreft inferentiesnelheid, zonder dat er per-instantie optimalisatie nodig is. Onze voorgestelde LN3Diff vertegenwoordigt een significante vooruitgang in 3D-generatieve modellering en biedt veelbelovende mogelijkheden voor diverse toepassingen in 3D-visie en grafische taken.
Dit artikel introduceert een nieuw paradigma voor het bouwen van schaalbare 3D-generatieve modellen met behulp van vooraf getrainde video-diffusiemodellen. Het belangrijkste obstakel bij het ontwikkelen van fundamentele 3D-generatieve modellen is de beperkte beschikbaarheid van 3D-data. In tegenstelling tot afbeeldingen, teksten of video's zijn 3D-data niet gemakkelijk toegankelijk en moeilijk te verkrijgen. Dit resulteert in een aanzienlijk verschil in schaal vergeleken met de enorme hoeveelheden van andere soorten data. Om dit probleem aan te pakken, stellen we voor om een video-diffusiemodel, getraind met grote hoeveelheden tekst, afbeeldingen en video's, te gebruiken als kennisbron voor 3D-data. Door de multi-view generatieve mogelijkheden ervan te ontsluiten via fine-tuning, genereren we een grootschalige synthetische multi-view dataset om een feed-forward 3D-generatief model te trainen. Het voorgestelde model, VFusion3D, getraind op bijna 3 miljoen synthetische multi-view data, kan in enkele seconden een 3D-asset genereren vanuit een enkele afbeelding en behaalt superieure prestaties vergeleken met de huidige state-of-the-art feed-forward 3D-generatieve modellen, waarbij gebruikers onze resultaten in meer dan 70% van de gevallen verkiezen.