Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vooraf trainen van grote taalmmodellen (LLMs) op grote corpora van tekstuele gegevens is inmiddels een standaard paradigma. Bij het gebruik van deze LLMs voor veel downstream-toepassingen is het gebruikelijk om aanvullende nieuwe kennis (bijvoorbeeld tijdgevoelig nieuws of privédomeinkennis) in het vooraf getrainde model te integreren, hetzij via RAG-gebaseerde prompting, hetzij via fine-tuning. De optimale methodologie voor het model om dergelijke nieuwe kennis te verwerven, blijft echter een open vraag. In dit artikel presenteren we Retrieval Augmented FineTuning (RAFT), een trainingsmethode die het vermogen van het model verbetert om vragen te beantwoorden in een "open-boek" in-domein setting. In RAFT trainen we het model, gegeven een vraag en een set opgehaalde documenten, om die documenten die niet helpen bij het beantwoorden van de vraag te negeren, wat we afleidende documenten noemen. RAFT bereikt dit door letterlijk de juiste sequentie uit het relevante document te citeren die zou helpen bij het beantwoorden van de vraag. Dit, in combinatie met RAFT's keten-van-gedachten-stijl antwoord, helpt het redeneervermogen van het model te verbeteren. In domeinspecifieke RAG verbetert RAFT consistent de prestaties van het model over de PubMed-, HotpotQA- en Gorilla-datasets, en presenteert het een post-trainingsmethode om vooraf getrainde LLMs te verbeteren voor in-domein RAG. De code en demo van RAFT zijn openbaar beschikbaar op github.com/ShishirPatil/gorilla.
In wetenschappelijk onderzoek en de toepassing ervan is de analyse van wetenschappelijke literatuur van cruciaal belang, omdat het onderzoekers in staat stelt voort te bouwen op het werk van anderen. De snelle groei van wetenschappelijke kennis heeft echter geleid tot een enorme toename van wetenschappelijke artikelen, waardoor diepgaande literatuuranalyse steeds uitdagender en tijdrovender wordt. De opkomst van Large Language Models (LLMs) biedt een nieuwe manier om deze uitdaging aan te pakken. LLMs, bekend om hun sterke vaardigheden in het samenvatten van teksten, worden gezien als een potentieel hulpmiddel om de analyse van wetenschappelijke literatuur te verbeteren. Bestaande LLMs hebben echter hun eigen beperkingen. Wetenschappelijke literatuur omvat vaak een breed scala aan multimodale elementen, zoals moleculaire structuren, tabellen en grafieken, die moeilijk te begrijpen en te analyseren zijn voor tekstgerichte LLMs. Dit probleem onderstreept de dringende behoefte aan nieuwe oplossingen die multimodale inhoud in wetenschappelijke literatuur volledig kunnen begrijpen en analyseren. Om aan deze vraag te voldoen, presenteren we Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), een innovatief model ontworpen voor diepgaand begrip van multimodale wetenschappelijke literatuur. Door rigoureuze kwantitatieve evaluatie in verschillende domeinen, toont Uni-SMART superieure prestaties ten opzichte van toonaangevende tekstgerichte LLMs. Bovendien strekt ons onderzoek zich uit tot praktische toepassingen, waaronder het detecteren van patentinbreuken en de genuanceerde analyse van grafieken. Deze toepassingen benadrukken niet alleen de aanpassingsvermogen van Uni-SMART, maar ook het potentieel om een revolutie teweeg te brengen in hoe we omgaan met wetenschappelijke literatuur.
Het begrijpen van lange video's vormt een aanzienlijke uitdaging binnen computer vision, waarbij een model nodig is dat kan redeneren over lange multi-modale sequenties. Geïnspireerd door het menselijk cognitieve proces voor het begrijpen van lange video's, benadrukken we interactief redeneren en plannen boven de mogelijkheid om lange visuele inputs te verwerken. We introduceren een nieuw agent-gebaseerd systeem, VideoAgent, dat een groot taalmodel gebruikt als centrale agent om iteratief cruciale informatie te identificeren en samen te stellen om een vraag te beantwoorden, waarbij vision-language foundation modellen dienen als tools om visuele informatie te vertalen en op te halen. Getest op de uitdagende EgoSchema en NExT-QA benchmarks, behaalt VideoAgent een zero-shot nauwkeurigheid van 54,1% en 71,3% met slechts 8,4 en 8,2 frames gemiddeld gebruikt. Deze resultaten tonen de superieure effectiviteit en efficiëntie van onze methode aan ten opzichte van de huidige state-of-the-art methoden, wat het potentieel van agent-gebaseerde benaderingen benadrukt bij het bevorderen van het begrijpen van lange video's.
De afstemming van grote taalmodellen wordt meestal uitgevoerd door modelaanbieders om gedrag toe te voegen of te beheersen dat gebruikelijk of universeel begrepen is in verschillende use cases en contexten. Daarentegen presenteren we in dit artikel een aanpak en architectuur die applicatieontwikkelaars in staat stelt om een model af te stemmen op hun specifieke waarden, sociale normen, wetten en andere regelgeving, en om te schakelen tussen mogelijk conflicterende vereisten in context. We beschrijven drie hoofdcomponenten van zo'n Alignment Studio-architectuur: Framers, Instructors en Auditors, die samenwerken om het gedrag van een taalmodel te beheersen. We illustreren deze aanpak met een doorlopend voorbeeld van het afstemmen van een intern bedrijfschatbot op de richtlijnen voor bedrijfsgedrag van een onderneming.
In dit artikel introduceren we een verbeterde aanpak van speculatieve decodering die gericht is op het verhogen van de efficiëntie bij het bedienen van grote taalmodelen. Onze methode maakt gebruik van de sterke punten van twee gevestigde technieken: de klassieke aanpak van speculatieve decodering met twee modellen, en de recentere single-model aanpak, Medusa. Geïnspireerd door Medusa, neemt onze aanpak een single-model strategie aan voor speculatieve decodering. Onze methode onderscheidt zich echter door het gebruik van een enkele, lichtgewicht draft head met een recurrent dependency ontwerp, vergelijkbaar in essentie met het kleine draft model dat wordt gebruikt in klassieke speculatieve decodering, maar zonder de complexiteiten van de volledige transformer-architectuur. En vanwege de recurrent dependency kunnen we beam search gebruiken om snel ongewenste kandidaten uit te filteren met de draft head. Het resultaat is een methode die de eenvoud van het single-model ontwerp combineert en de noodzaak vermijdt om een data-afhankelijke boom-attentiestructuur te creëren, zoals alleen nodig is voor inferentie in Medusa. We demonstreren empirisch de effectiviteit van de voorgestelde methode op verschillende populaire open-source taalmodelen, samen met een uitgebreide analyse van de afwegingen die betrokken zijn bij het toepassen van deze aanpak.
Diffusiegebaseerde audio- en muziekgeneratiemodellen genereren doorgaans muziek door een beeldrepresentatie van audio te construeren (bijvoorbeeld een mel-spectrogram) en deze vervolgens om te zetten naar audio met behulp van een fase-reconstructiemodel of een vocoder. Typische vocoders produceren echter monofonische audio bij lagere resoluties (bijvoorbeeld 16-24 kHz), wat hun effectiviteit beperkt. Wij stellen MusicHiFi voor – een efficiënte high-fidelity stereofonische vocoder. Onze methode maakt gebruik van een cascade van drie generatieve adversariële netwerken (GANs) die laagresolutie mel-spectrogrammen omzetten naar audio, upsamplen naar hoogresolutie audio via bandbreedte-uitbreiding, en upmixen naar stereofonische audio. In vergelijking met eerder werk stellen wij 1) een uniforme GAN-gebaseerde generator- en discriminatorarchitectuur en trainingsprocedure voor elke fase van onze cascade voor, 2) een nieuwe snelle, bijna downsampling-compatibele bandbreedte-uitbreidingsmodule, en 3) een nieuwe snelle downmix-compatibele mono-naar-stereo upmixer die ervoor zorgt dat monofonische inhoud in de output behouden blijft. We evalueren onze aanpak met zowel objectieve als subjectieve luistertests en concluderen dat onze aanpak vergelijkbare of betere audiokwaliteit, betere spatialisatiecontrole en aanzienlijk snellere inferentiesnelheid oplevert in vergelijking met eerder werk. Geluidvoorbeelden zijn te vinden op https://MusicHiFi.github.io/web/.
Het reconstrueren van gedetailleerde 3D-objecten vanuit afbeeldingen met één beeldhoek blijft een uitdagende taak vanwege de beperkte beschikbare informatie. In dit artikel introduceren we FDGaussian, een nieuw tweestaps raamwerk voor 3D-reconstructie vanuit één afbeelding. Recente methoden maken doorgaans gebruik van vooraf getrainde 2D-diffusiemodellen om plausibele nieuwe aanzichten te genereren vanuit de invoerafbeelding, maar ze kampen met problemen zoals inconsistentie tussen meerdere aanzichten of een gebrek aan geometrische nauwkeurigheid. Om deze uitdagingen te overwinnen, stellen we een orthogonaal vlakdecompositiemechanisme voor om 3D-geometrische kenmerken te extraheren uit de 2D-invoer, waardoor het genereren van consistente multi-view afbeeldingen mogelijk wordt. Bovendien versnellen we de state-of-the-art Gaussian Splatting door epipolaire aandacht te integreren om afbeeldingen vanuit verschillende gezichtspunten samen te voegen. We tonen aan dat FDGaussian afbeeldingen genereert met een hoge consistentie tussen verschillende aanzichten en hoogwaardige 3D-objecten reconstrueert, zowel kwalitatief als kwantitatief. Meer voorbeelden zijn te vinden op onze website https://qjfeng.net/FDGaussian/.
Eerdere inspanningen in de ontwikkeling van lichtgewicht modellen richtten zich voornamelijk op CNN- en Transformer-gebaseerde ontwerpen, maar stonden voor aanhoudende uitdagingen. CNN's, die bedreven zijn in het extraheren van lokale kenmerken, gaan ten koste van de resolutie, terwijl Transformers een globaal bereik bieden maar de rekenkundige eisen verhogen tot O(N^2). Deze voortdurende afweging tussen nauwkeurigheid en efficiëntie blijft een belangrijk obstakel. Recentelijk hebben state space models (SSM's), zoals Mamba, uitstekende prestaties en concurrentievermogen getoond in diverse taken zoals taalmodellering en computervisie, terwijl ze de tijdcomplexiteit van het extraheren van globale informatie terugbrengen tot O(N). Geïnspireerd door dit werk, stelt dit onderzoek voor om het potentieel van visuele state space models in lichtgewicht modelontwerp te verkennen en introduceert het een nieuwe efficiënte modelvariant genaamd EfficientVMamba. Concreet integreert onze EfficientVMamba een atrous-gebaseerde selectieve scan-aanpak door efficiënte skip sampling, waarbij bouwstenen worden ontworpen om zowel globale als lokale representatieve kenmerken te benutten. Daarnaast onderzoeken we de integratie tussen SSM-blokken en convoluties, en introduceren we een efficiënt visueel state space blok gecombineerd met een extra convolutietak, wat de modelprestaties verder verhoogt. Experimentele resultaten tonen aan dat EfficientVMamba de rekenkundige complexiteit verlaagt terwijl het competitieve resultaten oplevert in een verscheidenheid aan visuele taken. Zo verbetert onze EfficientVMamba-S met 1.3G FLOPs Vim-Ti met 1.5G FLOPs met een grote marge van 5.6% nauwkeurigheid op ImageNet. Code is beschikbaar op: https://github.com/TerryPei/EfficientVMamba.
Aangemoedigd door de toenemende beschikbaarheid van vooraf getrainde 2D diffusiemodellen, boekt beeld-naar-3D-generatie door gebruik te maken van Score Distillation Sampling (SDS) opmerkelijke vooruitgang. De meeste bestaande methoden combineren het creëren van nieuwe perspectieven vanuit 2D diffusiemodellen, die meestal het referentiebeeld als voorwaarde nemen, terwijl ze strikte L2-beeldsupervisie toepassen bij het referentieperspectief. Echter, een sterke gehechtheid aan het beeld kan de inductieve kennis van het 2D diffusiemodel aantasten, wat vaak leidt tot vlakke of vervormde 3D-generaties. In dit werk onderzoeken we beeld-naar-3D vanuit een nieuw perspectief en presenteren we Isotropic3D, een beeld-naar-3D-generatiepijplijn die alleen een CLIP-embedding van een beeld als invoer neemt. Isotropic3D maakt de optimalisatie isotroop ten opzichte van de azimutale hoek door uitsluitend te vertrouwen op het SDS-verlies. De kern van ons framework ligt in een tweestaps fine-tuning van het diffusiemodel. Ten eerste fine-tunen we een tekst-naar-3D diffusiemodel door de tekstencoder te vervangen door een beeldencoder, waardoor het model voorlopig beeld-naar-beeld-capaciteiten verkrijgt. Ten tweede voeren we fine-tuning uit met onze Explicit Multi-view Attention (EMA), die ruisrijke multi-view beelden combineert met het ruisvrije referentiebeeld als expliciete voorwaarde. De CLIP-embedding wordt gedurende het hele proces naar het diffusiemodel gestuurd, terwijl referentiebeelden na de fine-tuning worden weggegooid. Als resultaat kan Isotropic3D met een enkele CLIP-embedding van een beeld multi-view onderling consistente beelden genereren, evenals een 3D-model met meer symmetrische en nette inhoud, goed geproportioneerde geometrie, rijke gekleurde textuur en minder vervorming in vergelijking met bestaande beeld-naar-3D-methoden, terwijl het nog steeds in grote mate de gelijkenis met het referentiebeeld behoudt. De projectpagina is beschikbaar op https://isotropic3d.github.io/. De code en modellen zijn beschikbaar op https://github.com/pkunliu/Isotropic3D.
Hoewel tekst-naar-3D en beeld-naar-3D generatietaken aanzienlijke aandacht hebben gekregen, is een belangrijk maar onderbelicht gebied daartussen de beheersbare tekst-naar-3D generatie, waarop we ons in dit werk voornamelijk richten. Om deze taak aan te pakken, 1) introduceren we Multi-view ControlNet (MVControl), een nieuwe neurale netwerkarchitectuur die is ontworpen om bestaande vooraf getrainde multi-view diffusiemodellen te verbeteren door aanvullende invoercondities te integreren, zoals edge-, depth-, normal- en scribble-maps. Onze innovatie ligt in de introductie van een conditioneringsmodule die het basisdiffusiemodel bestuurt met behulp van zowel lokale als globale embeddings, die worden berekend uit de invoerconditiebeelden en cameraposities. Eenmaal getraind, kan MVControl 3D diffusiebegeleiding bieden voor optimalisatie-gebaseerde 3D-generatie. En, 2) stellen we een efficiënte meerfasige 3D-generatiepijplijn voor die de voordelen benut van recente grote reconstructiemodellen en het score-distillatiealgoritme. Gebaseerd op onze MVControl-architectuur, gebruiken we een unieke hybride diffusiebegeleidingsmethode om het optimalisatieproces te sturen. In het streven naar efficiëntie, nemen we 3D Gaussians als onze representatie in plaats van de veelgebruikte impliciete representaties. We zijn ook pioniers in het gebruik van SuGaR, een hybride representatie die Gaussians bindt aan mesh-driehoekvlakken. Deze aanpak verlicht het probleem van slechte geometrie in 3D Gaussians en maakt het directe sculpten van fijnmazige geometrie op de mesh mogelijk. Uitgebreide experimenten tonen aan dat onze methode robuuste generalisatie bereikt en de beheersbare generatie van hoogwaardige 3D-inhoud mogelijk maakt.
Real-time optische stroming met hoge nauwkeurigheid is een cruciaal onderdeel in verschillende toepassingen, waaronder lokalisatie en mapping in robotica, objecttracking en activiteitsherkenning in computervisie. Hoewel recente op leren gebaseerde methoden voor optische stroming een hoge nauwkeurigheid hebben bereikt, gaan deze vaak gepaard met hoge rekenkosten. In dit artikel presenteren we een zeer efficiënte architectuur voor optische stroming, genaamd NeuFlow, die zowel de hoge nauwkeurigheid als de rekenkosten aanpakt. De architectuur volgt een globaal-naar-lokaal schema. Gegeven de kenmerken van de invoerbeelden die op verschillende ruimtelijke resoluties zijn geëxtraheerd, wordt globale matching gebruikt om een initiële optische stroming te schatten op de 1/16 resolutie, waarbij grote verplaatsingen worden vastgelegd, die vervolgens wordt verfijnd op de 1/8 resolutie met lichtgewicht CNN-lagen voor betere nauwkeurigheid. We evalueren onze aanpak op Jetson Orin Nano en RTX 2080 om efficiëntieverbeteringen op verschillende rekenplatforms aan te tonen. We behalen een opmerkelijke 10x-80x versnelling in vergelijking met verschillende state-of-the-art methoden, terwijl een vergelijkbare nauwkeurigheid wordt behouden. Onze aanpak bereikt ongeveer 30 FPS op edge computing-platforms, wat een belangrijke doorbraak vertegenwoordigt in het implementeren van complexe computervisietaken zoals SLAM op kleine robots zoals drones. De volledige trainings- en evaluatiecode is beschikbaar op https://github.com/neufieldrobotics/NeuFlow.