Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk stellen we Retentive Network (RetNet) voor als een fundamentele architectuur voor grote taalmodelen, waarbij tegelijkertijd trainingparallelisme, goedkope inferentie en goede prestaties worden bereikt. We leiden theoretisch de verbinding tussen recurrentie en aandacht af. Vervolgens introduceren we het retentiemechanisme voor sequentiemodellering, dat drie rekenparadigma's ondersteunt, namelijk parallel, recurrent en chunkwise recurrent. Specifiek maakt de parallelle representatie trainingparallelisme mogelijk. De recurrentie representatie maakt goedkope O(1)-inferentie mogelijk, wat de decodeerdoorvoer, latentie en GPU-geheugen verbetert zonder in te leveren op prestaties. De chunkwise recurrent representatie vergemakkelijkt efficiënte modellering van lange sequenties met lineaire complexiteit, waarbij elke chunk parallel wordt gecodeerd terwijl de chunks recurrent worden samengevat. Experimentele resultaten voor taalmodeling laten zien dat RetNet gunstige schaalresultaten, parallelle training, goedkope implementatie en efficiënte inferentie bereikt. Deze intrigerende eigenschappen maken RetNet tot een sterke opvolger van Transformer voor grote taalmodelen. De code zal beschikbaar zijn op https://aka.ms/retnet.
Tabellen komen veel voor in real-world databases en vereisen aanzienlijke tijd en moeite voor mensen om te analyseren en te manipuleren. De vooruitgang in grote taalmodellen (LLMs) heeft het mogelijk gemaakt om met tabellen te interacteren via natuurlijke taalinput, waardoor deze mogelijkheid dichterbij komt. In dit artikel presenteren we TableGPT, een verfijnd raamwerk dat LLMs in staat stelt om tabellen te begrijpen en te bewerken met behulp van externe functionele commando's. Het introduceert de mogelijkheid om naadloos met tabellen te interacteren, waardoor een breed scala aan functionaliteiten mogelijk wordt, zoals vraagbeantwoording, datamanipulatie (bijv. invoegen, verwijderen, opvragen en wijzigen), datavisualisatie, het genereren van analyserapporten en geautomatiseerde voorspellingen. TableGPT heeft als doel om gebruikers gemak en toegankelijkheid te bieden door hen in staat te stellen moeiteloos gebruik te maken van tabelgegevens. De kern van TableGPT bestaat uit het nieuwe concept van globale tabelrepresentaties, dat LLMs in staat stelt om een uitgebreid begrip te krijgen van de gehele tabel, verdergaand dan meta-informatie. Door LLMs gezamenlijk te trainen op zowel tabel- als tekstmodaliteiten, bereikt TableGPT een diepgaand begrip van tabelgegevens en de mogelijkheid om complexe bewerkingen op tabellen uit te voeren via ketens van commando-instructies. Belangrijk is dat TableGPT het voordeel biedt van een zelfstandig systeem in plaats van te vertrouwen op externe API-interfaces. Bovendien ondersteunt het een efficiënte gegevensverwerkingsstroom, het afwijzen van queries (wanneer passend) en private implementatie, waardoor snellere domeinspecifieke dataverfijning mogelijk wordt en de gegevensprivacy wordt gewaarborgd, wat de aanpassingsvermogen van het raamwerk aan specifieke use cases vergroot.
LLM's hebben opmerkelijke vaardigheden getoond in het omgaan met mensen via taal, vooral met het gebruik van instructievolgende gegevens. Recente vooruitgang in LLM's, zoals MiniGPT-4, LLaVA en X-LLM, vergroot hun mogelijkheden verder door het integreren van multimodale invoer, waaronder afbeeldingen, video en spraak. Ondanks hun effectiviteit in het genereren van nauwkeurige en gedetailleerde taalbegrip van het gegeven modale signaal, geven deze LLM's de mogelijkheid op om specifieke delen van de invoer te verankeren, waardoor slechts een grofkorrelige mapping wordt geconstrueerd. Echter, expliciete en informatieve correspondentie tussen tekst en andere modaliteiten zal niet alleen de gebruikerservaring verbeteren, maar ook helpen bij het uitbreiden van de toepassingsscenario's van multimodale LLM's. Daarom stellen we BuboGPT voor, een multimodale LLM met visuele verankering die kruismodale interactie tussen visie, audio en taal kan uitvoeren, en een fijnkorrelig begrip biedt van visuele objecten en andere gegeven modaliteiten. Als gevolg hiervan is BuboGPT in staat om de specifieke locatie van een object in de afbeelding aan te wijzen, wanneer het een reactie of beschrijving voor dat object genereert. Onze bijdragen zijn tweeledig: 1) Een kant-en-klare visuele verankeringsmodule gebaseerd op SAM die entiteiten in een zin extraheert en bijbehorende maskers in de afbeelding vindt. 2) Een tweefasen trainingsschema en instructiedataset om gezamenlijk tekst-afbeelding-audio begrip te verlenen. Onze experimenten tonen aan dat BuboGPT indrukwekkende multimodale begrip en visuele verankeringsvaardigheden bereikt tijdens de interactie met mensen. Het presteert consistent goed wanneer het wordt voorzien van willekeurige modaliteitscombinaties (zowel uitgelijnd als niet-uitgelijnd). Onze code, model en dataset zijn beschikbaar op https://bubo-gpt.github.io.
Grote taalmodellen (LLMs) verwerven de mogelijkheid om instructies op te volgen door middel van instructie-finetuning (IFT) op begeleide instructie/antwoordgegevens. Echter, veelgebruikte IFT-datasets (bijv. Alpaca's 52k gegevens) bevatten verrassend veel gevallen van lage kwaliteit met incorrecte of irrelevante antwoorden, wat misleidend en schadelijk is voor IFT. In dit artikel stellen we een eenvoudige en effectieve dataselectiestrategie voor die automatisch gegevens van lage kwaliteit identificeert en verwijdert met behulp van een sterk LLM (bijv. ChatGPT). Hiertoe introduceren we AlpaGasus, dat wordt gefinetuned op slechts 9k hoogwaardige gegevens die zijn gefilterd uit de 52k Alpaca-gegevens. AlpaGasus presteert aanzienlijk beter dan de originele Alpaca, zoals beoordeeld door GPT-4 op meerdere test sets, en zijn 13B-variant komt overeen met >90% van de prestaties van zijn lerende LLM (d.w.z. Text-Davinci-003) op testtaken. Het biedt ook 5,7x snellere training, waardoor de trainingstijd voor een 7B-variant wordt teruggebracht van 80 minuten (voor Alpaca) naar 14 minuten. We passen IFT toe voor hetzelfde aantal epochs als Alpaca(7B) maar op minder gegevens, met behulp van 4x NVIDIA A100 (80GB) GPU's en volgen de originele Alpaca-instellingen en hyperparameters. Over het algemeen demonstreert AlpaGasus een nieuw data-centrisch IFT-paradigma dat algemeen kan worden toegepast op instructie-tuninggegevens, wat leidt tot snellere training en betere instructie-volgende modellen. Onze projectpagina is beschikbaar op: https://lichang-chen.github.io/AlpaGasus/.
Methoden voor het voorspellen van beweging in video's schatten ofwel gezamenlijk de momentane beweging van alle punten in een bepaald videoframe met behulp van optische stroming, ofwel volgen ze onafhankelijk de beweging van individuele punten gedurende de hele video. Dit laatste geldt zelfs voor krachtige deep-learning-methoden die punten kunnen volgen door occlusies heen. Het individueel volgen van punten negeert de sterke correlatie die kan bestaan tussen de punten, bijvoorbeeld omdat ze tot hetzelfde fysieke object behoren, wat de prestaties potentieel kan schaden. In dit artikel stellen we daarom CoTracker voor, een architectuur die meerdere punten gezamenlijk volgt gedurende een hele video. Deze architectuur combineert verschillende ideeën uit de literatuur over optische stroming en tracking in een nieuw, flexibel en krachtig ontwerp. Het is gebaseerd op een transformernetwerk dat de correlatie van verschillende punten in de tijd modelleert via gespecialiseerde aandachtslagen. De transformer werkt iteratief een schatting van verschillende trajecten bij. Het kan op een sliding-window-manier worden toegepast op zeer lange video's, waarvoor we een uitgevouwen trainingslus hebben ontworpen. Het kan van één tot meerdere punten gezamenlijk volgen en ondersteunt het toevoegen van nieuwe punten om op elk moment te volgen. Het resultaat is een flexibel en krachtig tracking-algoritme dat in bijna alle benchmarks state-of-the-art-methoden overtreft.
Terwijl veel unsupervised learning-modellen zich richten op één familie van taken, ofwel generatief ofwel discriminatief, onderzoeken wij de mogelijkheid van een geïntegreerde representatieleerder: een model dat een enkele voorafgaande trainingsfase gebruikt om beide families van taken gelijktijdig aan te pakken. Wij identificeren diffusiemodellen als een veelbelovende kandidaat. Diffusiemodellen zijn naar voren gekomen als een state-of-the-art methode voor beeldgeneratie, ruisreductie, inpainting, superresolutie, manipulatie, enzovoort. Dergelijke modellen omvatten het trainen van een U-Net om iteratief ruis te voorspellen en te verwijderen, en het resulterende model kan hoogwaardige, diverse, nieuwe afbeeldingen synthetiseren. De U-Net-architectuur, als een op convolutie gebaseerde architectuur, genereert een diverse set van kenmerkrepresentaties in de vorm van tussenliggende kenmerkkaarten. Wij presenteren onze bevindingen dat deze embeddings nuttig zijn buiten de ruisvoorspellingstaak, omdat ze discriminatieve informatie bevatten en ook kunnen worden benut voor classificatie. Wij onderzoeken optimale methoden voor het extraheren en gebruiken van deze embeddings voor classificatietaken, waarbij we veelbelovende resultaten demonstreren op de ImageNet-classificatietaak. Wij constateren dat met zorgvuldige kenmerkselectie en pooling, diffusiemodellen vergelijkbare generatief-discriminatieve methoden zoals BigBiGAN overtreffen voor classificatietaken. Wij onderzoeken diffusiemodellen in het transfer learning-regime, waarbij we hun prestaties onderzoeken op verschillende fine-grained visuele classificatiedatasets. Wij vergelijken deze embeddings met die gegenereerd door concurrerende architecturen en voorafgaande trainingen voor classificatietaken.
We presenteren SEED, een uitgebreide image tokenizer die Large Language Models (LLMs) in staat stelt om tegelijkertijd te ZIEN en TE TEKENEN. Onderzoek naar image tokenizers is eerder vastgelopen, omdat frameworks die gebruikmaken van gekwantiseerde visuele tokens aan populariteit hebben ingeboet vanwege suboptimale prestaties en convergentie in multimodale begripsvorming (vergeleken met BLIP-2, etc.) of generatie (vergeleken met Stable Diffusion, etc.). Ondanks deze beperkingen blijven we vertrouwen hebben in de natuurlijke capaciteit om visuele en tekstuele representaties te verenigen, wat schaalbare multimodale training met het oorspronkelijke recept van LLM's vergemakkelijkt. In deze studie identificeren we twee cruciale principes voor de architectuur en training van SEED die de daaropvolgende afstemming met LLM's effectief vergemakkelijken. (1) Image tokens moeten onafhankelijk zijn van 2D fysieke patchposities en in plaats daarvan worden geproduceerd met een 1D causale afhankelijkheid, waarbij intrinsieke onderlinge afhankelijkheid wordt getoond die aansluit bij het van links naar rechts autoregressieve voorspellingsmechanisme in LLM's. (2) Image tokens moeten hoogwaardige semantiek vastleggen die consistent is met de mate van semantische abstractie in woorden, en moeten worden geoptimaliseerd voor zowel onderscheidend vermogen als reconstructie tijdens de trainingsfase van de tokenizer. Als gevolg hiervan kan de kant-en-klare LLM zowel beeld-naar-tekst als tekst-naar-beeld generatie uitvoeren door onze SEED te integreren via efficiënte LoRA-tuning. Uitgebreide multimodale pretraining en instructietuning, die mogelijk verbeterde resultaten kunnen opleveren, worden voorbehouden voor toekomstig onderzoek. Deze versie van SEED is in 5,7 dagen getraind met slechts 64 V100 GPU's en 5 miljoen publiek beschikbare beeld-tekstparen. Onze voorlopige studie benadrukt het grote potentieel van discrete visuele tokens in veelzijdige multimodale LLM's en het belang van geschikte image tokenizers in breder onderzoek.
We presenteren Interactive Neural Video Editing (INVE), een real-time video-editingoplossing die het video-editingproces kan ondersteunen door spaarzame frame-edits consistent door te voeren naar de gehele videoclip. Onze methode is geïnspireerd door recent werk over Layered Neural Atlas (LNA). LNA heeft echter twee grote nadelen: (1) de methode is te traag voor interactief editing, en (2) het biedt onvoldoende ondersteuning voor sommige editing-use cases, waaronder direct frame-editing en rigide textuurvolging. Om deze uitdagingen aan te pakken, maken we gebruik van en passen we zeer efficiënte netwerkarchitecturen toe, aangedreven door hash-grids-codering, om de verwerkingssnelheid aanzienlijk te verbeteren. Daarnaast leren we bidirectionele functies tussen beeld-atlas en introduceren we vectorized editing, wat gezamenlijk een veel grotere verscheidenheid aan edits mogelijk maakt, zowel in de atlas als direct in de frames. Vergeleken met LNA reduceert onze INVE de leer- en inferentietijd met een factor 5 en ondersteunt het diverse video-editingbewerkingen die LNA niet kan. We tonen de superioriteit van INVE ten opzichte van LNA in interactief video-editing aan door middel van een uitgebreide kwantitatieve en kwalitatieve analyse, waarbij we de talrijke voordelen en verbeterde prestaties benadrukken. Voor videoresultaten, zie https://gabriel-huang.github.io/inve/.
We onderzoeken of end-to-end leren van visueel redeneren kan worden bereikt met algemene neurale netwerken, met behulp van visuele voorafgaande training. Een positief resultaat zou de gangbare opvatting weerleggen dat expliciete visuele abstractie (bijvoorbeeld objectdetectie) essentieel is voor compositionele generalisatie bij visueel redeneren, en zou de haalbaarheid bevestigen van een "generalist" neuraal netwerk om visuele herkenning en redeneertaken op te lossen. We stellen een eenvoudig en algemeen zelfgesuperviseerd raamwerk voor dat elk videoframe "comprimeert" tot een kleine set tokens met een transformernetwerk en de resterende frames reconstrueert op basis van de gecomprimeerde temporele context. Om het reconstructieverlies te minimaliseren, moet het netwerk een compacte representatie voor elke afbeelding leren, evenals temporele dynamiek en objectpermanentie vastleggen uit de temporele context. We voeren evaluatie uit op twee benchmarks voor visueel redeneren, CATER en ACRE. We observeren dat voorafgaande training essentieel is om compositionele generalisatie te bereiken voor end-to-end visueel redeneren. Ons voorgestelde raamwerk overtreft traditionele gesuperviseerde voorafgaande training, inclusief beeldclassificatie en expliciete objectdetectie, met grote marges.
Simulatie vormt de ruggengraat van moderne ontwikkeling van zelfrijdende voertuigen. Simulatoren helpen bij het ontwikkelen, testen en verbeteren van rijsystemen zonder mensen, voertuigen of hun omgeving in gevaar te brengen. Simulatoren staan echter voor een grote uitdaging: ze zijn afhankelijk van realistische, schaalbare en toch interessante inhoud. Hoewel recente vooruitgang in rendering en scène-reconstructie grote stappen zet in het creëren van statische scène-elementen, blijft het modelleren van hun indeling, dynamiek en gedrag een uitdaging. In dit werk richten we ons op taal als bron van supervisie voor het genereren van dynamische verkeersscènes. Ons model, LCTGen, combineert een groot taalmodel met een transformer-gebaseerde decoderarchitectuur die waarschijnlijke kaartlocaties selecteert uit een dataset van kaarten, en produceert een initiële verkeersverdeling, evenals de dynamiek van elk voertuig. LCTGen overtreft eerder werk op het gebied van zowel onvoorwaardelijke als voorwaardelijke verkeersscènegeneratie in termen van realisme en nauwkeurigheid. Code en video zullen beschikbaar zijn op https://ariostgx.github.io/lctgen.
Dit artikel introduceert een nieuwe vision Transformer, de Scale-Aware Modulation Transformer (SMT), die verschillende downstream taken efficiënt kan verwerken door het convolutienetwerk en de vision Transformer te combineren. De voorgestelde Scale-Aware Modulation (SAM) in de SMT omvat twee primaire nieuwe ontwerpen. Ten eerste introduceren we de Multi-Head Mixed Convolution (MHMC) module, die multi-schaal kenmerken kan vastleggen en het receptieve veld kan uitbreiden. Ten tweede stellen we de Scale-Aware Aggregation (SAA) module voor, die lichtgewicht maar effectief is en informatie-fusie over verschillende heads mogelijk maakt. Door gebruik te maken van deze twee modules wordt convolutie-modulatie verder verbeterd. Bovendien, in tegenstelling tot eerdere werken die modulaties in alle stadia gebruikten om een aandacht-vrij netwerk te bouwen, stellen we een Evolutionair Hybride Netwerk (EHN) voor, dat effectief de overgang kan simuleren van het vastleggen van lokale naar globale afhankelijkheden naarmate het netwerk dieper wordt, wat resulteert in superieure prestaties. Uitgebreide experimenten tonen aan dat SMT aanzienlijk beter presteert dan bestaande state-of-the-art modellen over een breed scala aan visuele taken. Specifiek kan SMT met 11.5M / 2.4GFLOPs en 32M / 7.7GFLOPs respectievelijk 82.2% en 84.3% top-1 nauwkeurigheid bereiken op ImageNet-1K. Na vooraf getraind te zijn op ImageNet-22K in 224^2 resolutie, behaalt het 87.1% en 88.1% top-1 nauwkeurigheid wanneer het wordt gefinetuned met resolutie 224^2 en 384^2, respectievelijk. Voor objectdetectie met Mask R-CNN presteert de SMT base, getraind met 1x en 3x schema, respectievelijk 4.2 en 1.3 mAP beter dan de Swin Transformer tegenhanger op COCO. Voor semantische segmentatie met UPerNet overtreft de SMT base test op enkele en multi-schaal Swin met respectievelijk 2.0 en 1.1 mIoU op de ADE20K.