Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Optimalisatie is alomtegenwoordig. Hoewel algoritmen gebaseerd op afgeleiden krachtige tools zijn geweest voor diverse problemen, vormt de afwezigheid van een gradiënt een uitdaging voor veel real-world toepassingen. In dit werk stellen we Optimalisatie door PROmpting (OPRO) voor, een eenvoudige en effectieve benadering om grote taalmodellen (LLMs) in te zetten als optimalisatoren, waarbij de optimalisatietaak wordt beschreven in natuurlijke taal. In elke optimalisatiestap genereert het LLM nieuwe oplossingen vanuit de prompt die eerder gegenereerde oplossingen met hun waarden bevat, waarna de nieuwe oplossingen worden geëvalueerd en toegevoegd aan de prompt voor de volgende optimalisatiestap. We demonstreren OPRO eerst op lineaire regressie en het handelsreizigersprobleem, en gaan vervolgens over naar promptoptimalisatie, waarbij het doel is om instructies te vinden die de taaknauwkeurigheid maximaliseren. Met een verscheidenheid aan LLMs laten we zien dat de beste prompts geoptimaliseerd door OPRO menselijk ontworpen prompts overtreffen met tot 8% op GSM8K, en met tot 50% op Big-Bench Hard taken.
Grote taalmmodellen (LLM's) hebben opmerkelijke successen geboekt in NLP en multimodale taken. Ondanks deze successen wordt hun ontwikkeling geconfronteerd met twee belangrijke uitdagingen: (i) hoge rekenkosten; en (ii) moeilijkheden bij het uitvoeren van eerlijke en objectieve evaluaties. LLM's zijn extreem kostbaar, waardoor het trainen ervan alleen haalbaar is voor een beperkt aantal grote spelers, wat zowel onderzoeks- als toepassingsmogelijkheden beperkt. Dit onderstreept het belang van kosteneffectieve training van LLM's. In dit artikel maken we gebruik van een groeistrategie om de trainingskosten van LLM's aanzienlijk te verlagen. We demonstreren dat een LLM met 101B parameters en 0,31TB tokens getraind kan worden met een budget van 100K. Daarnaast hanteren we een systematisch evaluatieparadigma voor de IQ-evaluatie van LLM's, als aanvulling op bestaande evaluaties die zich meer richten op kennisgerichte vaardigheden. We introduceren onze benchmark, inclusief evaluaties van belangrijke aspecten van intelligentie, zoals symbolische mapping, regelbegrip, patroonherkenning en anti-interferentie. Dergelijke evaluaties minimaliseren de mogelijke impact van memorisatie. Experimentele resultaten tonen aan dat ons model FLM-101B, getraind met een budget van 100K, vergelijkbare prestaties levert als krachtige en bekende modellen, zoals GPT-3 en GLM-130B, met name in de IQ-benchmarkevaluaties met contexten die niet in de trainingsdata voorkomen. De checkpoint van FLM-101B zal openbaar worden gemaakt op https://huggingface.co/CofeAI/FLM-101B.
Ondanks hun indrukwekkende capaciteiten zijn grote taalmodelen (LLM's) gevoelig voor hallucinaties, oftewel het genereren van inhoud die afwijkt van feiten die tijdens de voorafgaande training zijn gezien. Wij stellen een eenvoudige decodeerstrategie voor om hallucinaties te verminderen bij vooraf getrainde LLM's, zonder dat hiervoor conditionering op opgehaalde externe kennis of aanvullende fine-tuning nodig is. Onze benadering verkrijgt de verdeling van het volgende token door de verschillen in logits te contrasteren die worden verkregen door de latere lagen versus de eerdere lagen te projecteren naar de vocabulaire-ruimte, waarbij wordt gebruikgemaakt van het feit dat feitelijke kennis in een LLM over het algemeen gelokaliseerd is in specifieke transformer-lagen. Wij ontdekken dat deze Decoding by Contrasting Layers (DoLa)-benadering beter in staat is om feitelijke kennis naar voren te brengen en de generatie van onjuiste feiten te verminderen. DoLa verbetert consistent de waarheidsgetrouwheid bij meerkeuzetaken en open-eind-generatietaken, bijvoorbeeld door de prestaties van LLaMA-familie-modellen op TruthfulQA met 12-17% absolute punten te verbeteren, wat het potentieel aantoont om LLM's betrouwbaar waarheidsgetrouwe feiten te laten genereren.
Flow-based propagatie en spatiotemporele Transformers zijn twee gangbare mechanismen in video-inpainting (VI). Ondanks de effectiviteit van deze componenten, hebben ze nog steeds enkele beperkingen die hun prestaties beïnvloeden. Eerdere propagatie-gebaseerde benaderingen werden afzonderlijk uitgevoerd, hetzij in het beeld- of het feature-domein. Globale beeldpropagatie, los van het leerproces, kan leiden tot ruimtelijke uitlijning door onnauwkeurige optische flow. Bovendien beperken geheugen- of rekenbeperkingen het temporele bereik van feature-propagatie en video-Transformers, wat het verkennen van correspondentie-informatie uit verre frames verhindert. Om deze problemen aan te pakken, stellen we een verbeterd framework voor, genaamd ProPainter, dat bestaat uit verbeterde ProPagation en een efficiënte Transformer. Specifiek introduceren we dual-domain propagatie, dat de voordelen van beeld- en feature-warping combineert en op betrouwbare wijze globale correspondenties benut. We stellen ook een masker-geleide sparse video Transformer voor, die hoge efficiëntie bereikt door onnodige en redundante tokens te verwijderen. Met deze componenten overtreft ProPainter eerdere methoden met een aanzienlijke marge van 1,46 dB in PSNR, terwijl het aantrekkelijke efficiëntie behoudt.
Trainingsdata voor videosegmentatie zijn kostbaar om te annoteren. Dit belemmert de uitbreiding van end-to-end algoritmen naar nieuwe videosegmentatietaken, vooral in omgevingen met een grote woordenschat. Om 'alles te kunnen volgen' zonder te trainen op videodata voor elke individuele taak, ontwikkelen we een ontkoppelde aanpak voor videosegmentatie (DEVA), bestaande uit taakspecifieke segmentatie op beeldniveau en klasse/taak-agnostische bidirectionele temporele propagatie. Door dit ontwerp hebben we alleen een model op beeldniveau nodig voor de doeltaak (wat goedkoper is om te trainen) en een universeel temporeel propagatiemodel dat eenmaal wordt getraind en generaliseert over taken. Om deze twee modules effectief te combineren, gebruiken we bidirectionele propagatie voor (semi-)online fusie van segmentatiehypothesen uit verschillende frames om een coherente segmentatie te genereren. We laten zien dat deze ontkoppelde formulering gunstig afsteekt tegen end-to-end benaderingen in verschillende data-schaarse taken, waaronder videopanoptische segmentatie met een grote woordenschat, open-wereld videosegmentatie, verwijzende videosegmentatie en onbewaakte video-objectsegmentatie. Code is beschikbaar op: https://hkchengrex.github.io/Tracking-Anything-with-DEVA
We presenteren ImageBind-LLM, een multi-modaliteit instructie-afstemmingsmethode voor grote taalmodellen (LLMs) via ImageBind. Bestaande werken richten zich voornamelijk op taal- en beeldinstructie-afstemming, terwijl ons ImageBind-LLM kan reageren op multi-modaliteit condities, waaronder audio, 3D-puntenwolken, video en hun embedding-ruimte rekenkunde, door alleen beeld-tekst-uitlijningstraining. Tijdens de training gebruiken we een leerbaar bindingsnetwerk om de embedding-ruimte tussen LLaMA en ImageBind's beeldencoder uit te lijnen. Vervolgens worden de beeldkenmerken die door het bindingsnetwerk zijn getransformeerd, toegevoegd aan woordtokens van alle lagen in LLaMA, waardoor visuele instructies progressief worden geïnjecteerd via een aandacht-vrij en nul-geïnitialiseerd gatingmechanisme. Geholpen door de gezamenlijke embedding van ImageBind, stelt de eenvoudige beeld-teksttraining ons model in staat superieure multi-modaliteit instructie-volgcapaciteiten te vertonen. Tijdens de inferentie worden de multi-modaliteit invoeren gevoed in de corresponderende ImageBind-encoders en verwerkt door een voorgesteld visueel cache-model voor verdere cross-modale embedding-verbetering. Het trainingsvrije cache-model haalt op uit drie miljoen beeldkenmerken die door ImageBind zijn geëxtraheerd, wat effectief de trainings-inferentie modaliteitsdiscrepantie vermindert. Opmerkelijk is dat met onze aanpak ImageBind-LLM kan reageren op instructies van diverse modaliteiten en aanzienlijke taalgeneratiekwaliteit demonstreert. Code is vrijgegeven op https://github.com/OpenGVLab/LLaMA-Adapter.
We presenteren InstructDiffusion, een verenigend en generiek raamwerk voor het afstemmen van computervisietaken op menselijke instructies. In tegenstelling tot bestaande benaderingen die voorkennis integreren en de uitvoerruimte (bijvoorbeeld categorieën en coördinaten) voor elke visietaak vooraf definiëren, vertalen we diverse visietaken naar een mens-intuïtief beeldbewerkingsproces waarvan de uitvoerruimte een flexibele en interactieve pixelruimte is. Concreet is het model gebaseerd op het diffusieproces en wordt het getraind om pixels te voorspellen op basis van gebruikersinstructies, zoals het omcirkelen van de linker schouder van de man in rood of het aanbrengen van een blauw masker op de linker auto. InstructDiffusion kan een verscheidenheid aan visietaken aan, waaronder begripstaken (zoals segmentatie en keypointdetectie) en generatieve taken (zoals bewerken en verbeteren). Het vertoont zelfs de mogelijkheid om onbekende taken aan te kunnen en overtreft eerdere methoden op nieuwe datasets. Dit vertegenwoordigt een belangrijke stap in de richting van een generalistische modelleerinterface voor visietaken, wat een vooruitgang betekent in de richting van kunstmatige algemene intelligentie op het gebied van computervisie.
In dit artikel presenteren we een nieuw diffusiemodel genaamd SyncDreamer dat multiview-consistente afbeeldingen genereert vanuit een enkelvoudige afbeelding. Met behulp van vooraf getrainde grootschalige 2D-diffusiemodellen toont recent werk, Zero123, de mogelijkheid om plausibele nieuwe aanzichten te genereren vanuit een enkelvoudige afbeelding van een object. Het handhaven van consistentie in geometrie en kleuren voor de gegenereerde afbeeldingen blijft echter een uitdaging. Om dit probleem aan te pakken, stellen we een gesynchroniseerd multiview-diffusiemodel voor dat de gezamenlijke kansverdeling van multiview-afbeeldingen modelleert, waardoor het mogelijk wordt om multiview-consistente afbeeldingen te genereren in een enkel omgekeerd proces. SyncDreamer synchroniseert de tussenliggende toestanden van alle gegenereerde afbeeldingen bij elke stap van het omgekeerde proces via een 3D-bewust aandachtmechanisme voor kenmerken dat de corresponderende kenmerken over verschillende aanzichten met elkaar in verband brengt. Experimenten tonen aan dat SyncDreamer afbeeldingen genereert met een hoge consistentie over verschillende aanzichten, waardoor het goed geschikt is voor diverse 3D-generatietaken zoals novel-view-synthese, tekst-naar-3D en afbeelding-naar-3D.
Recente vooruitgang in diffusiemodellen zoals ControlNet heeft geometrisch bestuurbare, hoogwaardige tekst-naar-beeldgeneratie mogelijk gemaakt. Geen van deze modellen behandelt echter de vraag hoe dergelijke bestuurbaarheid aan tekst-naar-3D-generatie kan worden toegevoegd. Als antwoord hierop stellen wij Text2Control3D voor, een bestuurbare tekst-naar-3D-avatargeneratiemethode waarbij de gezichtsuitdrukking bestuurbaar is op basis van een monovideo die informeel met een handcamera is vastgelegd. Onze hoofdstrategie bestaat uit het construeren van de 3D-avatar in Neural Radiance Fields (NeRF) die wordt geoptimaliseerd met een set van bestuurde gezichtspuntbewuste afbeeldingen die we genereren vanuit ControlNet, waarvan de conditie-invoer de dieptekaart is die uit de invoervideo is geëxtraheerd. Bij het genereren van de gezichtspuntbewuste afbeeldingen maken we gebruik van kruisverwijzingsaandacht om goed bestuurde, referentiële gezichtsuitdrukkingen en uiterlijk in te brengen via kruisaandacht. We passen ook een laagdoorlaatfilter toe op de Gaussiaanse latent van het diffusiemodel om het gezichtspuntagnostische textuurprobleem dat we in onze empirische analyse hebben waargenomen te verhelpen, waarbij de gezichtspuntbewuste afbeeldingen identieke texturen op identieke pixelposities bevatten die in 3D onbegrijpelijk zijn. Tot slot, om NeRF te trainen met afbeeldingen die gezichtspuntbewust zijn maar niet strikt consistent in geometrie, beschouwt onze aanpak geometrische variatie per afbeelding als een weergave van vervorming vanuit een gedeelde 3D-canonieke ruimte. Hierdoor construeren we de 3D-avatar in een canonieke ruimte van vervormbare NeRF door een set van vervormingen per afbeelding te leren via een vervormingsveldtable. We demonstreren de empirische resultaten en bespreken de effectiviteit van onze methode.
Grote Taalmodellen (LLMs) zijn alomtegenwoordig geworden in verschillende domeinen en hebben de manier waarop we met informatie omgaan en onderzoek uitvoeren getransformeerd. De meeste hoogpresterende LLMs blijven echter achter propriëtaire muren opgesloten, wat de wetenschappelijke vooruitgang belemmert. Aan de andere kant zijn de meeste open-source LLMs beperkt in hun vermogen om langere sequentielengtes te ondersteunen, wat een cruciale vereiste is voor veel taken die inferentie over een invoercontext vereisen. Om dit aan te pakken, hebben we XGen getraind, een reeks van 7B-parametermodellen met sequentielengtes tot 8K en getraind op maximaal 1,5T tokens. We hebben ook de XGen-modellen gefinetuned op instructiedata uit het publieke domein, waardoor hun instructie-afgestemde tegenhangers (XGen-Inst) zijn ontstaan. We maken onze modellen open-source voor zowel wetenschappelijke vooruitgang als commerciële toepassingen. Onze evaluatie op standaard benchmarks laat zien dat de XGen-modellen vergelijkbare of betere resultaten behalen in vergelijking met state-of-the-art open-source LLMs. Onze gerichte evaluatie op taken voor lange sequentiemodellering toont de voordelen van onze 8K-sequentiemodellen ten opzichte van 2K-sequentie open-source LLMs.
We presenteren een diepgaande analyse van een real-world robotisch leersysteem dat in eerder werk het vermogen heeft getoond om honderden tafeltennisrally's met een mens uit te voeren en de bal nauwkeurig naar gewenste doelen terug te kunnen spelen. Dit systeem combineert een sterk geoptimaliseerd waarnemingssubsysteem, een hoogwaardige robotcontroller met lage latentie, een simulatieparadigma dat schade in de echte wereld kan voorkomen en ook beleidsregels kan trainen voor zero-shot transfer, en geautomatiseerde resets van de echte wereld omgeving die autonome training en evaluatie op fysieke robots mogelijk maken. We vullen een volledige systeembeschrijving aan, inclusief tal van ontwerpbeslissingen die doorgaans niet breed worden verspreid, met een reeks studies die het belang verduidelijken van het beperken van verschillende bronnen van latentie, het rekening houden met verschuivingen in trainings- en implementatiedistributies, de robuustheid van het waarnemingssysteem, de gevoeligheid voor beleidshyperparameters en de keuze van de actieruimte. Een video die de componenten van het systeem en details van de experimentele resultaten demonstreert, is te vinden op https://youtu.be/uFcnWjB42I0.
Geïnspireerd door de opmerkelijke successen van Latent Diffusion Models (LDMs) voor beeldgeneratie, bestuderen we LDM voor tekst-naar-video generatie, wat een uitdagende taak is vanwege de rekenkundige en geheugenbeperkingen tijdens zowel modeltraining als inferentie. Een enkele LDM is meestal alleen in staat om een zeer beperkt aantal videoframes te genereren. Sommige bestaande werken richten zich op aparte voorspellingsmodellen voor het genereren van meer videoframes, maar deze hebben te kampen met extra trainingskosten en frame-level jittering. In dit artikel stellen we een framework voor genaamd "Reuse and Diffuse", ook wel VidRD genoemd, om meer frames te produceren na de frames die al door een LDM zijn gegenereerd. Gebaseerd op een initieel videofragment met een klein aantal frames, worden aanvullende frames iteratief gegenereerd door de oorspronkelijke latente kenmerken te hergebruiken en het vorige diffusieproces te volgen. Daarnaast injecteren we tijdelijke lagen in de decoder van de auto-encoder die wordt gebruikt voor de vertaling tussen pixelruimte en latente ruimte, en fine-tunen we deze lagen voor een hogere temporele consistentie. We stellen ook een reeks strategieën voor voor het samenstellen van video-tekstgegevens die diverse inhoud omvatten uit meerdere bestaande datasets, waaronder videodatasets voor actieherkenning en beeld-tekst datasets. Uitgebreide experimenten tonen aan dat onze methode goede resultaten behaalt in zowel kwantitatieve als kwalitatieve evaluaties. Onze projectpagina is beschikbaar op https://anonymous0x233.github.io/ReuseAndDiffuse/{hier}.