Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Florence-2, een nieuw visueel basis model met een uniforme, prompt-gebaseerde representatie voor een verscheidenheid aan computervisie- en visie-taal taken. Hoewel bestaande grote visuele modellen uitblinken in transfer learning, hebben ze moeite om een diversiteit aan taken uit te voeren met eenvoudige instructies, een vaardigheid die het omgaan met de complexiteit van verschillende ruimtelijke hiërarchieën en semantische granulariteit impliceert. Florence-2 is ontworpen om tekstprompts als taakinstructies te nemen en gewenste resultaten in tekstvorm te genereren, of het nu gaat om bijschriften, objectdetectie, grounding of segmentatie. Deze multi-task learning opzet vereist grootschalige, hoogwaardige geannoteerde data. Hiertoe hebben we gezamenlijk FLD-5B ontwikkeld, dat bestaat uit 5,4 miljard uitgebreide visuele annotaties op 126 miljoen afbeeldingen, met behulp van een iteratieve strategie van geautomatiseerde beeldannotatie en modelverfijning. We hebben een sequence-to-sequence structuur geadopteerd om Florence-2 te trainen om veelzijdige en uitgebreide visuele taken uit te voeren. Uitgebreide evaluaties op talrijke taken toonden aan dat Florence-2 een sterke kandidaat is als visueel basis model met ongekende zero-shot en fine-tuning mogelijkheden.
Het bereiken van mensachtige planning en controle met multimodale observaties in een open wereld is een belangrijke mijlpaal voor functionelere generalistische agents. Bestaande benaderingen kunnen bepaalde langetermijntaken in een open wereld aan. Ze hebben echter nog steeds moeite wanneer het aantal open-wereldtaken potentieel oneindig is en missen het vermogen om de taakvoltooiing progressief te verbeteren naarmate de speeltijd vordert. We introduceren JARVIS-1, een open-wereldagent die multimodale input (visuele observaties en menselijke instructies) kan waarnemen, geavanceerde plannen kan genereren en belichaamde controle kan uitvoeren, allemaal binnen het populaire maar uitdagende open-werelduniversum van Minecraft. Specifiek ontwikkelen we JARVIS-1 op basis van vooraf getrainde multimodale taalmodelen, die visuele observaties en tekstuele instructies vertalen naar plannen. Deze plannen worden uiteindelijk doorgestuurd naar de doelgerichte controllers. We rusten JARVIS-1 uit met een multimodaal geheugen, wat planning vergemakkelijkt door zowel vooraf getrainde kennis als zijn eigen overlevingservaringen in het spel te gebruiken. In onze experimenten vertoont JARVIS-1 bijna perfecte prestaties in meer dan 200 verschillende taken van de Minecraft Universe Benchmark, variërend van instap- tot intermediare niveaus. JARVIS-1 heeft een voltooiingspercentage van 12,5% bereikt in de langetermijntaak van het diamanten houweel. Dit vertegenwoordigt een significante toename tot wel 5 keer vergeleken met eerdere records. Bovendien tonen we aan dat JARVIS-1 in staat is tot zelfverbetering volgens een levenslang leerparadigma dankzij het multimodale geheugen, wat een meer algemene intelligentie en verbeterde autonomie aanwakkert. De projectpagina is beschikbaar op https://craftjarvis-jarvis1.github.io.
Text-to-3D met diffusiemodellen heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande methodes vertrouwen echter ofwel op score-distillatie-gebaseerde optimalisatie, wat lijdt onder trage inferentie, lage diversiteit en Janus-problemen, of zijn feed-forward methodes die resultaten van lage kwaliteit genereren vanwege de schaarste aan 3D-trainingsdata. In dit artikel stellen we Instant3D voor, een nieuwe methode die hoogwaardige en diverse 3D-assets genereert uit tekstprompts op een feed-forward manier. We hanteren een tweestappenparadigma, waarbij eerst een beperkte set van vier gestructureerde en consistente views uit tekst in één keer wordt gegenereerd met een fijn afgesteld 2D text-to-image diffusiemodel, en vervolgens direct de NeRF wordt gereconstrueerd uit de gegenereerde afbeeldingen met een nieuwe transformer-gebaseerde sparse-view reconstructor. Door uitgebreide experimenten tonen we aan dat onze methode hoogwaardige, diverse en Janus-vrije 3D-assets kan genereren binnen 20 seconden, wat twee ordes van grootte sneller is dan eerdere optimalisatie-gebaseerde methodes die 1 tot 10 uur kunnen duren. Onze projectwebpagina: https://jiahao.ai/instant3d/.
We introduceren Lumos, een nieuw raamwerk voor het trainen van taalagentschappen dat gebruikmaakt van een uniform dataformaat en een modulaire architectuur gebaseerd op open-source grote taalmodellen (LLM's). Lumos bestaat uit drie afzonderlijke modules: planning, gronding en uitvoering. De planningsmodule verdeelt een taak in een reeks hoogwaardige, tool-onafhankelijke subdoelen, die vervolgens specifiek worden gemaakt door de grondingsmodule via een set laagwaardige acties. Deze acties worden vervolgens uitgevoerd door de uitvoeringsmodule, waarbij gebruik wordt gemaakt van een reeks kant-en-klare tools en API's. Om deze modules effectief te trainen, zijn hoogwaardige annotaties van subdoelen en acties verzameld en beschikbaar gesteld voor het finetunen van open-source LLM's voor verschillende taken, zoals complexe vraagbeantwoording, webtaken en wiskundige problemen. Door gebruik te maken van deze uniforme data en modulaire ontwerp, bereikt Lumos niet alleen vergelijkbare of superieure prestaties ten opzichte van huidige, state-of-the-art agentschappen, maar vertoont het ook verschillende belangrijke voordelen: (1) Lumos overtreft GPT-4/3.5-gebaseerde agentschappen in complexe vraagbeantwoording en webtaken, terwijl het de prestaties evenaart van aanzienlijk grotere LLM-agentschappen bij wiskundige taken; (2) Lumos presteert beter dan open-source agentschappen die zijn gemaakt via conventionele trainingsmethoden en die gebruikmaken van chain-of-thoughts training; en (3) Lumos is in staat om effectief te generaliseren naar onbekende interactieve taken, waarbij het grotere LLM-gebaseerde agentschappen overtreft en zelfs de prestaties van gespecialiseerde agentschappen overstijgt.
Grote taalmmodellen (LLM's) blinken uit in veel taken binnen NLP en daarbuiten, maar de meeste open modellen hebben een zeer beperkte dekking van kleinere talen, en LLM-werk richt zich meestal op talen waar bijna onbeperkte gegevens beschikbaar zijn voor voorafgaande training. In dit werk onderzoeken we de uitdagingen van het creëren van LLM's voor het Fins, een taal die door minder dan 0,1% van de wereldbevolking wordt gesproken. We stellen een uitgebreide dataset van het Fins samen door webcrawls, nieuws, sociale media en e-boeken te combineren. We volgen twee benaderingen om modellen vooraf te trainen: 1) we trainen zeven eentalige modellen vanaf nul (186M tot 13B parameters), genaamd FinGPT, 2) we zetten de voorafgaande training van het meertalige BLOOM-model voort op een mix van de oorspronkelijke trainingsgegevens en Fins, wat resulteert in een model van 176 miljard parameters dat we BLUUMI noemen. Voor modelbeoordeling introduceren we FIN-bench, een versie van BIG-bench met Finse taken. We beoordelen ook andere modelkwaliteiten zoals toxiciteit en bias. Onze modellen en tools zijn openbaar beschikbaar op https://turkunlp.org/gpt3-finnish.
Prompt engineering is een uitdagende maar cruciale taak voor het optimaliseren van de prestaties van grote taalmodellen (LLM's). Het vereist complexe redenering om de fouten van het model te onderzoeken, hypothesen te vormen over wat er ontbreekt of misleidend is in de huidige prompt, en de taak duidelijk te communiceren. Hoewel recente werken aangeven dat LLM's gemetaprompt kunnen worden om automatische prompt engineering uit te voeren, worden hun potentieel mogelijk niet volledig benut vanwege het ontbreken van voldoende begeleiding om complexe redeneervaardigheden in LLM's in de metaprompt te ontlokken. In dit werk onderzoeken we het probleem van "prompt engineering van een prompt engineer" -- het construeren van een metaprompt die LLM's effectiever begeleidt bij het uitvoeren van automatische prompt engineering. We introduceren en analyseren belangrijke componenten, zoals een stapsgewijs redeneersjabloon en contextspecificatie, die leiden tot verbeterde prestaties. Daarnaast introduceren we, geïnspireerd door veelvoorkomende optimalisatieconcepten zoals batchgrootte, stapgrootte en momentum, hun verbaal uitgedrukte tegenhangers in de metaprompt en onderzoeken we hun effecten. Onze uiteindelijke methode, genaamd PE2, vindt een prompt die "let's think step by step" overtreft met 6,3% op de MultiArith-dataset en 3,1% op de GSM8K-dataset. Om de veelzijdigheid ervan aan te tonen, passen we PE2 toe op de Instruction Induction-benchmark, een reeks tegenfactuele taken, en een uitgebreide, real-world industriële prompt. In deze settings behaalt PE2 sterke prestaties en overtreft het eerdere automatische prompt engineering-baselines. Verder laten we zien dat PE2 zinvolle en gerichte promptbewerkingen maakt, foutieve of onvolledige prompts verbetert, en niet-triviale tegenfactuele redeneervaardigheden vertoont.
Logisch redeneren is een fundamenteel aspect van menselijke intelligentie en een belangrijk onderdeel van taken zoals probleemoplossing en besluitvorming. Recente vooruitgang heeft het mogelijk gemaakt dat Large Language Models (LLMs) potentieel redeneervaardigheden kunnen vertonen, maar complex logisch redeneren blijft een uitdaging. De state-of-the-art, solver-augmented taalmodellen, gebruiken LLMs om logische vragen in natuurlijke taal eerst om te zetten in symbolische representaties en vervolgens externe logische solvers in te zetten om deze symbolische representaties te verwerken en antwoorden te genereren. Ondanks hun indrukwekkende prestaties zullen eventuele parseerfouten onvermijdelijk leiden tot het falen van de uitvoering van de externe logische solver en geen antwoord op de logische vragen opleveren. In dit artikel introduceren we LoGiPT, een nieuw taalmodel dat de redeneerprocessen van logische solvers direct nabootst en parseerfouten omzeilt door strikte naleving van de syntaxis en grammatica van solvers te leren. LoGiPT is afgestemd op een nieuw geconstrueerde instructie-afstemmingsdataset, afgeleid van het onthullen en verfijnen van het onzichtbare redeneerproces van deductieve solvers. Experimentele resultaten op twee openbare datasets voor deductief redeneren tonen aan dat LoGiPT state-of-the-art solver-augmented LMs en few-shot prompting-methoden overtreft op competitieve LLMs zoals ChatGPT of GPT-4.
Grote foundationmodellen worden steeds alomtegenwoordiger, maar het trainen ervan vanaf nul is buitensporig duur. Daarom wordt het efficiënt aanpassen van deze krachtige modellen aan downstream taken steeds belangrijker. In dit artikel bestuderen we een principieel finetuningparadigma -- Orthogonale Finetuning (OFT) -- voor de aanpassing aan downstream taken. Ondanks dat het goede generaliseerbaarheid demonstreert, gebruikt OFT nog steeds een vrij groot aantal trainbare parameters vanwege de hoge dimensionaliteit van orthogonale matrices. Om dit aan te pakken, beginnen we met het onderzoeken van OFT vanuit een informatieoverdrachtsperspectief, en identificeren we vervolgens enkele belangrijke vereisten die een betere parameter-efficiëntie mogelijk maken. Geïnspireerd door hoe het Cooley-Tukey snelle Fourier-transformatie-algoritme efficiënte informatieoverdracht mogelijk maakt, stellen we een efficiënte orthogonale parameterisatie voor met behulp van vlinderstructuren. We passen deze parameterisatie toe op OFT, waardoor een nieuwe parameter-efficiënte finetuningmethode ontstaat, genaamd Orthogonale Vlinder (BOFT). Door OFT als een speciaal geval te omvatten, introduceert BOFT een gegeneraliseerd orthogonaal finetuningraamwerk. Tot slot voeren we een uitgebreid empirisch onderzoek uit naar het aanpassen van grote visiontransformers, grote taalmmodellen en tekst-naar-beeld diffusiemodellen aan verschillende downstream taken in visie en taal.
Convolutiemodellen met lange filters hebben state-of-the-art redeneervaardigheden aangetoond in veel taken met lange sequenties, maar blijven achter bij de meest geoptimaliseerde Transformers in wall-clock tijd. Een belangrijke bottleneck is de Fast Fourier Transform (FFT)—die lange convoluties mogelijk maakt in O(N logN) tijd in sequentielengte N, maar een slechte hardwarebenutting heeft. In dit artikel onderzoeken we hoe de FFT-convolutie kan worden geoptimaliseerd. We identificeren twee belangrijke knelpunten: de FFT maakt niet effectief gebruik van gespecialiseerde matrixvermenigvuldigingsunits, en het veroorzaakt dure I/O tussen lagen van de geheugenhiërarchie. Als antwoord hierop stellen we FlashFFTConv voor. FlashFFTConv gebruikt een matrixdecompositie die de FFT berekent met matrixvermenigvuldigingsunits en maakt kernel-fusie mogelijk voor lange sequenties, waardoor I/O wordt verminderd. We presenteren ook twee sparse convolutie-algoritmen—1) partiële convoluties en 2) frequentie-sparse convoluties—die eenvoudig kunnen worden geïmplementeerd door blokken in de matrixdecompositie over te slaan, wat verdere mogelijkheden biedt voor geheugen- en rekentijdbesparingen. FlashFFTConv versnelt exacte FFT-convoluties tot 7,93 keer ten opzichte van PyTorch en behaalt tot 4,4 keer snelheidswinst end-to-end. Met hetzelfde rekenbudget stelt FlashFFTConv Hyena-GPT-s in staat om 2,3 punten betere perplexiteit te behalen op de PILE en M2-BERT-base om 3,3 punten hogere GLUE-score te behalen—wat overeenkomt met modellen met het dubbele aantal parameters. FlashFFTConv behaalt ook 96,1% nauwkeurigheid op Path-512, een hoogresolutie visietask waarbij geen enkel model eerder beter dan 50% had behaald. Bovendien maken partiële convoluties langere-sequentiemodellen mogelijk—wat resulteert in het eerste DNA-model dat de langste menselijke genen kan verwerken (2,3 miljoen baseparen)—en frequentie-sparse convoluties versnellen voorgetrainde modellen terwijl de modelkwaliteit behouden blijft of verbetert.
Grote Taalmodellen (LLMs) worden steeds vaker ingezet voor interactieve besluitvormingstaken die planning en aanpassing aan de omgeving vereisen. Recente werken gebruiken LLMs-as-agents op twee hoofdmanieren: iteratief het volgende actie bepalen (iteratieve uitvoerders) of plannen genereren en sub-taken uitvoeren met behulp van LLMs (plan-en-uitvoer). Deze methoden hebben echter moeite met taakcomplexiteit, omdat het onvermogen om een sub-taak uit te voeren kan leiden tot taakfalen. Om deze tekortkomingen aan te pakken, introduceren we As-Needed Decomposition and Planning for complex Tasks (ADaPT), een benadering die complexe sub-taken expliciet plant en decomposeert wanneer dat nodig is, d.w.z. wanneer het LLM ze niet kan uitvoeren. ADaPT decomposeert sub-taken recursief om zich aan te passen aan zowel taakcomplexiteit als de capaciteiten van het LLM. Onze resultaten tonen aan dat ADaPT aanzienlijk beter presteert dan gevestigde sterke basislijnen, met succespercentages die tot 28,3% hoger liggen in ALFWorld, 27% in WebShop en 33% in TextCraft – een nieuw compositorisch dataset die we introduceren. Door uitgebreide analyse illustreren we het belang van multilevel decompositie en stellen we vast dat ADaPT zich dynamisch aanpast aan de capaciteiten van het uitvoerende LLM evenals aan de taakcomplexiteit.
Een van de belangrijkste uitdagingen van multimodaal leren is de noodzaak om heterogene modaliteiten (bijvoorbeeld video, audio, tekst) te combineren. Video en audio worden bijvoorbeeld met een veel hogere snelheid verkregen dan tekst en zijn ruwweg in de tijd uitgelijnd. Ze zijn vaak niet gesynchroniseerd met tekst, die als een globale context wordt aangeleverd, zoals een titel of een beschrijving. Bovendien hebben video- en audio-inputs een veel groter volume en nemen ze toe naarmate de videolengte toeneemt, wat van nature meer rekenkracht vereist die aan deze modaliteiten wordt besteed en het modelleren van afhankelijkheden over lange afstand moeilijker maakt. Hier ontkoppelen we het multimodale modelleren door het op te delen in afzonderlijke, gerichte autoregressieve modellen die de inputs verwerken volgens de kenmerken van de modaliteiten. We stellen een multimodaal model voor, genaamd Mirasol3B, dat bestaat uit een autoregressieve component voor de in de tijd gesynchroniseerde modaliteiten (audio en video) en een autoregressieve component voor de contextmodaliteiten die niet noodzakelijk in de tijd zijn uitgelijnd maar wel sequentieel zijn. Om de lange sequenties van de video-audio-inputs aan te pakken, stellen we voor om de video- en audiosequenties verder op te delen in opeenvolgende fragmenten en hun representaties autoregressief te verwerken. Hiertoe stellen we een Combiner-mechanisme voor, dat de audio-video-informatie gezamenlijk binnen een tijdsframe modelleert. De Combiner leert om audio- en videokenmerken te extraheren uit ruwe ruimtelijk-temporele signalen en leert vervolgens om deze kenmerken te fuseren, waardoor compacte maar expressieve representaties per fragment worden geproduceerd. Onze aanpak behaalt de state-of-the-art op goed gevestigde multimodale benchmarks en overtreft veel grotere modellen. Het adresseert effectief de hoge computationele eisen van media-inputs door zowel compacte representaties te leren, de sequentielengte van de audio-videokenmerkrepresentaties te beheersen als hun afhankelijkheden in de tijd te modelleren.
Dichte voorspellingstaken, zoals semantische segmentatie, diepteschatting en oppervlaktenormaalvoorspelling, kunnen eenvoudig worden geformuleerd als per-pixel classificatie (discrete uitvoer) of regressie (continue uitvoer). Dit per-pixel voorspellingsparadigma is populair gebleven vanwege de prevalentie van volledig convolutionele netwerken. Echter, op het recente front van segmentatietaken heeft de gemeenschap een paradigmaverschuiving gezien van per-pixel voorspelling naar clustervoorspelling met de opkomst van transformer-architecturen, met name de mask transformers, die direct een label voor een masker voorspellen in plaats van voor een pixel. Ondanks deze verschuiving domineren methoden gebaseerd op het per-pixel voorspellingsparadigma nog steeds de benchmarks voor andere dichte voorspellingstaken die continue uitvoer vereisen, zoals diepteschatting en oppervlaktenormaalvoorspelling. Gemotiveerd door het succes van DORN en AdaBins in diepteschatting, bereikt door het discretiseren van de continue uitvoerruimte, stellen we voor om de clustervoorspellingsmethode te generaliseren naar algemene dichte voorspellingstaken. Dit stelt ons in staat om dichte voorspellingstaken te verenigen met het mask transformer-framework. Opmerkelijk is dat het resulterende model PolyMaX state-of-the-art prestaties laat zien op drie benchmarks van de NYUD-v2 dataset. We hopen dat ons eenvoudige maar effectieve ontwerp meer onderzoek kan inspireren naar het benutten van mask transformers voor meer dichte voorspellingstaken. Code en model zullen beschikbaar worden gesteld.
Het leren van feature-interacties vormt de cruciale ruggengraat voor het bouwen van aanbevelingssystemen. In web-schaal toepassingen is het leren van feature-interacties extreem uitdagend vanwege de schaarse en grote invoerfeature-ruimte; tegelijkertijd is het handmatig ontwerpen van effectieve feature-interacties onhaalbaar vanwege de exponentiële oplossingsruimte. Wij stellen voor om een Transformer-gebaseerde architectuur met aandachtslagen te benutten om feature-interacties automatisch vast te leggen. Transformer-architecturen hebben groot succes geboekt in vele domeinen, zoals natuurlijke taalverwerking en computervisie. Echter, er is nog niet veel adoptie geweest van de Transformer-architectuur voor het modelleren van feature-interacties in de industrie. Wij streven ernaar deze kloof te dichten. Wij identificeren twee belangrijke uitdagingen voor het toepassen van de standaard Transformer-architectuur op web-schaal aanbevelingssystemen: (1) De Transformer-architectuur slaagt er niet in om de heterogene feature-interacties in de zelf-attentielaag vast te leggen; (2) De servicelatentie van de Transformer-architectuur kan te hoog zijn om te worden ingezet in web-schaal aanbevelingssystemen. Wij stellen eerst een heterogene zelf-attentielaag voor, wat een eenvoudige maar effectieve aanpassing is aan de zelf-attentielaag in de Transformer, om rekening te houden met de heterogeniteit van feature-interacties. Vervolgens introduceren wij Hiformer (Heterogene Interactie Transformer) om de modeluitdrukkingskracht verder te verbeteren. Met low-rank benadering en modelpruning geniet Hiformer van snelle inferentie voor online implementatie. Uitgebreide offline experimentresultaten bevestigen de effectiviteit en efficiëntie van het Hiformer-model. Wij hebben het Hiformer-model succesvol geïmplementeerd in een real-world grootschalig app-rankingmodel op Google Play, met een significante verbetering in belangrijke betrokkenheidsmetrieken (tot +2,66\%).
Het transformermodel heeft de afgelopen tijd brede acceptatie gevonden in computervisietaken. Echter, vanwege de kwadratische tijd- en geheugencomplexiteit van self-attention, die evenredig is met het aantal invoertokens, ondervinden de meeste bestaande Vision Transformers (ViTs) uitdagingen bij het bereiken van efficiënte prestaties in praktische industriële implementatiescenario's, zoals TensorRT en CoreML, waar traditionele CNN's uitblinken. Hoewel recent enkele pogingen zijn gedaan om hybride CNN-Transformer-architecturen te ontwerpen om dit probleem aan te pakken, heeft hun algehele prestatieniveau niet aan de verwachtingen voldaan. Om deze uitdagingen aan te pakken, stellen wij een efficiënte hybride ViT-architectuur voor, genaamd FMViT. Deze aanpak versterkt het uitdrukkingsvermogen van het model door hoogfrequente en laagfrequente kenmerken met verschillende frequenties te combineren, waardoor het zowel lokale als globale informatie effectief kan vastleggen. Daarnaast introduceren wij implementatievriendelijke mechanismen zoals Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA) en Convolutional Fusion Block (CFB) om de prestaties van het model verder te verbeteren en de rekenkosten te verlagen. Onze experimenten tonen aan dat FMViT bestaande CNN's, ViTs en hybride CNN-Transformer-architecturen overtreft wat betreft de afweging tussen latentie en nauwkeurigheid voor diverse visietaken. Op het TensorRT-platform presteert FMViT 2,5% beter dan Resnet101 (83,3% vs. 80,8%) in top-1 nauwkeurigheid op de ImageNet-dataset, terwijl een vergelijkbare inferentielatentie wordt behouden. Bovendien bereikt FMViT vergelijkbare prestaties met EfficientNet-B5, maar met een verbetering van 43% in inferentiesnelheid. Op CoreML presteert FMViT 2,6% beter dan MobileOne in top-1 nauwkeurigheid op de ImageNet-dataset, met een inferentielatentie die vergelijkbaar is met MobileOne (78,5% vs. 75,9%). Onze code is te vinden op https://github.com/tany0699/FMViT.