Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren TinyLlama, een compact taalmodel van 1,1 miljard parameters dat vooraf is getraind op ongeveer 1 biljoen tokens gedurende ongeveer 3 epochs. Gebaseerd op de architectuur en tokenizer van Llama 2, maakt TinyLlama gebruik van diverse vooruitgangen die door de open-source gemeenschap zijn bijgedragen (bijvoorbeeld FlashAttention), wat resulteert in een betere computationele efficiëntie. Ondanks zijn relatief kleine omvang, toont TinyLlama opmerkelijke prestaties in een reeks downstream taken. Het overtreft aanzienlijk bestaande open-source taalmodelen van vergelijkbare grootte. Onze modelcheckpoints en code zijn openbaar beschikbaar op GitHub via https://github.com/jzhang38/TinyLlama.
De introductie van ChatGPT heeft geleid tot een aanzienlijke toename in het gebruik van Large Language Models (LLMs) voor het aanpakken van downstream taken. Er is een groeiende focus op kostenefficiënte training en implementatie binnen deze context. Goedkope training en implementatie van LLMs vertegenwoordigen de toekomstige ontwikkelingsrichting. Dit artikel bespreekt de evolutie van trainingstechnieken voor grote taalmodelen en inferentie-implementatietechnologieën die aansluiten bij deze opkomende trend. De discussie over training omvat verschillende aspecten, waaronder gegevensvoorbewerking, trainingsarchitectuur, pre-trainingstaken, parallelle training en relevante inhoud met betrekking tot model fine-tuning. Op het gebied van inferentie behandelt het artikel onderwerpen zoals modelcompressie, parallelle berekening, geheugenplanning en structurele optimalisatie. Het verkent ook het gebruik van LLMs en biedt inzichten in hun toekomstige ontwikkeling.
Mensen verwerven over het algemeen nieuwe vaardigheden zonder de oude te ondermijnen; voor Large Language Models (LLM's), zoals van LLaMA naar CodeLLaMA, geldt echter het tegenovergestelde. Daarom stellen we een nieuwe post-pretrainingsmethode voor LLM's voor, met een uitbreiding van Transformer-blokken. We tunen de uitgebreide blokken uitsluitend met nieuwe corpora, waardoor de kennis van het model efficiënt en effectief wordt verbeterd zonder catastrofaal vergeten. In dit artikel experimenteren we met corpora van code en wiskunde, wat resulteert in LLaMA Pro-8.3B, een veelzijdig foundationmodel geïnitialiseerd vanuit LLaMA2-7B, dat uitblinkt in algemene taken, programmeren en wiskunde. LLaMA Pro en zijn instructievolgende tegenhanger (LLaMA Pro-Instruct) behalen geavanceerde prestaties in diverse benchmarks, wat de superioriteit aantoont ten opzichte van bestaande open modellen in de LLaMA-familie en het immense potentieel van redeneren en het aanpakken van diverse taken als een intelligente agent. Onze bevindingen bieden waardevolle inzichten in de integratie van natuurlijke en programmeertalen, en leggen een solide basis voor de ontwikkeling van geavanceerde taalagentschappen die effectief opereren in diverse omgevingen.
Fundamentele modellen met miljarden parameters die zijn getraind op grote datasets hebben aanzienlijke vaardigheden getoond in diverse domeinen. Echter, vanwege hun monolithische structuur is het uitdagend en kostbaar om ze uit te breiden of nieuwe vaardigheden aan te leren. Aan de andere kant worden, vanwege hun aanpassingsvermogen, verschillende nieuwe instanties van deze modellen getraind voor nieuwe domeinen en taken. In dit werk bestuderen we het probleem van efficiënte en praktische compositie van bestaande fundamentele modellen met meer specifieke modellen om nieuwe mogelijkheden te creëren. Hiertoe stellen we CALM voor -- Composition to Augment Language Models -- dat cross-attentie introduceert tussen modellen om hun representaties te combineren en nieuwe mogelijkheden te bieden. Belangrijke kenmerken van CALM zijn: (i) Het schaalt grote taalmodellen (LLMs) op voor nieuwe taken door bestaande LLMs te 'hergebruiken' samen met enkele aanvullende parameters en data, (ii) Bestaande modelgewichten blijven intact, waardoor bestaande mogelijkheden behouden blijven, en (iii) Het is toepasbaar in diverse domeinen en settings. We laten zien dat het uitbreiden van PaLM2-S met een kleiner model dat is getraind op talen met beperkte bronnen, resulteert in een absolute verbetering van tot 13\% op taken zoals vertaling naar het Engels en rekenkundig redeneren voor talen met beperkte bronnen. Evenzo, wanneer PaLM2-S wordt uitgebreid met een model specifiek voor code, zien we een relatieve verbetering van 40\% ten opzichte van het basismodel voor taken zoals codegeneratie en uitleg -- vergelijkbaar met volledig gefinetunede tegenhangers.
Imiteren van menselijke demonstraties heeft indrukwekkende prestaties getoond in robotica. De meeste resultaten richten zich echter op manipulatie op tafels, wat de mobiliteit en behendigheid mist die nodig zijn voor algemeen nuttige taken. In dit werk ontwikkelen we een systeem voor het imiteren van mobiele manipulatietaken die bimanueel zijn en volledige lichaamscontrole vereisen. We presenteren eerst Mobile ALOHA, een goedkoop en volledig lichaamsgestuurd teleoperatiesysteem voor gegevensverzameling. Het breidt het ALOHA-systeem uit met een mobiele basis en een volledig lichaamsgestuurde teleoperatie-interface. Met behulp van gegevens die met Mobile ALOHA zijn verzameld, voeren we vervolgens gesuperviseerd gedragskloneren uit en ontdekken we dat co-training met bestaande statische ALOHA-datasets de prestaties bij mobiele manipulatietaken verbetert. Met 50 demonstraties voor elke taak kan co-training de slagingspercentages met wel 90% verhogen, waardoor Mobile ALOHA complexe mobiele manipulatietaken autonoom kan uitvoeren, zoals het sauteren en serveren van een stuk garnaal, het openen van een tweedelige wandkast om zware kookpotten op te bergen, het bellen en betreden van een lift, en het lichtjes spoelen van een gebruikte pan met een keukenkraan. Projectwebsite: https://mobile-aloha.github.io
Dit artikel presenteert instruct-imagen, een model dat heterogene beeldgeneratietaken aanpakt en generaliseert over onbekende taken. We introduceren *multi-modale instructie* voor beeldgeneratie, een taakrepresentatie die een reeks generatie-intenties nauwkeurig verwoordt. Het gebruikt natuurlijke taal om verschillende modaliteiten (bijvoorbeeld tekst, rand, stijl, onderwerp, enz.) te combineren, zodat overvloedige generatie-intenties gestandaardiseerd kunnen worden in een uniform formaat. Vervolgens bouwen we instruct-imagen door een vooraf getraind tekst-naar-beeld diffusiemodel te fine-tunen met een tweestaps raamwerk. Eerst passen we het model aan met behulp van retrieval-augmented training, om de mogelijkheden van het model te verbeteren om zijn generatie te baseren op externe multimodale context. Daarna fine-tunen we het aangepaste model op diverse beeldgeneratietaken die visie-taalbegrip vereisen (bijvoorbeeld onderwerpgedreven generatie, enz.), elk gepaard met een multi-modale instructie die de essentie van de taak omvat. Menselijke evaluatie op verschillende beeldgeneratiedatasets toont aan dat instruct-imagen gelijkwaardig is aan of beter presteert dan eerdere taakspecifieke modellen binnen het domein en veelbelovende generalisatie vertoont naar onbekende en complexere taken.
In dit artikel introduceren we LLaVA-phi (LLaVA-Phi), een efficiënte multimodale assistent die gebruikmaakt van de kracht van het recentelijk geavanceerde kleine taalmodel, Phi-2, om multimodale dialogen te faciliteren. LLaVA-Phi markeert een opmerkelijke vooruitgang in het domein van compacte multimodale modellen. Het toont aan dat zelfs kleinere taalmodellen, met slechts 2,7B parameters, effectief kunnen deelnemen aan complexe dialogen die zowel tekstuele als visuele elementen integreren, mits ze getraind zijn met hoogwaardige corpora. Ons model levert lovenswaardige prestaties op publiek beschikbare benchmarks die visueel begrip, redeneren en kennisgebaseerde perceptie omvatten. Naast zijn opmerkelijke prestaties in multimodale dialoogtaken, opent ons model nieuwe mogelijkheden voor toepassingen in tijdgevoelige omgevingen en systemen die real-time interactie vereisen, zoals belichaamde agenten. Het benadrukt het potentieel van kleinere taalmodellen om geavanceerde niveaus van begrip en interactie te bereiken, terwijl ze een grotere resource-efficiëntie behouden. Het project is beschikbaar op {https://github.com/zhuyiche/llava-phi}.
3D-aware Generative Adversarial Networks (GANs) hebben aanzienlijke vooruitgang geboekt in het leren genereren van multi-view-consistente afbeeldingen en 3D-geometrieën van scènes uit verzamelingen van 2D-afbeeldingen via neurale volume rendering. Echter hebben de aanzienlijke geheugen- en rekenkosten van dichte bemonstering in volume rendering 3D GANs gedwongen om patch-gebaseerde training te gebruiken of te werken met lage-resolutie rendering met post-processing 2D superresolutie, wat ten koste gaat van multi-view consistentie en de kwaliteit van de opgeloste geometrie. Hierdoor zijn 3D GANs nog niet in staat geweest om de rijke 3D-geometrie in 2D-afbeeldingen volledig op te lossen. In dit werk stellen we technieken voor om neurale volume rendering op te schalen naar de veel hogere resolutie van native 2D-afbeeldingen, waardoor fijnmazige 3D-geometrie met ongekend detail kan worden opgelost. Onze aanpak maakt gebruik van op leren gebaseerde bemonsteraars om neurale rendering te versnellen voor 3D GAN-training met tot wel 5 keer minder dieptemonsters. Dit stelt ons in staat om expliciet "elke pixel" van de volledige-resolutie afbeelding te renderen tijdens training en inferentie zonder post-processing superresolutie in 2D. Samen met onze strategie om hoogwaardige oppervlaktegeometrie te leren, synthetiseert onze methode hoog-resolutie 3D-geometrie en strikt view-consistente afbeeldingen, terwijl de beeldkwaliteit op hetzelfde niveau blijft als baselines die vertrouwen op post-processing superresolutie. We demonstreren state-of-the-art 3D geometrische kwaliteit op FFHQ en AFHQ, waarmee een nieuwe standaard wordt gezet voor onbewaakt leren van 3D-vormen in 3D GANs.
State-of-the-art modellen op hedendaagse 3D-perceptiebenchmarks zoals ScanNet verwerken en labelen 3D-puntenwolken die door datasets worden aangeleverd, verkregen via nabewerking van waargenomen multiview RGB-D-beelden. Ze worden doorgaans in-domein getraind, slaan grootschalige 2D-pre-training over en presteren beter dan alternatieven die de gepositioneerde RGB-D-multiview-beelden verwerken. Het prestatieverschil tussen methoden die gepositioneerde beelden verwerken versus nabewerkte 3D-puntenwolken heeft de overtuiging aangewakkerd dat 2D- en 3D-perceptie verschillende modelarchitecturen vereisen. In dit artikel dagen we deze visie uit en stellen we ODIN (Omni-Dimensional INstance segmentation) voor, een model dat zowel 2D RGB-beelden als 3D-puntenwolken kan segmenteren en labelen, met behulp van een transformer-architectuur die afwisselt tussen 2D within-view en 3D cross-view informatie-fusie. Ons model onderscheidt 2D- en 3D-featurebewerkingen via de positionele coderingen van de betrokken tokens, die pixelcoördinaten vastleggen voor 2D-patchtokens en 3D-coördinaten voor 3D-featuretokens. ODIN behaalt state-of-the-art prestaties op de ScanNet200, Matterport3D en AI2THOR 3D-instance-segmentatiebenchmarks, en competitieve prestaties op ScanNet, S3DIS en COCO. Het overtreft alle vorige werken met een ruime marge wanneer de waargenomen 3D-puntenwolk wordt gebruikt in plaats van de puntenwolk die uit een 3D-mesh is bemonsterd. Wanneer het wordt gebruikt als de 3D-perceptie-engine in een instructeerbare embodied agent-architectuur, stelt het een nieuwe state-of-the-art op de TEACh action-from-dialogue benchmark. Onze code en checkpoints zijn te vinden op de projectwebsite: https://odin-seg.github.io.
Het leren van 3D-modellen van alle dieren op aarde vereist een enorme opschaling van bestaande oplossingen. Met dit ultieme doel voor ogen ontwikkelen we 3D-Fauna, een benadering die een pan-categorie vervormbaar 3D-dierenmodel leert voor meer dan 100 diersoorten gezamenlijk. Een cruciaal knelpunt bij het modelleren van dieren is de beperkte beschikbaarheid van trainingsdata, wat we overwinnen door simpelweg te leren van 2D-internetafbeeldingen. We laten zien dat eerdere categorie-specifieke pogingen niet generaliseren naar zeldzame soorten met beperkte trainingsafbeeldingen. We pakken deze uitdaging aan door de Semantic Bank of Skinned Models (SBSM) te introduceren, die automatisch een kleine set basisdierlijke vormen ontdekt door geometrische inductieve aannames te combineren met semantische kennis die impliciet wordt vastgelegd door een kant-en-klare zelfgesuperviseerde feature extractor. Om zo'n model te trainen, dragen we ook een nieuwe grootschalige dataset bij van diverse diersoorten. Tijdens inferentie reconstrueert ons model, gegeven een enkele afbeelding van een viervoetig dier, een gearticuleerd 3D-mesh op een feed-forward manier binnen enkele seconden.
De opkomst van Large Language Models (LLM's) zoals ChatGPT en LLaMA stuit op beperkingen in domeinspecifieke taken, waarbij deze modellen vaak gebrek aan diepgang en nauwkeurigheid vertonen in gespecialiseerde gebieden, en een afname in algemene capaciteiten laten zien wanneer ze worden gefinetuned, met name de analysevaardigheid in kleinere modellen. Om deze tekortkomingen aan te pakken, introduceren we ICE-GRT, dat gebruikmaakt van Reinforcement Learning from Human Feedback (RLHF) gebaseerd op Proximal Policy Optimization (PPO), en opmerkelijke prestaties laat zien in domeinspecifieke scenario's zonder in te leveren op algemene taakprestaties. Onze verkenning van ICE-GRT benadrukt het begrip en de redeneervaardigheid om niet alleen robuuste antwoorden te genereren, maar ook gedetailleerde analyses te geven van de redenen achter het antwoord. Deze vaardigheid markeert een significante vooruitgang buiten het bereik van Supervised Fine-Tuning-modellen. Het succes van ICE-GRT hangt af van verschillende cruciale factoren, waaronder Geschikte Data, Reward Size Scaling, KL-Control, Advantage Normalization, enz. Het ICE-GRT-model vertoont state-of-the-art prestaties in domeinspecifieke taken en over 12 algemene taaltaken in vergelijking met LLM's van vergelijkbare en zelfs grotere omvang, wat de effectiviteit van onze aanpak onderstreept. We bieden een uitgebreide analyse van ICE-GRT, waarbij we de significante vooruitgang die het brengt op het gebied van LLM benadrukken.
Het nauwkeurig waarnemen van de geometrische en semantische eigenschappen van 3D-objecten in de echte wereld is cruciaal voor de verdere ontwikkeling van augmented reality en robotica-toepassingen. Hiertoe presenteren wij (), dat vision-language embeddings van foundation models integreert in 3D Gaussian Splatting (GS). De belangrijkste bijdrage van dit werk is een efficiënte methode om 3D vision-language modellen te reconstrueren en te representeren. Dit wordt bereikt door feature maps gegenereerd uit op afbeeldingen gebaseerde foundation models te destilleren in die welke worden gerenderd vanuit ons 3D-model. Om hoogwaardige rendering en snelle training te garanderen, introduceren we een nieuwe scène-representatie door sterke punten van zowel GS als multi-resolution hash encodings (MHE) te combineren. Onze effectieve trainingsprocedure introduceert ook een pixel alignment loss die ervoor zorgt dat de gerenderde feature-afstand van dezelfde semantische entiteiten dichtbij blijft, in overeenstemming met de pixel-level semantische grenzen. Onze resultaten tonen opmerkelijke multi-view semantische consistentie, wat diverse downstream taken vergemakkelijkt, en verslaat state-of-the-art methoden met 10,2 procent op open-vocabulary taalgebaseerde objectdetectie, ondanks dat we 851 keer sneller zijn voor inferentie. Dit onderzoek verkent het snijvlak van visie, taal en 3D-scène-representatie, en baant de weg voor verbeterde scène-begrip in ongecontroleerde real-world omgevingen. We zijn van plan de code vrij te geven na acceptatie van het paper.
Diffusiemodellen vormen een nieuwe klasse van generatieve modellen en hebben beeldgeneratie aanzienlijk bevorderd met een ongekende kwaliteit en diversiteit. Bestaande diffusiemodellen proberen voornamelijk een invoerbeeld te reconstrueren vanuit een beschadigd beeld met een pixelgewijze of feature-gewijze beperking langs ruimtelijke assen. Echter, kan een dergelijke puntgebaseerde reconstructie er niet in slagen om elke voorspelde pixel/feature volledig zijn nabijheidscontext te laten behouden, wat de op diffusie gebaseerde beeldgeneratie schaadt. Als een krachtige bron van automatisch toezichtsignaal is context uitgebreid bestudeerd voor het leren van representaties. Geïnspireerd door dit, stellen wij voor het eerst ConPreDiff voor om op diffusie gebaseerde beeldgeneratie te verbeteren met contextvoorspelling. Wij versterken expliciet elk punt om zijn nabijheidscontext (d.w.z., multi-stride features/tokens/pixels) te voorspellen met een contextdecoder aan het einde van diffusie denoising blokken in de trainingsfase, en verwijderen de decoder voor inferentie. Op deze manier kan elk punt zichzelf beter reconstrueren door zijn semantische verbindingen met de nabijheidscontext te behouden. Dit nieuwe paradigma van ConPreDiff kan worden gegeneraliseerd naar willekeurige discrete en continue diffusiebackbones zonder extra parameters te introduceren in het samplingproces. Uitgebreide experimenten worden uitgevoerd op taken voor onvoorwaardelijke beeldgeneratie, tekst-naar-beeldgeneratie en beeldinpainting. Onze ConPreDiff overtreft consistent eerdere methoden en behaalt nieuwe state-of-the-art resultaten voor tekst-naar-beeldgeneratie op MS-COCO, met een zero-shot FID-score van 6,21.
Visueel redeneren wordt gedomineerd door end-to-end neurale netwerken die geschaald zijn naar miljarden modelparameters en trainingsvoorbeelden. Echter, zelfs de grootste modellen hebben moeite met compositioneel redeneren, generalisatie, fijnmazig ruimtelijk en temporeel redeneren, en tellen. Visueel redeneren met grote taalmodellen (LLMs) als controllers kan in principe deze beperkingen aanpakken door de taak te decomponeren en subtaken op te lossen door een set van (visuele) tools te orkestreren. Recentelijk hebben deze modellen uitstekende prestaties behaald bij taken zoals compositionele visuele vraagbeantwoording, visuele verankering, en temporeel redeneren in video's. Desalniettemin vertrouwen deze modellen in hun huidige vorm sterk op menselijk ontworpen in-context voorbeelden in de prompt, die vaak datasetspecifiek en taakspecifiek zijn en aanzienlijke inspanning vereisen van zeer bekwame programmeurs. In dit werk presenteren we een framework dat deze problemen verlicht door ruimtelijk en temporeel abstracte routines te introduceren en door gebruik te maken van een klein aantal gelabelde voorbeelden om automatisch in-context voorbeelden te genereren, waardoor menselijk gemaakte in-context voorbeelden overbodig worden. Op een aantal visuele redeneertaken laten we zien dat ons framework leidt tot consistente prestatieverbeteringen, de LLM als controller setup robuuster maakt, en de noodzaak voor menselijk ontworpen in-context voorbeelden wegneemt.