Dagelijks geselecteerde AI onderzoekspapers met vertalingen
End-to-end generatie van muzikale audio met behulp van deep learning-technieken heeft recentelijk een explosie van activiteit gezien. De meeste modellen richten zich echter op het genereren van volledig gemixte muziek als reactie op abstracte conditioneringsinformatie. In dit werk presenteren we een alternatief paradigma voor het produceren van muziekgeneratiemodellen die kunnen luisteren en reageren op muzikale context. We beschrijven hoe zo'n model kan worden geconstrueerd met behulp van een niet-autoregressief, transformer-gebaseerd modelarchitectuur en presenteren een aantal nieuwe architectonische en samplingverbeteringen. We trainen de beschreven architectuur op zowel een open-source als een propriëtaire dataset. We evalueren de geproduceerde modellen met behulp van standaard kwaliteitsmetingen en een nieuwe aanpak gebaseerd op muziekinformatie-retrieval descriptoren. Het resulterende model bereikt de audiokwaliteit van state-of-the-art tekst-geconditioneerde modellen en vertoont tevens een sterke muzikale samenhang met zijn context.
Kleine modellen bieden diverse computationele voordelen, maar in hoeverre grootte cruciaal is voor probleemoplossend vermogen blijft een open vraag. Specifiek voor het oplossen van rekenproblemen op basisschoolniveau is het kleinste modelformaat dat tot nu toe nodig was om de 80\%-drempel op de GSM8K-benchmark te doorbreken, nog steeds 34B. Ons werk onderzoekt hoe hoogwaardige datasets de sleutel kunnen zijn voor kleine taalmmodellen om wiskundig redeneren te verwerven. We introduceren TinyGSM, een synthetische dataset van 12,3 miljoen rekenproblemen op basisschoolniveau, gekoppeld aan Python-oplossingen, volledig gegenereerd door GPT-3.5. Na fine-tuning op TinyGSM ontdekken we dat een duo van een 1,3B-generatiemodel en een 1,3B-verifiërend model een nauwkeurigheid van 81,5\% kan bereiken, wat beter presteert dan bestaande modellen die een veelvoud groter zijn. Dit evenaart ook de prestaties van het GPT-3.5 "leraar"-model (77,4\%), waaruit de trainingsgegevens van ons model zijn gegenereerd. Onze aanpak is eenvoudig en heeft twee belangrijke componenten: 1) de hoogwaardige dataset TinyGSM, 2) het gebruik van een verifiërend model, dat de uiteindelijke uitvoer selecteert uit meerdere kandidaatgeneraties.
Mensen besteden een enorme hoeveelheid tijd aan digitale apparaten via grafische gebruikersinterfaces (GUIs), zoals computerschermen of smartphones. Grote taalmodellen (LLMs) zoals ChatGPT kunnen mensen helpen bij taken zoals het schrijven van e-mails, maar hebben moeite met het begrijpen en interactie hebben met GUIs, wat hun potentieel om automatisering te vergroten beperkt. In dit artikel introduceren we CogAgent, een visueel taalmodel (VLM) met 18 miljard parameters dat gespecialiseerd is in het begrijpen en navigeren van GUIs. Door zowel laagresolutie- als hoogresolutie-afbeeldingsencoders te gebruiken, ondersteunt CogAgent invoer met een resolutie van 1120*1120, waardoor het kleine pagina-elementen en tekst kan herkennen. Als een generalistisch visueel taalmodel behaalt CogAgent de state of the art op vijf tekstrijke en vier algemene VQA-benchmarks, waaronder VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet en POPE. CogAgent, dat alleen schermafbeeldingen als invoer gebruikt, presteert beter dan LLM-gebaseerde methoden die geëxtraheerde HTML-tekst verwerken bij zowel PC- als Android-GUI-navigatietaken – Mind2Web en AITW, en zet daarmee de state of the art verder. Het model en de code zijn beschikbaar op https://github.com/THUDM/CogVLM.
Consistentiemodellen hebben een krachtig vermogen getoond in efficiënte beeldgeneratie en maken synthese mogelijk binnen een beperkt aantal samplingstappen, waardoor de hoge rekenkosten in diffusiemodellen worden verlicht. Het consistentiemodel in de uitdagendere en resource-intensievere videogeneratie is echter nog weinig onderzocht. In dit rapport presenteren we het VideoLCM-framework om deze leemte te vullen, dat het concept van consistentiemodellen uit beeldgeneratie benut om efficiënt video's te synthetiseren met minimale stappen, terwijl een hoge kwaliteit behouden blijft. VideoLCM bouwt voort op bestaande latente videodiffusiemodellen en integreert consistentiedistillatietechnieken voor het trainen van het latente consistentiemodel. Experimentele resultaten tonen de effectiviteit van VideoLCM aan op het gebied van rekenkundige efficiëntie, geloofwaardigheid en temporele consistentie. Opmerkelijk is dat VideoLCM hoogwaardige en vloeiende videosynthese bereikt met slechts vier samplingstappen, wat het potentieel voor real-time synthese aantoont. We hopen dat VideoLCM kan dienen als een eenvoudige maar effectieve basis voor vervolgonderzoek. De broncode en modellen zullen publiekelijk beschikbaar worden gesteld.
Curatiemethoden voor grootschalige visueel-taalkundige datasets balanceren tussen datasetgrootte en kwaliteit. Echter, zelfs de hoogste kwaliteit van beschikbare gecurateerde bijschriften zijn veel te kort om de rijke visuele details in een afbeelding vast te leggen. Om de waarde van dichte en sterk uitgelijnde afbeelding-tekstparen aan te tonen, verzamelen we de Densely Captioned Images (DCI) dataset, die 8012 natuurlijke afbeeldingen bevat die door mensen zijn geannoteerd met masker-uitgelijnde beschrijvingen van gemiddeld meer dan 1000 woorden per stuk. Met precieze en betrouwbare bijschriften die gekoppeld zijn aan specifieke delen van een afbeelding, kunnen we het begrip van afbeeldingsinhoud door visueel-taalkundige modellen (VLMs) evalueren met een nieuwe taak die elk bijschrift matcht met het bijbehorende subgewas. Aangezien huidige modellen vaak beperkt zijn tot 77 teksttokens, introduceren we ook een samengevatte versie (sDCI) waarin de lengte van elk bijschrift beperkt is. We laten zien dat moderne technieken die vooruitgang boeken op standaardbenchmarks niet overeenkomen met significante verbetering op onze sDCI-gebaseerde benchmark. Tot slot finetunen we CLIP met sDCI en tonen we significante verbeteringen ten opzichte van de baseline, ondanks een kleine trainingsset. Door de eerste door mensen geannoteerde dichte afbeeldingsbeschrijvingsdataset vrij te geven, hopen we de ontwikkeling van nieuwe benchmarks of fine-tuningrecepten voor de volgende generatie VLMs mogelijk te maken.
Huidige diffusie- of stroomgebaseerde generatieve modellen voor 3D-vormen vallen uiteen in twee categorieën: het destilleren van vooraf getrainde 2D-beelddiffusiemodellen, en het direct trainen op 3D-vormen. Bij het trainen van een diffusie- of stroommodel op 3D-vormen is een cruciale ontwerpkeuze de vormrepresentatie. Een effectieve vormrepresentatie moet aan drie ontwerpprincipes voldoen: het moet een efficiënte conversie van grote 3D-datasets naar de representatievorm mogelijk maken; het moet een goede balans bieden tussen benaderingskracht en het aantal parameters; en het moet een eenvoudige tensoriële vorm hebben die compatibel is met bestaande krachtige neurale architecturen. Terwijl standaard 3D-vormrepresentaties zoals volumetrische roosters en puntenwolken niet aan al deze principes tegelijk voldoen, bepleiten wij in dit artikel een nieuwe representatie die dat wel doet. We introduceren Mosaic-SDF (M-SDF): een eenvoudige 3D-vormrepresentatie die de Signed Distance Function (SDF) van een gegeven vorm benadert door gebruik te maken van een set lokale roosters verspreid nabij de grens van de vorm. De M-SDF-representatie is snel te berekenen voor elke vorm afzonderlijk, waardoor het gemakkelijk paralleliseerbaar is; het is parameter-efficiënt omdat het alleen de ruimte rond de grens van de vorm beslaat; en het heeft een eenvoudige matrixvorm, compatibel met Transformer-gebaseerde architecturen. We demonstreren de effectiviteit van de M-SDF-representatie door deze te gebruiken om een 3D-generatief stroommodel te trainen, inclusief klasse-geconditioneerde generatie met de 3D Warehouse-dataset, en tekst-naar-3D-generatie met behulp van een dataset van ongeveer 600k bijschrift-vorm-paren.
Grote taalmodellen hebben de afgelopen jaren grote successen geboekt, evenals hun varianten in het visuele domein. Bestaande visie-taalmodellen kunnen afbeeldingen beschrijven in natuurlijke taal, visueel gerelateerde vragen beantwoorden, of complexe redeneringen over de afbeelding uitvoeren. Het is echter nog onduidelijk hoe lokalisatietaken, zoals woordverankering of verwijzende lokalisatie, kunnen worden uitgevoerd met behulp van grote taalmodellen. In dit werk streven we ernaar een visie-taalmodel te ontwikkelen dat locaties, bijvoorbeeld een set punten of vakjes, kan gebruiken als invoer of uitvoer. Wanneer locaties als invoer worden gebruikt, voert het model locatie-geconditioneerde bijschrijving uit, waarbij bijschriften worden gegenereerd voor het aangegeven object of gebied. Wanneer locaties als uitvoer worden gegenereerd, regresseert ons model pixelcoördinaten voor elk uitvoerwoord dat door het taalmodel wordt gegenereerd, en voert het zo dichte woordverankering uit. Ons model is voorgetraind op de Localized Narrative-dataset, die pixel-woord-uitgelijnde bijschrijving bevat op basis van menselijke aandacht. We laten zien dat ons model kan worden toegepast op verschillende locatiebewuste visie-taal taken, waaronder verwijzende lokalisatie, locatie-geconditioneerde bijschrijving, en dichte objectbijschrijving, en daarbij state-of-the-art prestaties behaalt op RefCOCO en Visual Genome. Projectpagina: https://jerryxu.net/PixelLLM.
Aangedreven door grootschalige tekst-naar-beeldgeneratiemodellen heeft tekst-naar-3D-avatargeneratie veelbelovende vooruitgang geboekt. De meeste methoden slagen er echter niet in fotorealistische resultaten te produceren, beperkt door onnauwkeurige geometrie en kwalitatief onvoldoende uiterlijk. Voor een praktischere avatargeneratie presenteren wij SEEAvatar, een methode voor het genereren van fotorealistische 3D-avatars uit tekst met SElf-Evolving-beperkingen voor ontkoppelde geometrie en uiterlijk. Voor de geometrie stellen wij voor om de geoptimaliseerde avatar te beperken tot een degelijke globale vorm met behulp van een sjabloonavatar. De sjabloonavatar wordt geïnitialiseerd met menselijke voorkennis en kan periodiek worden bijgewerkt door de geoptimaliseerde avatar als een evoluerend sjabloon, wat een flexibelere vormgeneratie mogelijk maakt. Daarnaast wordt de geometrie ook beperkt door de statische menselijke voorkennis in lokale delen zoals het gezicht en de handen om de delicate structuren te behouden. Voor het genereren van het uiterlijk gebruiken wij een diffusiemodel versterkt door prompt engineering om een fysiek gebaseerd renderpipeline te begeleiden bij het genereren van realistische texturen. De lichtheidsbeperking wordt toegepast op de albedotekstuur om incorrecte lichteffecten te onderdrukken. Experimenten tonen aan dat onze methode eerdere methoden overtreft op het gebied van zowel globale als lokale geometrie en uiterlijkkwaliteit met een grote marge. Omdat onze methode hoogwaardige meshes en texturen kan produceren, kunnen dergelijke assets direct worden toegepast in de klassieke graphicspipeline voor realistische rendering onder elke lichtconditie. Projectpagina: https://seeavatar3d.github.io.
Dit artikel introduceert een nieuwe aanpak om de mogelijkheden van Large Language Models (LLMs) te verbeteren bij het verwerken en begrijpen van uitgebreide tekstsequenties, een cruciaal aspect in toepassingen die diepgaand begrip en synthese van grote hoeveelheden informatie vereisen. Erkennend de inherente uitdagingen bij het uitbreiden van het contextvenster voor LLMs, die voornamelijk zijn gebouwd op de Transformer-architectuur, stellen we een nieuw modelarchitectuur voor, genaamd Zebra. Deze architectuur beheert efficiënt de kwadratische tijd- en geheugencomplexiteitsproblemen die gepaard gaan met volledige aandacht in de Transformer door gebruik te maken van gegroepeerde lokaal-globale aandachtslagen. Ons model, vergelijkbaar met de afwisselende strepen van een zebra, balanceert lokale en globale aandachtslagen, waardoor de rekenkundige vereisten en het geheugengebruik aanzienlijk worden verminderd. Uitgebreide experimenten, waaronder pretraining vanaf nul, voortzetting van lange contextaanpassingstraining en lange instructieafstemming, worden uitgevoerd om de prestaties van Zebra te evalueren. De resultaten tonen aan dat Zebra vergelijkbare of superieure prestaties behaalt op zowel korte als lange sequentiebenchmarks, terwijl ook de trainings- en inferentie-efficiëntie wordt verbeterd.
Onlangs geïntroduceerde ControlNet heeft de mogelijkheid om het tekstgestuurde beeldgeneratieproces te sturen met geometrische invoer, zoals een 2D-pose van een mens of randkenmerken. Hoewel ControlNet controle biedt over de geometrische vorm van de objecten in het gegenereerde beeld, ontbreekt het de mogelijkheid om het visuele uiterlijk van elk object te bepalen. Wij presenteren FineControlNet om gedetailleerde controle te bieden over het uiterlijk van elk object, terwijl de precieze posecontrole behouden blijft. Specifiek ontwikkelen en demonstreren wij FineControlNet met geometrische controle via menselijke posebeelden en uiterlijkcontrole via tekstprompts op objectniveau. De ruimtelijke uitlijning van object-specifieke tekstprompts en 2D-poses in de latente ruimte maakt de fijne controlecapaciteiten van FineControlNet mogelijk. Wij evalueren de prestaties van FineControlNet door middel van een grondige vergelijking met state-of-the-art pose-geconditioneerde tekst-naar-beeld diffusiemodellen. FineControlNet behaalt superieure prestaties in het genereren van beelden die de door de gebruiker verstrekte object-specifieke tekstprompts en poses volgen in vergelijking met bestaande methoden. Projectwebpagina: https://samsunglabs.github.io/FineControlNet-project-page
Het ontwikkelen van generalistische agents die veel doelen kunnen bereiken in rijke, open-ended omgevingen is een van de onderzoeksfronten voor reinforcement learning. Een belangrijke beperkende factor bij het bouwen van generalistische agents met RL is de behoefte aan een groot aantal beloningsfuncties voor het bereiken van verschillende doelen. Wij onderzoeken de haalbaarheid van het gebruik van kant-en-klare vision-language modellen, of VLMs, als bronnen van beloningen voor reinforcement learning agents. We laten zien hoe beloningen voor het visueel bereiken van een verscheidenheid aan taaldoelen kunnen worden afgeleid uit de CLIP-familie van modellen, en gebruikt kunnen worden om RL agents te trainen die een verscheidenheid aan taaldoelen kunnen bereiken. We demonstreren deze aanpak in twee verschillende visuele domeinen en presenteren een schaalbaarheidstrend die laat zien hoe grotere VLMs leiden tot nauwkeurigere beloningen voor het visueel bereiken van doelen, wat op zijn beurt weer capabelere RL agents oplevert.
Diffusiemodellen (DMs) hebben aan populariteit gewonnen vanwege hun vermogen om hoogwaardige, gevarieerde afbeeldingen te genereren, met recente vooruitgang in tekst-naar-beeldgeneratie. Het onderzoeksfocus verschuift nu naar de beheersbaarheid van DMs. Een belangrijke uitdaging binnen dit domein is gelokaliseerde bewerking, waarbij specifieke delen van een afbeelding worden aangepast zonder de rest van de inhoud te beïnvloeden. Dit artikel introduceert LIME voor gelokaliseerde beeldbewerking in diffusiemodellen die geen door de gebruiker gespecificeerde interessegebieden (RoI) of aanvullende tekstinvoer vereisen. Onze methode maakt gebruik van kenmerken van vooraf getrainde methoden en een eenvoudige clusteringtechniek om nauwkeurige semantische segmentatiekaarten te verkrijgen. Vervolgens worden deze segmenten verfijnd voor gelokaliseerde bewerkingen door gebruik te maken van cross-attention-kaarten. Tot slot stellen we een nieuwe cross-attention-regularisatietechniek voor die niet-gerelateerde cross-attention-scores in het RoI bestraft tijdens de denoising-stappen, waardoor gelokaliseerde bewerkingen worden gegarandeerd. Onze aanpak verbetert, zonder hertraining en fine-tuning, consistent de prestaties van bestaande methoden in verschillende bewerkingsbenchmarks.
In dit werk presenteren we GLEE, een foundation model op objectniveau voor het lokaliseren en identificeren van objecten in afbeeldingen en video's. Door middel van een uniform raamwerk realiseert GLEE detectie, segmentatie, tracking, grounding en identificatie van willekeurige objecten in open-wereldscenario's voor diverse objectperceptietaken. Door een samenhangende leerstrategie te hanteren, verwerft GLEE kennis uit diverse gegevensbronnen met verschillende niveaus van supervisie om algemene objectrepresentaties te formuleren, wat uitblinkt in zero-shot transfer naar nieuwe gegevens en taken. Specifiek gebruiken we een beeldencoder, tekstencoder en visuele prompter om multimodale invoer te verwerken, waardoor het mogelijk wordt om verschillende objectgerichte downstream taken gelijktijdig op te lossen terwijl state-of-the-art prestaties worden behouden. GLEE toont opmerkelijke veelzijdigheid en verbeterde generalisatieprestaties, wat wordt aangetoond door uitgebreide training op meer dan vijf miljoen afbeeldingen van diverse benchmarks, en pakt downstream taken efficiënt aan zonder de noodzaak van taakspecifieke aanpassing. Door grote hoeveelheden automatisch gelabelde gegevens te integreren, versterken we verder de zero-shot generalisatiecapaciteiten. Daarnaast kan GLEE worden geïntegreerd in Large Language Models, waar het dient als een foundation model om universele objectniveau-informatie te bieden voor multimodale taken. We hopen dat de veelzijdigheid en universaliteit van onze methode een belangrijke stap zal markeren in de ontwikkeling van efficiënte visuele foundation modellen voor AGI-systemen. Het model en de code zullen worden vrijgegeven op https://glee-vision.github.io.
Recente vooruitgang in tekst-naar-3D-generatietechnologie heeft de omzetting van tekstuele beschrijvingen naar fantasierijke, goed-geometrische en fijn getextureerde 3D-objecten aanzienlijk verbeterd. Ondanks deze ontwikkelingen ontstaat een veelvoorkomende beperking door het gebruik van RGB-gegevens in diffusie- of reconstructiemodellen, wat vaak resulteert in modellen met inherente belichtings- en schaduweffecten die afbreuk doen aan hun realisme, waardoor hun bruikbaarheid in toepassingen die nauwkeurige herbelichtingsmogelijkheden vereisen, wordt beperkt. Om deze kloof te overbruggen, presenteren we UniDream, een tekst-naar-3D-generatieraamwerk door het integreren van verenigde diffusiepriors. Onze aanpak bestaat uit drie hoofdcomponenten: (1) een tweefasig trainingsproces om albedo-normaal uitgelijnde multi-view diffusie- en reconstructiemodellen te verkrijgen, (2) een progressief generatieproces voor geometrie en albedo-texturen gebaseerd op Score Distillation Sample (SDS) met behulp van de getrainde reconstructie- en diffusiemodellen, en (3) een innovatieve toepassing van SDS voor het finaliseren van PBR-generatie terwijl een vast albedo wordt aangehouden op basis van het Stable Diffusion-model. Uitgebreide evaluaties tonen aan dat UniDream bestaande methoden overtreft in het genereren van 3D-objecten met duidelijkere albedo-texturen, gladder oppervlak, verbeterd realisme en superieure herbelichtingsmogelijkheden.
Dit onderzoek bestudeert 4-bit kwantiseringsmethoden zoals GPTQ in grote taalmodelen (LLMs), waarbij de overfitting en beperkte verbetering van GPTQ in Zero-Shot taken worden belicht. Terwijl eerdere werken zich enkel richtten op zero-shot metingen, breiden wij het takenbereik uit naar meer generatieve categorieën zoals codegeneratie en abstractieve samenvatting, waarin we ontdekten dat INT4-kwantisering aanzienlijk kan onderpresteren. Echter, het simpelweg overschakelen naar hogere precisieformaten zoals FP6 is bijzonder uitdagend geweest en daardoor over het hoofd gezien, vanwege slechte prestaties veroorzaakt door het gebrek aan geavanceerde integratie- en systeemversnellingsstrategieën op huidige AI-hardware. Onze resultaten tonen aan dat FP6, zelfs met een grofkorrelig kwantiseringsschema, robuust presteert over verschillende algoritmen en taken, wat de superioriteit in nauwkeurigheid en veelzijdigheid aantoont. Opmerkelijk is dat met de FP6-kwantisering het \codestar-15B model vergelijkbaar presteert met zijn FP16-tegenhanger in codegeneratie, en voor kleinere modellen zoals de 406M dicht bij hun basislijnen komt in samenvatting. Geen van beide kan worden bereikt door INT4. Om beter aan te sluiten bij verschillende AI-hardware en de beste systeemprestaties te bereiken, stellen we een nieuw 4+2 ontwerp voor FP6 voor om een vergelijkbare latentie te bereiken als de state-of-the-art INT4 fijnkorrelige kwantisering. Met ons ontwerp kan FP6 een veelbelovende oplossing worden voor de huidige 4-bit kwantiseringsmethoden die in LLMs worden gebruikt.
In dit werk introduceren we de Vision-Language Generative Pre-trained Transformer (VL-GPT), een transformermodel dat bekwaam is in het gelijktijdig waarnemen en genereren van visuele en linguïstische data. VL-GPT bereikt een geünificeerde voorafgaande training voor zowel beeld- als tekstmodaliteiten door gebruik te maken van een eenvoudig auto-regressief doel, waardoor het model beeld en tekst net zo naadloos kan verwerken als een taalmodel tekst verwerkt. Om dit te bereiken, stellen we eerst een nieuw beeld-tokenizer-detokenizer-framework voor visuele data voor, specifiek ontworpen om ruwe beelden om te zetten in een reeks continue embeddings en deze dienovereenkomstig te reconstrueren. In combinatie met de bestaande tekst-tokenizer en -detokenizer maakt dit framework het mogelijk om afgewisselde beeld-tekstdata te coderen in een multimodale reeks, die vervolgens in het transformermodel kan worden ingevoerd. Hierdoor kan VL-GPT grootschalige voorafgaande training uitvoeren op multimodale corpora met behulp van een geünificeerd auto-regressief doel (d.w.z., volgende-token-voorspelling). Na voltooiing van de voorafgaande training vertoont VL-GPT opmerkelijke zero-shot en few-shot prestaties op een diverse reeks visuele en linguïstische begrips- en generatietaken, waaronder beeldbeschrijving, visuele vraagbeantwoording, tekst-naar-beeldgeneratie, en meer. Daarnaast behoudt het vooraf getrainde model in-context leercapaciteiten wanneer het wordt voorzien van multimodale prompts. We voeren verder instructieafstemming uit op onze VL-GPT, wat het uitzonderlijke potentieel voor multimodale assistentie benadrukt. De broncode en modelgewichten zullen worden vrijgegeven.
Beloningsmodellen spelen een sleutelrol in het afstemmen van taalmodeltoepassingen op menselijke voorkeuren. Deze opzet creëert echter een prikkel voor het taalmodel om fouten in het beloningsmodel uit te buiten om een hoge geschatte beloning te behalen, een fenomeen dat vaak wordt aangeduid als 'reward hacking'. Een natuurlijke oplossing is het trainen van een ensemble van beloningsmodellen, waarbij de uitkomsten van de modellen worden geaggregeerd om een robuustere beloningsschatting te verkrijgen. We onderzoeken de toepassing van beloningsensembles voor afstemming tijdens zowel de trainingsfase (via reinforcement learning) als de inferentiefase (via herrangschikking). Ten eerste laten we zien dat beloningsmodellen ondergespecificeerd zijn: beloningsmodellen die vergelijkbaar presteren binnen de trainingsdistributie kunnen zeer verschillende beloningen opleveren wanneer ze worden gebruikt voor afstemming, vanwege distributieverschuiving. Ten tweede leidt ondergespecificeerdheid tot overoptimalisatie, waarbij afstemming op één beloningsmodel de beloning zoals gemeten door een ander beloningsmodel dat op dezelfde data is getraind, niet verbetert. Ten derde wordt overoptimalisatie verminderd door het gebruik van beloningsensembles, en ensembles die variëren in hun pre-trainingszaden leiden tot betere generalisatie dan ensembles die alleen verschillen in hun fine-tuningzaden, waarbij beide individuele beloningsmodellen overtreffen. Echter, zelfs pre-train beloningsensembles elimineren reward hacking niet volledig: we laten verschillende kwalitatieve reward hacking-fenomenen zien die niet worden verminderd door ensembling, omdat alle beloningsmodellen in het ensemble vergelijkbare foutpatronen vertonen.
Wij stellen een nieuw feed-forward 3D-bewerkingsframework voor, genaamd Shap-Editor. Eerder onderzoek naar het bewerken van 3D-objecten richtte zich voornamelijk op het bewerken van individuele objecten door gebruik te maken van bestaande 2D-afbeeldingsbewerkingsnetwerken. Dit wordt bereikt via een proces genaamd distillatie, waarbij kennis wordt overgedragen van het 2D-netwerk naar 3D-assets. Distillatie vereist minstens tientallen minuten per asset om bevredigende bewerkingsresultaten te behalen, en is daardoor niet erg praktisch. In tegenstelling daarmee vragen wij ons af of 3D-bewerking direct kan worden uitgevoerd door een feed-forward netwerk, zonder test-time optimalisatie. In het bijzonder stellen wij de hypothese dat bewerking aanzienlijk kan worden vereenvoudigd door eerst 3D-objecten te coderen in een geschikte latente ruimte. Wij valideren deze hypothese door voort te bouwen op de latente ruimte van Shap-E. Wij tonen aan dat directe 3D-bewerking in deze ruimte mogelijk en efficiënt is door een feed-forward bewerkingsnetwerk te bouwen dat slechts ongeveer één seconde per bewerking vereist. Onze experimenten laten zien dat Shap-Editor goed generaliseert naar zowel in-distributie als out-of-distributie 3D-assets met verschillende prompts, en vergelijkbare prestaties vertoont met methoden die test-time optimalisatie uitvoeren voor elk bewerkt exemplaar.
We introduceren en brengen de TigerBot-familie van grote taalmodellen (LLMs) uit, bestaande uit basis- en chatmodellen, met groottes van 7, 13, 70 en 180 miljard parameters. We ontwikkelen onze modellen uitgaande van Llama-2 en BLOOM, en verleggen de grenzen verder op het gebied van data, trainingsalgoritmen, infrastructuur en toepassingsgereedschappen. Onze modellen leveren een significante prestatieverbetering op ten opzichte van state-of-the-art (SOTA) open-source modellen, zoals Llama-2, met name een verbetering van 6% in het Engels en 20% in het Chinees. De TigerBot-modelfamilie behaalt ook toonaangevende prestaties in belangrijke academische en industriële benchmarks en ranglijsten. Wij geloven dat TigerBot slechts een momentopname vertegenwoordigt van de razendsnelle vooruitgang in de open-source LLM-gemeenschap. Daarom zijn we verheugd om iets terug te geven door onze modellen openbaar te maken en onze aanpak te delen, met extra nadruk op het bouwen van SOTA LLMs op een gedemocratiseerde manier en het bruikbaar maken van LLMs in real-world toepassingen.