Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Text-to-image model personalisatie heeft als doel een door de gebruiker aangeboden concept in het model te introduceren, waardoor het in diverse contexten kan worden gesynthetiseerd. Huidige methoden richten zich echter voornamelijk op het leren van een enkel concept uit meerdere afbeeldingen met variaties in achtergronden en poses, en hebben moeite wanneer ze worden aangepast aan een ander scenario. In dit werk introduceren we de taak van tekstuele scène-decompositie: gegeven een enkele afbeelding van een scène die mogelijk meerdere concepten bevat, streven we ernaar een apart teksttoken voor elk concept te extraheren, waardoor fijnmazige controle over de gegenereerde scènes mogelijk wordt. Hiertoe stellen we voor om de invoerafbeelding aan te vullen met maskers die de aanwezigheid van doelconcepten aangeven. Deze maskers kunnen door de gebruiker worden verstrekt of automatisch worden gegenereerd door een vooraf getraind segmentatiemodel. Vervolgens presenteren we een nieuw tweefasen aanpassingsproces dat een reeks toegewijde tekstuele embeddings (handles) optimaliseert, evenals de modelgewichten, waarbij een delicate balans wordt gevonden tussen het nauwkeurig vastleggen van de concepten en het vermijden van overfitting. We gebruiken een gemaskeerd diffusieverlies om handles in staat te stellen hun toegewezen concepten te genereren, aangevuld met een nieuw verlies op cross-attention maps om verstrengeling te voorkomen. We introduceren ook union-sampling, een trainingsstrategie die gericht is op het verbeteren van het vermogen om meerdere concepten in gegenereerde afbeeldingen te combineren. We gebruiken verschillende automatische metrieken om onze methode kwantitatief te vergelijken met verschillende baselines, en bevestigen de resultaten verder met een gebruikersstudie. Tot slot laten we verschillende toepassingen van onze methode zien. De projectpagina is beschikbaar op: https://omriavrahami.com/break-a-scene/
In dit artikel presenteren we ControlVideo, een nieuwe methode voor tekstgestuurde videobewerking. Door gebruik te maken van de mogelijkheden van tekst-naar-beeld diffusiemodellen en ControlNet, streeft ControlVideo ernaar de nauwkeurigheid en temporele consistentie van video's die overeenkomen met een gegeven tekst te verbeteren, terwijl de structuur van de bronvideo behouden blijft. Dit wordt bereikt door aanvullende voorwaarden, zoals randkaarten, te integreren en de sleutelframe- en temporele aandacht op het bronvideo-tekstpaar af te stemmen met zorgvuldig ontworpen strategieën. Een diepgaande verkenning van het ontwerp van ControlVideo wordt uitgevoerd om toekomstig onderzoek naar one-shot tuning van videodiffusiemodellen te informeren. Kwantitatief gezien presteert ControlVideo beter dan een reeks competitieve basislijnen wat betreft trouw en consistentie, terwijl het nog steeds overeenkomt met de tekstuele prompt. Daarnaast levert het video's op met een hoge visuele realiteit en nauwkeurigheid ten opzichte van de broninhoud, wat de flexibiliteit aantoont in het gebruik van controles die verschillende niveaus van bronvideo-informatie bevatten, en het potentieel voor meerdere controlecombinaties. De projectpagina is beschikbaar op https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
De Transformer-architectuur heeft indrukwekkende prestaties getoond in meerdere onderzoeksdomeinen en is de ruggengraat geworden van veel neurale netwerkmodellen. Er is echter beperkt begrip over hoe deze werkt. Met name blijft het een raadsel hoe de representatie ontstaat uit de gradienttrainingsdynamiek met een eenvoudig voorspellend verlies. In dit artikel analyseren we, voor een 1-laags Transformer met één self-attention-laag plus één decoder-laag, de SGD-trainingsdynamiek voor de taak van volgende tokenvoorspelling op een wiskundig rigoureuze manier. We openen de black box van het dynamische proces van hoe de self-attention-laag invoertokens combineert, en onthullen de aard van de onderliggende inductieve bias. Meer specifiek, onder de aannames (a) geen positionele codering, (b) lange invoerreeks, en (c) de decoder-laag leert sneller dan de self-attention-laag, bewijzen we dat self-attention fungeert als een discriminerend scan-algoritme: beginnend met uniforme aandacht, richt het zich geleidelijk meer op onderscheidende sleuteltokens voor een specifieke volgende token die moet worden voorspeld, en besteedt het minder aandacht aan gemeenschappelijke sleuteltokens die voorkomen bij verschillende volgende tokens. Onder onderscheidende tokens laat het progressief de aandachtgewichten dalen, volgens de volgorde van lage naar hoge co-voorkomens tussen de sleutel- en de querytoken in de trainingsset. Interessant genoeg leidt dit proces niet tot een winner-takes-all-situatie, maar vertraagt het door een faseovergang die beheersbaar is door de leerpercentages van de twee lagen, waardoor (bijna) vaste tokencombinaties overblijven. We verifiëren deze \emph{scan en snap}-dynamiek op synthetische en real-world data (WikiText).
Zowel Minsky's "society of mind" als Schmidhuber's "learning to think" inspireren diverse samenlevingen van grote multimodale neurale netwerken (NNs) die problemen oplossen door elkaar te interviewen in een "mindstorm." Recente implementaties van NN-gebaseerde samenlevingen van geesten bestaan uit grote taalmodellen (LLMs) en andere NN-gebaseerde experts die communiceren via een natuurlijke taalinterface. Hierdoor overkomen ze de beperkingen van individuele LLMs en verbeteren ze multimodaal zero-shot redeneren. In deze op natuurlijke taal gebaseerde samenlevingen van geesten (NLSOMs) kunnen nieuwe agents — die allemaal communiceren via dezelfde universele symbolische taal — eenvoudig op een modulaire manier worden toegevoegd. Om de kracht van NLSOMs te demonstreren, assembleren en experimenteren we met verschillende ervan (met tot 129 leden), waarbij we mindstorms benutten om enkele praktische AI-taken op te lossen: visuele vraagbeantwoording, beeldbeschrijving, tekst-naar-beeld synthese, 3D-generatie, egocentrisch ophalen, embodied AI, en algemene taalgebaseerde taakoplossing. We zien dit als een startpunt naar veel grotere NLSOMs met miljarden agents — waarvan sommige mensen kunnen zijn. En met de opkomst van grote samenlevingen van heterogene geesten, zijn veel nieuwe onderzoeksvragen plotseling van cruciaal belang geworden voor de toekomst van kunstmatige intelligentie. Wat zou de sociale structuur van een NLSOM moeten zijn? Wat zouden de (dis)voordelen zijn van een monarchische in plaats van een democratische structuur? Hoe kunnen principes van NN-economieën worden gebruikt om de totale beloning van een reinforcement learning NLSOM te maximaliseren? In dit werk identificeren, bespreken en proberen we enkele van deze vragen te beantwoorden.
Besluitvormingsagenten gebaseerd op grote taalmodellen (LLM's) hebben het vermogen getoond om te generaliseren over meerdere taken. Hun prestaties zijn echter afhankelijk van enorme hoeveelheden data en rekenkracht. Wij stellen dat deze inefficiëntie voortkomt uit het vergeten-fenomeen, waarbij een model zijn gedragingen in parameters onthoudt gedurende de training. Als gevolg hiervan kan training op een nieuwe taak de prestaties van het model op eerdere taken verslechteren. In tegenstelling tot het impliciete geheugenmechanisme van LLM's, maakt het menselijk brein gebruik van gedistribueerde geheugenopslag, wat helpt bij het efficiënt beheren en organiseren van meerdere vaardigheden, waardoor het vergeten-fenomeen wordt gemitigeerd. Geïnspireerd hierdoor stellen wij een intern werkgeheugenmodule voor om informatie voor verschillende downstream taken op te slaan, te combineren en op te halen. Evaluatieresultaten tonen aan dat de voorgestelde methode de trainingsefficiëntie en generalisatie verbetert in zowel Atari-spellen als meta-wereld objectmanipulatietaken. Bovendien laten we zien dat geheugen-finetuning de aanpassingsbaarheid van de voorgestelde architectuur verder verbetert.
Leren van menselijke feedback is aangetoond dat het tekst-naar-beeldmodellen verbetert. Deze technieken leren eerst een beloningsfunctie die vastlegt waar mensen op letten bij de taak en verbeteren vervolgens de modellen op basis van de geleerde beloningsfunctie. Hoewel relatief eenvoudige benaderingen (bijvoorbeeld afwijzingssteekproeven op basis van beloningsscores) zijn onderzocht, blijft het finetunen van tekst-naar-beeldmodellen met de beloningsfunctie een uitdaging. In dit werk stellen we voor om online reinforcement learning (RL) te gebruiken om tekst-naar-beeldmodellen te finetunen. We richten ons op diffusiemodellen, definiëren de finetuningstaak als een RL-probleem, en updaten de vooraf getrainde tekst-naar-beeld diffusiemodellen met behulp van policy gradient om de op feedback getrainde beloning te maximaliseren. Onze aanpak, genaamd DPOK, integreert policy-optimalisatie met KL-regularisatie. We voeren een analyse uit van KL-regularisatie voor zowel RL-finetuning als supervised finetuning. In onze experimenten tonen we aan dat DPOK over het algemeen superieur is aan supervised finetuning wat betreft zowel beeld-tekstuitlijning als beeldkwaliteit.
Naarmate dialoogagenten steeds menselijker worden in hun prestaties, is het van cruciaal belang dat we effectieve manieren ontwikkelen om hun gedrag op hoog niveau te beschrijven zonder in de valkuil van antropomorfisme te vervallen. In dit artikel plaatsen we het concept van rollenspel op de voorgrond. Door het gedrag van dialoogagenten in termen van rollenspel te beschrijven, kunnen we gebruikmaken van bekende folkpsychologische termen, zonder menselijke eigenschappen toe te schrijven aan taalmodelen die deze in feite niet bezitten. Twee belangrijke gevallen van dialoogagentgedrag worden op deze manier behandeld, namelijk (schijnbare) misleiding en (schijnbaar) zelfbewustzijn.
We presenteren PandaGPT, een benadering om grote taalmodellen te emPoweren met visuele en auditieve instructievolgingscapaciteiten. Onze pilotexperimenten tonen aan dat PandaGPT complexe taken kan uitvoeren, zoals het genereren van gedetailleerde beeldbeschrijvingen, het schrijven van verhalen geïnspireerd door video's, en het beantwoorden van vragen over audio's. Interessanter is dat PandaGPT multimodale inputs gelijktijdig kan verwerken en hun semantiek op een natuurlijke manier kan samenstellen. Zo kan PandaGPT bijvoorbeeld verbinden hoe objecten eruitzien in een beeld/video en hoe ze klinken in een audio. Om dit te bereiken, combineert PandaGPT de multimodale encoders van ImageBind en de grote taalmodellen van Vicuna. Opmerkelijk is dat alleen uitgelijnde beeld-tekstparen nodig zijn voor de training van PandaGPT. Dankzij de sterke capaciteit van ImageBind om gegevens van verschillende modaliteiten in dezelfde ruimte in te bedden, vertoont PandaGPT emergent, d.w.z. zero-shot, cross-modale gedragingen voor gegevens anders dan beeld en tekst (bijv. video, audio, diepte, thermisch en IMU). We hopen dat PandaGPT een eerste stap is naar het bouwen van AGI die inputs in verschillende modaliteiten holistisch kan waarnemen en begrijpen, zoals wij mensen dat doen. Onze projectpagina is te vinden op https://panda-gpt.github.io/.
Recent onderzoek toont het potentieel aan van het verbeteren van het probleemoplossend vermogen van grote taalmodellen (LLM's) door het gebruik van externe tools. Echter, eerder werk op dit gebied is afhankelijk van de beschikbaarheid van bestaande tools. In dit werk zetten we een eerste stap om deze afhankelijkheid te verwijderen door een gesloten framework voor te stellen, genaamd LLMs As Tool Makers (LATM), waarbij LLM's hun eigen herbruikbare tools creëren voor probleemoplossing. Onze aanpak bestaat uit twee belangrijke fasen: 1) tool maken: een LLM fungeert als de toolmaker die tools ontwikkelt voor gegeven taken, waarbij een tool wordt geïmplementeerd als een Python utility-functie. 2) tool gebruiken: een LLM fungeert als de toolgebruiker, die de door de toolmaker gebouwde tool toepast voor probleemoplossing. De toolgebruiker kan hetzelfde of een ander LLM zijn dan de toolmaker. Toolmaken stelt een LLM in staat om continu tools te genereren die kunnen worden toegepast op verschillende verzoeken, zodat toekomstige verzoeken de corresponderende API's kunnen aanroepen wanneer dit nuttig is voor het oplossen van de taken. Bovendien introduceert de taakverdeling tussen LLM's voor de toolmaken- en toolgebruikfasen de mogelijkheid om kosteneffectiviteit te bereiken zonder de kwaliteit van de gegenereerde tools en probleemoplossingen te verminderen. Zo kunnen we, door te erkennen dat toolmaken meer geavanceerde capaciteiten vereist dan toolgebruik, een krachtig maar resource-intensief model toepassen als de toolmaker, en een lichtgewicht en kosteneffectief model als de toolgebruiker. We valideren de effectiviteit van onze aanpak voor een verscheidenheid aan complexe redeneertaken, waaronder Big-Bench taken. Met GPT-4 als de toolmaker en GPT-3.5 als de toolgebruiker, kan LATM prestaties bereiken die vergelijkbaar zijn met het gebruik van GPT-4 voor zowel toolmaken als toolgebruik, terwijl de inferentiekosten aanzienlijk worden verlaagd.
Sociale afstemming in AI-systemen heeft als doel ervoor te zorgen dat deze modellen zich gedragen volgens gevestigde maatschappelijke waarden. In tegenstelling tot mensen, die consensus over waardeoordelen bereiken via sociale interactie, zijn huidige taalmodelen (LMs) getraind om hun trainingscorpus rigide te repliceren in isolatie, wat leidt tot suboptimale generalisatie in onbekende scenario's en kwetsbaarheid voor adversariële aanvallen. Dit werk presenteert een nieuw trainingsparadigma dat LMs in staat stelt te leren van gesimuleerde sociale interacties. In vergelijking met bestaande methodologieën is onze aanzienlijk schaalbaarder en efficiënter, wat resulteert in superieure prestaties in afstemmingsbenchmarks en menselijke evaluaties. Deze paradigmaverschuiving in de training van LMs brengt ons een stap dichter bij het ontwikkelen van AI-systemen die robuust en nauwkeurig maatschappelijke normen en waarden kunnen weerspiegelen.
We introduceren Three Towers (3T), een flexibele methode om het contrastief leren van visie-taalmodelen te verbeteren door voorgetrainde beeldclassificatoren te integreren. Hoewel contrastieve modellen meestal vanaf nul worden getraind, heeft LiT (Zhai et al., 2022) recentelijk prestatieverbeteringen laten zien door gebruik te maken van voorgetrainde classificator-embeddings. LiT vervangt echter direct de beeldtoren met de bevroren embeddings, waardoor mogelijke voordelen van contrastief trainen van de beeldtoren worden uitgesloten. Met 3T stellen we een flexibelere strategie voor die de beeldtoren in staat stelt te profiteren van zowel voorgetrainde embeddings als contrastief trainen. Om dit te bereiken, introduceren we een derde toren die de bevroren voorgetrainde embeddings bevat, en we stimuleren afstemming tussen deze derde toren en de belangrijkste beeld-teksttorens. Empirisch gezien verbetert 3T consistent ten opzichte van LiT en de CLIP-stijl baseline vanaf nul voor retrievalthandelingen. Voor classificatie verbetert 3T betrouwbaar ten opzichte van de baseline vanaf nul, en hoewel het onderpresteert in vergelijking met LiT voor JFT-voorgetrainde modellen, overtreft het LiT voor ImageNet-21k en Places365-voorpretraining.
Autoregressieve taalmodelen worden getraind door de kruis-entropie van de modeldistributie Q ten opzichte van de datadistributie P te minimaliseren — dat wil zeggen, door de voorwaartse kruis-entropie te minimaliseren, wat equivalent is aan maximum likelihood-schatting (MLE). We hebben geobserveerd dat modellen die op deze manier zijn getraind, kunnen "overgeneraliseren", in die zin dat ze niet-mensachtige tekst produceren. Bovendien geloven we dat omgekeerde kruis-entropie, d.w.z. de kruis-entropie van P ten opzichte van Q, een betere weerspiegeling is van hoe een mens tekst die door een model is gegenereerd zou evalueren. Daarom stellen we leren met MixCE voor, een doelstelling die de voorwaartse en omgekeerde kruis-entropie combineert. We evalueren modellen die met deze doelstelling zijn getraind op synthetische gegevensinstellingen (waarbij P bekend is) en echte gegevens, en laten zien dat de resulterende modellen betere gegenereerde tekst opleveren zonder complexe decodeerstrategieën. Onze code en modellen zijn openbaar beschikbaar op https://github.com/bloomberg/mixce-acl2023.
Token embeddings, een mapping van discrete lexicale symbolen naar continue vectoren, vormen de kern van elk taalmodel (LM). Echter, de betekenissen van lexicale symbolen kunnen ook worden bepaald en zelfs herdefinieerd door hun structurele rol in een lange context. In dit artikel vragen we: is het mogelijk voor een taalmodel om presterend te zijn zonder vaste token embeddings? Zo'n taalmodel zou volledig moeten vertrouwen op het samen voorkomen en de herhaling van tokens in de context in plaats van de a priori identiteit van een token. Om dit te beantwoorden, bestuderen we lexinvariante taalmodelen die invariant zijn voor lexicale symbolen en daarom in de praktijk geen vaste token embeddings nodig hebben. Ten eerste bewijzen we dat we een lexinvariant LM kunnen construeren om te convergeren naar het echte taalmodel met een uniforme snelheid die polynomiaal is in termen van de contextlengte, met een constante factor die sublineair is in de vocabulairegrootte. Ten tweede, om een lexinvariant LM te bouwen, coderen we tokens eenvoudigweg met behulp van willekeurige Gaussische vectoren, zodat elk token binnen elke sequentie dezelfde representatie krijgt maar verschillende representaties tussen sequenties. Empirisch demonstreren we dat het inderdaad perplexiteit kan bereiken die vergelijkbaar is met die van een standaard taalmodel, gegeven een voldoende lange context. We onderzoeken verder twee eigenschappen van de lexinvariante taalmodelen: Ten eerste, gegeven tekst gegenereerd uit een substitutiecijfer van het Engels, implementeert het impliciet Bayesiaanse in-context decodering en leidt het de mapping naar de onderliggende echte tokens af met hoge nauwkeurigheid. Ten tweede, het heeft gemiddeld 4X betere nauwkeurigheid bij synthetische in-context redeneertaken. Tot slot bespreken we het regulariseren van standaard taalmodelen richting lexinvariantie en mogelijke praktische toepassingen.
Grote Taalmodellen (LLMs) transformeren de samenleving en dringen door in diverse toepassingen. Als gevolg hiervan zullen LLMs regelmatig met ons en andere agenten interacteren. Het is daarom van grote maatschappelijke waarde om te begrijpen hoe LLMs zich gedragen in interactieve sociale situaties. Hier stellen we voor om gedragsspeltheorie te gebruiken om het samenwerkings- en coördinatiegedrag van LLMs te bestuderen. Om dit te doen, laten we verschillende LLMs (GPT-3, GPT-3.5 en GPT-4) eindig herhaalde spellen met elkaar spelen en met andere, mensachtige strategieën. Onze resultaten tonen aan dat LLMs over het algemeen goed presteren in dergelijke taken en ook aanhoudende gedragskenmerken blootleggen. In een grote set van spellen met twee spelers en twee strategieën, vinden we dat LLMs vooral goed zijn in spellen waarin het waarderen van hun eigenbelang loont, zoals de familie van het iteratieve Prisoner's Dilemma. Echter, gedragen ze zich suboptimaal in spellen die coördinatie vereisen. Daarom richten we ons verder op twee spellen uit deze verschillende families. In het canonieke iteratieve Prisoner's Dilemma vinden we dat GPT-4 bijzonder onverzoenlijk handelt, altijd defecterend nadat een andere agent slechts één keer heeft gedefecteerd. In de Battle of the Sexes vinden we dat GPT-4 het gedrag van de eenvoudige conventie om af te wisselen tussen opties niet kan evenaren. We verifiëren dat deze gedragskenmerken stabiel zijn over robuustheidstesten heen. Tot slot tonen we aan hoe het gedrag van GPT-4 kan worden aangepast door aanvullende informatie over de andere speler te verstrekken en door het te vragen de acties van de andere speler te voorspellen voordat het een keuze maakt. Deze resultaten verrijken ons begrip van het sociale gedrag van LLMs en banen de weg voor een gedragsspeltheorie voor machines.
Transformers beschikken over indrukwekkende generalisatiecapaciteiten bij taken met een vaste contextlengte. Ze slagen er echter niet in om te generaliseren naar sequenties van willekeurige lengte, zelfs niet voor ogenschijnlijk eenvoudige taken zoals het dupliceren van een string. Bovendien is het simpelweg trainen op langere sequenties inefficiënt vanwege de kwadratische rekencomplexiteit van het globale aandachtmechanisme. In dit werk tonen we aan dat deze foutmodus verband houdt met positionele coderingen die buiten de verdeling vallen voor langere sequenties (zelfs voor relatieve coderingen) en introduceren we een nieuwe familie van positionele coderingen die dit probleem kunnen overwinnen. Concreet simuleert ons gerandomiseerde positionele coderingsschema de posities van langere sequenties en selecteert het willekeurig een geordende subset die past bij de lengte van de sequentie. Onze grootschalige empirische evaluatie van 6000 modellen over 15 algoritmische redeneertaken toont aan dat onze methode Transformers in staat stelt te generaliseren naar sequenties van onbekende lengte (wat de testnauwkeurigheid gemiddeld met 12,0% verhoogt).
Het is algemeen bekend dat de sterkste taalmodelen (LMs) vertrouwen op een combinatie van enorme schaal, instructiedata en menselijke feedback om gespecialiseerde taken uit te voeren — zoals samenvatten en parafraseren, zonder supervisie. In dit artikel stellen we voor dat taalmodelen kunnen leren om zinnen samen te vatten en te parafraseren, zonder deze drie factoren. We introduceren Impossible Distillation, een raamwerk dat een taakspecifieke dataset direct destilleert uit een standaard LM, zelfs wanneer het onmogelijk is voor het LM zelf om de taak betrouwbaar op te lossen. Door een studentmodel te trainen op de gegenereerde dataset en zijn capaciteit te versterken via zelfdistillatie, levert onze methode een hoogwaardig model en dataset op vanuit een laagwaardig leraarmodel, zonder de noodzaak van schaal of supervisie. Met Impossible Distillation zijn we in staat om een model te distilleren dat een orde van grootte kleiner is (met slechts 770M parameters) en dat 175B parameter GPT-3 overtreft, zowel in kwaliteit als beheersbaarheid, zoals bevestigd door automatische en menselijke evaluaties. Bovendien verkrijgen we als een nuttig bijproduct van onze aanpak DIMSUM+, een hoogwaardige dataset met 3.4M zinsamenvattingen en parafrases. Onze analyses tonen aan dat deze dataset, als een puur LM-gegenereerd corpus, diverser en effectiever is voor generalisatie naar onbekende domeinen dan alle door mensen geschreven datasets — inclusief Gigaword met 4M samples.
In-context leren, een vaardigheid die een model in staat stelt om op basis van invoervoorbeelden te leren zonder gewichtsaanpassingen te vereisen, is een bepalend kenmerk van grote taalmodellen. In dit werk volgen we de opzet die is voorgesteld in (Garg et al., 2022) om de algemeenheid en beperkingen van in-context leren beter te begrijpen vanuit het perspectief van de eenvoudige maar fundamentele taak van lineaire regressie. De centrale vraag die we willen beantwoorden is: Zijn transformatoren beter in staat dan enkele natuurlijke en eenvoudigere architecturen om in-context leren uit te voeren onder verschillende distributieverschuivingen? Om transformatoren te vergelijken, stellen we voor om een eenvoudige architectuur te gebruiken die gebaseerd is op set-gebaseerde Multi-Layer Perceptrons (MLP's). We constateren dat zowel transformatoren als set-gebaseerde MLP's in-context leren vertonen bij evaluaties binnen de distributie, maar transformatoren benaderen de prestaties van gewone kleinste kwadraten (OLS) nauwer. Transformatoren tonen ook een betere veerkracht bij milde distributieverschuivingen, waar set-gebaseerde MLP's tekortschieten. Echter, bij ernstige distributieverschuivingen nemen de in-context leervaardigheden van beide modellen af.
Recente vooruitgang in tekst-naar-beeldgeneratie heeft aanzienlijke vooruitgang mogelijk gemaakt in zero-shot 3D-vormgeneratie. Dit wordt bereikt door score-distillatie, een methodologie die vooraf getrainde tekst-naar-beeld diffusiemodellen gebruikt om de parameters van een 3D-neurale representatie te optimaliseren, bijvoorbeeld een Neural Radiance Field (NeRF). Hoewel veelbelovende resultaten worden getoond, zijn bestaande methoden vaak niet in staat om de geometrie van complexe vormen, zoals menselijke lichamen, te behouden. Om deze uitdaging aan te pakken, presenteren we ZeroAvatar, een methode die het expliciete 3D-menselijk lichaamsprior introduceert in het optimalisatieproces. Specifiek schatten en verfijnen we eerst de parameters van een parametrisch menselijk lichaam vanuit een enkele afbeelding. Vervolgens gebruiken we tijdens de optimalisatie het geparametriseerde lichaam als aanvullende geometrische beperking om zowel het diffusiemodel als het onderliggende dichtheidsveld te regulariseren. Ten slotte stellen we een UV-geleide textuurregularisatieterm voor om de voltooiing van textuur op onzichtbare lichaamsdelen verder te begeleiden. We tonen aan dat ZeroAvatar de robuustheid en 3D-consistentie van optimalisatiegebaseerde beeld-naar-3D-avatargeneratie aanzienlijk verbetert, en daarbij bestaande zero-shot beeld-naar-3D-methoden overtreft.
Grote Taalmodellen (LLMs) zoals GPT-3 zijn naar voren gekomen als algemene taalmodelen die in staat zijn om veel taken op het gebied van natuurlijke taalgeneratie of -begrip aan te pakken. Op het gebied van Machinaal Vertalen (MT) hebben meerdere onderzoeken few-shot prompting-mechanismen onderzocht om betere vertalingen uit LLMs te verkrijgen. Er is echter relatief weinig onderzoek gedaan naar hoe dergelijke vertalingen kwalitatief verschillen van de vertalingen die worden gegenereerd door standaard Neurale Machinaal Vertalen (NMT) modellen. In dit werk onderzoeken we deze verschillen in termen van de letterlijkheid van vertalingen die door de twee systemen worden geproduceerd. Met behulp van letterlijkheidsmaten die woorduitlijning en monotoniciteit omvatten, vinden we dat vertalingen uit het Engels (E-X) van GPTs over het algemeen minder letterlijk zijn, terwijl ze vergelijkbare of betere scores behalen op MT-kwaliteitsmetrieken. We tonen aan dat deze bevinding ook wordt bevestigd in menselijke evaluaties. Vervolgens laten we zien dat deze verschillen vooral duidelijk zijn bij het vertalen van zinnen die idiomatische uitdrukkingen bevatten.
In het meeste huidige onderzoek zijn grote taalmmodellen (LLMs) in staat om redeneertaken uit te voeren door middel van het genereren van gedachtegangen onder begeleiding van specifieke prompts. Er bestaat echter nog steeds een aanzienlijk verschil tussen hun vermogen om complexe redeneerproblemen op te lossen en dat van mensen. Op dit moment richten de meeste benaderingen zich op gedachtegangen (COT) en het gebruik van tools, zonder rekening te houden met de adoptie en toepassing van menselijke cognitieve frameworks. Het is bekend dat mensen bij het confronteren van complexe redeneeruitdagingen doorgaans verschillende cognitieve vaardigheden inzetten, en interactie nodig hebben met alle aspecten van tools, kennis en informatie uit de externe omgeving om ingewikkelde taken te voltooien. Dit artikel introduceert een nieuw intelligent framework, genaamd OlaGPT. OlaGPT heeft een cognitief architectuurframework bestudeerd en stelt voor om bepaalde aspecten van menselijke cognitie te simuleren. Het framework omvat het benaderen van verschillende cognitieve modules, waaronder aandacht, geheugen, redeneren, leren, en bijbehorende plannings- en besluitvormingsmechanismen. Geïnspireerd door het actieve leermechanisme van mensen, stelt het een leereenheid voor om eerdere fouten en expertopinies vast te leggen, en hier dynamisch naar te verwijzen om het vermogen om vergelijkbare problemen op te lossen te versterken. Het artikel schetst ook veelvoorkomende effectieve redeneerframeworks voor menselijke probleemoplossing en ontwerpt Chain-of-Thought (COT) templates dienovereenkomstig. Een uitgebreid besluitvormingsmechanisme wordt eveneens voorgesteld om de nauwkeurigheid van het model te maximaliseren. De effectiviteit van OlaGPT is strikt geëvalueerd op meerdere redeneerdatasets, en de experimentele resultaten tonen aan dat OlaGPT state-of-the-art benchmarks overtreft, wat zijn superieure prestaties aantoont. Onze implementatie van OlaGPT is beschikbaar op GitHub: https://github.com/oladata-team/OlaGPT.
We presenteren Backpacks: een nieuwe neurale architectuur die sterke modelleerprestaties combineert met een interface voor interpreteerbaarheid en controle. Backpacks leren meerdere niet-contextuele betekenisvectoren voor elk woord in een vocabulaire, en representeren een woord in een reeks als een contextafhankelijke, niet-negatieve lineaire combinatie van betekenisvectoren in deze reeks. We ontdekken dat, na training, betekenisvectoren zich specialiseren, waarbij elke vector een ander aspect van een woord weergeeft. We kunnen een betekenisvector interpreteren door de (niet-contextuele, lineaire) projectie ervan op de uitvoerruimte te inspecteren, en ingrijpen op deze interpreteerbare haken om het gedrag van het model op voorspelbare manieren te veranderen. We trainen een Backpack-taalmodel met 170 miljoen parameters op OpenWebText, waarbij we de verlieswaarde van een GPT-2 small (124 miljoen parameters) Transformer evenaren. Bij evaluaties van lexicale gelijkenis blijkt dat Backpack-betekenisvectoren zelfs de woordembeddingen van een Transformer-taalmodel met 6 miljard parameters overtreffen. Tot slot presenteren we eenvoudige algoritmen die ingrijpen op betekenisvectoren om beheerbare tekstgeneratie en debiasing uit te voeren. Zo kunnen we de betekenisvocabulaire aanpassen om meer naar een bepaald onderwerp te neigen, of een bron van gendervooroordeel lokaliseren in een betekenisvector en die betekenis wereldwijd onderdrukken.