Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Kennisdistillatie (KD) wordt veel gebruikt om een leraarmodel te comprimeren, waardoor de inferentiekosten en het geheugengebruik worden verminderd, door een kleiner studentmodel te trainen. Huidige KD-methoden voor auto-regressieve sequentiemodellen hebben echter last van een distributiemismatch tussen uitvoersequenties die tijdens de training worden gezien en die welke door de student tijdens inferentie worden gegenereerd. Om dit probleem aan te pakken, introduceren we Generalized Knowledge Distillation (GKD). In plaats van uitsluitend te vertrouwen op een vaste set uitvoersequenties, traint GKD de student op zijn zelf-gegenereerde uitvoersequenties door gebruik te maken van feedback van de leraar op dergelijke sequenties. In tegenstelling tot begeleide KD-benaderingen biedt GKD ook de flexibiliteit om alternatieve verliesfuncties tussen de student en de leraar te gebruiken, wat nuttig kan zijn wanneer de student niet de expressiviteit heeft om de distributie van de leraar na te bootsen. Bovendien vergemakkelijkt GKD de naadloze integratie van distillatie met RL-finetuning (RLHF). We demonstreren de effectiviteit van GKD voor het distilleren van auto-regressieve taalmodelen voor samenvattings-, vertaal- en rekenkundige redeneertaken, en taakonafhankelijke distillatie voor instructie-afstemming.
Retrieval-augmented taalmodellen (LMs) hebben recentelijk veel aandacht gekregen. Meestal wordt de retriever echter niet gezamenlijk getraind als een inherent onderdeel van het LM, maar toegevoegd aan een reeds voorgetraind LM, wat de mogelijkheid van het LM en de retriever om zich aan elkaar aan te passen beperkt. In dit werk stellen we de Retrieval-Pretrained Transformer (RPT) voor, een architectuur en trainingsprocedure voor het gezamenlijk trainen van een retrieval-augmented LM vanaf nul voor de taak van het modelleren van lange teksten. Gegeven een recent gegenereerd tekstgedeelte in een lang document, berekent het LM query-representaties, die vervolgens worden gebruikt om eerdere gedeelten in het document op te halen, die mogelijk tienduizenden tokens eerder zijn geplaatst. Informatie uit opgehaalde gedeelten wordt samengevoegd in de LM-representaties om het volgende doelgedeelte te voorspellen. We trainen de retriever-component met een semantisch doel, waarbij het doel is om gedeelten op te halen die de waarschijnlijkheid van het volgende gedeelte vergroten, volgens een referentie-LM. We evalueren RPT op vier langetermijn-taalmodelleertaken, variërend van boeken, code en wiskundige teksten, en tonen aan dat RPT de retrievalkwaliteit en vervolgens de perplexiteit over de hele linie verbetert in vergelijking met sterke baselines.
In dit werk herzien we het meest fundamentele bouwblok in deep learning, het multi-layer perceptron (MLP), en onderzoeken we de grenzen van zijn prestaties bij visuele taken. Empirische inzichten in MLPs zijn om meerdere redenen belangrijk. (1) Gezien het recente narratief "minder inductieve bias is beter", dat populair is geworden door de opkomst van transformers die convolutionele modellen overtreffen, is het natuurlijk om de grenzen van deze hypothese te verkennen. Daartoe bieden MLPs een ideale testomgeving, aangezien ze volledig vrij zijn van elke inductieve bias. (2) MLPs zijn vrijwel uitsluitend de hoofdrolspeler geweest in de deep learning-theorieliteratuur vanwege hun wiskundige eenvoud, en dienen als een proxy om empirische fenomenen te verklaren die worden waargenomen bij complexere architecturen. Verrassend genoeg zijn experimentele gegevenspunten voor MLPs zeer moeilijk te vinden in de literatuur, vooral wanneer ze gekoppeld zijn aan grote pre-trainingsprotocollen. Deze discrepantie tussen praktijk en theorie is zorgwekkend: Reflecteren MLPs de empirische vooruitgang die wordt getoond door praktische modellen? Of moeten theoretici de rol van MLPs als proxy heroverwegen? Wij bieden inzichten in beide aspecten. We laten zien dat de prestaties van MLPs drastisch verbeteren met schaal (93% op CIFAR10, 79% op CIFAR100, 69% op TinyImageNet), wat benadrukt dat het ontbreken van inductieve bias inderdaad kan worden gecompenseerd. We observeren dat MLPs het gedrag van hun moderne tegenhangers trouw nabootsen, waarbij sommige componenten in de leeromgeving echter verrassend sterkere of onverwachte gedragingen vertonen. Door hun inherente computationele efficiëntie worden grote pre-trainingsexperimenten toegankelijker voor academische onderzoekers. Al onze experimenten werden uitgevoerd op een enkele GPU.
Met de opkomst van Large Language Models (LLM's) en hun alomtegenwoordige inzet in diverse domeinen, is het meten van het gedrag van taalmodelen op realistische data van cruciaal belang. Een bedrijf dat bijvoorbeeld een klantgerichte chatbot inzet, moet ervoor zorgen dat het model niet reageert op klantverzoeken met grof taalgebruik. Huidige evaluaties benaderen dit probleem met behulp van kleine, domeinspecifieke datasets met door mensen samengestelde labels. Deze evaluatiesets zijn vaak afkomstig uit een smalle en vereenvoudigde distributie, en databronnen kunnen onbewust in de trainingsset terechtkomen, wat kan leiden tot misleidende evaluaties. Om deze nadelen te omzeilen, stellen we een raamwerk voor voor zelfgesuperviseerde evaluatie van LLM's door hun gevoeligheid of onveranderlijkheid te analyseren bij transformaties van de invoertekst. Zelfgesuperviseerde evaluatie kan het gedrag van LLM's direct monitoren op datasets die in het wild zijn verzameld of die tijdens live modelimplementatie worden gestreamd. We demonstreren zelfgesuperviseerde evaluatiestrategieën voor het meten van geslotenboekkennis, toxiciteit en afhankelijkheid van context op lange termijn, naast gevoeligheid voor grammaticale structuur en tokenisatiefouten. Wanneer vergelijkingen met vergelijkbare door mensen gelabelde benchmarks beschikbaar zijn, vinden we sterke correlaties tussen zelfgesuperviseerde en door mensen gesuperviseerde evaluaties. Het zelfgesuperviseerde paradigma vult huidige evaluatiestrategieën aan die afhankelijk zijn van gelabelde data.
Natuurlijke taal (NL) feedback bevat rijke informatie over de gebruikerservaring. Bestaande studies richten zich op een instantie-niveau benadering, waarbij feedback wordt gebruikt om specifieke voorbeelden te verfijnen, zonder rekening te houden met de toepassing ervan op systeemniveau. Dit artikel stelt een algemeen raamwerk voor om het gebruik van NL feedback op systeemniveau te ontsluiten. We laten zien hoe feedback kan worden gebruikt om systeemniveau ontwerpbeslissingen te formaliseren in een human-in-the-loop-proces – om betere modellen te produceren. Dit wordt in het bijzonder gedaan door: (i) het ontwerpen van metrieken voor taken; en (ii) het ontwerpen van prompts voor taalmodel om modelresponsen te verfijnen. We voeren twee casestudies uit van deze aanpak om het genereren van zoekopdrachten en dialoogresponsen te verbeteren, waarbij we de effectiviteit aantonen van het gebruik van feedback op systeemniveau. We laten zien dat de combinatie van feedback op systeemniveau en instantie-niveau verdere verbeteringen oplevert, en dat door mensen geschreven feedback op instantie-niveau tot meer gefundeerde verfijningen leidt dan feedback geschreven door GPT-3.5, wat het belang van menselijke feedback voor het bouwen van systemen onderstreept.
We introduceren de taak van open-vocabulary 3D instance segmentation. Traditionele benaderingen voor 3D instance segmentation zijn grotendeels afhankelijk van bestaande 3D-geannoteerde datasets, die beperkt zijn tot een gesloten set van objectcategorieën. Dit is een belangrijke beperking voor real-life toepassingen waarin men taken moet uitvoeren die worden geleid door nieuwe, open-vocabulary queries gerelateerd aan objecten uit een breed scala. Recentelijk zijn er open-vocabulary 3D scene understanding methoden ontstaan om dit probleem aan te pakken door querybare features per punt in de scène te leren. Hoewel een dergelijke representatie direct kan worden gebruikt om semantische segmentatie uit te voeren, hebben bestaande methoden beperkingen in hun vermogen om objectinstanties te identificeren. In dit werk pakken we deze beperking aan en stellen we OpenMask3D voor, een zero-shot benadering voor open-vocabulary 3D instance segmentation. Geleid door voorspelde klasse-agnostische 3D instance masks, aggregeert ons model per-mask features via multi-view fusie van CLIP-gebaseerde beeldembeddings. We voeren experimenten en ablatiestudies uit op de ScanNet200 dataset om de prestaties van OpenMask3D te evalueren en geven inzichten over de open-vocabulary 3D instance segmentation taak. We tonen aan dat onze aanpak andere open-vocabulary tegenhangers overtreft, met name op de long-tail distributie. Bovendien gaat OpenMask3D verder dan de beperkingen van close-vocabulary benaderingen en maakt het de segmentatie van objectinstanties mogelijk op basis van vrije-vorm queries die objecteigenschappen beschrijven zoals semantiek, geometrie, affordances en materiaaleigenschappen.
Neurale velden hebben indrukwekkende vooruitgang geboekt in viewsynthese en scènereconstructie. Het bewerken van deze neurale velden blijft echter een uitdaging vanwege de impliciete codering van geometrie- en textuurinformatie. In dit artikel stellen we DreamEditor voor, een nieuw framework dat gebruikers in staat stelt gecontroleerde bewerkingen van neurale velden uit te voeren met behulp van tekstprompts. Door scènes voor te stellen als mesh-gebaseerde neurale velden, maakt DreamEditor lokale bewerkingen binnen specifieke regio's mogelijk. DreamEditor maakt gebruik van de tekstencoder van een vooraf getraind tekst-naar-beeld diffusiemodel om automatisch de te bewerken regio's te identificeren op basis van de semantiek van de tekstprompts. Vervolgens optimaliseert DreamEditor de bewerkingsregio en aligneert de geometrie en textuur met de tekstprompts via score-distillatie sampling [29]. Uitgebreide experimenten hebben aangetoond dat DreamEditor neurale velden van real-world scènes nauwkeurig kan bewerken volgens de gegeven tekstprompts, terwijl consistentie in irrelevante gebieden wordt gewaarborgd. DreamEditor genereert zeer realistische texturen en geometrie, wat zowel kwantitatieve als kwalitatieve evaluaties aanzienlijk overtreft ten opzichte van eerdere werken.