Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) en visueel-taalkundige modellen (VLMs) hebben bewezen uit te blinken in meerdere taken, zoals gezond verstand redeneren. Hoewel deze modellen krachtig kunnen zijn, zijn ze niet verankerd in de 3D-fysieke wereld, die rijkere concepten omvat zoals ruimtelijke relaties, affordanties, fysica, lay-out, enzovoort. In dit werk stellen we voor om de 3D-wereld in grote taalmodellen te injecteren en introduceren we een geheel nieuwe familie van 3D-LLMs. Specifiek kunnen 3D-LLMs 3D-puntenwolken en hun kenmerken als invoer nemen en een diverse reeks 3D-gerelateerde taken uitvoeren, waaronder bijschriften, dichte bijschriften, 3D-vraagbeantwoording, taakdecompositie, 3D-verankering, 3D-ondersteunde dialoog, navigatie, enzovoort. Met behulp van drie soorten promptingmechanismen die we hebben ontworpen, zijn we in staat om meer dan 300k 3D-taalgegevens te verzamelen die deze taken bestrijken. Om 3D-LLMs efficiënt te trainen, gebruiken we eerst een 3D-kenmerkextractor die 3D-kenmerken verkrijgt uit gerenderde multi-view afbeeldingen. Vervolgens gebruiken we 2D VLMs als onze ruggengraat om onze 3D-LLMs te trainen. Door een 3D-localisatiemechanisme te introduceren, kunnen 3D-LLMs 3D-ruimtelijke informatie beter vastleggen. Experimenten op ScanQA laten zien dat ons model de state-of-the-art baselines met een grote marge overtreft (bijvoorbeeld, de BLEU-1 score overtreft de state-of-the-art score met 9%). Bovendien laten experimenten op onze achtergehouden datasets voor 3D-bijschriften, taakcompositie en 3D-ondersteunde dialoog zien dat ons model 2D VLMs overtreft. Kwalitatieve voorbeelden laten ook zien dat ons model meer taken kan uitvoeren dan de reikwijdte van bestaande LLMs en VLMs. Projectpagina: https://vis-www.cs.umass.edu/3dllm/.
Voorgetrainde grote taalmodellen (LLMs) hebben recent betere generalisatie en steekproefefficiëntie bereikt in autonoom webnavigatie. De prestaties op echte websites hebben echter nog steeds te lijden onder (1) open domeinheid, (2) beperkte contextlengte, en (3) gebrek aan inductieve bias op HTML. Wij introduceren WebAgent, een LLM-gestuurde agent die taken op echte websites kan voltooien door natuurlijke taal instructies te volgen. WebAgent plant vooruit door instructies op te splitsen in canonieke sub-instructies, vat lange HTML-documenten samen in taakgerichte fragmenten, en handelt op websites via gegenereerde Python-programma's die daaruit voortkomen. We ontwerpen WebAgent met Flan-U-PaLM, voor gegronde codegeneratie, en HTML-T5, nieuwe voorgetrainde LLMs voor lange HTML-documenten die gebruikmaken van lokale en globale aandachtmechanismen en een mix van lange-span denoisingsdoelstellingen, voor planning en samenvatting. We tonen empirisch aan dat onze aanpak het succes op een echte website met meer dan 50% verbetert, en dat HTML-T5 het beste model is om HTML-gebaseerde taken op te lossen; het behaalt een 14,9% hoger slagingspercentage dan de vorige state-of-the-art op de MiniWoB webnavigatiebenchmark en betere nauwkeurigheid bij offline taakplanningsevaluatie.
Een weinig verkend gebied in beeldgeneratie en -bewerking is de taak van interpolatie tussen twee invoerbeelden, een functie die ontbreekt in alle momenteel ingezette beeldgeneratiepijplijnen. Wij beargumenteren dat een dergelijke functie de creatieve toepassingen van dergelijke modellen kan uitbreiden, en stellen een methode voor voor zero-shot interpolatie met behulp van latente diffusiemodellen. We passen interpolatie toe in de latente ruimte bij een reeks afnemende ruisniveaus, waarna we ruisverwijdering uitvoeren die wordt geconditioneerd op geïnterpoleerde tekstembeddingen afgeleid van tekstuele inversie en (optioneel) onderwerpposes. Voor meer consistentie, of om aanvullende criteria te specificeren, kunnen we meerdere kandidaten genereren en CLIP gebruiken om het beeld van de hoogste kwaliteit te selecteren. We verkrijgen overtuigende interpolaties over diverse onderwerpposes, beeldstijlen en beeldinhoud, en tonen aan dat standaard kwantitatieve metrieken zoals FID onvoldoende zijn om de kwaliteit van een interpolatie te meten. Code en gegevens zijn beschikbaar op https://clintonjwang.github.io/interpolation.
Grote taalmodelen hebben zich bewezen als zeer flexibel, in staat om een breed scala aan generatieve taken op te lossen, zoals abstractieve samenvatting en open-einde vraagbeantwoording. In dit artikel breiden we de mogelijkheden van LLM's uit door direct een kleine audio-encoder te koppelen, waardoor het spraakherkenning kan uitvoeren. Door direct een reeks auditieve embeddings vooraf te gaan aan de teksttoken-embeddings, kan het LLM worden omgezet in een automatisch spraakherkenningssysteem (ASR) en op precies dezelfde manier worden gebruikt als zijn tekstuele tegenhanger. Experimenten op Multilingual LibriSpeech (MLS) laten zien dat het integreren van een conformer-encoder in het open-source LLaMA-7B-model het mogelijk maakt om eentalige basislijnen met 18% te overtreffen en meertalige spraakherkenning uit te voeren, ondanks dat LLaMA overweldigend op Engelse tekst is getraind. Verder voeren we ablatiestudies uit om te onderzoeken of het LLM volledig bevroren kan worden tijdens de training om zijn oorspronkelijke mogelijkheden te behouden, de audio-encoder op te schalen, en de stapgrootte van de audio-encoder te vergroten om minder embeddings te genereren. De resultaten van deze studies tonen aan dat meertalige ASR mogelijk is, zelfs wanneer het LLM bevroren is of wanneer stappen van bijna 1 seconde worden gebruikt in de audio-encoder, wat de mogelijkheid opent voor LLM's om te werken met langdurige audio.
Met ChatGPT als representant zijn talloze bedrijven begonnen met het aanbieden van diensten gebaseerd op grote Transformer-modellen. Het gebruik van een dergelijke dienst leidt echter onvermijdelijk tot het lekken van gebruikersprompts naar de modelaanbieder. Eerdere studies hebben veilige inferentie voor Transformer-modellen onderzocht met behulp van secure multiparty computation (MPC), waarbij modelparameters en prompts van clients geheim blijven. Desondanks zijn deze frameworks nog steeds beperkt wat betreft modelprestaties, efficiëntie en implementatie. Om deze beperkingen aan te pakken, stellen we het framework PUMA voor om snelle en veilige inferentie van Transformer-modellen mogelijk te maken. Ons framework ontwerpt hoogwaardige benaderingen voor dure functies, zoals GeLU en Softmax, die de kosten van veilige inferentie aanzienlijk verlagen terwijl de modelprestaties behouden blijven. Daarnaast ontwerpen we veilige Embedding- en LayerNorm-procedures die de gewenste functionaliteit nauwkeurig implementeren zonder de Transformer-architectuur te ondermijnen. PUMA is ongeveer 2x sneller dan het state-of-the-art MPC-framework MPCFORMER (ICLR 2023) en heeft een vergelijkbare nauwkeurigheid als plaintext-modellen zonder fine-tuning (wat eerdere werken niet konden bereiken). Bovendien kan PUMA LLaMA-7B evalueren in ongeveer 5 minuten om 1 token te genereren. Voor zover wij weten, is dit de eerste keer dat een model met een dergelijke parameteromvang onder MPC kan worden geëvalueerd. PUMA is open-source gemaakt in de Github-repository van SecretFlow-SPU.
Naarmate grote taalmodellen (LLMs) complexere taken uitvoeren, wordt het moeilijker om de correctheid en veiligheid van hun gedrag te verifiëren. Een benadering om dit probleem aan te pakken, is om LLMs aan te moedigen hun redenering te externaliseren, bijvoorbeeld door hen stapsgewijze redeneringen te laten genereren terwijl ze een vraag beantwoorden (Chain-of-Thought; CoT). Deze redenering kan ons in staat stellen het proces te controleren dat modellen gebruiken om taken uit te voeren. Deze benadering is echter afhankelijk van de veronderstelling dat de geuite redenering trouw weergeeft wat het model daadwerkelijk denkt, wat niet altijd het geval is. Om de trouwheid van CoT-redenering te verbeteren, laten we modellen redenering genereren door vragen op te splitsen in subvragen. Op decompositie gebaseerde methoden behalen sterke prestaties bij vraag-antwoordtaken, soms vergelijkbaar met CoT, terwijl ze de trouwheid van de geuite redenering van het model verbeteren volgens verschillende recent voorgestelde metrieken. Door het model te dwingen eenvoudigere subvragen in afzonderlijke contexten te beantwoorden, vergroten we de trouwheid van modelgegenereerde redenering aanzienlijk ten opzichte van CoT, terwijl we toch een deel van de prestatieverbeteringen van CoT behouden. Onze resultaten tonen aan dat het mogelijk is de trouwheid van modelgegenereerde redenering te verbeteren; verdere verbeteringen kunnen leiden tot redenering die ons in staat stelt de correctheid en veiligheid van LLM-gedrag te verifiëren.
Moderne taalmodellen bevatten een grote hoeveelheid feitelijke kennis. Echter, sommige feiten kunnen onjuist worden afgeleid of verouderen na verloop van tijd, wat resulteert in feitelijk onjuiste generaties. Dit heeft geleid tot de ontwikkeling van verschillende bewerkingsmethoden die het mogelijk maken om feiten die in het model zijn vastgelegd bij te werken. Evaluatie van deze methoden heeft zich voornamelijk gericht op het testen of een individueel feit succesvol is geïnjecteerd, en of vergelijkbare voorspellingen voor andere onderwerpen niet zijn veranderd. Hier stellen wij dat een dergelijke evaluatie beperkt is, aangezien het injecteren van één feit (bijvoorbeeld ``Jack Depp is de zoon van Johnny Depp'') een ``rimpelingseffect'' introduceert in de vorm van aanvullende feiten die het model moet bijwerken (bijvoorbeeld ``Jack Depp is de broer of zus van Lily-Rose Depp''). Om dit probleem aan te pakken, stellen wij een nieuwe set evaluatiecriteria voor die de implicaties van een bewerking op gerelateerde feiten in overweging nemen. Met behulp van deze criteria construeren wij vervolgens , een diagnostische benchmark van 5K feitelijke bewerkingen, die een verscheidenheid aan soorten rimpelingseffecten vastlegt. Wij evalueren prominente bewerkingsmethoden op , en tonen aan dat huidige methoden er niet in slagen consistente veranderingen in de kennis van het model aan te brengen. Daarnaast vinden wij dat een eenvoudige in-context bewerkingsbaseline de beste scores behaalt op onze benchmark, wat een veelbelovende onderzoeksrichting voor modelbewerking suggereert.
Wij stellen Reinforcement Learning from Contrast Distillation (RLCD) voor, een methode om taalmodelen af te stemmen op het volgen van natuurlijke taalprincipes zonder gebruik te maken van menselijke feedback. RLCD traint een voorkeursmodel met behulp van gesimuleerde voorkeursparen die zowel een hoogwaardig als een laagwaardig voorbeeld bevatten, gegenereerd met contrasterende positieve en negatieve prompts. Het voorkeursmodel wordt vervolgens gebruikt om een basis, niet-afgestemd taalmodel te verbeteren via reinforcement learning. Empirisch gezien presteert RLCD beter dan de RLAIF (Bai et al., 2022b) en contextdistillatie (Huang et al., 2022) baselines over drie diverse afstemmingstaken—onschadelijkheid, behulpzaamheid en het genereren van verhaallijnen—en op zowel 7B als 30B modelschalen voor de simulatie van voorkeursgegevens.
Dit artikel daagt het gevestigde paradigma uit voor het bouwen van any-to-any netwerken voor het trainen van Large Language Models (LLM's). We tonen aan dat LLM's een uniek communicatiepatroon vertonen waarbij alleen kleine groepen GPU's high-bandwidth any-to-any communicatie binnen deze groepen nodig hebben om een bijna optimale trainingsprestatie te bereiken. Tussen deze groepen GPU's is de communicatie onbeduidend, schaars en homogeen. We stellen een nieuwe netwerkarchitectuur voor die nauw aansluit bij de communicatiebehoeften van LLM's. Onze architectuur verdeelt het cluster in sets van GPU's die onderling verbonden zijn met non-blocking any-to-any high-bandwidth verbindingen, die we HB-domeinen noemen. Tussen de HB-domeinen verbindt het netwerk alleen GPU's met communicatiebehoeften. We noemen dit een "rail-only" verbinding en laten zien dat onze voorgestelde architectuur de netwerkkosten met tot wel 75% verlaagt in vergelijking met state-of-the-art any-to-any Clos-netwerken, zonder in te leveren op de prestaties van LLM-training.
DETR-achtige modellen hebben de prestaties van detectoren aanzienlijk verbeterd en zelfs klassieke convolutionele modellen overtroffen. Echter, het feit dat alle tokens gelijk worden behandeld zonder onderscheid, brengt een overbodige rekenlast met zich mee in de traditionele encoderstructuur. Recente verspreidingsstrategieën maken gebruik van een subset van informatieve tokens om de aandachtcomplexiteit te verminderen, terwijl de prestaties behouden blijven door de sparse encoder. Maar deze methoden hebben de neiging te vertrouwen op onbetrouwbare modelstatistieken. Bovendien belemmert het simpelweg verminderen van het aantal tokens in grote mate de detectieprestaties, wat de toepassing van deze sparse modellen beperkt. Wij stellen Focus-DETR voor, dat de aandacht richt op meer informatieve tokens voor een betere afweging tussen rekenkundige efficiëntie en modelnauwkeurigheid. Specifiek reconstrueren we de encoder met dubbele aandacht, wat een token-scoringmechanisme omvat dat zowel lokalisatie als categorische semantische informatie van de objecten uit multi-schaal kenmerkkaarten in overweging neemt. We verwijderen efficiënt de achtergrondqueries en verbeteren de semantische interactie van de fijnmazige objectqueries op basis van de scores. Vergeleken met de state-of-the-art sparse DETR-achtige detectoren onder dezelfde instellingen, behaalt onze Focus-DETR vergelijkbare complexiteit terwijl hij 50.4AP (+2.2) op COCO bereikt. De code is beschikbaar op https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR en https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
Zelfgesuperviseerd leren van visuele representaties heeft zich gericht op het leren van inhoudskenmerken, die geen objectbeweging of locatie vastleggen, en zich concentreren op het identificeren en differentiëren van objecten in afbeeldingen en video's. Aan de andere kant is optische stroomschatting een taak die niet het begrijpen van de inhoud van de afbeeldingen waarop het wordt geschat, omvat. Wij verenigen de twee benaderingen en introduceren MC-JEPA, een joint-embedding voorspellende architectuur en een zelfgesuperviseerde leerbenadering om gezamenlijk optische stroom en inhoudskenmerken te leren binnen een gedeelde encoder, waarbij we aantonen dat de twee bijbehorende doelstellingen; de doelstelling voor optische stroomschatting en de zelfgesuperviseerde leerdoelstelling; van elkaar profiteren en zo inhoudskenmerken leren die bewegingsinformatie incorporeren. De voorgestelde benadering behaalt prestaties die vergelijkbaar zijn met bestaande ongesuperviseerde benchmarks voor optische stroom, evenals met gangbare zelfgesuperviseerde leerbenaderingen bij downstream taken zoals semantische segmentatie van afbeeldingen en video's.
Langetermijnactiviteitsvoorspelling is een bijzonder uitdagend onderzoeksprobleem omdat het inzicht vereist in de temporele relaties tussen waargenomen acties, evenals in de variabiliteit en complexiteit van menselijke activiteiten. Ondanks het gebruik van sterke supervisie via kostbare menselijke annotaties, generaliseren state-of-the-art voorspellingsmethoden vaak slecht naar onbekende gegevens. Om dit probleem te verlichten, stellen we Multiscale Video Pretraining (MVP) voor, een nieuwe zelfgesuperviseerde voorbereidingsmethode die robuuste representaties leert voor voorspelling door het voorspellen van gecontextualiseerde representaties van toekomstige videoclips over meerdere tijdschalen te leren. MVP is gebaseerd op onze observatie dat acties in video's een multiscale aard hebben, waarbij atomische acties meestal op een kort tijdsbestek plaatsvinden en complexere acties over langere tijdschalen kunnen uitstrekken. We vergelijken MVP met state-of-the-art zelfgesuperviseerde videoleermethoden voor downstream langetermijnvoorspellingstaken, waaronder langetermijnactieanticipering en video-samenvattingsvoorspelling. Onze uitgebreide experimenten over de Ego4D en Epic-Kitchens-55/100 datasets tonen aan dat MVP state-of-the-art methoden met aanzienlijke marges overtreft. Opmerkelijk is dat MVP een relatieve prestatieverbetering van meer dan 20% nauwkeurigheid behaalt in video-samenvattingsvoorspelling ten opzichte van bestaande methoden.