Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen voor Code (Code LLM) zijn in opkomst. Nieuwe en krachtige modellen worden wekelijks uitgebracht, die opmerkelijke prestaties laten zien bij de taak van codegeneratie. Diverse benaderingen zijn voorgesteld om de codegeneratieprestaties van vooraf getrainde Code LLM's te verbeteren, zoals supervised fine-tuning, instructie-tuning, reinforcement learning, enz. In dit artikel stellen we een nieuw RRTF (Rank Responses to align Test&Teacher Feedback) raamwerk voor, dat effectief en efficiënt vooraf getrainde grote taalmodellen voor codegeneratie kan verbeteren. Binnen dit raamwerk presenteren we PanGu-Coder2, dat 62,20% pass@1 behaalt op de OpenAI HumanEval benchmark. Bovendien tonen we door een uitgebreide evaluatie op de CoderEval en LeetCode benchmarks aan dat PanGu-Coder2 consistent alle voorgaande Code LLM's overtreft.
We presenteren TransNormerLLM, het eerste lineaire aandacht-gebaseerde Large Language Model (LLM) dat conventionele softmax aandacht-gebaseerde modellen overtreft op het gebied van zowel nauwkeurigheid als efficiëntie. TransNormerLLM is een evolutie van het eerdere lineaire aandacht-architectuur TransNormer, waarbij geavanceerde aanpassingen zijn doorgevoerd, waaronder positionele embedding, lineaire aandachtversnelling, een gating-mechanisme, tensor-normalisatie, inferentieversnelling en stabilisatie. Specifiek gebruiken we LRPE in combinatie met een exponentiële afname om aandachtverdunningsproblemen te voorkomen, terwijl het model globale interacties tussen tokens behoudt. Daarnaast introduceren we Lightning Attention, een baanbrekende techniek die lineaire aandacht meer dan verdubbelt in uitvoeringstijd en het geheugengebruik opmerkelijke vier keer reduceert. Om de prestaties van TransNormer verder te verbeteren, benutten we een gating-mechanisme om de training te vergemakkelijken en een nieuwe tensor-normalisatieschema om het model te versnellen, wat resulteert in een indrukwekkende versnelling van meer dan 20%. Bovendien hebben we een robuust inferentie-algoritme ontwikkeld dat numerieke stabiliteit en consistente inferentiesnelheid garandeert, ongeacht de sequentielengte, wat superieure efficiëntie toont tijdens zowel de trainings- als inferentiefasen. Schaalbaarheid staat centraal in het ontwerp van ons model, waardoor naadloze implementatie op grootschalige clusters mogelijk is en uitbreiding naar nog omvangrijkere modellen wordt gefaciliteerd, allemaal terwijl uitstekende prestatiemetingen worden behouden. Rigoureuze validatie van ons modelontwerp wordt bereikt door een reeks uitgebreide experimenten op ons zelfverzamelde corpus, dat een omvang van meer dan 6TB heeft en meer dan 2 biljoen tokens bevat. Om de kwaliteit en relevantie van de data te waarborgen, implementeren we een nieuwe zelfreinigingsstrategie om onze verzamelde data te filteren. Onze voorgetrainde modellen zullen worden vrijgegeven om gemeenschapsvooruitgang in efficiënte LLM's te bevorderen.
We presenteren een raamwerk voor het verwerven van robotvaardigheden, dat 1) efficiënt de datageneratie van taal-gelabelde robotdata opschaalt en 2) deze data effectief destilleert tot een robuust multi-task, taal-geconditioneerd visuo-motorisch beleid. Voor (1) gebruiken we een groot taalmodel (LLM) om hoogwaardige planning te begeleiden, en op steekproeven gebaseerde robotplanners (bijv. beweging- of grijpsteekproeven) om diverse en rijke manipulatietrajecten te genereren. Om dit dataverzamelingsproces te robuust maken, leidt het LLM ook een codefragment af voor de succescriteria van elke taak, waardoor het dataverzamelingsproces zowel falen kan detecteren en opnieuw kan proberen als automatisch trajecten kan labelen met succes/falen. Voor (2) breiden we de diffusiebeleidsbenadering voor enkelvoudige taken uit naar multi-task omgevingen met taalconditionering. Tot stellen we een nieuwe multi-task benchmark voor met 18 taken over vijf domeinen om langetermijngedrag, gezond verstand, gereedschapsgebruik en intuïtieve fysica te testen. We constateren dat ons gedestilleerde beleid het robuuste herhaalgedrag uit het dataverzamelingsbeleid succesvol heeft geleerd, terwijl de absolute slagingspercentages gemiddeld met 34,8% zijn verbeterd over vijf domeinen. De benchmark, code en kwalitatieve resultaten zijn beschikbaar op onze website https://www.cs.columbia.edu/~huy/scalingup/.
Visueel objecttracking is een fundamentele videotaak binnen computervisie. Recentelijk stelt de aanzienlijk toenemende kracht van perceptie-algoritmen de unificatie van enkelvoudig/meervoudig object- en box/masker-gebaseerd tracking mogelijk. Onder hen trekt het Segment Anything Model (SAM) veel aandacht. In dit rapport stellen we HQTrack voor, een raamwerk voor High Quality Tracking van alles in video's. HQTrack bestaat voornamelijk uit een video multi-object segmenter (VMOS) en een masker verfijner (MR). Gegeven het object dat in het eerste frame van een video moet worden gevolgd, propageert VMOS de objectmaskers naar het huidige frame. De maskerresultaten in dit stadium zijn niet nauwkeurig genoeg, aangezien VMOS is getraind op verschillende closeset video objectsegmentatie (VOS) datasets, wat een beperkt vermogen heeft om te generaliseren naar complexe en hoekige scènes. Om de kwaliteit van de trackingmaskers verder te verbeteren, wordt een voorgetraind MR-model gebruikt om de trackingresultaten te verfijnen. Als een overtuigend bewijs van de effectiviteit van ons paradigma, zonder gebruik te maken van trucs zoals test-time data augmentaties en modelensemble, staat HQTrack op de 2e plaats in de Visual Object Tracking and Segmentation (VOTS2023) challenge. Code en modellen zijn beschikbaar op https://github.com/jiawen-zhu/HQTrack.
Geneeskunde is van nature multimodaal, met rijke datamodaliteiten die tekst, beeldvorming, genomica en meer omvatten. Algemene biomedische kunstmatige intelligentie (AI)-systemen die deze gegevens op grote schaal flexibel coderen, integreren en interpreteren, kunnen potentieel impactvolle toepassingen mogelijk maken, variërend van wetenschappelijke ontdekkingen tot zorgverlening. Om de ontwikkeling van deze modellen mogelijk te maken, hebben we eerst MultiMedBench samengesteld, een nieuwe multimodale biomedische benchmark. MultiMedBench omvat 14 diverse taken, zoals het beantwoorden van medische vragen, interpretatie van mammografie- en dermatologiebeelden, het genereren en samenvatten van radiologieverslagen, en het aanroepen van genomische varianten. Vervolgens introduceren we Med-PaLM Multimodal (Med-PaLM M), ons proof of concept voor een algemeen biomedisch AI-systeem. Med-PaLM M is een groot multimodaal generatief model dat flexibel biomedische gegevens codeert en interpreteert, waaronder klinische taal, beeldvorming en genomica, met dezelfde set modelgewichten. Med-PaLM M bereikt prestaties die concurrerend zijn met of de state-of-the-art overtreffen op alle MultiMedBench-taken, waarbij het vaak gespecialiseerde modellen met ruime marge overtreft. We rapporteren ook voorbeelden van zero-shot generalisatie naar nieuwe medische concepten en taken, positieve transfer learning tussen taken, en emergent zero-shot medisch redeneren. Om de mogelijkheden en beperkingen van Med-PaLM M verder te onderzoeken, voeren we een radiologenevaluatie uit van modelgegenereerde (en menselijke) thoraxfoto-rapporten en observeren we bemoedigende prestaties over verschillende modelschalen. In een zij-aan-zij-rangschikking van 246 retrospectieve thoraxfoto's geven clinici in tot 40,50% van de gevallen een voorkeur aan Med-PaLM M-rapporten boven die geproduceerd door radiologen, wat wijst op potentieel klinisch nut. Hoewel aanzienlijk werk nodig is om deze modellen in real-world gebruiksscenario's te valideren, vertegenwoordigen onze resultaten een mijlpaal in de ontwikkeling van algemene biomedische AI-systemen.
Text-to-3D-generatie heeft recentelijk aanzienlijke aandacht gekregen, aangewakkerd door 2D-diffusiemodellen die getraind zijn op miljarden afbeelding-tekstparen. Bestaande methoden vertrouwen voornamelijk op score-distillatie om de 2D-diffusiepriors te benutten voor het begeleiden van de generatie van 3D-modellen, zoals NeRF. Echter, score-distillatie is gevoelig voor het probleem van inconsistentie tussen verschillende gezichtspunten, en impliciete NeRF-modellering kan ook leiden tot willekeurige vormen, wat resulteert in minder realistische en oncontroleerbare 3D-generatie. In dit werk stellen we een flexibel framework voor, Points-to-3D, om de kloof te overbruggen tussen schaarse maar vrij beschikbare 3D-punten en realistische vorm-controleerbare 3D-generatie door kennis te distilleren uit zowel 2D- als 3D-diffusiemodellen. De kernidee van Points-to-3D is het introduceren van controleerbare schaarse 3D-punten om de text-to-3D-generatie te begeleiden. Specifiek gebruiken we het schaarse puntenwolk gegenereerd door het 3D-diffusiemodel, Point-E, als geometrische prior, geconditioneerd op een enkele referentieafbeelding. Om de schaarse 3D-punten beter te benutten, stellen we een efficiënt puntenwolk-begeleidingsverlies voor om de geometrie van de NeRF adaptief af te stemmen op de vorm van de schaarse 3D-punten. Naast het controleren van de geometrie, stellen we voor om de NeRF te optimaliseren voor een meer consistent uiterlijk tussen verschillende gezichtspunten. Specifiek voeren we score-distillatie uit op het publiek beschikbare 2D-afbeeldingsdiffusiemodel ControlNet, geconditioneerd op tekst en een dieptekaart van de geleerde compacte geometrie. Kwalitatieve en kwantitatieve vergelijkingen tonen aan dat Points-to-3D de consistentie tussen gezichtspunten verbetert en goede vorm-controleerbaarheid bereikt voor text-to-3D-generatie. Points-to-3D biedt gebruikers een nieuwe manier om text-to-3D-generatie te verbeteren en te controleren.
Voor een kunstenaar of grafisch ontwerper is de ruimtelijke opmaak van een scène een cruciaal ontwerpkeuze. Bestaande tekst-naar-beeld diffusiemodellen bieden echter beperkte ondersteuning voor het integreren van ruimtelijke informatie. Dit artikel introduceert Composite Diffusion als een manier voor kunstenaars om hoogwaardige afbeeldingen te genereren door samen te stellen vanuit subscènes. De kunstenaars kunnen de rangschikking van deze subscènes specificeren via een flexibele, vrij vormgegeven segmentopmaak. Ze kunnen de inhoud van elke subscène voornamelijk beschrijven met natuurlijke tekst en daarnaast gebruikmaken van referentiebeelden of controle-inputs zoals lijntekeningen, krabbels, menselijke houdingen, canny edges, en meer. We bieden een uitgebreide en modulaire methode voor Composite Diffusion die alternatieve manieren mogelijk maakt om subscènes te genereren, samen te stellen en te harmoniseren. Verder willen we de samengestelde afbeelding evalueren op effectiviteit in zowel beeldkwaliteit als het bereiken van de artistieke intentie. We stellen dat bestaande beeldkwaliteitsmetrieken een holistische evaluatie van beeldcomposities missen. Om dit aan te pakken, stellen we nieuwe kwaliteitscriteria voor die vooral relevant zijn voor composietgeneratie. We geloven dat onze aanpak een intuïtieve methode biedt voor kunstcreatie. Door uitgebreide gebruikersonderzoeken, kwantitatieve en kwalitatieve analyses, laten we zien hoe het grotere ruimtelijke, semantische en creatieve controle over beeldgeneratie bereikt. Bovendien hoeven onze methoden de architectuur van de basisdiffusiemodellen niet opnieuw te trainen of aan te passen en kunnen ze op een plug-and-play manier werken met de fijn afgestemde modellen.
We bestuderen het verbeteren van sociale conversatie-agents door te leren van natuurlijke dialogen tussen gebruikers en een geïmplementeerd model, zonder extra annotaties. Om de kwaliteit van een door een machine gegenereerde uiting impliciet te meten, maken we gebruik van signalen zoals de lengte van de gebruikersreactie, sentiment en de reactie van toekomstige menselijke uitingen in de verzamelde dialoogepisodes. Onze experimenten gebruiken de openbaar vrijgegeven implementatiegegevens van BlenderBot (Xu et al., 2023). Menselijke evaluatie wijst op verbeteringen in onze nieuwe modellen ten opzichte van basislijngesprekken; echter, we ontdekken dat sommige proxiesignalen ook kunnen leiden tot meer generaties met ongewenste eigenschappen. Bijvoorbeeld, optimaliseren voor gesprekslengte kan leiden tot meer controversiële of onvriendelijke generaties in vergelijking met de basislijn, terwijl optimaliseren voor positief sentiment of reactie deze gedragingen kan verminderen.
Recente vision transformers, CNNs met grote kernels en MLPs hebben opmerkelijke successen behaald in een breed scala aan visuele taken dankzij hun effectieve informatie-integratie op globaal niveau. Hun efficiënte implementatie, met name op mobiele apparaten, blijft echter aanzienlijke uitdagingen ondervinden vanwege de hoge rekenkosten van self-attention-mechanismen, grote kernels of volledig verbonden lagen. In dit werk passen we het conventionele convolutietheorema toe op deep learning om dit aan te pakken en laten we zien dat adaptieve frequentiefilters kunnen dienen als efficiënte globale tokenmixers. Met dit inzicht stellen we de Adaptive Frequency Filtering (AFF) tokenmixer voor. Deze neurale operator transformeert een latente representatie naar het frequentiedomein via een Fourier-transformatie en voert semantisch adaptieve frequentiefiltering uit via een elementgewijze vermenigvuldiging, wat wiskundig gelijk is aan een tokenmixing-operatie in de oorspronkelijke latente ruimte met een dynamische convolutiekernel zo groot als de ruimtelijke resolutie van deze latente representatie. We gebruiken AFF-tokenmixers als primaire neurale operators om een lichtgewicht neuraal netwerk te bouwen, genaamd AFFNet. Uitgebreide experimenten tonen de effectiviteit aan van onze voorgestelde AFF-tokenmixer en laten zien dat AFFNet superieure afwegingen tussen nauwkeurigheid en efficiëntie bereikt in vergelijking met andere lichtgewicht netwerkontwerpen voor een breed scala aan visuele taken, waaronder visuele herkenning en dense prediction-taken.
Het vakgebied van trajectvoorspelling heeft de afgelopen jaren aanzienlijke groei doorgemaakt, deels dankzij de release van talrijke grootschalige, real-world datasets van menselijke trajecten voor autonome voertuigen (AV's) en het volgen van voetgangersbewegingen. Hoewel dergelijke datasets een zegen zijn geweest voor de gemeenschap, gebruiken ze elk aangepaste en unieke dataformaten en API's, wat het voor onderzoekers omslachtig maakt om methoden te trainen en te evalueren over meerdere datasets. Om dit te verhelpen, presenteren we trajdata: een uniforme interface voor meerdere datasets van menselijke trajecten. In de kern biedt trajdata een eenvoudige, uniforme en efficiënte representatie en API voor traject- en kaartgegevens. Als demonstratie van de mogelijkheden voeren we in dit werk een uitgebreide empirische evaluatie uit van bestaande trajectdatasets, waarbij gebruikers een diepgaand inzicht krijgen in de data die ten grondslag liggen aan veel van het huidige onderzoek naar voetgangers- en AV-bewegingsvoorspelling, en stellen we suggesties voor toekomstige datasets op basis van deze inzichten. trajdata is vrijgegeven onder een permissieve licentie (Apache 2.0) en is online toegankelijk op https://github.com/NVlabs/trajdata.