Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren een nieuw benchmark voor het evalueren van de rolspelcapaciteiten van taalmodellen. Onze aanpak maakt gebruik van taalmodellen zelf om gebruikers na te bootsen in dynamische, meerdelige gesprekken en om de resulterende dialogen te beoordelen. Het raamwerk bestaat uit drie hoofdcomponenten: een spelermodel dat een specifieke karakterrol aanneemt, een ondervragermodel dat gebruikersgedrag simuleert, en een beoordelingsmodel dat de kwaliteit van het gesprek evalueert. We hebben experimenten uitgevoerd waarbij geautomatiseerde evaluaties werden vergeleken met menselijke annotaties om onze aanpak te valideren, waarbij sterke correlaties werden aangetoond over meerdere criteria. Dit werk legt een basis voor een robuuste en dynamische evaluatie van de capaciteiten van modellen in interactieve scenario's.
De snelle ontwikkeling van Grote Taalmodellen (LLM's) voor gezondheidstoepassingen heeft geleid tot oproepen voor een holistische evaluatie die verder gaat dan vaak aangehaalde benchmarks zoals USMLE, om beter de prestaties in de echte wereld weer te geven. Hoewel evaluaties in de echte wereld waardevolle indicatoren van bruikbaarheid zijn, lopen ze vaak achter op het tempo van de evolutie van LLM's, waardoor bevindingen waarschijnlijk verouderd zijn bij implementatie. Deze temporale disconnectie vereist een uitgebreide initiële evaluatie die de selectie van modellen voor specifieke klinische toepassingen kan sturen. We introduceren MEDIC, een raamwerk dat LLM's beoordeelt op vijf kritieke dimensies van klinische competentie: medisch redeneren, ethiek en vooringenomenheid, gegevens- en taalbegrip, leren in context, en klinische veiligheid. MEDIC bevat een nieuw kruisverwijzingsraamwerk dat LLM-prestaties kwantificeert op gebieden zoals dekking en hallucinatiedetectie, zonder dat referentie-uitvoer nodig is. We passen MEDIC toe om LLM's te evalueren op medische vraagbeantwoording, veiligheid, samenvatting, notitiegeneratie en andere taken. Onze resultaten tonen prestatieverschillen tussen modelgroottes, basislijn versus medisch gefinetunede modellen, en hebben implicaties voor modelselectie voor toepassingen die specifieke modelsterktes vereisen, zoals weinig hallucinatie of lagere inferentiekosten. De veelzijdige evaluatie van MEDIC onthult deze prestatieafwegingen, overbrugt de kloof tussen theoretische mogelijkheden en praktische implementatie in gezondheidszorgomgevingen, en zorgt ervoor dat de meest veelbelovende modellen worden geïdentificeerd en aangepast voor diverse gezondheidstoepassingen.
Ondanks het potentieel van op taalmodellen gebaseerde agenten om real-world taken op te lossen zoals webnavigatie, hebben huidige methoden nog steeds moeite met taken op lange termijn met complexe actietrajecten. In tegenstelling hiermee kunnen mensen flexibel complexe taken oplossen door herbruikbare takenworkflows te leren van eerdere ervaringen en deze te gebruiken om toekomstige acties te sturen. Om agenten te bouwen die op een vergelijkbare manier kunnen profiteren van dit proces, introduceren we Agent Workflow Memory (AWM), een methode om veelgebruikte routines, oftewel workflows, op te wekken en selectief workflows aan de agent te verstrekken om toekomstige generaties te sturen. AWM kan flexibel worden toegepast in zowel offline als online scenario's, waarbij agenten workflows opwekken uit trainingsvoorbeelden van tevoren of uit testvragen ter plekke. We voeren experimenten uit op twee belangrijke webnavigatie-benchmarks - Mind2Web en WebArena - die gezamenlijk meer dan 1000 taken uit meer dan 200 domeinen bestrijken, waaronder reizen, winkelen en sociale media, onder andere. AWM verbetert aanzienlijk de baseline resultaten met respectievelijk 24,6% en 51,1% relatief succespercentage op Mind2Web en WebArena, terwijl het aantal stappen dat nodig is om WebArena-taken succesvol op te lossen wordt verminderd. Bovendien generaliseert online AWM robuust in cross-task, website- en domeinevaluaties, waarbij het baselines overtreft met 8,9 tot 14,0 absolute punten naarmate de distributiegaten tussen trainings- en testtaken groter worden.
Ondanks de enorme vooruitgang in beeld-naar-3D generatie, hebben bestaande methoden nog steeds moeite om multi-view consistente beelden te produceren met gedetailleerde texturen van hoge resolutie, vooral in het paradigma van 2D diffusie dat 3D-bewustzijn mist. In dit werk presenteren we het High-resolution Image-to-3D model (Hi3D), een nieuw videodiffusiegebaseerd paradigma dat een enkele afbeelding opnieuw definieert naar multi-view beelden als 3D-bewuste sequentiële beeldgeneratie (d.w.z. orbitale videogeneratie). Deze methodologie duikt in de onderliggende temporale consistentiekennis in het videodiffusiemodel die goed generaliseert naar geometrieconsistentie over meerdere weergaven in 3D-generatie. Technisch gezien versterkt Hi3D eerst het vooraf getrainde videodiffusiemodel met 3D-bewuste prior (camera-positievoorwaarde), resulterend in multi-view beelden met details van lage resolutie. Een 3D-bewuste video-naar-video verfijner wordt geleerd om de multi-view beelden verder op te schalen met details van hoge resolutie. Dergelijke multi-view beelden met hoge resolutie worden verder aangevuld met nieuwe weergaven via 3D Gaussian Splatting, die uiteindelijk worden gebruikt om hoogwaardige meshes te verkrijgen via 3D-reconstructie. Uitgebreide experimenten op zowel synthese van nieuwe weergaven als reconstructie van enkele weergaven tonen aan dat onze Hi3D erin slaagt superieure multi-view consistente beelden te produceren met zeer gedetailleerde texturen. De broncode en gegevens zijn beschikbaar op https://github.com/yanghb22-fdu/Hi3D-Official.
Lineaire aandachttransformatoren en hun afgeleiden met poorten, die bekend staan om het mogelijk maken van parallelle training en efficiënte terugkerende inferentie, schieten nog steeds tekort bij taken die veel oproepen vereisen in vergelijking met traditionele transformatoren en vereisen aanzienlijke middelen voor training vanaf nul. Dit artikel introduceert Gated Slot Aandacht (GSA), dat Aandacht verbetert met Begrensde-geheugencontrole (ABC) door een poortmechanisme te incorporeren geïnspireerd door Gated Lineaire Aandacht (GLA). In essentie bestaat GSA uit een tweelaagse GLA verbonden via softmax, waarbij contextbewust geheugen lezen en adaptief vergeten worden gebruikt om de geheugencapaciteit te verbeteren terwijl de compacte terugkerende toestandsgrootte behouden blijft. Deze ontwerp verbetert aanzienlijk zowel de training als de inferentie-efficiëntie door het hardware-efficiënte trainingsalgoritme van GLA en de verkleinde toestandsgrootte. Bovendien is het behouden van de softmax-operatie met name gunstig in "fijnafstemming van vooraf getrainde transformatoren naar RNNs" (T2R) instellingen, waardoor de noodzaak voor uitgebreide training vanaf nul wordt verminderd. Uitgebreide experimenten bevestigen de superieure prestaties van GSA in scenario's die in-context oproep vereisen en in T2R-instellingen.
Chain-of-Thought (CoT) prompting onthult dat grote taalmodellen in staat zijn om complex redeneren uit te voeren via tussenstappen. CoT prompting wordt voornamelijk onderverdeeld in drie benaderingen. De eerste benadering maakt gebruik van eenvoudige prompts zoals "Laten we stap voor stap denken" om een sequentieel denkproces te genereren voordat het een antwoord oplevert. De tweede benadering maakt gebruik van door mensen gemaakte, stapsgewijze demonstraties om het redeneerproces van het model te begeleiden. De derde automatiseert de generatie van beredeneerde demonstraties met de 'Laten we stap voor stap denken'. Deze benadering leidt soms tot redeneerfouten, waarbij de noodzaak wordt benadrukt om demonstraties te diversifiëren om de misleidende effecten te beperken. Diverse demonstraties vormen echter een uitdaging voor effectieve representaties. In dit werk stellen we ECHO voor, een zelf-geharmoniseerde chain-of-thought prompting methode. Het consolideert diverse oplossingspaden tot een uniform en effectief oplossingspatroon. ECHO toont de beste algehele prestaties over drie redeneerdomeinen.
gsplat is een open-source bibliotheek die is ontworpen voor het trainen en ontwikkelen van Gaussische Splatting methoden. Het bevat een front-end met Python koppelingen die compatibel zijn met de PyTorch bibliotheek en een back-end met zeer geoptimaliseerde CUDA kernels. gsplat biedt tal van functies die de optimalisatie van Gaussische Splatting modellen verbeteren, waaronder optimalisatieverbeteringen voor snelheid, geheugen en convergentietijden. Experimentele resultaten tonen aan dat gsplat tot 10% minder trainingsduur en 4x minder geheugen bereikt dan de originele implementatie. Gebruikt in verschillende onderzoeksprojecten, wordt gsplat actief onderhouden op GitHub. De broncode is beschikbaar op https://github.com/nerfstudio-project/gsplat onder Apache License 2.0. We verwelkomen bijdragen van de open-source gemeenschap.
"Een idee is niets meer en niets minder dan een nieuwe combinatie van oude elementen" (Young, J.W.). De wijdverbreide adoptie van Grote Taalmodellen (GTM's) en publiekelijk beschikbare ChatGPT hebben een belangrijk keerpunt gemarkeerd in de integratie van Kunstmatige Intelligentie (AI) in het dagelijks leven van mensen. Deze studie onderzoekt de capaciteit van GTM's om nieuwe onderzoeksideeën te genereren op basis van informatie uit onderzoeksartikelen. We voeren een grondig onderzoek uit naar 4 GTM's in vijf domeinen (bijv. Chemie, Computer, Economie, Medisch en Natuurkunde). We hebben vastgesteld dat de toekomstige onderzoeksideeën die worden gegenereerd door Claude-2 en GPT-4 meer in lijn zijn met het perspectief van de auteur dan die van GPT-3.5 en Gemini. We hebben ook vastgesteld dat Claude-2 meer diverse toekomstige onderzoeksideeën genereert dan GPT-4, GPT-3.5 en Gemini 1.0. We hebben vervolgens een menselijke evaluatie uitgevoerd van de nieuwheid, relevantie en haalbaarheid van de gegenereerde toekomstige onderzoeksideeën. Dit onderzoek biedt inzichten in de evoluerende rol van GTM's in ideeëngeneratie, waarbij zowel de capaciteiten als de beperkingen worden benadrukt. Ons werk draagt bij aan de lopende inspanningen om taalmodellen te evalueren en te gebruiken voor het genereren van toekomstige onderzoeksideeën. We stellen onze datasets en codes openbaar beschikbaar.
Wij stellen GauFace voor, een nieuw Gaussian Splatting-representatie, op maat gemaakt voor efficiënte animatie en rendering van op fysica gebaseerde gezichtsassets. Door sterke geometrische aannames en beperkte optimalisatie te benutten, zorgt GauFace voor een nette en gestructureerde Gaussian-representatie, wat resulteert in een hoge nauwkeurigheid en real-time gezichtsinteractie van 30fps@1440p op een Snapdragon 8 Gen 2 mobiel platform. Vervolgens introduceren we TransGS, een diffusietransformator die fysiek gebaseerde gezichtsassets direct vertaalt naar de overeenkomstige GauFace-representaties. Specifiek passen we een patch-gebaseerde pijplijn toe om effectief om te gaan met het grote aantal Gaussians. We introduceren ook een nieuw pixel-uitgelijnd bemonsteringsschema met UV-positie-encodering om de doorvoer en renderkwaliteit van GauFace-assets gegenereerd door onze TransGS te waarborgen. Eenmaal getraind, kan TransGS direct gezichtsassets met belichtingsomstandigheden vertalen naar GauFace-representatie. Met de rijke conditioneringmodaliteiten maakt het ook bewerkings- en animatiemogelijkheden mogelijk die doen denken aan traditionele CG-pijplijnen. We voeren uitgebreide evaluaties en gebruikersstudies uit, vergeleken met traditionele offline en online renderers, evenals recente neurale rendermethoden, die de superieure prestaties van onze benadering voor gezichtsassetrendering aantonen. We tonen ook diverse meeslepende toepassingen van gezichtsassets met behulp van onze TransGS-benadering en GauFace-representatie, op verschillende platforms zoals pc's, telefoons en zelfs VR-headsets.
We presenteren een framework voor het leren genereren van achtergrondmuziek vanuit video-invoer. In tegenstelling tot bestaande werken die vertrouwen op symbolische muzikale annotaties, die beperkt zijn in hoeveelheid en diversiteit, maakt onze methode gebruik van grootschalige webvideo's vergezeld van achtergrondmuziek. Dit stelt ons model in staat om te leren realistische en diverse muziek te genereren. Om dit doel te bereiken, ontwikkelen we een generatieve video-muziek Transformer met een nieuw semantisch video-muziek aligneringsschema. Ons model maakt gebruik van een gezamenlijk autoregressief en contrastief leerdoel, dat de generatie van muziek die is afgestemd op hoog-niveau video-inhoud aanmoedigt. We introduceren ook een nieuw video-beat aligneringsschema om de gegenereerde muziekbeats af te stemmen op de laag-niveau bewegingen in de video. Ten slotte, om fijnmazige visuele aanwijzingen in een video vast te leggen die nodig zijn voor realistische achtergrondmuziekgeneratie, introduceren we een nieuwe temporele video-encoderarchitectuur, waardoor we efficiënt video's kunnen verwerken die bestaan uit veel dicht op elkaar gesamplede frames. We trainen ons framework op onze nieuw samengestelde DISCO-MV dataset, bestaande uit 2,2 miljoen video-muziekvoorbeelden, die vele malen groter is dan alle eerdere datasets die zijn gebruikt voor video-muziekgeneratie. Onze methode presteert beter dan bestaande benaderingen op de DISCO-MV en MusicCaps datasets volgens verschillende muziekgeneratie-evaluatiemetrics, inclusief menselijke evaluatie. Resultaten zijn beschikbaar op https://genjib.github.io/project_page/VMAs/index.html
De afgelopen jaren hebben we een toename gezien in de ontwikkeling van eiwitbasismodellen, die aanzienlijke verbeteringen hebben gebracht in de prestaties bij eiwitvoorspelling en generatieve taken, variërend van 3D-structuurvoorspelling en eiwitontwerp tot conformationele dynamica. De mogelijkheden en beperkingen die gepaard gaan met deze modellen blijven echter slecht begrepen vanwege het ontbreken van een uniform evaluatiekader. Om deze lacune op te vullen, introduceren we ProteinBench, een allesomvattend evaluatiekader dat is ontworpen om de transparantie van eiwitbasismodellen te verbeteren. Onze aanpak bestaat uit drie belangrijke componenten: (i) Een taxonomische classificatie van taken die breed de belangrijkste uitdagingen in het eiwitdomein omvatten, gebaseerd op de relaties tussen verschillende eiwitmodaliteiten; (ii) Een multi-metrische evaluatiebenadering die de prestaties beoordeelt over vier belangrijke dimensies: kwaliteit, nieuwigheid, diversiteit en robuustheid; en (iii) Diepgaande analyses vanuit verschillende gebruikersdoelstellingen, die een alomvattend beeld geven van de modelprestaties. Onze uitgebreide evaluatie van eiwitbasismodellen onthult verschillende belangrijke bevindingen die inzicht geven in hun huidige mogelijkheden en beperkingen. Om transparantie te bevorderen en verder onderzoek te vergemakkelijken, stellen we de evaluatiedataset, code en een openbare ranglijst openbaar beschikbaar voor verdere analyse en een algemeen modulair toolkit. We streven ernaar dat ProteinBench een levende benchmark wordt voor het vaststellen van een gestandaardiseerd, diepgaand evaluatiekader voor eiwitbasismodellen, waardoor hun ontwikkeling en toepassing worden gestimuleerd en samenwerking binnen het vakgebied wordt bevorderd.
Gezien het feit dat Grote Taalmodellen (LLMs) aanzienlijke vooruitgang hebben geboekt in het schrijven van code, kunnen ze nu worden gebruikt om autonoom resultaten uit onderzoeksrepositories te reproduceren? Een dergelijke mogelijkheid zou een zegen zijn voor de onderzoeksgemeenschap, omdat het onderzoekers zou helpen eerdere werkzaamheden te valideren, begrijpen en uit te breiden. Om vooruitgang te boeken naar dit doel, introduceren we SUPER, de eerste benchmark die is ontworpen om de capaciteit van LLMs te evalueren bij het opzetten en uitvoeren van taken uit onderzoeksrepositories. SUPER heeft tot doel de realistische uitdagingen vast te leggen waarmee onderzoekers worden geconfronteerd bij het werken met Machine Learning (ML) en Natuurlijke Taalverwerking (NLP) onderzoeksrepositories. Onze benchmark bestaat uit drie verschillende probleemsets: 45 end-to-end problemen met geannoteerde expertoplossingen, 152 subproblemen afgeleid van de expertset die zich richten op specifieke uitdagingen (bijv. het configureren van een trainer), en 602 automatisch gegenereerde problemen voor grootschalige ontwikkeling. We introduceren verschillende evaluatiemethoden om zowel taaksucces als voortgang te beoordelen, waarbij gebruik wordt gemaakt van gouden oplossingen indien beschikbaar of anders benaderingen. We tonen aan dat state-of-the-art benaderingen moeite hebben om deze problemen op te lossen, waarbij het beste model (GPT-4o) slechts 16,3% van de end-to-end set oplost en 46,1% van de scenario's. Dit illustreert de uitdaging van deze taak en suggereert dat SUPER een waardevolle bron kan zijn voor de gemeenschap om vooruitgang te boeken en te meten.
Dit artikel introduceert MVLLaVA, een intelligent agent ontworpen voor taken op het gebied van het synthetiseren van nieuwe weergaven. MVLLaVA integreert meerdere multi-view diffusiemodellen met een grote multimodale model, LLaVA, waardoor het in staat is om efficiënt een breed scala aan taken aan te pakken. MVLLaVA vertegenwoordigt een veelzijdig en geünificeerd platform dat zich aanpast aan diverse soorten invoer, waaronder een enkele afbeelding, een beschrijvende onderschrift, of een specifieke verandering in kijkrichting, geleid door taalinstructies voor het genereren van gezichtspunten. We creëren zorgvuldig taakspecifieke instructiesjablonen, die vervolgens worden gebruikt om LLaVA verder af te stemmen. Als gevolg hiervan verwerft MVLLaVA de mogelijkheid om nieuwe weergaveafbeeldingen te genereren op basis van gebruikersinstructies, waarbij het zijn flexibiliteit toont over diverse taken. Experimenten worden uitgevoerd om de effectiviteit van MVLLaVA te valideren, waarbij de robuuste prestaties en veelzijdigheid ervan worden aangetoond bij het aanpakken van diverse uitdagingen op het gebied van het synthetiseren van nieuwe weergaven.
Generatieve modellen die op grote schaal zijn getraind, kunnen nu tekst, video en, recentelijk, wetenschappelijke gegevens zoals kristalstructuren produceren. In toepassingen van generatieve benaderingen in materiaalkunde, en met name in kristalstructuren, kan de begeleiding van de domeinexpert in de vorm van hoog-niveau instructies essentieel zijn voor een geautomatiseerd systeem om kandidaatkristallen te produceren die geschikt zijn voor vervolgonderzoek. In dit werk formuleren we taal-naar-structuur generatie als een multi-objectief optimalisatieprobleem en stellen we Generative Hierarchical Materials Search (GenMS) voor voor controleerbare generatie van kristalstructuren. GenMS bestaat uit (1) een taalmodel dat hoog-niveau natuurlijke taal als input neemt en tussenliggende tekstuele informatie genereert over een kristal (bijv. chemische formules), en (2) een diffusiemodel dat tussenliggende informatie als input neemt en continue waarde kristalstructuren genereert. GenMS maakt bovendien gebruik van een grafisch neuraal netwerk om eigenschappen (bijv. vormingsenergie) van de gegenereerde kristalstructuren te voorspellen. Tijdens inferentie maakt GenMS gebruik van alle drie de componenten om een voorwaartse boomzoektocht uit te voeren over de mogelijke structuurgebieden. Experimenten tonen aan dat GenMS beter presteert dan andere alternatieven waarbij rechtstreeks taalmodellen worden gebruikt om structuren te genereren, zowel bij het voldoen aan gebruikersverzoeken als bij het genereren van structuren met een lage energie. We bevestigen dat GenMS in staat is om veelvoorkomende kristalstructuren zoals dubbele perovskieten of spinels te genereren, uitsluitend op basis van natuurlijke taalinput, en kan daarmee de basis vormen voor meer complexe structuurgeneratie in de nabije toekomst.