Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Gegeven twee afbeeldingen waarop een persoon en een kledingstuk gedragen door een andere persoon zijn afgebeeld, is ons doel een visualisatie te genereren van hoe het kledingstuk eruit zou zien op de ingevoerde persoon. Een belangrijke uitdaging is het synthetiseren van een fotorealistische, detailbehoudende visualisatie van het kledingstuk, terwijl het kledingstuk wordt vervormd om een significante verandering in lichaamshouding en -vorm tussen de personen te accommoderen. Eerdere methodes richten zich ofwel op het behoud van kledingdetails zonder effectieve variatie in houding en vorm, ofwel staan het passen van kleding met de gewenste vorm en houding toe, maar missen kledingdetails. In dit artikel stellen we een op diffusie gebaseerde architectuur voor die twee UNets verenigt (aangeduid als Parallel-UNet), waardoor we kledingdetails kunnen behouden en het kledingstuk kunnen vervormen voor een significante verandering in houding en lichaamsvorm in een enkel netwerk. De belangrijkste ideeën achter Parallel-UNet zijn: 1) het kledingstuk wordt impliciet vervormd via een cross-attention-mechanisme, 2) de vervorming van het kledingstuk en de blending met de persoon gebeuren als onderdeel van een geïntegreerd proces in plaats van als een reeks van twee afzonderlijke taken. Experimentele resultaten geven aan dat TryOnDiffusion zowel kwalitatief als kwantitatief state-of-the-art prestaties behaalt.
Het reflecterende karakter van het menselijk oog is een ondergewaardeerde bron van informatie over hoe de wereld om ons heen eruitziet. Door de ogen van een bewegend persoon vast te leggen, kunnen we meerdere perspectieven van een scène buiten het directe gezichtsveld van de camera verzamelen via de reflecties in de ogen. In dit artikel reconstrueren we een 3D-scène buiten het gezichtsveld van de camera met behulp van portretfoto's die oogreflecties bevatten. Deze taak is uitdagend vanwege 1) de moeilijkheid om oogposities nauwkeurig te schatten en 2) de verstrengelde verschijning van de oogiris en de scèmereflecties. Onze methode verfijnt gezamenlijk de hoornvliesposities, het stralingsveld dat de scène weergeeft, en de textuur van de iris van de waarnemer. We stellen verder een eenvoudige regularisatieprior voor op het irispatroon om de reconstructiekwaliteit te verbeteren. Door middel van verschillende experimenten met synthetische en real-world opnames van mensen met verschillende oogkleuren, tonen we de haalbaarheid aan van onze aanpak om 3D-scènes te reconstrueren met behulp van oogreflecties.
Code Large Language Models (Code LLMs), zoals StarCoder, hebben uitzonderlijke prestaties getoond in code-gerelateerde taken. De meeste bestaande modellen zijn echter alleen voorgetraind op uitgebreide ruwe codegegevens zonder instructie-finetuning. In dit artikel introduceren we WizardCoder, dat Code LLMs uitrust met complexe instructie-finetuning, door de Evol-Instruct methode aan te passen aan het domein van code. Door middel van uitgebreide experimenten op vier prominente codegeneratie benchmarks, namelijk HumanEval, HumanEval+, MBPP en DS-1000, onthullen we de uitzonderlijke capaciteiten van ons model. Het overtreft alle andere open-source Code LLMs met een aanzienlijke marge. Bovendien presteert ons model zelfs beter dan de grootste gesloten LLMs, Anthropic's Claude en Google's Bard, op HumanEval en HumanEval+. Onze code, modelgewichten en gegevens zijn openbaar beschikbaar op https://github.com/nlpxucan/WizardLM.
Recent onderzoek naar Large Language Models (LLMs) heeft geleid tot opmerkelijke vooruitgang in algemene NLP AI-assistenten. Sommige studies hebben verder onderzocht hoe LLMs kunnen worden gebruikt voor planning en het aanroepen van modellen of API's om meer algemene multimodale gebruikersvragen aan te pakken. Ondanks deze vooruitgang blijven complexe visueel gebaseerde taken uitdagend vanwege de diverse aard van visuele taken. Deze diversiteit komt tot uiting in twee aspecten: 1) Redeneerpaden. Voor veel real-life toepassingen is het moeilijk om een vraag nauwkeurig te ontleden door alleen de vraag zelf te onderzoeken. Planning op basis van de specifieke visuele inhoud en de resultaten van elke stap is meestal vereist. 2) Flexibele invoer en tussenresultaten. Invoervormen kunnen flexibel zijn voor in-the-wild gevallen, en omvatten niet alleen een enkele afbeelding of video, maar een mix van video's en afbeeldingen, bijvoorbeeld een gebruikersweergave-afbeelding met enkele referentievideo's. Bovendien zal een complex redeneerproces ook diverse multimodale tussenresultaten genereren, zoals videonarraties, gesegmenteerde videoclips, enz. Om dergelijke algemene gevallen aan te pakken, stellen we een multimodale AI-assistent voor, AssistGPT, met een interleaved code- en taalredeneerbenadering genaamd Plan, Execute, Inspect, and Learn (PEIL) om LLMs te integreren met verschillende tools. Specifiek is de Planner in staat om natuurlijke taal te gebruiken om te plannen welke tool in de Executor vervolgens moet worden gebruikt op basis van de huidige redeneervoortgang. Inspector is een efficiënte geheugenbeheerder om de Planner te helpen de juiste visuele informatie in een specifieke tool te voeren. Ten slotte, aangezien het hele redeneerproces complex en flexibel is, is een Learner ontworpen om het model in staat te stellen autonoom de optimale oplossing te verkennen en te ontdekken. We hebben experimenten uitgevoerd op de A-OKVQA en NExT-QA benchmarks, waarbij state-of-the-art resultaten werden behaald. Bovendien tonen showcases het vermogen van ons systeem om vragen aan te pakken die veel complexer zijn dan die in de benchmarks worden gevonden.
Knowledge Distillation (KD) is een veelbelovende techniek om de hoge computationale eisen van grote taalmodellen (LLMs) te verminderen. Echter zijn vorige KD-methoden voornamelijk toegepast op white-box classificatiemodellen of het trainen van kleine modellen om black-box model-API's zoals ChatGPT na te bootsen. Hoe effectief kennis kan worden gedistilleerd uit white-box generatieve LLMs is nog steeds onderbelicht, wat steeds belangrijker wordt met de opkomst van LLMs. In dit werk stellen we MiniLLM voor, dat kleinere taalmodellen distilleert uit grotere generatieve taalmodellen. We vervangen eerst de forward Kullback-Leibler-divergentie (KLD) doelstelling in de standaard KD-benaderingen door reverse KLD, die beter geschikt is voor KD op generatieve taalmodellen, om te voorkomen dat het studentmodel de lage-waarschijnlijkheidsregio's van de leraarverdeling overschat. Vervolgens leiden we een effectieve optimalisatiebenadering af om dit doel te leren. Uitgebreide experimenten in de instructie-volgende setting tonen aan dat de MiniLLM-modellen nauwkeurigere reacties genereren met een hogere algehele kwaliteit, lagere exposure bias, betere kalibratie en betere prestaties bij het genereren van lange teksten. Onze methode is ook schaalbaar voor verschillende modelfamilies met 120M tot 13B parameters. We zullen onze code en modelcheckpoints vrijgeven op https://aka.ms/MiniLLM.
De ongekende prestaties van grote taalmodelen (LLM's) vereisen verbeteringen in evaluatiemethoden. In plaats van slechts de breedte van LLM-vaardigheden te verkennen, geloven wij dat zorgvuldige en doordachte ontwerpen essentieel zijn voor grondige, onbevooroordeelde en toepasbare evaluaties. Gezien het belang van wereldkennis voor LLM's, hebben we een kennisgericht LLM-evaluatiebenchmark ontwikkeld, genaamd KoLA (Knowledge-oriented LLM Assessment), waarin we drie cruciale factoren zorgvuldig hebben ontworpen: (1) Voor het modelleren van vaardigheden bootsen we menselijke cognitie na om een vierlagige taxonomie van kennisgerelateerde vaardigheden te vormen, die 19 taken omvat. (2) Voor data gebruiken we, om eerlijke vergelijkingen te garanderen, zowel Wikipedia, een corpus dat veelvuldig is voorgetraind door LLM's, als continu verzamelde nieuwe corpora, met als doel het vermogen om ongeziene data en evoluerende kennis te verwerken te evalueren. (3) Voor evaluatiecriteria hanteren we een contrastief systeem, inclusief algemene standaardscores voor betere numerieke vergelijkbaarheid tussen taken en modellen, en een unieke zelfcontrastmetriek voor het automatisch evalueren van kennis hallucinatie. We evalueren 21 open-source en commerciële LLM's en verkrijgen enkele intrigerende bevindingen. De KoLA-dataset en het open-deelname leaderboard zijn openbaar vrijgegeven op https://kola.xlore.cn en zullen continu worden bijgewerkt om referenties te bieden voor de ontwikkeling van LLM's en kennisgerelateerde systemen.
Foundation Large Language Models (LLMs) zoals GPT-4 vertegenwoordigen een revolutie in AI vanwege hun toepassingen in de echte wereld via natuurlijke taalverwerking. Ze brengen echter ook aanzienlijke risico's met zich mee, zoals de aanwezigheid van bevooroordeelde, privé- of schadelijke tekst, en de ongeautoriseerde opname van auteursrechtelijk beschermd materiaal. Wij introduceren h2oGPT, een suite van open-source code repositories voor het creëren en gebruiken van Large Language Models (LLMs) gebaseerd op Generative Pretrained Transformers (GPTs). Het doel van dit project is om 's werelds beste echt open-source alternatief te creëren voor closed-source GPTs. In samenwerking met en als onderdeel van de ongelooflijke en onstuitbare open-source community, open-sourcen we verschillende fijn afgestemde h2oGPT-modellen van 7 tot 40 miljard parameters, klaar voor commercieel gebruik onder volledig permissieve Apache 2.0-licenties. In onze release is ook 100% privé documentzoeken met natuurlijke taal inbegrepen. Open-source taalmodellen helpen de ontwikkeling van AI te versnellen en maken het toegankelijker en betrouwbaarder. Ze verlagen de drempels voor toegang, waardoor individuen en groepen deze modellen kunnen aanpassen aan hun behoeften. Deze openheid bevordert innovatie, transparantie en eerlijkheid. Een open-source strategie is nodig om de voordelen van AI eerlijk te delen, en H2O.ai zal blijven werken aan de democratisering van AI en LLMs.
We presenteren DreamHuman, een methode om realistische, animeerbare 3D-menselijke avatar-modellen te genereren uitsluitend op basis van tekstuele beschrijvingen. Recente tekst-naar-3D-methoden hebben aanzienlijke vooruitgang geboekt in generatie, maar schieten nog tekort in belangrijke aspecten. Controle en vaak ook ruimtelijke resolutie blijven beperkt, bestaande methoden produceren vaste in plaats van geanimeerde 3D-menselijke modellen, en antropometrische consistentie voor complexe structuren zoals mensen blijft een uitdaging. DreamHuman verbindt grote tekst-naar-beeld-synthesemodellen, neurale stralingsvelden en statistische lichaamsmodellen in een nieuw modelleer- en optimalisatiekader. Hierdoor wordt het mogelijk om dynamische 3D-menselijke avatars te genereren met hoogwaardige texturen en geleerde, exemplaarspecifieke oppervlaktevervormingen. We demonstreren dat onze methode in staat is om een breed scala aan animeerbare, realistische 3D-menselijke modellen uit tekst te genereren. Onze 3D-modellen hebben een diverse verschijning, kleding, huidskleuren en lichaamsvormen, en overtreffen zowel generieke tekst-naar-3D-benaderingen als eerdere tekstgebaseerde 3D-avatargeneratoren aanzienlijk in visuele kwaliteit. Voor meer resultaten en animaties kunt u onze website bezoeken op https://dream-human.github.io.
Hoewel instructie-afgestemde grote taalmodellen (LLMs) opmerkelijke prestaties hebben getoond bij diverse NLP-taken, is hun effectiviteit op andere gegevensmodaliteiten dan tekst nog niet volledig onderzocht. In dit werk stellen we Macaw-LLM voor, een nieuw multi-modale LLM dat visuele, auditieve en tekstuele informatie naadloos integreert. Macaw-LLM bestaat uit drie hoofdcomponenten: een modaliteitsmodule voor het coderen van multi-modale gegevens, een cognitieve module voor het benutten van vooraf getrainde LLMs, en een afstemmingsmodule voor het harmoniseren van diverse representaties. Onze innovatieve afstemmingsmodule verbindt multi-modale kenmerken naadloos met tekstuele kenmerken, wat het aanpassingsproces van de modaliteitsmodules naar de cognitieve module vereenvoudigt. Daarnaast hebben we een grootschalige multi-modale instructiedataset samengesteld in de vorm van multi-turn dialogen, met 69K beeldinstanties en 50K video-instanties. We hebben onze data, code en model openbaar gemaakt, wat hopelijk de weg kan effenen voor toekomstig onderzoek naar multi-modale LLMs en de mogelijkheden van LLMs kan uitbreiden om diverse gegevensmodaliteiten te verwerken en complexe real-world scenario's aan te pakken.
Grote taalmmodellen (LLMs) hebben opwindende vooruitgang geboekt in het verwerven van diverse nieuwe vaardigheden door in-context leren, variërend van logisch redeneren tot het schrijven van code. Onderzoekers in de robotica hebben ook verkend hoe LLMs kunnen worden gebruikt om de mogelijkheden van robotbesturing te verbeteren. Echter, aangezien laagniveau robotacties hardwareafhankelijk zijn en ondervertegenwoordigd zijn in de trainingscorpora van LLMs, hebben bestaande inspanningen om LLMs toe te passen in de robotica LLMs grotendeels behandeld als semantische planners of vertrouwd op door mensen ontworpen besturingsprimitieven om te communiceren met de robot. Aan de andere kant zijn beloningsfuncties flexibele representaties gebleken die kunnen worden geoptimaliseerd voor besturingsbeleid om diverse taken te bereiken, terwijl hun semantische rijkdom hen geschikt maakt om te worden gespecificeerd door LLMs. In dit werk introduceren we een nieuw paradigma dat deze realisatie benut door LLMs te gebruiken om beloningsparameters te definiëren die kunnen worden geoptimaliseerd en een verscheidenheid aan robotische taken kunnen volbrengen. Door beloning te gebruiken als de tussenliggende interface gegenereerd door LLMs, kunnen we effectief de kloof overbruggen tussen hoogtaal instructies of correcties en laagniveau robotacties. Tegelijkertijd maakt de combinatie hiervan met een real-time optimizer, MuJoCo MPC, een interactieve ervaring mogelijk voor het creëren van gedrag waarbij gebruikers direct de resultaten kunnen observeren en feedback kunnen geven aan het systeem. Om de prestaties van onze voorgestelde methode systematisch te evalueren, hebben we in totaal 17 taken ontworpen voor een gesimuleerde viervoetige robot en een behendige manipulatorrobot. We demonstreren dat onze voorgestelde methode betrouwbaar 90% van de ontworpen taken aanpakt, terwijl een baseline die primitieve vaardigheden gebruikt als de interface met Code-as-policies 50% van de taken bereikt. We hebben onze methode verder gevalideerd op een echte robotarm waar complexe manipulatievaardigheden zoals niet-grijpend duwen ontstaan door ons interactieve systeem.
Bij het oplossen van besluitvormingstaken vertrouwen mensen doorgaans op informatie uit twee belangrijke bronnen: (1) Historische beleidsdata, die interactieherhalingen uit de omgeving bieden, en (2) Analytische inzichten in natuurlijke taalvorm, die het waardevolle denkproces of strategische overwegingen blootleggen. Desondanks richt het merendeel van het voorafgaande onderzoek zich slechts op één bron: ze gebruiken uitsluitend historische herhalingen om direct beleid of waardefuncties te leren, of richten zich op taalmodeltraining met alleen een taalcorpus. In dit artikel beargumenteren we dat een krachtige autonome agent beide bronnen zou moeten omvatten. Daarom stellen we ChessGPT voor, een GPT-model dat beleidsleren en taalmodelleering verbindt door gegevens uit deze twee bronnen in schaakspellen te integreren. Specifiek bouwen we een grootschalige dataset met spellen en taal gerelateerd aan schaken. Gebruikmakend van deze dataset demonstreren we twee modelvoorbeelden, ChessCLIP en ChessGPT, die beleidsleren en taalmodelleering integreren. Tot slot stellen we een volledig evaluatiekader voor om het schaakvermogen van taalmodelen te beoordelen. Experimentele resultaten valideren de effectiviteit van ons model en de dataset. We maken onze code, het model en de dataset openbaar op https://github.com/waterhorse1/ChessGPT.
We hebben een uitgebreide dataset samengesteld van 4.550 vragen en oplossingen uit probleem sets, tussentijdse examens en eindexamens van alle MIT-cursussen in Wiskunde en Elektrotechniek en Computerwetenschappen (EECS) die vereist zijn voor het behalen van een diploma. We evalueren het vermogen van grote taalmodellen om aan de afstudeereisen te voldoen voor elke MIT-major in Wiskunde en EECS. Onze resultaten tonen aan dat GPT-3.5 een derde van het volledige MIT-curriculum succesvol oplost, terwijl GPT-4, met prompt engineering, een perfect oplossingspercentage behaalt op een testset waarbij vragen gebaseerd op afbeeldingen zijn uitgesloten. We fine-tunen een open-source groot taalmodel op deze dataset. We gebruiken GPT-4 om modelantwoorden automatisch te beoordelen, wat een gedetailleerde prestatie-analyse oplevert per cursus, vraag en antwoordtype. Door vragen in te bedden in een laagdimensionale ruimte, onderzoeken we de relaties tussen vragen, onderwerpen en vakken en ontdekken we welke vragen en vakken nodig zijn om andere vragen en vakken op te lossen via few-shot learning. Onze analyse biedt waardevolle inzichten in cursusvoorwaarden en curriculumontwerp, en benadrukt het potentieel van taalmodellen voor het leren en verbeteren van Wiskunde en EECS-onderwijs.
We introduceren anticipatie: een methode voor het construeren van een controleerbaar generatief model van een tijdelijk puntproces (het gebeurtenisproces) dat asynchroon wordt geconditioneerd op realisaties van een tweede, gecorreleerd proces (het controleproces). We bereiken dit door sequenties van gebeurtenissen en controles te verweven, zodat controles verschijnen na stopmomenten in de gebeurtenisreeks. Dit werk is gemotiveerd door problemen die ontstaan bij de controle van symbolische muziekgeneratie. We richten ons op infillingscontroletaken, waarbij de controles een subset van de gebeurtenissen zelf zijn, en conditionele generatie een reeks gebeurtenissen voltooit gegeven de vaste controle-gebeurtenissen. We trainen anticipatoire infillingsmodellen met behulp van de grote en diverse Lakh MIDI-muziekdataset. Deze modellen evenaren de prestaties van autoregressieve modellen voor geprompte muziekgeneratie, met de extra mogelijkheid om infillingscontroletaken uit te voeren, inclusief begeleiding. Menselijke beoordelaars melden dat een anticipatoir model begeleidingen produceert met een vergelijkbare muzikaliteit als zelfs door mensen gecomponeerde muziek over een clip van 20 seconden.
De verscheidenheid aan objecten in de echte wereld is vrijwel onbeperkt en is daardoor onmogelijk vast te leggen met modellen die getraind zijn op een vaste set categorieën. Als gevolg hiervan hebben open-vocabulary-methoden de afgelopen jaren de interesse van de gemeenschap gewekt. Dit artikel stelt een nieuwe methode voor voor zero-shot open-vocabulary-segmentatie. Eerdere werken vertrouwen grotendeels op contrastieve training met behulp van afbeelding-tekst-paren, waarbij groeperingsmechanismen worden gebruikt om beeldkenmerken te leren die zowel op taal zijn afgestemd als goed gelokaliseerd zijn. Dit kan echter ambiguïteit introduceren, aangezien het visuele uiterlijk van afbeeldingen met vergelijkbare bijschriften vaak varieert. In plaats daarvan maken wij gebruik van de generatieve eigenschappen van grootschalige tekst-naar-afbeelding-diffusiemodellen om een set ondersteunende afbeeldingen te bemonsteren voor een gegeven tekstuele categorie. Dit biedt een distributie van uiterlijkheden voor een gegeven tekst, waardoor het ambiguïteitsprobleem wordt omzeild. Wij stellen verder een mechanisme voor dat rekening houdt met de contextuele achtergrond van de bemonsterde afbeeldingen om objecten beter te lokaliseren en de achtergrond direct te segmenteren. Wij tonen aan dat onze methode kan worden gebruikt om verschillende bestaande vooraf getrainde zelf-supervisie-functie-extractors te verankeren in natuurlijke taal en verklaarbare voorspellingen te bieden door terug te mappen naar regio's in de ondersteunende set. Ons voorstel is training-vrij, waarbij alleen gebruik wordt gemaakt van vooraf getrainde componenten, maar toch sterke prestaties laat zien op een reeks open-vocabulary-segmentatiebenchmarks, met een voorsprong van meer dan 10% op de Pascal VOC-benchmark.
We behandelen een benchmarktaak in agile robotica: het vangen van objecten die met hoge snelheid worden gegooid. Dit is een uitdagende taak die het volgen, onderscheppen en zachtjes opvangen van een gegooid object omvat, met alleen toegang tot visuele waarnemingen van het object en de proprioceptieve staat van de robot, alles binnen een fractie van een seconde. We presenteren de relatieve voordelen van twee fundamenteel verschillende oplossingsstrategieën: (i) Model Predictive Control met behulp van versnelde, beperkte trajectoptimalisatie, en (ii) Reinforcement Learning met behulp van nulde-orde optimalisatie. We bieden inzichten in verschillende prestatieafwegingen, waaronder sample-efficiëntie, sim-to-real transfer, robuustheid tegen distributieverschuivingen en whole-body multimodality via uitgebreide experimenten op hardware. We sluiten af met voorstellen voor het combineren van "klassieke" en "op leren gebaseerde" technieken voor agile robotbesturing. Video's van onze experimenten zijn te vinden op https://sites.google.com/view/agile-catching.
We stellen een methode voor om muziek aan te bevelen voor een invoervideo, waarbij een gebruiker de muziekselectie kan begeleiden met vrije-vorm natuurlijke taal. Een belangrijke uitdaging van deze probleemstelling is dat bestaande muziekvideo-datasets de benodigde (video, muziek) trainingsparen bieden, maar tekstbeschrijvingen van de muziek ontbreken. Dit werk gaat deze uitdaging aan met de volgende drie bijdragen. Ten eerste stellen we een tekstsynthesebenadering voor die vertrouwt op een op analogie gebaseerde promptingprocedure om natuurlijke taal muziekbeschrijvingen te genereren vanuit een grootschalig taalmodel (BLOOM-176B), gegeven uitvoer van een voorgetrainde muziektagger en een klein aantal menselijke tekstbeschrijvingen. Ten tweede gebruiken we deze gesynthetiseerde muziekbeschrijvingen om een nieuw trimodaal model te trainen, dat tekst- en video-invoerrepresentaties samenvoegt om muziekvoorbeelden te bevragen. Voor de training introduceren we een tekstdropout-regularisatiemechanisme waarvan we aantonen dat het cruciaal is voor de modelprestaties. Ons modelontwerp zorgt ervoor dat de opgehaalde muziek overeenkomt met de twee invoermodaliteiten door de visuele stijl in de video en het muziekgenre, de stemming of de instrumentatie die in de natuurlijke taalquery wordt beschreven, te matchen. Ten derde verzamelen we een testdataset voor ons probleem door een subset van 4k clips uit de YT8M-MusicVideo-dataset te annoteren met natuurlijke taal muziekbeschrijvingen, die we publiekelijk beschikbaar maken. We tonen aan dat onze aanpak de prestaties van eerdere methoden voor video-naar-muziekretrieval kan evenaren of overtreffen, terwijl de retrievalnauwkeurigheid aanzienlijk verbetert bij het gebruik van tekstbegeleiding.
Vooraf getrainde multimodale visie-taalmodelen (VLMs) worden steeds populairder vanwege hun uitzonderlijke prestaties bij downstream visietoepassingen, met name in few-shot en zero-shot instellingen. Het selecteren van het best presterende VLM voor bepaalde downstream toepassingen is echter niet triviaal, omdat dit afhankelijk is van de dataset en de taak. Tegelijkertijd is het uitgebreide evalueren van alle beschikbare VLMs op een nieuwe toepassing niet alleen tijd- en rekenintensief, maar vereist het ook het verzamelen van een gelabelde dataset voor evaluatie. Naarmate het aantal open-source VLM-varianten toeneemt, is er behoefte aan een efficiënte modelselectiestrategie die geen toegang vereist tot een gecureerde evaluatiedataset. Dit artikel stelt een nieuwe taak en benchmark voor om de zero-shot prestaties van VLMs op downstream toepassingen efficiënt te evalueren zonder toegang tot de downstream taakdataset. Specifiek introduceren we een nieuwe taak LOVM: Language-Only Vision Model Selection, waarbij methoden zowel modelselectie als prestatievoorspelling moeten uitvoeren op basis van alleen een tekstbeschrijving van de gewenste downstream toepassing. Vervolgens introduceren we een uitgebreide LOVM-benchmark bestaande uit grondwaarheidsevaluaties van 35 vooraf getrainde VLMs en 23 datasets, waarbij methoden de vooraf getrainde VLMs moeten rangschikken en hun zero-shot prestaties moeten voorspellen.
Onlangs hebben op diffusie gebaseerde generatieve modellen opmerkelijke successen geboekt bij beeldgeneratie en -bewerking. Het gebruik ervan voor videobewerking stuit echter nog steeds op belangrijke beperkingen. Dit artikel introduceert VidEdit, een nieuwe methode voor zero-shot tekstgebaseerde videobewerking die sterke temporele en ruimtelijke consistentie garandeert. Ten eerste stellen we voor om atlasgebaseerde en vooraf getrainde tekst-naar-beeld diffusiemodellen te combineren om een trainingsvrije en efficiënte bewerkingsmethode te bieden, die van nature temporele vloeiendheid waarborgt. Ten tweede maken we gebruik van kant-en-klare panoptische segmentatietools samen met randdetectoren en passen we hun gebruik aan voor geconditioneerde diffusiegebaseerde atlasbewerking. Dit zorgt voor een fijne ruimtelijke controle op doelgebieden terwijl de structuur van de originele video strikt behouden blijft. Kwantitatieve en kwalitatieve experimenten tonen aan dat VidEdit state-of-the-art methoden overtreft op de DAVIS-dataset, wat betreft semantische trouw, beeldbehoud en temporele consistentiemetrieken. Met dit framework duurt het verwerken van een enkele video slechts ongeveer één minuut, en kan het meerdere compatibele bewerkingen genereren op basis van een unieke tekstprompt. Projectwebpagina op https://videdit.github.io
Recente vooruitgang in 3D-scènebegrip maakt het mogelijk om representaties schaalbaar te leren over grote datasets van diverse scènes. Als gevolg hiervan is generalisatie naar onbekende scènes en objecten, het renderen van nieuwe aanzichten vanuit slechts één of een handvol invoerbeelden, en beheerbare scènegeneratie die bewerking ondersteunt, nu mogelijk. Het gezamenlijk trainen op een groot aantal scènes gaat echter meestal ten koste van de renderkwaliteit in vergelijking met modellen die zijn geoptimaliseerd voor één scène, zoals NeRFs. In dit artikel maken we gebruik van recente vooruitgang in diffusiemodellen om 3D-scène-representatieleermodellen uit te rusten met de mogelijkheid om hoogwaardige nieuwe aanzichten te renderen, terwijl voordelen zoals objectniveau scènebewerking grotendeels behouden blijven. In het bijzonder stellen we DORSal voor, dat een video-diffusiearchitectuur aanpast voor 3D-scènegeneratie, gebaseerd op objectgecentreerde slot-gebaseerde representaties van scènes. Op zowel complexe synthetische multi-objectscènes als op de grootschalige Street View-dataset uit de echte wereld, laten we zien dat DORSal schaalbare neurale rendering van 3D-scènes met objectniveau bewerking mogelijk maakt en bestaande benaderingen verbetert.
We laten zien hoe een model kan worden gebouwd dat realistische, vrijstandpunt-renderingen van een scène mogelijk maakt onder nieuwe belichtingsomstandigheden vanuit video. Onze methode -- UrbanIR: Urban Scene Inverse Rendering -- berekent een inverse graphics-representatie vanuit de video. UrbanIR leidt gezamenlijk vorm, albedo, zichtbaarheid, en zon- en hemelverlichting af vanuit een enkele video van onbegrensde buitenomgevingen met onbekende belichting. UrbanIR gebruikt video's van camera's die op auto's zijn gemonteerd (in tegenstelling tot meerdere weergaven van dezelfde punten in typische NeRF-stijl schattingen). Als gevolg hiervan produceren standaardmethoden slechte geometrie-schattingen (bijvoorbeeld daken), en zijn er talrijke 'floaters'. Fouten in inverse graphics-inferentie kunnen leiden tot sterke rendering-artefacten. UrbanIR gebruikt nieuwe verliesfuncties om deze en andere bronnen van fouten te beheersen. UrbanIR gebruikt een nieuwe verliesfunctie om zeer goede schattingen te maken van schaduwvolumes in de oorspronkelijke scène. De resulterende representaties faciliteren controleerbare bewerkingen, waardoor fotorealistische vrijstandpunt-renderingen van herbelichte scènes en ingevoegde objecten worden geleverd. Kwalitatieve evaluatie toont sterke verbeteringen ten opzichte van de state-of-the-art.
In dit artikel presenteren we een autonoom informatiezoekend visueel vraag-antwoordraamwerk, AVIS. Onze methode maakt gebruik van een groot taalmodel (LLM) om dynamisch strategieën te bepalen voor het gebruik van externe tools en om hun uitvoer te onderzoeken, waardoor de noodzakelijke kennis wordt verworven om antwoorden te geven op de gestelde vragen. Het beantwoorden van visuele vragen die externe kennis vereisen, zoals "Welk evenement wordt herdacht door het gebouw in deze afbeelding?", is een complexe taak. Deze taak presenteert een combinatorische zoekruimte die een reeks acties vereist, waaronder het aanroepen van API's, het analyseren van hun reacties en het nemen van weloverwogen beslissingen. We voeren een gebruikersstudie uit om verschillende voorbeelden van menselijke besluitvorming bij deze taak te verzamelen. Deze gegevens worden vervolgens gebruikt om een systeem te ontwerpen dat bestaat uit drie componenten: een LLM-aangedreven planner die dynamisch bepaalt welke tool vervolgens moet worden gebruikt, een LLM-aangedreven redenator die de uitvoer van de tools analyseert en belangrijke informatie eruit haalt, en een werkgeheugencomponent die de verworven informatie gedurende het proces behoudt. Het verzamelde gebruikersgedrag dient als leidraad voor ons systeem op twee belangrijke manieren. Ten eerste creëren we een overgangsgrafiek door de reeks beslissingen die gebruikers nemen te analyseren. Deze grafiek beschrijft verschillende statussen en beperkt de set acties die beschikbaar zijn in elke status. Ten tweede gebruiken we voorbeelden van gebruikersbesluitvorming om onze LLM-aangedreven planner en redenator relevante contextuele voorbeelden te bieden, waardoor hun vermogen om weloverwogen beslissingen te nemen wordt verbeterd. We tonen aan dat AVIS state-of-the-art resultaten behaalt op kennisintensieve visuele vraag-antwoordbenchmarks zoals Infoseek en OK-VQA.
In dit werk onderzoeken we de impact van grootschalige taalmmodellen (LLM) op automatische spraakherkenning (ASR) van YouTube-video's, die we gebruiken als bron voor langdurige ASR. We laten een relatieve reductie van tot 8\% zien in de woordfoutfrequentie (WER) voor langdurige ASR-testset voor Amerikaans Engels (en-us) en code-switched Indiaas Engels (en-in), en een reductie van tot 30\% relatief in de Salient Term Error Rate (STER) ten opzichte van een sterke eerste-pas baseline die een op maximale entropie gebaseerd taalmodel gebruikt. Verbeterde latticeverwerking, wat resulteert in een lattice met een correcte (niet-boom) digraaftopologie en het meenemen van context uit de 1-beste hypothese van het vorige segment, leidt tot significante verbeteringen in herscoring met LLM's. We ontdekken ook dat de prestatieverbeteringen door de combinatie van LLM's die getraind zijn op grote hoeveelheden beschikbare data (zoals C4) en conventionele neurale taalmmodellen additief zijn en significant beter presteren dan een sterke eerste-pas baseline met een op maximale entropie gebaseerd taalmodel.
Recente vooruitgang in neurale reconstructie maakt hoogwaardige 3D-objectreconstructie mogelijk vanuit toevallig vastgelegde beeldcollecties. Huidige technieken analyseren hun voortgang voornamelijk op relatief eenvoudige beeldcollecties waar Structure-from-Motion (SfM)-technieken grondwaarheid (GT) cameraposities kunnen bieden. We merken op dat SfM-technieken vaak falen bij beeldcollecties uit de praktijk, zoals zoekresultaten van afbeeldingen met variërende achtergronden en belichtingen. Om systematische onderzoeksvooruitgang mogelijk te maken op het gebied van 3D-reconstructie vanuit toevallige beeldopnames, stellen we NAVI voor: een nieuwe dataset van categorie-agnostische beeldcollecties van objecten met hoogwaardige 3D-scans, samen met per afbeelding 2D-3D-uitlijningen die bijna perfecte GT-cameraparameters bieden. Deze 2D-3D-uitlijningen stellen ons in staat om nauwkeurige afgeleide annotaties te extraheren, zoals dichte pixelcorrespondenties, diepte- en segmentatiekaarten. We demonstreren het gebruik van NAVI-beeldcollecties in verschillende probleemstellingen en laten zien dat NAVI grondigere evaluaties mogelijk maakt die niet mogelijk waren met bestaande datasets. We geloven dat NAVI gunstig is voor systematische onderzoeksvooruitgang op het gebied van 3D-reconstructie en correspondentieschatting. Projectpagina: https://navidataset.github.io
Het reconstrueren en herbelichten van objecten en scènes onder verschillende lichtomstandigheden is uitdagend: bestaande neurale renderingmethoden kunnen vaak niet omgaan met de complexe interacties tussen materialen en licht. Het integreren van vooraf berekende radiatieoverdrachttechnieken maakt globale verlichting mogelijk, maar heeft nog steeds moeite met materialen die onderhuidse verstrooiingseffecten vertonen. Wij stellen een nieuw raamwerk voor voor het leren van het radiatieoverdrachtsveld via volumetrische rendering en het gebruik van diverse uiterlijke aanwijzingen om de geometrie end-to-end te verfijnen. Dit raamwerk breidt de mogelijkheden voor herbelichting en reconstructie uit om een breder scala aan materialen op een data-gedreven manier te behandelen. De resulterende modellen produceren geloofwaardige renderingresultaten in bestaande en nieuwe omstandigheden. Wij zullen onze code en een nieuwe lichtstagedataset van objecten met onderhuidse verstrooiingseffecten openbaar beschikbaar maken.
Stel je een robot voor die de taak heeft een bureau op te ruimen waarop een zorgvuldig gebouwde Lego-sportauto staat. Een mens zou kunnen herkennen dat het niet sociaal gepast is om de sportauto uit elkaar te halen en op te bergen als onderdeel van het "opruimen". Hoe kan een robot tot die conclusie komen? Hoewel grote taalmodellen (LLMs) recentelijk zijn gebruikt om sociaal redeneren mogelijk te maken, is het een uitdaging gebleken om dit redeneren in de echte wereld te verankeren. Om in de echte wereld te kunnen redeneren, moeten robots verder gaan dan het passief bevragen van LLMs en *actief informatie uit de omgeving verzamelen* die nodig is om de juiste beslissing te nemen. Zo kan de robot, nadat hij heeft gedetecteerd dat er een verborgen auto aanwezig is, deze actief waarnemen om te bepalen of het een geavanceerd modelauto van Lego is of een speelgoedauto die door een peuter is gebouwd. Wij stellen een aanpak voor die gebruikmaakt van een LLM en een vision language model (VLM) om een robot te helpen zijn omgeving actief waar te nemen en zo verankerd sociaal redeneren uit te voeren. Om ons framework op grote schaal te evalueren, hebben we de MessySurfaces-dataset vrijgegeven, die afbeeldingen bevat van 70 oppervlakken uit de echte wereld die moeten worden opgeruimd. Daarnaast demonstreren we onze aanpak met een robot op 2 zorgvuldig ontworpen oppervlakken. We constateren een gemiddelde verbetering van 12,9% op de MessySurfaces-benchmark en een gemiddelde verbetering van 15% bij de robotexperimenten ten opzichte van baseline-methoden die geen actieve waarneming gebruiken. De dataset, code en video's van onze aanpak zijn te vinden op https://minaek.github.io/groundedsocialreasoning.
Hyperparameterafstemming van deep learning-modellen kan leiden tot prestatieverbeteringen van een orde van grootte bij dezelfde hoeveelheid rekenkracht. Desondanks is systematische afstemming ongebruikelijk, vooral voor grote modellen, die duur zijn om te evalueren en vaak veel hyperparameters hebben, wat moeilijke afwegingen vereist over compromissen, budgetten en zoekgrenzen. Om deze problemen aan te pakken en een praktische methode voor te stellen voor het robuust afstemmen van grote modellen, presenteren we Cost-Aware Pareto Region Bayesian Search (CARBS), een Bayesiaanse optimalisatie-algoritme dat lokaal zoekt rond de prestatie-kosten Pareto-grens. CARBS presteert goed, zelfs in onbegrensde zoekruimtes met veel hyperparameters, leert schaalrelaties zodat het modellen kan afstemmen terwijl ze worden opgeschaald, en automatiseert veel van de "zwarte magie" van afstemming. Onder onze resultaten lossen we effectief de gehele ProcGen-benchmark op door alleen een eenvoudige baseline af te stemmen (PPO, zoals geleverd in het oorspronkelijke ProcGen-paper). We reproduceren ook het resultaat van de modelgrootte versus trainings-tokens schaling uit het Chinchilla-project (Hoffmann et al. 2022), terwijl we tegelijkertijd schaalwetten ontdekken voor elke andere hyperparameter, via een eenvoudig geautomatiseerd proces dat aanzienlijk minder rekenkracht gebruikt en toepasbaar is op elk deep learning-probleem (niet alleen taalmodellen).