Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We onderzoeken in hoeverre hedendaagse Large Language Models (LLMs) kunnen deelnemen aan exploratie, een kernvaardigheid in reinforcement learning en besluitvorming. We richten ons op de native prestaties van bestaande LLMs, zonder trainingsinterventies. We zetten LLMs in als agents in eenvoudige multi-armed bandit-omgevingen, waarbij we de omgevingsbeschrijving en interactiegeschiedenis volledig in-context specificeren, d.w.z. binnen de LLM-prompt. We experimenteren met GPT-3.5, GPT-4 en Llama2, met behulp van verschillende promptontwerpen, en ontdekken dat de modellen niet robuust aan exploratie deelnemen zonder substantiële interventies: i) In al onze experimenten resulteerde slechts één configuratie in bevredigend exploratief gedrag: GPT-4 met chain-of-thought redenering en een extern samengevatte interactiegeschiedenis, gepresenteerd als voldoende statistieken; ii) Alle andere configuraties resulteerden niet in robuust exploratief gedrag, inclusief die met chain-of-thought redenering maar ongesamenvatte geschiedenis. Hoewel deze bevindingen positief geïnterpreteerd kunnen worden, suggereren ze dat externe samenvatting – wat in complexere situaties mogelijk niet haalbaar is – belangrijk is om gewenst gedrag van LLM-agents te verkrijgen. We concluderen dat niet-triviale algoritmische interventies, zoals fine-tuning of datasetcuratie, mogelijk nodig zijn om LLM-gebaseerde besluitvormingsagents in complexe situaties te empoweren.
We introduceren InternVideo2, een nieuw videofundamentmodel (ViFM) dat de state-of-the-art prestaties behaalt op het gebied van actieherkenning, video-teksttaken en video-centrische dialoog. Onze aanpak maakt gebruik van een progressief trainingsparadigma dat de verschillende zelf- of zwak-gesuperviseerde leerframeworks van gemaskeerde videotokenreconstructie, cross-modale contrastieve learning en volgende tokenvoorspelling verenigt. Verschillende trainingsfasen leiden ons model om verschillende niveaus van structuur en semantische informatie vast te leggen via verschillende pretexttaken. Op dataniveau prioriteren we de spatiotemporele consistentie door video's semantisch te segmenteren en video-audio-spraakbijschriften te genereren. Dit verbetert de afstemming tussen video en tekst. We schalen zowel de data- als de modelgrootte voor onze InternVideo2. Door uitgebreide experimenten valideren we onze ontwerpen en demonstreren we de state-of-the-art prestaties op meer dan 60 video- en audiotaken. Opmerkelijk is dat ons model anderen overtreft op verschillende video-gerelateerde bijschrijvings-, dialoog- en langere videobegripbenchmarks, wat zijn vermogen benadrukt om langere temporele contexten te redeneren en te begrijpen. Code en modellen zijn beschikbaar op https://github.com/OpenGVLab/InternVideo2/.
Voorgetrainde grote taalmodellen (LLM's) zijn momenteel state-of-the-art voor het oplossen van de overgrote meerderheid van natuurlijke-taaltaken. Hoewel veel real-world toepassingen nog steeds fine-tuning vereisen om bevredigende prestatieniveaus te bereiken, bevinden veel van deze toepassingen zich in het low-data regime, wat fine-tuning uitdagend maakt. Om dit aan te pakken, stellen we LLM2LLM voor, een gerichte en iteratieve data-augmentatiestrategie die een teacher LLM gebruikt om een kleine seed dataset te verrijken door aanvullende data te genereren die gebruikt kan worden voor fine-tuning op een specifieke taak. LLM2LLM (1) fine-tunt een baseline student LLM op de initiële seed data, (2) evalueert en extraheert datapunten die het model fout heeft, en (3) gebruikt een teacher LLM om synthetische data te genereren op basis van deze incorrecte datapunten, die vervolgens weer worden toegevoegd aan de trainingsdata. Deze aanpak versterkt het signaal van incorrect voorspelde datapunten door het LLM tijdens de training en integreert ze opnieuw in de dataset om te focussen op uitdagendere voorbeelden voor het LLM. Onze resultaten laten zien dat LLM2LLM de prestaties van LLM's in het low-data regime aanzienlijk verbetert, en zowel traditionele fine-tuning als andere data-augmentatiebaselines overtreft. LLM2LLM vermindert de afhankelijkheid van arbeidsintensieve datacuratie en baant de weg voor meer schaalbare en performante LLM-oplossingen, waardoor we data-gedomineerde domeinen en taken kunnen aanpakken. We behalen verbeteringen tot 24,2% op de GSM8K dataset, 32,6% op CaseHOLD, 32,0% op SNIPS, 52,6% op TREC en 39,8% op SST-2 ten opzichte van reguliere fine-tuning in het low-data regime met behulp van een LLaMA2-7B studentmodel.
In deze studie introduceren we een methodologie voor het animeren van menselijke beelden door gebruik te maken van een 3D-parametrisch menselijk model binnen een latent diffusiekader om de vormuitlijning en bewegingsbegeleiding in huidige technieken voor het genereren van menselijke beelden te verbeteren. De methodologie maakt gebruik van het SMPL-model (Skinned Multi-Person Linear) als het 3D-parametrische menselijke model om een uniforme representatie van lichaamsvorm en houding te creëren. Dit vergemakkelijkt het nauwkeurig vastleggen van complexe menselijke geometrie en bewegingskenmerken uit bronvideo's. Specifiek integreren we gerenderde diepte-afbeeldingen, normal maps en semantische maps verkregen uit SMPL-sequenties, naast skeletgebaseerde bewegingsbegeleiding, om de voorwaarden voor het latent diffusiemodel te verrijken met uitgebreide 3D-vorm en gedetailleerde houdingskenmerken. Een meerlaagse bewegingsfusiemodule, die zelf-attentiemechanismen integreert, wordt gebruikt om de vorm- en bewegingslatente representaties in het ruimtelijke domein te fuseren. Door het 3D-parametrische menselijke model als bewegingsbegeleiding te representeren, kunnen we een parametrische vormuitlijning van het menselijk lichaam uitvoeren tussen het referentiebeeld en de beweging in de bronvideo. Experimentele evaluaties uitgevoerd op benchmark-datasets tonen de superieure mogelijkheid van de methodologie aan om hoogwaardige menselijke animaties te genereren die zowel houdings- als vormvariaties nauwkeurig vastleggen. Bovendien toont onze aanpak ook superieure generalisatiecapaciteiten op de voorgestelde wild-dataset. Projectpagina: https://fudan-generative-vision.github.io/champ.
Real-world toepassingen vereisen vaak een grote verzameling van 3D-assets die een consistent thema delen. Hoewel er opmerkelijke vooruitgang is geboekt in het algemeen creëren van 3D-inhoud vanuit tekst of afbeeldingen, blijft het synthetiseren van aangepaste 3D-assets die het gedeelde thema van ingevoerde 3D-voorbeelden volgen een open en uitdagend probleem. In dit werk presenteren we ThemeStation, een nieuwe benadering voor themabewuste 3D-naar-3D-generatie. ThemeStation synthetiseert aangepaste 3D-assets op basis van enkele gegeven voorbeelden met twee doelen: 1) eenheid voor het genereren van 3D-assets die thematisch aansluiten bij de gegeven voorbeelden en 2) diversiteit voor het genereren van 3D-assets met een hoge mate van variatie. Hiertoe ontwerpen we een tweestaps raamwerk dat eerst een conceptafbeelding maakt, gevolgd door een referentie-geïnformeerde 3D-modelleringsfase. We stellen een nieuwe dual score distillation (DSD) loss voor om gezamenlijk gebruik te maken van kennis uit zowel de ingevoerde voorbeelden als de gesynthetiseerde conceptafbeelding. Uitgebreide experimenten en gebruikersstudies bevestigen dat ThemeStation eerdere werken overtreft in het produceren van diverse themabewuste 3D-modellen van indrukwekkende kwaliteit. ThemeStation maakt ook verschillende toepassingen mogelijk, zoals controleerbare 3D-naar-3D-generatie.
In dit artikel introduceren we VidLA, een benadering voor video-taalalignatie op grote schaal. Er zijn twee belangrijke beperkingen van eerdere benaderingen voor video-taalalignatie. Ten eerste vangen ze zowel kortetermijn- als langetermijntijdelijke afhankelijkheden niet goed op en gebruiken ze meestal complexe hiërarchische deep network-architecturen die moeilijk te integreren zijn met bestaande voorgetrainde beeld-tekst foundation-modellen. Om deze beperking effectief aan te pakken, houden we de netwerkarchitectuur eenvoudig en gebruiken we een set datatokens die op verschillende temporele resoluties werken op een hiërarchische manier, rekening houdend met de temporeel hiërarchische aard van video's. Door een eenvoudige two-tower-architectuur te gebruiken, kunnen we ons video-taalmodel initialiseren met voorgetrainde beeld-tekst foundation-modellen, waardoor de uiteindelijke prestaties worden verbeterd. Ten tweede worstelen bestaande video-taalalignatiebenaderingen door het ontbreken van semantisch uitgelijnde grootschalige trainingsdata. Om dit te overwinnen, maken we gebruik van recente LLM's om de grootste video-taaldataset tot nu toe samen te stellen met betere visuele verankering. Bovendien bevat onze dataset, in tegenstelling tot bestaande video-tekstdatasets die alleen korte clips bevatten, video's van verschillende duur om onze temporeel hiërarchische datatokens te helpen betere representaties te extraheren op verschillende temporele schalen. Over het algemeen tonen empirische resultaten aan dat onze voorgestelde benadering state-of-the-art methoden overtreft op meerdere retrievalbenchmarks, vooral op langere video's, en competitief presteert op classificatiebenchmarks.
Transformers hebben aandachtnetwerken veelvuldig geadopteerd voor sequentiemenging en MLP's (Multilayer Perceptrons) voor kanaalmenging, wat een cruciale rol heeft gespeeld bij het bereiken van doorbraken in verschillende domeinen. Recente literatuur benadrukt echter problemen met aandachtnetwerken, waaronder een lage inductieve bias en kwadratische complexiteit ten opzichte van de invoersequentielengte. State Space Models (SSM's) zoals S4 en andere (Hippo, Global Convolutions, liquid S4, LRU, Mega en Mamba) zijn ontstaan om deze problemen aan te pakken en langere sequentielengtes te hanteren. Mamba, hoewel het de state-of-the-art SSM is, heeft een stabiliteitsprobleem wanneer het wordt opgeschaald naar grote netwerken voor computervisie-datasets. Wij stellen SiMBA voor, een nieuwe architectuur die Einstein FFT (EinFFT) introduceert voor kanaalmodellering door specifieke eigenwaardeberekeningen en het Mamba-blok gebruikt voor sequentiemodellering. Uitgebreide prestatiestudies over beeld- en tijdreeksbenchmarks tonen aan dat SiMBA bestaande SSM's overtreft en de prestatiekloof met state-of-the-art transformers overbrugt. Opmerkelijk is dat SiMBA zichzelf vestigt als de nieuwe state-of-the-art SSM op ImageNet en transfer learning benchmarks zoals Stanford Car en Flower, evenals taakleerbenchmarks en zeven tijdreeksbenchmarkdatasets. De projectpagina is beschikbaar op deze website ~https://github.com/badripatro/Simba.
We introduceren DragAPart, een methode die, gegeven een afbeelding en een set slepen als invoer, een nieuwe afbeelding van hetzelfde object in een nieuwe toestand kan genereren, compatibel met de actie van de slepen. In tegenstelling tot eerdere werken die zich richtten op het herpositioneren van objecten, voorspelt DragAPart interacties op onderdeelniveau, zoals het openen en sluiten van een lade. We bestuderen dit probleem als een proxy voor het leren van een algemeen bewegingsmodel, niet beperkt tot een specifieke kinematische structuur of objectcategorie. Hiertoe beginnen we met een vooraf getrainde afbeeldingsgenerator en finetunen we deze op een nieuwe synthetische dataset, Drag-a-Move, die we introduceren. In combinatie met een nieuwe codering voor de slepen en datasetrandomisatie, generaliseert het nieuwe model goed naar echte afbeeldingen en verschillende categorieën. In vergelijking met eerdere bewegingsgestuurde generatoren, demonstreren we een veel beter begrip van beweging op onderdeelniveau.
Moderne Large Language Models (LLMs) zijn in staat om lange en complexe instructies te volgen die een breed scala aan gebruikers taken mogelijk maken. Echter, ondanks het feit dat Information Retrieval (IR) modellen LLMs gebruiken als de kern van hun architectuur, nemen bijna allemaal nog steeds alleen zoekopdrachten als invoer, zonder instructies. Voor de handvol recente modellen die wel instructies accepteren, is het onduidelijk hoe ze deze gebruiken. Wij introduceren onze dataset FollowIR, die een rigoureus evaluatiebenchmark voor instructies bevat, evenals een trainingsset om IR-modellen te helpen beter real-world instructies te volgen. FollowIR bouwt voort op de lange geschiedenis van de TREC-conferenties: aangezien TREC menselijke annotatoren voorziet van instructies (ook wel narratieven genoemd) om de relevantie van documenten te bepalen, zouden IR-modellen ook in staat moeten zijn om deze gedetailleerde instructies te begrijpen en op basis daarvan relevantie te beslissen. Onze evaluatiebenchmark begint met drie diep beoordeelde TREC-collecties en verandert de instructies van de annotators, waarbij relevante documenten opnieuw worden geannoteerd. Door dit proces kunnen we meten hoe goed IR-modellen instructies volgen, via een nieuw paarsgewijs evaluatiekader. Onze resultaten geven aan dat bestaande retrievemodellen er niet in slagen om instructies correct te gebruiken, waarbij ze deze gebruiken voor basiszoekwoorden en moeite hebben met het begrijpen van langere informatie. Echter, we tonen aan dat het mogelijk is voor IR-modellen om complexe instructies te leren volgen: ons nieuwe FollowIR-7B-model laat significante verbeteringen zien (meer dan 13%) na fine-tuning op onze trainingsset.
Letterlijke feedback vormt een waardevolle bron van gebruikerservaringen, meningen en vereisten die essentieel zijn voor softwareontwikkeling. Het effectief en efficiënt extraheren van waardevolle inzichten uit dergelijke data is een uitdagende taak. Dit artikel introduceert Allhands, een innovatief analysekader ontworpen voor grootschalige feedbackanalyse via een natuurlijke taalinterface, waarbij gebruik wordt gemaakt van grote taalmodellen (LLM's). Allhands volgt een conventionele feedbackanalysewerkflow, waarbij eerst classificatie en topicmodellering op de feedback worden uitgevoerd om deze om te zetten in een structureel versterkt formaat, waarbij LLM's worden ingezet om nauwkeurigheid, robuustheid, generalisatie en gebruiksvriendelijkheid te verbeteren. Vervolgens wordt een LLM-agent gebruikt om de diverse vragen van gebruikers in natuurlijke taal over feedback te interpreteren, deze om te zetten in Python-code voor uitvoering, en uitgebreide multimodale antwoorden te leveren, inclusief tekst, code, tabellen en afbeeldingen. We evalueren Allhands op drie verschillende feedbackdatasets. De experimenten tonen aan dat Allhands superieure effectiviteit bereikt in alle fasen van de analyse, inclusief classificatie en topicmodellering, en uiteindelijk gebruikers een "vraag me alles" ervaring biedt met uitgebreide, correcte en menselijk leesbare antwoorden. Voor zover wij weten, staat Allhands als het eerste uitgebreide feedbackanalysekader dat diverse en gepersonaliseerde vereisten voor inzichtextractie ondersteunt via een natuurlijke taalinterface.
Recente tekst-naar-3D-generatiebenaderingen leveren indrukwekkende 3D-resultaten op, maar vereisen tijdrovende optimalisatie die tot een uur per prompt kan duren. Geamortiseerde methoden zoals ATT3D optimaliseren meerdere prompts tegelijk om de efficiëntie te verbeteren, waardoor snelle tekst-naar-3D-synthese mogelijk wordt. Ze slagen er echter niet in om hoogfrequente geometrie- en textuurdetails vast te leggen en hebben moeite om op te schalen naar grote promptsets, waardoor ze slecht generaliseren. Wij introduceren LATTE3D, dat deze beperkingen aanpakt om snelle, hoogwaardige generatie op een aanzienlijk grotere promptset te realiseren. Centraal in onze methode staan 1) het bouwen van een schaalbare architectuur en 2) het benutten van 3D-data tijdens de optimalisatie via 3D-aware diffusiepriors, vormregularisatie en modelinitialisatie om robuustheid te bereiken voor diverse en complexe trainingsprompts. LATTE3D amortiseert zowel de generatie van neurale velden als van getextureerde oppervlakken om zeer gedetailleerde getextureerde meshes in één enkele forward pass te produceren. LATTE3D genereert 3D-objecten in 400ms en kan verder worden verbeterd met snelle optimalisatie tijdens de testfase.
We introduceren een nieuw paradigma in compileroptimalisatie, aangedreven door Large Language Models met compilerfeedback om de codegrootte van LLVM-assembly te optimaliseren. Het model neemt ongeoptimaliseerde LLVM IR als invoer en produceert geoptimaliseerde IR, de beste optimalisatiepassen, en instructietellingen van zowel de ongeoptimaliseerde als de geoptimaliseerde IR. Vervolgens compileren we de invoer met de gegenereerde optimalisatiepassen en evalueren we of de voorspelde instructietelling correct is, de gegenereerde IR compileerbaar is, en overeenkomt met de gecompileerde code. We geven deze feedback terug aan het LLM en geven het een nieuwe kans om de code te optimaliseren. Deze aanpak voegt een extra verbetering van 0,53% toe bovenop -Oz ten opzichte van het oorspronkelijke model. Hoewel het toevoegen van meer informatie met feedback intuïtief lijkt, behalen eenvoudige samplingtechnieken een veel hogere prestaties bij 10 of meer samples.