Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De ontwikkeling van grote taalmodellen heeft een brede interesse gewekt onder onderzoekers om hun inherente redeneer- en probleemoplossende vermogens te begrijpen. Ondanks de aanzienlijke hoeveelheid onderzoek die wordt gedaan om deze vermogens te verduidelijken, bestaat er nog steeds een aanzienlijke kloof in het begrip van de morele ontwikkeling en oordelen van deze modellen. De huidige benaderingen om de ethische redeneervaardigheden van deze modellen te evalueren als een classificatietaak leiden tot talrijke onnauwkeurigheden vanwege overmatige vereenvoudiging. In deze studie hebben we een psychologische verbinding gelegd door twee uiteenlopende velden te overbruggen: menselijke psychologie en AI. We hebben een effectief evaluatiekader voorgesteld dat kan helpen om het ethische redeneervermogen van het model te beschrijven in termen van morele consistentie en Kohlbergs fasen van morele ontwikkeling, met behulp van het psychometrische beoordelingsinstrument: de Defining Issues Test.
Hoewel recente tekst-naar-video (T2V) generatiemethoden aanzienlijke vooruitgang hebben geboekt, richten de meeste van deze werken zich op het produceren van korte videoclips van een enkele gebeurtenis met een enkele achtergrond (d.w.z. enkel-scène video's). Tegelijkertijd hebben recente grote taalmodellen (LLMs) hun vermogen getoond in het genereren van lay-outs en programma's om downstream visuele modules, zoals beeldgeneratiemodellen, aan te sturen. Dit roept een belangrijke vraag op: kunnen we de kennis die in deze LLMs is ingebed, benutten voor temporeel consistente lange videogeneratie? In dit artikel stellen we VideoDirectorGPT voor, een nieuw raamwerk voor consistente multi-scène videogeneratie dat de kennis van LLMs gebruikt voor videocontentplanning en gegronde videogeneratie. Specifiek, gegeven een enkele tekstprompt, vragen we eerst ons video planner LLM (GPT-4) om deze uit te breiden naar een 'videoplan', wat het genereren van scènebeschrijvingen, de entiteiten met hun respectievelijke lay-outs, de achtergrond voor elke scène, en consistentiegroeperingen van de entiteiten en achtergronden omvat. Vervolgens, geleid door deze uitvoer van de videoplanner, heeft onze videogenerator, Layout2Vid, expliciete controle over ruimtelijke lay-outs en kan het temporele consistentie van entiteiten/achtergronden over scènes heen behouden, terwijl het alleen getraind is met beeldniveau annotaties. Onze experimenten tonen aan dat het VideoDirectorGPT-raamwerk de lay-out- en bewegingscontrole aanzienlijk verbetert in zowel enkel- als multi-scène videogeneratie en multi-scène video's kan genereren met visuele consistentie over scènes heen, terwijl het competitieve prestaties behaalt met state-of-the-art (SOTA) in open-domein enkel-scène T2V-generatie. We tonen ook aan dat ons raamwerk dynamisch de sterkte van lay-outbegeleiding kan controleren en ook video's kan genereren met door de gebruiker geleverde afbeeldingen. We hopen dat ons raamwerk toekomstig werk kan inspireren op het beter integreren van de planningscapaciteit van LLMs in consistente lange videogeneratie.
Grote Multimodale Modellen (LMM) worden gebouwd over verschillende modaliteiten heen, en de misalignering tussen twee modaliteiten kan leiden tot "hallucinatie", waarbij tekstuele uitvoeren worden gegenereerd die niet zijn verankerd in de multimodale informatie in de context. Om het probleem van multimodale misalignering aan te pakken, passen we Reinforcement Learning from Human Feedback (RLHF) aan vanuit het tekstdomein naar de taak van visie-taal-alignering, waarbij menselijke annotatoren wordt gevraagd om twee reacties te vergelijken en de meest gehallucineerde aan te wijzen, en het visie-taal-model wordt getraind om de gesimuleerde menselijke beloningen te maximaliseren. We stellen een nieuw aligneringsalgoritme voor genaamd Factually Augmented RLHF dat het beloningsmodel versterkt met aanvullende feitelijke informatie zoals beeldbeschrijvingen en waarheidsgetrouwe meerkeuzeopties, wat het beloningshackingsfenomeen in RLHF verlicht en de prestaties verder verbetert. We verbeteren ook de GPT-4-gegenereerde trainingsgegevens (voor visie-instructieafstemming) met eerder beschikbare door mensen geschreven beeld-tekstparen om de algemene capaciteiten van ons model te verbeteren. Om de voorgestelde aanpak in real-world scenario's te evalueren, ontwikkelen we een nieuwe evaluatiebenchmark MMHAL-BENCH met een speciale focus op het bestraffen van hallucinaties. Als het eerste LMM dat met RLHF is getraind, bereikt onze aanpak een opmerkelijke verbetering op de LLaVA-Bench dataset met het 94% prestatieniveau van de tekst-only GPT-4 (terwijl eerdere beste methoden slechts het 87% niveau konden bereiken), en een verbetering van 60% op MMHAL-BENCH ten opzichte van andere baselines. We openbaren onze code, model en gegevens op https://llava-rlhf.github.io.
De meeste bestaande multimodale modellen, gehinderd door hun onvermogen om geïntercaleerde afbeelding- en tekstinvoer in dialogen met meerdere afbeeldingen en meerdere rondes vaardig te verwerken, worden geconfronteerd met aanzienlijke beperkingen in de toewijzing van middelen voor training en toegankelijkheid van gegevens, wat hun aanpassingsvermogen en schaalbaarheid over verschillende interactiedomeinen beïnvloedt. Om dit aan te pakken, presenteren we het DeepSpeed-VisualChat framework, ontworpen om Large Language Models (LLM's) te optimaliseren door multimodale mogelijkheden te integreren, met de focus op het verbeteren van de vaardigheid van Large Vision en Language Models in het verwerken van geïntercaleerde invoer. Ons framework is opmerkelijk vanwege (1) de open-source ondersteuning voor dialogen met meerdere rondes en meerdere afbeeldingen, (2) de introductie van een innovatief multimodaal causaal aandachtmechanisme, en (3) het gebruik van datablendingtechnieken op bestaande datasets om naadloze interacties in conversaties met meerdere rondes en meerdere afbeeldingen te garanderen. In vergelijking met bestaande frameworks toont DeepSpeed-VisualChat superieure schaalbaarheid tot een taalmodelgrootte van 70B parameters, wat een significante vooruitgang vertegenwoordigt in multimodale taalmodellen en een solide basis legt voor toekomstige verkenningen.
Teams die grote Transformer-gebaseerde modellen hebben getraind, hebben trainingsinstabiliteiten gerapporteerd op grote schaal die niet voorkwamen bij het trainen met dezelfde hyperparameters op kleinere schaal. Hoewel de oorzaken van dergelijke instabiliteiten wetenschappelijk interessant zijn, heeft de hoeveelheid benodigde bronnen om ze te reproduceren onderzoek bemoeilijkt. In dit werk zoeken we manieren om trainingsstabiliteit en -instabiliteit op kleinere schaal te reproduceren en te bestuderen. Eerst richten we ons op twee bronnen van trainingsinstabiliteit die in eerder werk zijn beschreven: de groei van logits in aandachtslagen (Dehghani et al., 2023) en de divergentie van de uitvoerlogits van de log-kansen (Chowdhery et al., 2022). Door de relatie tussen leerrate en verlies over verschillende schalen te meten, laten we zien dat deze instabiliteiten ook voorkomen in kleine modellen wanneer wordt getraind met hoge leerrates, en dat mitigaties die eerder op grote schaal werden toegepast even effectief zijn in dit regime. Dit zet ons ertoe aan om te onderzoeken in hoeverre andere bekende optimizer- en modelinterventies de gevoeligheid van het uiteindelijke verlies voor veranderingen in de leerrate beïnvloeden. Hiertoe bestuderen we methoden zoals warm-up, gewichtsverval en de muParam (Yang et al., 2022), en combineren we technieken om kleine modellen te trainen die vergelijkbare verliezen behalen over meerdere ordes van grootte van leerratevariatie. Tot slot, om onze verkenning af te ronden, bestuderen we twee gevallen waarin instabiliteiten voorspeld kunnen worden voordat ze optreden, door het schaalgedrag van modelactivatie- en gradientnormen te onderzoeken.
Grote taalmodellen (LLMs) kunnen hun nauwkeurigheid bij verschillende taken verbeteren door hun uitvoer iteratief te verfijnen en te herzien op basis van feedback. We observeren dat deze herzieningen fouten kunnen introduceren, in welk geval het beter is om terug te vallen op een eerder resultaat. Bovendien zijn herzieningen doorgaans homogeen: ze gebruiken dezelfde redeneermethode die het initiële antwoord produceerde, wat fouten mogelijk niet corrigeert. Om exploratie in dit domein mogelijk te maken, presenteren we SCREWS, een modulair framework voor redeneren met herzieningen. Het bestaat uit drie hoofdmodules: Sampling, Conditioneel Herbemonsteren en Selectie, elk bestaande uit submodules die handmatig kunnen worden geselecteerd per taak. We tonen aan dat SCREWS niet alleen verschillende eerdere benaderingen verenigt onder een gemeenschappelijk framework, maar ook verschillende nieuwe strategieën onthult voor het identificeren van verbeterde redeneerketens. We evalueren ons framework met state-of-the-art LLMs (ChatGPT en GPT-4) op een diverse set van redeneertaken en ontdekken nuttige nieuwe redeneerstrategieën voor elk: rekenkundige woordproblemen, multi-hop vraagbeantwoording en code-debugging. Heterogene herzieningsstrategieën blijken belangrijk te zijn, evenals selectie tussen originele en herziene kandidaten.
Recente vooruitgang in grote taalmodellen (LLMs) op het gebied van taalmodellering en opkomende capaciteiten maken hen een veelbelovende referentievrije beoordelaar van de kwaliteit van natuurlijke taalgeneratie, en een competent alternatief voor menselijke evaluatie. Echter, belemmerd door de gesloten broncode of de hoge rekenkundige eisen om te hosten en af te stemmen, is er een gebrek aan praktijk om een kant-en-klare LLM-gebaseerde beoordelaar verder te kalibreren voor betere afstemming op menselijke voorkeuren. In dit werk stellen we AutoCalibrate voor, een meerfasige, gradiëntvrije aanpak om een LLM-gebaseerde beoordelaar automatisch te kalibreren en af te stemmen op menselijke voorkeuren. In plaats van expliciet menselijke voorkeuren te modelleren, omvatten we deze eerst impliciet binnen een set menselijke labels. Vervolgens wordt een initiële set beoordelingscriteria opgesteld door het taalmodel zelf, waarbij gebruik wordt gemaakt van in-context leren op verschillende few-shot voorbeelden. Om deze set criteria verder te kalibreren, selecteren we de beste presteerders en herformuleren we deze met zelfverfijning. Onze experimenten op meerdere datasets voor tekstkwaliteitsevaluatie tonen een significante verbetering in correlatie met expertbeoordeling door kalibratie. Onze uitgebreide kwalitatieve analyse geeft inzichtelijke intuïties en observaties over de essentie van effectieve beoordelingscriteria.
Het segmenteren van lange video's in hoofdstukken stelt gebruikers in staat om snel naar de informatie van hun interesse te navigeren. Dit belangrijke onderwerp is onderbelicht gebleven vanwege het ontbreken van openbaar beschikbare datasets. Om dit probleem aan te pakken, presenteren we VidChapters-7M, een dataset van 817K door gebruikers geannoteerde video's met in totaal 7M hoofdstukken. VidChapters-7M wordt automatisch op een schaalbare manier gecreëerd door online video's te scrapen met door gebruikers geannoteerde hoofdstukken, en vereist dus geen aanvullende handmatige annotatie. We introduceren de volgende drie taken op basis van deze data. Ten eerste bestaat de taak van het genereren van video-hoofdstukken uit het temporeel segmenteren van de video en het genereren van een hoofdstuktitel voor elk segment. Om het probleem verder te ontleden, definiëren we ook twee varianten van deze taak: het genereren van video-hoofdstukken gegeven grondwaarheidsgrenzen, wat vereist dat een hoofdstuktitel wordt gegenereerd voor een geannoteerd videosegment, en het verankeren van video-hoofdstukken, wat vereist dat een hoofdstuk temporeel wordt gelokaliseerd gegeven de geannoteerde titel. We benchmarken zowel eenvoudige baselines als state-of-the-art video-taalmodellen voor deze drie taken. We laten ook zien dat vooraf trainen op VidChapters-7M goed overdraagt naar taken voor dichte videobeschrijvingen, zowel in zero-shot als finetuning settings, wat de state of the art aanzienlijk verbetert op de YouCook2 en ViTT benchmarks. Tot slot tonen onze experimenten aan dat de downstream-prestaties goed schalen met de grootte van de vooraf getrainde dataset. Onze dataset, code en modellen zijn openbaar beschikbaar op https://antoyang.github.io/vidchapters.html.