Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) hebben de afgelopen jaren grote vooruitgang geboekt en ongekende prestaties behaald op verschillende taken. Vanwege commerciële belangen zijn de meest competitieve modellen zoals GPT, Gemini en Claude echter achter propriëtaire interfaces geplaatst zonder dat de trainingsdetails worden vrijgegeven. Recentelijk hebben veel instellingen verschillende sterke LLMs open-source gemaakt, zoals LLaMA-3, die vergelijkbaar zijn met bestaande closed-source LLMs. Echter, worden alleen de gewichten van het model geleverd, terwijl de meeste details (bijvoorbeeld tussenliggende checkpoints, het pre-trainingscorpus en de trainingscode, enz.) niet worden vrijgegeven. Om de transparantie van LLMs te verbeteren, heeft de onderzoeksgemeenschap zich gevormd om echt open LLMs (bijvoorbeeld Pythia, Amber, OLMo) open-source te maken, waarbij meer details (zoals het pre-trainingscorpus en de trainingscode) worden verstrekt. Deze modellen hebben de wetenschappelijke studie van deze grote modellen, inclusief hun sterke punten, zwaktes, vooroordelen en risico's, sterk bevorderd. We merken echter op dat de bestaande echt open LLMs op het gebied van redeneren, kennis en coderingstaken nog steeds inferieur zijn aan de bestaande state-of-the-art LLMs met vergelijkbare modelgroottes. Daarom maken we MAP-Neo open-source, een zeer capabel en transparant tweetalig taalmodel met 7B parameters, van scratch getraind op 4,5T hoogwaardige tokens. Onze MAP-Neo is het eerste volledig open-source tweetalige LLM met een vergelijkbare prestaties ten opzichte van bestaande state-of-the-art LLMs. Bovendien maken we alle details open-source om onze MAP-Neo te reproduceren, waarbij het schoongemaakte pre-trainingscorpus, de datacleaningpipeline, checkpoints en een goed geoptimaliseerd trainings-/evaluatieframework worden verstrekt. Tot slot hopen we dat onze MAP-Neo de open onderzoeksgemeenschap zal versterken en meer innovaties en creativiteit zal inspireren om de verdere verbetering van LLMs te faciliteren.
Voorkeursoptimalisatie, met name via Reinforcement Learning from Human Feedback (RLHF), heeft aanzienlijk succes geboekt in het afstemmen van Large Language Models (LLMs) op menselijke intenties. In tegenstelling tot offline afstemming met een vaste dataset, leidt online feedbackverzameling van mensen of AI over modelgeneraties doorgaans tot capabelere beloningsmodellen en beter afgestemde LLMs via een iteratief proces. Het bereiken van een wereldwijd nauwkeurig beloningsmodel vereist echter systematische exploratie om diverse reacties te genereren die de uitgestrekte ruimte van natuurlijke taal bestrijken. Willekeurige steekproeven uit standaard beloningsmaximaliserende LLMs alleen zijn onvoldoende om aan deze vereiste te voldoen. Om dit probleem aan te pakken, stellen we een bi-level doelstelling voor die optimistisch is gericht op potentieel hoogbeloonde reacties om actief out-of-distribution regio's te verkennen. Door het inner-level probleem op te lossen met de herparameterized beloningsfunctie, elimineert het resulterende algoritme, genaamd Self-Exploring Language Models (SELM), de behoefte aan een apart RM en werkt het de LLM iteratief bij met een eenvoudig doel. In vergelijking met Direct Preference Optimization (DPO) vermindert de SELM-doelstelling de ongerechtvaardigde voorkeur voor ongeziene extrapolaties en verbetert het de exploratie-efficiëntie. Onze experimentele resultaten tonen aan dat wanneer SELM wordt afgestemd op Zephyr-7B-SFT en Llama-3-8B-Instruct modellen, het de prestaties aanzienlijk verbetert op instructievolgende benchmarks zoals MT-Bench en AlpacaEval 2.0, evenals op verschillende standaard academische benchmarks in verschillende instellingen. Onze code en modellen zijn beschikbaar op https://github.com/shenao-zhang/SELM.
Diffusiegebaseerde tekst-naar-video (T2V) modellen hebben aanzienlijk succes geboekt, maar worden nog steeds belemmerd door de trage bemonsteringssnelheid van hun iteratieve bemonsteringsprocessen. Om deze uitdaging aan te pakken, zijn consistentiemodellen voorgesteld om snelle inferentie mogelijk te maken, zij het ten koste van de kwaliteit van de samples. In dit werk streven we ernaar om de kwaliteitsbeperking van een video-consistentiemodel (VCM) te doorbreken, zodat zowel snelle als hoogwaardige videogeneratie mogelijk wordt. We introduceren T2V-Turbo, dat feedback van een mix van differentieerbare beloningsmodellen integreert in het consistentiedistillatie (CD) proces van een vooraf getraind T2V-model. Opmerkelijk is dat we beloningen direct optimaliseren die geassocieerd zijn met enkelstapsgeneraties die van nature ontstaan bij het berekenen van het CD-verlies, waardoor we effectief de geheugenbeperkingen omzeilen die worden opgelegd door het terugpropageren van gradiënten door een iteratief bemonsteringsproces. Opvallend is dat de 4-stapsgeneraties van onze T2V-Turbo de hoogste totale score behalen op VBench, en zelfs Gen-2 en Pika overtreffen. We voeren verder menselijke evaluaties uit om de resultaten te bevestigen, waarbij wordt gevalideerd dat de 4-stapsgeneraties van onze T2V-Turbo de voorkeur genieten boven de 50-staps DDIM-samples van hun leraarmodellen, wat een meer dan tienvoudige versnelling vertegenwoordigt terwijl de kwaliteit van de videogeneratie wordt verbeterd.
Dit artikel onderzoekt in hoeverre grote taalmodellen (LLM's) een hogere-orde theory of mind (ToM) hebben ontwikkeld; het menselijk vermogen om op een recursieve manier te redeneren over meerdere mentale en emotionele toestanden (bijv. ik denk dat jij gelooft dat zij weet). Dit artikel bouwt voort op eerder onderzoek door een handgeschreven testset te introduceren -- Multi-Order Theory of Mind Q&A -- en deze te gebruiken om de prestaties van vijf LLM's te vergelijken met een nieuw verzamelde benchmark van volwassenen. We constateren dat GPT-4 en Flan-PaLM over het algemeen prestaties op volwassen niveau en bijna volwassen niveau bereiken op ToM-taken, en dat GPT-4 de prestaties van volwassenen overtreft bij inferenties van de zesde orde. Onze resultaten suggereren dat er een wisselwerking bestaat tussen modelgrootte en finetuning voor het realiseren van ToM-vaardigheden, en dat de best presterende LLM's een gegeneraliseerd vermogen voor ToM hebben ontwikkeld. Gezien de rol die hogere-orde ToM speelt in een breed scala aan coöperatieve en competitieve menselijke gedragingen, hebben deze bevindingen significante implicaties voor gebruikersgerichte LLM-toepassingen.
The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data. This involves building datasets where each element is a quadruplet composed of a prompt, two independent responses (completions of the prompt) and a human preference between the two independent responses, yielding a preferred and a dis-preferred response. Such data is typically scarce and expensive to collect. On the other hand, single-trajectory datasets where each element is a triplet composed of a prompt, a response and a human feedback is naturally more abundant. The canonical element of such datasets is for instance an LLM's response to a user's prompt followed by a user's feedback such as a thumbs-up/down. Consequently, in this work, we propose DRO, or Direct Reward Optimisation, as a framework and associated algorithms that do not require pairwise preferences. DRO uses a simple mean-squared objective that can be implemented in various ways. We validate our findings empirically, using T5 encoder-decoder language models, and show DRO's performance over selected baselines such as Kahneman-Tversky Optimization (KTO). Thus, we confirm that DRO is a simple and empirically compelling method for single-trajectory policy optimisation.
Grote taalmodellen (LLM's) hallucineren vaak en hebben niet het vermogen om bronvermelding te geven voor hun gegenereerde tekst. Semi-parametrische taalmodellen, zoals kNN-LM, benaderen deze beperkingen door de uitvoer van een taalmodel voor een gegeven prompt te verfijnen met behulp van de dichtstbijzijnde overeenkomsten in een niet-parametrische gegevensopslag. Deze modellen vertonen echter vaak trage inferentiesnelheden en produceren niet-vloeiende teksten. In dit artikel introduceren we Nearest Neighbor Speculative Decoding (NEST), een nieuwe semi-parametrische benadering voor taalmodellering die in staat is om tekstfragmenten van willekeurige lengte uit de echte wereld te integreren in de gegenereerde tekst van het taalmodel en bronvermelding te geven. NEST voert token-level retrieval uit bij elke inferentiestap om een semi-parametrische mengverdeling te berekenen en veelbelovende tekstfragmenten in een corpus te identificeren. Vervolgens gebruikt het een benaderende speculatieve decodeerprocedure die een voorvoegsel van het opgehaalde fragment accepteert of een nieuw token genereert. NEST verbetert de generatiekwaliteit en de bronvermelding van het basistaalmodel aanzienlijk bij een verscheidenheid aan kennisintensieve taken, overtreft de conventionele kNN-LM-methode en presteert competitief met in-context retrieval-augmentatie. Bovendien verbetert NEST de generatiesnelheid aanzienlijk, met een 1,8x versnelling in inferentietijd wanneer toegepast op Llama-2-Chat 70B.
Dit artikel presenteert EasyAnimate, een geavanceerde methode voor videogeneratie die gebruikmaakt van de kracht van de transformer-architectuur voor hoogwaardige resultaten. We hebben het DiT-framework, oorspronkelijk ontworpen voor 2D-beeldsynthese, uitgebreid om de complexiteiten van 3D-videogeneratie te accommoderen door een motion module block te integreren. Deze wordt gebruikt om temporele dynamiek vast te leggen, waardoor de productie van consistente frames en naadloze bewegingsovergangen wordt gewaarborgd. De motion module kan worden aangepast aan verschillende DiT-basismethoden om video’s met verschillende stijlen te genereren. Het kan ook video’s genereren met verschillende framesnelheden en resoluties tijdens zowel de trainings- als de inferentiefases, geschikt voor zowel afbeeldingen als video’s. Bovendien introduceren we slice VAE, een nieuwe benadering om de temporele as te comprimeren, wat de generatie van lange video’s vergemakkelijkt. Momenteel toont EasyAnimate het vermogen om video’s met 144 frames te genereren. We bieden een holistisch ecosysteem voor videoproductie op basis van DiT, dat aspecten omvat zoals data-preprocessing, VAE-training, DiT-modeltraining (zowel het basismodel als het LoRA-model) en end-to-end video-inferentie. De code is beschikbaar op: https://github.com/aigc-apps/EasyAnimate. We werken continu aan het verbeteren van de prestaties van onze methode.
Het integreren van meerdere generatieve basis modellen, vooral die getraind zijn op verschillende modaliteiten, tot iets dat groter is dan de som der delen, brengt aanzienlijke uitdagingen met zich mee. Twee belangrijke hindernissen zijn de beschikbaarheid van uitgelijnde data (concepten die een vergelijkbare betekenis bevatten, maar anders worden uitgedrukt in verschillende modaliteiten), en het effectief benutten van unimodale representaties in cross-domein generatieve taken, zonder hun oorspronkelijke unimodale capaciteiten aan te tasten. Wij stellen Zipper voor, een multi-tower decoder architectuur die deze problemen aanpakt door cross-attention te gebruiken om flexibel multimodale generatieve modellen samen te stellen uit onafhankelijk voorgetrainde unimodale decoders. In onze experimenten waarbij spraak- en tekstmodaliteiten worden samengevoegd, tonen we aan dat de voorgestelde architectuur zeer competitief presteert in scenario's met beperkte uitgelijnde tekst-spraakdata. We demonstreren ook de flexibiliteit van ons model om selectief unimodale (bijvoorbeeld tekst-naar-tekst generatie) generatieprestaties te behouden door de corresponderende modale tower (bijvoorbeeld tekst) te bevriezen. In cross-modale taken zoals automatische spraakherkenning (ASR) waarbij de uitvoermodaliteit tekst is, laten we zien dat het bevriezen van de tekst-backbone resulteert in een verwaarloosbare prestatievermindering. In cross-modale taken zoals tekst-naar-spraakgeneratie (TTS) waarbij de uitvoermodaliteit spraak is, tonen we aan dat het gebruik van een voorgetrainde spraak-backbone resulteert in superieure prestaties ten opzichte van de baseline.
Het creëren van hoogwaardige, digitale versies van menselijke hoofden is een belangrijke stap in het proces van het verder integreren van virtuele componenten in ons dagelijks leven. Het construeren van dergelijke avatars is een uitdagend onderzoeksprobleem, vanwege de hoge eisen aan fotorealisme en real-time renderingprestaties. In dit werk stellen we Neural Parametric Gaussian Avatars (NPGA) voor, een data-gedreven benadering om hoogwaardige, bestuurbare avatars te creëren vanuit multi-view video-opnames. We baseren onze methode op 3D Gaussian Splatting vanwege de zeer efficiënte rendering en om de topologische flexibiliteit van puntenwolken te behouden. In tegenstelling tot eerder werk, conditioneren we de dynamiek van onze avatars op de rijke expressieruimte van neurale parametrische hoofdmodellen (NPHM), in plaats van op mesh-gebaseerde 3DMMs. Hiertoe distilleren we het achterwaartse vervormingsveld van ons onderliggende NPHM in voorwaartse vervormingen die compatibel zijn met rasterisatie-gebaseerde rendering. Alle overige fijnschalige, expressie-afhankelijke details worden geleerd uit de multi-view video's. Om de representatiecapaciteit van onze avatars te vergroten, verrijken we het canonieke Gaussian puntenwolk met per-primitieve latente kenmerken die het dynamische gedrag sturen. Om deze verhoogde dynamische expressiviteit te reguleren, stellen we Laplaciaanse termen voor op de latente kenmerken en voorspelde dynamiek. We evalueren onze methode op de openbare NeRSemble dataset, waaruit blijkt dat NPGA de vorige state-of-the-art avatars significant overtreft in de zelf-heruitvoeringstaak met 2.6 PSNR. Bovendien demonstreren we nauwkeurige animatiemogelijkheden vanuit real-world monoscopische video's.
Reinforcement learning met menselijke feedback (RLHF) heeft veelbelovende resultaten getoond in het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Afhankelijk van de beschikbaarheid van voorkeursdata zijn zowel online als offline RLHF actieve onderzoeksgebieden. Een belangrijk knelpunt is het begrijpen van hoe onzekerheidschatting kan worden geïntegreerd in de beloningsfunctie die wordt geleerd uit de voorkeursdata voor RLHF, ongeacht hoe de voorkeursdata wordt verzameld. Hoewel de principes van optimisme of pessimisme onder onzekerheid goed zijn gevestigd in standaard reinforcement learning (RL), is een praktisch uitvoerbare en theoretisch onderbouwde vorm die geschikt is voor grote taalmodellen nog niet beschikbaar, aangezien standaardtechnieken voor het construeren van betrouwbaarheidsintervallen onhandelbaar worden onder willekeurige beleidsparameterisaties. In dit artikel introduceren we een geïntegreerde aanpak voor online en offline RLHF -- value-incentivized preference optimization (VPO) -- die de maximum-likelihood schatting van de beloningsfunctie regulariseert met de corresponderende waardefunctie, gemoduleerd door een teken om aan te geven of optimisme of pessimisme wordt gekozen. VPO optimaliseert ook direct het beleid met impliciete beloningsmodellering, en deelt daarom een eenvoudiger RLHF-pijplijn die vergelijkbaar is met directe voorkeursoptimalisatie. Theoretische garanties voor VPO worden geboden voor zowel online als offline settings, die overeenkomen met de snelheden van hun standaard RL-tegenhangers. Bovendien valideren experimenten op tekstsamenvatting en dialoog de praktische bruikbaarheid en effectiviteit van VPO.
Geluid is een onmisbaar element voor multimediale werken zoals videogames, muziek en films. Recente, hoogwaardige op diffusie gebaseerde geluidsgeneratiemodellen kunnen waardevolle hulpmiddelen zijn voor makers. Hoewel deze modellen hoogwaardige geluiden produceren, hebben ze vaak te maken met trage inferentiesnelheden. Dit nadeel belast makers, die doorgaans hun geluiden verfijnen door middel van trial and error om ze af te stemmen op hun artistieke intenties. Om dit probleem aan te pakken, introduceren we Sound Consistency Trajectory Models (SoundCTM). Ons model maakt een flexibele overgang mogelijk tussen hoogwaardige 1-staps geluidsgeneratie en superieure geluidskwaliteit via meerstapsgeneratie. Hierdoor kunnen makers geluiden aanvankelijk beheersen met 1-staps samples voordat ze deze verfijnen door middel van meerstapsgeneratie. Hoewel CTM in principe flexibele 1-staps en meerstapsgeneratie bereikt, hangt de indrukwekkende prestaties sterk af van een extra voorgetrainde feature extractor en een adversarial loss, die duur zijn om te trainen en niet altijd beschikbaar zijn in andere domeinen. Daarom herformuleren we het trainingsframework van CTM en introduceren we een nieuwe feature distance door het netwerk van de leraar te gebruiken voor een distillatieverlies. Bovendien trainen we, tijdens het distilleren van classifier-free guided trajectories, conditionele en niet-conditionele studentmodellen gelijktijdig en interpoleren we tussen deze modellen tijdens de inferentie. We stellen ook trainingsvrije beheersbare frameworks voor SoundCTM voor, waarbij we gebruikmaken van de flexibele samplingmogelijkheid. SoundCTM bereikt zowel veelbelovende 1-staps als meerstaps real-time geluidsgeneratie zonder gebruik te maken van extra kant-en-klare netwerken. Verder demonstreren we de mogelijkheid van SoundCTM om beheersbare geluidsgeneratie uit te voeren op een trainingsvrije manier.
Bestaande op diffusie gebaseerde tekst-naar-3D-generatiemethoden richten zich voornamelijk op het produceren van visueel realistische vormen en uiterlijken, waarbij vaak de fysieke beperkingen die nodig zijn voor downstream taken worden verwaarloosd. Geproduceerde modellen houden vaak geen balans wanneer ze worden geplaatst in op fysica gebaseerde simulaties of worden 3D-geprint. Deze balans is cruciaal voor het voldoen aan de ontwerpintenties van gebruikers in interactieve gaming, embodied AI en robotica, waar stabiele modellen nodig zijn voor betrouwbare interactie. Daarnaast zorgen stabiele modellen ervoor dat 3D-geprinte objecten, zoals beeldjes voor thuisdecoratie, zelfstandig kunnen staan zonder extra ondersteuning. Om deze leemte op te vullen, introduceren we Atlas3D, een automatische en eenvoudig te implementeren methode die bestaande op Score Distillation Sampling (SDS) gebaseerde tekst-naar-3D-tools verbetert. Atlas3D zorgt voor de generatie van zelfondersteunende 3D-modellen die voldoen aan de fysieke wetten van stabiliteit onder zwaartekracht, contact en wrijving. Onze aanpak combineert een nieuwe differentieerbare op simulatie gebaseerde verliesfunctie met fysiek geïnspireerde regularisatie, die dient als een verfijning of een post-processing module voor bestaande frameworks. We verifiëren de effectiviteit van Atlas3D door middel van uitgebreide generatietaken en valideren de resulterende 3D-modellen in zowel gesimuleerde als real-world omgevingen.