Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit artikel bestudeert het post-training van grote taalmodellen (LLMs) met behulp van voorkeursfeedback van een krachtige orakel om een model iteratief te helpen verbeteren. De typische aanpak voor post-training van LLMs omvat Reinforcement Learning from Human Feedback (RLHF), waarbij traditioneel beloningsleren en daaropvolgende beleidsoptimalisatie worden gescheiden. Een dergelijke beloningsmaximalisatiebenadering wordt echter beperkt door de aard van "puntgewijze" beloningen (zoals het Bradley-Terry-model), die complexe intransitieve of cyclische voorkeursrelaties niet kunnen uitdrukken. Hoewel vooruitgang in RLHF aantoont dat beloningsleren en beleidsoptimalisatie kunnen worden samengevoegd tot een enkel contrastief doel voor stabiliteit, blijven ze toch verbonden aan het beloningsmaximalisatieraamwerk. Recentelijk omzeilt een nieuwe golf van onderzoek de veronderstellingen van beloningsmaximalisatie ten gunste van het direct optimaliseren van "paarsgewijze" of algemene voorkeuren. In dit artikel introduceren we Direct Nash Optimization (DNO), een bewezen en schaalbare algoritme dat de eenvoud en stabiliteit van contrastief leren combineert met theoretische algemeenheid door het optimaliseren van algemene voorkeuren. Omdat DNO een batchgewijs on-policy algoritme is dat een regressiegebaseerd doel gebruikt, is de implementatie eenvoudig en efficiënt. Bovendien geniet DNO van monotone verbetering over iteraties, wat helpt om zelfs te verbeteren ten opzichte van een sterke leraar (zoals GPT-4). In onze experimenten behaalt een resulterend 7B-parameter Orca-2.5-model, afgestemd door DNO, de state-of-the-art win-rate tegen GPT-4-Turbo van 33% op AlpacaEval 2.0 (zelfs na correctie voor responslengte), een absolute winst van 26% (7% naar 33%) ten opzichte van het initiërende model. Het presteert beter dan modellen met veel meer parameters, waaronder Mistral Large, Self-Rewarding LM (70B parameters) en oudere versies van GPT-4.
Taalmodellen krijgen tijdens de training zelden vruchtbare fouten te zien. Hierdoor hebben ze moeite om verder te kijken dan het volgende token, lijden ze onder een opeenstapeling van fouten en vinden ze het moeilijk om de gevolgen van hun acties meerdere stappen vooruit te voorspellen. In dit artikel laten we zien hoe taalmodellen kunnen worden geleerd om te zoeken door het zoekproces in taal te representeren, als een afgevlakte string – een stroom van zoekacties (Stream of Search, SoS). We stellen een uniforme taal voor zoeken voor die een reeks verschillende symbolische zoekstrategieën omvat. We demonstreren onze aanpak met het eenvoudige maar uitdagende spel Countdown, waarbij het doel is om invoergetallen met rekenkundige bewerkingen te combineren om een doelgetal te bereiken. We pretrainen een transformer-gebaseerd taalmodel vanaf nul op een dataset van zoekstromen die door heuristische oplossers zijn gegenereerd. We ontdekken dat SoS-pretraining de zoeknauwkeurigheid met 25% verhoogt ten opzichte van modellen die alleen zijn getraind om de optimale zoektrajectorie te voorspellen. We finetunen dit model verder met twee beleidsverbeteringsmethoden: Advantage-Induced Policy Alignment (APA) en Self-Taught Reasoner (STaR). De gefinetunde SoS-modellen lossen 36% van de voorheen onopgeloste problemen op, inclusief problemen die door geen van de heuristische oplossers kunnen worden opgelost. Onze resultaten geven aan dat taalmodellen kunnen leren om problemen op te lossen via zoeken, zichzelf kunnen verbeteren om flexibel verschillende zoekstrategieën te gebruiken en mogelijk nieuwe kunnen ontdekken.
Web-gecrawlde pretrainingsdatasets vormen de basis voor de indrukwekkende "zero-shot" evaluatieprestaties van multimodale modellen, zoals CLIP voor classificatie/retrieval en Stable-Diffusion voor beeldgeneratie. Het is echter onduidelijk hoe betekenisvol het concept van "zero-shot" generalisatie is voor dergelijke multimodale modellen, aangezien niet bekend is in hoeverre hun pretrainingsdatasets de downstream-concepten omvatten die tijdens "zero-shot" evaluatie worden beoogd. In dit werk stellen we de vraag: Hoe wordt de prestaties van multimodale modellen op downstream-concepten beïnvloed door de frequentie van deze concepten in hun pretrainingsdatasets? We onderzoeken deze vraag uitgebreid over 34 modellen en vijf standaard pretrainingsdatasets (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), waarbij we meer dan 300GB aan data-artefacten genereren. We constateren consistent dat, verre van het vertonen van "zero-shot" generalisatie, multimodale modellen exponentieel meer data nodig hebben om lineaire verbeteringen in downstream "zero-shot" prestaties te bereiken, volgens een sample-inefficiënte log-lineaire schaalings trend. Deze trend blijft bestaan zelfs wanneer wordt gecontroleerd voor sample-level gelijkenis tussen pretrainings- en downstream-datasets, en wanneer wordt getest op puur synthetische dataverdelingen. Bovendien tonen we, door modellen te benchmarken op long-tailed data die is bemonsterd op basis van onze analyse, aan dat multimodale modellen over de hele linie slecht presteren. We dragen deze long-tail testset bij als de "Let it Wag!" benchmark om verder onderzoek in deze richting te bevorderen. Samengevat onthult onze studie een exponentiële behoefte aan trainingsdata, wat impliceert dat de sleutel tot "zero-shot" generalisatiecapaciteiten onder grootschalige trainingsparadigma's nog moet worden gevonden.
Recente vooruitgang in instructie-afstemmingsdatasets heeft zich voornamelijk gericht op specifieke taken zoals wiskundig of logisch redeneren. Er is een opvallend gebrek geweest aan data die is ontworpen om taalmodelen af te stemmen op het behouden van onderwerprelevantie in gesprekken – een cruciaal aspect voor het inzetten van chatbots in productie. We introduceren de CantTalkAboutThis-dataset om taalmodelen te helpen gefocust te blijven op het onderwerp tijdens taakgerichte interacties. Deze dataset bestaat uit synthetische dialogen over een breed scala aan gespreksonderwerpen uit verschillende domeinen. Deze dialogen worden afgewisseld met afleidende zetten die de chatbot opzettelijk van het vooraf bepaalde onderwerp afleiden. Het finetunen van taalmodelen op deze dataset helpt ze weerbaarder te maken tegen afwijkingen van de toegewezen rol en verbetert hun vermogen om thematische samenhang te behouden in vergelijking met algemene instructie-afgestemde LLM's zoals GPT-4-turbo en Mixtral-Instruct. Daarnaast suggereren voorlopige observaties dat het trainen van modellen op deze dataset ook hun prestaties verbetert bij taken die nauwkeurige instructieopvolging vereisen.
Reinforcement learning (RL) heeft het geleide beeldgeneratieproces met diffusiemodellen verbeterd door beloningen die beeldkwaliteit, esthetiek en het volgen van instructies vastleggen, direct te optimaliseren. De resulterende generatieve beleidsmodellen erven echter hetzelfde iteratieve samplingproces van diffusiemodellen, wat tot trage generatie leidt. Om deze beperking te overwinnen, hebben consistentiemodellen voorgesteld om een nieuwe klasse van generatieve modellen te leren die ruis direct naar data afbeelden, wat resulteert in een model dat een beeld in slechts één samplingiteratie kan genereren. In dit werk stellen we, om tekst-naar-beeld generatieve modellen te optimaliseren voor taakspecifieke beloningen en snelle training en inferentie mogelijk te maken, een raamwerk voor voor het finetunen van consistentiemodellen via RL. Ons raamwerk, genaamd Reinforcement Learning for Consistency Model (RLCM), behandelt het iteratieve inferentieproces van een consistentiemodel als een RL-procedure. RLCM verbetert de tekst-naar-beeld generatiecapaciteiten van RL-gefinetunde diffusiemodellen en ruilt rekentijd tijdens inferentie in voor samplekwaliteit. Experimenteel tonen we aan dat RLCM tekst-naar-beeld consistentiemodellen kan aanpassen aan doelstellingen die moeilijk uit te drukken zijn met prompts, zoals beeldcompressibiliteit, en die afgeleid zijn van menselijke feedback, zoals esthetische kwaliteit. In vergelijking met RL-gefinetunde diffusiemodellen, traint RLCM aanzienlijk sneller, verbetert het de kwaliteit van de generatie gemeten onder de beloningsdoelstellingen, en versnelt het het inferentieproces door hoogwaardige beelden te genereren met slechts twee inferentiestappen. Onze code is beschikbaar op https://rlcm.owenoertell.com.
Mensen vertrouwen op sociale vaardigheden zoals conflictoplossing om effectief te communiceren en te gedijen in zowel hun werk- als privéleven. Echter, oefenomgevingen voor sociale vaardigheden zijn voor de meeste mensen meestal niet toegankelijk. Hoe kunnen we training in sociale vaardigheden beschikbaarder, toegankelijker en aantrekkelijker maken? Gebaseerd op interdisciplinair onderzoek uit communicatiewetenschap en psychologie, identificeert dit perspectiefartikel barrières voor sociale vaardigheden om toegang te krijgen tot gespecialiseerde vakgebieden. Vervolgens presenteren we een oplossing die gebruikmaakt van grote taalmodellen voor training in sociale vaardigheden via een generiek raamwerk. Ons AI Partner, AI Mentor-raamwerk combineert ervaringsgericht leren met realistische oefening en op maat gemaakte feedback. Dit werk roept uiteindelijk op tot interdisciplinaire innovatie om de bredere implicaties voor arbeidsontwikkeling en sociale gelijkheid aan te pakken.
In deze studie introduceren we CT-LLM, een groot taalmodel (LLM) van 2B dat een cruciale verschuiving illustreert naar het prioriteren van de Chinese taal bij de ontwikkeling van LLM's. Uniek gestart vanaf nul, wijkt CT-LLM af van de conventionele methodologie door voornamelijk Chinese tekstuele gegevens te incorporeren, waarbij een uitgebreid corpus van 1.200 miljard tokens wordt gebruikt, waaronder 800 miljard Chinese tokens, 300 miljard Engelse tokens en 100 miljard code-tokens. Deze strategische samenstelling vergemakkelijkt de uitzonderlijke vaardigheid van het model in het begrijpen en verwerken van Chinees, een vermogen dat verder wordt versterkt door alignment-technieken. Met een opmerkelijke prestatie op de CHC-Bench blinkt CT-LLM uit in Chinese taaltaken en toont het zijn vaardigheid in het Engels via SFT. Dit onderzoek daagt het heersende paradigma uit van het trainen van LLM's voornamelijk op Engelse corpora en ze vervolgens aan te passen aan andere talen, waardoor de horizon voor LLM-trainingsmethodologieën wordt verbreed. Door het volledige proces van het trainen van een Chinese LLM open source te maken, inclusief een gedetailleerde gegevensverwerkingsprocedure met het verkregen Massive Appropriate Pretraining Chinese Corpus (MAP-CC), een zorgvuldig gekozen multidisciplinair Chinese Hard Case Benchmark (CHC-Bench), en het 2B-grote Chinese Tiny LLM (CT-LLM), streven we ernaar om verder onderzoek en innovatie in zowel de academische wereld als de industrie te bevorderen, en zo de weg te effenen voor meer inclusieve en veelzijdige taalmodel.
In dit artikel behandelen we veelvoorkomende bronnen van fouten bij 3D Gaussian Splatting (3DGS), zoals onscherpte, onnauwkeurige cameraposities en kleurincongruenties, met als doel de robuustheid ervan te verbeteren voor praktische toepassingen zoals reconstructies vanuit handheld telefoonopnames. Onze belangrijkste bijdrage bestaat uit het modelleren van bewegingsonscherpte als een Gaussische verdeling over cameraposities, waardoor we zowel de verfijning van cameraposities als de correctie van bewegingsonscherpte op een geïntegreerde manier kunnen aanpakken. Daarnaast stellen we mechanismen voor om defocus-onscherpte te compenseren en kleurincongruenties aan te pakken die worden veroorzaakt door omgevingslicht, schaduwen of cameragerelateerde factoren zoals variërende witbalansinstellingen. Onze voorgestelde oplossingen integreren naadloos met de 3DGS-formulering, terwijl de voordelen op het gebied van trainings-efficiëntie en renderingsnelheid behouden blijven. We valideren onze bijdragen experimenteel op relevante benchmarkdatasets, waaronder Scannet++ en Deblur-NeRF, en behalen state-of-the-art resultaten, wat resulteert in consistente verbeteringen ten opzichte van relevante baselines.
Multi-modale semantische segmentatie verbetert de waarneming en scènebegrip van AI-agenten aanzienlijk, vooral onder moeilijke omstandigheden zoals weinig licht of overbelichte omgevingen. Door aanvullende modaliteiten (X-modaliteit) zoals thermisch en diepte naast traditionele RGB te benutten, wordt aanvullende informatie verkregen, wat resulteert in robuustere en betrouwbaardere segmentatie. In dit werk introduceren we Sigma, een Siamese Mamba-netwerk voor multi-modale semantische segmentatie, dat gebruikmaakt van het Selective Structured State Space Model, Mamba. In tegenstelling tot conventionele methoden die vertrouwen op CNN's, met hun beperkte lokale receptieve velden, of Vision Transformers (ViTs), die globale receptieve velden bieden ten koste van kwadratische complexiteit, bereikt ons model globale receptieve velden met lineaire complexiteit. Door een Siamese encoder te gebruiken en een innovatief Mamba-fusiemechanisme te ontwikkelen, selecteren we effectief essentiële informatie uit verschillende modaliteiten. Vervolgens wordt een decoder ontwikkeld om het kanaalgewijze modelleringsvermogen van het model te verbeteren. Onze methode, Sigma, wordt grondig geëvalueerd op zowel RGB-Thermische als RGB-Diepte segmentatietaken, waarbij de superioriteit ervan wordt aangetoond en de eerste succesvolle toepassing van State Space Models (SSMs) in multi-modale waarnemingstaken wordt gemarkeerd. Code is beschikbaar op https://github.com/zifuwan/Sigma.