Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opvallende multimodale mogelijkheden en interactieve ervaring van GPT-4o benadrukken de cruciale rol ervan in praktische toepassingen, maar het ontbreekt aan een hoogwaardig open-source equivalent. In dit artikel introduceren we Baichuan-Omni, het eerste open-source 7B Multimodaal Groot Taalmodel (MLLM) dat bedreven is in gelijktijdige verwerking en analyse van modaliteiten van beeld, video, audio en tekst, terwijl het een geavanceerde multimodale interactieve ervaring en sterke prestaties levert. We stellen een effectief multimodaal trainingschema voor dat begint met het 7B-model en doorgaat via twee fasen van multimodale afstemming en multitask fijnafstemming over audio, beeld, video en tekstmodaliteiten. Deze aanpak rust het taalmodel uit met de mogelijkheid om visuele en audio data effectief te verwerken. Door sterke prestaties te tonen op verschillende omni-modale en multimodale benchmarks, streven we ernaar dat deze bijdrage dient als een competitieve basislijn voor de open-source gemeenschap bij het bevorderen van multimodale begrip en realtime interactie.
Diffusiemodellen, zoals Stabiele Diffusie, hebben aanzienlijke vooruitgang geboekt in visuele generatie, maar hun paradigma blijft fundamenteel verschillend van autoregressieve taalmodellen, wat de ontwikkeling van eenduidige taal-beeldmodellen bemoeilijkt. Recente inspanningen zoals LlamaGen hebben geprobeerd autoregressieve beeldgeneratie te gebruiken met discrete VQVAE-tokens, maar het grote aantal betrokken tokens maakt deze aanpak inefficiënt en traag. In dit werk presenteren we Meissonic, dat niet-autoregressieve gemaskeerde beeldmodellering (MIM) tekst-naar-beeld naar een niveau tilt dat vergelijkbaar is met state-of-the-art diffusiemodellen zoals SDXL. Door een uitgebreide reeks architectonische innovaties, geavanceerde positionele coderingsstrategieën en geoptimaliseerde bemonsteringscondities op te nemen, verbetert Meissonic aanzienlijk de prestaties en efficiëntie van MIM. Daarnaast maken we gebruik van hoogwaardige trainingsgegevens, integreren we microcondities die geïnformeerd zijn door menselijke voorkeursscores, en gebruiken we functiecompressielagen om de beeldgetrouwheid en -resolutie verder te verbeteren. Ons model evenaart niet alleen, maar overtreft vaak de prestaties van bestaande modellen zoals SDXL bij het genereren van hoogwaardige, hoogwaardige beelden. Uitgebreide experimenten bevestigen de mogelijkheden van Meissonic en tonen zijn potentieel als nieuwe standaard in tekst-naar-beeldsynthese. We stellen een modelcheckpoint beschikbaar dat in staat is om beelden met een resolutie van 1024 bij 1024 pixels te produceren.
Retrieval-augmented generation (RAG) is een belangrijk middel om grote taalmodellen (LLM's) effectief te verbeteren in veel op kennis gebaseerde taken. Bestaande RAG-methoden worstelen echter met kennisintensieve redeneertaken, omdat de nuttige informatie die nodig is voor deze taken slecht verspreid is. Deze eigenschap maakt het moeilijk voor bestaande RAG-methoden om nauwkeurig de belangrijke informatie te identificeren en wereldwijd redeneren uit te voeren met een dergelijke lawaaierige aanvulling. In dit artikel, gemotiveerd door de cognitieve theorieën dat mensen ruwe informatie omzetten in verschillende gestructureerde kennis bij het aanpakken van kennisintensieve redeneertaken, stellen we een nieuw raamwerk voor, StructRAG, voor. Dit raamwerk kan het optimale structuurtype voor de betreffende taak identificeren, oorspronkelijke documenten reconstrueren naar dit gestructureerde formaat en antwoorden afleiden op basis van de resulterende structuur. Uitgebreide experimenten over verschillende kennisintensieve taken tonen aan dat StructRAG state-of-the-art prestaties behaalt, vooral uitblinkend in uitdagende scenario's, waarbij het zijn potentieel als een effectieve oplossing voor het verbeteren van LLM's in complexe real-world toepassingen aantoont.
Grote visie-taalmodellen (VLM's) combineren grote taalmodellen met visuele encoders en tonen veelbelovende resultaten bij verschillende taken. Echter, ze presteren vaak ondermaats bij taakspecifieke toepassingen vanwege domeinverschillen tussen pre-training en fine-tuning. Wij introduceren VITask, een nieuw raamwerk dat de taakspecifieke aanpasbaarheid van VLM's verbetert door taakspecifieke modellen (TSM's) te integreren. VITask maakt gebruik van drie belangrijke strategieën: voorbeeldprompting (EP), uitlijning van responsverdeling (RDA) en contrastieve responsafstemming (CRT) om de taakspecifieke prestaties van VLM's te verbeteren door hun responsverdelingen aan te passen. EP stelt TSM-kenmerken in staat om VLM's te begeleiden, terwijl RDA VLM's in staat stelt om zich aan te passen zonder TSM's tijdens inferentie door te leren van voorbeeld-geprompte modellen. CRT optimaliseert verder de rangschikking van juiste beeldresponsparen, waardoor het risico op het genereren van ongewenste reacties wordt verminderd. Experimenten op 12 medische diagnose datasets over 9 beeldvormingsmodaliteiten tonen aan dat VITask zowel standaard instructie-afgestemde VLM's als TSM's overtreft, waarbij het vermogen wordt gedemonstreerd om effectief complementaire kenmerken van beide modellen te integreren. Bovendien biedt VITask praktische voordelen zoals flexibele TSM-integratie en robuustheid tegen onvolledige instructies, waardoor het een veelzijdige en efficiënte oplossing is voor taakspecifieke VLM-afstemming. Onze code is beschikbaar op https://github.com/baiyang4/VITask.
Efficiënte gegevensselectie is cruciaal om het voorbereiden van grote taalmodellen (LLM's) te versnellen. Hoewel verschillende methoden zijn voorgesteld om de gegevensefficiëntie te verbeteren, heeft beperkt onderzoek de inherente conflicten tussen deze benaderingen aangepakt om optimale gegevensselectie voor LLM-voorbereiding te bereiken. Om dit probleem aan te pakken, stellen we een nieuw multi-agent samenwerkingsmechanisme voor gegevensselectie voor. In dit kader fungeert elke gegevensselectiemethode als een onafhankelijke agent, en er is een agentenconsole ontworpen om dynamisch de informatie van alle agenten gedurende het LLM-trainingsproces te integreren. We voeren uitgebreide empirische studies uit om ons multi-agentenkader te evalueren. De experimentele resultaten tonen aan dat onze aanpak de gegevensefficiëntie aanzienlijk verbetert, de convergentie bij LLM-training versnelt en een gemiddelde prestatiewinst van 10,5% behaalt over meerdere taalmodelbenchmarks in vergelijking met de state-of-the-art methoden.
Het begrijpen van hoe kenmerken evolueren over lagen in diepe neurale netwerken is een fundamentele uitdaging in mechanismatische interpreteerbaarheid, met name vanwege polysemie en kenmerk-superpositie. Hoewel Schaarse Auto-encoders (SAE's) zijn gebruikt om interpreteerbare kenmerken uit individuele lagen te extraheren, is het uitlijnen van deze kenmerken over lagen heen een open probleem gebleven. In dit artikel introduceren we SAE Match, een nieuw, data-vrij methode voor het uitlijnen van SAE-kenmerken over verschillende lagen van een neuraal netwerk. Onze aanpak omvat het matchen van kenmerken door het minimaliseren van de gemiddelde kwadratische fout tussen de gevouwen parameters van SAE's, een techniek die activatiedrempels opneemt in de encoder- en decodergewichten om rekening te houden met verschillen in kenmerkschalen. Door uitgebreide experimenten uit te voeren op het Gemma 2 taalmodel, tonen we aan dat onze methode effectief kenmerkevolutie over lagen vastlegt, waardoor de kwaliteit van kenmerk-matching verbetert. We tonen ook aan dat kenmerken over meerdere lagen aanhouden en dat onze aanpak verborgen toestanden over lagen heen kan benaderen. Ons werk bevordert het begrip van kenmerkdynamiek in neurale netwerken en biedt een nieuw instrument voor mechanismatische interpreteerbaarheidsstudies.
Recente ontwikkelingen in generatiemodellen hebben opmerkelijke capaciteiten aangetoond in het genereren van fantastische inhoud. Echter, de meeste van hen worden getraind op eigen hoogwaardige gegevens, en sommige modellen houden hun parameters achter en bieden alleen toegankelijke toepassingsprogrammeerinterfaces (API's), waardoor hun voordelen voor downstream taken beperkt zijn. Om de haalbaarheid te onderzoeken van het trainen van een tekst-naar-afbeelding generatiemodel vergelijkbaar met geavanceerde modellen met behulp van openbaar beschikbare bronnen, introduceren we EvolveDirector. Dit framework communiceert met geavanceerde modellen via hun openbare API's om tekst-afbeelding gegevensparen te verkrijgen om een basismodel te trainen. Onze experimenten met uitgebreide gegevens geven aan dat het model dat is getraind op gegenereerde gegevens van het geavanceerde model, in staat is om de generatiecapaciteit ervan te benaderen. Echter, hiervoor zijn grote steekproeven van 10 miljoen of meer nodig. Dit brengt aanzienlijke kosten met zich mee op het gebied van tijd, rekenkracht en vooral de kosten die gepaard gaan met het aanroepen van op kosten gebaseerde API's. Om dit probleem aan te pakken, maken we gebruik van vooraf getrainde grote visie-taalmodellen (VLM's) om de evolutie van het basismodel te begeleiden. VLM evalueert continu het basismodel tijdens de training en werkt dynamisch de training dataset bij door middel van discriminatie-, uitbreidings-, verwijderings- en mutatie-operaties. Experimentele resultaten tonen aan dat dit paradigma het vereiste gegevensvolume aanzienlijk vermindert. Bovendien kan EvolveDirector, bij het benaderen van meerdere geavanceerde modellen, de beste monsters selecteren die door hen zijn gegenereerd om krachtige en evenwichtige capaciteiten te leren. Het uiteindelijk getrainde model Edgen presteert beter dan deze geavanceerde modellen. De code en modelgewichten zijn beschikbaar op https://github.com/showlab/EvolveDirector.
Grote taalmodellen (LLM's) zoals GPT-4, PaLM en LLaMA hebben aanzienlijke verbeteringen laten zien in verschillende redeneertaken. Echter, kleinere modellen zoals Llama-3-8B en DeepSeekMath-Base hebben nog steeds moeite met complexe wiskundige redenering omdat ze er niet in slagen redeneerfouten effectief te identificeren en corrigeren. Recente reflectie-gebaseerde methoden trachten deze problemen aan te pakken door zelfreflectie en zelfcorrectie mogelijk te maken, maar ze ondervinden nog steeds uitdagingen bij het zelfstandig detecteren van fouten in hun redeneerstappen. Om deze beperkingen te overwinnen, stellen wij SuperCorrect voor, een nieuw tweefasig raamwerk dat een groot docentmodel gebruikt om zowel het redeneer- als reflectieproces van een kleiner studentmodel te begeleiden en corrigeren. In de eerste fase extraheren we hiërarchische hoog-niveau en gedetailleerde gedachtepatronen van het docentmodel om het studentmodel te begeleiden bij het oproepen van meer verfijnde redeneergedachten. In de tweede fase introduceren we cross-model samenwerkende directe voorkeursoptimalisatie (DPO) om de zelfcorrectiemogelijkheden van het studentmodel te verbeteren door tijdens de training de correctietracés van de docent te volgen. Deze cross-model DPO-benadering leert het studentmodel effectief foutieve gedachten te lokaliseren en op te lossen met inzichten uit het docentmodel die voortkomen uit fouten, waardoor de bottleneck van zijn gedachten wordt doorbroken en nieuwe vaardigheden en kennis worden verworven om uitdagende problemen aan te pakken. Uitgebreide experimenten tonen consequent onze superioriteit ten opzichte van eerdere methoden aan. Opmerkelijk genoeg overtreft ons SuperCorrect-7B-model significant krachtige DeepSeekMath-7B met 7,8%/5,3% en Qwen2.5-Math-7B met 15,1%/6,3% op MATH/GSM8K-benchmarks, waarmee het nieuwe SOTA-prestaties behaalt onder alle 7B-modellen. Code: https://github.com/YangLing0818/SuperCorrect-llm
Grote Taalmodellen (LLM's) tonen indrukwekkende mogelijkheden binnen diverse domeinen, waaronder rollenspellen, creatief schrijven, wiskundig redeneren en coderen. Ondanks deze vooruitgang ondervinden LLM's nog steeds uitdagingen met lengtebeheersing, waarbij ze vaak niet voldoen aan specifieke lengtebeperkingen vanwege hun token-niveau operaties en onvoldoende training op data met strikte lengtebeperkingen. We identificeren dit probleem als voortkomend uit een gebrek aan positioneel bewustzijn en stellen nieuwe benaderingen voor - PositionID Prompting en PositionID Fine-Tuning - om dit aan te pakken. Deze methoden verbeteren het vermogen van het model om tekstlengte continu te monitoren en beheren tijdens generatie. Daarnaast introduceren we PositionID CP Prompting om LLM's in staat te stellen kopieer- en plakbewerkingen nauwkeurig uit te voeren. Verder ontwikkelen we twee benchmarks voor het evalueren van lengtebeheersing en kopieer-plakmogelijkheden. Onze experimenten tonen aan dat onze methoden aanzienlijk de naleving van lengtebeperkingen en de nauwkeurigheid van kopieer-plak verbeteren zonder de kwaliteit van de respons in gevaar te brengen.
Het genereren van hoogwaardige 3D-assets uit tekstuele beschrijvingen blijft een cruciale uitdaging in het onderzoek naar computergraphics en computerzicht. Vanwege de schaarste aan 3D-gegevens maken state-of-the-art benaderingen gebruik van vooraf getrainde 2D-diffusiepriori's, geoptimaliseerd via Score Distillation Sampling (SDS). Ondanks de vooruitgang is het nog steeds moeilijk om complexe 3D-scènes te creëren met meerdere objecten of ingewikkelde interacties. Om dit aan te pakken, hebben recente methoden box- of lay-outbegeleiding geïntegreerd. Echter, deze lay-outgestuurde compositorische methoden hebben vaak moeite met het bieden van fijnmazige controle, omdat ze over het algemeen grof zijn en aan expressiviteit ontbreken. Om deze uitdagingen te overwinnen, introduceren we een nieuw SDS-benadering, Semantic Score Distillation Sampling (SemanticSDS), ontworpen om de expressiviteit en nauwkeurigheid van tekst-naar-3D-generatie effectief te verbeteren. Onze benadering integreert nieuwe semantische insluitingen die consistentie behouden over verschillende renderingsweergaven en duidelijk onderscheid maken tussen verschillende objecten en onderdelen. Deze insluitingen worden omgezet in een semantische kaart, die een regiospecifiek SDS-proces aanstuurt, waardoor nauwkeurige optimalisatie en compositorische generatie mogelijk worden. Door expliciete semantische begeleiding te benutten, ontsluit onze methode de compositorische mogelijkheden van bestaande vooraf getrainde diffusiemodellen, waardoor superieure kwaliteit wordt bereikt in de generatie van 3D-inhoud, met name voor complexe objecten en scènes. Experimentele resultaten tonen aan dat ons SemanticSDS-framework zeer effectief is voor het genereren van geavanceerde complexe 3D-inhoud. Code: https://github.com/YangLing0818/SemanticSDS-3D
Het afleiden met op transformer-gebaseerde taalmodellen begint met een promptverwerkingsstap. In deze stap genereert het model het eerste uitvoertoken en slaat de KV-cache op die nodig is voor toekomstige generatiestappen. Deze promptverwerkingsstap kan rekenintensief zijn en 10-tallen seconden of meer in beslag nemen voor modellen met miljarden parameters op randapparaten wanneer de promptlengtes of batchgroottes toenemen. Dit vermindert de gebruikerservaring door aanzienlijke latentie in de uitvoer van het model te introduceren. Om de tijd die wordt besteed aan het produceren van het eerste uitvoerresultaat (bekend als de "tijd tot het eerste token", of TTFT) van een voortraind model te verminderen, introduceren we een nieuwe methode genaamd KV Voorspelling. In onze methode wordt een kleine hulpmodel gebruikt om de prompt te verwerken en een benadering van de KV-cache te produceren die door een basismodel wordt gebruikt. Deze benaderde KV-cache wordt vervolgens gebruikt met het basismodel voor autoregressieve generatie zonder dat het hulpmodel opnieuw hoeft te worden geraadpleegd. We tonen aan dat onze methode een pareto-optimale efficiëntie-nauwkeurigheidshandel oplevert in vergelijking met baselines. Op TriviaQA laten we relatieve nauwkeurigheidsverbeteringen zien in het bereik van 15%-50% over een reeks TTFT FLOPs-budgetten. We laten ook nauwkeurigheidsverbeteringen zien tot 30% bij het aanvullen van Python-code in HumanEval bij vaste TTFT FLOPs-budgetten. Daarnaast benchmarken we modellen op een Apple M2 Pro CPU en tonen aan dat onze verbetering in FLOPs zich vertaalt naar een versnelling van de TTFT op hardware. We publiceren onze code op https://github.com/apple/corenet/tree/main/projects/kv-prediction.
Discrete diffusie heeft state-of-the-art prestaties behaald, waarbij het autoregressieve modellen overtreft of benadert op standaard benchmarks. In dit werk introduceren we Discrete Diffusie met Geplande Denoising (DDPD), een nieuw raamwerk dat het generatieproces opsplitst in twee modellen: een planner en een denoiser. Tijdens inferentie selecteert de planner welke posities als volgende moeten worden gedenoised door de meest aangetaste posities te identificeren die denoising nodig hebben, inclusief zowel aanvankelijk aangetaste als die extra verfijning vereisen. Deze plan-en-denoise benadering maakt efficiëntere reconstructie mogelijk tijdens generatie door corrumpties iteratief te identificeren en te denoisen in de optimale volgorde. DDPD overtreft traditionele denoiser-only masker diffusie methoden, met superieure resultaten op taalmodelleringsbenchmarks zoals text8, OpenWebText, en token-gebaseerde generatie op ImageNet 256 keer 256. Opmerkelijk is dat DDPD in taalmodellering aanzienlijk de prestatiekloof verkleint tussen diffusie-gebaseerde en autoregressieve methoden wat betreft generatieve perplexiteit. De code is beschikbaar op https://github.com/liusulin/DDPD.
We presenteren ZeroComp, een effectieve zero-shot 3D object compositing benadering die geen gepaarde samengestelde scène-afbeeldingen vereist tijdens training. Onze methode maakt gebruik van ControlNet om te conditioneren vanuit intrinsieke afbeeldingen en combineert dit met een Stable Diffusion model om zijn scènevoorkeuren te benutten, die samen fungeren als een effectieve renderengine. Tijdens training maakt ZeroComp gebruik van intrinsieke afbeeldingen gebaseerd op geometrie, albedo en gemaskerde shading, allemaal zonder de noodzaak van gepaarde afbeeldingen van scènes met en zonder samengestelde objecten. Eenmaal getraind, integreert het naadloos virtuele 3D-objecten in scènes, waarbij de shading wordt aangepast om realistische composieten te creëren. We hebben een hoogwaardige evaluatiedataset ontwikkeld en laten zien dat ZeroComp methoden die gebruikmaken van expliciete belichtingsschattingen en generatieve technieken overtreft in kwantitatieve en menselijke perceptie-benchmarks. Bovendien breidt ZeroComp uit naar echte en buitenbeeldcompositie, zelfs wanneer alleen getraind op synthetische binnen data, waarbij het zijn effectiviteit in beeldcompositie aantoont.
Rectified Flow Transformers (RFT's) bieden superieure training en inferentie efficiëntie, waardoor ze waarschijnlijk de meest levensvatbare richting zijn voor het opschalen van diffusiemodellen. Echter, de vooruitgang in generatieresolutie is relatief traag geweest vanwege de kwaliteit van gegevens en trainingskosten. Resolutie-extrapolatie zonder afstemming biedt een alternatief, maar de huidige methoden verminderen vaak de generatieve stabiliteit, waardoor de praktische toepassing beperkt wordt. In dit artikel bekijken we bestaande resolutie-extrapolatiemethoden en introduceren we het I-Max framework om het resolutiepotentieel van Tekst-naar-Afbeelding RFT's te maximaliseren. I-Max kenmerkt zich door: (i) een nieuw Projected Flow strategie voor stabiele extrapolatie en (ii) een geavanceerde inferentietoolkit voor het generaliseren van modelkennis naar hogere resoluties. Experimenten met Lumina-Next-2K en Flux.1-dev tonen de mogelijkheid van I-Max om stabiliteit te verbeteren in resolutie-extrapolatie en laten zien dat het beeldgedetailleerdheid en artefactcorrectie kan brengen, wat de praktische waarde van resolutie-extrapolatie zonder afstemming bevestigt.
We introduceren DA-Code, een codegeneratie benchmark die specifiek is ontworpen om LLMs te beoordelen op op agent-gebaseerde data science taken. Deze benchmark heeft drie kernonderdelen: Ten eerste zijn de taken binnen DA-Code inherent uitdagend, waardoor ze zich onderscheiden van traditionele codegeneratietaken en geavanceerde programmeervaardigheden vereisen op het gebied van grondslagen en planning. Ten tweede zijn de voorbeelden in DA-Code allemaal gebaseerd op echte en diverse data, die een breed scala aan complexe data manipulatie- en analysetaken bestrijken. Ten derde moeten de modellen om de taken op te lossen complexe data science programmeertalen gebruiken om ingewikkelde data verwerking uit te voeren en de antwoorden af te leiden. We hebben de benchmark opgezet in een controleerbare en uitvoerbare omgeving die aansluit bij scenario's voor data-analyse in de echte wereld en schaalbaar is. De annotatoren ontwerpen zorgvuldig de evaluatiesuite om de nauwkeurigheid en robuustheid van de evaluatie te waarborgen. We hebben de DA-Agent baseline ontwikkeld. Experimenten tonen aan dat hoewel de baseline beter presteert dan andere bestaande frameworks, het gebruik van de huidige beste LLMs slechts een nauwkeurigheid van 30,5% behaalt, wat ruimte laat voor verbetering. We publiceren onze benchmark op https://da-code-bench.github.io.
De verspreiding van ontstekende of misleidende "nep" nieuwsinhoud is de afgelopen jaren steeds gebruikelijker geworden. Tegelijkertijd is het makkelijker dan ooit om AI-tools te gebruiken om fotorealistische afbeeldingen te genereren die elk denkbare scène uitbeelden. Het combineren van deze twee - door AI gegenereerde nepnieuwsinhoud - is bijzonder krachtig en gevaarlijk. Om de verspreiding van door AI gegenereerd nepnieuws tegen te gaan, stellen we het MiRAGeNews Dataset voor, een dataset van 12.500 hoogwaardige echte en door AI gegenereerde afbeelding-onderschrift paren van toonaangevende generatoren. We vinden dat onze dataset een aanzienlijke uitdaging vormt voor mensen (60% F-1) en toonaangevende multimodale LLM's (< 24% F-1). Met behulp van onze dataset trainen we een multimodale detector (MiRAGe) die met +5,1% F-1 verbetert ten opzichte van toonaangevende baselines op afbeelding-onderschrift paren van out-of-domain afbeeldingsgeneratoren en nieuwsuitgevers. We stellen onze code en gegevens beschikbaar om toekomstig werk bij het detecteren van door AI gegenereerde inhoud te ondersteunen.
Het genereren van diverse reacties van grote taalmodellen (LLM's) is cruciaal voor toepassingen zoals planning/zoekopdrachten en synthetische gegevensgeneratie, waar diversiteit verschillende antwoorden over generaties heen oplevert. Eerdere benaderingen vertrouwen op het verhogen van de temperatuur om de diversiteit te vergroten. Echter, in tegenstelling tot wat vaak wordt gedacht, tonen we aan dat deze benadering niet alleen lagere kwaliteit individuele generaties produceert naarmate de temperatuur stijgt, maar ook afhankelijk is van de waarschijnlijkheden van het volgende token van het model die vergelijkbaar zijn met de ware verdeling van antwoorden. We stellen een alternatieve benadering voor die het taalmodel zelf gebruikt om de ruimte in strata te verdelen. Bij inferentie wordt een willekeurig stratum geselecteerd en wordt een steekproef uit het stratum getrokken. Om diversiteit te meten, introduceren we CoverageQA, een dataset van ondergespecificeerde vragen met meerdere even plausibele antwoorden, en beoordelen we diversiteit door de KL-divergentie te meten tussen de uitvoerverdeling en de uniforme verdeling over geldige juiste antwoorden. Aangezien het berekenen van de waarschijnlijkheid per reactie/oplossing voor eigen modellen onhaalbaar is, meten we de recall op de juiste oplossingen. Onze evaluatie toont aan dat het gebruik van SimpleStrat een hogere recall oplevert met 0.05 in vergelijking met GPT-4o en een gemiddelde vermindering van 0.36 in KL-divergentie in vergelijking met Llama 3.
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties vertoond bij verschillende complexe taken door gebruik te maken van Chain-of-Thought (CoT) prompting. Onlangs hebben studies een Kennisdestillatie (KD) benadering voorgesteld, redeneringsdestillatie genaamd, die dergelijke redeneervaardigheden van LLM's overdraagt door taalmodellen van meerdere-stappen rationales gegenereerd door LLM-docenten te verfijnen. Echter, ze hebben onvoldoende rekening gehouden met twee uitdagingen met betrekking tot onvoldoende destillatiesets van het LLM-docentmodel, wat betreft 1) gegevenskwaliteit en 2) het verschaffen van zachte labels. In dit artikel stellen we Mentor-KD voor, dat effectief de multi-stap redeneervermogen van LLM's destilleert naar kleinere LMs terwijl het eerder genoemde uitdagingen aanpakt. Specifiek maken we gebruik van een mentor, een middelgroot taakspecifiek verfijnd model, om extra CoT-annotaties te benutten en zachte labels te verschaffen voor het studentmodel tijdens redeneringsdestillatie. We voeren uitgebreide experimenten uit en bevestigen de effectiviteit van Mentor-KD bij verschillende modellen en complexe redeneertaken.
Grote Taalmodellen (LLM's) vertonen indrukwekkende mogelijkheden, maar vereisen zorgvuldige afstemming op menselijke voorkeuren. Traditionele trainingsmethoden finetunen LLM's met behulp van datasets met menselijke voorkeuren, maar brengen aanzienlijke trainingskosten met zich mee en vereisen herhaalde training om diverse gebruikersvoorkeuren aan te kunnen. Testtijd-afstemmingsmethoden pakken dit aan door beloningsmodellen (RMs) te gebruiken om bevroren LLM's te begeleiden zonder opnieuw te trainen. Echter, bestaande testtijdbenaderingen vertrouwen op trajectniveau RMs die zijn ontworpen om complete reacties te evalueren, waardoor ze ongeschikt zijn voor autoregressieve tekstgeneratie die het berekenen van beloningen voor het volgende token vereist vanuit gedeeltelijke reacties. Om dit aan te pakken, introduceren we GenARM, een testtijd-afstemmingsbenadering die gebruikmaakt van het Autoregressieve Beloningsmodel - een nieuw beloningsparametrisatie ontworpen om beloningen voor het volgende token efficiënt en effectief te voorspellen voor autoregressieve generatie. Theoretisch tonen we aan dat deze parametrisatie bevroren LLM's aantoonbaar kan begeleiden naar elke distributie die haalbaar is met traditionele RMs binnen het KL-geregulariseerde reinforcement learning kader. Experimentele resultaten tonen aan dat GenARM aanzienlijk beter presteert dan eerdere testtijd-afstemmingsbaselines en overeenkomt met de prestaties van trainingsmethoden. Bovendien maakt GenARM efficiënte zwak-naar-sterk begeleiding mogelijk, waarbij grotere LLM's worden afgestemd op kleinere RMs zonder de hoge kosten van het trainen van grotere modellen. Verder ondersteunt GenARM multi-objectieve afstemming, waardoor real-time afwegingen tussen voorkeursdimensies mogelijk zijn en tegemoet wordt gekomen aan diverse gebruikersvoorkeuren zonder opnieuw te trainen.
Sonarbeeldsynthese is cruciaal voor het bevorderen van toepassingen in onderwaterverkenning, mariene biologie en defensie. Traditionele methoden vertrouwen vaak op uitgebreide en kostbare gegevensverzameling met behulp van sonarsensoren, wat de kwaliteit en diversiteit van gegevens in gevaar brengt. Om deze beperkingen te overwinnen, stelt deze studie een nieuw raamwerk voor sonarbeeldsynthese voor, genaamd Synth-SONAR, waarbij diffusiemodellen en GPT-aanwijzingen worden benut. De belangrijkste vernieuwingen van Synth-SONAR zijn drievoudig: Ten eerste, door Generatieve AI-gebaseerde stijlinjectietechnieken te integreren met openbaar beschikbare echte/gemoduleerde gegevens, waardoor een van de grootste sonargegevenscorpora voor sonaronderzoek wordt geproduceerd. Ten tweede, een hiërarchie van dubbele tekstconditioneringssonor-diffusiemodellen synthetiseert grove en fijnkorrelige sonarbeelden met verbeterde kwaliteit en diversiteit. Ten derde maken hoog-niveau (grove) en laag-niveau (gedetailleerde) op tekst gebaseerde sonargeneratiemethoden gebruik van geavanceerde semantische informatie die beschikbaar is in visuele taalmodellen (VLM's) en GPT-aanwijzingen. Tijdens de inferentie genereert de methode diverse en realistische sonarbeelden van tekstuele aanwijzingen, waarbij de kloof tussen tekstuele beschrijvingen en sonarbeeldgeneratie wordt overbrugd. Dit markeert naar ons beste weten de eerste toepassing van GPT-aanwijzingen in sonarbeelden. Synth-SONAR behaalt state-of-the-art resultaten bij het produceren van hoogwaardige synthetische sonargegevenssets, waarbij hun diversiteit en realisme aanzienlijk worden verbeterd.