Dagelijks geselecteerde AI onderzoekspapers met vertalingen
End-to-end menselijke animatie, zoals door audio aangestuurde menselijke generatie van spraak, heeft opmerkelijke vooruitgang geboekt in de afgelopen jaren. Echter, bestaande methoden hebben nog steeds moeite om op te schalen als grote generieke videogeneratiemodellen, waardoor hun potentieel in echte toepassingen beperkt blijft. In dit artikel stellen we OmniHuman voor, een op Diffusion Transformer gebaseerd raamwerk dat gegevens opschalen door bewegingsgerelateerde voorwaarden te mengen in de trainingsfase. Hiertoe introduceren we twee trainingsprincipes voor deze gemengde voorwaarden, samen met de bijbehorende modelarchitectuur en inferentiestrategie. Deze ontwerpen stellen OmniHuman in staat om volledig gebruik te maken van op gegevens gebaseerde bewegingsgeneratie en uiteindelijk zeer realistische menselijke videogeneratie te bereiken. Belangrijker nog, OmniHuman ondersteunt verschillende portretinhoud (close-up van het gezicht, portret, half lichaam, volledig lichaam), ondersteunt zowel praten als zingen, behandelt mens-objectinteracties en uitdagende lichaamshoudingen, en past zich aan verschillende beeldstijlen aan. In vergelijking met bestaande end-to-end audio-aangestuurde methoden produceert OmniHuman niet alleen realistischere video's, maar biedt het ook meer flexibiliteit in invoer. Het ondersteunt ook meerdere aansturingsmodaliteiten (audio-aangestuurd, video-aangestuurd en gecombineerde aansturingssignalen). Videovoorbeelden zijn te vinden op de projectpagina van ttfamily (https://omnihuman-lab.github.io)
Directe uitlijnalgoritmen (DAAs) vereenvoudigen de uitlijning van taalmodellen door versterkend leren (RL) en beloningsmodellering (RM) in Versterkt Leren van Menselijke Feedback (RLHF) te vervangen door directe beleidsoptimalisatie. DAAs kunnen worden geclassificeerd op basis van hun rangschikkingsverliezen (pairwise versus pointwise), op basis van de beloningen die worden gebruikt in die verliezen (bijv. waarschijnlijkheidsverhoudingen van beleid en referentiebeleid, of kansenverhoudingen), of op basis van of een fase van Begeleid Fijnafstemmen (SFT) vereist is (twee-fasen versus één-fase). We tonen eerst aan dat één-fase methoden minder presteren dan twee-fase methoden. Om dit aan te pakken, nemen we een expliciete SFT-fase op en introduceren we de bètaparameter, die de sterkte van voorkeursoptimalisatie regelt, in enkelvoudige ORPO en ASFT. Deze aanpassingen verbeteren hun prestaties in Alpaca Eval 2 met +3.46 (ORPO) en +8.27 (ASFT), waarmee ze overeenkomen met twee-fase methoden zoals DPO. Verder onderzoek onthult dat de sleutelfactor is of de benadering gebruikmaakt van pairwise of pointwise doelstellingen, eerder dan de specifieke impliciete beloning of verliesfunctie. Deze resultaten benadrukken het belang van zorgvuldige evaluatie om voorbarige claims van prestatieverbeteringen of algehele superioriteit in uitlijnalgoritmen te vermijden.
Dichte procesbeloningen hebben zich bewezen als een effectiever alternatief voor de spaarzame beloningen op uitkomstniveau bij het schalen van grote taalmodellen (LLM's) tijdens de inferentietijd, met name bij taken die complexe meerstapsredenering vereisen. Terwijl dichte beloningen ook een aantrekkelijke keuze bieden voor reinforcement learning (RL) van LLM's, aangezien hun fijnmazige beloningen het potentieel hebben om enkele inherente problemen van uitkomstbeloningen aan te pakken, zoals trainingsrendement en creditering, blijft dit potentieel grotendeels onbenut. Dit kan voornamelijk worden toegeschreven aan de uitdagingen van het online trainen van procesbeloningsmodellen (PRM's), waarbij het verzamelen van hoogwaardige proceslabels buitensporig duur is, waardoor ze bijzonder vatbaar zijn voor beloningsmanipulatie. Om deze uitdagingen aan te pakken, stellen we PRIME (Process Reinforcement through IMplicit rEwards) voor, waarmee online PRM-updates mogelijk zijn met behulp van alleen beleidsuitvoeringen en uitkomstlabels via impliciete procesbeloningen. PRIME combineert goed met verschillende voordeelfuncties en laat de toegewijde training van beloningsmodellen achterwege die bestaande benaderingen vereisen, waardoor de ontwikkelingskosten aanzienlijk worden verlaagd. We tonen de effectiviteit van PRIME aan bij wiskundige en programmeerwedstrijden. Vertrekkend van Qwen2.5-Math-7B-Base behaalt PRIME een gemiddelde verbetering van 15,1% over verschillende belangrijke redeneerbenchmarks ten opzichte van het SFT-model. Opmerkelijk is dat ons resulterende model, Eurus-2-7B-PRIME, Qwen2.5-Math-7B-Instruct overtreft op zeven redeneerbenchmarks met slechts 10% van zijn trainingsgegevens.
Grote Taalmodellen (LLM's) als juryleden en op LLM's gebaseerde gegevenssynthese zijn naar voren gekomen als twee fundamentele door LLM aangestuurde methoden voor gegevensannotatie bij modelontwikkeling. Hoewel hun combinatie de efficiëntie van modeltraining en -evaluatie aanzienlijk verbetert, is er weinig aandacht besteed aan de mogelijke besmetting die wordt veroorzaakt door dit nieuwe modelontwikkelingsparadigma. In dit werk blootleggen we voorkeurslekken, een besmettingsprobleem in LLM-als-jury veroorzaakt door de verwantschap tussen de synthetische gegevensgeneratoren en op LLM's gebaseerde beoordelaars. Om dit probleem te bestuderen, definiëren we eerst drie veelvoorkomende verwantschappen tussen de gegevensgenerator LLM en de jury-LLM: hetzelfde model zijn, een erfelijkheidsrelatie hebben en behoren tot dezelfde modelfamilie. Door uitgebreide experimenten bevestigen we empirisch de vooringenomenheid van juryleden ten opzichte van hun gerelateerde modelstudenten veroorzaakt door voorkeurslekken over meerdere LLM-baselines en benchmarks. Verder onderzoek suggereert dat voorkeurslekken een alomtegenwoordig probleem is dat moeilijker te detecteren is in vergelijking met eerder geïdentificeerde vooringenomenheden in LLM-als-jury scenario's. Al deze bevindingen suggereren dat voorkeurslekken een wijdverbreid en uitdagend probleem zijn op het gebied van LLM-als-jury. We stellen alle codes en gegevens beschikbaar op: https://github.com/David-Li0406/Preference-Leakage.
Het afstemmen van visuele kenmerken met taalembeddingen is een belangrijke uitdaging in visie-taalmodellen (VLM's). De prestaties van dergelijke modellen zijn afhankelijk van een goede connector die visuele kenmerken, gegenereerd door een visie-encoder, afbeeldt naar een gedeelde embeddingruimte met de LLM terwijl semantische gelijkenis behouden blijft. Bestaande connectors, zoals meerlagige perceptrons (MLP's), produceren vaak inputs die buiten de distributie vallen of ruis bevatten, wat leidt tot misalignement tussen de modaliteiten. In dit werk stellen we een nieuw visie-tekst afstemmingsmethode voor, AlignVLM, die visuele kenmerken afbeeldt naar een gewogen gemiddelde van LLM-tekstembeddingen. Onze aanpak maakt gebruik van de linguïstische aannames gecodeerd door de LLM om ervoor te zorgen dat visuele kenmerken worden afgebeeld naar gebieden in de ruimte die de LLM effectief kan interpreteren. AlignVLM is bijzonder effectief voor taken met betrekking tot documentbegrip, waar gescande documentafbeeldingen nauwkeurig moeten worden afgebeeld naar hun tekstuele inhoud. Onze uitgebreide experimenten tonen aan dat AlignVLM state-of-the-art prestaties behaalt in vergelijking met eerdere afstemmingsmethoden. We bieden verdere analyse die verbeterde afstemming van visie-tekstkenmerken en robuustheid tegen ruis aantoont.
Het indexeren-opvragen-generatieparadigma van opvragingsversterkte generatie (RAG) is zeer succesvol gebleken in het oplossen van kennisintensieve taken door externe kennis te integreren in grote taalmodellen (LLM's). Echter, de integratie van externe en ongeverifieerde kennis verhoogt de kwetsbaarheid van LLM's omdat aanvallers aanvalstaken kunnen uitvoeren door kennis te manipuleren. In dit artikel introduceren we een benchmark genaamd SafeRAG, ontworpen om de RAG-beveiliging te evalueren. Allereerst classificeren we aanvalstaken als zilveren ruis, inter-context conflict, zachte advertentie en witte Denial-of-Service. Vervolgens construeren we een RAG-beveiligingsevaluatiedataset (d.w.z. SafeRAG-dataset) voornamelijk handmatig voor elke taak. We gebruiken vervolgens de SafeRAG-dataset om verschillende aanvalsscenario's te simuleren waarmee RAG kan worden geconfronteerd. Experimenten uitgevoerd op 14 representatieve RAG-componenten tonen aan dat RAG aanzienlijk kwetsbaar is voor alle aanvalstaken en zelfs de meest voor de hand liggende aanvalstaak kan gemakkelijk bestaande ophalers, filters of geavanceerde LLM's omzeilen, wat resulteert in de degradatie van de servicekwaliteit van RAG. De code is beschikbaar op: https://github.com/IAAR-Shanghai/SafeRAG.
Wij presenteren SliderSpace, een framework voor het automatisch ontleden van de visuele mogelijkheden van diffusiemodellen in controleerbare en menselijk begrijpelijke richtingen. In tegenstelling tot bestaande controlemethoden die vereisen dat een gebruiker attributen specificeert voor elke bewerkingsrichting afzonderlijk, ontdekt SliderSpace meerdere interpreteerbare en diverse richtingen tegelijkertijd vanuit een enkele tekstprompt. Elke richting wordt getraind als een laag-rang adapter, waardoor compositorische controle en de ontdekking van verrassende mogelijkheden in de latente ruimte van het model mogelijk zijn. Via uitgebreide experimenten met state-of-the-art diffusiemodellen tonen we de effectiviteit van SliderSpace aan in drie toepassingen: conceptontleding, artistieke stijlexploratie en diversiteitsverbetering. Onze kwantitatieve evaluatie toont aan dat de door SliderSpace ontdekte richtingen de visuele structuur van de kennis van het model effectief ontleden, inzichten biedend in de latente mogelijkheden gecodeerd binnen diffusiemodellen. Gebruikersstudies bevestigen verder dat onze methode meer diverse en nuttige variaties produceert in vergelijking met baselines. Onze code, data en getrainde gewichten zijn beschikbaar op https://sliderspace.baulab.info
We stellen SCONE (Schaalbaar, Gecontextualiseerd, Uitbesteed, N-gram Embedding) voor, een methode om input-embeddinglagen uit te breiden om de prestaties van taalmodellen te verbeteren naarmate de laaggrootte toeneemt. Om verhoogde decoderingskosten te vermijden behoudt SCONE de oorspronkelijke woordenschat terwijl het embeddings introduceert voor een set van veelvoorkomende n-grams. Deze embeddings bieden een gecontextualiseerde representatie voor elk invoertoken en worden geleerd met een apart model tijdens de training. Tijdens inferentie worden ze vooraf berekend en opgeslagen in off-accelerator geheugen met minimale invloed op de inferentiesnelheid. SCONE maakt twee nieuwe schalingsstrategieën mogelijk: het verhogen van het aantal gecachte n-gram embeddings en het schalen van het model dat wordt gebruikt om ze te leren, terwijl de FLOPS op inferentietijd constant blijven. We tonen aan dat het schalen van beide aspecten SCONE in staat stelt om een 1.9B parameter-baseline te overtreffen over diverse corpora, terwijl slechts de helft van de FLOPS op inferentietijd wordt gebruikt.
Grote Taalmodellen (LLM's) hebben opmerkelijk potentieel getoond in redeneren, maar kampen nog steeds met ernstige feitelijke hallucinaties als gevolg van actualiteit, nauwkeurigheid en dekking van parametrische kennis. Ondertussen blijft het integreren van redeneren met opvraag-versterkte generatie (RAG) uitdagend vanwege ineffectieve taakdecompositie en overbodige opvraging, wat ruis kan introduceren en de kwaliteit van de respons kan verminderen. In dit artikel stellen we DeepRAG voor, een raamwerk dat opvraging-versterkt redeneren modelleert als een Markov-beslissingsproces (MDP), waardoor strategische en adaptieve opvraging mogelijk is. Door vragen iteratief te decomponeren, bepaalt DeepRAG dynamisch of externe kennis moet worden opgevraagd of dat er vertrouwd moet worden op parametrisch redeneren in elke stap. Experimenten tonen aan dat DeepRAG de opvraagefficiëntie verbetert en de nauwkeurigheid van antwoorden met 21,99% verbetert, wat de effectiviteit ervan aantoont in het optimaliseren van opvraging-versterkt redeneren.
IQ-testen hebben gediend als een fundamentele methodologie voor het evalueren van menselijke cognitieve capaciteiten, waarbij de beoordeling opzettelijk is losgekoppeld van taalkundige achtergrond, taalvaardigheid of domeinspecifieke kennis om kerncompetenties in abstractie en redenering te isoleren. Toch ontbreken er momenteel in het onderzoek naar kunstmatige intelligentie systematische benchmarks om deze kritieke cognitieve dimensies in multimodale systemen te kwantificeren. Om deze kritieke lacune aan te pakken, stellen wij MM-IQ voor, een uitgebreid evaluatiekader bestaande uit 2.710 zorgvuldig samengestelde testitems die 8 verschillende redeneerparadigma's beslaan. Door systematische evaluatie van toonaangevende open-source en gepatenteerde multimodale modellen onthult onze benchmark opvallende beperkingen: zelfs geavanceerde architecturen behalen slechts marginaal superieure prestaties ten opzichte van willekeurige kans (27,49% vs. 25% basale nauwkeurigheid). Deze aanzienlijke prestatiekloof benadrukt de ontoereikendheid van huidige multimodale systemen om fundamentele menselijke redeneercapaciteiten te benaderen, waarbij de noodzaak voor baanbrekende ontwikkelingen wordt benadrukt om deze cognitieve kloof te overbruggen.
Een kenmerk van menselijke intelligentie is het vermogen om complexe artefacten te creëren via gestructureerde, meerstapsprocessen. Het genereren van procedurele tutorials met AI is een langdurig maar uitdagend doel, met drie belangrijke obstakels: (1) schaarste aan procedurele datasets voor meerdere taken, (2) handhaven van logische continuïteit en visuele consistentie tussen stappen, en (3) generalisatie over meerdere domeinen. Om deze uitdagingen aan te pakken, stellen we een multi-domeindataset voor die 21 taken bestrijkt met meer dan 24.000 procedurele sequenties. Voortbouwend op deze basis introduceren we MakeAnything, een raamwerk gebaseerd op de diffusietransformer (DIT), dat fijnafstemming benut om de in-context mogelijkheden van DIT te activeren voor het genereren van consistente procedurele sequenties. We introduceren asymmetrische lage-rang aanpassing (LoRA) voor beeldgeneratie, dat generalisatiecapaciteiten en taakspecifieke prestaties in balans brengt door encoderparameters te bevriezen terwijl decoderlagen adaptief worden afgestemd. Bovendien maakt ons ReCraft-model beeld-naar-procesgeneratie mogelijk via ruimtelijk-temporele consistentiebeperkingen, waardoor statische beelden kunnen worden opgesplitst in plausibele creatiesequenties. Uitgebreide experimenten tonen aan dat MakeAnything bestaande methoden overtreft en nieuwe prestatienormen stelt voor procedurele generatietaken.
We onderzoeken de logische redeneervaardigheden van grote taalmodellen (LLM's) en hun schaalbaarheid in complexe niet-monotone redenering. Hiertoe introduceren we ZebraLogic, een uitgebreid evaluatiekader om de redeneerprestaties van LLM's te beoordelen op logische roosterpuzzels afgeleid van constraint satisfaction problems (CSP's). ZebraLogic maakt het genereren van puzzels met controleerbare en kwantificeerbare complexiteit mogelijk, waardoor een systematische studie van de schaalbaarheidslimieten van modellen zoals Llama, o1-modellen en DeepSeek-R1 wordt vergemakkelijkt. Door een breed scala aan zoekruimtecomplexiteiten en diverse logische beperkingen te omvatten, biedt ZebraLogic een gestructureerde omgeving om redeneren onder toenemende moeilijkheidsgraad te evalueren. Onze resultaten tonen een aanzienlijke afname in nauwkeurigheid naarmate de probleemcomplexiteit toeneemt - een fenomeen dat we de vloek van complexiteit noemen. Deze beperking blijft zelfs bestaan bij grotere modellen en toegenomen inferentietijdcomputatie, wat wijst op inherente beperkingen in de huidige redeneervaardigheden van LLM's. Daarnaast verkennen we strategieën om logisch redeneren te verbeteren, waaronder Best-of-N-sampling, backtrackingmechanismen en zelfverificatieprompts. Onze bevindingen bieden kritische inzichten in de schaalbaarheid van LLM-redeneren, benadrukken fundamentele beperkingen en schetsen mogelijke richtingen voor verbetering.
Hoewel grote taalmodellen (LLM's) uitblinken in het verwerken van lange-contextreeksen, hebben ze aanzienlijke key-value (KV) caches nodig om contextuele informatie op te slaan, wat de computationele efficiëntie en geheugenverbruik zwaar kan belasten. Eerdere inspanningen om deze KV-caches te comprimeren richtten zich voornamelijk op het verminderen van geheugenvereisten, maar waren beperkt in het verbeteren van latentie. Om dit probleem aan te pakken, introduceren we FastKV, een KV-cachecompressiemethode die is ontworpen om de latentie voor lange-contextreeksen te verbeteren. Om de verwerkingssnelheden te verbeteren met behoud van nauwkeurigheid, maakt FastKV gebruik van een nieuw Token-Selective Propagation (TSP) benadering die de volledige contextinformatie behoudt in de initiële lagen van LLM's en selectief slechts een deel van deze informatie doorgeeft in diepere lagen, zelfs in de prefill-fase. Daarnaast maakt FastKV gebruik van een KV-cachecompressie die zich bewust is van gegroepeerde-query-aandacht (GQA) om de voordelen van GQA te benutten op zowel geheugen- als computationeel gebied. Onze experimentele resultaten tonen aan dat FastKV verbeteringen van respectievelijk 2,00 keer en 1,40 keer behaalt in time-to-first-token (TTFT) en throughput in vergelijking met HeadKV, de state-of-the-art KV-cachecompressiemethode. Bovendien behoudt FastKV met succes de nauwkeurigheid op lange-context benchmarks op niveaus die vergelijkbaar zijn met de baselines. Onze code is beschikbaar op https://github.com/dongwonjo/FastKV.
Te midden van de snelle vooruitgang van grote taalmodellen (LLM's) en hun evolutie tot grote multimodale modellen (LMM's) zijn er aanzienlijke stappen gezet in talen met veel bronnen, zoals Engels en Chinees. Hoewel Arabische LLM's opmerkelijke vooruitgang hebben geboekt, blijven Arabische LMM's grotendeels onontgonnen, vaak met een nauwe focus op enkele specifieke aspecten van de taal en visueel begrip. Om deze kloof te overbruggen, introduceren we AIN - het Arabische Inclusieve Multimodale Model - ontworpen om uit te blinken in diverse domeinen. AIN is een tweetalig Engels-Arabisch LMM dat is ontworpen om uit te blinken in zowel Engels als Arabisch, gebruikmakend van zorgvuldig geconstrueerde 3,6 miljoen hoogwaardige Arabisch-Engelse multimodale gegevensmonsters. AIN toont eersteklas prestaties in het Arabisch, terwijl het ook sterke visuele mogelijkheden in het Engels heeft. Op de recente CAMEL-Bench benchmark, bestaande uit 38 subdomeinen waaronder multi-beeldbegrip, complex visueel begrip, begrip van handgeschreven documenten, video begrip, medische beeldvorming, plantenziekten en op afstand sensing-gebaseerd landgebruikbegrip, toont onze AIN sterke prestaties met het 7B-model dat GPT-4o overtreft met een absoluut voordeel van 3,4% gemiddeld over acht domeinen en 38 subdomeinen. De superieure mogelijkheden van AIN positioneren het als een belangrijke stap naar het versterken van Arabisch-sprekenden met geavanceerde multimodale generatieve AI-tools voor diverse toepassingen.
De releases van OpenAI's o1 en o3 markeren een significante paradigma verschuiving in Grote Taalmodellen naar geavanceerde redeneermogelijkheden. Met name overtrof o3 mensen in het oplossen van nieuwe problemen en het verwerven van vaardigheden op het Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). Echter, deze benchmark is beperkt tot symbolische patronen, terwijl mensen vaak multimodale scenario's waarnemen en redeneren die zowel visuele als taalgegevens omvatten. Daarom is er een dringende behoefte om geavanceerde redeneermogelijkheden in multimodale taken te onderzoeken. Met dit doel volgen we de evolutie van de GPT-[n] en o-[n] serie modellen op uitdagende multimodale puzzels, die fijnmazige visuele waarneming vereisen in combinatie met abstract of algorithmisch redeneren. De superieure prestaties van o1 gaan gepaard met bijna 750 keer de rekenkundige kosten van GPT-4o, wat zorgen baart over de efficiëntie ervan. Onze resultaten tonen een duidelijke opwaartse trend in redeneermogelijkheden over modeliteraties, met opmerkelijke prestatiesprongen tussen GPT-serie modellen en vervolgens naar o1. Desalniettemin merken we op dat het o1 model nog steeds moeite heeft met eenvoudige multimodale puzzels die abstract redeneren vereisen. Bovendien blijft de prestatie in algorithmische puzzels zwak. We zijn van plan om voortdurend nieuwe modellen in de serie te volgen en onze resultaten dienovereenkomstig bij te werken in dit artikel. Alle bronnen die zijn gebruikt in deze evaluatie zijn openlijk beschikbaar op https://github.com/declare-lab/LLM-PuzzleTest.
Zelfs zeer capabele grote taalmodellen (LLM's) kunnen vooringenomen of onveilige reacties produceren, en afstemmingstechnieken, zoals RLHF, gericht op het verminderen van dit probleem, zijn duur en gevoelig voor overpassing omdat ze het LLM opnieuw trainen. Dit artikel introduceert een nieuw inferentie-tijd afstemmingsbenadering die ervoor zorgt dat LLM's vrijwel zeker veilige reacties genereren, d.w.z., met een waarschijnlijkheid die naar één nadert. We bereiken dit door het veilig genereren van inferentie-tijd reacties te formuleren als een beperkt Markov-beslissingsproces binnen de latente ruimte van het LLM. Cruciaal is dat we een veiligheidsstaat toevoegen die de evolutie van veiligheidsbeperkingen bijhoudt en ons in staat stelt formele veiligheidsgaranties te demonstreren bij het oplossen van het MDP in de latente ruimte. Voortbouwend op deze basis stellen we InferenceGuard voor, een praktische implementatie die LLM's veilig afstemt zonder de modelgewichten aan te passen. Empirisch tonen we aan dat InferenceGuard veiligheid en taakprestaties effectief in balans brengt, bestaande inferentie-tijd afstemmingsmethoden overtreft in het genereren van veilige en afgestemde reacties.
Bestaande benchmarks voor geavanceerde modellen testen vaak gespecialiseerde, op doctoraatniveau kennis die moeilijk te begrijpen is voor niet-experts. In tegenstelling hiermee presenteren wij een benchmark gebaseerd op de NPR Sunday Puzzle Challenge die slechts algemene kennis vereist. Onze benchmark is uitdagend voor zowel mensen als modellen, echter correcte oplossingen zijn gemakkelijk te verifiëren en fouten van modellen zijn gemakkelijk te herkennen. Ons werk onthult capaciteitsverschillen die niet duidelijk zijn in bestaande benchmarks: OpenAI o1 presteert aanzienlijk beter dan andere redeneringsmodellen die gelijkwaardig zijn aan benchmarks die gespecialiseerde kennis testen. Bovendien onthult onze analyse van redeneringsresultaten nieuwe soorten mislukkingen. DeepSeek R1 geeft bijvoorbeeld vaak toe met "Ik geef op" voordat het een antwoord geeft dat het weet dat fout is. R1 kan ook opmerkelijk "onzeker" zijn in zijn output en in zeldzame gevallen "niet klaar zijn met nadenken", wat suggereert dat er een inferentietechniek nodig is om "af te ronden" voordat de contextvensterlimiet is bereikt. We kwantificeren ook de effectiviteit van langer redeneren met R1 en Gemini Thinking om het punt te identificeren waarop meer redeneren waarschijnlijk de nauwkeurigheid op onze benchmark niet zal verbeteren.
We presenteren een benadering voor modelgebaseerd RL die een nieuwe state-of-the-art prestatie behaalt op de uitdagende Craftax-classic benchmark, een open-wereld 2D survival game waarbij agenten een breed scala aan algemene vaardigheden moeten vertonen - zoals sterke generalisatie, diepgaande exploratie en langetermijnredenering. Met een reeks zorgvuldige ontwerpkeuzes gericht op het verbeteren van de steekproefeffectiviteit, behaalt ons MBRL-algoritme een beloning van 67,4% na slechts 1 miljoen omgevingsstappen, aanzienlijk beter dan DreamerV3, dat 53,2% behaalt, en, voor de eerste keer, de menselijke prestatie van 65,0% overtreft. Onze methode begint met het construeren van een state-of-the-art modelvrije basislijn, met behulp van een nieuw beleidsarchitectuur die CNN's en RNN's combineert. Vervolgens voegen we drie verbeteringen toe aan de standaard MBRL-opstelling: (a) "Dyna met opstart", dat het beleid traint op echte en denkbeeldige gegevens, (b) "nearest neighbor tokenizer" op beeldpatches, dat het schema verbetert om de transformer wereldmodel (TWM) invoeren te creëren, en (c) "block teacher forcing", dat de TWM in staat stelt om gezamenlijk te redeneren over de toekomstige tokens van de volgende tijdstap.
Low-Rank Adaptation (LoRA) en zijn varianten hebben indrukwekkende resultaten laten zien bij het verminderen van het aantal trainbare parameters en geheugenvereisten van grote transformer-netwerken, terwijl de prestaties bij fine-tuning behouden blijven. De lage-rang aard van de gewichtsaanpassing beperkt echter inherent de representatiekracht van gefinetunede modellen, wat mogelijk de prestaties op complexe taken in gevaar brengt. Dit roept een kritische vraag op: wanneer er een prestatiekloof tussen LoRA en standaard fine-tuning wordt waargenomen, is dit te wijten aan het verminderde aantal trainbare parameters of aan de rangdeficiëntie? Dit artikel beoogt deze vraag te beantwoorden door RandLoRA te introduceren, een parameter-efficiënte methode die volledige-rang updates uitvoert door middel van aangeleerde lineaire combinaties van lage-rang, niet-trainbare willekeurige matrices. Onze methode beperkt het aantal trainbare parameters door de optimalisatie te beperken tot diagonale schalingsmatrices die worden toegepast op de vaste willekeurige matrices. Dit stelt ons in staat om effectief de beperkingen van de lage-rang te overwinnen, terwijl we de parameter- en geheugenefficiëntie tijdens training behouden. Door uitgebreid experimenteel onderzoek over visie, taal en visie-taal benchmarks, evalueren we systematisch de beperkingen van LoRA en bestaande willekeurige basis methoden. Onze bevindingen tonen aan dat volledige-rang updates voordelig zijn voor zowel visie- als taaltaken afzonderlijk, en nog meer voor visie-taaltaken, waar RandLoRA de prestatiekloof tussen standaard fine-tuning en LoRA aanzienlijk verkleint - en soms elimineert - en daarmee de doeltreffendheid aantoont.
Consistentiemodellen zijn een nieuwe familie van generatieve modellen die in staat zijn om hoogwaardige samples te produceren in één stap of meerdere stappen. Onlangs hebben consistentiemodellen indrukwekkende prestaties laten zien, met resultaten die vergelijkbaar zijn met diffusiemodellen in de pixelruimte. Het succes van het opschalen van consistentietraining naar grootschalige datasets, met name voor tekst-naar-afbeelding en videogeneratietaken, wordt echter bepaald door de prestaties in de latente ruimte. In dit werk analyseren we de statistische verschillen tussen pixel- en latente ruimtes en ontdekken dat latente gegevens vaak zeer impulsieve uitschieters bevatten, die de prestaties van iCT in de latente ruimte aanzienlijk verminderen. Om dit aan te pakken, vervangen we Pseudo-Huber verliezen door Cauchy verliezen, waardoor de impact van uitschieters effectief wordt verminderd. Daarnaast introduceren we een diffusieverlies in de vroege tijdstappen en maken we gebruik van optimaal transport (OT) koppeling om de prestaties verder te verbeteren. Ten slotte introduceren we de adaptieve schaal-c planner om het robuuste trainingsproces te beheren en passen we Non-scaling LayerNorm toe in de architectuur om de statistieken van de kenmerken beter vast te leggen en de impact van uitschieters te verminderen. Met deze strategieën trainen we succesvol latente consistentiemodellen die in staat zijn tot het produceren van hoogwaardige samples in één of twee stappen, waardoor het prestatieverschil tussen latente consistentie en diffusiemodellen aanzienlijk wordt verkleind. De implementatie is hier beschikbaar: https://github.com/quandao10/sLCT/
Eerdere onderzoeken naar parameter-aanpassende kennisbewerking hebben aangetoond dat grootschalige opeenvolgende bewerkingen leiden tot aanzienlijke degradatie van het model. In dit artikel bestuderen we de redenen hiervoor en schalen we opeenvolgende kennisbewerking op tot 10.000 opeenvolgende bewerkingen, terwijl we de prestaties van het oorspronkelijke model behouden. We tonen eerst aan dat kennisbewerkingsmethoden waarbij eerst wordt gelokaliseerd en vervolgens bewerkt leiden tot overpassing op de bewerkte feiten. We tonen ook aan dat continue kennisbewerking met behulp van deze methoden leidt tot een onevenredige groei in de norm van de bewerkte matrix. Vervolgens geven we een cruciaal inzicht in de werking van de eerst lokaliseren en dan bewerken methoden. We tonen aan dat normgroei een verborgen truc is die door deze methoden wordt toegepast en die meer belang hecht aan de uitvoeractivaties die worden geproduceerd vanuit de bewerkte lagen. Met deze "belangrijkheidshack" leveren de bewerkte lagen een veel grotere bijdrage aan de uitvoer van het model. Om deze problemen te verminderen, presenteren we ENCORE - Vroegtijdig stoppen en Norm-Beperkte Robuuste kennisbewerking. ENCORE controleert op overpassing en de onevenredige normgroei om langdurige opeenvolgende bewerkingen mogelijk te maken, waarbij we tot 10.000 opeenvolgende bewerkingen kunnen uitvoeren zonder verlies van prestaties. ENCORE is ook 61% sneller dan MEMIT en 64% sneller dan AlphaEdit op Llama3-8B.
Het genereren van lange vormen is cruciaal voor academische schrijfpapers en het genereren van code op repo-niveau. Ondanks dit vertonen huidige modellen, waaronder GPT-4o, nog steeds onbevredigende prestaties. Bestaande methoden die voorkeursleren gebruiken met uitkomstsupervisie falen vaak om gedetailleerd feedback te geven voor uitgebreide contexten. Dit tekort kan leiden tot inhoud die niet volledig voldoet aan de queryvereisten, resulterend in problemen zoals lengte-afwijkingen en verminderde kwaliteit. In dit artikel stellen we voor om het genereren van lange vormen te verbeteren door procesbegeleiding op te nemen. We maken gebruik van Monte Carlo Tree Search om stapsgewijze voorkeursparen te verzamelen, waarbij we een globaal geheugenpool gebruiken om consistentie te handhaven. Om het probleem van suboptimale kandidaatselectie aan te pakken, integreren we externe kritieken om de kwaliteit van de voorkeursparen te verfijnen en verbeteren. Ten slotte passen we stapniveau DPO toe met behulp van de verzamelde stapsgewijze voorkeursparen. Experimentele resultaten tonen aan dat onze methode de lengte en kwaliteit verbetert op benchmarks voor lange vormgeneratie, met bijna verliesloze prestaties op algemene benchmarks over verschillende modelruggengraatstructuren.
Unit tests (UTs) spelen een essentiële rol bij het beoordelen van codecorrectheid en het geven van feedback aan een groot taalmodel (LLM) terwijl het iteratief foutieve code opspoort, wat geautomatiseerde testgeneratie motiveert. We hebben echter een compromis ontdekt tussen het genereren van unit test inputs die fouten onthullen bij foutieve code en het correct voorspellen van de unit test output zonder toegang tot de gouden oplossing. Om dit compromis aan te pakken, stellen we UTGen voor, dat LLMs leert om unit test inputs te genereren die fouten onthullen samen met hun juiste verwachte outputs op basis van taakbeschrijvingen en kandidaatcode. We integreren UTGen in UTDebug, een robuuste debug-pijplijn die gegenereerde tests gebruikt om LLMs effectief te helpen debuggen. Aangezien door het model gegenereerde tests ruisachtige signalen kunnen geven (bijv. van onjuist voorspelde outputs), schaalt UTDebug (i) UTGen via testtijdrekenkracht om UT-outputvoorspelling te verbeteren, en (ii) valideert en herziet bewerkingen op basis van meerdere gegenereerde UTs om overpassing te voorkomen. We tonen aan dat UTGen UT-generatiebaselines overtreft met 7.59% op basis van een metriek die de aanwezigheid van zowel fout-onthullende UT-inputs als juiste UT-outputs meet. Wanneer gebruikt met UTDebug, vinden we dat feedback van UTGen's unit tests de pass@1-nauwkeurigheid van Qwen-2.5 7B op HumanEvalFix en onze eigen moeilijkere debugsplit van MBPP+ verbetert met respectievelijk meer dan 3% en 12.35% ten opzichte van andere op LLM's gebaseerde UT-generatiebaselines.
Taalmodellen (LM's) moeten betrouwbare vertrouwensschattingen bieden om gebruikers te helpen fouten in hun uitvoer te detecteren en indien nodig door te verwijzen naar menselijke experts. Het vragen aan een taalmodel om zijn vertrouwen te beoordelen ("Beoordeel uw vertrouwen van 0-1.") is een natuurlijke manier om zijn onzekerheid te evalueren. Modellen hebben echter moeite om absolute beoordelingen van vertrouwen te geven (d.w.z. het beoordelen van vertrouwen bij het beantwoorden van een vraag onafhankelijk van andere vragen) en de grofkorrelige scores die ze produceren zijn niet nuttig voor het evalueren van de juistheid van hun antwoorden. Wij stellen relatieve vertrouwensschatting voor, waarbij we vragen tegen elkaar afzetten en het model vragen om relatieve beoordelingen van vertrouwen te maken ("In welke vraag heeft u meer vertrouwen om correct te antwoorden?"). Door elke vraag te behandelen als een "speler" in een reeks wedstrijden tegen andere vragen en de voorkeuren van het model als wedstrijduitslagen, kunnen we rangschikkingsaggregatiemethoden zoals Elo-rating en Bradley-Terry gebruiken om de vertrouwensvoorkeuren van het model om te zetten in vertrouwensscores. We evalueren relatieve vertrouwensschatting tegen absolute vertrouwensschatting en zelfconsistentie vertrouwensmethoden op vijf toonaangevende LM's - GPT-4, GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet en Llama 3.1 405B - over 14 uitdagende STEM, sociale wetenschappen en gezond verstand redeneertaken. Onze resultaten tonen aan dat relatieve vertrouwensschatting consequent betrouwbaardere vertrouwensscores biedt dan absolute vertrouwensschatting, met gemiddelde winsten van 3,5% in selectieve classificatie AUC ten opzichte van directe absolute vertrouwensschattingmethoden en 1,7% ten opzichte van zelfconsistentiebenaderingen over alle modellen en datasets.
Het retroperitoneum herbergt een verscheidenheid aan tumoren, waaronder zeldzame goedaardige en kwaadaardige types, die diagnostische en behandelingsuitdagingen met zich meebrengen vanwege hun zeldzaamheid en nabijheid tot vitale structuren. Het schatten van de tumorgrootte is moeilijk vanwege hun onregelmatige vormen, en handmatige segmentatie is tijdrovend. Automatische segmentatie met behulp van U-Net en zijn varianten, waarin Vision Transformer (ViT) elementen zijn opgenomen, heeft veelbelovende resultaten laten zien, maar worstelt met hoge rekenkundige eisen. Om dit aan te pakken, bieden architecturen zoals het Mamba State Space Model (SSM) en Extended Long-Short Term Memory (xLSTM) efficiënte oplossingen door het omgaan met langeafhankelijkheden met lagere resourceconsumptie. Deze studie evalueert U-Net verbeteringen, waaronder CNN, ViT, Mamba en xLSTM, op een nieuwe CT-dataset in eigen beheer en een openbaar orgaansegmentatiedataset. Het voorgestelde ViLU-Net model integreert Vi-blokken voor verbeterde segmentatie. De resultaten benadrukken de efficiëntie van xLSTM in het U-Net framework. De code is openbaar toegankelijk op GitHub.
Pathologie Foundation Modellen (FMs) beloven veel voor de gezondheidszorg. Voordat ze in de klinische praktijk kunnen worden gebruikt, is het essentieel om ervoor te zorgen dat ze bestand zijn tegen variaties tussen medische centra. We meten of pathologie FMs zich richten op biologische kenmerken zoals weefsel- en kankertype, of op de bekende verstorende handtekeningen van medische centra die worden geïntroduceerd door kleuringsprocedures en andere verschillen. We introduceren de Robuustheidsindex. Deze nieuwe robuustheidsmetriek weerspiegelt in welke mate biologische kenmerken de verstorende kenmerken domineren. Tien huidige openbaar beschikbare pathologie FMs worden geëvalueerd. We constateren dat alle momenteel geëvalueerde pathologie foundation modellen het medisch centrum sterk vertegenwoordigen. Er worden significante verschillen in de robuustheidsindex waargenomen. Tot nu toe heeft slechts één model een robuustheidsindex groter dan één, wat betekent dat biologische kenmerken de verstorende kenmerken domineren, maar slechts in geringe mate. Er wordt een kwantitatieve benadering beschreven om de invloed van verschillen tussen medische centra op de voorspellingsprestaties van FM's te meten. We analyseren de impact van onrobustheid op de classificatieprestaties van downstream modellen en constateren dat classificatiefouten in kankertype niet willekeurig zijn, maar specifiek toegeschreven kunnen worden aan verstorende factoren binnen hetzelfde centrum: afbeeldingen van andere klassen van hetzelfde medisch centrum. We visualiseren FM insluitruimten en constateren dat deze sterker georganiseerd zijn op basis van medische centra dan op basis van biologische factoren. Als gevolg hiervan wordt het oorspronkelijke medisch centrum nauwkeuriger voorspeld dan de weefselbron en het kankertype. De hier geïntroduceerde robuustheidsindex heeft als doel om de vooruitgang te bevorderen naar de klinische adoptie van robuuste en betrouwbare pathologie FMs.