Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Contrastieve verlies is een krachtige benadering voor representatie-leren, waarbij grotere batchgroottes de prestaties verbeteren door meer negatieve voorbeelden te bieden om beter onderscheid te maken tussen vergelijkbare en niet-vergelijkbare gegevens. Het schalen van batchgroottes wordt echter beperkt door de kwadratische groei in GPU-geheugenverbruik, voornamelijk als gevolg van de volledige instantiëring van de gelijkheidsmatrix. Om dit aan te pakken, stellen we een strategie voor voor berekening van contrastieve verlies op basis van tegels voor, waarbij de berekening wordt opgedeeld in willekeurig kleine blokken om volledige materialisatie van de gelijkheidsmatrix te vermijden. Bovendien introduceren we een meerlaagse tegelstrategie om gebruik te maken van de hiërarchische structuur van gedistribueerde systemen, waarbij ringgebaseerde communicatie op GPU-niveau wordt toegepast om synchronisatie te optimaliseren en gefuseerde kernels op CUDA-kernniveau om I/O-overhead te verminderen. Experimentele resultaten tonen aan dat de voorgestelde methode batchgroottes schaalt naar ongekende niveaus. Zo maakt het contrastieve training van een CLIP-ViT-L/14-model met een batchgrootte van 4M of 12M mogelijk met 8 of 32 A800 80GB zonder enig verlies aan nauwkeurigheid. Vergeleken met toonaangevende geheugenefficiënte oplossingen, bereikt het een vermindering van twee ordes van grootte in geheugen terwijl het een vergelijkbare snelheid behoudt. De code zal openbaar beschikbaar worden gesteld.
Grote Taalmodellen (LLM's) lijden aan hallucinaties, wat verwijst naar de niet-feitelijke informatie in gegenereerde inhoud, ondanks hun superieure capaciteiten over taken heen. Ondertussen is kennisbewerking ontwikkeld als een nieuw populair paradigma om de foutieve feitelijke kennis gecodeerd in LLM's te corrigeren met het voordeel van vermijden van opnieuw trainen vanaf nul. Echter, een veelvoorkomend probleem van bestaande evaluatiedatasets voor kennisbewerking is dat ze niet garanderen dat LLM's daadwerkelijk gehallucineerde antwoorden genereren op de evaluatievragen vóór bewerking. Wanneer LLM's worden geëvalueerd op dergelijke datasets nadat ze zijn bewerkt door verschillende technieken, is het moeilijk om de prestaties direct over te nemen om de effectiviteit van verschillende kennisbewerkingsmethoden in het corrigeren van hallucinaties te beoordelen. Daarom blijft de fundamentele vraag onvoldoende gevalideerd: Kan kennisbewerking echt hallucinaties in LLM's corrigeren? We hebben HalluEditBench voorgesteld om op holistische wijze kennisbewerkingsmethoden te benchmarken in het corrigeren van hallucinaties in de echte wereld. Allereerst construeren we rigoureus een omvangrijke hallucinatiedataset met 9 domeinen, 26 onderwerpen en meer dan 6.000 hallucinaties. Vervolgens beoordelen we de prestaties van kennisbewerkingsmethoden op een holistische manier op vijf dimensies, waaronder Doeltreffendheid, Generalisatie, Draagbaarheid, Lokaliteit en Robuustheid. Via HalluEditBench hebben we nieuwe inzichten geboden in de mogelijkheden en beperkingen van verschillende kennisbewerkingsmethoden in het corrigeren van hallucinaties, wat toekomstige verbeteringen zou kunnen inspireren en de vooruitgang op het gebied van kennisbewerking zou kunnen vergemakkelijken.
Lang-contextmodellen (LCM's) hebben een groot potentieel getoond in het verwerken van lange invoerreeksen (zelfs meer dan 100M tokens) op een handige en effectieve manier. Met aanzienlijke vooruitgang heeft recent onderzoek aangetoond dat LCM's nauwkeurig token-niveau opvallende informatie binnen de context kunnen lokaliseren. Toch is de generatieprestatie van deze LCM's verre van bevredigend en kan resulteren in misplaatste reacties, zoals hallucinaties. Om de generatiecapaciteit van LCM's te verbeteren, hebben bestaande werken de effecten van gegevensgrootte en -kwaliteit onderzocht voor zowel voorafgaande training als instructieafstemming. Hoewel er betekenisvolle verbeteringen zijn bereikt, schieten eerdere methoden tekort in effectiviteit of efficiëntie. In dit artikel introduceren we LOGO (Long-context alignmenT via efficient preference Optimization), een trainingsstrategie die eerst voorkeursoptimalisatie introduceert voor lang-contextuitlijning. Om het GPU-geheugenbeperkte probleem veroorzaakt door de lange reeks te overwinnen, maakt LOGO gebruik van een referentievrije voorkeursoptimalisatiestrategie en past het een positiesynthesemethode toe om de trainingsgegevens te construeren. Door te trainen met slechts 0,3B gegevens op een enkele 8xA800 GPU-machine gedurende 16 uur, stelt LOGO het Llama-3-8B-Instruct-80K-model in staat om vergelijkbare prestaties te behalen met GPT-4 in real-world lange-contexttaken, terwijl het de oorspronkelijke mogelijkheden van het model behoudt op andere taken, zoals taalmodellering en MMLU. Bovendien kan LOGO de contextvenstergrootte van het model uitbreiden terwijl het de generatieprestaties verbetert.
De beschikbaarheid van hoogwaardige gegevens is een van de belangrijkste factoren bij het verbeteren van de redeneermogelijkheden van LLM's. Bestaande werken hebben de effectiviteit aangetoond van het creëren van meer instructiegegevens uit startvragen of kennisbanken. Recente onderzoeken geven aan dat het voortdurend opschalen van gegevenssynthese van sterke modellen (bijv. GPT-4) verdere redeneerprestaties kan oproepen. Hoewel veelbelovend, ontbreekt het de open-source gemeenschap nog steeds aan hoogwaardige gegevens op schaal en schaalbare gegevenssynthesemethoden met betaalbare kosten. Om dit aan te pakken, introduceren we ScaleQuest, een schaalbare en innovatieve gegevenssynthesemethode die gebruikmaakt van "kleinschalige" (bijv. 7B) open-source modellen om vragen vanaf nul te genereren zonder de noodzaak van startgegevens met complexe augmentatiebeperkingen. Met de efficiënte ScaleQuest hebben we automatisch een dataset voor wiskundig redeneren samengesteld, bestaande uit 1 miljoen probleem-oplossing-paren, die effectiever zijn dan bestaande open-source datasets. Het kan universeel de prestaties van gangbare open-source modellen (d.w.z. Mistral, Llama3, DeepSeekMath en Qwen2-Math) verbeteren door 29,2% tot 46,4% winst op MATH te behalen. Opmerkelijk is dat door eenvoudigweg de Qwen2-Math-7B-Base model met onze dataset af te stemmen, zelfs Qwen2-Math-7B-Instruct, een sterk en goed uitgelijnd model op gesloten-source gegevens, en eigen modellen zoals GPT-4-Turbo en Claude-3.5 Sonnet kan overtreffen.
Wij stellen Framer voor voor interactieve frame-interpolatie, die tot doel heeft vloeiend overgangsframes te produceren tussen twee afbeeldingen volgens de creativiteit van de gebruiker. Concreet ondersteunt onze benadering, naast het gebruik van de start- en eindframes als invoer, het aanpassen van het overgangsproces door de baan van enkele geselecteerde sleutelpunten op maat te maken. Zo'n ontwerp heeft twee duidelijke voordelen. Ten eerste vermindert het opnemen van menselijke interactie het probleem dat ontstaat door talloze mogelijkheden om de ene afbeelding in de andere te transformeren, en maakt het op zijn beurt fijnere controle over lokale bewegingen mogelijk. Ten tweede helpen sleutelpunten als meest elementaire vorm van interactie bij het vaststellen van de overeenkomst tussen frames, waardoor het model wordt versterkt om uitdagende gevallen aan te pakken (bijv. objecten op de start- en eindframes hebben verschillende vormen en stijlen). Het is vermeldenswaard dat ons systeem ook een "autopilot"-modus biedt, waarbij we een module introduceren om de sleutelpunten te schatten en de baan automatisch te verfijnen, om het gebruik in de praktijk te vereenvoudigen. Uitgebreide experimentele resultaten tonen de aantrekkelijke prestaties van Framer op verschillende toepassingen, zoals beeldvervorming, het genereren van time-lapse video's, cartooninterpolatie, enz. De code, het model en de interface zullen worden vrijgegeven om verder onderzoek te vergemakkelijken.
We introduceren het concept van een generatief oneindig spel, een videospel dat de traditionele grenzen van eindige, hard-gecodeerde systemen overstijgt door gebruik te maken van generatieve modellen. Geïnspireerd door James P. Carse's onderscheid tussen eindige en oneindige spellen, maken we gebruik van recente ontwikkelingen in generatieve AI om Unbounded te creëren: een spel van karakterlevensimulatie dat volledig is ingekapseld in generatieve modellen. Specifiek haalt Unbounded inspiratie uit sandbox-levensimulaties en stelt je in staat om te interacteren met je autonome virtuele karakter in een virtuele wereld door het te voeden, mee te spelen en te begeleiden - met open-eind mechanica gegenereerd door een LLM, waarvan sommige emergent kunnen zijn. Om Unbounded te ontwikkelen, stellen we technische innovaties voor in zowel het LLM- als het visuele generatiedomein. Specifiek presenteren we: (1) een gespecialiseerd, gedistilleerd groot taalmodel (LLM) dat dynamisch spelmechanica, verhalen en karakterinteracties in realtime genereert, en (2) een nieuwe dynamische regionale beeldprompt Adapter (IP-Adapter) voor visiemodellen die zorgt voor consistente maar flexibele visuele generatie van een karakter over meerdere omgevingen. We evalueren ons systeem door middel van zowel kwalitatieve als kwantitatieve analyse, waarbij we significante verbeteringen laten zien in karakterlevensimulatie, gebruikersinstructieopvolging, narratieve coherentie en visuele consistentie voor zowel karakters als de omgevingen in vergelijking met traditionele gerelateerde benaderingen.
Het oplossen van complexe vraag-en-antwoordtaken met diagrammen vereist geavanceerde visuele redeneervaardigheden in multimodale grote taalmodellen (MLLM's). Recente studies benadrukken dat deze vaardigheden bestaan uit twee hoofdonderdelen: het herkennen van essentiële informatie uit visuele invoer en het uitvoeren van redeneringen daarover. Daarom is een veelbelovende benadering om MLLM's te verbeteren het construeren van relevante trainingsgegevens die zich richten op deze twee aspecten. Het verzamelen en annoteren van complexe diagrammen en vragen is echter kostbaar en tijdrovend, en het waarborgen van de kwaliteit van geannoteerde antwoorden blijft een uitdaging. In dit artikel stellen we Code-als-Tussenliggende Vertaling (CIT) voor, een kosteneffectieve, efficiënte en gemakkelijk schaalbare gegevenssynthesemethode om visuele redeneervaardigheden van LLM's naar MLLM's te destilleren. De code fungeert als een tussenpersoon die visuele diagramrepresentaties vertaalt naar tekstuele representaties, waardoor LLM's crossmodale informatie kunnen begrijpen. Specifiek maken we gebruik van op tekst gebaseerde synthesetechnieken om code voor diagramplotten te construeren en produceren we ReachQA, een dataset met 3k redeneringsintensieve diagrammen en 20k vraag-en-antwoordparen om zowel de herkennings- als redeneervaardigheden te verbeteren. Experimenten tonen aan dat modellen, wanneer fijn afgestemd met onze gegevens, niet alleen goed presteren op diagramgerelateerde benchmarks, maar ook verbeterde multimodale redeneervaardigheden laten zien op algemene wiskundige benchmarks zoals MathVista. De code en dataset zijn openbaar beschikbaar op https://github.com/hewei2001/ReachQA.
In dit rapport introduceren we een reeks methoden om beloningsmodellering voor LLMs te verbeteren, met een specifieke focus op data-centrische technieken. We stellen effectieve strategieën voor data-selectie en -filtering voor om hoogwaardige open-source voorkeursdatasets te cureren, resulterend in de Skywork-Reward dataset, die slechts 80K voorkeursparen bevat - aanzienlijk kleiner dan bestaande datasets. Met behulp van deze samengestelde dataset hebben we de Skywork-Reward modelserie ontwikkeld - Skywork-Reward-Gemma-27B en Skywork-Reward-Llama-3.1-8B - waarbij de eerste momenteel de toppositie inneemt op de RewardBench-leiderbord. Opmerkelijk is dat onze technieken en datasets rechtstreeks de prestaties van veel topgerangschikte modellen op RewardBench hebben verbeterd, waarbij de praktische impact van onze bijdragen in real-world voorkeursleer-toepassingen wordt benadrukt.
Grote taalmodellen (LLM's) kunnen een aanzienlijke hoeveelheid feitelijke kennis opslaan in hun parameters. Echter, hun parametrische kennis kan in conflict komen met de informatie die wordt verstrekt in de context -- dit fenomeen, bekend als context-geheugen kennisconflicten, kan leiden tot ongewenst modelgedrag, zoals het vertrouwen op verouderde of onjuiste informatie. Door de interne activaties van LLM's te analyseren, vinden we dat ze intern de signalen van kennisconflicten kunnen registreren in de middelste lagen. Dergelijke signalen stellen ons in staat om te detecteren of een kennisconflict optreedt en om inferentie-tijd interventiestrategieën te gebruiken om het op te lossen. In dit werk stellen we SpARE voor, een trainingvrije representatie-engineeringmethode die pre-getrainde schaarse auto-encoders (SAE's) gebruikt om het kennisselectiegedrag van LLM's te controleren. SpARE identificeert de functionele kenmerken die het kennisselectiegedrag controleren en past deze toe om de interne activaties van LLM's te bewerken tijdens inferentie. Onze experimentele resultaten tonen aan dat SpARE effectief het gebruik van een van beide kennisbronnen kan controleren om kennisconflicten op te lossen in open-vraag-antwoordtaken, waarbij bestaande representatie-engineeringmethoden (+10%) en contrastieve decoderingsmethoden (+15%) worden overtroffen.
Vorderingen in gedistribueerde training en efficiënte aandachtsmechanismen hebben aanzienlijk de contextvenstergroottes van grote taalmodellen (LLM's) vergroot. Recent werk onthult echter dat de effectieve contextlengtes van open-source LLM's vaak tekortschieten, meestal niet meer dan de helft van hun trainingslengtes. In dit werk schrijven we deze beperking toe aan de links-scheve frequentieverdeling van relatieve posities gevormd in LLM's pretraining- en post-trainingfasen, wat hun vermogen belemmert om effectief verre informatie te verzamelen. Om deze uitdaging aan te gaan, introduceren we ShifTed Rotray position embeddING (STRING). STRING verplaatst goed getrainde posities om de oorspronkelijke ineffectieve posities te overschrijven tijdens inferentie, waardoor de prestaties binnen hun bestaande trainingslengtes worden verbeterd. Experimentele resultaten tonen aan dat STRING de prestaties van de nieuwste grootschalige modellen, zoals Llama3.1 70B en Qwen2 72B, aanzienlijk verbetert met meer dan 10 punten op populaire lange-context benchmarks RULER en InfiniteBench, waardoor nieuwe state-of-the-art resultaten worden behaald voor open-source LLM's. Vergeleken met commerciële modellen behaalt Llama 3.1 70B met \method zelfs betere prestaties dan GPT-4-128K en overtreft duidelijk Claude 2 en Kimi-chat.
Efficiënte taalmodellering op basis van lange context blijft een aanzienlijke uitdaging in de verwerking van natuurlijke taal (NLP). Hoewel Transformers domineren bij taaltaken, hebben ze moeite met lange sequenties vanwege de kwadratische rekencomplexiteit tijdens training en lineair schalende geheugenkosten tijdens inferentie. Recente State Space Modellen (SSM's) zoals Mamba bieden alternatieven met constant geheugengebruik, maar presteren minder goed bij taken die uitgebreide in-context ophaling vereisen. We introduceren Taipan, een nieuw hybride architectuur die Mamba-2 combineert met Selectieve Aandachtslagen (SAL's). Deze SAL's identificeren tokens die langeafstandsinteracties vereisen, verwijderen minder belangrijke kenmerken en versterken vervolgens hun representaties met behulp van de aandachtsmodule. Deze benadering balanceert de efficiëntie van Mamba met Transformer-achtige prestaties bij geheugenintensieve taken. Door het aandachtsbudget te beperken, breidt Taipan nauwkeurige voorspellingen uit naar contextlengtes tot 1 miljoen tokens, terwijl de rekenkundige efficiëntie behouden blijft. Onze experimenten tonen de superieure prestaties van Taipan aan over verschillende schalen en taken, en bieden een veelbelovende oplossing voor efficiënte taalmodellering op basis van lange context.
Het segmenteren van een object in een video brengt aanzienlijke uitdagingen met zich mee. Elk pixel moet nauwkeurig gelabeld worden, en deze labels moeten consistent blijven over frames heen. De moeilijkheid neemt toe wanneer de segmentatie willekeurige granulariteit heeft, wat betekent dat het aantal segmenten willekeurig kan variëren, en maskers worden gedefinieerd op basis van slechts één of een paar voorbeeldafbeeldingen. In dit artikel pakken we dit probleem aan door gebruik te maken van een vooraf getraind tekst-naar-afbeelding diffusiemodel aangevuld met een aanvullend volgmechanisme. We tonen aan dat onze aanpak effectief verschillende segmentatiescenario's kan beheren en beter presteert dan state-of-the-art alternatieven.
Dit onderzoek richt zich op het probleem van interactieve bewerking van menselijke bewegingsgeneratie. Eerdere bewegingsdiffusiemodellen missen expliciete modellering van de tekst-bewegingscorrespondentie op woordniveau en goede verklaarbaarheid, waardoor hun fijnmazige bewerkingsmogelijkheden beperkt zijn. Om dit probleem aan te pakken, stellen we een op aandacht gebaseerd bewegingsdiffusiemodel voor, genaamd MotionCLR, met CLeaR modellering van aandachtsmechanismen. Technisch gezien modelleert MotionCLR de interacties binnen modaliteiten en tussen modaliteiten met zelfaandacht en kruisaandacht, respectievelijk. Meer specifiek heeft het zelfaandachtsmechanisme tot doel de sequentiële gelijkenis tussen frames te meten en beïnvloedt het de volgorde van bewegingskenmerken. Daarentegen werkt het kruisaandachtsmechanisme om de fijnmazige woordvolgorde-correspondentie te vinden en activeert het de overeenkomstige tijdstappen in de bewegingssequentie. Op basis van deze belangrijke eigenschappen ontwikkelen we een veelzijdige set eenvoudige maar effectieve bewerkingsmethoden voor beweging door aandachtskaarten te manipuleren, zoals beweging benadrukken of verminderen, beweging ter plaatse vervangen en op voorbeelden gebaseerde bewegingsgeneratie, enzovoort. Voor verdere verificatie van de verklaarbaarheid van het aandachtsmechanisme verkennen we bovendien het potentieel van actietelling en de mogelijkheid van op beweging gebaseerde grondige generatie via aandachtskaarten. Onze experimentele resultaten tonen aan dat onze methode geniet van goede generatie- en bewerkingsmogelijkheden met goede verklaarbaarheid.
Webontwikkeling houdt in dat UI-ontwerpen worden omgezet in functionele webpagina's, wat zowel voor beginners als ervaren ontwikkelaars moeilijk kan zijn vanwege de complexiteit van de hiërarchische structuren en stijlen van HTML. Hoewel Grote Taalmodellen (LLM's) veelbelovend zijn gebleken in het genereren van broncode, blijven er twee belangrijke uitdagingen bestaan bij het genereren van UI-naar-HTML-code: (1) het effectief representeren van de hiërarchische structuur van HTML voor LLM's, en (2) het overbruggen van de kloof tussen de visuele aard van UI-ontwerpen en het op tekst gebaseerde formaat van HTML-code. Om deze uitdagingen aan te pakken, introduceren we Waffle, een nieuwe fine-tuning strategie die een structuur-bewust aandachtsmechanisme gebruikt om het begrip van LLM's van de structuur van HTML te verbeteren en een contrastieve fine-tuning benadering om het begrip van LLM's van UI-afbeeldingen en HTML-code op elkaar af te stemmen. Modellen die zijn gefinetuned met Waffle vertonen tot 9,00 pp (percentagepunt) hogere HTML-match, 0,0982 hogere CW-SSIM, 32,99 hogere CLIP en 27,12 pp hogere LLEM op onze nieuwe benchmark WebSight-Test en een bestaande benchmark Design2Code, waarbij ze de huidige fine-tuning methoden overtreffen.
De afgelopen jaren is er een aanzienlijke interesse geweest in het ontwikkelen van grote multimodale modellen (LMM's) die in staat zijn om verschillende visuele redeneer- en begrips taken uit te voeren. Dit heeft geleid tot de introductie van meerdere LMM-beoordelingspunten om LMM's te evalueren op verschillende taken. Echter zijn de meeste bestaande LMM-beoordelingspunten voornamelijk gericht op het Engels. In dit werk ontwikkelen we een uitgebreid LMM-beoordelingspunt voor de Arabische taal om een grote populatie van meer dan 400 miljoen sprekers te vertegenwoordigen. Het voorgestelde beoordelingspunt, genaamd CAMEL-Bench, omvat acht diverse domeinen en 38 subdomeinen, waaronder multi-beeldbegrip, complex visueel waarnemen, begrip van handgeschreven documenten, video begrip, medische beeldvorming, plantenziekten en begrip van landgebruik op basis van remote sensing om brede scenario generaliseerbaarheid te evalueren. Onze CAMEL-Bench bestaat uit ongeveer 29.036 vragen die zijn gefilterd uit een grotere pool van voorbeelden, waarvan de kwaliteit handmatig is geverifieerd door moedertaalsprekers om betrouwbare modelbeoordeling te garanderen. We voeren evaluaties uit van zowel gesloten-bron, waaronder de GPT-4 serie, als open-source LMM's. Onze analyse onthult de noodzaak van aanzienlijke verbetering, vooral bij de beste open-source modellen, waarbij zelfs de gesloten-bron GPT-4o een algehele score van 62% behaalt. Ons beoordelingspunt en evaluatiescripts zijn open-source.
Grote Taalmodellen (LLM's) hallucineren vaak, waarbij ze ontrouwe of feitelijk onjuiste resultaten produceren door de verstrekte context verkeerd voor te stellen of interne kennis verkeerd te herinneren. Recente studies hebben specifieke aandachtskoppen binnen de Transformer-architectuur geïdentificeerd, bekend als ophaalkoppen, die verantwoordelijk zijn voor het extraheren van relevante contextuele informatie. Wij veronderstellen dat het maskeren van deze ophaalkoppen hallucinaties kan induceren en dat het contrasteren van de resultaten van het basis LLM en het gemaskerde LLM hallucinaties kan verminderen. Met dit doel stellen wij Decoding by Contrasting Retrieval Heads (DeCoRe) voor, een nieuw trainingsvrij decodeerstrategie die informatie in de context en modelparameters versterkt. DeCoRe vermindert potentieel gehallucineerde reacties door dynamisch de resultaten van het basis LLM en het gemaskerde LLM te contrasteren, waarbij conditionele entropie als leidraad dient. Onze uitgebreide experimenten bevestigen dat DeCoRe de prestaties aanzienlijk verbetert bij taken die een hoge contextuele trouw vereisen, zoals samenvatting (XSum met 18,6%), instructieopvolging (MemoTrap met 10,9%), en open-boek vraagbeantwoording (NQ-Open met 2,4% en NQ-Swap met 5,5%).
Wij presenteren CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), een hoogwaardige subset van 500 GB van de Chinese Corpora Internet 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), ontwikkeld met behulp van een nieuw tweefasen hybride filteringsproces dat de gegevenskwaliteit aanzienlijk verbetert. Om de effectiviteit ervan te evalueren, hebben we een model met 0.5 miljard parameters vanaf nul getraind op 100 miljard tokens over verschillende datasets, waarbij we superieure prestaties behaalden op 10 benchmarks in een zero-shot setting in vergelijking met CCI3.0, SkyPile en WanjuanV1. Het filteringsproces van hoge kwaliteit destilleert effectief de mogelijkheden van het Qwen2-72B-instructiemodel in een compact 0.5B-model, met optimale F1-scores voor classificatie van Chinese webgegevens. Wij geloven dat dit open-access dataset zal bijdragen aan een breder toegang tot hoogwaardige taalmodellen.
Diffusiemodellen behalen een superieure generatiekwaliteit, maar kampen met een trage generatiesnelheid als gevolg van de iteratieve aard van denoising. Daarentegen behalen consistentiemodellen, een nieuwe generatieve familie, een competitieve prestatie met aanzienlijk snellere sampling. Deze modellen worden getraind via consistentie distillatie, waarbij gebruik wordt gemaakt van vooraf getrainde diffusiemodellen, of door consistentietraining/-afstemming rechtstreeks van ruwe gegevens. In dit werk stellen we een nieuw raamwerk voor om consistentiemodellen te begrijpen door het denoisingproces van het diffusiemodel te modelleren als een Markov Decision Process (MDP) en het trainen van consistentiemodellen te kaderen als de waarde-inschatting via Temporal Difference (TD) Learning. Belangrijker nog, dit raamwerk stelt ons in staat om de beperkingen van huidige consistentietraining/-afstemmingsstrategieën te analyseren. Voortbouwend op Easy Consistency Tuning (ECT), stellen we Stable Consistency Tuning (SCT) voor, dat leert met verminderde variantie door gebruik te maken van de score identity. SCT leidt tot aanzienlijke prestatieverbeteringen op benchmarks zoals CIFAR-10 en ImageNet-64. Op ImageNet-64 behaalt SCT een 1-stap FID van 2.42 en een 2-stap FID van 1.55, een nieuwe SoTA voor consistentiemodellen.
Huidige methoden voor het watermerken van afbeeldingen zijn kwetsbaar voor geavanceerde beeldbewerkingstechnieken die mogelijk worden gemaakt door grootschalige tekst-naar-afbeelding modellen. Deze modellen kunnen ingebedde watermerken vervormen tijdens het bewerken, wat aanzienlijke uitdagingen met zich meebrengt voor auteursrechtbescherming. In dit werk introduceren we W-Bench, de eerste uitgebreide benchmark die is ontworpen om de robuustheid van watermerkmethoden te evalueren tegen een breed scala van beeldbewerkingstechnieken, waaronder beeldregeneratie, globale bewerking, lokale bewerking en beeld-naar-video generatie. Door uitgebreide evaluaties van elf representatieve watermerkmethoden tegen gangbare bewerkingstechnieken, tonen we aan dat de meeste methoden er niet in slagen watermerken te detecteren na dergelijke bewerkingen. Om deze beperking aan te pakken, stellen we VINE voor, een watermerkmethode die de robuustheid tegen verschillende beeldbewerkingstechnieken aanzienlijk verbetert terwijl de beeldkwaliteit hoog blijft. Onze aanpak omvat twee belangrijke innovaties: (1) we analyseren de frequentiekenmerken van beeldbewerking en identificeren dat vervagingsvervormingen vergelijkbare frequentie-eigenschappen vertonen, wat ons in staat stelt ze te gebruiken als surrogaataanvallen tijdens training om de watermerkrobuustheid te versterken; (2) we maken gebruik van een grootschalig voorgeleerd diffusiemodel SDXL-Turbo, passen het aan voor de watermerktaak om meer onopvallende en robuuste watermerk insluiting te bereiken. Experimentele resultaten tonen aan dat onze methode uitstekende prestaties op het gebied van watermerken behaalt onder verschillende beeldbewerkingstechnieken, bestaande methoden overtreft zowel in beeldkwaliteit als robuustheid. De code is beschikbaar op https://github.com/Shilin-LU/VINE.
Transformers kunnen langeafhankelijkheden vastleggen met behulp van zelfaandacht, waardoor tokens rechtstreeks naar alle anderen kunnen kijken. Het stapelen van meerdere aandachtlagen leidt echter tot aandachtsconcentratie. Een natuurlijke manier om dit probleem aan te pakken, is door cross-layer aandacht te gebruiken, waardoor informatie uit eerdere lagen direct toegankelijk is voor latere lagen. Deze benadering is echter rekenkundig duur. Om dit probleem aan te pakken, stellen we Transformer met restwaarde (ResFormer) voor, die cross-layer aandacht benadert door een restverbinding toe te voegen van de waarden van de eerste laag naar alle daaropvolgende lagen. Op basis van deze methode is een variant de Transformer met enkele laagwaarde (SVFormer), waarbij alle lagen dezelfde waarde-embedding delen vanuit de eerste laag, waardoor de KV-cache met bijna 50% wordt verminderd. Uitgebreid empirisch bewijs toont aan dat ResFormer het probleem van aandachtsconcentratie in diepere lagen vermindert en de representatie over de meeste lagen verbetert, waarbij het beter presteert dan de standaard Transformer, DenseFormer en NeuTRENO wat betreft trainingsfouten en downstreamtaken. SVFormer traint aanzienlijk sneller dan de standaard Transformer en presteert beter dan andere methoden zoals GQA en CLA, waarbij de prestaties worden beïnvloed door de sequentielengte en de cumulatieve leersnelheid.
Recente ontwikkelingen in multimodale fusie hebben de opmerkelijke successen gezien van visie-taal (VT) modellen, die uitblinken in verschillende multimodale toepassingen zoals beeldbeschrijving en visuele vraagbeantwoording. Echter, het bouwen van VT modellen vereist aanzienlijke hardwarebronnen, waar efficiëntie beperkt wordt door twee belangrijke factoren: de uitgebreide invoerreeks van het taalmodel met visuele kenmerken vereist meer rekenkundige bewerkingen, en een groot aantal extra leerparameters verhoogt de geheugencomplexiteit. Deze uitdagingen beperken aanzienlijk de bredere toepasbaarheid van dergelijke modellen. Om deze kloof te overbruggen, stellen wij ADEM-VL voor, een efficiënte visie-taal methode die VT modellen afstemt op vooraf getrainde grote taalmodellen (TTM's) door het aannemen van een parameterloos kruis-aandachtsmechanisme voor gelijkenismetingen in multimodale fusie. Deze aanpak vereist enkel het inbedden van visuele kenmerken in de taalruimte, waardoor het aantal trainbare parameters aanzienlijk wordt verminderd en zowel de trainingssnelheid als inferentiesnelheden worden versneld. Om de representatie-leren in het fusiemodule te verbeteren, introduceren we een efficiënt multischaal kenmerkengeneratieschema dat slechts een enkele voorwaartse doorgang door de visie-encoder vereist. Bovendien stellen we een adaptief fusieschema voor dat dynamisch minder relevante visuele informatie voor elk teksttoken verwerpt op basis van zijn aandachtscore. Dit zorgt ervoor dat het fusieproces de meest pertinente visuele kenmerken prioriteert. Met experimenten op verschillende taken, waaronder visuele vraagbeantwoording, beeldbeschrijving en instructievolging, tonen we aan dat ons raamwerk bestaande benaderingen overtreft. Specifiek overtreft onze methode bestaande methoden met een gemiddelde nauwkeurigheid van 0,77% op de ScienceQA dataset, met verminderde training en inferentievertraging, waarbij de superioriteit van ons raamwerk wordt aangetoond. De code is beschikbaar op https://github.com/Hao840/ADEM-VL.
Grote Taalmodellen (LLM's) worden verondersteld moeite te hebben met het leren van rekenkunde vanwege de inherente verschillen tussen taalmodellering en numerieke berekeningen, maar concrete bewijzen ontbraken. Dit werk reageert op deze bewering door middel van een tweezijdig experiment. We onderzoeken eerst of LLM's gedeeltelijke producten benutten tijdens het leren van rekenkunde. We ontdekken dat hoewel LLM's enkele gedeeltelijke producten kunnen identificeren na het leren, ze er niet in slagen om ze te benutten voor rekenkundige taken, integendeel. Vervolgens verkennen we hoe LLM's rekenkundig benaderen door taken op te delen in subgroepen, waarbij we veronderstellen dat moeilijkheden voortkomen uit subgroepcomplexiteit en selectie. Onze resultaten tonen aan dat wanneer subgroepcomplexiteit constant is, LLM's een verzameling verschillende rekenkundige bewerkingen op een vergelijkbare manier behandelen. Door de nauwkeurigheid op positienniveau te analyseren over verschillende trainingsgroottes, observeren we verder dat dit een U-vormig patroon volgt: LLM's leren snel de gemakkelijkste patronen op de eerste en laatste posities, terwijl ze geleidelijk de moeilijkere patronen leren op de middelste posities. Dit suggereert dat LLM's subgroepen selecteren volgens een gemakkelijk-naar-moeilijk paradigma tijdens het leren. Ons werk bevestigt dat LLM's puur symbolische leerlingen zijn in rekenkundige taken en benadrukt het belang van een diepgaand begrip van hen door middel van kwantificering op subgroepniveau.
Het bewerken van modellen is een steeds populairdere alternatief geworden voor het efficiënt bijwerken van kennis binnen taalmodellen. Huidige methoden richten zich voornamelijk op betrouwbaarheid, generalisatie en lokaliteit, waarbij veel methoden uitblinken op deze criteria. Sommige recente werken onthullen de valkuilen van deze bewerkingsmethoden, zoals kennisvervorming of conflicten. De algemene mogelijkheden van bewerkte taalmodellen blijven echter onontgonnen. In dit artikel voeren we een uitgebreide evaluatie uit van verschillende bewerkingsmethoden en verschillende taalmodellen, met de volgende bevindingen. (1) Bestaande bewerkingsmethoden leiden tot onvermijdelijke prestatievermindering op algemene benchmarks, wat aangeeft dat bestaande bewerkingsmethoden de algemene mogelijkheden van het model slechts bij enkele tientallen bewerkingen behouden. Wanneer het aantal bewerkingen iets groter is, wordt de intrinsieke kennisstructuur van het model verstoord of zelfs volledig beschadigd. (2) Instructie-aangepaste modellen zijn robuuster tegen bewerkingen, met minder prestatieverlies op algemene kennis na bewerking. (3) Taalmodellen op grote schaal zijn meer bestand tegen bewerkingen in vergelijking met kleine modellen. (4) De veiligheid van het bewerkte model wordt aanzienlijk verzwakt, zelfs voor die modellen die gericht zijn op veiligheid. Onze bevindingen geven aan dat huidige bewerkingsmethoden alleen geschikt zijn voor kleinschalige kennisupdates binnen taalmodellen, wat verder onderzoek motiveert naar meer praktische en betrouwbare bewerkingsmethoden. De details van de code en reproductie zijn te vinden op https://github.com/lqinfdim/EditingEvaluation.
In dit artikel geven we een diepgaande analyse van de wiskundige probleemformuleringen en de probabilistische optimalisatieverkenningen voor enkele van de belangrijkste componenten in het Transformer-model [33] op het gebied van generatieve AI. We onderzoeken en bespreken enkele mogelijke verdere verbeteringen voor de huidige state-of-the-art methoden voor enkele belangrijke onderliggende technologieën van generatieve AI-modellen vanuit een algoritmisch en probabilistisch optimalisatieperspectief. In het bijzonder presenteren we een optimale oplossing voor subwoordcodering (SWE) op basis van vergelijkbare initiële instellingen als die van het byte-pair coderings (BPE) algoritme in [9] met vergelijkbare doelstellingen als die van de WordPiece-benadering in [28, 31] om de waarschijnlijkheid van de trainingsgegevens te maximaliseren. We presenteren ook een optimalisatiemethode voor kruisentropie om hyperparameters te optimaliseren voor het word2vec-model [17]. Daarnaast stellen we een gefactoreerde combinatie voor van roterende positionele codering (RoPE) [32] en aandacht met lineaire afwijkingen (ALiBi) [23] met een harmonische reeks. We presenteren ook een probabilistische FlashAttention [6, 7] (PrFlashAttention) methode met een kansverdeling over blokafstanden in de matrix om te beslissen welk blok waarschijnlijk zal deelnemen aan een bepaalde ronde van aandachtsberekening, terwijl de lagere driehoeksvorm van de tensor wordt behouden voor autoregressieve taalmodellen door de tensors te hervormen. Tot slot presenteren we trapsgewijze adaptieve kwantisatie (SAQ) van sleutel-waarde (KV) cache voor multi-query aandacht (MQA) op basis van het raamwerk gepresenteerd in [16] om geleidelijke kwantisatie-afname te hebben terwijl redelijke modelkwaliteit en kostenbesparingen worden bereikt.
De dominante paradigm voor RLHF is online en on-policy RL: synchroon genereren vanuit het grote taalmodel (LLM) beleid, labelen met een beloningsmodel, en leren met feedback op de eigen uitvoer van het LLM. Hoewel dit efficiënt is in prestaties, is dit paradigma computationeel inefficiënt. Geïnspireerd door de klassieke diepe RL-literatuur stellen we voor om generatie en leren te scheiden in RLHF. Dit maakt asynchroon genereren van nieuwe voorbeelden mogelijk terwijl tegelijkertijd wordt getraind op oude voorbeelden, wat leidt tot snellere training en meer rekenoptimaal schalen. Echter, asynchrone training is gebaseerd op een onderbelicht regime, online maar off-policy RLHF: leren op voorbeelden van eerdere iteraties van ons model. Om de uitdagingen in dit regime te begrijpen, onderzoeken we een fundamentele vraag: hoeveel afwijking van het beleid kunnen we tolereren voor asynchrone training om het leren te versnellen maar de prestaties te behouden? Onder verschillende RLHF-algoritmen die we hebben getest, vinden we dat online DPO het meest robuust is tegen off-policy gegevens, en de robuustheid neemt toe met de schaal van het beleidsmodel. We bestuderen verdere rekenoptimalisaties voor asynchrone RLHF, maar vinden dat deze ten koste gaan van de prestaties, wat resulteert in een compromis. Tot slot verifiëren we de schaalbaarheid van asynchrone RLHF door LLaMA 3.1 8B te trainen voor een instructievolgende taak 40% sneller dan een synchrone uitvoering, terwijl de uiteindelijke prestaties overeenkomen.
Data scaling heeft revoluties teweeggebracht in vakgebieden zoals natuurlijke taalverwerking en computervisie, waarbij modellen opmerkelijke generalisatiecapaciteiten hebben gekregen. In dit artikel onderzoeken we of vergelijkbare wetten voor data scaling bestaan in de robotica, met name in robotmanipulatie, en of passende data scaling kan leiden tot robotbeleidslijnen voor enkele taken die zonder training ingezet kunnen worden voor elk object binnen dezelfde categorie in elke omgeving. Hiervoor voeren we een uitgebreide empirische studie uit naar data scaling in imitatieleren. Door gegevens te verzamelen in tal van omgevingen en met verschillende objecten, onderzoeken we hoe de generalisatieprestaties van een beleid veranderen met het aantal trainingsomgevingen, objecten en demonstraties. Gedurende ons onderzoek verzamelen we meer dan 40.000 demonstraties en voeren we meer dan 15.000 robotrollouts in de echte wereld uit onder een strikt evaluatieprotocol. Onze bevindingen tonen verschillende intrigerende resultaten: de generalisatieprestaties van het beleid volgen een ruwweg machtsverband met het aantal omgevingen en objecten. De diversiteit van omgevingen en objecten is veel belangrijker dan het absolute aantal demonstraties; zodra het aantal demonstraties per omgeving of object een bepaalde drempel bereikt, hebben extra demonstraties minimaal effect. Op basis van deze inzichten stellen we een efficiënte strategie voor gegevensverzameling voor. Met vier gegevensverzamelaars die één middag werken, verzamelen we voldoende gegevens om de beleidslijnen voor twee taken in staat te stellen om ongeveer 90% succes te behalen in nieuwe omgevingen met onbekende objecten.
Data selectie is cruciaal voor het optimaliseren van de prestaties van taalmodellen (LM) voor specifieke taken, maar de meeste bestaande methoden falen in het effectief overwegen van de distributie van de doeltaak. Huidige benaderingen negeren vaak volledig de taakspecifieke vereisten of vertrouwen op benaderingen die de verfijnde patronen die nodig zijn voor taken zoals Autoformalisatie of codegeneratie niet goed vastleggen. Methoden die wel rekening houden met de doeldistributie vertrouwen vaak op eenvoudige, soms lawaaierige, representaties, zoals gehashte n-gram kenmerken, die tot botsingen kunnen leiden en ruis kunnen introduceren. We introduceren ZIP-FIT, een data selectiekader dat gzip-compressie gebruikt om de afstemming tussen potentiële trainingsdata en de doeltaakdistributie direct te meten. In uitgebreide evaluaties op Autoformalisatie en Python codegeneratie presteert ZIP-FIT aanzienlijk beter dan toonaangevende baselines zoals DSIR en D4. Modellen getraind op door ZIP-FIT geselecteerde data behalen hun laagste kruis-entropie verlies tot wel 85,1% sneller dan baselines, wat aantoont dat een betere taakafstemming leidt tot efficiënter leren. Bovendien voert ZIP-FIT de selectie tot wel 65,8% sneller uit dan DSIR en twee ordes van grootte sneller dan D4. Opmerkelijk is dat ZIP-FIT aantoont dat kleinere, goed-afgestemde datasets vaak beter presteren dan grotere maar minder gerichte datasets, wat aantoont dat een kleine hoeveelheid data van hogere kwaliteit superieur is aan een grote hoeveelheid data van lagere kwaliteit. Onze resultaten impliceren dat taakbewuste data selectie cruciaal is voor efficiënte domeinaanpassing, en dat compressie een principiële manier biedt om taakafstemming te meten. Door te laten zien dat gerichte data selectie de taakspecifieke prestaties aanzienlijk kan verbeteren, biedt ons werk nieuwe inzichten in de relatie tussen datakwaliteit, taakafstemming en modelleer efficiëntie.
We overwegen multi-draft speculatieve steekproeven, waarbij de voorstelreeksen onafhankelijk worden genomen uit verschillende conceptmodellen. Bij elke stap neemt een conceptselectieschema op tokenniveau een lijst met geldige tokens als invoer en produceert een uitvoertoken waarvan de verdeling overeenkomt met die van het doelmodel. Eerdere werken hebben aangetoond dat het optimale schema (dat de kans maximaliseert om een van de invoertokens te accepteren) kan worden opgevat als een oplossing voor een lineair programma. In dit werk tonen we aan dat het optimale schema kan worden opgesplitst in een tweestapsoplossing: in de eerste stap wordt een schema van het type importance sampling (IS) gebruikt om een tussenliggend token te selecteren; in de tweede stap wordt (enkelvoudige concept) speculatieve steekproeven toegepast om de uitvoertoken te genereren. Voor het geval van twee identieke conceptmodellen stellen we verder 1) een noodzakelijke en voldoende voorwaarde vast voor de verdelingen van het doel- en conceptmodel waarbij de acceptatiekans gelijk is aan één en 2) bieden we een expliciete uitdrukking voor de optimale acceptatiekans. Onze theoretische analyse motiveert ook een nieuwe klasse van tokenniveau-selectieschema's op basis van gewogen importance sampling. Onze experimentele resultaten tonen consistente verbeteringen in de haalbare blokkefficiëntie en tokentarieven ten opzichte van basisschema's in verschillende scenario's.
Machine-ondersteund stellingbewijs verwijst naar het proces van het uitvoeren van gestructureerd redeneren om automatisch bewijzen te genereren voor wiskundige stellingen. Onlangs is er een toename van interesse geweest in het gebruik van machine learning modellen in combinatie met bewijsondersteunende systemen om deze taak uit te voeren. In dit artikel introduceren we Pantograph, een tool die een veelzijdige interface biedt naar de Lean 4 bewijsondersteunende systeem en efficiënte bewijszoekopdrachten mogelijk maakt via krachtige zoekalgoritmes zoals Monte Carlo Tree Search. Daarnaast maakt Pantograph hoog-niveau redeneren mogelijk door een robuustere behandeling van Lean 4's inferentiestappen mogelijk te maken. We geven een overzicht van de architectuur en functies van Pantograph. We rapporteren ook over een illustratieve gebruikssituatie: het gebruiken van machine learning modellen en bewijsconcepten om Lean 4 stellingen te bewijzen. De innovatieve functies van Pantograph banen de weg voor meer geavanceerde machine learning modellen om complexe bewijszoekopdrachten en hoog-niveau redeneren uit te voeren, waardoor toekomstige onderzoekers meer veelzijdige en krachtige stellingbewijzers kunnen ontwerpen.