Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Test-Time Scaling (TTS) is een belangrijke methode om de prestaties van Grote Taalmodellen (LLMs) te verbeteren door extra berekeningen tijdens de inferentiefase te gebruiken. Echter, huidige studies analyseren niet systematisch hoe beleidsmodellen, Proces Beloningsmodellen (PRMs), en probleemcomplexiteit invloed hebben op TTS. Dit gebrek aan analyse beperkt het begrip en praktische gebruik van TTS methoden. In dit artikel richten we ons op twee kernvragen: (1) Wat is de optimale aanpak om testtijd berekeningen te schalen over verschillende beleidsmodellen, PRMs, en probleemcomplexiteitsniveaus? (2) In hoeverre kan uitgebreide berekening de prestaties van LLMs verbeteren op complexe taken, en kunnen kleinere taalmodellen grotere overtreffen via deze aanpak? Door uitgebreide experimenten op MATH-500 en uitdagende AIME24 taken hebben we de volgende observaties: (1) De berekeningsoptimale TTS strategie is sterk afhankelijk van de keuze van beleidsmodel, PRM, en probleemcomplexiteit. (2) Met onze berekeningsoptimale TTS strategie kunnen extreem kleine beleidsmodellen grotere modellen overtreffen. Bijvoorbeeld, een 1B LLM kan een 405B LLM overtreffen op MATH-500. Bovendien, op zowel MATH-500 als AIME24, presteert een 0.5B LLM beter dan GPT-4o, een 3B LLM overtreft een 405B LLM, en een 7B LLM verslaat o1 en DeepSeek-R1, met hogere inferentie-efficiëntie. Deze bevindingen tonen de significantie van het aanpassen van TTS strategieën aan de specifieke kenmerken van elke taak en model en geven aan dat TTS een veelbelovende aanpak is om de redeneervaardigheden van LLMs te verbeteren.
Bestaande benaderingen voor het ontgiften van multilingual tekst worden belemmerd door de schaarste aan parallelle multilingual datasets. In dit werk introduceren we een pipeline voor de generatie van multilingual parallelle ontgiftingsdata. We introduceren ook SynthDetoxM, een handmatig verzamelde en synthetisch gegenereerde multilingual parallelle tekstontgiftingsdataset bestaande uit 16.000 hoogwaardige ontgiftingszinnenparen in het Duits, Frans, Spaans en Russisch. De data werd verzameld uit verschillende toxiciteitsevaluatiedatasets en vervolgens herschreven met negen moderne open-source LLMs in een few-shot setting. Onze experimenten tonen aan dat modellen getraind op de geproduceerde synthetische datasets betere prestaties hebben dan die getraind op de door mensen geannoteerde MultiParaDetox dataset, zelfs in een data-beperkte setting. Modellen getraind op SynthDetoxM presteren beter dan alle geëvalueerde LLMs in een few-shot setting. We stellen onze dataset en code beschikbaar om verder onderzoek naar multilingual tekstontgifting te ondersteunen.
Redeneervaardigheden, vooral die voor het oplossen van complexe wiskundige problemen, zijn cruciale componenten van algemene intelligentie. Recente vooruitgang door bedrijven, zoals de o-series modellen van OpenAI, heeft opmerkelijke vooruitgang geboekt op redeneertaken. Echter, de volledige technische details blijven ononthuld, en de technieken die naar alle waarschijnlijkheid worden toegepast zijn alleen reinforcement learning (RL) en de lange keten van gedachten. Dit artikel stelt een nieuw RL-framework voor, genaamd OREAL, om de prestatiegrens na te streven die kan worden bereikt via Outcome REwArd-gebaseerd reinforcement learning voor wiskundige redeneertaken, waar alleen binaire uitkomstbeloningen gemakkelijk toegankelijk zijn. We bewijzen theoretisch dat gedragskloon op positieve trajecten van best-of-N (BoN) bemonstering voldoende is om het KL-geregulariseerde optimale beleid te leren in binaire feedbackomgevingen. Deze formulering impliceert verder dat de beloningen van negatieve voorbeelden moeten worden hervormd om de gradiëntconsistentie tussen positieve en negatieve voorbeelden te waarborgen. Om de lang bestaande moeilijkheden veroorzaakt door schaarse beloningen in RL te verlichten, die zelfs verergerd worden door de gedeeltelijke juistheid van de lange keten van gedachten voor redeneertaken, passen we verder een beloningsmodel op tokenniveau toe om belangrijke tokens in redeneertrajecten voor leren te bemonsteren. Met OREAL kan een 7B-model voor het eerst een nauwkeurigheid van 94,0 pass@1 behalen op MATH-500 via RL, wat gelijk staat aan 32B-modellen. OREAL-32B overtreft ook eerdere 32B-modellen die zijn getraind door distillatie met een nauwkeurigheid van 95,0 pass@1 op MATH-500. Ons onderzoek geeft ook aan hoe belangrijk initiële beleidsmodellen en trainingsvragen zijn voor RL. Code, modellen en gegevens zullen worden vrijgegeven om toekomstig onderzoek te ondersteunen: https://github.com/InternLM/OREAL.
In dit paper introduceren we de Vloek van Diepte, een concept dat de recente observatie in moderne Grote Taalmodellen (LLMs) benadrukt, verklaart en aanpakt, waar bijna de helft van de lagen minder effectief is dan verwacht. We bevestigen eerst het wijdverspreide bestaan van dit fenomeen over de meest populaire families van LLMs zoals Llama, Mistral, DeepSeek en Qwen. Onze analyse identificeert theoretisch en empirisch dat de onderliggende reden voor de ineffectiviteit van diepe lagen in LLMs het veelvuldige gebruik van Pre-Layer Normalization (Pre-LN) is. Terwijl Pre-LN het trainen van Transformer LLMs stabiliseert, groeit de outputvariatie exponentieel met de modeldiepte, wat ongewenst leidt tot de afgeleide van de diepe Transformer blokken als een identiteitsmatrix, en daardoor nauwelijks bijdraagt aan de training. Om dit trainingsstruikelblok op te lossen, stellen we LayerNorm Scaling voor, dat de variatie van de output van de laagnormalisatie omgekeerd schaalt met de vierkantswortel van de diepte. Deze eenvoudige aanpassing vermindert de outputvariatie-explosie van diepere Transformerlagen, waardoor hun bijdrage verbetert. Onze experimentele resultaten, variërend van modelgroottes van 130M tot 1B, tonen aan dat LayerNorm Scaling de prestaties van LLM-vooraftraining aanzienlijk verbetert in vergelijking met Pre-LN. Bovendien draagt deze verbetering naadloos over naar begeleid fijnafstemmen. Al deze voordelen kunnen worden toegeschreven aan het feit dat LayerNorm Scaling diepere lagen in staat stelt om effectiever bij te dragen tijdens de training.
Communiceren in natuurlijke taal is een krachtig instrument in multi-agent omgevingen, omdat het onafhankelijke agenten in staat stelt informatie te delen in gedeeltelijk waarneembare omgevingen en coördinatie zonder voorafgaande instructie met mensen mogelijk maakt. De meeste eerdere werken zijn echter beperkt omdat ze ofwel afhankelijk zijn van training met grote hoeveelheden menselijke demonstraties of het vermogen missen om natuurlijke en nuttige communicatiestrategieën te genereren. In dit werk trainen we taalmodellen om productieve discussies te voeren over hun omgeving in natuurlijke taal zonder enige menselijke demonstraties. We ontleden het communicatieprobleem in luisteren en spreken. Ons belangrijkste idee is om het doel van de agent te benutten om nuttige informatie over de wereld te voorspellen als een dichte beloningssignaal dat de communicatie stuurt. Specifiek verbeteren we de luistervaardigheden van een model door ze te trainen om informatie over de omgeving te voorspellen op basis van discussies, en we verbeteren tegelijkertijd de spreekvaardigheid van een model met multi-agent versterkend leren door berichten te belonen op basis van hun invloed op andere agenten. Om de rol en noodzaak van communicatie in complexe sociale omgevingen te onderzoeken, bestuderen we een belichaamd sociaal deductiespel gebaseerd op Among Us, waarbij de belangrijkste vraag is de identiteit van een vijandige bedrieger. We analyseren opkomende gedragingen als gevolg van onze techniek, zoals verdachten beschuldigen en bewijs leveren, en ontdekken dat het sterke discussies mogelijk maakt, waardoor de winstkansen verdubbelen in vergelijking met standaard RL. We publiceren onze code en modellen op https://socialdeductionllm.github.io/
Het kwantiseren van modelgewichten is cruciaal voor het verminderen van de communicatie- en inferentiekosten van grote modellen. Echter, het kwantiseren van modellen - vooral naar lage precisies zoals int4 of int2 - vereist een compromis in modelkwaliteit; int2 staat er met name om bekend de modelkwaliteit aanzienlijk te degraderen. Als gevolg hiervan worden beoefenaars vaak gedwongen om meerdere modellen met verschillende kwantisatieniveaus te behouden of om een enkel model te gebruiken dat het beste voldoet aan de kwaliteit-latency afweging. Aan de andere kant hebben gehele getallen, zoals int8, van nature een geneste (Matroesjka) structuur waarbij kleinere bitbreedte gehele getallen, zoals int4 of int2, genest zijn binnen de meest significante bits. Dit artikel stelt Matroesjka Kwantisatie (MatQuant) voor, een nieuwe multi-schaal kwantisatietechniek die het probleem van de noodzaak van meerdere gekwantiseerde modellen aanpakt. Het maakt het mogelijk om slechts één model te trainen en te behouden, dat vervolgens op verschillende precisieniveaus kan worden gebruikt. Bovendien kunnen de int2 precisie modellen die door MatQuant worden geëxtraheerd, dankzij de co-training en co-distillatie regulering van MatQuant, tot 10% nauwkeuriger zijn dan standaard int2 kwantisatie (gebruikmakend van technieken zoals QAT of OmniQuant). Dit vertegenwoordigt aanzienlijke vooruitgang in modelkwantisatie, aangetoond door het feit dat, met hetzelfde recept, een int2 FFN-gekwantiseerd Gemma-2 9B model nauwkeuriger is dan een int8 FFN-gekwantiseerd Gemma-2 2B model.
Dit artikel introduceert het Large Memory Model (LM2), een decoder-only Transformer-architectuur versterkt met een hulpgeheugenmodule die tot doel heeft de beperkingen van standaard Transformers aan te pakken bij multi-step redenering, relationele argumentatie en het synthetiseren van informatie die verspreid is over lange contexten. Het voorgestelde LM2 omvat een geheugenmodule die fungeert als een contextuele representatieopslagplaats, die interageert met invoertokens via kruislingse aandacht en wordt bijgewerkt via gating-mechanismen. Om de algemene mogelijkheden van de Transformers te behouden, handhaaft LM2 de oorspronkelijke informatiestroom terwijl het een aanvullend geheugenpad integreert. Experimentele resultaten op de BABILong benchmark tonen aan dat het LM2-model zowel het geheugenaugmented RMT-model met 37,1% als het basis Llama-3.2-model met 86,3% gemiddeld over taken overtreft. LM2 vertoont uitzonderlijke mogelijkheden in multi-hop redenering, numerieke redenering en vraag-antwoordtaken met grote context. Op de MMLU-dataset behaalt het een verbetering van 5,0% ten opzichte van een voorgeleerd standaardmodel, waaruit blijkt dat de geheugenmodule de prestaties op algemene taken niet vermindert. Verder onderzoeken we in onze analyse de interpreteerbaarheid van het geheugen, de effectiviteit van geheugenmodules en het gedrag op testtijd. Onze bevindingen benadrukken het belang van expliciet geheugen bij het verbeteren van Transformer-architecturen.
Grote Taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt op het gebied van codegeneratie en probleemoplossing. Huidige benaderingen maken gebruik van externe tool-gebaseerde iteratieve debuggers die compiler- of andere tool-gebaseerde runtime feedback gebruiken om ruwe programma's verfijnen die zijn gegenereerd door verschillende methoden. De effectiviteit van deze benaderingen is echter sterk afhankelijk van de kwaliteit van de initiële codegeneratie, wat een open uitdaging blijft. In dit artikel introduceren we CodeSim, een nieuw multi-agent codegeneratiekader dat uitgebreid de fasen van programma synthese - planning, codering en debugging - aanpakt via een menselijke perceptiebenadering. Net zoals mensen hun begrip van algoritmes verifiëren door visuele simulatie, beschikt CodeSim uniek over een methode voor planverificatie en interne debugging door de stapsgewijze simulatie van in- en uitvoer. Uitgebreide experimenten over zeven uitdagende competitieve probleemoplossings- en programma synthese-benchmarks tonen de opmerkelijke codegeneratiecapaciteiten van CodeSim aan. Ons kader behaalt nieuwe state-of-the-art (pass@1) resultaten - (HumanEval 95,1%, MBPP 90,7%, APPS 22% en CodeContests 29,1%). Bovendien toont onze methode potentieel voor nog grotere verbetering wanneer deze wordt gecombineerd met externe debuggers. Om verder onderzoek en ontwikkeling op dit gebied te vergemakkelijken, hebben we ons kader open-source gemaakt via deze link (https://kagnlp.github.io/codesim.github.io/).
Er is een toenemende onderzoeksinteresse in het ontwikkelen van verenigde multimodale begrijpende en genererende modellen, waarbij Show-o opvalt als een opmerkelijke vertegenwoordiger, die veelbelovend is voor zowel tekst-naar-afbeelding als afbeelding-naar-tekst generatie. De inferentie van Show-o omvat progressief het verwijderen van ruis uit afbeeldingstokens en autoregressief decoderen van teksttokens, en lijdt daardoor helaas aan inefficiëntieproblemen aan beide kanten. Dit artikel introduceert Show-o Turbo om de kloof te overbruggen. We identificeren eerst een verenigd ruisverwijderingsperspectief voor de generatie van afbeeldingen en tekst in Show-o op basis van het parallel decoderen van teksttokens. Vervolgens stellen we voor om consistentie distillatie (CD), een gekwalificeerde benadering voor het verkorten van het ruisverwijderingsproces van diffusiemodellen, uit te breiden naar de multimodale ruisverwijderingstrajecten van Show-o. We introduceren een trajectsegmentatiestrategie en een curriculumleerprocedure om de trainingsconvergentie te verbeteren. Empirisch gezien vertoont Show-o Turbo bij tekst-naar-afbeelding generatie een GenEval-score van 0.625 bij 4 bemonsteringsstappen zonder het gebruik van classifier-vrije begeleiding (CFG), wat beter is dan die van de oorspronkelijke Show-o met 8 stappen en CFG; bij afbeelding-naar-tekst generatie vertoont Show-o Turbo een versnelling van 1,5x zonder aanzienlijk prestatieverlies. De code is beschikbaar op https://github.com/zhijie-group/Show-o-Turbo.
We presenteren dat hiërarchisch LLM-redenering via het schalen van denkpatroons effectief de redeneerzoekruimte kan optimaliseren en de wiskundige redeneervaardigheden van krachtige LLM's zoals OpenAI o1-preview en DeepSeek V3 kan overtreffen. We trainen ons ReasonFlux-32B model met slechts 8 GPU's en introduceren drie innovaties: (i) een gestructureerde en generieke bibliotheek van denkpatronen, met ongeveer 500 hoog-niveau denkpatronen die in staat zijn om te generaliseren naar vergelijkbare of relevante redeneerproblemen; (ii) het uitvoeren van hiërarchisch versterkend leren op een reeks denkpatronen in plaats van lange CoTs, waarbij een basis LLM wordt geoptimaliseerd om een optimale traject voor denkpatronen te plannen voor het geleidelijk aanpakken van complexe problemen; (iii) een gloednieuw inferentieschaalsysteem dat hiërarchische LLM-redenering mogelijk maakt door denkpatronen adaptief te schalen op inferentietijd. Met een traject voor denkpatronen dat opeenvolgende denkpatronen bevat, brengt onze ReasonFlux-32B de wiskundige redeneervaardigheden aanzienlijk naar het niveau van de kunst. Opmerkelijk is dat het op de MATH benchmark een nauwkeurigheid van 91,2% behaalt en o1-preview met 6,7% overtreft. Op de USA Math Olympiad (AIME) benchmark lost ReasonFlux-32B gemiddeld 56,7% van de problemen op, waarbij het o1-preview en DeepSeek-V3 respectievelijk met 27% en 45% overtreft. Code: https://github.com/Gen-Verse/ReasonFlux
Het versnellen van inferentie in Grote Taalmodellen (LLM's) is cruciaal voor real-time interacties, aangezien ze wijdverspreid zijn geïntegreerd in diensten in de echte wereld. Speculatieve decodering, een volledig algoritmische oplossing, heeft aandacht gekregen voor het verbeteren van de inferentiesnelheid door het opstellen en verifiëren van tokens, waardoor meerdere tokens worden gegenereerd in één voorwaartse doorgang. Huidige opstelstrategieën vereisen echter meestal aanzienlijke fijnafstemming of hebben inconsistente prestaties over verschillende taken. Om deze uitdagingen aan te pakken, stellen wij Hiërarchisch Opstellen (HD) voor, een nieuw verliesloze opstelbenadering die verschillende tokenbronnen organiseert in meerdere databases in een hiërarchisch kader op basis van temporele lokaliteit. In de opstelfase benadert HD sequentieel meerdere databases om concepttokens te verkrijgen van de hoogste naar de laagste lokaliteit, waarbij consistente versnelling over diverse taken wordt gegarandeerd en de opstelvertraging wordt geminimaliseerd. Onze experimenten op Spec-Bench met LLM's met 7B en 13B parameters tonen aan dat HD beter presteert dan bestaande database-opstelmethoden, met robuuste versnellingen van de inferentie over modelgroottes, taken en temperaturen.
Grote Taalmodel (GTM) Agents hebben opmerkelijke capaciteiten aangetoond op het gebied van taakautomatisering en intelligente besluitvorming, wat heeft geleid tot de brede acceptatie van agentontwikkelingskaders zoals LangChain en AutoGen. Echter, deze kaders bedienen voornamelijk ontwikkelaars met uitgebreide technische expertise - een significante beperking gezien slechts 0,03% van de wereldbevolking over de benodigde programmeervaardigheden beschikt. Deze opvallende toegankelijkheidskloof roept een fundamentele vraag op: Kunnen we iedereen, ongeacht hun technische achtergrond, in staat stellen om hun eigen GTM agents te bouwen met alleen natuurlijke taal? Om deze uitdaging aan te gaan, introduceren we MetaChain - een Volledig Geautomatiseerd en sterk Zelf-Ontwikkelend kader dat gebruikers in staat stelt om GTM agents te creëren en implementeren met behulp van alleen natuurlijke taal. Werkend als een autonoom Agent Besturingssysteem, bestaat MetaChain uit vier belangrijke componenten: i) Agentische Systeem Hulpprogramma's, ii) GTM-aangedreven Uitvoerbaar Motor, iii) Zelf-Beherend Bestandssysteem, en iv) Zelf-Spel Agent Aanpassingsmodule. Dit lichtgewicht maar krachtige systeem maakt efficiënte en dynamische creatie en aanpassing van tools, agents en workflows mogelijk zonder programmeervereisten of handmatige tussenkomst. Naast zijn codevrije agentontwikkelingsmogelijkheden, fungeert MetaChain ook als een veelzijdig multi-agent systeem voor Algemene AI Assistenten. Uitgebreide evaluaties op de GAIA benchmark tonen de effectiviteit van MetaChain aan in generalistische multi-agent taken, waarbij bestaande state-of-the-art methoden worden overtroffen. Bovendien hebben de Retrieval-Augmented Generation (RAG)-gerelateerde mogelijkheden van MetaChain consequent superieure prestaties laten zien in vergelijking met vele alternatieve GTM-gebaseerde oplossingen.
Recente ontwikkelingen hebben Diffusion Transformers (DiTs) gevestigd als een dominante structuur in generatieve modellering. Voortbouwend op dit succes, bereikt Lumina-Next uitzonderlijke prestaties in de generatie van fotorealistische beelden met Next-DiT. Echter, het potentieel voor videogeneratie blijft grotendeels onbenut, met aanzienlijke uitdagingen in het modelleren van de ruimtelijk-temporele complexiteit inherent aan videogegevens. Om dit aan te pakken, introduceren we Lumina-Video, een structuur die de sterke punten van Next-DiT benut en tegelijkertijd op maat gemaakte oplossingen introduceert voor videoproductie. Lumina-Video omvat een Multi-scale Next-DiT architectuur, die gezamenlijk meerdere patchificaties leert om zowel efficiëntie als flexibiliteit te verbeteren. Door de bewegingsscore expliciet als voorwaarde op te nemen, maakt Lumina-Video ook directe controle mogelijk over de dynamische mate van gegenereerde video's. Gecombineerd met een progressief trainingschema met steeds hogere resolutie en FPS, en een multi-bron trainingschema met gemengde natuurlijke en synthetische gegevens, bereikt Lumina-Video opmerkelijke esthetische kwaliteit en bewegingsvloeiendheid bij hoge trainings- en inferentie-efficiëntie. Daarnaast stellen we Lumina-V2A voor, een video-naar-audio model gebaseerd op Next-DiT, om gesynchroniseerde geluiden te creëren voor gegenereerde video's. De codes zijn beschikbaar op https://www.github.com/Alpha-VLLM/Lumina-Video.
Bestaande encoder-vrije visie-taalmodellen (VLM's) verkleinen snel de prestatiekloof met hun op encoder gebaseerde tegenhangers, waarbij het veelbelovende potentieel voor verenigde multimodale systemen met structurele eenvoud en efficiënte implementatie wordt benadrukt. We verduidelijken systematisch de prestatiekloof tussen VLM's die gebruikmaken van vooraf getrainde visuele encoders, discrete tokenizers en minimalistische visuele lagen vanaf nul, waarbij we diep ingaan op de onderbelichte kenmerken van encoder-vrije VLM's. We ontwikkelen efficiënte strategieën voor encoder-vrije VLM's die concurreren met gangbare op encoder gebaseerde modellen. Na een grondig onderzoek lanceren we EVEv2.0, een nieuwe en verbeterde familie van encoder-vrije VLM's. We tonen aan dat: (i) Het correct ontleden en hiërarchisch associëren van visie en taal binnen een verenigd model de interferentie tussen modaliteiten vermindert. (ii) Een goed ontworpen trainingsstrategie effectieve optimalisatie mogelijk maakt voor encoder-vrije VLM's. Via uitgebreide evaluatie vertegenwoordigt onze EVEv2.0 een grondige studie voor het ontwikkelen van een decoder-only architectuur over modaliteiten heen, met superieure data-efficiëntie en sterke visie-redeneervermogen. De code is openbaar beschikbaar op: https://github.com/baaivision/EVE.
Classifier-free guidance (CFG) is een belangrijke techniek om de conditionele generatie in diffusiemodellen te verbeteren, waardoor nauwkeurigere controle mogelijk is terwijl de kwaliteit van de samples wordt verbeterd. Het is logisch om deze techniek uit te breiden naar video diffusie, die video genereert op basis van een variabel aantal contextframes, gezamenlijk aangeduid als geschiedenis. We identificeren echter twee belangrijke uitdagingen bij het sturen met geschiedenis van variabele lengte: architecturen die alleen vaste-conditionering ondersteunen, en de empirische observatie dat CFG-stijl geschiedenisuitval slecht presteert. Om dit aan te pakken, stellen we de Diffusion Forcing Transformer (DFoT) voor, een video diffusie-architectuur en theoretisch gefundeerd trainingsdoel dat gezamenlijk conditionering op een flexibel aantal geschiedenisframes mogelijk maakt. Vervolgens introduceren we History Guidance, een reeks begeleidingsmethoden die uniek mogelijk worden gemaakt door DFoT. We tonen aan dat de eenvoudigste vorm ervan, vanille geschiedenisbegeleiding, de kwaliteit van videogeneratie en temporele consistentie aanzienlijk verbetert. Een geavanceerdere methode, geschiedenisbegeleiding over tijd en frequentie, verbetert verder de bewegingsdynamiek, maakt compositorische generalisatie naar geschiedenis buiten de distributie mogelijk, en kan stabiel zeer lange video's genereren. Website: https://boyuan.space/history-guidance
Grote Vision-Language Modellen (GVLM's) kunnen effectief redeneren over zowel tekstuele als visuele invoer, maar ze hebben de neiging om syntactisch coherente maar visueel niet gefundeerde inhoud te hallucineren. In dit artikel onderzoeken we de interne dynamiek van hallucinatie door de rangschikking van token-logits te onderzoeken gedurende het generatieproces, waarbij drie belangrijke patronen in hoe GVLM's informatie verwerken worden onthuld: (1) geleidelijk verlies van visuele informatie - visueel gefundeerde tokens worden geleidelijk minder gunstig gedurende de generatie, en (2) vroege excitatie - semantisch betekenisvolle tokens bereiken piekactivatie in de lagen eerder dan in de laatste laag. (3) verborgen echte informatie - visueel gefundeerde tokens behouden relatief hoge rangschikkingen bij inferentie, hoewel ze uiteindelijk niet worden gekozen. Op basis van deze inzichten stellen we VISTA (Visual Information Steering with Token-logit Augmentation) voor, een trainingvrij interventiekader voor inferentie dat hallucinatie vermindert en echte informatie bevordert. VISTA werkt door twee complementaire benaderingen te combineren: het versterken van visuele informatie in de activatieruimte en het benutten van vroege laagactivaties om semantisch betekenisvolle decodering te bevorderen. In vergelijking met bestaande methoden heeft VISTA geen externe supervisie nodig en is het toepasbaar op verschillende decoderingsstrategieën. Uitgebreide experimenten tonen aan dat VISTA gemiddeld de hallucinatie met ongeveer 40% vermindert bij geëvalueerde open-ended generatietaak, en het presteert consequent beter dan bestaande methoden op vier benchmarks over vier architecturen onder drie decoderingsstrategieën.
Aangepaste generatie heeft aanzienlijke vooruitgang geboekt in beeldsynthese, maar gepersonaliseerde videogeneratie blijft uitdagend vanwege temporale inconsistenties en kwaliteitsdegradatie. In dit artikel introduceren we CustomVideoX, een innovatief raamwerk dat gebruikmaakt van de video diffusie transformer voor gepersonaliseerde videogeneratie vanuit een referentieafbeelding. CustomVideoX maakt gebruik van vooraf getrainde videonetwerken door uitsluitend de LoRA-parameters te trainen om referentiekenmerken te extraheren, wat zowel efficiëntie als aanpasbaarheid garandeert. Om naadloze interactie tussen de referentieafbeelding en videomateriaal te vergemakkelijken, stellen we 3D Referentie Aandacht voor, wat direct en gelijktijdig betrokkenheid van referentiekenmerken met alle videoframes mogelijk maakt over ruimtelijke en temporele dimensies. Om de overmatige invloed van referentiekenmerken en tekstuele begeleiding op gegenereerd videomateriaal tijdens inferentie te verminderen, implementeren we de Tijd-Aware Referentie Aandacht Bias (TAB) strategie, waarbij referentiebias dynamisch wordt gemoduleerd over verschillende tijdstappen. Daarnaast introduceren we de Entiteit Regio-Bewuste Versterking (ERAE) module, die sterk geactiveerde regio's van belangrijke entiteit tokens afstemt met referentiekenmerkinjectie door aandachtsbias aan te passen. Om gepersonaliseerde videogeneratie grondig te evalueren, stellen we een nieuwe benchmark vast, VideoBench, bestaande uit meer dan 50 objecten en 100 prompts voor uitgebreide beoordeling. Experimentele resultaten tonen aan dat CustomVideoX aanzienlijk beter presteert dan bestaande methoden op het gebied van videocoherentie en kwaliteit.
Ondanks de belofte van het synthetiseren van video's met hoge nauwkeurigheid, kampen Diffusion Transformers (DiTs) met 3D volledige aandacht met dure inferentie vanwege de complexiteit van aandachtsberekening en talrijke bemonsteringsstappen. Bijvoorbeeld, het populaire Open-Sora-Plan model kost meer dan 9 minuten om een enkele video van 29 frames te genereren. Dit artikel behandelt het efficiëntieprobleem vanuit twee aspecten: 1) Snoei de 3D volledige aandacht op basis van de redundantie binnen videogegevens; We identificeren een veelvoorkomend tegelstijl repetitief patroon in de 3D aandachtskaarten voor videogegevens, en pleiten voor een nieuwe familie van schaarse 3D aandacht die een lineaire complexiteit heeft t.o.v. het aantal videoframes. 2) Verkort het bemonsteringsproces door het aannemen van bestaande meerstaps consistentie destillatie; We verdelen de gehele bemonsteringstraject in verschillende segmenten en voeren consistentie destillatie uit binnen elk segment om een bemonsteringscapaciteit met weinig stappen te activeren. We ontwerpen verder een driedelig trainingsproces om de lage-complexiteit aandacht en bemonsteringscapaciteiten met weinig stappen te combineren. Opmerkelijk is dat met 0.1% vooraf trainingsgegevens, we het Open-Sora-Plan-1.2 model efficiënter maken, wat 7.4x - 7.8x sneller is voor het genereren van 29 en 93 frames 720p video's met een marginaal prestatieverlies in VBench. Bovendien tonen we aan dat onze aanpak geschikt is voor gedistribueerde inferentie, waarbij een extra 3.91x versnelling wordt behaald bij gebruik van 4 GPU's met sequentiële paralleliteit.
De overheersende aanpak voor het trainen van webnavigatie-agents verzamelt menselijke demonstraties voor een reeks populaire websites en handgeschreven taken, maar het wordt steeds duidelijker dat menselijke data een inefficiënte bron zijn. Wij ontwikkelen een pijplijn om internet-schaal training voor agents mogelijk te maken zonder arbeidsintensieve menselijke annotaties. In de eerste fase genereert een LLM taken voor 150k diverse websites. In de volgende fase voltooien LLM-agents taken en produceren ze trajecten. In de laatste fase beoordeelt een LLM de trajecten en beoordeelt hun succes. Taalmodellen zijn concurrerend met menselijke annotators, waarbij ze schadelijke inhoud detecteren en filteren met een nauwkeurigheid van 97%, haalbare taken genereren met een snelheid van 89%, en succesvolle trajecten beoordelen met een nauwkeurigheid van 82,6%. Door de pijplijn op te schalen, lossen agents gebaseerd op Llama 3.1 70B 16,7% van de taken op voor 150k sites. Training op de data gegenereerd door onze pijplijn is concurrerend met training op menselijke demonstraties. In data-beperkte omgevingen afgeleid van Mind2Web en WebLINX, verbeteren we de Stap Nauwkeurigheid met respectievelijk tot +89,5% en +122,1% voor agents getraind op mengsels van data uit onze pijplijn en menselijke data. Wanneer agents getraind worden met alle beschikbare menselijke data van deze benchmarks, falen ze in het generaliseren naar diverse echte sites, en het toevoegen van onze data verbetert hun generalisatie met +149,0% voor WebLINX en +156,3% voor Mind2Web. Code zal beschikbaar zijn op: data-for-agents.github.io.
Recente ontwikkelingen in het optimaliseren van menselijke voorkeuren, oorspronkelijk ontwikkeld voor Grote Taalmodellen (LLM's), hebben aanzienlijk potentieel laten zien in het verbeteren van modellen voor tekst-naar-afbeelding diffusie. Deze methoden beogen de verdeling van de voorkeurmonsters te leren terwijl ze deze onderscheiden van minder favoriete. Bestaande voorkeursdatasets vertonen echter vaak overlap tussen deze verdelingen, wat leidt tot een conflictverdeling. Bovendien hebben we vastgesteld dat invoerprompts irrelevante informatie bevatten voor minder favoriete afbeeldingen, waardoor het vermogen van het denoisingsnetwerk om ruis nauwkeurig te voorspellen in optimalisatiemethoden voor voorkeuren wordt beperkt, bekend als het probleem van irrelevante prompts. Om deze uitdagingen aan te pakken, stellen we Dual Caption Preference Optimization (DCPO) voor, een nieuw benadering die twee verschillende bijschriften gebruikt om irrelevante prompts te verminderen. Om de conflictverdeling aan te pakken, introduceren we de Pick-Double Caption dataset, een aangepaste versie van Pick-a-Pic v2 met afzonderlijke bijschriften voor favoriete en minder favoriete afbeeldingen. We stellen verder drie verschillende strategieën voor voor het genereren van verschillende bijschriften: bijschriften, verstoring en hybride methoden. Onze experimenten tonen aan dat DCPO de beeldkwaliteit en relevantie voor prompts aanzienlijk verbetert, waarbij het Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO en MaPO overtreft op meerdere metrieken, waaronder Pickscore, HPSv2.1, GenEval, CLIPscore en ImageReward, fijn afgestemd op SD 2.1 als basis.
Tekst-naar-3D-generatie automatiseert de creatie van 3D-inhoud vanuit tekstuele beschrijvingen, wat transformerend potentieel biedt over verschillende vakgebieden. Echter, bestaande methoden hebben vaak moeite om gegenereerde inhoud af te stemmen op menselijke voorkeuren, waardoor hun toepasbaarheid en flexibiliteit beperkt zijn. Om deze beperkingen aan te pakken, stellen we in dit artikel DreamDPO voor, een op optimalisatie gebaseerd framework dat menselijke voorkeuren integreert in het 3D-generatieproces, via directe voorkeursoptimalisatie. In de praktijk construeert DreamDPO eerst paarvoorbeelden, vergelijkt vervolgens hun afstemming met menselijke voorkeuren met behulp van beloning of grote multimodale modellen, en optimaliseert tot slot de 3D-representatie met een voorkeursgestuurde verliesfunctie. Door gebruik te maken van paarvergelijkingen om voorkeuren weer te geven, vermindert DreamDPO de afhankelijkheid van precieze puntsgewijze kwaliteitsevaluaties, terwijl het fijnmazige controle mogelijk maakt via voorkeursgestuurde optimalisatie. Experimenten tonen aan dat DreamDPO competitieve resultaten behaalt en hogere kwaliteit en meer controleerbare 3D-inhoud biedt in vergelijking met bestaande methoden. De code en modellen zullen open-source worden gemaakt.
Context-verrijkte generatie (CAG) technieken, waaronder RAG en ICL, vereisen de efficiënte combinatie van meerdere contexten om antwoorden op gebruikersvragen te genereren. Het direct invoeren van deze contexten als een sequentie brengt aanzienlijke rekenlast met zich mee door de gecombineerde selectie van contexten voor elke aanvraag opnieuw te coderen. Om dit aan te pakken, verkennen we het veelbelovende potentieel van parallelle codering om onafhankelijk de KV-staten van elke context voor te berekenen en te cachen. Deze benadering maakt het mogelijk om tijdens inferentie de gecachte staten direct te laden, terwijl meer contexten worden ondergebracht door hergebruik van posities over contexten. Echter, vanwege misalignments in aandachtsverdeling, leidt directe toepassing van parallelle codering tot een aanzienlijke prestatiedaling. Om effectieve en efficiënte CAG mogelijk te maken, stellen we Adaptive Parallel Encoding (APE) voor, die gedeelde prefix, aandachtstemperatuur en schaalfactor introduceert om de verdeling van parallelle codering af te stemmen op sequentiële codering. Resultaten op RAG en ICL taken tonen aan dat APE 98% en 93% van de prestaties van sequentiële codering kan behouden met dezelfde invoer, terwijl het respectievelijk parallelle codering met 3.6% en 7.9% overtreft. Het schaalt ook naar many-shot CAG, waarbij effectief honderden contexten parallel worden gecodeerd. Efficiëntie-evaluatie toont aan dat APE een end-to-end versnelling van 4.5 keer kan bereiken door de voorbereidingstijd met 28 keer te verminderen voor een context van 128K lengte.
Steel-LLM is een op China gericht taalmodel dat vanaf nul is ontwikkeld met als doel een hoogwaardig, open-source model te creëren ondanks beperkte rekenkracht. Gelanceerd in maart 2024, had het project tot doel een model met 1 miljard parameters te trainen op een grootschalige dataset, met nadruk op transparantie en het delen van praktische inzichten om anderen in de gemeenschap te helpen. Het trainingsproces richtte zich voornamelijk op Chinese gegevens, met een klein deel Engelse gegevens, om lacunes in bestaande open-source LLM's aan te pakken door een gedetailleerder en praktischer verslag van de modelbouwreis te bieden. Steel-LLM heeft een concurrerende prestatie getoond op benchmarks zoals CEVAL en CMMLU, waarbij het vroegere modellen van grotere instellingen overtrof. Dit artikel biedt een uitgebreid overzicht van de belangrijkste bijdragen van het project, waaronder gegevensverzameling, modelontwerp, trainingsmethodologieën en de uitdagingen die onderweg zijn tegengekomen, en biedt een waardevolle bron voor onderzoekers en vakmensen die hun eigen LLM's willen ontwikkelen. De modelcontrolepunten en trainingscript zijn beschikbaar op https://github.com/zhanshijinwat/Steel-LLM.
Speculatieve decodering (SD) versnelt de inferentie van grote taalmodelmodellen door gebruik te maken van een kleiner conceptmodel om meerdere tokens te voorspellen, die vervolgens parallel worden geverifieerd door het grotere doelmodel. De beperkte capaciteit van het conceptmodel vereist echter vaak op boomgebaseerde steekproeven om de voorspellingsnauwkeurigheid te verbeteren, waarbij meerdere kandidaten bij elke stap worden gegenereerd. Wij identificeren een belangrijke beperking in deze aanpak: de kandidaten in dezelfde stap zijn afgeleid van dezelfde representatie, wat de diversiteit beperkt en de algehele effectiviteit vermindert. Om dit aan te pakken, stellen wij Jakiro voor, dat gebruikmaakt van Mixture of Experts (MoE), waarbij onafhankelijke experts diverse voorspellingen genereren, waardoor de correlaties tussen kandidaten effectief worden ontkoppeld. Bovendien introduceren wij een hybride inferentiestrategie, waarbij autoregressieve decodering voor initiële tokens wordt gecombineerd met parallelle decodering voor latere fasen, en versterken wij de laatste met een contrastief mechanisme in kenmerken om de nauwkeurigheid te verbeteren. Onze methode verbetert de voorspellingsnauwkeurigheid aanzienlijk en behaalt hogere inferentieversnellingen. Uitgebreide experimenten met diverse modellen valideren de effectiviteit en robuustheid van onze aanpak, waarmee een nieuwe SOTA in speculatieve decodering wordt gevestigd. Onze codes zijn beschikbaar op https://github.com/haiduo/Jakiro.
Robotmodellen die afhankelijk zijn van taal hebben het potentieel om robots in staat te stellen een breed scala aan taken uit te voeren op basis van natuurlijke taalinstructies. Het beoordelen van hun veiligheid en effectiviteit blijft echter uitdagend omdat het moeilijk is om alle verschillende manieren waarop een enkele taak kan worden verwoord te testen. Huidige benchmarks hebben twee belangrijke beperkingen: ze vertrouwen op een beperkte set door mensen gegenereerde instructies, missen veel uitdagende gevallen, en richten zich alleen op taakprestaties zonder veiligheid te beoordelen, zoals het vermijden van schade. Om deze hiaten aan te pakken, introduceren we Embodied Red Teaming (ERT), een nieuwe evaluatiemethode die diverse en uitdagende instructies genereert om deze modellen te testen. ERT maakt gebruik van geautomatiseerde red teaming-technieken met Vision Language Models (VLM's) om contextueel gefundeerde, moeilijke instructies te creëren. Experimentele resultaten tonen aan dat state-of-the-art robotmodellen die afhankelijk zijn van taal falen of onveilig gedrag vertonen bij door ERT gegenereerde instructies, waarbij de tekortkomingen van huidige benchmarks bij het evalueren van prestaties en veiligheid in de echte wereld worden benadrukt. Code en video's zijn beschikbaar op: https://s-karnik.github.io/embodied-red-team-project-page.
De ontwikkeling van robuuste veiligheidsbenchmarks voor grote taalmodellen vereist open, reproduceerbare datasets die zowel de juiste weigering van schadelijke inhoud als de mogelijke overbeperking van legitiem wetenschappelijk discours kunnen meten. Wij presenteren een open-source dataset en testframework voor het evalueren van veiligheidsmechanismen van grote taalmodellen, voornamelijk gericht op queries over gecontroleerde stoffen, waarbij de reacties van vier grote modellen op systematisch gevarieerde prompts worden geanalyseerd. Onze resultaten onthullen verschillende veiligheidsprofielen: Claude-3.5-sonnet toonde de meest conservatieve aanpak met 73% weigeringen en 27% toestemmingen, terwijl Mistral 100% van de queries probeerde te beantwoorden. GPT-3.5-turbo toonde een gematigde restrictie met 10% weigeringen en 90% toestemmingen, en Grok-2 registreerde 20% weigeringen en 80% toestemmingen. Het testen van promptvariatiestrategieën toonde een afnemende consistentie in reacties, van 85% bij enkele prompts tot 65% bij vijf variaties. Deze publiek beschikbare benchmark maakt een systematische evaluatie mogelijk van het kritieke evenwicht tussen noodzakelijke veiligheidsbeperkingen en mogelijke overcensuur van legitiem wetenschappelijk onderzoek, terwijl het een basis biedt voor het meten van voortgang in de implementatie van AI-veiligheid. Chain-of-thought-analyse onthult potentiële kwetsbaarheden in veiligheidsmechanismen, wat de complexiteit benadrukt van het implementeren van robuuste veiligheidsmaatregelen zonder ongewenste beperkingen op te leggen aan gewenst en geldig wetenschappelijk discours.