Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Qwen2.5-1M, een reeks modellen die de contextlengte uitbreiden naar 1 miljoen tokens. Vergeleken met de vorige 128K-versie hebben de Qwen2.5-1M-modellen aanzienlijk verbeterde mogelijkheden voor lange contexten door lang-context voorafgaande training en nascholing. Belangrijke technieken zoals langdatasynthese, progressieve voorafgaande training en meertraps begeleid fijnafstemmen worden gebruikt om effectief de prestaties van lange contexten te verbeteren terwijl de trainingskosten worden verlaagd. Om het gebruik van modellen met lange contexten onder een breder gebruikerspubliek te bevorderen, presenteren we en stellen we onze inferentiekader open-source beschikbaar. Dit kader omvat een lengte-extrapolatiemethode die de modelcontextlengtes met minstens vier keer, of zelfs meer, kan uitbreiden zonder extra training. Om inferentiekosten te verlagen, implementeren we een schaarse aandachtmethode samen met geoptimaliseerde vooraf invullen in stukken voor implementatiescenario's en een methode voor schaarste-verfijning om de precisie te verbeteren. Daarnaast beschrijven we onze optimalisaties in de inferentiemotor, inclusief kerneloptimalisatie, pijplijnparallelisme en planningsoptimalisatie, die de algehele inferentieprestaties aanzienlijk verbeteren. Door gebruik te maken van ons inferentiekader behalen de Qwen2.5-1M-modellen een opmerkelijke 3x tot 7x versnelling van het voorinvullen in scenario's met 1 miljoen tokens aan context. Dit kader biedt een efficiënte en krachtige oplossing voor het ontwikkelen van toepassingen die lange-contextverwerking vereisen met open-source modellen. De Qwen2.5-1M-serie omvat momenteel de open-source modellen Qwen2.5-7B-Instruct-1M en Qwen2.5-14B-Instruct-1M, evenals het via API toegankelijke model Qwen2.5-Turbo. Evaluaties tonen aan dat Qwen2.5-1M-modellen aanzienlijk zijn verbeterd in taken met lange contexten zonder de prestaties in scenario's met korte contexten in gevaar te brengen. Specifiek presteert het Qwen2.5-14B-Instruct-1M-model aanzienlijk beter dan GPT-4o-mini in taken met lange contexten en ondersteunt contexten die acht keer langer zijn.
We introduceren Baichuan-Omni-1.5, een omni-modaal model dat niet alleen omni-modale begripsmogelijkheden heeft, maar ook end-to-end audiogeneratiemogelijkheden biedt. Om vloeiende en hoogwaardige interactie over modaliteiten heen te bereiken zonder de mogelijkheden van enige modaliteit in gevaar te brengen, hebben we prioriteit gegeven aan het optimaliseren van drie belangrijke aspecten. Ten eerste hebben we een uitgebreide gegevensreinigings- en synthese-pijplijn opgezet voor multimodale gegevens, waarbij ongeveer 500B hoogwaardige gegevens (tekst, audio en visie) zijn verkregen. Ten tweede is er een audio-tokenizer (Baichuan-Audio-Tokenizer) ontworpen om zowel semantische als akoestische informatie uit audio vast te leggen, waardoor naadloze integratie en verbeterde compatibiliteit met MLLM mogelijk is. Ten slotte hebben we een meertraps trainingsstrategie ontworpen die progressief multimodale uitlijning en multitask fine-tuning integreert, met als doel effectieve synergie over alle modaliteiten te waarborgen. Baichuan-Omni-1.5 leidt hedendaagse modellen (inclusief GPT4o-mini en MiniCPM-o 2.6) wat betreft uitgebreide omni-modale mogelijkheden. Opmerkelijk genoeg behaalt het resultaten die vergelijkbaar zijn met toonaangevende modellen zoals Qwen2-VL-72B over verschillende multimodale medische benchmarks.
Reinforcement learning (RL) belooft een raamwerk voor bijna universele probleemoplossing. In de praktijk zijn RL-algoritmes echter vaak afgestemd op specifieke benchmarks, waarbij ze vertrouwen op zorgvuldig afgestemde hyperparameters en algoritmische keuzes. Onlangs hebben krachtige op modellen gebaseerde RL-methoden indrukwekkende algemene resultaten laten zien over benchmarks, maar dit gaat gepaard met een toename in complexiteit en langere looptijden, wat hun bredere toepasbaarheid beperkt. In dit artikel proberen we een verenigend modelvrij diep RL-algoritme te vinden dat een diverse klasse van domeinen en probleeminstellingen kan aanpakken. Om dit te bereiken, maken we gebruik van op modellen gebaseerde representaties die de waardefunctie bij benadering lineariseren, waarbij we profiteren van de dichtere taakdoelstellingen die worden gebruikt door op modellen gebaseerde RL, terwijl we de kosten vermijden die gepaard gaan met planning of gesimuleerde trajecten. We evalueren ons algoritme, MR.Q, op een verscheidenheid aan gangbare RL-benchmarks met een enkele set hyperparameters en tonen een competitieve prestatie ten opzichte van domeinspecifieke en algemene baselines, wat een concrete stap is in de richting van het ontwikkelen van modelvrije diepe RL-algoritmes voor algemeen gebruik.
Zoals bekend hebben hybride kwadratische en subkwadratische aandachtsmodellen in multi-head architecturen zowel Transformer- als Lineaire RNN-modellen overtroffen, waarbij deze werken zich voornamelijk richten op het verminderen van KV-complexiteit en het verbeteren van efficiëntie. Voor verder onderzoek naar expressiviteit introduceren we onze reeks modellen gedistilleerd uit Qwen 2.5, gebaseerd op pure inheemse RWKV-7 aandacht, die tot doel heeft RNN expressiever te maken en het vermogen tot toestandsopvolging te tonen dat verder gaat dan transformers. We werken met QRWK 32B gebaseerd op RWKV-6 architectuur, een andere benadering die de totale verwerkingstijd van kennis terugbrengt naar slechts 8 uur met behulp van 16 AMD MI300X GPU's, terwijl de prestaties van Qwen 2.5 behouden blijven. In feite kan het distillatieproces elk LLM gebruiken, niet alleen Qwen, en maakt het kennisoverdracht mogelijk van grotere LLM's naar kleinere met minder tokens. We zullen het gedetailleerde proces uitleggen en onze inzichten delen over het bouwen van krachtigere basismodellen. Houd er rekening mee dat dit een lopend werk is dat voortdurend zal worden bijgewerkt. De modelcontrolepunten en broncode zijn beschikbaar op https://github.com/yynil/RWKVInside, https://huggingface.co/RWKV-Red-Team/ARWKV-7B-Preview-0.1.
Recente ontwikkelingen in spraakgeneratie worden aangedreven door grootschalige trainingsdatasets. Echter, huidige modellen slagen er niet in om de spontaniteit en variabiliteit die inherent zijn aan menselijke spraak in de echte wereld vast te leggen, vanwege hun afhankelijkheid van audioboekdatasets die beperkt zijn tot formele voorleesstijlen. Om deze kloof te overbruggen, introduceren we Emilia-Pipe, een open-source voorverwerkingspijplijn om hoogwaardige trainingsgegevens te extraheren uit waardevolle maar onderbelichte in-the-wild gegevens die spontane menselijke spraak in echte contexten vastleggen. Door gebruik te maken van Emilia-Pipe, construeren we Emilia, de eerste meertalige spraakgeneratiedataset afgeleid van in-the-wild spraakgegevens. Deze dataset omvat meer dan 101k uur spraak in zes talen: Engels, Chinees, Duits, Frans, Japans en Koreaans. Bovendien breiden we Emilia uit naar Emilia-Large, een dataset van meer dan 216k uur, waardoor het de grootste open-source spraakgeneratiedataset is die beschikbaar is. Uitgebreide experimenten tonen aan dat Emilia aanzienlijk beter presteert dan traditionele audioboekdatasets bij het genereren van spontane en menselijke spraak, met een superieure prestatie in het vastleggen van diverse sprekerstemmen en spreekstijlen van menselijke spraak in de echte wereld. Bovendien benadrukt dit werk het belang van het vergroten van de datasetgrootte om spraakgeneratieonderzoek vooruit te helpen en valideert het de effectiviteit van Emilia voor zowel meertalige als crosslinguale spraakgeneratie.
We presenteren een nieuwe familie van mobiele hybride visienetwerken, genaamd iFormer, met de focus op het optimaliseren van latentie en nauwkeurigheid in mobiele toepassingen. iFormer integreert effectief de snelle lokale representatiecapaciteit van convolutie met de efficiënte wereldwijde modelleringsmogelijkheid van zelfaandacht. De lokale interacties zijn afgeleid van het transformeren van een standaard convolutienetwerk, d.w.z. ConvNeXt, om een meer lichtgewicht mobiel netwerk te ontwerpen. Onze nieuw geïntroduceerde mobiele modulatieaandacht verwijdert geheugenintensieve bewerkingen in MHA en maakt gebruik van een efficiënt modulatiemechanisme om de dynamische wereldwijde representatiecapaciteit te versterken. We voeren uitgebreide experimenten uit waaruit blijkt dat iFormer bestaande lichtgewicht netwerken overtreft bij verschillende taken. Opmerkelijk behaalt iFormer een indrukwekkende Top-1 nauwkeurigheid van 80,4% op ImageNet-1k met een latentie van slechts 1,10 ms op een iPhone 13, wat MobileNetV4 recentelijk voorgesteld overtreft onder vergelijkbare latentiebeperkingen. Bovendien toont onze methode significante verbeteringen in downstream taken, waaronder COCO-objectdetectie, instantiesegmentatie en ADE20k semantische segmentatie, terwijl het nog steeds een lage latentie behoudt op mobiele apparaten voor hoge-resolutie invoer in deze scenario's.
Het vergroten van de capaciteit van taalmodellen heeft consequent bewezen een betrouwbare aanpak te zijn om de prestaties te verbeteren en nieuwe mogelijkheden te ontsluiten. Capaciteit kan voornamelijk worden gedefinieerd door twee dimensies: het aantal modelparameters en de berekening per voorbeeld. Hoewel schalen doorgaans beide inhoudt, is de precieze wisselwerking tussen deze factoren en hun gecombineerde bijdrage aan de algehele capaciteit nog niet volledig begrepen. We verkennen deze relatie in de context van schaarse Mixture-of-Experts (MoE's), die het mogelijk maken om het aantal parameters te vergroten zonder de FLOPs per voorbeeld evenredig te verhogen. We onderzoeken hoe variatie in het spaarzaamheidsniveau, dat wil zeggen het percentage inactieve parameters, de prestaties van het model beïnvloedt tijdens pretraining en downstream few-shot evaluatie. We ontdekken dat er onder verschillende beperkingen (bijv. parametersgrootte en totale trainingsberekening) een optimaal niveau van spaarzaamheid is dat zowel de trainings-efficiëntie als de modelprestaties verbetert. Deze resultaten bieden een beter begrip van de impact van spaarzaamheid in schaalwetten voor MoE's en vullen bestaande werken op dit gebied aan, en bieden inzichten voor het ontwerpen van efficiëntere architecturen.
Het schalen van testtijd berekeningen is een veelbelovende aanpak om de mogelijkheden van LLM's te verbeteren. Echter, testtijd berekeningen kunnen op verschillende manieren worden geschaald, en het effectief combineren van verschillende benaderingen blijft een actief onderzoeksgebied. Hier verkennen we dit probleem in de context van het oplossen van echte GitHub problemen uit de SWE-bench dataset. Ons systeem, genaamd CodeMonkeys, stelt modellen in staat om iteratief een codebase te bewerken door gezamenlijk een testscript te genereren en uit te voeren naast hun conceptbewerking. We nemen veel van deze multi-turn trajecten voor elk probleem om een verzameling kandidaatbewerkingen te genereren. Deze aanpak stelt ons in staat om "seriële" testtijd berekeningen te schalen door het aantal iteraties per traject te verhogen en "parallelle" testtijd berekeningen te schalen door het aantal trajecten per probleem te verhogen. Met parallelle schaling kunnen we de initiële kosten verdelen over meerdere downstream monsters, waardoor we relevante codebase-context kunnen identificeren door een LLM elk bestand te laten lezen. Om tussen kandidaatbewerkingen te selecteren, combineren we stemmen met behulp van door het model gegenereerde tests met een uiteindelijke multi-turn traject dat is gewijd aan selectie. Over het algemeen lost CodeMonkeys 57,4% van de problemen van SWE-bench Verified op met een budget van ongeveer 2300 USD. Onze selectiemethode kan ook worden gebruikt om kandidaten van verschillende bronnen te combineren. Door te selecteren uit een ensemble van bewerkingen van bestaande top SWE-bench Verified inzendingen behalen we een score van 66,2% en presteren we beter dan het beste lid van het ensemble op zichzelf. We publiceren onze code en gegevens volledig op https://scalingintelligence.stanford.edu/pubs/codemonkeys.
Visie-taalmodellen (VLM's) hebben in slechts een paar jaar het landschap van computerzichtmodellen drastisch veranderd, met een opwindende reeks nieuwe toepassingen, variërend van zero-shot beeldclassificatie tot beeldbijschriften en visuele vraagbeantwoording. In tegenstelling tot pure visiemodellen bieden ze een intuïtieve manier om toegang te krijgen tot visuele inhoud via taalprompting. De brede toepasbaarheid van dergelijke modellen moedigt ons aan om ons af te vragen of ze ook in lijn zijn met menselijke visie - specifiek, in hoeverre ze door mensen geïnduceerde visuele vooroordelen aannemen via multimodale fusie, of dat ze eenvoudigweg vooroordelen erven van pure visiemodellen. Een belangrijk visueel vooroordeel is het textuur versus vorm-vooroordeel, of de dominantie van lokale boven globale informatie. In dit artikel bestuderen we dit vooroordeel in een breed scala van populaire VLM's. Interessant genoeg ontdekken we dat VLM's vaak meer vorm-georiënteerd zijn dan hun visie-encoders, wat aangeeft dat visuele vooroordelen in zekere mate worden gemoduleerd door tekst in multimodale modellen. Als tekst inderdaad visuele vooroordelen beïnvloedt, suggereert dit dat we visuele vooroordelen niet alleen kunnen sturen via visuele input, maar ook via taal: een hypothese die we bevestigen door uitgebreide experimenten. Zo kunnen we bijvoorbeeld het vormvooroordeel sturen van zo laag als 49% tot zo hoog als 72% alleen door prompting. Op dit moment blijft het sterke menselijke vooroordeel ten gunste van vorm (96%) buiten bereik voor alle geteste VLM's.
Staatsruimtemodellen (SSM's) zijn naar voren gekomen als efficiënte alternatieven voor Transformers voor sequentiële modellering, maar hun onvermogen om modus-specifieke kenmerken te benutten beperkt hun prestaties bij multimodale vooraftraining. Hier stellen we Mixture-of-Mamba voor, een nieuw SSM-architectuur die modaliteitsbewuste spaarzaamheid introduceert door modaliteitspecifieke parameterisatie van het Mamba-blok. Voortbouwend op Mixture-of-Transformers (W. Liang et al. arXiv:2411.04996; 2024), breiden we de voordelen van modaliteitsbewuste spaarzaamheid uit naar SSM's terwijl we hun rekenkundige efficiëntie behouden. We evalueren Mixture-of-Mamba in drie multimodale vooraftrainingsscenario's: Transfusion (geïnterlinieerde tekst en continue beeldtokens met diffusieverlies), Chameleon (geïnterlinieerde tekst en discrete beeldtokens), en een uitgebreid driedelige modusraamwerk met spraak. Mixture-of-Mamba bereikt consequent dezelfde verlieswaarden in eerdere trainingsfasen met aanzienlijk verminderde rekenkosten. In de Transfusion-instelling behaalt Mixture-of-Mamba een equivalent beeldverlies met slechts 34.76% van de trainings-FLOPs op schaal 1.4B. In de Chameleon-instelling bereikt Mixture-of-Mamba vergelijkbaar beeldverlies met slechts 42.50% van de FLOPs op schaal 1.4B, en vergelijkbaar tekstverlies met slechts 65.40% van de FLOPs. In de driedelige modusinstelling bereikt MoM spraakverlies met 24.80% van de FLOPs op schaal 1.4B. Onze ablatiestudie benadrukt de synergetische effecten van het ontkoppelen van projectiecomponenten, waarbij gezamenlijk ontkoppelen grotere voordelen oplevert dan individuele aanpassingen. Deze resultaten vestigen modaliteitsbewuste spaarzaamheid als een veelzijdig en effectief ontwerpprincipe, waarbij de impact ervan wordt uitgebreid van Transformers naar SSM's en nieuwe maatstaven worden gezet in multimodale vooraftraining. Onze code is beschikbaar op https://github.com/Weixin-Liang/Mixture-of-Mamba.
Classifier-Free Guidance (CFG) is een standaard techniek geweest in verschillende visuele generatieve modellen, maar het vereist inferentie van zowel conditionele als onvoorwaardelijke modellen tijdens het monsteren. Wij stellen voor om visuele modellen te bouwen die vrij zijn van geleide monstering. Het resulterende algoritme, Guidance-Free Training (GFT), evenaart de prestaties van CFG terwijl het monsteren wordt teruggebracht tot een enkel model, waardoor de computationele kosten worden gehalveerd. In tegenstelling tot eerdere op distillatie gebaseerde benaderingen die vertrouwen op vooraf getrainde CFG-netwerken, maakt GFT rechtstreeks trainen vanaf nul mogelijk. GFT is eenvoudig te implementeren. Het behoudt hetzelfde maximum likelihood doel als CFG en verschilt voornamelijk in de parameterisatie van conditionele modellen. Het implementeren van GFT vereist slechts minimale aanpassingen aan bestaande codebases, aangezien de meeste ontwerpkeuzes en hyperparameters rechtstreeks zijn overgenomen van CFG. Onze uitgebreide experimenten over vijf verschillende visuele modellen tonen de effectiviteit en veelzijdigheid van GFT aan. Over verschillende domeinen van diffusie, autoregressie en gemaskeerde voorspellingsmodellering behaalt GFT consequent vergelijkbare of zelfs lagere FID-scores, met vergelijkbare diversiteit-fidelity-afwegingen in vergelijking met CFG-baselines, allemaal zonder begeleiding. De code zal beschikbaar zijn op https://github.com/thu-ml/GFT.
Aanpasbaar rollenspel in grote taalmodellen (LLM's), ook bekend als karaktergeneralisatie, krijgt steeds meer aandacht vanwege de veelzijdigheid en kostenefficiëntie bij het ontwikkelen en implementeren van rollenspelende dialoogagenten. Deze studie onderzoekt een grootschalige gegevenssynthesebenadering om LLM's uit te rusten met karaktergeneralisatiecapaciteiten. We beginnen met het synthetiseren van grootschalige karakterprofielen met behulp van persona's van Persona Hub en verkennen vervolgens twee strategieën: respons herschrijven en respons genereren, om karaktergerichte instructieresponsen te creëren. Om de effectiviteit van onze synthetische instructie-afstemmingsgegevens voor karaktergeneralisatie te valideren, voeren we begeleid fijnafstemmen (SFT) uit met behulp van het LLaMA-3 8B-model. Ons best presterende model versterkt het oorspronkelijke LLaMA-3 8B Instruct-model en behaalt prestaties vergelijkbaar met GPT-4o-modellen in rollenspelende dialogen. We stellen onze synthetische karakters en instructie-afstemmingsdialogen beschikbaar ter ondersteuning van openbaar onderzoek.
De dominantie van grote taalmodellen met alleen decoders heeft de encoder-decoderarchitecturen overschaduwd, ondanks hun fundamentele efficiëntievoordelen bij sequentieverwerking. Voor kleine taalmodellen (SLM's) - die 1 miljard parameters of minder hebben - onthult onze systematische analyse over GPU, CPU en NPU-platforms dat encoder-decoderarchitecturen 47% lagere latentie van het eerste token en 4,7x hogere doorvoer bereiken in vergelijking met alleen decodermodellen op edge-apparaten. Deze winsten kunnen worden toegeschreven aan de eenmalige verwerking van invoer en efficiënte scheiding van begrip en generatiefasen. We introduceren een nieuw kennisdistillatiekader dat encoder-decodermodellen in staat stelt om capaciteiten van grote schaalbare alleen-decoderdocenten te benutten, terwijl ze hun architecturale voordelen behouden, met een verbetering van maximaal 6 gemiddelde prestatiepunten over diverse taken, met aanzienlijke winsten bij asymmetrische sequentietaken waar invoer- en uitvoerdistributies kunnen profiteren van verschillende verwerkingsbenaderingen. In combinatie met moderne ontwikkelingen zoals RoBu (Rotary Positional Embeddings) en Vision-encoders, toont ons systematisch onderzoek aan dat encoder-decoderarchitecturen een praktischer pad bieden voor het implementeren van capabele taalmodellen in omgevingen met beperkte middelen. Onze bevindingen dagen de heersende trend van alleen decoder-schaling uit, waarbij wordt aangetoond dat architecturale keuzes steeds crucialer worden naarmate de parameterbudgetten afnemen, met name voor on-device en edge-implementaties waar computationele efficiëntie van essentieel belang is.
We introduceren Feasible Learning (FL), een op monsters gericht leerperspectief waarbij modellen worden getraind door een haalbaarheidsprobleem op te lossen dat de verlieslimiet voor elk trainingsmonster begrenst. In tegenstelling tot het alomtegenwoordige Empirical Risk Minimization (ERM) kader, dat optimaliseert voor gemiddelde prestaties, eist FL bevredigende prestaties op elk individueel gegevenspunt. Aangezien elk model dat voldoet aan de voorgeschreven prestatiedrempel een geldige FL-oplossing is, spelen de keuze van optimalisatiealgoritme en de dynamiek ervan een cruciale rol bij het vormgeven van de eigenschappen van de resulterende oplossingen. In het bijzonder bestuderen we een primair-dualistische benadering die tijdens de training dynamisch de belangrijkheid van elk monster herweegt. Om de uitdaging van het instellen van een zinvolle drempel in de praktijk aan te pakken, introduceren we een versoepeling van FL die slakvariabelen van minimale norm opneemt. Onze empirische analyse, die zich uitstrekt over beeldclassificatie, leeftijdsregressie en voorkeursoptimalisatie in grote taalmodellen, toont aan dat modellen die via FL zijn getraind kunnen leren van gegevens terwijl ze een verbeterd staartgedrag vertonen in vergelijking met ERM, met slechts een marginaal effect op gemiddelde prestaties.