Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit rapport introduceert de Qwen2-serie, de nieuwste toevoeging aan onze grote taalmodelen en grote multimodale modellen. We brengen een uitgebreide reeks van fundamentele en instructie-afgestemde taalmodelen uit, met een parameterbereik van 0,5 tot 72 miljard, waaronder dichte modellen en een Mixture-of-Experts-model. Qwen2 overtreft de meeste eerdere open-gewicht modellen, inclusief zijn voorganger Qwen1.5, en vertoont een competitieve prestaties in vergelijking met propriëtaire modellen op diverse benchmarks voor taalbegrip, generatie, meertaligheid, coderen, wiskunde en redeneren. Het vlaggenschipmodel, Qwen2-72B, toont opmerkelijke prestaties: 84,2 op MMLU, 37,9 op GPQA, 64,6 op HumanEval, 89,5 op GSM8K, en 82,4 op BBH als een basis taalmodel. De instructie-afgestemde variant, Qwen2-72B-Instruct, behaalt 9,1 op MT-Bench, 48,1 op Arena-Hard, en 35,7 op LiveCodeBench. Bovendien toont Qwen2 robuuste meertalige capaciteiten, vaardig in ongeveer 30 talen, waaronder Engels, Chinees, Spaans, Frans, Duits, Arabisch, Russisch, Koreaans, Japans, Thai, Vietnamees en meer, wat zijn veelzijdigheid en wereldwijde reikwijdte onderstreept. Om gemeenschapsinnovatie en toegankelijkheid te bevorderen, hebben we de Qwen2-modelgewichten openbaar beschikbaar gemaakt op Hugging Face1 en ModelScope2, en de aanvullende materialen inclusief voorbeeldcode op GitHub3. Deze platforms bevatten ook bronnen voor kwantisatie, fine-tuning en implementatie, wat een breed scala aan toepassingen en onderzoeksinspanningen vergemakkelijkt.
Grote taalmodellen (LLMs) vertonen opmerkelijke capaciteiten in het begrijpen en genereren van natuurlijke taal. Deze modellen kunnen echter onbedoeld privé-informatie onthouden, wat aanzienlijke privacyrisico's met zich meebrengt. Deze studie richt zich op de uitdaging om LLMs in staat te stellen de privégegevens van specifieke individuen te beschermen zonder dat volledige hertraining nodig is. Wij stellen \return voor, een Real-world pErsonal daTa UnleaRNing-dataset, bestaande uit 2.492 individuen van Wikipedia met bijbehorende vraag-antwoordparen, om machine unlearning (MU)-methoden te evalueren voor het beschermen van persoonlijke gegevens in een realistische scenario. Daarnaast introduceren we het Name-Aware Unlearning Framework (NAUF) voor Privacy Protection, dat het model in staat stelt te leren welke individuele informatie beschermd moet worden zonder dat het vermogen om vragen over andere niet-gerelateerde individuen te beantwoorden wordt aangetast. Onze uitgebreide experimenten tonen aan dat NAUF een state-of-the-art gemiddelde unlearning-score behaalt, die de beste baseline-methode met 5,65 punten overtreft, en effectief de persoonlijke gegevens van doelindividuen beschermt terwijl de algemene capaciteiten van het model behouden blijven.
Recente onderzoeken hebben de schaalwetten in het veld van Embodied AI verkend. Gezien de buitensporige kosten van het verzamelen van real-world data, geloven we dat het Simulation-to-Real (Sim2Real) paradigma een cruciale stap is voor het opschalen van het leren van embodied modellen. Dit artikel introduceert project GRUtopia, de eerste gesimuleerde interactieve 3D-samenleving ontworpen voor diverse robots. Het bevat verschillende verbeteringen: (a) De scène dataset, GRScenes, omvat 100k interactieve, fijn geannoteerde scènes, die vrij kunnen worden gecombineerd tot stadsomgevingen. In tegenstelling tot eerdere werken die zich vooral op huizen richtten, beslaat GRScenes 89 diverse scènecategorieën, waardoor de kloof wordt overbrugd van servicegerichte omgevingen waar algemene robots aanvankelijk zouden worden ingezet. (b) GRResidents, een Large Language Model (LLM) gedreven Non-Player Character (NPC) systeem dat verantwoordelijk is voor sociale interactie, taakgeneratie en taaktoewijzing, waardoor sociale scenario's worden gesimuleerd voor embodied AI toepassingen. (c) De benchmark, GRBench, ondersteunt diverse robots maar richt zich vooral op potenrobots als primaire agenten en stelt matig uitdagende taken voor die Object Loco-Navigatie, Sociale Loco-Navigatie en Loco-Manipulatie omvatten. We hopen dat dit werk het gebrek aan hoogwaardige data in dit veld kan verlichten en een meer uitgebreide beoordeling van Embodied AI onderzoek kan bieden. Het project is beschikbaar op https://github.com/OpenRobotLab/GRUtopia.
Huidige evaluaties van grote taalmodellen (LLM's) negeren vaak non-determinisme, waarbij meestal wordt gefocust op een enkele uitvoer per voorbeeld. Dit beperkt ons begrip van de prestatievariabiliteit van LLM's in real-world toepassingen. Onze studie behandelt dit probleem door belangrijke vragen te onderzoeken over de prestatieverschillen tussen greedy decoding en sampling, de consistentie van benchmarks met betrekking tot non-determinisme te identificeren, en unieke modelgedragingen te analyseren. Door uitgebreide experimenten observeren we dat greedy decoding over het algemeen beter presteert dan samplingmethoden voor de meeste geëvalueerde taken. We zien ook consistente prestaties bij verschillende LLM-groottes en alignatiemethoden, waarbij we opmerken dat alignatie de samplingvariantie kan verminderen. Bovendien toont onze best-of-N sampling-benadering aan dat kleinere LLM's grotere modellen zoals GPT-4-Turbo kunnen evenaren of overtreffen, wat het onbenutte potentieel van kleinere LLM's benadrukt. Dit onderzoek toont het belang aan van het overwegen van non-determinisme in LLM-evaluaties en biedt inzichten voor toekomstige LLM-ontwikkeling en -evaluatie.
We introduceren Q-Sparse, een eenvoudige maar effectieve aanpak voor het trainen van spaarzaam geactiveerde grote taalmmodellen (LLMs). Q-Sparse maakt volledige sparsity van activaties in LLMs mogelijk, wat aanzienlijke efficiëntiewinsten kan opleveren tijdens inferentie. Dit wordt bereikt door top-K-sparsificatie toe te passen op de activaties en de straight-through-estimator tijdens het trainen. De belangrijkste resultaten van dit werk zijn: (1) Q-Sparse kan resultaten behalen die vergelijkbaar zijn met die van baseline LLMs, terwijl het veel efficiënter is tijdens inferentie; (2) We presenteren een inferentie-optimale schaalwet voor spaarzaam geactiveerde LLMs; (3) Q-Sparse is effectief in verschillende settings, waaronder training vanaf nul, door-training van kant-en-klare LLMs, en finetuning; (4) Q-Sparse werkt zowel voor LLMs met volledige precisie als voor 1-bit LLMs (bijv. BitNet b1.58). In het bijzonder biedt de synergie van BitNet b1.58 en Q-Sparse (die kan worden uitgerust met MoE) de hoeksteen en een duidelijk pad om de efficiëntie, inclusief kosten en energieverbruik, van toekomstige LLMs te revolutioneren.
Naarmate grote taalmmodellen (LLMs) zich verder ontwikkelen, wordt het steeds uitdagender om hun uitvoer betrouwbaar te evalueren vanwege de hoge kosten van menselijke evaluatie. Om vooruitgang te boeken naar betere LLM-autoraters, introduceren we FLAMe, een familie van Foundational Large Autorater Models. FLAMe is getraind op onze grote en diverse verzameling van 100+ kwaliteitsbeoordelingstaken, bestaande uit meer dan 5 miljoen menselijke oordelen, die zijn samengesteld en gestandaardiseerd met behulp van openbaar vrijgegeven menselijke evaluaties uit eerder onderzoek. FLAMe verbetert de generalisatie aanzienlijk naar een breed scala aan achtergehouden taken en presteert beter dan LLMs die zijn getraind op propriëtaire data, zoals GPT-4 en Claude-3, bij veel taken. We laten zien dat FLAMe ook kan dienen als een krachtig uitgangspunt voor verdere downstream fine-tuning, waarbij we reward modeling evaluatie als casestudy gebruiken (FLAMe-RM). Opvallend is dat op RewardBench ons FLAMe-RM-24B-model (met een nauwkeurigheid van 87,8%) het best presterende generatieve model is dat uitsluitend is getraind op permissief gelicenseerde data, en zowel GPT-4-0125 (85,9%) als GPT-4o (84,7%) overtreft. Daarnaast verkennen we een rekenkundig efficiëntere aanpak met behulp van een nieuwe tail-patch fine-tuning strategie om onze FLAMe multitask-mix te optimaliseren voor reward modeling evaluatie (FLAMe-Opt-RM), wat een competitieve RewardBench-prestatie biedt terwijl ongeveer 25x minder trainingsdatapunten nodig zijn. Over het algemeen overtreffen onze FLAMe-varianten alle populaire propriëtaire LLM-as-a-Judge-modellen die we beschouwen op 8 van de 12 autorater-evaluatiebenchmarks, die 53 kwaliteitsbeoordelingstaken omvatten, waaronder RewardBench en LLM-AggreFact. Ten slotte laat onze analyse zien dat FLAMe aanzienlijk minder bevooroordeeld is dan deze LLM-as-a-Judge-modellen op de CoBBLEr autorater bias benchmark, terwijl het effectief hoogwaardige antwoorden identificeert voor codegeneratie.
Kunnen we een controlebeleid voor een agent genereren met slechts één demonstratie van gewenst gedrag als prompt, net zo moeiteloos als het creëren van een afbeelding vanuit een tekstuele beschrijving? In dit artikel presenteren we Make-An-Agent, een nieuwe beleidsparametergenerator die gebruikmaakt van de kracht van conditionele diffusiemodellen voor gedrag-naar-beleid-generatie. Geleid door gedragsinbeddingen die trajectinformatie coderen, synthetiseert onze beleidsgenerator latente parameterrepresentaties, die vervolgens kunnen worden gedecodeerd in beleidsnetwerken. Getraind op beleidsnetwerkcheckpoints en hun bijbehorende trajecten, toont ons generatiemodel opmerkelijke veelzijdigheid en schaalbaarheid bij meerdere taken en heeft het een sterke generalisatiecapaciteit op onbekende taken om goed presterende beleidsregels te produceren met slechts enkele demonstraties als invoer. We demonstreren de effectiviteit en efficiëntie ervan in verschillende domeinen en taken, waaronder variërende doelstellingen, gedragingen en zelfs over verschillende robotmanipulatoren. Naast simulatie implementeren we beleidsregels die door Make-An-Agent zijn gegenereerd direct op echte robots bij voortbewegingstaken.
Hoewel text-to-image diffusiemodellen state-of-the-art resultaten hebben behaald in beeld synthese, moeten ze hun effectiviteit in downstream toepassingen nog bewijzen. Eerder werk heeft voorgesteld om data te genereren voor de training van beeldclassificatiemodellen bij beperkte toegang tot echte data. Deze methoden hebben echter moeite om in-distributiebeelden te genereren of fijnmazige kenmerken weer te geven, wat de generalisatie van classificatiemodellen die op synthetische datasets zijn getraind, belemmert. Wij stellen DataDream voor, een raamwerk voor het synthetiseren van classificatiedatasets die de echte dataverdeling getrouwer weergeven wanneer ze worden begeleid door few-shot voorbeelden van de doelklassen. DataDream fine-tunt LoRA-gewichten voor het beeldgeneratiemodel op de weinige echte afbeeldingen voordat de trainingsdata wordt gegenereerd met het aangepaste model. Vervolgens fine-tunen we LoRA-gewichten voor CLIP met behulp van de synthetische data om downstream beeldclassificatie te verbeteren ten opzichte van eerdere benaderingen op een grote verscheidenheid aan datasets. We demonstreren de effectiviteit van DataDream door uitgebreide experimenten, waarbij we state-of-the-art classificatienauwkeurigheid met few-shot data overtreffen op 7 van de 10 datasets, terwijl we competitief zijn op de andere 3. Daarnaast geven we inzicht in de impact van verschillende factoren, zoals het aantal real-shot en gegenereerde afbeeldingen, evenals de fine-tuning compute op modelprestaties. De code is beschikbaar op https://github.com/ExplainableML/DataDream.
Video-to-audio (V2A) generatie maakt gebruik van visuele video-eigenschappen om geloofwaardige geluiden te creëren die bij de scène passen. Het is belangrijk dat de gegenereerde geluidsaanzetten overeenkomen met de visuele acties waarmee ze zijn uitgelijnd, anders ontstaan er onnatuurlijke synchronisatie-artefacten. Recente onderzoeken hebben de voortgang verkend van het conditioneren van geluidsgeneratoren op stilstaande beelden en vervolgens op video-eigenschappen, waarbij de focus lag op kwaliteit en semantische overeenkomst terwijl synchronisatie werd genegeerd, of door een deel van de kwaliteit op te offeren om alleen de synchronisatie te verbeteren. In dit werk stellen we een V2A generatief model voor, genaamd MaskVAT, dat een full-band high-quality algemene audiocodec verbindt met een sequence-to-sequence gemaskerd generatief model. Deze combinatie maakt het mogelijk om zowel hoge audiokwaliteit, semantische overeenkomst als temporele synchroniteit tegelijkertijd te modelleren. Onze resultaten laten zien dat, door een high-quality codec te combineren met de juiste vooraf getrainde audio-visuele eigenschappen en een sequence-to-sequence parallelle structuur, we enerzijds sterk gesynchroniseerde resultaten kunnen behalen, terwijl we anderzijds competitief zijn met de state-of-the-art van niet-codec generatieve audiomodellen. Voorbeeldvideo's en gegenereerde audio's zijn beschikbaar op https://maskvat.github.io.
We introduceren een nieuwe familie van videovoorspellingsmodellen die zijn ontworpen om downstream controle taken te ondersteunen. We noemen deze modellen Video Occupancy modellen (VOCs). VOCs werken in een compacte latente ruimte, waardoor het niet nodig is om voorspellingen te maken over individuele pixels. In tegenstelling tot eerdere latente-ruimte wereldmodellen, voorspellen VOCs direct de verdisconteerde verdeling van toekomstige toestanden in één stap, waardoor het niet nodig is om multistep roll-outs uit te voeren. We laten zien dat beide eigenschappen gunstig zijn bij het bouwen van voorspellende modellen van video voor gebruik in downstream controle. Code is beschikbaar op https://github.com/manantomar/video-occupancy-models{github.com/manantomar/video-occupancy-models}.
Data science- en engineering-workflows omvatten vaak meerdere fasen, van datawarehousing tot orchestratie, waarbij tools zoals BigQuery, dbt en Airbyte worden gebruikt. Naarmate vision language models (VLMs) vorderen in multimodale begripsvorming en codegeneratie, zouden VLM-gebaseerde agents deze workflows mogelijk kunnen automatiseren door SQL-query's, Python-code en GUI-bewerkingen te genereren. Deze automatisering kan de productiviteit van experts verbeteren en tegelijkertijd toegang tot grootschalige data-analyse democratiseren. In dit artikel introduceren we Spider2-V, de eerste multimodale agentbenchmark die zich richt op professionele data science- en engineering-workflows, met 494 real-world taken in authentieke computeromgevingen en de integratie van 20 enterprise-level professionele applicaties. Deze taken, afgeleid van real-world use cases, evalueren het vermogen van een multimodale agent om data-gerelateerde taken uit te voeren door code te schrijven en de GUI te beheren in enterprise data-softwaresystemen. Om een realistische simulatie te combineren met evaluatie-eenvoud, hebben we aanzienlijke inspanningen geleverd aan het ontwikkelen van automatische configuraties voor taakopzet en het zorgvuldig ontwerpen van evaluatiemetrics voor elke taak. Bovendien voorzien we multimodale agents van uitgebreide documentatie van deze enterprise data-softwaresystemen. Onze empirische evaluatie toont aan dat bestaande state-of-the-art LLM/VLM-gebaseerde agents niet betrouwbaar volledige data-workflows automatiseren (14,0% succes). Zelfs met stapsgewijze begeleiding presteren deze agents nog steeds onder de maat in taken die fijnmazige, kennisintensieve GUI-acties vereisen (16,2%) en werken in externe cloud-gehoste werkruimten (10,6%). We hopen dat Spider2-V de weg vrijmaakt voor autonome multimodale agents om de automatisering van data science- en engineering-workflows te transformeren. Onze code en data zijn beschikbaar op https://spider2-v.github.io.
Parameter-efficient transfer learning (PETL) is uitgegroeid tot een bloeiend onderzoeksveld voor het aanpassen van grote vooraf getrainde modellen aan downstream taken, waarbij het aantal trainbare parameters aanzienlijk wordt verminderd terwijl wordt omgegaan met geheugenuitdagingen tijdens fine-tuning. Om dit aan te pakken, vermijden geheugenefficiënte series (METL) het terugpropageren van gradients door de grote backbone. Dit gaat echter ten koste van het uitsluitend vertrouwen op bevroren tussenliggende outputs en het beperken van de uitgebreide exploratie van voorkennis uit vooraf getrainde modellen. Bovendien worden de afhankelijkheid en redundantie tussen cross-layer features vaak over het hoofd gezien, waardoor meer onderscheidende representaties ondergesneeuwd raken en een inherent prestatiegat ontstaat (ten opzichte van conventionele PETL-methoden). Daarom stellen we een innovatieve METL-strategie voor, genaamd SHERL, voor scenario's met beperkte middelen, waarbij de volledige aanpassing wordt ontkoppeld in twee opeenvolgende en complementaire processen. In de vroege route worden tussenliggende outputs geconsolideerd via een anti-redundantie operatie, waardoor hun compatibiliteit voor latere interacties wordt verbeterd; in de late route kan het gebruik van minimale late vooraf getrainde lagen de piekvraag naar geheugenoverhead verlichten en deze vrij flexibele features reguleren tot meer adaptieve en krachtige representaties voor nieuwe domeinen. Uitgebreide ablatie-experimenten op visueel-taalkundige en alleen-taalkundige taken tonen aan dat SHERL de sterke punten combineert van zowel parameter- als geheugenefficiënte technieken, en presteert op gelijk niveau of beter over diverse architecturen met lager geheugengebruik tijdens fine-tuning. Onze code is publiekelijk beschikbaar op: https://github.com/Paranioar/SHERL.
Er bestaat een wijdverbreid optimisme dat frontier Large Language Models (LLM's) en LLM-augmented systemen het potentieel hebben om wetenschappelijke ontdekkingen in verschillende disciplines snel te versnellen. Tegenwoordig bestaan er veel benchmarks om de kennis en het redeneervermogen van LLM's te meten aan de hand van leerboekachtige wetenschappelijke vragen, maar er zijn weinig tot geen benchmarks ontworpen om de prestaties van taalmodelen te evalueren op praktische taken die nodig zijn voor wetenschappelijk onderzoek, zoals literatuuronderzoek, protocolplanning en data-analyse. Als een stap naar het opbouwen van dergelijke benchmarks introduceren we de Language Agent Biology Benchmark (LAB-Bench), een uitgebreide dataset van meer dan 2.400 meerkeuzevragen om AI-systemen te evalueren op een reeks praktische biologie-onderzoeksvaardigheden, waaronder het ophalen en redeneren over literatuur, het interpreteren van figuren, het toegang krijgen tot en navigeren door databases, en het begrijpen en manipuleren van DNA- en eiwitsequenties. Belangrijk is dat, in tegenstelling tot eerdere wetenschappelijke benchmarks, we verwachten dat een AI-systeem dat consistent hoge scores behaalt op de moeilijkere LAB-Bench-taken, een nuttige assistent zou zijn voor onderzoekers op gebieden zoals literatuuronderzoek en moleculair klonen. Als een eerste beoordeling van de opkomende wetenschappelijke taakcapaciteiten van frontier taalmodelen, meten we de prestaties van verschillende modellen tegen onze benchmark en rapporteren we de resultaten in vergelijking met menselijke expert-onderzoekers in de biologie. We zullen LAB-Bench in de loop van de tijd blijven updaten en uitbreiden, en verwachten dat het een nuttig hulpmiddel zal zijn bij de ontwikkeling van geautomatiseerde onderzoekssystemen in de toekomst. Een openbare subset van LAB-Bench is beschikbaar voor gebruik op de volgende URL: https://huggingface.co/datasets/futurehouse/lab-bench
Om de kwaliteit van gesynthetiseerde video's te verbeteren, is een van de meest gangbare methoden momenteel het opnieuw trainen van een expert diffusiemodel en vervolgens het toepassen van een ruis-ontruisingsproces voor verfijning. Ondanks de aanzienlijke trainingskosten blijft het behouden van consistentie in de inhoud tussen de originele en verbeterde video's een grote uitdaging. Om deze uitdaging aan te pakken, stellen we een nieuwe formulering voor die zowel de visuele kwaliteit als de consistentie van de inhoud in overweging neemt. Consistentie van de inhoud wordt gewaarborgd door een voorgestelde verliesfunctie die de structuur van de input behoudt, terwijl de visuele kwaliteit wordt verbeterd door gebruik te maken van het ontruisingsproces van vooraf getrainde diffusiemodellen. Om het geformuleerde optimalisatieprobleem aan te pakken, hebben we een plug-and-play ruisoptimalisatiestrategie ontwikkeld, genaamd Noise Calibration. Door de initiële willekeurige ruis te verfijnen via een paar iteraties, kan de inhoud van de originele video grotendeels behouden blijven, en het verbeteringseffect toont een aanzienlijke vooruitgang. Uitgebreide experimenten hebben de effectiviteit van de voorgestelde methode aangetoond.
De meeste momenteel ingezette grote taalmodellen (LLM's) ondergaan continue training of aanvullende finetuning. In tegenstelling hiermee richt het meeste onderzoek naar de interne mechanismen van LLM's zich op modellen op één moment in de tijd (het einde van de pre-training), wat de vraag oproept of hun resultaten generaliseerbaar zijn naar real-world situaties. Bestaande studies naar mechanismen over tijd richten zich op encoder-only of speelgoedmodellen, die aanzienlijk verschillen van de meeste ingezette modellen. In deze studie volgen we hoe modelmechanismen, geoperationaliseerd als circuits, ontstaan en evolueren over 300 miljard tokens van training in decoder-only LLM's, in modellen variërend van 70 miljoen tot 2,8 miljard parameters. We ontdekken dat taakvaardigheden en de functionele componenten die deze ondersteunen consistent ontstaan bij vergelijkbare tokenaantallen over verschillende schalen. Bovendien, hoewel dergelijke componenten in de loop van de tijd door verschillende aandachtskoppen kunnen worden geïmplementeerd, blijft het overkoepelende algoritme dat ze implementeren hetzelfde. Verrassend genoeg kunnen zowel deze algoritmen als de typen componenten die daarbij betrokken zijn zich repliceren over modelschaal. Deze resultaten suggereren dat circuitanalyses uitgevoerd op kleine modellen aan het einde van de pre-training inzichten kunnen bieden die nog steeds van toepassing zijn na aanvullende pre-training en over modelschaal.
Het Mutual Reinforcement Effect (MRE) vertegenwoordigt een veelbelovende richting in onderzoek naar informatie-extractie en multitasking. Desalniettemin is de toepasbaarheid ervan beperkt gebleven vanwege de exclusieve beschikbaarheid van MRE-mixdatasets in het Japans, wat een uitgebreide verkenning door de wereldwijde onderzoeksgemeenschap in de weg staat. Om deze beperking aan te pakken, introduceren we een Multilingual MRE-mixdataset (MMM) die 21 subdatasets omvat in het Engels, Japans en Chinees. In dit artikel stellen we ook een methode voor voor datasetvertaling ondersteund door Large Language Models (LLMs), die de benodigde tijd voor handmatige annotatie bij de constructie van datasets aanzienlijk vermindert door gebruik te maken van LLMs om de originele Japanse datasets te vertalen. Daarnaast hebben we de dataset verrijkt door open-domain Named Entity Recognition (NER) en zinsclassificatietaken toe te voegen. Met behulp van deze uitgebreide dataset hebben we een uniform input-output raamwerk ontwikkeld om een Open-domain Information Extraction Large Language Model (OIELLM) te trainen. Het OIELLM-model toont de mogelijkheid om nieuwe MMM-datasets effectief te verwerken, waarbij aanzienlijke verbeteringen in prestaties worden waargenomen.