HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

18 papers found

FineWeb2: Één pijplijn om ze allemaal te schalen -- Het aanpassen van de verwerking van voorafgaande trainingsgegevens aan elke taal
FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Jun 26

ByGuilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf

Het vooraf trainen van state-of-the-art grote taalmmodellen (LLM's) vereist enorme hoeveelheden schone en diverse tekstdata. Hoewel de open ontwikkeling van grote, hoogwaardige Engelse vooraf-trainingsdatasets recent aanzienlijke vooruitgang heeft geboekt, blijft het trainen van performante meertalige LLM's een uitdaging, grotendeels vanwege de inherente moeilijkheid om filter- en deduplicatiepijplijnen aan te passen aan een groot aantal talen. In dit werk introduceren we een nieuwe pijplijn voor het samenstellen van vooraf-trainingsdatasets, gebaseerd op FineWeb, die automatisch kan worden aangepast om elke taal te ondersteunen. We voeren uitgebreide ablatie-onderzoeken uit naar onze pijplijnontwerpkeuzes op een set van negen diverse talen, geleid door een reeks betekenisvolle en informatieve evaluatietaken die zijn geselecteerd via een nieuw selectieproces gebaseerd op meetbare criteria. Uiteindelijk tonen we aan dat onze pijplijn kan worden gebruikt om niet-Engelse corpora te creëren die performantere modellen opleveren dan eerdere datasets. Daarnaast introduceren we een eenvoudige en principiële benadering om datasets opnieuw in balans te brengen, waarbij zowel het aantal duplicaten als de kwaliteit in overweging worden genomen, wat een extra prestatieverbetering biedt. Tot slot schalen we onze pijplijn op naar meer dan 1000 talen met behulp van bijna 100 Common Crawl-momentopnamen om FineWeb2 te produceren, een nieuwe meertalige dataset van 20 terabyte (5 miljard documenten), die we vrijgeven samen met onze pijplijn, trainings- en evaluatiecodebases.

ShareGPT-4o-Image: Multimodale modellen afstemmen op GPT-4o-niveau beeldgeneratie
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

Jun 22

ByJunying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang

Recente ontwikkelingen in multimodale generatieve modellen hebben fotorealistische, instructie-afgestemde beeldgeneratie mogelijk gemaakt, maar toonaangevende systemen zoals GPT-4o-Image blijven propriëtair en ontoegankelijk. Om deze mogelijkheden te democratiseren, presenteren we ShareGPT-4o-Image, de eerste dataset die bestaat uit 45K tekst-naar-beeld en 46K tekst-en-beeld-naar-beeld gegevens, allemaal gesynthetiseerd met behulp van GPT-4o's beeldgeneratiecapaciteiten om zijn geavanceerde beeldgeneratievaardigheden te destilleren. Gebruikmakend van deze dataset ontwikkelen we Janus-4o, een multimodaal groot taalmodel dat zowel tekst-naar-beeld als tekst-en-beeld-naar-beeld generatie kan uitvoeren. Janus-4o verbetert niet alleen aanzienlijk de tekst-naar-beeld generatie ten opzichte van zijn voorganger, Janus-Pro, maar ondersteunt ook nieuw tekst-en-beeld-naar-beeld generatie. Opmerkelijk is dat het indrukwekkende prestaties behaalt in tekst-en-beeld-naar-beeld generatie vanaf nul, met slechts 91K synthetische samples en 6 uur training op een 8 A800-GPU machine. We hopen dat de release van ShareGPT-4o-Image en Janus-4o open onderzoek zal bevorderen in fotorealistische, instructie-afgestemde beeldgeneratie.

OctoThinker: Incentives tijdens de training bevorderen schaalbaarheid van reinforcement learning
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Jun 25

ByZengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu

Verschillende basistaalmodel-families, zoals Llama en Qwen, vertonen uiteenlopend gedrag tijdens post-training met reinforcement learning (RL), vooral bij taken die intensief redeneren vereisen. Wat maakt een basistaalmodel geschikt voor reinforcement learning? Dieper inzicht in deze vraag is essentieel voor de ontwikkeling van RL-schaalbare foundationmodellen van de volgende generatie. In dit werk onderzoeken we hoe mid-training strategieën de RL-dynamiek beïnvloeden, met een focus op twee representatieve model-families: Qwen en Llama. Onze studie toont aan dat (1) hoogwaardige wiskundige corpora, zoals MegaMath-Web-Pro, zowel de prestaties van het basismodel als van RL aanzienlijk verbeteren, terwijl bestaande alternatieven (bijv. FineMath-4plus) dit niet doen; (2) het toevoegen van QA-stijl data, met name lange chain-of-thought (CoT) redeneringsvoorbeelden, de RL-resultaten verbetert, en instructiedata dit effect verder versterkt; (3) hoewel lange CoT de redeneringsdiepte verbetert, kan het ook leiden tot breedsprakigheid van modelreacties en instabiliteit van RL-training, wat het belang van dataformattering onderstreept; (4) schaling tijdens mid-training leidt consistent tot sterkere downstream RL-prestaties. Op basis van deze inzichten introduceren we een tweefasen mid-training strategie, Stable-then-Decay, waarbij basismodellen eerst getraind worden op 200B tokens met een constante leerratio, gevolgd door 20B tokens over drie CoT-gerichte takken met leerratio-afbouw. Dit resulteert in OctoThinker, een familie van modellen die sterke RL-compatibiliteit tonen en de prestatiekloof met meer RL-vriendelijke model-families, zoals Qwen, verkleinen. We hopen dat ons werk zal bijdragen aan het vormgeven van pre-training strategieën voor foundationmodellen in het RL-tijdperk. Om verder onderzoek te ondersteunen, geven we onze open-source modellen vrij, samen met een gecureerd wiskundig redeneringsintensief corpus van meer dan 70 miljard tokens (d.w.z. MegaMath-Web-Pro-Max).

Outlier-Veilige Pre-Training voor Robuuste 4-Bits Kwantisatie van Grote Taalmodellen
Outlier-Safe Pre-Training for Robust 4-Bit Quantization of Large Language Models

Jun 24

ByJungwoo Park, Taewhoo Lee, Chanwoong Yoon, Hyeon Hwang, Jaewoo Kang

Extreme activatie-uitbijters in Large Language Models (LLMs) verslechteren de kwantiseringsprestaties aanzienlijk, wat een efficiënte implementatie op apparaten belemmert. Hoewel kanaalgewijze operaties en adaptieve gradiëntschaling erkende oorzaken zijn, blijft praktische mitigatie een uitdaging. Wij introduceren Outlier-Safe Pre-Training (OSP), een praktische richtlijn die proactief de vorming van uitbijters voorkomt in plaats van te vertrouwen op achteraf mitigatie. OSP combineert drie belangrijke innovaties: (1) de Muon-optimalisator, die bevoorrechte bases elimineert terwijl de trainings efficiëntie behouden blijft; (2) Single-Scale RMSNorm, dat kanaalgewijze versterking voorkomt; en (3) een leerbare embeddingprojectie, die de activatiemagnitudes herverdeelt die afkomstig zijn van embeddingmatrices. We valideren OSP door een model met 1,4 miljard parameters te trainen op 1 biljoen tokens, wat het eerste productieschaal LLM is dat zonder dergelijke uitbijters is getraind. Onder agressieve 4-bit kwantisering behaalt ons OSP-model een gemiddelde score van 35,7 over 10 benchmarks (vergeleken met 26,5 voor een met Adam getraind model), met slechts 2% trainingsoverhead. Opmerkelijk is dat OSP-modellen een bijna nul excessieve kurtosis (0,04) vertonen in vergelijking met extreme waarden (1818,56) in standaardmodellen, wat het kwantiseringsgedrag van LLM's fundamenteel verandert. Ons werk toont aan dat uitbijters niet inherent zijn aan LLM's, maar gevolgen zijn van trainingsstrategieën, wat de weg vrijmaakt voor efficiëntere LLM-implementatie. De broncode en vooraf getrainde checkpoints zijn beschikbaar op https://github.com/dmis-lab/Outlier-Safe-Pre-Training.

Inverse-and-Edit: Effectief en Snel Bewerken van Afbeeldingen door Cyclische Consistentie Modellen
Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models

Jun 23

ByIlia Beletskii, Andrey Kuznetsov, Aibek Alanov

Recente vooruitgang in beeldbewerking met diffusiemodellen heeft indrukwekkende resultaten opgeleverd, waarbij fijnmazige controle over het generatieproces mogelijk wordt gemaakt. Deze methoden zijn echter rekenintensief vanwege hun iteratieve aard. Hoewel gedistilleerde diffusiemodellen snellere inferentie mogelijk maken, blijven hun bewerkingsmogelijkheden beperkt, voornamelijk vanwege de slechte inversiekwaliteit. Hoogwaardige inversie en reconstructie zijn essentieel voor precieze beeldbewerking, omdat ze de structurele en semantische integriteit van het bronbeeld behouden. In dit werk stellen we een nieuw raamwerk voor dat beeldinversie verbetert door gebruik te maken van consistentiemodellen, waardoor hoogwaardige bewerking in slechts vier stappen mogelijk wordt. Onze methode introduceert een cyclusconsistentie-optimalisatiestrategie die de reconstructienauwkeurigheid aanzienlijk verbetert en een beheersbare afweging mogelijk maakt tussen bewerkbaarheid en inhoudsbehoud. We behalen state-of-the-art prestaties op verschillende beeldbewerkingstaken en datasets, wat aantoont dat onze methode gelijkwaardig of beter presteert dan volledige-stap diffusiemodellen, terwijl ze aanzienlijk efficiënter is. De code van onze methode is beschikbaar op GitHub via https://github.com/ControlGenAI/Inverse-and-Edit.

DualTHOR: Een Simulatieplatform voor Dual-Arm Humanoïden voor Contingency-Aware Planning
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

Jun 19

ByBoyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu

Het ontwikkelen van belichaamde agents die in staat zijn om complexe interactieve taken uit te voeren in realistische scenario's blijft een fundamentele uitdaging in belichaamde AI. Hoewel recente vooruitgang in simulatieplatformen de taakdiversiteit voor het trainen van belichaamde Vision Language Models (VLMs) aanzienlijk heeft vergroot, vertrouwen de meeste platformen op vereenvoudigde robotmorfologieën en omzeilen ze het stochastische karakter van laagniveau-uitvoering, wat hun overdraagbaarheid naar echte robots beperkt. Om deze problemen aan te pakken, presenteren we een op fysica gebaseerd simulatieplatform genaamd DualTHOR voor complexe humanoïde robots met dubbele armen, gebouwd op een uitgebreide versie van AI2-THOR. Onze simulator omvat realistische robotassets, een taakpakket voor samenwerking met dubbele armen, en inverse kinematica-oplossers voor humanoïde robots. We introduceren ook een noodmechanisme dat potentiële fouten incorporeert via fysica-gebaseerde laagniveau-uitvoering, waardoor de kloof naar realistische scenario's wordt overbrugd. Onze simulator maakt een uitgebreidere evaluatie mogelijk van de robuustheid en generalisatie van VLMs in huishoudelijke omgevingen. Uitgebreide evaluaties tonen aan dat huidige VLMs moeite hebben met de coördinatie van dubbele armen en beperkte robuustheid vertonen in realistische omgevingen met onvoorziene gebeurtenissen, wat het belang onderstreept van het gebruik van onze simulator om capabelere VLMs te ontwikkelen voor belichaamde taken. De code is beschikbaar op https://github.com/ds199895/DualTHOR.git.

HiWave: Training-vrije generatie van hoogresolutiebeelden via wavelet-gebaseerde diffusiebemonstering
HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling

Jun 25

ByTobias Vontobel, Seyedmorteza Sadat, Farnood Salehi, Romann M. Weber

Diffusiemodellen zijn naar voren gekomen als de toonaangevende aanpak voor beeldgeneratie, waarbij ze uitzonderlijke fotorealistische kwaliteit en diversiteit demonstreren. Het trainen van diffusiemodellen op hoge resoluties blijft echter computationeel zeer kostbaar, en bestaande zero-shot generatietechnieken voor het synthetiseren van beelden buiten de trainingsresoluties produceren vaak artefacten, zoals objectduplicatie en ruimtelijke incoherentie. In dit artikel introduceren we HiWave, een trainingsvrije, zero-shot aanpak die de visuele kwaliteit en structurele coherentie aanzienlijk verbetert bij de synthese van ultra-hoge-resolutiebeelden met behulp van voorgetrainde diffusiemodellen. Onze methode maakt gebruik van een tweestappenpijplijn: het genereren van een basisbeeld vanuit het voorgetrainde model, gevolgd door een patchgewijze DDIM-inversiestap en een nieuwe wavelet-gebaseerde detailversterkingsmodule. Specifiek gebruiken we eerst inversiemethoden om initiële ruisvectoren af te leiden die de globale coherentie van het basisbeeld behouden. Vervolgens behoudt onze wavelet-domein detailversterker tijdens de sampling de lage-frequentiecomponenten van het basisbeeld om structurele consistentie te waarborgen, terwijl selectief hoogfrequente componenten worden gestuurd om fijne details en texturen te verrijken. Uitgebreide evaluaties met Stable Diffusion XL tonen aan dat HiWave effectief veelvoorkomende visuele artefacten van eerdere methoden vermindert en superieure perceptuele kwaliteit bereikt. Een gebruikersstudie bevestigde de prestaties van HiWave, waarbij het in meer dan 80% van de vergelijkingen de voorkeur kreeg boven de state-of-the-art alternatieve methode, wat de effectiviteit ervan benadrukt voor hoogwaardige, ultra-hoge-resolutie beeldgeneratie zonder hertraining of architectuurwijzigingen.

RoboTwin 2.0: Een schaalbare datagenerator en benchmark met sterke domeinrandomisatie voor robuuste bimanuele robotmanipulatie
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Jun 22

ByTianxing Chen, Zanxin Chen, Baijun Chen, Zijian Cai, Yibin Liu, Qiwei Liang, Zixuan Li, Xianliang Lin, Yiheng Ge, Zhenyu Gu, Weiliang Deng, Yubin Guo, Tian Nian, Xuanbing Xie, Qiangyu Chen, Kailun Su, Tianling Xu, Guodong Liu, Mengkang Hu, Huan-ang Gao, Kaixuan Wang, Zhixuan Liang, Yusen Qin, Xiaokang Yang, Ping Luo, Yao Mu

Simulatiegebaseerde datasynthese is naar voren gekomen als een krachtig paradigma voor het verbeteren van robotmanipulatie in de echte wereld. Bestaande synthetische datasets zijn echter nog steeds onvoldoende voor robuuste bimanuele manipulatie vanwege twee uitdagingen: (1) het ontbreken van een efficiënte, schaalbare methode voor gegevensgeneratie voor nieuwe taken, en (2) te vereenvoudigde simulatieomgevingen die de complexiteit van de echte wereld niet voldoende weergeven. Wij presenteren RoboTwin 2.0, een schaalbaar simulatiekader dat geautomatiseerde, grootschalige generatie van diverse en realistische data mogelijk maakt, samen met uniforme evaluatieprotocollen voor dual-arm manipulatie. We construeren eerst RoboTwin-OD, een grootschalige objectenbibliotheek bestaande uit 731 instanties verdeeld over 147 categorieën, elk voorzien van semantische en manipulatie-relevante labels. Op basis hiervan ontwikkelen we een expert datasynthesepijplijn die multimodale grote taalmodellen (MLLMs) combineert met simulatie-in-de-lus verfijning om taakuitvoeringscode automatisch te genereren. Om de simulatie-naar-realiteit overdracht te verbeteren, integreert RoboTwin 2.0 gestructureerde domeinrandomisatie langs vijf assen: rommel, verlichting, achtergrond, tafelhoogte en taal instructies, waardoor de diversiteit van de data en de robuustheid van het beleid worden vergroot. We implementeren dit kader voor 50 dual-arm taken verspreid over vijf robotembodiments, en verzamelen vooraf meer dan 100.000 domeingerandomiseerde experttrajecten. Empirische resultaten tonen een verbetering van 10,9% in het succes van codegeneratie en een betere generalisatie naar nieuwe real-world scenario's. Een VLA-model dat is afgestemd op onze dataset behaalt een relatieve verbetering van 367% (42,0% vs. 9,0%) op onbekende real-world taken, terwijl zero-shot modellen die uitsluitend op onze synthetische data zijn getraind een relatieve winst van 228% behalen, wat sterke generalisatie zonder real-world supervisie benadrukt. We maken de datagenerator, benchmark, dataset en code beschikbaar om schaalbaar onderzoek naar robuuste bimanuele manipulatie te ondersteunen.

Denkankers: Welke redeneerstappen van grote taalmodellen zijn van belang?
Thought Anchors: Which LLM Reasoning Steps Matter?

Jun 23

ByPaul C. Bogdan, Uzay Macar, Neel Nanda, Arthur Conmy

Redenerende grote taalmodellen hebben recentelijk state-of-the-art prestaties behaald in vele domeinen. Hun langere keten-van-gedachten-redeneringen brengen echter uitdagingen met zich mee op het gebied van interpreteerbaarheid, aangezien elk gegenereerd token afhankelijk is van alle voorgaande tokens, wat de berekening moeilijker maakt om te ontleden. Wij stellen dat het analyseren van redeneersporen op zinsniveau een veelbelovende aanpak is om redeneerprocessen te begrijpen. We presenteren drie complementaire attributiemethoden: (1) een black-box methode die het contrafeitelijke belang van elke zin meet door de uiteindelijke antwoorden te vergelijken over 100 rollouts, waarbij de voorwaarde is dat het model die zin genereert of een zin met een andere betekenis; (2) een white-box methode die aandachtspatronen tussen paren van zinnen aggregeert, waarbij "broadcasting"-zinnen worden geïdentificeerd die onevenredig veel aandacht krijgen van alle toekomstige zinnen via "receiver"-aandachtskoppen; (3) een causale attributiemethode die logische verbanden tussen zinnen meet door de aandacht naar één zin te onderdrukken en het effect op de tokens van elke toekomstige zin te meten. Elke methode levert bewijs voor het bestaan van gedachteankers, redeneerstappen die een buitensporig groot belang hebben en die het verdere redeneerproces onevenredig beïnvloeden. Deze gedachteankers zijn typisch plannings- of terugtrekkingszinnen. We bieden een open-source tool (www.thought-anchors.com) aan voor het visualiseren van de uitkomsten van onze methoden, en presenteren een casestudy die convergerende patronen tussen methoden laat zien die in kaart brengen hoe een model meerstapsredeneringen uitvoert. De consistentie tussen de methoden toont het potentieel aan van zinsniveau-analyse voor een dieper begrip van redeneermodellen.

Gebruik Property-Based Testing om LLM-codegeneratie en -validatie te verbinden.
Use Property-Based Testing to Bridge LLM Code Generation and Validation

Jun 23

ByLehan He, Zeren Chen, Zhe Zhang, Jing Shao, Xiang Gao, Lu Sheng

Grote Taalmodellen (LLMs) blinken uit in codegeneratie, maar het waarborgen van functioneel correcte uitvoer, vooral bij complexe programmeertaken, blijft een aanhoudende uitdaging. Hoewel traditionele Test-Driven Development (TDD) een pad biedt voor coderaffinage, wordt de effectiviteit ervan bij LLMs vaak ondermijnd door het gebrek aan hoogwaardige testgevallen of de valkuilen van geautomatiseerde testgeneratie, waaronder bevooroordeelde tests of onnauwkeurige uitvoervoorspellingen die het correctieproces kunnen misleiden. Dit artikel introduceert Property-Generated Solver, een nieuw framework dat Property-Based Testing (PBT) benut om hoogwaardige programmeereigenschappen of invarianten te valideren, in plaats van te vertrouwen op specifieke invoer-uitvoervoorbeelden. Deze eigenschappen zijn vaak eenvoudiger te definiëren en te verifiëren dan het direct voorspellen van uitputtende testorakels, waardoor de "cyclus van zelfbedrog" wordt doorbroken, waarbij tests mogelijk dezelfde gebreken delen als de code die ze moeten valideren. Property-Generated Solver maakt gebruik van twee samenwerkende LLM-gebaseerde agents: een Generator die zich richt op codegeneratie en iteratieve verfijning, en een Tester die de PBT-levenscyclus beheert en semantisch rijke feedback formuleert op basis van eigenschapsschendingen. De resulterende uitgebreide en bruikbare feedback leidt vervolgens de Generator in zijn verfijningsinspanningen. Door PBT te vestigen als de kernvalidatiemotor binnen dit iteratieve, gesloten-lus paradigma, biedt Property-Generated Solver een robuust mechanisme om LLMs te sturen naar correctere en generaliseerbare code. Uitgebreide experimentele resultaten op meerdere codegeneratiebenchmarks tonen aan dat Property-Generated Solver aanzienlijke pass@1-verbeteringen bereikt, met relatieve winsten variërend van 23,1% tot 37,3% ten opzichte van gevestigde TDD-methoden.

Als het leven je samples geeft: De voordelen van het opschalen van inferentie-rekenkracht voor meertalige LLM's
When Life Gives You Samples: The Benefits of Scaling up Inference Compute for Multilingual LLMs

Jun 25

ByAmmar Khairi, Daniel D'souza, Ye Shen, Julia Kreutzer, Sara Hooker

Recente vooruitgang in grote taalmodellen (LLMs) heeft de aandacht verlegd naar het opschalen van rekentijd tijdens inferentie, waarbij de prestaties worden verbeterd zonder het model opnieuw te trainen. Een veelgebruikte aanpak is het parallel bemonsteren van meerdere uitvoeren en het selecteren van één daarvan als de definitieve uitvoer. Tot nu toe heeft het onderzoek zich echter vooral gericht op Engels en een handvol domeinen zoals wiskunde en code. Daarentegen zijn wij vooral geïnteresseerd in technieken die generaliseren over open-eindige taken, formeel verifieerbare taken en verschillende talen. In dit werk bestuderen we hoe we de rekentijd tijdens inferentie robuust kunnen opschalen voor open-eindige generatieve taken in een meertalige, multi-task omgeving. Onze bevindingen tonen aan dat zowel de bemonsteringsstrategie op basis van temperatuurvariatie als de selectiestrategie moeten worden aangepast om rekening te houden met diverse domeinen en verschillende taalinstellingen. We evalueren bestaande selectiemethoden en laten zien dat strategieën die effectief zijn in het Engels vaak niet generaliseren over verschillende talen. We stellen nieuwe bemonsterings- en selectiestrategieën voor die specifiek zijn aangepast voor meertalige en multi-task inferentiescenario's, en tonen aan dat ze aanzienlijke verbeteringen opleveren over verschillende talen en taken. In het bijzonder leiden onze gecombineerde bemonsterings- en selectiemethoden tot een gemiddelde stijging van +6,8 in win-rates voor onze 8B-modellen op m-ArenaHard-v2.0 prompts, vergeleken met propriëtaire modellen zoals Gemini. Op grotere schaal laat Command-A (111B-model), uitgerust met onze methoden, een verbetering van +9,0 zien in win-rates op dezelfde benchmark met slechts vijf bemonsteringen tegenover single-sample decoding, een aanzienlijke toename tegen minimale kosten. Onze resultaten benadrukken de noodzaak van taal- en taakbewuste benaderingen voor rekentijd tijdens inferentie, met als doel prestatieverbeteringen te democratiseren in ondervertegenwoordigde talen.

ReCode: Code API-kennis bijwerken met Reinforcement Learning
ReCode: Updating Code API Knowledge with Reinforcement Learning

Jun 25

ByHaoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Grote Taalmodellen (LLMs) vertonen opmerkelijke codegeneratiecapaciteiten, maar falen bij het aanpassen aan frequente updates in externe bibliotheek-API's. Deze kritieke beperking, voortkomend uit de afhankelijkheid van verouderde API-kennis uit hun trainingsdata, zelfs met toegang tot actuele documentatie, belemmert betrouwbare codegeneratie in dynamische omgevingen. Om dit probleem aan te pakken, stellen we ReCode (rule-based Reinforcement learning for Code Update) voor, een nieuw framework dat de aanpassing van menselijke programmeurs aan API-wijzigingen nabootst. Specifiek construeren we een dataset van ongeveer 2.000 gegevensitems om de LLMs te trainen in het uitvoeren van versiemigratie op basis van bijgewerkte informatie. Vervolgens introduceren we een aangepaste stringsimilariteitsmetriek voor code-evaluatie als beloning voor reinforcement learning. Onze experimenten tonen aan dat ReCode de codegeneratieprestaties van LLMs aanzienlijk verbetert in dynamische API-scenario's, vooral bij de onbekende CodeUpdateArena-taak. Cruciaal is dat ReCode, vergeleken met supervised fine-tuning, minder impact heeft op de algemene codegeneratievaardigheden van LLMs. We passen ReCode toe op verschillende LLMs en reinforcement learning-algoritmen (GRPO en DAPO), die allemaal consistente verbeteringen laten zien. Opmerkelijk is dat na de training Qwen2.5-Coder-7B beter presteert dan het 32B-parameter code-instructiegetrainde model en het redeneermodel met dezelfde architectuur. Code is beschikbaar op https://github.com/zjunlp/ReCode.

Is er een argument voor conversatie-geoptimaliseerde tokenizers in grote taalmodellen?
Is There a Case for Conversation Optimized Tokenizers in Large Language Models?

Jun 23

ByRaquel Ferrando, Javier Conde, Gonzalo Martínez, Pedro Reviriego

De computationele en energie kosten van Large Language Models (LLMs) zijn exponentieel gestegen door de groeiende modelgroottes en de massale adoptie van LLMs door honderden miljoenen gebruikers. De eenheidskosten van een LLM zijn de berekening van een token. Daarom speelt de tokenizer een belangrijke rol in de efficiëntie van een model, en ze worden zorgvuldig geoptimaliseerd om het aantal tokens voor de tekst in hun trainingscorpus te minimaliseren. Een van de meest populaire toepassingen van LLMs zijn chatbots die interacteren met gebruikers. Een belangrijke observatie is dat, voor die chatbots, wat belangrijk is de prestaties van de tokenizer in de gebruikersinvoer en de chatbotreacties zijn. Die zijn hoogstwaarschijnlijk anders dan de tekst in het trainingscorpus. Dus een vraag die zich onmiddellijk voordoet is of er een potentieel voordeel is in het optimaliseren van tokenizers voor chatbotgesprekken. In dit artikel wordt dit idee verkend voor verschillende tokenizers door gebruik te maken van een publiekelijk beschikbaar corpus van chatbotgesprekken om hun vocabulaire te herontwerpen en hun prestaties in dit domein te evalueren. De resultaten tonen aan dat gespreksgeoptimaliseerde tokenizers consistent het aantal tokens in chatbotdialogen verminderen, wat kan leiden tot betekenisvolle energiebesparingen, in de range van 5% tot 10%, terwijl ze een minimaal of zelfs licht positief effect hebben op de tokenisatie-efficiëntie voor het originele trainingscorpus.

GPTailor: Groot Taalmodel Snoeien via Laagverwijdering en Herverbinding
GPTailor: Large Language Model Pruning Through Layer Cutting and Stitching

Jun 25

ByGuinan Su, Li Shen, Lu Yin, Shiwei Liu, Yanwu Yang, Jonas Geiping

Grote taalmmodellen (LLMs) hebben opmerkelijke capaciteiten getoond op het gebied van taalbegrip en -generatie. Echter gaat zo'n indrukwekkende capaciteit doorgaans gepaard met een aanzienlijke modelgrootte, wat aanzienlijke uitdagingen met zich meebrengt bij implementatie en inferentie. Hoewel gestructureerd snoeien van modelparameters een veelbelovende manier biedt om de rekenkosten tijdens implementatie te verminderen, richten huidige methoden zich voornamelijk op het snoeien van individuele modellen. In dit werk ontwikkelen we een nieuwe strategie om modellen te comprimeren door lagen van gefinetunede modelvarianten strategisch te combineren of samen te voegen, waarbij de oorspronkelijke capaciteiten van het model behouden blijven door de in verschillende finetunes benadrukte capaciteiten te aggregeren. We formuleren het optimaal aanpassen van deze LLMs als een nulde-orde optimalisatieprobleem, waarbij we een zoekruimte hanteren die drie verschillende operaties ondersteunt: (1) Laagverwijdering, (2) Laagselectie uit verschillende kandidaatmodellen, en (3) Laagsamenvoeging. Onze experimenten tonen aan dat deze aanpak leidt tot competitief modelsnoeien; voor de Llama2-13B-modelfamilies behouden onze gecomprimeerde modellen bijvoorbeeld ongeveer 97,3% van de oorspronkelijke prestaties terwijl ongeveer 25% van de parameters wordt verwijderd, wat aanzienlijk beter presteert dan eerdere state-of-the-art methoden. De code is beschikbaar op https://github.com/Guinan-Su/auto-merge-llm.

Biomed-Enriched: Een biomedisch dataset verrijkt met LLM's voor pretraining en het extraheren van zeldzame en verborgen inhoud
Biomed-Enriched: A Biomedical Dataset Enriched with LLMs for Pretraining and Extracting Rare and Hidden Content

Jun 25

ByRian Touchent, Nathan Godey, Eric de la Clergerie

We introduceren Biomed-Enriched, een biomedisch tekstdataset die is samengesteld uit PubMed via een tweestaps annotatieproces. In de eerste fase annoteert een groot taalmodel 400K alinea's uit wetenschappelijke artikelen van PubMed, waarbij scores worden toegekend voor hun type (review, studie, klinisch geval, overig), domein (klinisch, biomedisch, overig) en educatieve kwaliteit. De educatieve kwaliteitsscore (beoordeeld van 1 tot 5) schat in hoe nuttig een alinea is voor leren op universitair niveau. Deze annotaties worden vervolgens gebruikt om een klein taalmodel te fine-tunen, dat de labels verspreidt over het volledige PMC-OA corpus. De resulterende metadata stelt ons in staat om verfijnde subsets te extraheren, waaronder 2M alinea's over klinische gevallen met meer dan 450K hoogwaardige exemplaren uit artikelen met commerciële gebruikslicenties, en om verschillende varianten te construeren via kwaliteitsfiltering en domein-upsampling. Klinische tekst is doorgaans moeilijk toegankelijk vanwege privacybeperkingen, aangezien ziekenhuisgegevens niet openbaar gedeeld kunnen worden. Daarom biedt onze dataset een alternatieve, grootschalige, openbaar beschikbare verzameling van klinische gevallen uit PubMed, wat het een waardevolle bron maakt voor biomedische en klinische NLP. Voorlopige experimenten met voortgezette pretraining met OLMo2 suggereren dat deze gecureerde subsets gerichte verbeteringen mogelijk maken, waarbij klinische upsampling de prestaties met ~5% verbetert op MMLU ProfMed en educatieve kwaliteitsfiltering MedQA en MedMCQA met ~1% verbetert. Combinaties van deze technieken leidden tot snellere convergentie, waarbij dezelfde prestaties werden bereikt met een derde van de trainings-tokens, wat wijst op potentie voor efficiëntere en effectievere biomedische pretrainingsstrategieën.

MATE: LLM-aangedreven Multi-Agent Vertaalomgeving voor Toegankelijkheidstoepassingen
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications

Jun 24

ByAleksandr Algazinov, Matt Laing, Paul Laban

Toegankelijkheid blijft een cruciaal aandachtspunt in de hedendaagse samenleving, aangezien veel technologieën niet zijn ontwikkeld om het volledige scala aan gebruikersbehoeften te ondersteunen. Bestaande multi-agent systemen (MAS) kunnen vaak geen uitgebreide ondersteuning bieden aan gebruikers die dit nodig hebben, vanwege het gebrek aan maatwerk dat voortkomt uit gesloten ontwerpen. Hierdoor ondervinden personen met een beperking vaak aanzienlijke barrières wanneer zij proberen te interacteren met digitale omgevingen. Wij introduceren MATE, een multimodaal toegankelijkheids-MAS, dat de modaliteitsconversies uitvoert op basis van de behoeften van de gebruiker. Het systeem is nuttig voor het assisteren van mensen met een beperking door ervoor te zorgen dat gegevens worden omgezet naar een begrijpelijk formaat. Bijvoorbeeld, als de gebruiker slecht ziet en een afbeelding ontvangt, converteert het systeem deze afbeelding naar een audio-beschrijving. MATE kan worden toegepast in een breed scala aan domeinen, industrieën en gebieden, zoals gezondheidszorg, en kan een nuttige assistent worden voor diverse gebruikersgroepen. Het systeem ondersteunt meerdere soorten modellen, variërend van LLM API-aanroepen tot het gebruik van aangepaste machine learning (ML) classificatoren. Deze flexibiliteit zorgt ervoor dat het systeem kan worden aangepast aan verschillende behoeften en compatibel is met een grote verscheidenheid aan hardware. Aangezien het systeem lokaal wordt verwacht te draaien, waarborgt het de privacy en veiligheid van gevoelige informatie. Daarnaast kan het framework effectief worden geïntegreerd met institutionele technologieën (bijvoorbeeld digitale gezondheidszorgdiensten) voor real-time gebruikersondersteuning. Verder introduceren wij ModCon-Task-Identifier, een model dat in staat is om de precieze modaliteitsconversietaak te extraheren uit de gebruikersinvoer. Talrijke experimenten tonen aan dat ModCon-Task-Identifier consistent beter presteert dan andere LLM's en statistische modellen op onze aangepaste data. Onze code en data zijn openbaar beschikbaar op https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.

FilMaster: Het overbruggen van cinematografische principes en generatieve AI voor geautomatiseerde filmproductie
FilMaster: Bridging Cinematic Principles and Generative AI for Automated Film Generation

Jun 23

ByKaiyi Huang, Yukun Huang, Xintao Wang, Zinan Lin, Xuefei Ning, Pengfei Wan, Di Zhang, Yu Wang, Xihui Liu

AI-gestuurde contentcreatie heeft potentie getoond in filmproductie. Bestaande filmgeneratiesystemen hebben echter moeite met het implementeren van cinematografische principes en slagen er daarom niet in om professionele kwaliteit films te genereren, met name door een gebrek aan diverse camerataal en cinematografisch ritme. Dit resulteert in gestandaardiseerde visuals en weinig boeiende verhalen. Om dit aan te pakken introduceren we FilMaster, een end-to-end AI-systeem dat real-world cinematografische principes integreert voor het genereren van professionele films, wat bewerkbare, industrie-standaard uitvoer oplevert. FilMaster is gebouwd op twee kernprincipes: (1) het leren van cinematografie uit uitgebreide real-world filmdata en (2) het nabootsen van professionele, publieksgerichte post-productie workflows. Geïnspireerd door deze principes bevat FilMaster twee fasen: een Referentie-Gestuurde Generatiefase die gebruikersinput omzet in videoclips, en een Generatieve Post-Productiefase die ruw beeldmateriaal omzet in audiovisuele uitvoer door visuele en auditieve elementen te orkestreren voor cinematografisch ritme. Onze generatiefase benadrukt een Multi-shot Synergized RAG Camerataal Ontwerpmodule om de AI te begeleiden bij het genereren van professionele camerataal door referentieclips op te halen uit een uitgebreid corpus van 440.000 filmclips. Onze post-productiefase bootst professionele workflows na door een Publieksgericht Cinematografisch Ritme Controlemodule te ontwerpen, inclusief Rough Cut en Fine Cut processen die worden geïnformeerd door gesimuleerde publieksfeedback, voor effectieve integratie van audiovisuele elementen om boeiende content te bereiken. Het systeem wordt aangedreven door generatieve AI-modellen zoals (M)LLMs en videogeneratiemodellen. Daarnaast introduceren we FilmEval, een uitgebreide benchmark voor het evalueren van AI-gegenereerde films. Uitgebreide experimenten tonen de superieure prestaties van FilMaster in camerataalontwerp en cinematografisch ritmecontrole, wat generatieve AI in professionele filmproductie vooruithelpt.

De Debugging Decay Index: Een Heroverweging van Debuggingstrategieën voor Code-LLM's
The Debugging Decay Index: Rethinking Debugging Strategies for Code LLMs

Jun 23

ByMuntasir Adnan, Carlos C. N. Kuhn

De effectiviteit van AI-debugging volgt een voorspelbaar patroon van exponentiële afname; de meeste modellen verliezen 60-80% van hun debugcapaciteit binnen slechts 2-3 pogingen, ondanks dat iteratief debuggen een cruciale vaardigheid is voor praktische codegeneratiesystemen. We introduceren de Debugging Decay Index (DDI), een wiskundig raamwerk dat kwantificeert wanneer debuggen ineffectief wordt en interventiepunten voorspelt. Onze strategische fresh start-aanpak verschuift van exploitatie naar exploratie op strategische punten in het debugproces, en toont aan dat goed getimede interventies de effectiviteit van debuggen kunnen redden. DDI onthult een fundamentele beperking in de huidige AI-debugging en biedt het eerste kwantitatieve raamwerk voor het optimaliseren van iteratieve codegeneratiestrategieën.

RoboTwin 2.0: Een schaalbare datagenerator en benchmark met sterke domeinrandomisatie voor robuuste bimanuele robotmanipulatie
RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation

Jun 22