Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Parameter-efficient fine-tuning (PEFT) is essentieel voor het aanpassen van Large Language Models (LLMs) met beperkte middelen. Hoewel er verschillende PEFT-methoden bestaan voor LLMs met een dense-architectuur, is PEFT voor LLMs met een sparse-architectuur nog onderbelicht. In dit werk bestuderen we de PEFT-methode voor LLMs met de Mixture-of-Experts (MoE)-architectuur, en de inhoud van dit werk bestaat voornamelijk uit drie onderdelen: (1) We onderzoeken de mate van spreiding van de geactiveerde experts in aangepaste taken, en ontdekten dat de routeringsverdeling voor een specifieke taak sterk geconcentreerd is, terwijl de verdeling van geactiveerde experts aanzienlijk varieert tussen verschillende taken. (2) We stellen Expert-Specialized Fine-Tuning, of ESFT, voor, waarbij de experts die het meest relevant zijn voor downstream-taken worden afgestemd, terwijl de andere experts en modules worden bevroren; experimentele resultaten tonen aan dat onze methode niet alleen de afstemmingsefficiëntie verbetert, maar ook de prestaties van full-parameter fine-tuning evenaart of zelfs overtreft. (3) We analyseren verder de impact van de MoE-architectuur op expert-specialized fine-tuning. We ontdekken dat MoE-modellen met fijnmazigere experts meer voordeel hebben bij het selecteren van de combinatie van experts die het meest relevant zijn voor downstream-taken, waardoor zowel de trainings efficiëntie als de effectiviteit worden verbeterd.
Dit artikel introduceert Diffusion Forcing, een nieuw trainingsparadigma waarbij een diffusiemodel wordt getraind om een set tokens te denoisen met onafhankelijke ruisniveaus per token. We passen Diffusion Forcing toe op sequentiële generatieve modellering door een causaal next-token voorspellingsmodel te trainen om één of meerdere toekomstige tokens te genereren zonder de vorige tokens volledig te diffunderen. Onze aanpak combineert de sterke punten van next-token voorspellingsmodellen, zoals generatie van variabele lengte, met de sterke punten van volledige sequentie-diffusiemodellen, zoals de mogelijkheid om sampling te sturen naar gewenste trajecten. Onze methode biedt een reeks aanvullende mogelijkheden, zoals (1) het uitrollen van sequenties van continue tokens, zoals video, met lengtes die verder gaan dan de trainingshorizon, waarbij baseline-methoden divergeren, en (2) nieuwe sampling- en stuurmethoden die uniek profiteren van de variabele horizon en causale architectuur van Diffusion Forcing, en die leiden tot aanzienlijke prestatieverbeteringen in besluitvormings- en plannings taken. Naast het empirische succes is onze methode bewezen een variatielower bound te optimaliseren op de waarschijnlijkheden van alle subreeksen van tokens die zijn getrokken uit de echte gezamenlijke verdeling. Projectwebsite: https://boyuan.space/diffusion-forcing/
Veel recente onderzoeken hebben het gebruik van taalmodellen voor planningsproblemen verkend. Een onderzoekslijn richt zich op het vertalen van natuurlijke taalbeschrijvingen van plannings-taken naar gestructureerde plannings-talen, zoals de Planning Domain Definition Language (PDDL). Hoewel deze aanpak veelbelovend is, blijft het nauwkeurig meten van de kwaliteit van gegenereerde PDDL-code een aanzienlijke uitdaging. Ten eerste wordt gegenereerde PDDL-code doorgaans geëvalueerd met behulp van planningsvalidators die controleren of het probleem kan worden opgelost met een planner. Deze methode is ontoereikend omdat een taalmodel geldige PDDL-code kan genereren die niet overeenkomt met de natuurlijke taalbeschrijving van de taak. Ten tweede hebben bestaande evaluatiesets vaak natuurlijke taalbeschrijvingen van de plannings-taak die sterk lijken op de grondwaarheid PDDL, wat de uitdaging van de taak vermindert. Om deze kloof te overbruggen, introduceren we \benchmarkName, een benchmark die is ontworpen om het vermogen van taalmodellen te evalueren om PDDL-code te genereren uit natuurlijke taalbeschrijvingen van plannings-taken. We beginnen met het creëren van een PDDL-equivalentie-algoritme dat de correctheid van PDDL-code gegenereerd door taalmodellen rigoureus evalueert door deze flexibel te vergelijken met een grondwaarheid PDDL. Vervolgens presenteren we een dataset van 132.037 tekst-naar-PDDL-paren over 13 verschillende taken, met verschillende moeilijkheidsgraden. Tot slot evalueren we verschillende API-toegankelijke en open-weight taalmodellen die de complexiteit van deze taak onthullen. Bijvoorbeeld, 87,6% van de PDDL-probleembeschrijvingen gegenereerd door GPT-4o zijn syntactisch parseerbaar, 82,2% zijn geldige, oplosbare problemen, maar slechts 35,1% zijn semantisch correct, wat de noodzaak van een strengere benchmark voor dit probleem benadrukt.