Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Kunnen grote taalmodellen (LLM's) rechtstreeks dienen als krachtige wereldmodellen voor op modellen gebaseerde agenten? Hoewel er wel degelijk kloven bestaan tussen de voorafgaande kennis van LLM's en de dynamiek van de gespecificeerde omgeving, onthult onze studie dat deze kloven kunnen worden overbrugd door een LLM af te stemmen op zijn ingezette omgeving, en dat een dergelijke "wereldafstemming" efficiënt kan worden bereikt door regels te leren op LLM's. Gezien de rijke voorafgaande kennis van LLM's volstaan slechts enkele extra regels om de voorspellingen van LLM's af te stemmen op de dynamiek van de gespecificeerde omgeving. Daartoe stellen we een neurosymbolische benadering voor om deze regels zonder gradiënt te leren via LLM's, door regels te induceren, bij te werken en te snoeien op basis van vergelijkingen tussen door de agent verkende trajecten en voorspellingen van het wereldmodel. Het resulterende wereldmodel bestaat uit de LLM en de geleerde regels. Onze belichaamde LLM-agent "WALL-E" is gebouwd op modelvoorspellende controle (MPC). Door vooruitkijkende acties te optimaliseren op basis van het nauwkeurige wereldmodel, verbetert MPC aanzienlijk de verkenning en leer-efficiëntie. In vergelijking met bestaande LLM-agenten vereist de redenering van WALL-E slechts enkele hoofdregels in plaats van uitgebreide gebufferde trajecten die in de LLM-input zijn opgenomen. In open-wereld uitdagingen in Minecraft en ALFWorld behaalt WALL-E hogere succespercentages dan bestaande methoden, met lagere kosten voor herplanningstijd en het aantal tokens dat wordt gebruikt voor redenering. In Minecraft overtreft WALL-E baselines met 15-30% in succespercentage, terwijl het 8-20 minder herplanningsrondes kost en slechts 60-80% van de tokens gebruikt. In ALFWorld stijgt het succespercentage naar een nieuw recordhoogte van 95% na slechts 6 iteraties.
Code is aangetoond effectief te zijn in het verbeteren van de wiskundige redeneervaardigheden van grote taalmodellen vanwege de precisie en nauwkeurigheid ervan. Eerdere werken die betrokken zijn bij voortgezette wiskundige vooropleiding bevatten vaak code die gebruikmaakt van wiskunde-gerelateerde pakketten, die primair zijn ontworpen voor vakgebieden zoals techniek, machine learning, signaalverwerking of moduletesten, in plaats van direct gericht te zijn op wiskundige redenering. In dit artikel introduceren we een nieuwe methode voor het genereren van wiskundige code vergezeld van bijbehorende redeneerstappen voor voortgezette vooropleiding. Onze aanpak begint met de constructie van een hoogwaardige wiskundige voortgezette vooropleidingsdataset door wiskunde-gerelateerde webgegevens, code die wiskundige pakketten gebruikt, wiskundeboeken en synthetische gegevens op te nemen. Vervolgens construeren we redeneerstappen door LaTeX-uitdrukkingen, de voorwaarden die nodig zijn voor de uitdrukkingen, en de resultaten van de uitdrukkingen uit de eerder verzamelde dataset te extraheren. Op basis van deze geëxtraheerde informatie genereren we bijbehorende code om het wiskundige redeneerproces nauwkeurig vast te leggen. Het toevoegen van de gegenereerde code aan elke redeneerstap resulteert in gegevens bestaande uit gekoppelde natuurlijke taal redeneerstappen en hun bijbehorende code. Door deze gegevens te combineren met de oorspronkelijke dataset ontstaat een 19,2B-token hoog presterende wiskundige voortgezette vooropleidingscorpus, dat we MathCode-Pile noemen. Het trainen van verschillende populaire basismodellen met dit corpus verbetert aanzienlijk hun wiskundige vaardigheden, wat leidt tot de creatie van de MathCoder2-familie van modellen. Al onze gegevensverwerkings- en trainingscode is open source, wat zorgt voor volledige transparantie en eenvoudige reproduceerbaarheid van het gehele gegevensverzamelings- en trainingsproces. De code is beschikbaar op https://github.com/mathllm/MathCoder2 .
MLLM-agenten tonen potentieel voor complexe belichaamde taken door multimodale taakrelevante trajectgegevens op te halen. Huidige ophaalmethoden richten zich voornamelijk op oppervlakkige overeenkomsten van tekstuele of visuele aanwijzingen in trajecten, waarbij de effectiviteit voor de specifieke taak die wordt uitgevoerd wordt verwaarloosd. Om dit probleem aan te pakken, stellen we een nieuw method voor, MLLM als ReTriever (MART), die de prestaties van belichaamde agenten verbetert door interactiegegevens te gebruiken om een MLLM-ophaler af te stemmen op basis van voorkeursleren, zodat de ophaler volledig rekening houdt met de effectiviteit van trajecten en deze prioriteert voor ongeziene taken. We introduceren ook Trajectabstractie, een mechanisme dat gebruikmaakt van de samenvattingsmogelijkheden van MLLM's om trajecten met minder tokens voor te stellen terwijl belangrijke informatie behouden blijft, waardoor agenten mijlpalen in het traject beter kunnen begrijpen. Experimentele resultaten in verschillende omgevingen tonen aan dat onze methode de taaksuccespercentages aanzienlijk verbetert in ongeziene scènes in vergelijking met basismethoden. Dit werk presenteert een nieuw paradigma voor multimodale ophaling bij belichaamde agenten, door een algemeen MLLM als ophaler af te stemmen om de effectiviteit van trajecten te beoordelen. Alle benchmarktaken en simulatorcodeaanpassingen voor actie- en observatieruimtes zullen worden vrijgegeven.
Quantisering is essentieel voor het implementeren van Grote Taalmodellen (LLM's) door het geheugenefficiëntie en inferentiesnelheid te verbeteren. Bestaande methoden voor activatiekwantisering richten zich voornamelijk op kanaaluitbijters, waarbij vaak tokenuitbijters worden verwaarloosd, wat leidt tot afhankelijkheid van kostbare dynamische kwantisering per token. Om dit aan te pakken, introduceren we PrefixQuant, een nieuwe techniek die offline outlier tokens isoleert zonder opnieuw te trainen. Specifiek identificeert PrefixQuant hoogfrequente outlier tokens en plaatst ze als voorvoegsels in de KV-cache, waardoor de generatie van outlier tokens tijdens inferentie wordt voorkomen en de kwantisering wordt vereenvoudigd. Naar ons weten is PrefixQuant de eerste die efficiënte statische kwantisering per tensor mogelijk maakt om dure dynamische kwantisering per token te overtreffen. Bijvoorbeeld, in W4A4KV4 (4-bit gewicht, 4-bit activatie en 4-bit KV-cache) Llama-3-8B behaalt PrefixQuant met statische kwantisering per tensor een perplexiteit van 7.43 op WikiText2 en een gemiddelde nauwkeurigheid van 71.08% op 5 taken voor gezond verstand, waarbij eerdere methoden voor dynamische kwantisering per token zoals QuaRot worden overtroffen met een verbetering van 0.98 in perplexiteit en +5.98 punten nauwkeurigheid. Bovendien is de inferentiesnelheid van W4A4 gekwantiseerde modellen met PrefixQuant 1.60x tot 2.81x sneller dan FP16-modellen en overtreft deze QuaRot-modellen met 1.2x tot 1.3x. Onze code is beschikbaar op https://github.com/ChenMnZ/PrefixQuant.
Grote Taalmodellen (LLM's), met hun uitzonderlijke vermogen om een breed scala aan taken aan te kunnen, hebben significante vooruitgang geboekt in het aanpakken van redeneer- en plannings taken, waarbij het ontleden van complexe problemen in uitvoerbare workflows een cruciale stap in dit proces is. Bestaande workflow evaluatiekaders richten zich ofwel uitsluitend op holistische prestaties of kampen met beperkingen zoals beperkte scenario dekking, simplistische workflow structuren en lakse evaluatiestandaarden. Met dit doel introduceren we WorFBench, een verenigd workflow generatie benchmark met veelzijdige scenario's en ingewikkelde grafische workflow structuren. Daarnaast presenteren we WorFEval, een systematisch evaluatieprotocol dat subreeks- en subgrafiek-matching algoritmes gebruikt om nauwkeurig de workflow generatiecapaciteiten van de LLM-agent te kwantificeren. Door uitgebreide evaluaties over verschillende soorten LLM's ontdekken we duidelijke verschillen tussen de sequentieplanningscapaciteiten en grafiekplanningscapaciteiten van LLM-agenten, waarbij zelfs GPT-4 een verschil van ongeveer 15% vertoont. We trainen ook twee open-source modellen en evalueren hun generalisatievermogen op achtergehouden taken. Bovendien observeren we dat de gegenereerde workflows downstream taken kunnen verbeteren, waardoor ze superieure prestaties kunnen behalen met minder tijd tijdens inferentie. Code en dataset zijn beschikbaar op https://github.com/zjunlp/WorFBench.
Wij presenteren Agent S, een open agentisch framework dat autonome interactie met computers mogelijk maakt via een Grafische Gebruikersinterface (GUI), met als doel mens-computerinteractie te transformeren door het automatiseren van complexe, meerstaps taken. Agent S heeft tot doel drie belangrijke uitdagingen aan te pakken bij het automatiseren van computertaken: het verwerven van domeinspecifieke kennis, plannen over lange takenhorizonten en omgaan met dynamische, niet-uniforme interfaces. Hiertoe introduceert Agent S ervaringsverrijkte hiërarchische planning, die leert van externe kenniszoekopdrachten en interne ervaringsopvragingen op meerdere niveaus, wat efficiënte taakplanning en uitvoering van subtaken faciliteert. Bovendien maakt het gebruik van een Agent-Computer Interface (ACI) om de redeneer- en controlecapaciteiten van GUI-agenten op basis van Multimodale Grote Taalmodellen (MLLM's) beter naar voren te brengen. Evaluatie op de OSWorld benchmark toont aan dat Agent S de baseline overtreft met 9,37% op het succespercentage (een relatieve verbetering van 83,6%) en een nieuwe state-of-the-art bereikt. Een uitgebreide analyse benadrukt de effectiviteit van individuele componenten en biedt inzichten voor toekomstige verbeteringen. Bovendien toont Agent S brede generaliseerbaarheid naar verschillende besturingssystemen op een nieuw uitgebrachte WindowsAgentArena benchmark. Code beschikbaar op https://github.com/simular-ai/Agent-S.
Diffusiemodellen zijn de dominante benadering geworden voor visuele generatie. Ze worden getraind door het denoisen van een Markov-proces dat geleidelijk ruis toevoegt aan de invoer. We betogen dat de Markov-eigenschap de mogelijkheid van de modellen beperkt om volledig gebruik te maken van de generatietraject, wat leidt tot inefficiënties tijdens training en inferentie. In dit artikel stellen we DART voor, een op transformer gebaseerd model dat autoregressieve (AR) en diffusie verenigt binnen een niet-Markoviaans kader. DART denoist iteratief beeldpatches ruimtelijk en spectrally met behulp van een AR-model met dezelfde architectuur als standaard taalmodellen. DART vertrouwt niet op beeldkwantisering, wat effectievere beeldmodellering mogelijk maakt terwijl de flexibiliteit behouden blijft. Bovendien traint DART naadloos met zowel tekst- als beeldgegevens in een verenigd model. Onze aanpak toont competitieve prestaties op klasse-geconditioneerde en tekst-naar-beeld generatietaken, en biedt een schaalbaar, efficiënt alternatief voor traditionele diffusiemodellen. Via dit verenigde raamwerk stelt DART een nieuwe benchmark voor schaalbare, hoogwaardige beeldsynthese.
Discrete diffusiemodellen hebben succes behaald in taken zoals beeldgeneratie en gemaskeerde taalmodellering, maar worden geconfronteerd met beperkingen bij gecontroleerde inhoudsbewerking. We introduceren DICE (Discrete Inversie voor Controleerbare Bewerking), de eerste benadering om precieze inversie mogelijk te maken voor discrete diffusiemodellen, inclusief multinomiale diffusie en gemaskeerde generatieve modellen. Door ruisreeksen en maskerpatronen op te nemen tijdens het omgekeerde diffusieproces, maakt DICE nauwkeurige reconstructie en flexibele bewerking van discrete gegevens mogelijk zonder de noodzaak van vooraf gedefinieerde maskers of aandachtsmanipulatie. We tonen de effectiviteit van DICE aan in zowel beeld- als tekstgebieden, waarbij we het evalueren op modellen zoals VQ-Diffusion, Paella en RoBERTa. Onze resultaten tonen aan dat DICE een hoge gegevensgetrouwheid behoudt terwijl het bewerkingsmogelijkheden verbetert, en nieuwe kansen biedt voor fijnmazige inhoudsmanipulatie in discrete ruimtes. Voor de projectwebpagina, zie https://hexiaoxiao-cs.github.io/DICE/.
Diffusiemodellen hebben de visuele generatie aanzienlijk verbeterd, maar worden belemmerd door een trage generatiesnelheid als gevolg van de rekenintensieve aard van het oplossen van generatieve ODE's. Gelijkgerichte stroming, een breed erkende oplossing, verbetert de generatiesnelheid door het rechttrekken van het ODE-pad. De belangrijkste componenten zijn: 1) het gebruik van de diffusievorm van stroom-matching, 2) het inzetten van vetgedrukte v-voorspelling, en 3) het uitvoeren van rectificatie (ook bekend als reflow). In dit artikel betogen we dat het succes van rectificatie voornamelijk ligt in het gebruik van een voorgeleerd diffusiemodel om gematchte paren van ruis en monsters te verkrijgen, gevolgd door hertraining met deze gematchte ruis-monsterparen. Op basis hiervan zijn componenten 1) en 2) overbodig. Bovendien benadrukken we dat rechtlijnigheid geen essentieel trainingsdoel is voor rectificatie; het is eerder een specifiek geval van stroom-matching modellen. Het belangrijkste trainingsdoel is het bereiken van een ODE-pad van eerste orde benadering, dat inherent gebogen is voor modellen zoals DDPM en Sub-VP. Voortbouwend op deze inzichten stellen we Rectified Diffusion voor, dat het ontwerpruimte en toepassingsgebied van rectificatie generaliseert om de bredere categorie van diffusiemodellen te omvatten, in plaats van beperkt te zijn tot stroom-matching modellen. We valideren onze methode op Stable Diffusion v1-5 en Stable Diffusion XL. Onze methode vereenvoudigt niet alleen aanzienlijk de trainingsprocedure van eerder werk gebaseerd op gerechtvaardigde stroming (bijv. InstaFlow), maar behaalt ook superieure prestaties met zelfs lagere trainingskosten. Onze code is beschikbaar op https://github.com/G-U-N/Rectified-Diffusion.
Huidige modellen voor video diffusie aan de voorste linie hebben opmerkelijke resultaten laten zien bij het genereren van hoogwaardige video's. Echter, ze kunnen alleen korte videoclips genereren, meestal rond de 10 seconden of 240 frames, vanwege berekeningsbeperkingen tijdens training. In dit werk laten we zien dat bestaande modellen op natuurlijke wijze kunnen worden uitgebreid naar autoregressieve video diffusie modellen zonder de architecturen te veranderen. Ons belangrijkste idee is om de latente frames toe te wijzen met progressief toenemende ruisniveaus in plaats van een enkel ruisniveau, wat zorgt voor fijnmazige conditie tussen de latenten en grote overlappingen tussen de aandachtsvensters. Een dergelijke progressieve video denoising stelt onze modellen in staat om autoregressief videoframes te genereren zonder kwaliteitsverlies of abrupte scènewisselingen. We presenteren state-of-the-art resultaten voor het genereren van lange video's van 1 minuut (1440 frames bij 24 FPS). Video's van dit artikel zijn beschikbaar op https://desaixie.github.io/pa-vdm/.
In dit werk stellen we een nieuwe methode (GLOV) voor die Grote Taalmodellen (LLM's) in staat stelt om op te treden als impliciete optimaliseerders voor Visie-Taalmodellen (VLM's) om de prestaties van downstream visuele taken te verbeteren. Onze GLOV meta-prompt een LLM met de beschrijving van de downstream taak, waarbij het wordt bevraagd voor geschikte VLM-prompts (bijv. voor zero-shot classificatie met CLIP). Deze prompts worden gerangschikt op basis van een zuiverheidsmaat verkregen via een fitnessfunctie. In elke respectievelijke optimalisatiestap worden de gerangschikte prompts gevoed als in-context voorbeelden (met hun nauwkeurigheden) om de LLM uit te rusten met de kennis van het type tekstprompts dat de downstream VLM verkiest. Bovendien sturen we ook expliciet het LLM-generatieproces in elke optimalisatiestap door specifiek een offsetverschilvector van de embeddings van de positieve en negatieve oplossingen die door de LLM zijn gevonden in eerdere optimalisatiestappen toe te voegen aan de tussenlaag van het netwerk voor de volgende generatiestap. Deze offsetvector stuurt de LLM-generatie aan naar het type taal dat de downstream VLM verkiest, resulterend in verbeterde prestaties op de downstream visuele taken. We evalueren onze GLOV uitgebreid op 16 diverse datasets met behulp van twee families van VLM's, namelijk dubbele-encoder (bijv. CLIP) en encoder-decoder (bijv. LLaVa) modellen -- waarbij we aantonen dat de ontdekte oplossingen de herkenningsprestaties kunnen verbeteren met maximaal 15,0% en 57,5% (respectievelijk 3,8% en 21,6% gemiddeld) voor deze modellen.
Onlangs hebben grote taal- en visiemodellen (LLVM's) aanzienlijke aandacht en ontwikkelingsinspanningen gekregen vanwege hun opmerkelijke generalisatieprestaties over een breed scala van taken die perceptie- en cognitieve vaardigheden vereisen. Een sleutelfactor achter hun succes is hun eenvoudige architectuur, die bestaat uit een visie-encoder, een projector en een groot taalmodel (LLM). Ondanks hun prestaties in geavanceerde redeneertaken, blijft hun prestatie op fundamentele perceptiegerelateerde taken (bijv. MMVP) verrassend laag. Deze discrepantie roept de vraag op hoe LLVM's daadwerkelijk afbeeldingen waarnemen en profiteren van de voordelen van de visie-encoder. Om dit aan te pakken, onderzoeken we systematisch deze vraag met betrekking tot verschillende aspecten: permutatie-invariantie, robuustheid, wiskundig redeneren, behoud van uitlijning en belang, door de meest voorkomende LLVM-families (d.w.z. LLaVA) te evalueren over 10 evaluatiebenchmarks. Onze uitgebreide experimenten onthullen verschillende intrigerende eigenschappen van de huidige LLVM's: (1) ze verwerken intern de afbeelding op een globale manier, zelfs wanneer de volgorde van visuele patchreeksen willekeurig wordt gepermuteerd; (2) ze zijn soms in staat om wiskundige problemen op te lossen zonder volledig gedetailleerde numerieke informatie waar te nemen; (3) de crossmodale uitlijning is overgefit op complexe redeneertaken, waardoor ze enkele van de oorspronkelijke perceptuele mogelijkheden van hun visie-encoder verliezen; (4) de representatieruimte in de lagere lagen (<25%) speelt een cruciale rol bij het bepalen van de prestaties en het verbeteren van het visuele begrip. Ten slotte, op basis van de bovenstaande observaties, suggereren we potentiële toekomstige richtingen voor het bouwen van betere LLVM's en het construeren van uitdagendere evaluatiebenchmarks.
Grote Taalmodellen (LLM's) hebben opmerkelijke in-context leermogelijkheden (ICL) gedemonstreerd. In dit onderzoek verkennen we een verrassend fenomeen met betrekking tot ICL: LLM's kunnen meerdere, computationeel onderscheidbare ICL-taken tegelijkertijd uitvoeren, tijdens een enkele inferentieoproep, een mogelijkheid die we "taaksuperpositie" noemen. We bieden empirisch bewijs van dit fenomeen over verschillende LLM-families en schalen en tonen aan dat dit fenomeen zelfs naar voren komt als we het model trainen om één taak tegelijkertijd in-context te leren. We bieden theoretische verklaringen dat deze mogelijkheid goed binnen de expressieve kracht van transformers valt. We onderzoeken ook hoe LLM's intern taakvectoren componeren tijdens superpositie. Bovendien laten we zien dat grotere modellen meer ICL-taken parallel kunnen oplossen en hun uitvoer distributie beter kunnen kalibreren. Onze bevindingen bieden inzicht in de latente mogelijkheden van LLM's, ondersteunen verder het perspectief van "LLM's als superpositie van simulatoren" en roepen vragen op over de mechanismen die gelijktijdige taakuitvoering mogelijk maken.
In dit artikel stellen we een nieuwe methode voor om de compositionele begripsvorming te verbeteren in vooraf getrainde visie- en taalmodellen (VLM's) zonder prestatieverlies bij zero-shot multi-modale taken. Traditionele fine-tuning benaderingen verbeteren vaak compositioneel redeneren ten koste van degradatie van multi-modale mogelijkheden, voornamelijk door het gebruik van globaal hard negatief (HN) verlies, dat globale representaties van afbeeldingen en teksten contrasteert. Dit globale HN verlies duwt HN-teksten die sterk lijken op de originele, waardoor de multi-modale representaties van het model worden beschadigd. Om deze beperking te overwinnen, stellen we Fine-grained Selective Calibrated CLIP (FSC-CLIP) voor, dat lokale hard negatief verlies en selectieve gekalibreerde regulering integreert. Deze innovaties bieden fijnmazig negatief toezicht terwijl de representatieve integriteit van het model behouden blijft. Onze uitgebreide evaluaties over diverse benchmarks voor zowel compositionele als multi-modale taken tonen aan dat FSC-CLIP niet alleen compositionele prestaties behaalt die vergelijkbaar zijn met state-of-the-art modellen, maar ook sterke multi-modale mogelijkheden behoudt. De code is beschikbaar op: https://github.com/ytaek-oh/fsc-clip.
Monte Carlo Tree Search (MCTS) is recentelijk naar voren gekomen als een krachtige techniek om de redeneermogelijkheden van LLM's te verbeteren. Technieken zoals SFT of DPO hebben LLM's in staat gesteld om hoogwaardige gedragingen uit MCTS te destilleren, waardoor hun redeneerprestaties verbeteren. Echter, bestaande destillatiemethoden benutten de rijke trajectinformatie gegenereerd door MCTS niet volledig, wat het potentieel voor verbeteringen in LLM-redenering beperkt. In dit artikel stellen we AlphaLLM-CPL voor, een nieuw pairwise trainingskader dat LLM's in staat stelt zichzelf te verbeteren door middel van MCTS-gedragsdestillatie. AlphaLLM-CPL maakt efficiënt gebruik van MCTS-trajectorieën via twee belangrijke innovaties: (1) AlphaLLM-CPL construeert stapsgewijze trajectpaar van kindknopen die dezelfde ouder delen in de zoekboom, waardoor stapniveau-informatie wordt geboden voor effectievere MCTS-gedragsdestillatie. (2) AlphaLLM-CPL introduceert curriculumvoorkeursleren, waarbij de trainingsvolgorde van trajectpaar dynamisch wordt aangepast in elke offline trainings-epoch om kritieke leermomenten te prioriteren en overpassing te verminderen. Experimentele resultaten op wiskundige redeneertaken tonen aan dat AlphaLLM-CPL aanzienlijk beter presteert dan eerdere MCTS-gedragsdestillatiemethoden, waardoor de redeneermogelijkheden van LLM's aanzienlijk worden verbeterd.
Grote Taalmodel (GTM) gebaseerde multi-agent systemen (MAS) tonen opmerkelijk potentieel in samenwerkend probleemoplossen, maar staan nog steeds voor kritieke uitdagingen: lage communicatie-efficiëntie, beperkte schaalbaarheid en een gebrek aan effectieve optimalisatiemethoden voor parameter-updating. We presenteren Optima, een nieuw raamwerk dat deze kwesties aanpakt door zowel de communicatie-efficiëntie als de taakeffectiviteit aanzienlijk te verbeteren in GTM-gebaseerde MAS door middel van GTM-training. Optima maakt gebruik van een iteratief genereren, rangschikken, selecteren en trainen paradigma met een beloningsfunctie die taakprestaties, token-efficiëntie en communicatie leesbaarheid in balans brengt. We verkennen verschillende RL-algoritmes, waaronder Supervised Fine-Tuning, Direct Preference Optimization, en hun hybride benaderingen, waarbij inzichten worden geboden in hun effectiviteit-efficiëntie trade-offs. We integreren Monte Carlo Tree Search-geïnspireerde technieken voor DPO-datageneratie, waarbij gespreksbeurten als boomknopen worden behandeld om diverse interactiepaden te verkennen. Geëvalueerd op gangbare multi-agent taken, waaronder informatie-asymmetrische vraagbeantwoording en complex redeneren, toont Optima consistente en aanzienlijke verbeteringen ten opzichte van single-agent baselines en standaard MAS gebaseerd op Llama 3 8B, met een prestatiewinst tot 2.8x met minder dan 10% tokens op taken die zware informatie-uitwisseling vereisen. Bovendien openen de efficiëntiewinsten van Optima nieuwe mogelijkheden om inferentie-berekeningen effectiever te benutten, wat leidt tot verbeterde schalingswetten voor inferentietijd. Door fundamentele uitdagingen in GTM-gebaseerde MAS aan te pakken, toont Optima het potentieel voor schaalbare, efficiënte en effectieve MAS (https://chenweize1998.github.io/optima-project-page).
Deze paper stelt het paradigma van grote convolutiekernen voor bij het ontwerpen van moderne Convolutional Neural Networks (ConvNets). We tonen aan dat het gebruik van enkele grote kernels, in plaats van het stapelen van meerdere kleinere, een superieure ontwerpaanpak kan zijn. Ons werk introduceert een reeks richtlijnen voor architectuurontwerp voor ConvNets met grote kernels die hun efficiëntie en prestaties optimaliseren. We stellen de UniRepLKNet-architectuur voor, die systematische architectuurontwerpprincipes biedt die specifiek zijn ontwikkeld voor ConvNets met grote kernels, waarbij hun unieke vermogen om uitgebreide ruimtelijke informatie vast te leggen zonder diepe laagstapeling wordt benadrukt. Dit resulteert in een model dat niet alleen zijn voorgangers overtreft met een ImageNet-nauwkeurigheid van 88,0%, een ADE20K mIoU van 55,6% en een COCO box AP van 56,4%, maar ook indrukwekkende schaalbaarheid en prestaties laat zien op verschillende modaliteiten zoals tijdreeksvoorspelling, audio, puntenwolk en videoregistratie. Deze resultaten duiden op de universele modelleringsmogelijkheden van ConvNets met grote kernels met een snellere inferentiesnelheid in vergelijking met vision transformers. Onze bevindingen tonen aan dat ConvNets met grote kernels grotere effectieve receptieve velden en een hogere vormbias hebben, weg van de textuurbias die typerend is voor CNN's met kleinere kernels. Alle codes en modellen zijn openbaar beschikbaar op https://github.com/AILab-CVC/UniRepLKNet ter bevordering van verder onderzoek en ontwikkeling in de gemeenschap.
Automatische LLM-benchmarks, zoals AlpacaEval 2.0, Arena-Hard-Auto en MT-Bench, zijn populair geworden voor het evalueren van taalmodellen vanwege hun kosteneffectiviteit en schaalbaarheid in vergelijking met menselijke evaluatie. Het behalen van hoge winstpercentages op deze benchmarks kan aanzienlijk bijdragen aan de promotionele impact van nieuw uitgebrachte taalmodellen. Deze promotionele voordelen kunnen trucs aanmoedigen, zoals het manipuleren van de lengte of stijl van modeluitvoer om winstpercentages te beïnvloeden, ook al zijn er verschillende mechanismen ontwikkeld om de lengte te controleren en de stijl te ontrafelen om manipulatie te verminderen. Desalniettemin tonen we aan dat zelfs een "null model" dat altijd een constante reactie genereert (onafhankelijk van de invoerinstructies) automatische benchmarks kan bedriegen en topwinstpercentages kan behalen: een winstpercentage van 86,5% op AlpacaEval 2.0; een score van 83,0 op Arena-Hard-Auto; en een score van 9,55 op MT-Bench. Bovendien zijn de gemanipuleerde bedrieglijke uitvoer overdraagbaar omdat we ervan uitgaan dat de instructies van deze benchmarks (bijv. 805 monsters van AlpacaEval 2.0) privé zijn en niet toegankelijk zijn. Hoewel onze experimenten voornamelijk conceptueel van aard zijn, zou een tegenstander LLM's kunnen gebruiken om meer onopvallende bedrieglijke reacties te genereren, waarbij zij onethisch profiteren van hoge winstpercentages en promotionele impact. Onze bevindingen pleiten voor de ontwikkeling van anti-bedriegingsmechanismen voor betrouwbare automatische benchmarks. De code is beschikbaar op https://github.com/sail-sg/Cheating-LLM-Benchmarks.
We bestuderen de prestaties van transformers als een functie van het aantal herhalingen van trainingsvoorbeelden met algorithmisch gegenereerde datasets. Op drie wiskundige problemen: de grootste gemene deler, modulaire vermenigvuldiging en matrixeigenwaarden, tonen we aan dat modellen die zijn getraind op kleinere sets herhaalde voorbeelden beter presteren dan modellen die zijn getraind op grotere sets eenmalig gebruikte voorbeelden. We tonen ook aan dat tweesetentraining - herhaald gebruik van een kleine willekeurige subset van voorbeelden, samen met normale bemonstering van de rest van de trainingsset - zorgt voor sneller leren en betere prestaties. Dit benadrukt dat de voordelen van herhaling kunnen opwegen tegen die van gegevensdiversiteit. Deze datasets en problemen bieden een gecontroleerde omgeving om meer inzicht te krijgen in de nog steeds slecht begrepen wisselwerking tussen generalisatie en memorisatie in diep leren.
Om gewenst gedrag op te wekken in grote taalmodellen (LLM's) voor taken die door interactie worden aangestuurd, traint het instructie-afstemmingsstadium doorgaans LLM's op instructie-responsparen met behulp van het verlies bij voorspelling van het volgende token (NTP). Eerdere onderzoeken die gericht zijn op het verbeteren van de prestaties van instructie-afstemming benadrukken vaak de noodzaak van hoogwaardige datasets voor begeleid fijnafstemmen (SFT), die doorgaans dure gegevensfiltering met eigen LLM's of arbeidsintensieve gegevensgeneratie door menselijke annotators omvatten. Deze benaderingen benutten echter niet volledig de intrinsieke eigenschappen van de datasets, wat resulteert in hoge computationele en arbeidskosten, waardoor schaalbaarheid en prestatiewinsten worden beperkt. In dit artikel stellen we SFTMix voor, een nieuw recept dat de prestaties van instructie-afstemming verhoogt voorbij het conventionele NTP-paradigma, zonder de noodzaak van goed samengestelde datasets. Door te observeren dat LLM's ongelijke zelfverzekerdheid vertonen over de semantische representatieruimte, betogen we dat voorbeelden met verschillende zelfvertrouwensniveaus verschillende rollen zouden moeten spelen tijdens het instructie-afstemmingsproces. Op basis van dit inzicht maakt SFTMix gebruik van trainingsdynamiek om voorbeelden met variërende zelfvertrouwensniveaus te identificeren, past vervolgens een regulering toe op basis van Mixup om overpassing op zelfverzekerde voorbeelden te verminderen terwijl toezichtsignalen worden doorgegeven om het leren op relatief onzekere voorbeelden te verbeteren. Deze benadering stelt SFTMix in staat om aanzienlijk beter te presteren dan NTP over een breed scala van taken voor het volgen van instructies en domeinspecifieke SFT-taken in de gezondheidszorg, waarbij de aanpasbaarheid aan diverse LLM-families en schaalbaarheid naar datasets van elke omvang wordt aangetoond. Uitgebreide ablatiestudies bevestigen verder de robuustheid van de ontwerpkeuzes van SFTMix, waarbij de veelzijdigheid wordt benadrukt in het consequent verbeteren van de prestaties over verschillende LLM's en datasets in bredere toepassingen van natuurlijke taalverwerking.
Reinforcement Learning from Human Feedback (RLHF) is opgekomen als een cruciaal instrument voor het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren. Directe Voorkeursoptimalisatie (DPO), een van de meest populaire benaderingen, formuleert RLHF als een beleidsoptimalisatieprobleem zonder expliciete schatting van de beloningsfunctie. Het overwint de stabiliteits- en efficiëntieproblemen van tweestapsbenaderingen, die doorgaans eerst de beloningsfunctie schatten en vervolgens het beleid optimaliseren via proximale beleidsoptimalisatie (PPO). Aangezien RLHF in wezen een optimalisatieprobleem is, en het bekend is dat momentumtechnieken optimalisatie zowel theoretisch als empirisch kunnen versnellen, rijst een natuurlijke vraag: Kan RLHF worden versneld door momentum? Dit artikel beantwoordt deze vraag bevestigend. In detail tonen we eerst aan dat de iteratieve voorkeursoptimalisatiemethode kan worden beschouwd als een proximaal puntmethode. Op basis van deze observatie stellen we een algemeen Accelerated Preference Optimization (APO) framework voor, dat veel bestaande voorkeursoptimalisatiealgoritmen verenigt en de momentumtechniek van Nesterov gebruikt om de afstemming van LLM's te versnellen. Theoretisch tonen we aan dat APO een snellere convergentiesnelheid kan bereiken dan de standaard iteratieve voorkeursoptimalisatiemethoden, waaronder DPO en Self-Play Preference Optimization (SPPO). Empirisch tonen we de superioriteit van APO ten opzichte van DPO, iteratieve DPO en andere sterke baselines voor RLHF op de AlpacaEval 2.0 benchmark.
Dynamische scène reconstructie is een langdurige uitdaging in het veld van 3D visie. Onlangs heeft de opkomst van 3D Gaussisch Splatting nieuwe inzichten geboden in dit probleem. Hoewel daaropvolgende inspanningen statische 3D Gaussisch snel hebben uitgebreid naar dynamische scènes, ontbreekt het vaak aan expliciete beperkingen op objectbeweging, wat leidt tot optimalisatieproblemen en prestatievermindering. Om de bovenstaande kwesties aan te pakken, stellen we een nieuw vervormbaar 3D Gaussisch splatting raamwerk voor genaamd MotionGS, dat expliciete bewegingsprioriteiten verkent om de vervorming van 3D Gaussians te begeleiden. Specifiek introduceren we eerst een optische stroom ontkoppelingsmodule die optische stroom opsplitst in camerastroom en bewegingsstroom, die respectievelijk overeenkomen met camerabeweging en objectbeweging. Vervolgens kan de bewegingsstroom effectief de vervorming van 3D Gaussians beperken, waardoor de beweging van dynamische objecten wordt gesimuleerd. Daarnaast wordt een camerapositie verfijningsmodule voorgesteld om afwisselend 3D Gaussians en cameraposities te optimaliseren, waardoor de impact van onnauwkeurige cameraposities wordt verminderd. Uitgebreide experimenten in monoculaire dynamische scènes bevestigen dat MotionGS de state-of-the-art methoden overtreft en aanzienlijke superioriteit vertoont in zowel kwalitatieve als kwantitatieve resultaten. Projectpagina: https://ruijiezhu94.github.io/MotionGS_page
Grote taalmodellen (LLM's) hebben opmerkelijke in-context leren (ICL) capaciteiten laten zien op tekstuele data. We onderzoeken of deze capaciteiten kunnen worden uitgebreid naar continue vectoren uit diverse domeinen, verkregen van black-box voortrainde encoders. Door invoergegevens af te stemmen op de insluitruimte van een LLM via lichtgewicht projectoren, observeren we dat LLM's effectief kunnen verwerken en leren van deze geprojecteerde vectoren, wat we Vector-ICL noemen. In het bijzonder ontdekken we dat het voortrainen van projectoren met algemene taalmodelleerdoelstellingen Vector-ICL mogelijk maakt, terwijl taakspecifieke finetuning de prestaties verder verbetert. In onze experimenten over verschillende taken en modaliteiten, waaronder tekstreconstructie, numerieke functieregressie, tekstclassificatie, samenvatting, moleculaire bijschriften, tijdreeksclassificatie, grafiekclassificatie en fMRI-decodering, overtreft Vector-ICL vaak zowel weinig-opnames ICL als domeinspecifieke modellen of afstemming. We voeren verder analyses en casestudies uit, die wijzen op het potentieel van LLM's om vectorrepresentaties te verwerken buiten traditionele op tokens gebaseerde paradigma's.
Data is een cruciaal element in de afstemming van grote taalmodellen (LLM). Recente studies hebben onderzocht hoe LLM's kunnen worden gebruikt voor efficiënte gegevensverzameling. Echter, door LLM gegenereerde gegevens hebben vaak te kampen met kwaliteitsproblemen, met ondervertegenwoordigde of afwezige aspecten en datapunten van lage kwaliteit. Om deze problemen aan te pakken, stellen we Data Advisor voor, een verbeterde op LLM gebaseerde methode voor het genereren van gegevens die rekening houdt met de kenmerken van het gewenste dataset. Vertrekkend van een set vooraf gedefinieerde principes, monitort Data Advisor de status van de gegenereerde gegevens, identificeert zwakke punten in de huidige dataset en adviseert dienovereenkomstig de volgende iteratie van gegevensgeneratie. Data Advisor kan eenvoudig worden geïntegreerd in bestaande methoden voor gegevensgeneratie om de kwaliteit en de dekking van de gegevens te verbeteren. Experimenten over veiligheidsafstemming van drie representatieve LLM's (bijv. Mistral, Llama2 en Falcon) tonen de effectiviteit van Data Advisor aan bij het verbeteren van de modelveiligheid tegen verschillende fijnmazige veiligheidsproblemen zonder het modelgebruik op te offeren.
Ondanks de uitstekende prestaties wordt Neural Architecture Search (NAS) bekritiseerd vanwege de enorme rekenkracht die het vereist. Onlangs is Zero-shot NAS naar voren gekomen als een veelbelovende benadering door gebruik te maken van Zero-cost (ZC) proxies, die aanzienlijk de computationele eisen verminderen. Ondanks dit vertrouwen bestaande ZC proxies zwaar op expertkennis en brengen aanzienlijke kosten met zich mee door trial-and-error. Vooral bij NLP-taken slagen de meeste bestaande ZC proxies er niet in om de prestaties van de naïeve baseline te overtreffen. Om deze uitdagingen aan te pakken, introduceren we een nieuw raamwerk, LPZero, dat als eerste automatisch ZC proxies ontwerpt voor verschillende taken, met een hogere consistentie in rangorde dan door mensen ontworpen proxies. Specifiek modelleren we de ZC proxy als een symbolische vergelijking en nemen we een uniforme proxy zoekruimte op die bestaande ZC proxies omvat, die zijn samengesteld uit een vooraf gedefinieerde set wiskundige symbolen. Om heuristisch te zoeken naar de beste ZC proxy, integreert LPZero genetische programmering om de optimale symbolische samenstelling te vinden. We stellen een op regels gebaseerde snoeistrategie (RPS) voor, die onbelovende proxies preventief elimineert, waardoor het risico van proxy degradatie wordt verminderd. Uitgebreide experimenten op FlexiBERT, GPT-2 en LLaMA-7B tonen de superieure rangschikkingsmogelijkheid en prestaties van LPZero op downstream taken in vergelijking met huidige benaderingen.
Het oplossen van tijdafhankelijke parametrische partiële differentiaalvergelijkingen (PDV's) is uitdagend, aangezien modellen zich moeten aanpassen aan variaties in parameters zoals coëfficiënten, dwingende termen en randvoorwaarden. Op data gebaseerde neurale oplossers trainen ofwel op gegevens die zijn bemonsterd uit de verdeling van de PDV-parameters in de hoop dat het model generaliseert naar nieuwe instanties, of vertrouwen op op gradienten gebaseerde aanpassing en meta-leren om de dynamiek van observaties impliciet te coderen. Dit gaat vaak gepaard met een verhoogde inferentiecomplexiteit. Geïnspireerd door de leermogelijkheden in context van grote taalmodellen (LLM's), introduceren we Zebra, een nieuwe generatieve auto-regressieve transformer die is ontworpen om parametrische PDV's op te lossen zonder dat er bij inferentie gradientaanpassing nodig is. Door gebruik te maken van in-context informatie tijdens zowel pre-training als inferentie, past Zebra zich dynamisch aan nieuwe taken aan door te conditioneren op invoersequenties die contexttrajecten of voorafgaande toestanden bevatten. Deze benadering stelt Zebra in staat om flexibel om te gaan met contextinvoer van willekeurige omvang en ondersteunt onzekerheidskwantificatie door het monsteren van meerdere oplossingstrajecten. We evalueren Zebra in verschillende uitdagende PDV-scenario's en tonen zijn aanpasbaarheid, robuustheid en superieure prestaties in vergelijking met bestaande benaderingen.