Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren Movie Gen, een reeks basismodellen die hoogwaardige, 1080p HD-video's genereert met verschillende beeldverhoudingen en gesynchroniseerd geluid. We tonen ook aanvullende mogelijkheden zoals nauwkeurige instructiegebaseerde videobewerking en de generatie van gepersonaliseerde video's op basis van een afbeelding van een gebruiker. Onze modellen zetten een nieuwe state-of-the-art neer op meerdere taken: tekst-naar-video synthese, video personalisatie, videobewerking, video-naar-audio generatie, en tekst-naar-audio generatie. Ons grootste videogeneratiemodel is een 30B-parameters transformer die is getraind met een maximale contextlengte van 73K video tokens, wat overeenkomt met een gegenereerde video van 16 seconden bij 16 frames per seconde. We tonen meerdere technische innovaties en vereenvoudigingen op het gebied van architectuur, latente ruimtes, trainingsdoelstellingen en recepten, gegevenscuratie, evaluatieprotocollen, parallelisatietechnieken, en inferentie-optimalisaties die ons in staat stellen om de voordelen te benutten van het schalen van pre-trainingsgegevens, modelgrootte, en trainingsberekeningen voor het trainen van grootschalige mediageneratiemodellen. We hopen dat dit artikel de onderzoeksgemeenschap helpt om vooruitgang en innovatie in mediageneratiemodellen te versnellen. Alle video's uit dit artikel zijn beschikbaar op https://go.fb.me/MovieGenResearchVideos.
Het waarnemen en genereren van diverse modaliteiten zijn cruciaal voor AI-modellen om effectief te leren van en in te spelen op signalen uit de echte wereld, wat betrouwbare evaluaties voor hun ontwikkeling noodzakelijk maakt. We identificeren twee belangrijke problemen in de huidige evaluaties: (1) inconsistente normen, gevormd door verschillende gemeenschappen met uiteenlopende protocollen en volwassenheidsniveaus; en (2) aanzienlijke vraag-, beoordelings- en generalisatievooroordelen. Om deze aan te pakken, introduceren we MixEval-X, de eerste any-to-any benchmark in de echte wereld die is ontworpen om evaluaties over input- en outputmodaliteiten te optimaliseren en standaardiseren. We stellen multimodale benchmarkmenging en aanpassing-rectificatiepijplijnen voor om echte taakverdelingen te reconstrueren, waardoor evaluaties effectief generaliseren naar echte gebruiksgevallen. Uitgebreide meta-evaluaties tonen aan dat onze aanpak benchmarkmonsters effectief afstemt op echte taakverdelingen en dat de modelranglijsten sterk correleren met die van door de menigte-sourced echte wereld evaluaties (tot 0.98). We bieden uitgebreide leaderboards om bestaande modellen en organisaties opnieuw te rangschikken en bieden inzichten om het begrip van multimodale evaluaties te verbeteren en toekomstig onderzoek te informeren.
LLM-gebaseerde beoordelaars zijn naar voren gekomen als een schaalbaar alternatief voor menselijke evaluatie en worden steeds vaker gebruikt om modellen te beoordelen, vergelijken en verbeteren. De betrouwbaarheid van LLM-gebaseerde beoordelaars zelf wordt echter zelden onderzocht. Naarmate LLM's geavanceerder worden, worden hun reacties complexer, waardoor sterkere beoordelaars nodig zijn om ze te evalueren. Bestaande benchmarks richten zich voornamelijk op de afstemming van een beoordelaar op menselijke voorkeuren, maar houden vaak geen rekening met meer uitdagende taken waar crowdsourced menselijke voorkeur een slechte indicator is voor feitelijke en logische correctheid. Om dit aan te pakken, stellen wij een nieuw evaluatiekader voor om LLM-gebaseerde beoordelaars objectief te beoordelen. Op basis van dit kader stellen wij JudgeBench voor, een benchmark voor het evalueren van LLM-gebaseerde beoordelaars op uitdagende responsparen die kennis, redenering, wiskunde en codering omvatten. JudgeBench maakt gebruik van een nieuw proces om bestaande moeilijke datasets om te zetten in uitdagende responsparen met voorkeurslabels die objectieve correctheid weerspiegelen. Onze uitgebreide evaluatie op een verzameling aangezwengelde beoordelaars, fijn afgestelde beoordelaars, multi-agent beoordelaars en beloningsmodellen toont aan dat JudgeBench aanzienlijk uitdagender is dan eerdere benchmarks, waarbij veel sterke modellen (bijv. GPT-4o) slechts iets beter presteren dan willekeurig raden. Over het algemeen biedt JudgeBench een betrouwbaar platform voor het beoordelen van steeds geavanceerdere LLM-gebaseerde beoordelaars. Gegevens en code zijn beschikbaar op https://github.com/ScalerLab/JudgeBench.
Het opschalen van autoregressieve modellen in visie heeft zich niet zo gunstig bewezen als bij grote taalmodellen. In dit werk onderzoeken we dit schalingsprobleem in de context van tekst-naar-afbeelding generatie, waarbij we ons richten op twee kritieke factoren: of modellen discrete of continue tokens gebruiken, en of tokens worden gegenereerd in een willekeurige of vaste raster volgorde met BERT- of GPT-achtige transformer architecturen. Onze empirische resultaten tonen aan dat, hoewel alle modellen effectief schalen wat betreft validatieverlies, hun evaluatieprestaties - gemeten aan de hand van FID, GenEval score en visuele kwaliteit - verschillende trends vertonen. Modellen gebaseerd op continue tokens behalen aanzienlijk betere visuele kwaliteit dan die welke discrete tokens gebruiken. Bovendien beïnvloeden de generatievolgorde en aandachtsmechanismen aanzienlijk de GenEval score: modellen met een willekeurige volgorde behalen opmerkelijk betere GenEval scores in vergelijking met raster-gebaseerde modellen. Geïnspireerd door deze bevindingen trainen we Fluid, een autoregressief model met willekeurige volgorde op continue tokens. Het Fluid 10.5B model behaalt een nieuwe state-of-the-art zero-shot FID van 6.16 op MS-COCO 30K, en een totale score van 0.69 op de GenEval benchmark. We hopen dat onze bevindingen en resultaten toekomstige inspanningen zullen aanmoedigen om de kloof in schaling tussen visie- en taalmodellen verder te overbruggen.
In dit artikel introduceren we Janus, een autoregressief framework dat multimodale begrip en generatie verenigt. Voorafgaand onderzoek vertrouwt vaak op een enkele visuele encoder voor beide taken, zoals Chameleon. Echter, vanwege de verschillende niveaus van informatiegranulariteit die vereist zijn voor multimodaal begrip en generatie, kan deze benadering leiden tot suboptimale prestaties, met name in multimodaal begrip. Om dit probleem aan te pakken, splitsen we visuele codering op in afzonderlijke paden, terwijl we nog steeds gebruikmaken van een enkele, verenigde transformer-architectuur voor verwerking. De splitsing verlicht niet alleen het conflict tussen de rollen van de visuele encoder in begrip en generatie, maar verbetert ook de flexibiliteit van het framework. Bijvoorbeeld kunnen zowel de multimodale begrips- als generatiecomponenten onafhankelijk hun meest geschikte coderingsmethoden selecteren. Experimenten tonen aan dat Janus eerdere verenigde modellen overtreft en de prestaties van taakspecifieke modellen evenaart of overtreft. De eenvoud, hoge flexibiliteit en effectiviteit van Janus maken het een sterke kandidaat voor verenigde multimodale modellen van de volgende generatie.
Het succes van grote taalmodellen (LLM's) heeft inspanningen aangewakkerd om spraak- en audiogegevens te integreren, met als doel algemene basismodellen te creëren die in staat zijn zowel tekstuele als niet-tekstuele invoer te verwerken. Recente ontwikkelingen, zoals GPT-4o, benadrukken het potentieel voor end-to-end spraak-LLM's, die niet-semantische informatie en wereldkennis behouden voor dieper begrip van spraak. Om de ontwikkeling van spraak-LLM's te sturen, stellen we een vijf niveaus roadmap voor, variërend van basis automatische spraakherkenning (ASR) tot geavanceerde superieure modellen die in staat zijn niet-semantische informatie te integreren met abstracte akoestische kennis voor complexe taken. Bovendien ontwerpen we een benchmark, SAGI Benchmark, die kritieke aspecten standaardiseert over verschillende taken in deze vijf niveaus, waarbij uitdagingen worden blootgelegd bij het gebruik van abstracte akoestische kennis en de volledigheid van capaciteit. Onze bevindingen onthullen hiaten in het omgaan met paralinguïstische aanwijzingen en abstracte akoestische kennis, en we bieden toekomstige richtingen aan. Dit artikel schetst een roadmap voor het bevorderen van spraak-LLM's, introduceert een benchmark voor evaluatie, en biedt belangrijke inzichten in hun huidige beperkingen en potentieel.
Huidige mobiele assistenten worden beperkt door hun afhankelijkheid van systeem-API's of worstelen met complexe gebruikersinstructies en diverse interfaces vanwege beperkte begrips- en besluitvormingsvaardigheden. Om deze uitdagingen aan te pakken, stellen we MobA voor, een nieuw mobiel telefoonagent aangedreven door multimodale grote taalmodellen die begrips- en planningsvaardigheden verbeteren via een geavanceerde tweelaags agentarchitectuur. De hoog-niveau Globale Agent (GA) is verantwoordelijk voor het begrijpen van gebruikersopdrachten, het bijhouden van geschiedenisherinneringen en het plannen van taken. De laag-niveau Lokale Agent (LA) voorspelt gedetailleerde acties in de vorm van functieaanroepen, geleid door subtaken en herinneringen van de GA. Het integreren van een Reflectiemodule maakt efficiënte taakvoltooiing mogelijk en stelt het systeem in staat om eerder ongeziene complexe taken aan te pakken. MobA toont aanzienlijke verbeteringen in de efficiëntie van taakuitvoering en voltooiingspercentage in real-life evaluaties, waarbij het potentieel van MLLM-gestuurde mobiele assistenten wordt benadrukt.
Vision Language Models (VLM's) hebben vaak moeite met cultuurspecifieke kennis, vooral in talen anders dan het Engels en in ondervertegenwoordigde culturele contexten. Om hun begrip van dergelijke kennis te evalueren, introduceren we WorldCuisines, een benchmark op grote schaal voor meertalig en multicultureel, visueel gefundeerd taalbegrip. Deze benchmark omvat een dataset voor visuele vraagbeantwoording (VQA) met tekst-afbeelding paren in 30 talen en dialecten, die 9 taalfamilies bestrijken en meer dan 1 miljoen datapunten bevatten, waarmee het de grootste multiculturele VQA-benchmark tot nu toe is. Het omvat taken voor het identificeren van gerechtnamen en hun oorsprong. We bieden evaluatiedatasets in twee groottes (12k en 60k instanties) samen met een trainingsdataset (1 miljoen instanties). Onze bevindingen tonen aan dat VLM's beter presteren met de juiste locatiecontext, maar moeite hebben met tegenstrijdige contexten en het voorspellen van specifieke regionale keukens en talen. Om toekomstig onderzoek te ondersteunen, stellen we een kennisbank beschikbaar met geannoteerde voedselvermeldingen en afbeeldingen samen met de VQA-gegevens.
Tekst-rijke visuele begripsvermogen - het vermogen om omgevingen te verwerken waar dichte tekstuele inhoud is geïntegreerd met visuele elementen - is cruciaal voor multimodale grote taalmodellen (MLLM's) om effectief te kunnen interageren met gestructureerde omgevingen. Om deze capaciteit te verbeteren, stellen we voor om algemene multimodale instructies te synthetiseren vanuit webpagina-gebruikersinterfaces met behulp van op tekst gebaseerde grote taalmodellen (LLM's). Ondanks het ontbreken van direct visuele invoer, zijn op tekst gebaseerde LLM's in staat om gestructureerde tekstrepresentaties van webpagina-toegankelijkheidsbomen te verwerken. Deze instructies worden vervolgens gekoppeld aan UI-screenshots om multimodale modellen te trainen. We introduceren MultiUI, een dataset met 7,3 miljoen voorbeelden van 1 miljoen websites, die diverse multimodale taken en UI-indelingen bestrijken. Modellen getraind op MultiUI excelleren niet alleen in web-UI-taken - met een verbetering tot wel 48% op VisualWebBench en een 19,1% boost in actie-accuraatheid op een webagentdataset Mind2Web - maar generaliseren ook verrassend goed naar niet-web-UI-taken en zelfs naar niet-UI-domeinen, zoals documentbegrip, OCR en grafiekinterpretatie. Deze resultaten benadrukken de brede toepasbaarheid van web-UI-gegevens voor het bevorderen van tekst-rijke visuele begripsvermogen in verschillende scenario's.
Recente ontwikkelingen in op maat gemaakte videogeneratie hebben gebruikers in staat gesteld om video's te maken die zijn afgestemd op specifieke onderwerpen en bewegingstrajecten. Echter, bestaande methoden vereisen vaak ingewikkelde fijnafstemming op testtijd en worstelen met het balanceren van het leren van onderwerpen en bewegingscontrole, wat hun toepassingen in de echte wereld beperkt. In dit artikel presenteren we DreamVideo-2, een zero-shot videocustomization-framework dat in staat is om video's te genereren met een specifiek onderwerp en bewegingstraject, geleid door een enkele afbeelding en een sequentie van begrenzingskaders, respectievelijk, zonder de noodzaak van fijnafstemming op testtijd. Specifiek introduceren we referentieaandacht, die gebruikmaakt van de inherente mogelijkheden van het model voor het leren van onderwerpen, en bedenken we een maskergeleide bewegingsmodule om precieze bewegingscontrole te bereiken door volledig gebruik te maken van het robuuste bewegingssignaal van doosmaskers afgeleid van begrenzingskaders. Terwijl deze twee componenten hun beoogde functies vervullen, observeren we empirisch dat bewegingscontrole de neiging heeft om de overhand te hebben boven het leren van onderwerpen. Om dit aan te pakken, stellen we twee belangrijke ontwerpen voor: 1) de gemaskerde referentieaandacht, die een gemengd latent maskermodelleringsmechanisme integreert in referentieaandacht om onderwerprepresentaties op de gewenste posities te verbeteren, en 2) een opnieuw gewogen diffusieverlies, dat onderscheid maakt tussen de bijdragen van regio's binnen en buiten de begrenzingskaders om een balans te waarborgen tussen onderwerp- en bewegingscontrole. Uitgebreide experimentele resultaten op een nieuw samengestelde dataset tonen aan dat DreamVideo-2 beter presteert dan state-of-the-art methoden op zowel onderwerpaanpassing als bewegingscontrole. De dataset, code en modellen zullen publiekelijk beschikbaar worden gesteld.
Kunstmatige Intelligentie (AI) heeft aanzienlijk potentieel aangetoond in de gezondheidszorg, met name op het gebied van ziekte diagnose en behandelplanning. Recente vooruitgang in Medische Grote Visie-Taal Modellen (Med-LVLMs) heeft nieuwe mogelijkheden geopend voor interactieve diagnostische tools. Echter, deze modellen lijden vaak aan feitelijke hallucinatie, wat kan leiden tot onjuiste diagnoses. Fijnafstemming en opvraag-versterkte generatie (RAG) zijn naar voren gekomen als methoden om deze problemen aan te pakken. Echter, de hoeveelheid hoogwaardige data en distributieverschuivingen tussen trainingsdata en implementatiedata beperken de toepassing van fijnafstemmingsmethoden. Hoewel RAG lichtgewicht en effectief is, zijn bestaande op RAG gebaseerde benaderingen niet voldoende algemeen voor verschillende medische domeinen en kunnen potentieel uitlijningsproblemen veroorzaken, zowel tussen modaliteiten als tussen het model en de grondwaarheid. In dit artikel stellen we een veelzijdig multimodaal RAG-systeem voor, MMed-RAG genaamd, ontworpen om de feitelijkheid van Med-LVLMs te verbeteren. Onze aanpak introduceert een domeinbewust opvraagmechanisme, een adaptieve methode voor het selecteren van opgehaalde contexten, en een aantoonbare op RAG gebaseerde voorkeursfijnafstemmingsstrategie. Deze innovaties maken het RAG-proces voldoende algemeen en betrouwbaar, waarbij de uitlijning aanzienlijk verbetert bij het introduceren van opgehaalde contexten. Experimentele resultaten over vijf medische datasets (met radiologie, oogheelkunde, pathologie) over medische Vraag en Antwoord en rapportgeneratie tonen aan dat MMed-RAG een gemiddelde verbetering van 43.8% in de feitelijke nauwkeurigheid van Med-LVLMs kan bereiken. Onze data en code zijn beschikbaar op https://github.com/richard-peng-xia/MMed-RAG.
In dit werk upgraden we het multi-head aandachtsmechanisme, de kern van het Transformer model, om de efficiëntie te verbeteren terwijl we het vorige nauwkeurigheidsniveau behouden of overtreffen. We tonen aan dat multi-head aandacht kan worden uitgedrukt in de vorm van een sommatie. Puttend uit het inzicht dat niet alle aandachtskoppen gelijkwaardig zijn, stellen we Mixture-of-Head aandacht (MoH) voor, een nieuwe architectuur die aandachtskoppen behandelt als experts in het Mixture-of-Experts (MoE) mechanisme. MoH heeft twee significante voordelen: Ten eerste stelt MoH elk token in staat om de juiste aandachtskoppen te selecteren, wat de inferentie-efficiëntie verbetert zonder de nauwkeurigheid in gevaar te brengen of het aantal parameters te verhogen. Ten tweede vervangt MoH de standaard sommatie in multi-head aandacht door een gewogen sommatie, wat flexibiliteit aan het aandachtsmechanisme toevoegt en extra prestatiepotentieel ontsluit. Uitgebreide experimenten op ViT, DiT en LLMs tonen aan dat MoH multi-head aandacht overtreft door slechts 50%-90% van de aandachtskoppen te gebruiken. Bovendien tonen we aan dat vooraf getrainde multi-head aandachtmodellen, zoals LLaMA3-8B, verder kunnen worden afgestemd op onze MoH-modellen. Opmerkelijk genoeg behaalt MoH-LLaMA3-8B een gemiddelde nauwkeurigheid van 64,0% over 14 benchmarks, waarbij LLaMA3-8B met 2,4% wordt overtroffen door slechts 75% van de aandachtskoppen te gebruiken. We geloven dat het voorgestelde MoH een veelbelovend alternatief is voor multi-head aandacht en een sterke basis biedt voor de ontwikkeling van geavanceerde en efficiënte op aandacht gebaseerde modellen.
Het evalueren van grote taalmodellen (LLM's) is kostbaar: het vereist het genereren en onderzoeken van LLM-uitvoer op een grootschalige benchmark van verschillende taken. Dit artikel onderzoekt hoe taken efficiënt kunnen worden verminderd die worden gebruikt om LLM's te benchmarken zonder de kwaliteit van de evaluatie te beïnvloeden. Onze studie onthult dat taakoverdraagbaarheid en relevantie cruciale informatie bieden om de meest representatieve subset van taken te identificeren door middel van het optimaliseren van een faciliteitslocatiefunctie. We stellen een praktisch efficiënte maat voor om de overdraagbaarheid tussen twee taken te schatten via in-context leren (ICL). Door de pairwise overdraagbaarheid te analyseren, kunnen we taken verminderen in een modern LLM-benchmark (bijv. MMLU of FLAN) tot 5% met slechts een <4% verschil in de evaluatie ten opzichte van de oorspronkelijke benchmark. In vergelijking met eerdere werken is onze methode trainingvrij, gradiëntvrij en zeer efficiënt, waarbij alleen ICL nodig is.
Het afstemmen van grote taalmodellen (LLM's) omvat het trainen van modellen op voorkeurs-tegenstrijdige uitvoerparen om hun reacties aan te passen volgens menselijke voorkeuren. Om dergelijke tegenstrijdige paren te verkrijgen, vertrouwen traditionele methoden zoals RLHF en RLAIF op beperkte tegenstrijdige patronen, zoals variërende modelvarianten of decoderingstemperaturen. Deze singulariteit leidt tot twee problemen: (1) de afstemming is niet alomvattend; en daardoor (2) zijn modellen vatbaar voor jailbreaking-aanvallen. Om deze problemen aan te pakken, onderzoeken we hoe we meer alomvattende en gediversifieerde tegenstrijdige patronen kunnen construeren om de voorkeursgegevens te verbeteren (RQ1) en verifiëren we de impact van de diversificatie van tegenstrijdige patronen op de modelafstemming (RQ2). Voor RQ1 stellen we PopAlign voor, een raamwerk dat gediversifieerde tegenstrijdige patronen integreert over de prompt-, model- en pipeline-niveaus, waarbij zes tegenstrijdige strategieën worden geïntroduceerd die geen aanvullende feedbacklabelingsprocedures vereisen. Wat betreft RQ2 voeren we grondige experimenten uit waaruit blijkt dat PopAlign aanzienlijk beter presteert dan bestaande methoden, wat leidt tot een meer alomvattende afstemming.
Het mogelijk maken van Grote Taalmodellen (LLM's) om een breder scala aan complexe taken aan te kunnen (bijv. coderen, wiskunde) heeft veel aandacht getrokken van vele onderzoekers. Terwijl LLM's blijven evolueren, leidt enkel het verhogen van het aantal modelparameters tot afnemende prestatieverbeteringen en zware rekenkundige kosten. Onlangs heeft het o1-model van OpenAI aangetoond dat inferentiestrategieën (d.w.z. Testtijd Berekeningsmethoden) ook aanzienlijk de redeneervermogens van LLM's kunnen verbeteren. Echter, de mechanismen achter deze methoden zijn nog onontgonnen. In ons werk onderzoeken we de redeneerpatronen van o1 door o1 te vergelijken met bestaande Testtijd Berekeningsmethoden (BoN, Stapsgewijze BoN, Agent Workflow en Self-Refine) met behulp van OpenAI's GPT-4o als basis op algemene redeneer-benchmarks in drie domeinen (d.w.z. wiskunde, coderen, gezond verstand redeneren). Specifiek tonen onze experimenten aan dat het o1-model de beste prestatie heeft behaald op de meeste datasets. Wat betreft de methoden voor het zoeken van diverse antwoorden (bijv. BoN), vinden we dat de capaciteit van de beloningsmodellen en de zoekruimte beide de bovengrens van deze methoden beperken. Voor de methoden die het probleem opsplitsen in vele subproblemen heeft de Agent Workflow betere prestaties behaald dan Stapsgewijze BoN vanwege de domeinspecifieke systeemprompt voor het plannen van betere redeneerprocessen. Het is vermeldenswaard dat we zes redeneerpatronen van o1 hebben samengevat en een gedetailleerde analyse hebben gegeven van verschillende redeneer-benchmarks.
Post-training is naar voren gekomen als een cruciaal paradigma voor het aanpassen van grootschalige vooraf getrainde modellen aan verschillende taken, waarvan de effecten volledig worden weerspiegeld door delta parameters (d.w.z. het verschil tussen post-getrainde en vooraf getrainde parameters). Hoewel talrijke studies delta parameter eigenschappen hebben onderzocht via bewerkingen zoals pruning, quantization, low-rank benadering, en extrapolatie, ontbreekt een eenduidig kader voor het systematisch onderzoeken van deze kenmerken. In dit artikel stellen we een nieuw perspectief voor op basis van Riemann som benadering van de verliesfunctie om delta parameter bewerkingen te verduidelijken. Onze analyse categoriseert bestaande methoden in drie klassen op basis van hun prestaties na bewerking: competitief, verminderd en verbeterd, waarbij wordt uitgelegd hoe ze worden uitgedrukt door de Riemann som benaderingsterm en hoe ze de modelprestaties veranderen. Uitgebreide experimenten op zowel visuele als taalmodellen, waaronder ViT, LLaMA 3, Qwen 2, en Mistral, bevestigen onze theoretische bevindingen. Bovendien introduceren we uitbreidingen op bestaande technieken zoals DARE en BitDelta, waarbij hun beperkingen in het benutten van de eigenschappen van delta parameters worden belicht en ze worden geherstructureerd tot algemene uitdrukkingen om de toepasbaarheid en effectiviteit van delta parameter bewerking in post-getrainde modellen te verbeteren.
Recentelijk is kwantisatie veel gebruikt voor de compressie en versnelling van grote taalmodellen~(LLM's). Vanwege de uitschieters in LLM's is het cruciaal om gewichten en activaties af te vlakken om de kwantisatiefout te minimaliseren met evenredig verdeelde kwantisatiepunten. Eerdere onderzoeken verkennen verschillende voor-kwantisatie transformaties om uitschieters te onderdrukken, zoals per-kanaal schaling en Hadamard transformatie. We merken echter op dat deze getransformeerde gewichten en activaties nog steeds steil en wijdverspreid kunnen blijven. In dit artikel stellen we FlatQuant (Snelle en Leerzame Affiene Transformatie) voor, een nieuwe post-training kwantisatiebenadering om de vlakheid van gewichten en activaties te verbeteren. Onze benadering identificeert optimale affiene transformaties op maat voor elke lineaire laag, gekalibreerd in uren via een lichtgewicht doel. Om de uitvoeringsoverhead te verminderen, passen we Kronecker-decompositie toe op de transformatiematrices, en fuseren we alle operaties in FlatQuant tot een enkele kernel. Uitgebreide experimenten tonen aan dat FlatQuant een nieuwe state-of-the-art kwantisatiebenchmark opzet. Zo behaalt het bijvoorbeeld minder dan 1% nauwkeurigheidsdaling voor W4A4 kwantisatie op het LLaMA-3-70B model, waarbij het SpinQuant overtreft met 7.5%. Voor inferentievertraging vermindert FlatQuant de vertraging veroorzaakt door voor-kwantisatie transformatie van 0.26x van QuaRot tot slechts 0.07x, wat respectievelijk tot 2.3x versnelling voor voorvullen en 1.7x versnelling voor decoderen oplevert. De code is beschikbaar op: https://github.com/ruikangliu/FlatQuant.
Panoramische beeldstiksels bieden een uniform, breedhoekig zicht op een scène dat zich uitstrekt buiten het gezichtsveld van de camera. Het samenvoegen van frames van een panoramische foto van een pannende video is een goed begrepen probleem voor stilstaande scènes, maar wanneer objecten bewegen, kan een stilstaande panorama de scène niet vastleggen. We presenteren een methode voor het synthetiseren van een panoramische video van een informeel vastgelegde pannende video, alsof de originele video was vastgelegd met een breedhoekcamera. We stellen panorama-synthese voor als een ruimte-tijd uitverfprobleem, waarbij we streven naar het creëren van een volledige panoramische video van dezelfde lengte als de invoervideo. Consistente voltooiing van het ruimte-tijd volume vereist een krachtige, realistische prior over videomateriaal en beweging, waarvoor we generatieve videomodellen aanpassen. Bestaande generatieve modellen strekken zich echter niet direct uit tot panoramavoltooiing, zoals we laten zien. In plaats daarvan passen we videogeneratie toe als een component van ons panoramasynthesesysteem, en tonen aan hoe we de sterke punten van de modellen kunnen benutten terwijl we hun beperkingen minimaliseren. Ons systeem kan video-panorama's creëren voor een scala aan scènes in het wild, waaronder mensen, voertuigen en stromend water, evenals stilstaande achtergrondkenmerken.
Hoewel grote taalmodellen (LLM's) indrukwekkende vaardigheid tonen in verschillende taken, brengen ze potentiële veiligheidsrisico's met zich mee, zoals 'jailbreaks', waar kwaadaardige invoer LLM's kan dwingen schadelijke inhoud te genereren. Om deze problemen aan te pakken, hebben veel LLM-ontwikkelaars verschillende veiligheidsmaatregelen geïmplementeerd om deze modellen af te stemmen. Deze afstemming omvat verschillende technieken, waaronder gegevensfiltering tijdens voorafgaande training, begeleid fine-tunen, versterkend leren van menselijke feedback en red-teaming-oefeningen. Deze methoden introduceren vaak opzettelijke en intentionele vooroordelen vergelijkbaar met Politieke Correctheid (PC) om het ethische gedrag van LLM's te waarborgen. In dit artikel duiken we in de opzettelijke vooroordelen die in LLM's zijn geïnjecteerd voor veiligheidsdoeleinden en onderzoeken we methoden om deze veiligheidsafstemmingstechnieken te omzeilen. Opmerkelijk is dat deze opzettelijke vooroordelen resulteren in een succespercentage van jailbreaks in GPT-4o-modellen dat met 20% verschilt tussen niet-binaire en cisgender zoekwoorden en met 16% tussen witte en zwarte zoekwoorden, zelfs wanneer de andere delen van de prompts identiek zijn. We introduceren het concept van PCJailbreak, waarbij de inherente risico's benadrukt worden die worden veroorzaakt door deze veiligheidsgeïnduceerde vooroordelen. Daarnaast stellen we een efficiënte verdedigingsmethode, PCDefense, voor die jailbreakpogingen voorkomt door verdedigingsprompts in te voegen vóór de generatie. PCDefense vormt een aantrekkelijk alternatief voor Bewakingsmodellen, zoals Llama-Guard, die extra inferentiekosten vereisen na tekstgeneratie. Onze bevindingen benadrukken de dringende noodzaak voor LLM-ontwikkelaars om een meer verantwoorde benadering te hanteren bij het ontwerpen en implementeren van veiligheidsmaatregelen.
Naarmate de mogelijkheden van Multimodale Grote Taalmodellen (MLLM's) blijven verbeteren, neemt de behoefte aan evaluatie van hogere orde capaciteiten van MLLM's toe. Er is echter een gebrek aan onderzoek dat MLLM's evalueert voor hogere orde perceptie en begrip van Chinese visuele inhoud. Om deze lacune op te vullen, introduceren we de **C**hinese **I**mage **I**mplicatie begrips **Bench**mark, **CII-Bench**, die tot doel heeft de hogere orde perceptie en begripscapaciteiten van MLLM's voor Chinese afbeeldingen te beoordelen. CII-Bench onderscheidt zich op verschillende manieren van bestaande benchmarks. Ten eerste worden afbeeldingen in CII-Bench afkomstig van het Chinese internet en handmatig beoordeeld, waarbij bijbehorende antwoorden ook handmatig worden opgesteld om de authenticiteit van de Chinese context te waarborgen. Bovendien bevat CII-Bench afbeeldingen die de Chinese traditionele cultuur vertegenwoordigen, zoals beroemde Chinese traditionele schilderijen, die diep kunnen reflecteren op het begrip van de modellen van de Chinese traditionele cultuur. Door uitgebreide experimenten op CII-Bench met meerdere MLLM's hebben we significante bevindingen gedaan. In eerste instantie wordt een aanzienlijk verschil waargenomen tussen de prestaties van MLLM's en mensen op CII-Bench. De hoogste nauwkeurigheid van MLLM's bereikt 64,4%, terwijl de menselijke nauwkeurigheid gemiddeld 78,2% bedraagt, met een indrukwekkende piek van 81,0%. Vervolgens presteren MLLM's slechter op afbeeldingen van de Chinese traditionele cultuur, wat wijst op beperkingen in hun vermogen om hoog-niveau semantiek te begrijpen en een diepgaande kennisbasis van de Chinese traditionele cultuur te missen. Ten slotte wordt opgemerkt dat de meeste modellen een verbeterde nauwkeurigheid vertonen wanneer aanwijzingen van beeldemotie worden opgenomen in de prompts. Wij geloven dat CII-Bench MLLM's in staat zal stellen een beter begrip te krijgen van Chinese semantiek en Chinese-specifieke afbeeldingen, waarmee de weg wordt vrijgemaakt naar expertkunstmatige algemene intelligentie (AGI). Ons project is openbaar beschikbaar op https://cii-bench.github.io/.
Generatieve Foutcorrectie (GEC) is naar voren gekomen als een krachtige post-processing methode om de prestaties van Automatische Spraakherkenning (ASR) systemen te verbeteren. We tonen echter aan dat GEC-modellen moeite hebben om verder te generaliseren dan de specifieke soorten fouten die tijdens de training worden tegenkomen, waardoor hun vermogen om nieuwe, ongeziene fouten tijdens testtijd te corrigeren beperkt wordt, met name in out-of-domain (OOD) scenario's. Dit fenomeen versterkt zich met genoemde entiteiten (NEs), waarbij, naast onvoldoende contextuele informatie of kennis over de NEs, nieuwe NEs blijven opduiken. Om deze problemen aan te pakken, stellen we DARAG (Data- en Retrieval-Augmented Generatieve Foutcorrectie) voor, een nieuw benadering ontworpen om GEC te verbeteren voor ASR in in-domain (ID) en OOD scenario's. We breiden de GEC-trainingsdataset uit met synthetische data gegenereerd door LLM's en tekst-naar-spraak modellen aan te moedigen, waardoor extra fouten worden gesimuleerd waarvan het model kan leren. Voor OOD scenario's simuleren we testtijd fouten van nieuwe domeinen op een vergelijkbare en ongesuperviseerde manier. Daarnaast introduceren we, om genoemde entiteiten beter te behandelen, retrieval-augmented correctie door de invoer aan te vullen met entiteiten die zijn opgehaald uit een database. Onze benadering is eenvoudig, schaalbaar en zowel domein- als taalonafhankelijk. We voeren experimenten uit op meerdere datasets en instellingen, waarbij we aantonen dat DARAG al onze baselines overtreft, met 8\% -- 30\% relatieve WER-verbeteringen in ID en 10\% -- 33\% verbeteringen in OOD-instellingen.
Meerdelige interacties tussen grote taalmodellen (LLM's) en gebruikers bevatten van nature impliciete feedbacksignalen. Als een LLM op een onverwachte manier reageert op een instructie, is de gebruiker waarschijnlijk geneigd dit aan te geven door de vraag anders te formuleren, frustratie uit te drukken of over te schakelen naar een alternatieve taak. Dergelijke signalen zijn taalonafhankelijk en bevinden zich in een relatief beperkte subspace van taal, waardoor de LLM ze kan identificeren, zelfs als het faalt bij de daadwerkelijke taak. Dit creëert een mogelijkheid om voortdurend te leren van interacties zonder extra annotaties. We introduceren ReSpect, een methode om te leren van dergelijke signalen in eerdere interacties via retrospectie. We zetten ReSpect in bij een nieuw multimodaal interactiescenario, waarin mensen een LLM instrueren om een abstract redeneertaak met een combinatorische oplossingsruimte op te lossen. Door duizenden interacties met mensen laten we zien hoe ReSpect de taakvoltooiingsgraad geleidelijk verbetert van 31% naar 82%, allemaal zonder enige externe annotatie.
De ontwikkeling van grote taalmodellen (LLM's) heeft aanzienlijk bijgedragen aan de mogelijkheden van multimodale LLM's (MLLM's) als algemene assistenten. Echter, het gebrek aan gebruikersspecifieke kennis beperkt nog steeds hun toepassing in het dagelijks leven van mensen. In dit artikel introduceren we het Retrieval Augmented Personalization (RAP) framework voor de personalisatie van MLLM's. Uitgaande van een algemene MLLM, transformeren we deze in drie stappen tot een gepersonaliseerde assistent. (a) Onthouden: We ontwerpen een sleutel-waarde database om gebruikersgerelateerde informatie op te slaan, zoals de naam van de gebruiker, avatar en andere attributen. (b) Ophalen: Wanneer de gebruiker een gesprek start, zal RAP relevante informatie uit de database halen met behulp van een multimodale retriever. (c) Genereren: De invoervraag en de opgehaalde informatie van concepten worden door MLLM's gevoerd om gepersonaliseerde, kennisverrijkte antwoorden te genereren. In tegenstelling tot eerdere methoden, maakt RAP real-time conceptbewerking mogelijk door het bijwerken van de externe database. Om de generatiekwaliteit verder te verbeteren en afstemming met gebruikersspecifieke informatie te bereiken, ontwerpen we een pijplijn voor gegevensverzameling en creëren we een gespecialiseerde dataset voor de gepersonaliseerde training van MLLM's. Op basis van de dataset trainen we een reeks MLLM's als gepersonaliseerde multimodale assistenten. Door vooraf te trainen op een grootschalige dataset, kunnen RAP-MLLM's generaliseren naar oneindige visuele concepten zonder extra finetuning. Onze modellen tonen uitstekende flexibiliteit en generatiekwaliteit over een verscheidenheid aan taken, zoals gepersonaliseerde beeldbijschriften, vraagbeantwoording en visuele herkenning. De code, gegevens en modellen zijn beschikbaar op https://github.com/Hoar012/RAP-MLLM.
Het genereren van muziek die overeenkomt met de visuele inhoud van een video is een uitdagende taak, omdat het een diepgaand begrip van visuele semantiek vereist en het genereren van muziek omvat waarvan de melodie, ritme en dynamiek in harmonie zijn met de visuele verhalen. Dit artikel presenteert MuVi, een nieuw raamwerk dat deze uitdagingen effectief aanpakt om de samenhang en meeslepende ervaring van audiovisuele inhoud te verbeteren. MuVi analyseert videomateriaal via een speciaal ontworpen visuele adapter om contextueel en temporeel relevante kenmerken te extraheren. Deze kenmerken worden gebruikt om muziek te genereren die niet alleen overeenkomt met de stemming en het thema van de video, maar ook met het ritme en de pacing ervan. We introduceren ook een contrastief muziek-visueel vooraf trainingschema om synchronisatie te waarborgen, gebaseerd op de periodieke aard van muziekfrases. Bovendien tonen we aan dat onze op flow-matching gebaseerde muziekgenerator het vermogen heeft tot in-context leren, waardoor we de stijl en het genre van de gegenereerde muziek kunnen controleren. Experimentele resultaten tonen aan dat MuVi superieure prestaties levert op zowel audiokwaliteit als temporale synchronisatie. De gegenereerde muziekvideo's zijn beschikbaar op https://muvi-v2m.github.io.
Taalmodellen (LM's) hebben expertniveau redeneer- en herinneringsvermogen aangetoond in de geneeskunde. Echter, toenemende rekenkundige kosten en privacyzorgen vormen obstakels voor grootschalige implementatie. Wij introduceren een zuinige aanpassing van phi-3-mini, MedMobile, een LM met 3,8 miljard parameters die kan draaien op een mobiel apparaat, voor medische toepassingen. We tonen aan dat MedMobile 75,7% scoort op de MedQA (USMLE), hoger dan het slaagcijfer voor artsen (~60%), en de scores benadert van modellen die 100 keer groter zijn. Vervolgens voeren we een zorgvuldige reeks ablaties uit en tonen aan dat ketendenken, ensembleren en fijnafstemming leiden tot de grootste prestatiewinsten, terwijl onverwacht retrieval augmented generation geen significante verbeteringen laat zien.
Ondanks de aanzienlijke vooruitgang in multimodale grote taalmodellen (MLLM's) blijft hun hoge rekenkundige kosten een belemmering vormen voor implementatie in de echte wereld. Geïnspireerd door de menging van dieptes (MoDs) in natuurlijke taalverwerking, streven we ernaar om deze beperking te benaderen vanuit het perspectief van "geactiveerde tokens". Ons belangrijkste inzicht is dat als de meeste tokens overbodig zijn voor de laagberekening, ze direct kunnen worden overgeslagen via de MoD-laag. Echter, het direct omzetten van de dichte lagen van MLLM's naar MoD-lagen leidt tot aanzienlijke prestatievermindering. Om dit probleem aan te pakken, stellen we een innovatieve MoD-aanpassingsstrategie voor bestaande MLLM's voor, genaamd gamma-MoD. In gamma-MoD wordt een nieuwe metriek voorgesteld om de implementatie van MoDs in de MLLM te sturen, namelijk de rangorde van aandachtskaarten (ARank). Via ARank kunnen we effectief identificeren welke laag overbodig is en moet worden vervangen door de MoD-laag. Op basis van ARank stellen we vervolgens twee nieuwe ontwerpen voor om de rekenkundige spaarzaamheid van MLLM te maximaliseren terwijl de prestaties behouden blijven, namelijk gedeelde visie-taalrouter en gemaskeerd routeringsleren. Met deze ontwerpen kunnen meer dan 90% van de dichte lagen van de MLLM effectief worden omgezet naar de MoD-lagen. Om onze methode te valideren, passen we deze toe op drie populaire MLLM's en voeren uitgebreide experimenten uit op 9 benchmarkdatasets. Experimentele resultaten bevestigen niet alleen het aanzienlijke efficiëntievoordeel van gamma-MoD voor bestaande MLLM's, maar bevestigen ook de generalisatiecapaciteit ervan op verschillende MLLM's. Bijvoorbeeld, met een kleine prestatiedaling, d.w.z. -1,5%, kan gamma-MoD de trainings- en inferentietijd van LLaVA-HR respectievelijk met 31,0% en 53,2% verminderen.
De snelle groei van het modelbereik heeft aanzienlijke rekenbronnen vereist voor fijnafstemming. Bestaande benaderingen zoals Low-Rank Adaptation (LoRA) hebben geprobeerd het probleem van het omgaan met de grote bijgewerkte parameters bij volledige fijnafstemming aan te pakken. LoRA maakt echter gebruik van willekeurige initialisatie en optimalisatie van lage-rang matrices om bijgewerkte gewichten te benaderen, wat kan leiden tot suboptimale convergentie en een nauwkeurigheidskloof in vergelijking met volledige fijnafstemming. Om deze problemen aan te pakken, stellen we LoLDU voor, een Parameter-Efficiënte Fijnafstemming (PEFT) benadering die het aantal trainbare parameters met 2600 keer vermindert in vergelijking met reguliere PEFT-methoden, terwijl vergelijkbare prestaties worden behouden. LoLDU maakt gebruik van Lower-Diag-Upper Decomposition (LDU) om lage-rang matrices te initialiseren voor snellere convergentie en orthogonaliteit. We richten ons op het optimaliseren van de diagonaalmatrix voor schalingstransformaties. Voor zover wij weten, heeft LoLDU de minste parameters van alle PEFT-benaderingen. We hebben uitgebreide experimenten uitgevoerd over 4 datasets voor instructie-opvolging, 6 datasets voor natuurlijke taalbegrip (NLU), 8 datasets voor beeldclassificatie en beeldgeneratiedatasets met meerdere modeltypen (LLaMA2, RoBERTa, ViT en Stable Diffusion), waarbij we een uitgebreide en gedetailleerde analyse hebben gegeven. Onze open-source code is beschikbaar op https://github.com/SKDDJ/LoLDU{https://github.com/SKDDJ/LoLDU}.
Het vermogen om nieuwe materialen met wenselijke eigenschappen te ontdekken is cruciaal voor tal van toepassingen, van het helpen bij het tegengaan van klimaatverandering tot vooruitgang in hardware voor de volgende generatie computers. AI heeft het potentieel om de ontdekking en het ontwerp van materialen te versnellen door effectiever het chemische ruimte te verkennen in vergelijking met andere computationele methoden of door middel van trial-and-error. Hoewel er aanzienlijke vooruitgang is geboekt op het gebied van AI voor materialendata, benchmarks en modellen, is er een barrière ontstaan door het gebrek aan publiekelijk beschikbare trainingsdata en open voorgeleerde modellen. Om dit aan te pakken, presenteren we een Meta FAIR-release van de Open Materials 2024 (OMat24) grootschalige open dataset en een bijbehorende set voorgeleerde modellen. OMat24 bevat meer dan 110 miljoen berekeningen met dichtheidsfunctionaaltheorie (DFT) gericht op structurele en compositorische diversiteit. Onze EquiformerV2-modellen behalen state-of-the-art prestaties op de Matbench Discovery leaderboard en zijn in staat om de grondtoestabiliteit en vormingsenergieën te voorspellen met een F1-score boven 0.9 en een nauwkeurigheid van 20 meV/atoom, respectievelijk. We onderzoeken de impact van modelgrootte, hulpobjectieven voor denoising en fijnafstemming op prestaties over een reeks datasets, waaronder OMat24, MPtraj en Alexandria. De open release van de OMat24 dataset en modellen stelt de onderzoeksgemeenschap in staat voort te bouwen op onze inspanningen en verdere vooruitgang te boeken in door AI ondersteunde materiaalwetenschap.
Wij stellen Long-LRM voor, een generaliseerbaar 3D Gaussisch reconstructiemodel dat in staat is om een grote scène te reconstrueren uit een lange reeks invoerbeelden. Specifiek kan ons model 32 bronbeelden verwerken met een resolutie van 960x540 binnen slechts 1,3 seconden op een enkele A100 80G GPU. Onze architectuur bevat een mix van de recente Mamba2-blokken en de klassieke transformer-blokken die het mogelijk maken om veel meer tokens te verwerken dan eerdere werken, verbeterd door efficiënte token-samenvoeging en Gaussische snoeistappen die balanceren tussen kwaliteit en efficiëntie. In tegenstelling tot eerdere feedforward-modellen die beperkt zijn tot het verwerken van 1-4 invoerbeelden en slechts een klein deel van een grote scène kunnen reconstrueren, reconstrueert Long-LRM de volledige scène in één enkele feedforward-stap. Op grootschalige scènedatasets zoals DL3DV-140 en Tanks and Temples behaalt onze methode prestaties vergelijkbaar met op optimalisatie gebaseerde benaderingen, terwijl ze twee ordes van grootte efficiënter is. Projectpagina: https://arthurhero.github.io/projects/llrm
Naarmate grote taalmodellen zich snel ontwikkelen om langere context te ondersteunen, is er een opmerkelijk verschil in hun vermogen om output van grotere lengte te genereren. Recente studies suggereren dat de voornaamste oorzaak van deze onbalans kan voortkomen uit het gebrek aan gegevens met lange output tijdens aligneringstraining. In het licht van deze observatie worden pogingen ondernomen om foundation modellen opnieuw uit te lijnen met gegevens die het hiaat vullen, wat resulteert in modellen die in staat zijn om uitgebreide output te genereren wanneer ze worden geïnstrueerd. In dit artikel onderzoeken we de impact van datakwaliteit bij het afstemmen van een model voor lange output, en de mogelijkheid om dit te doen vanuit de startpunten van mens-gealigneerde (instructie- of chat) modellen. Met zorgvuldige gegevenscuratie tonen we aan dat het mogelijk is om vergelijkbare prestatieverbeteringen te behalen in onze afgestemde modellen, met slechts een klein deel van de trainingsgegevens en berekeningen. Bovendien beoordelen we de generaliseerbaarheid van dergelijke benaderingen door onze afstemmingsrecepten toe te passen op verschillende modellen. Onze bevindingen suggereren dat, hoewel de capaciteiten voor het genereren van lange output variëren tussen verschillende modellen out-of-the-box, onze benadering om ze af te stemmen met hoogwaardige gegevens met weinig berekeningen, consequent opmerkelijke verbeteringen oplevert bij alle modellen waarop we hebben geëxperimenteerd. We hebben ons samengestelde dataset voor het afstemmen van de schrijfcapaciteit op lange termijn openbaar gemaakt, evenals de implementaties van modelafstemming en evaluatie, en de fijnafgestemde modellen, die allemaal openlijk toegankelijk zijn.
Classifier-Free Guidance (CFG) is een cruciale techniek voor het verbeteren van de kwaliteit van de steekproef van visuele generatieve modellen. Echter, bij autoregressieve (AR) multimodale generatie introduceert CFG ontwerpinconsistenties tussen taal en visuele inhoud, wat ingaat tegen de ontwerpfilosofie van het verenigen van verschillende modaliteiten voor visuele AR. Geïnspireerd door methoden voor taalmodeluitlijning, stellen we Condition Contrastive Alignment (CCA) voor om begeleidingsvrije AR visuele generatie te vergemakkelijken met hoge prestaties en analyseren we de theoretische verbinding met begeleide bemonsteringsmethoden. In tegenstelling tot begeleidingsmethoden die het bemonsteringsproces wijzigen om de ideale bemonsteringsverdeling te bereiken, stemt CCA vooraf getrainde modellen direct af om aan dezelfde distributiedoelstelling te voldoen. Experimentele resultaten tonen aan dat CCA aanzienlijk de begeleidingsvrije prestaties van alle geteste modellen kan verbeteren met slechts één epoch van fijnafstemming (ongeveer 1% van de voorafgaande trainingsepochs) op de vooraf trainingsdataset, vergelijkbaar met begeleide bemonsteringsmethoden. Dit vermindert grotendeels de noodzaak voor begeleide bemonstering in AR visuele generatie en verlaagt de bemonsteringskosten met de helft. Bovendien kan CCA door het aanpassen van trainingsparameters compromissen bereiken tussen steekproefdiversiteit en geloofwaardigheid vergelijkbaar met CFG. Dit bevestigt experimenteel de sterke theoretische verbinding tussen taalgerichte uitlijning en visueelgerichte begeleidingsmethoden, waarbij twee eerder onafhankelijke onderzoeksvelden worden verenigd. Code en modelgewichten: https://github.com/thu-ml/CCA.
De alomtegenwoordigheid van eigen taalmodellen heeft privacyzorgen doen rijzen over gevoelige gegevens van gebruikers, waarbij de noodzaak van privé-inferentie (PI) wordt benadrukt, waarbij inferentie rechtstreeks op versleutelde invoergegevens wordt uitgevoerd. Huidige PI-methoden ondervinden echter aanzienlijk hogere communicatie- en latentie-overheads, voornamelijk als gevolg van niet-lineaire bewerkingen. In dit artikel presenteren we een uitgebreide analyse om de rol van niet-lineariteiten in op transformer gebaseerde taalmodellen met alleen decoder te begrijpen. We introduceren AERO, een vierstappen architectonisch optimalisatiekader dat de bestaande LLM-architectuur verfijnt voor efficiënte PI door systematisch niet-lineariteiten zoals LayerNorm en GELU te verwijderen en FLOP-tellingen te verminderen. Voor het eerst stellen we een architectuur voor met alleen Softmax met aanzienlijk minder FLOPs die is afgestemd op efficiënte PI. Bovendien bedenken we een nieuwe entropieregularisatietechniek om de prestaties van modellen met alleen Softmax te verbeteren. AERO behaalt tot 4,23 keer communicatie- en 1,94 keer latentievermindering. We valideren de effectiviteit van AERO door het te benchmarken tegen de state-of-the-art.
Vision-language foundation modellen (zoals CLIP) hebben onlangs hun kracht getoond in transfer learning, dankzij grootschalige voorafgaande training van afbeelding-tekst. Echter, de gegevens van het doeldomein in de downstream taken kunnen sterk verschillen van de voorafgaande training, wat het moeilijk maakt voor zo'n enkel model om goed te generaliseren. Als alternatief bestaat er een breed scala aan expertmodellen die gediversifieerde visuele en/of taalkundige kennis bevatten, vooraf getraind op verschillende modaliteiten, taken, netwerken en datasets. Helaas zijn deze modellen "geïsoleerde agenten" met heterogene structuren, en hoe hun kennis te integreren voor het generaliseren van CLIP-achtige modellen is nog niet volledig onderzocht. Om deze kloof te overbruggen, stellen we een algemeen en beknopt TransAgent-framework voor, dat de kennis van de geïsoleerde agenten op een geünificeerde manier overbrengt, en CLIP effectief begeleidt om te generaliseren met kennisdistantiëring van meerdere bronnen. Met zo'n onderscheidend framework werken we flexibel samen met 11 heterogene agenten om vision-language foundation modellen te versterken, zonder verdere kosten in de inferentiefase. Uiteindelijk behaalt onze TransAgent state-of-the-art prestaties op 11 visuele herkenningsdatasets. Onder dezelfde low-shot instelling presteert het beter dan de populaire CoOp met gemiddeld ongeveer 10%, en 20% op EuroSAT dat grote domeinverschuivingen bevat.
Veel studenten hebben moeite met wiskundige verhaalproblemen (WVP's), waarbij ze het vaak lastig vinden om de belangrijkste informatie te identificeren en de juiste wiskundige bewerkingen te selecteren. Schema-gebaseerde instructie (SBI) is een op bewijs gebaseerde strategie die studenten helpt problemen te categoriseren op basis van hun structuur, wat de nauwkeurigheid van probleemoplossing verbetert. Voortbouwend hierop stellen we een Schema-Gebaseerde Instructie Ophalings-Versterkte Generatie (SBI-RAG) framework voor dat een groot taalmodel (LLM) incorporeert. Onze benadering benadrukt stapsgewijs redeneren door schema's te benutten om de oplossingsgeneratie te sturen. We evalueren de prestaties ervan op de GSM8K dataset, waarbij we het vergelijken met GPT-4 en GPT-3.5 Turbo, en introduceren een "redeneerscore" metriek om de kwaliteit van oplossingen te beoordelen. Onze bevindingen suggereren dat SBI-RAG de helderheid van redeneren en de nauwkeurigheid van probleemoplossing verbetert, wat mogelijk educatieve voordelen biedt voor studenten.