Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in grote taalmodellen (LLM's) hebben sterke algemene redeneervaardigheden aangetoond, maar hun effectiviteit in financiële redenering blijft onderbelicht. In deze studie evalueren we uitgebreid 16 krachtige redeneer- en algemene LLM's op drie complexe financiële taken die financiële tekst, tabulaire gegevens en vergelijkingen omvatten, waarbij numerieke redenering, tabulaire interpretatie, begrip van financiële terminologie, verwerking van lange context en oplossen van vergelijkingen worden beoordeeld. Onze resultaten tonen aan dat hoewel betere datasets en voorafgaande training de financiële redenering verbeteren, algemene verbeteringen zoals CoT-fijnafstemming niet altijd consistente winsten opleveren. Bovendien worden alle redeneerstrategieën geconfronteerd met uitdagingen bij het verbeteren van de prestaties op taken met lange context en meerdere tabellen. Om deze beperkingen aan te pakken, ontwikkelen we een financieel redenering-versterkt model op basis van Llama-3.1-8B-Instruct, door CoT-fijnafstemming en versterkend leren met domeinspecifieke redeneerpaden. Zelfs met eenvoudige fijnafstemming met één financiële dataset behaalt ons model een consistente prestatieverbetering van 10% over taken, waarbij alle 8B-modellen en zelfs Llama3-70B-Instruct en Llama3.1-70B-Instruct gemiddeld worden overtroffen. Onze resultaten benadrukken de noodzaak van domeinspecifieke aanpassingen in financiële taken, waarbij toekomstige richtingen zoals redeneren met meerdere tabellen, verwerking van lange context en begrip van financiële terminologie worden benadrukt. Al onze datasets, modellen en codes zijn openbaar beschikbaar. Bovendien introduceren we een leaderboard voor het benchmarken van toekomstige datasets en modellen.
Moderne grote taalmodellen (LLM's) ondervinden vaak communicatieknelpunten op huidige hardware, eerder dan louter computationele beperkingen. Multi-head Latente Aandacht (MLA) pakt deze uitdaging aan door het gebruik van lage-rang matrices in de sleutel-waarde (KV) lagen, waardoor gecomprimeerde latente KV-staten gecachet kunnen worden. Deze aanpak vermindert aanzienlijk de KV-cachegrootte ten opzichte van traditionele multi-head aandacht, wat resulteert in snellere inferentie. Bovendien maakt MLA gebruik van een up-projectiematrix om de expressiviteit te vergroten, waarbij extra berekeningen worden verruild voor verminderde communicatie-overhead. Hoewel MLA efficiëntie en effectiviteit heeft aangetoond in Deepseek V2/V3/R1, vertrouwen veel belangrijke modelaanbieders nog steeds op Groepsvraagaandacht (GQA) en hebben zij geen plannen aangekondigd om MLA over te nemen. In dit artikel tonen we aan dat GQA altijd kan worden voorgesteld door MLA met behoud van dezelfde KV-cache-overhead, maar andersom niet geldt. Om het bredere gebruik van MLA aan te moedigen, introduceren we **TransMLA**, een post-trainingmethode die veelgebruikte op GQA gebaseerde vooraf getrainde modellen (bijv. LLaMA, Qwen, Mixtral) omzet in MLA-gebaseerde modellen. Na conversie kan het model extra training ondergaan om de expressiviteit te verhogen zonder de KV-cachegrootte te vergroten. Bovendien zijn we van plan MLA-specifieke inferentieversnellingsmethoden te ontwikkelen om een lage latentie te behouden in getransformeerde modellen, waardoor een efficiëntere distillatie van Deepseek R1 mogelijk wordt.
Eerdere meertalige benchmarks richten zich voornamelijk op eenvoudige begripstaken, maar voor grote taalmodellen (LLM's) benadrukken we vaardigheid in het volgen van instructies, redeneren, begrip van lange context, codegeneratie, enzovoort. Het meten van deze geavanceerde mogelijkheden over talen heen is echter onderbelicht. Om de ongelijkheid aan te pakken, introduceren we BenchMAX, een meertalige evaluatiebenchmark die het mogelijk maakt om eerlijke vergelijkingen te maken van deze belangrijke vaardigheden over talen heen. Om een hoge kwaliteit te waarborgen, annoteren drie verschillende moedertaalsprekers elk monster binnen alle taken onafhankelijk van elkaar nadat de gegevens machinaal vertaald zijn van het Engels naar 16 andere talen. Daarnaast presenteren we een nieuwe vertaaluitdaging die voortkomt uit de constructie van het dataset. Uitgebreide experimenten op BenchMAX tonen verschillende effectiviteit van kernmogelijkheden over talen heen, waarbij prestatieverschillen worden benadrukt die niet kunnen worden overbrugd door simpelweg de modelgrootte te vergroten. BenchMAX dient als een uitgebreid meertalig evaluatieplatform en biedt een veelbelovende testomgeving om de ontwikkeling van meertalige taalmodellen te bevorderen. De dataset en code zijn openbaar toegankelijk.
We presenteren een distillatieschaalwet die de prestaties van het gedistilleerde model schat op basis van een rekentoewijzing en de verdeling ervan tussen de student en de leraar. Onze bevindingen verminderen de risico's die gepaard gaan met het gebruik van distillatie op grote schaal; rekentoewijzing voor zowel de leraar als de student kan nu worden uitgevoerd om de prestaties van de student te maximaliseren. We bieden rekentechnisch optimale distillatierecepten voor wanneer 1) een leraar bestaat, of 2) een leraar training nodig heeft. Als er veel studenten moeten worden gedistilleerd, of als er al een leraar bestaat, presteert distillatie beter dan begeleid vooraf trainen tot een rekenniveau dat voorspelbaar groeit met de omvang van de student. Als er één student moet worden gedistilleerd en de leraar ook training nodig heeft, moet in plaats daarvan begeleid leren worden uitgevoerd. Bovendien bieden we inzichten uit onze grootschalige studie van distillatie, die ons begrip van distillatie vergroten en experimenteel ontwerp informeren.
Tekst-geconditioneerde beeldgeneratie heeft de afgelopen jaren aanzienlijke aandacht gekregen en verwerkt steeds langere en uitgebreidere tekstprompt. In het dagelijks leven verschijnt dichte en ingewikkelde tekst in contexten zoals advertenties, infographics en bewegwijzering, waar de integratie van zowel tekst als visuele elementen essentieel is voor het overbrengen van complexe informatie. Echter, ondanks deze vooruitgang blijft de generatie van afbeeldingen met langdurige tekst een aanhoudende uitdaging, grotendeels als gevolg van de beperkingen van bestaande datasets, die zich vaak richten op kortere en eenvoudigere tekst. Om deze lacune aan te pakken, introduceren we TextAtlas5M, een nieuw dataset dat specifiek is ontworpen om langtekstweergave te evalueren in tekst-geconditioneerde beeldgeneratie. Onze dataset bestaat uit 5 miljoen langtekst gegenereerde en verzamelde afbeeldingen over diverse datatypen, waardoor een uitgebreide evaluatie van grootschalige generatieve modellen op het gebied van langtekst beeldgeneratie mogelijk is. We cureren verder 3000 menselijk verbeterde testset TextAtlasEval over 3 datadomeinen, waarmee een van de meest uitgebreide benchmarks voor tekst-geconditioneerde generatie wordt vastgesteld. Evaluaties suggereren dat de TextAtlasEval benchmarks aanzienlijke uitdagingen bieden, zelfs voor de meest geavanceerde gepatenteerde modellen (bijv. GPT4o met DallE-3), terwijl hun open-source tegenhangers zelfs een grotere prestatiekloof vertonen. Deze bewijzen positioneren TextAtlas5M als een waardevolle dataset voor het trainen en evalueren van toekomstige generatie tekst-geconditioneerde beeldgeneratiemodellen.
Recente ontwikkelingen in beeldverlichtingsmodellen, aangedreven door grootschalige datasets en vooraf getrainde diffusiemodellen, hebben het opleggen van consistente verlichting mogelijk gemaakt. Videoverlichting loopt echter nog steeds achter, voornamelijk vanwege de hoge trainingskosten en het gebrek aan diverse, hoogwaardige videoverlichtingsdatasets. Een eenvoudige toepassing van beeldverlichtingsmodellen op een frame-voor-frame basis leidt tot verschillende problemen: inconsistentie van de lichtbron en inconsistentie van het verlichte uiterlijk, resulterend in flikkeringen in de gegenereerde video's. In dit werk stellen we Light-A-Video voor, een trainingvrije benadering om temporale soepele videoverlichting te bereiken. Aangepast van beeldverlichtingsmodellen, introduceert Light-A-Video twee belangrijke technieken om de verlichtingsconsistentie te verbeteren. Ten eerste ontwerpen we een Consistent Light Attention (CLA) module, die de interacties tussen frames binnen de zelfaandachtlagen verbetert om de generatie van de achtergrondverlichtingsbron te stabiliseren. Ten tweede, door gebruik te maken van het fysische principe van onafhankelijkheid van lichttransport, passen we lineaire vermenging toe tussen het uiterlijk van de bronvideo en het verlichte uiterlijk, met behulp van een Progressieve Light Fusion (PLF) strategie om soepele temporale overgangen in verlichting te garanderen. Experimenten tonen aan dat Light-A-Video de temporale consistentie van verlichte video verbetert terwijl de beeldkwaliteit behouden blijft, waardoor coherente verlichtingsovergangen tussen frames worden gegarandeerd. Projectpagina: https://bujiazi.github.io/light-a-video.github.io/.
In dit werk presenteren we CineMaster, een nieuw raamwerk voor het genereren van tekst-naar-video met 3D-bewustzijn en controleerbaarheid. Ons doel is om gebruikers te voorzien van vergelijkbare controle als professionele filmregisseurs: nauwkeurige plaatsing van objecten binnen de scène, flexibele manipulatie van zowel objecten als camera in 3D-ruimte, en intuïtieve lay-outcontrole over de gerenderde frames. Om dit te bereiken, werkt CineMaster in twee fasen. In de eerste fase ontwerpen we een interactieve workflow die gebruikers in staat stelt om intuïtief 3D-bewuste conditionele signalen te construeren door objectbegrenzingskaders te positioneren en camerabewegingen te definiëren binnen de 3D-ruimte. In de tweede fase dienen deze controle signalen - bestaande uit gerenderde dieptekaarten, cameratrajecten en objectklasse labels - als leidraad voor een tekst-naar-video diffusiemodel, zodat het door de gebruiker bedoelde videomateriaal wordt gegenereerd. Bovendien, om de schaarste aan in-the-wild datasets met 3D-objectbeweging en camerapositie-annotaties te overwinnen, stellen we zorgvuldig een geautomatiseerde gegevensannotatiepijplijn op die 3D-begrenzingskaders en cameratrajecten extraheren uit grootschalige videogegevens. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat CineMaster aanzienlijk beter presteert dan bestaande methoden en prominente 3D-bewuste tekst-naar-video generatie implementeert. Projectpagina: https://cinemaster-dev.github.io/.
De voorspelling van het volgende token is het standaard trainingsdoel dat wordt gebruikt bij grootschalige taalmodelpretraining. Representaties worden geleerd als gevolg van optimalisatie voor token-level perplexiteit. Wij stellen Continuous Concept Mixing (CoCoMix) voor, een nieuw pretraining framework dat discrete voorspelling van het volgende token combineert met continue concepten. Specifiek voorspelt CoCoMix continue concepten die zijn geleerd van een voorgeleerde schaarse auto-encoder en mengt ze in de verborgen toestand van het model door ze af te wisselen met verborgen representaties van tokens. Door experimenten op meerdere benchmarks, waaronder taalmodellering en downstream redeneertaken, tonen we aan dat CoCoMix meer monster-efficiënt is en consequent beter presteert dan de standaard voorspelling van het volgende token, kennisdistantiëring en het invoegen van pauzetokens. We vinden dat het combineren van zowel conceptleren als afwisseling in een end-to-end framework cruciaal is voor prestatieverbeteringen. Bovendien verbetert CoCoMix de interpreteerbaarheid en bestuurbaarheid door directe inspectie en aanpassing van het voorspelde concept mogelijk te maken, waardoor een transparante manier wordt geboden om het interne redeneerproces van het model te sturen.
Huidige GUI-agenten hebben uitstekende prestaties behaald op het gebied van GUI-elementverankering. Echter, planning blijft zeer uitdagend, vooral vanwege de gevoeligheid voor de initiële toestand van de omgeving. Met name kleine verschillen in de initiële toestand - zoals de doelsoftware die niet geopend is of de interface die niet in de standaardtoestand verkeert - leiden vaak tot planningsfouten. Dit probleem is wijdverbreid in echte gebruikersscenario's, maar bestaande benchmarks falen in de evaluatie ervan. In dit artikel presenteren we WorldGUI, een nieuwe GUI-benchmark die GUI-taken ontwerpt met verschillende initiële toestanden om echte computer-gebruiker interacties te simuleren. De benchmark omvat een breed scala aan taken over 10 populaire softwaretoepassingen, waaronder PowerPoint, VSCode en Adobe Acrobat. Daarnaast stellen we, om de uitdagingen van dynamische GUI-automatiseringstaken aan te pakken, GUI-Thinker voor, een allesomvattend raamwerk dat een kritiekmechanisme benut om de onvoorspelbaarheid en complexiteit van GUI-interacties effectief te beheren. Experimentele resultaten tonen aan dat GUI-Thinker aanzienlijk beter presteert dan Claude-3.5 (Computergebruik) met een succespercentage van 14,9% op WorldGUI-taken. Deze verbetering benadrukt de effectiviteit van ons op kritisch denken gebaseerde raamwerk bij het verbeteren van GUI-automatisering.
Lineaire sequentiële modelleringsbenaderingen, zoals lineaire aandacht, bieden voordelen zoals lineaire trainingstijd en constante geheugeninferentie over sequentielengtes. Bestaande sequentie parallelisme (SP) methoden zijn echter ofwel niet geoptimaliseerd voor de juiste-product-eerst eigenschap van lineaire aandacht of maken gebruik van een ring-stijl communicatiestrategie, wat resulteert in lagere berekeningsparallelisme, waardoor hun schaalbaarheid voor langere sequenties in gedistribueerde systemen beperkt wordt. In dit artikel introduceren we LASP-2, een nieuwe SP methode om zowel communicatie als berekeningsparallelisme te verbeteren bij het trainen van lineaire aandacht transformer modellen met zeer lange invoersequenties. In vergelijking met eerdere werk LASP, heroverweegt LASP-2 de minimale communicatievereiste voor SP op lineaire aandachtlagen, herorganiseert het volledige communicatie-berekeningsworkflow van LASP. Op deze manier is slechts één enkele AllGather collectieve communicatie nodig over tussenliggende geheugenstaten, waarvan de groottes onafhankelijk zijn van de sequentielengte, wat leidt tot aanzienlijke verbeteringen van zowel communicatie als berekeningsparallelisme, evenals hun overlap. Daarnaast breiden we LASP-2 uit naar LASP-2H door een vergelijkbare communicatieherontwerp toe te passen op standaard aandachtsmodules, wat een efficiënte SP-oplossing biedt voor hybride modellen die lineaire en standaard aandachtlagen combineren. Onze evaluatie van een Lineaire-Llama3 model, een variant van Llama3 met lineaire aandacht ter vervanging van standaard aandacht, toont de effectiviteit van LASP-2 en LASP-2H aan. Specifiek behaalt LASP-2 trainingsnelheidsverbeteringen van 15,2% ten opzichte van LASP en 36,6% ten opzichte van Ring Aandacht, met een sequentielengte van 2048K over 64 GPU's. De code is vrijgegeven als onderdeel van: https://github.com/OpenSparseLLMs/Linear-MoE.
Het vermogen om langetermijndoelen te bereiken is een belangrijke uitdaging in de huidige ontwikkeling van grote taalmodellen (LLM's). Om dit aan te pakken, kunnen vooraf getrainde LLM's worden verfijnd met reinforcement learning (RL) om oplossingen te verkennen die een gegeven doel optimaliseren. Echter, exploratie met LLM's is moeilijk, aangezien een balans moet worden gevonden tussen het ontdekken van nieuwe oplossingen en dicht genoeg bij het vooraf getrainde model blijven, zodat de basisvaardigheden niet worden aangetast. Dit wordt typisch gecontroleerd met een Kullback-Leibler (KL) straf. In dit artikel onderzoeken we de verkenningdynamiek van een klein taalmodel bij een eenvoudige rekenkundige taak. We laten zien hoe variërende gradaties van vooraf training de verkenning beïnvloeden en tonen het belang aan van "kritieke tokens" die een dramatische invloed hebben op de uiteindelijke uitkomst. Bijgevolg introduceren we een eenvoudige aanpassing aan de KL-straf die verkenning op kritieke tokens bevordert, waardoor de efficiëntie van de RL-verfijningsfase toeneemt.
Recente methoden voor het animeren van karakterafbeeldingen op basis van diffusiemodellen, zoals Animate Anyone, hebben aanzienlijke vooruitgang geboekt bij het genereren van consistente en generaliseerbare karakteranimaties. Deze benaderingen falen echter om redelijke associaties tussen karakters en hun omgeving te produceren. Om deze beperking aan te pakken, introduceren we Animate Anyone 2, met als doel karakters te animeren met omgevingsaffordantie. Naast het extraheren van bewegingssignalen uit de bronvideo, leggen we ook omgevingsrepresentaties vast als conditionele invoer. De omgeving wordt geformuleerd als het gebied met uitsluiting van karakters en ons model genereert karakters om deze gebieden te bevolken terwijl coherentie met de omgevingscontext wordt behouden. We stellen een vormagnostische maskerstrategie voor die de relatie tussen karakter en omgeving effectiever karakteriseert. Bovendien, om de geloofwaardigheid van objectinteracties te verbeteren, maken we gebruik van een objectgeleider om kenmerken van interactieve objecten te extraheren en passen we ruimtelijke vermenging toe voor kenmerkinjectie. We introduceren ook een houdingmodulatiestrategie die het model in staat stelt om met meer diverse bewegingspatronen om te gaan. Experimentele resultaten tonen de superieure prestaties van de voorgestelde methode aan.
Hoewel recente AI-voor-wiskunde vooruitgang heeft geboekt in de zuivere wiskunde, blijven gebieden van toegepaste wiskunde, met name partiële differentiaalvergelijkingen (PDE's), onderbelicht ondanks hun aanzienlijke real-world toepassingen. We presenteren PDE-Controller, een raamwerk dat grote taalmodellen (LLM's) in staat stelt om systemen te besturen die worden beheerst door partiële differentiaalvergelijkingen (PDE's). Onze aanpak stelt LLM's in staat om informele natuurlijke taalinstructies om te zetten in formele specificaties, en vervolgens redenerings- en planningsstappen uit te voeren om de bruikbaarheid van PDE-besturing te verbeteren. We bouwen een allesomvattende oplossing bestaande uit datasets (zowel door mensen geschreven gevallen als 2 miljoen synthetische voorbeelden), wiskundige redeneringsmodellen en nieuwe evaluatiemetrics, die allemaal aanzienlijke inspanningen vereisen. Onze PDE-Controller presteert aanzienlijk beter dan het aansturen van de nieuwste open-source en GPT-modellen in redenering, autoformalisatie en programma synthese, met een verbetering van maximaal 62% in bruikbaarheidswinst voor PDE-besturing. Door de kloof tussen taalgeneratie en PDE-systemen te overbruggen, tonen we het potentieel van LLM's aan in het aanpakken van complexe wetenschappelijke en technische uitdagingen. We zullen alle gegevens, modelcontrolepunten en code vrijgeven op https://pde-controller.github.io/.
Directe Voorkeursoptimalisatie (DPO) en de varianten ervan zijn steeds populairder geworden voor het afstemmen van taalmodellen op menselijke voorkeuren. Deze methoden hebben tot doel modellen beter te leren onderscheid te maken tussen gekozen (of gewenste) en afgewezen (of ongewenste) reacties. Echter, eerder onderzoek heeft vastgesteld dat de waarschijnlijkheid van gekozen reacties vaak afneemt tijdens training, en dit fenomeen staat bekend als waarschijnlijkheidsverschuiving. Om dit probleem aan te pakken, introduceren we in dit werk \methode om de verdeling van de gekozen waarschijnlijkheid op een controleerbare manier te verschuiven. Vervolgens laten we zien dat \methode een fundamenteel compromis vertoont tussen het verbeteren van de gekozen waarschijnlijkheid en het opofferen van de beloningsmarge, zoals ondersteund door zowel theoretische analyse als experimentele validatie. Bovendien tonen we de superioriteit van \methode ten opzichte van DPO op downstream taken zoals MT-Bench en een ontworpen winstrate-experiment. We zijn van mening dat deze studie aantoont dat het probleem van waarschijnlijkheidsverschuiving van DPO effectief kan worden verminderd met een eenvoudige, theoretisch gefundeerde oplossing. Onze code is beschikbaar op https://github.com/Meaquadddd/DPO-Shift.
Recente grote taalmodellen (LLM's) ondersteunen lange contexten variërend van 128K tot 1M tokens. Een populaire methode om deze capaciteiten te evalueren is de naald-in-een-hooiberg (NIAH) test, waarbij het terughalen van een "naald" (relevante informatie) uit een "hooiberg" (lang irrelevante context) betrokken is. Uitbreidingen van deze benadering omvatten het verhogen van afleiders, feitenketens en redeneren binnen de context. Echter, in deze benchmarks kunnen modellen bestaande letterlijke overeenkomsten tussen de naald en de hooiberg benutten om de taak te vereenvoudigen. Om dit aan te pakken, introduceren we NoLiMa, een benchmark die NIAH uitbreidt met een zorgvuldig ontworpen naaldenset, waarbij vragen en naalden minimaal lexicaal overlappen, waardoor modellen latente associaties moeten afleiden om de naald binnen de hooiberg te lokaliseren. We evalueren 12 populaire LLM's die beweren contexten van minimaal 128K tokens te ondersteunen. Hoewel ze goed presteren in korte contexten (<1K), neemt de prestatie aanzienlijk af naarmate de contextlengte toeneemt. Bijvoorbeeld, bij 32K zakken 10 modellen onder de 50% van hun sterke baselines voor korte lengtes. Zelfs GPT-4o, een van de best presterende uitzonderingen, ervaart een afname van een bijna perfecte baseline van 99,3% naar 69,7%. Onze analyse suggereert dat deze afnames voortkomen uit de toegenomen moeilijkheid waarmee het aandachtsmechanisme wordt geconfronteerd in langere contexten wanneer letterlijke overeenkomsten ontbreken, waardoor het moeilijker wordt om relevante informatie op te halen.
In het vakgebied van synthetische apertuurradar (SAR) remote sensing beeldinterpretatie hebben Vision Language Models (VLM's) opmerkelijke vooruitgang geboekt in natuurlijke taalverwerking en beeldbegrip, maar hun toepassingen blijven beperkt in professionele domeinen vanwege onvoldoende domeinkennis. Dit artikel stelt innovatief het eerste grootschalige multimodale dialoogdataset voor SAR-beelden voor, genaamd SARChat-2M, die ongeveer 2 miljoen hoogwaardige beeld-tekst paren bevat, diverse scenario's omvat met gedetailleerde doelannotaties. Deze dataset ondersteunt niet alleen verschillende belangrijke taken zoals visueel begrip en objectdetectietaken, maar heeft ook unieke innovatieve aspecten: dit onderzoek ontwikkelt een visueel-taal dataset en benchmark voor het SAR-domein, waardoor VLM's in staat worden gesteld en geëvalueerd worden in de interpretatie van SAR-beelden, wat een paradigma biedt voor het construeren van multimodale datasets over verschillende verticale domeinen van remote sensing. Door experimenten met 16 gangbare VLM's is de effectiviteit van de dataset volledig geverifieerd, en de eerste multi-task dialoogbenchmark in het SAR-veld is succesvol opgezet. Het project zal worden vrijgegeven op https://github.com/JimmyMa99/SARChat, met als doel de diepgaande ontwikkeling en brede toepassing van SAR visuele taalmodellen te bevorderen.
Next-Token Prediction (NTP) is een de facto benadering voor autoregressieve (AR) videogeneratie, maar het heeft te lijden onder suboptimale eenrichtingsafhankelijkheden en trage inferentiesnelheid. In dit werk stellen we een semi-autoregressief (semi-AR) kader voor, genaamd Next-Block Prediction (NBP), voor videogeneratie. Door video-inhoud uniform op te delen in gelijkwaardige blokken (bijv. rijen of frames), verplaatsen we de generatie-eenheid van individuele tokens naar blokken, waardoor elk token in het huidige blok tegelijkertijd het overeenkomstige token in het volgende blok kan voorspellen. In tegenstelling tot traditionele AR-modellering maakt ons kader gebruik van bidirectionele aandacht binnen elk blok, waardoor tokens robuustere ruimtelijke afhankelijkheden kunnen vastleggen. Door meerdere tokens parallel te voorspellen, verminderen NBP-modellen aanzienlijk het aantal generatiestappen, wat leidt tot snellere en efficiëntere inferenties. Ons model behaalt FVD-scores van 103,3 op UCF101 en 25,5 op K600, waarbij het gemiddeld 4,4 beter presteert dan het standaard NTP-model. Bovendien genereert het NBP-model dankzij het verminderde aantal inferentiestappen 8,89 frames (128x128 resolutie) per seconde, wat een versnelling van 11x betekent. We hebben ook modelgroottes onderzocht variërend van 700M tot 3B parameters, waarbij we aanzienlijke verbeteringen in generatiekwaliteit hebben waargenomen, met FVD-scores die dalen van 103,3 naar 55,3 op UCF101 en van 25,5 naar 19,5 op K600, wat de schaalbaarheid van onze aanpak aantoont.
Retrieval-Augmented Generation (RAG) is een geavanceerde techniek die is ontworpen om de uitdagingen van door kunstmatige intelligentie gegenereerde inhoud (AIGC) aan te pakken. Door contextuele opvraging te integreren in de inhoudsgeneratie, biedt RAG betrouwbare en actuele externe kennis, vermindert hallucinaties en zorgt voor relevante context over een breed scala aan taken. Echter, ondanks het succes en potentieel van RAG, hebben recente studies aangetoond dat het RAG-paradigma ook nieuwe risico's met zich meebrengt, waaronder robuustheidsproblemen, privacyzorgen, aanvallen van kwaadwillenden en verantwoordelijkheidskwesties. Het aanpakken van deze risico's is cruciaal voor toekomstige toepassingen van RAG-systemen, aangezien ze rechtstreeks van invloed zijn op hun betrouwbaarheid. Hoewel verschillende methoden zijn ontwikkeld om de betrouwbaarheid van RAG-methoden te verbeteren, ontbreekt het aan een eenduidig perspectief en kader voor onderzoek naar dit onderwerp. Daarom beogen we in dit artikel dit hiaat aan te pakken door een uitgebreide routekaart te bieden voor de ontwikkeling van betrouwbare RAG-systemen. We plaatsen onze discussie rond vijf belangrijke perspectieven: betrouwbaarheid, privacy, veiligheid, rechtvaardigheid, verklaringsmogelijkheden en verantwoordingsplicht. Voor elk perspectief presenteren we een algemeen kader en taxonomie, waarbij we een gestructureerde benadering bieden om de huidige uitdagingen te begrijpen, bestaande oplossingen te evalueren en veelbelovende toekomstige onderzoeksrichtingen te identificeren. Om een breder gebruik en innovatie aan te moedigen, benadrukken we ook de downstream-toepassingen waar betrouwbare RAG-systemen een significante impact hebben.
In dit werk stellen we een architectuur van LLM-modules voor die de overdracht van kennis van een groot voorgeleerd model naar een kleiner model mogelijk maakt met behulp van een verbeterd kruislingse-aandachtsmechanisme. In het voorgestelde schema wordt het Qwen2-1.5B-model bevroren en worden de representaties ervan door speciaal ontworpen aandachtslagen doorgegeven aan het GPT-Neo-125M-model, dat is getraind met beperkte rekenbronnen. Experimentele resultaten op de Bespoke-Stratos-17k dataset tonen aan dat na 15 epochs van training het gecombineerde model reacties genereert die qua kwaliteit vergelijkbaar zijn met die verkregen door distillatie. We bespreken de voordelen van de modulaire benadering, geven voorbeelden van invoervragen en vergelijkende analyses, en schetsen vooruitzichten voor verdere uitbreiding van de methode.
Model merging voegt Large Language Models (LLMs) samen die zijn verfijnd voor verschillende taken tot een krachtiger geheel. Echter, parameterconflicten tussen modellen leiden tot prestatievermindering bij het gemiddeld nemen. Terwijl modelroutering dit probleem aanpakt door individuele modellen te selecteren tijdens inferentie, brengt dit hoge opslag- en rekengerelateerde kosten met zich mee en slaagt het er niet in om de gemeenschappelijke kennis van verschillende modellen te benutten. In dit werk observeren we dat verschillende lagen verschillende niveaus van parameterconflicten vertonen. Voortbouwend op deze inzichten, nemen we lagen met minimale parameterconflicten gemiddeld en maken we gebruik van een nieuw soort expertroutering op taakniveau voor lagen met aanzienlijke conflicten. Om opslagkosten verder te verminderen, geïnspireerd door taakrekenkundige spaarzaamheid, splitsen we meerdere verfijnde experts op in een dichte expert en verschillende spaarzame experts. Bij het overwegen van out-of-distribution monsters, selecteren en combineren we passende experts op basis van de taakonzekerheid van de invoergegevens. We voeren uitgebreide experimenten uit op zowel LLaMA als Qwen met variërende parameterschalen, en evalueren op real-world redeneertaken. Resultaten tonen aan dat onze methode consequent aanzienlijke prestatieverbeteringen behaalt met minder systeemkosten in vergelijking met bestaande methoden.
We stellen een nieuw dynamisch veiligheidskader voor dat de veiligheidsredenering van taalmodellen (LM) optimaliseert op het moment van inferentie zonder de modelgewichten te wijzigen. Voortbouwend op recente ontwikkelingen in zelfkritieke methoden, maakt onze aanpak gebruik van een meta-kritiekmechanisme dat veiligheidsprompts - termen specificaties - iteratief bijwerkt om het kritiek- en revisieproces adaptief aan te sturen. Deze optimalisatie op testtijd verbetert niet alleen de prestaties tegenover kwaadwillende jailbreak-verzoeken, maar ook in diverse algemene veiligheidstaken, zoals het vermijden van morele schade of het nastreven van eerlijke antwoorden. Onze empirische evaluaties over verschillende taalmodellen tonen aan dat dynamisch geoptimaliseerde veiligheidsprompts aanzienlijk hogere veiligheidsscores opleveren in vergelijking met vaste systeemprompts en statische zelfkritiekverdedigingen. Code zal worden vrijgegeven op https://github.com/vicgalle/meta-self-critique.git.
Dichte contrastieve representatie leren (DCRL) heeft aanzienlijk de leerefficiëntie verbeterd voor beeld-dichte voorspellingstaken, waarbij het zijn grote potentie heeft laten zien om de hoge kosten van medische beeldverzameling en dichte annotatie te verminderen. Echter, de eigenschappen van medische beelden maken het ontdekken van onbetrouwbare overeenkomsten, wat een open probleem van grootschalige valse positieve en negatieve (VP&N) paren in DCRL met zich meebrengt. In dit artikel stellen we GEoMetrische vIsuele deNse sImilariteit (GEMINI) leren voor, dat de homeomorfisme voorafgaand aan DCRL inbedt en een betrouwbare overeenkomstontdekking mogelijk maakt voor effectieve dichte contrasten. We stellen een vervormbaar homeomorfisme leren (DHL) voor dat het homeomorfisme van medische beelden modelleert en leert om een vervormbare mapping te schatten om de overeenkomst van pixels te voorspellen met behoud van topologische eigenschappen. Het vermindert effectief de zoekruimte voor koppeling en drijft een impliciet en zacht leren van negatieve paren aan via een gradiënt. We stellen ook een geometrische semantische gelijkenis (GSS) voor die semantische informatie in functies extraheren om de mate van uitlijning voor het leren van overeenkomsten te meten. Dit zal de leerefficiëntie en prestaties van vervorming bevorderen, waarbij betrouwbare positieve paren worden geconstrueerd. We implementeren twee praktische varianten op twee typische representatie-leertaken in onze experimenten. Onze veelbelovende resultaten op zeven datasets, die de bestaande methoden overtreffen, tonen onze grote superioriteit aan. We zullen onze code vrijgeven op een bijbehorende link: https://github.com/YutingHe-list/GEMINI.