Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We bestuderen een nieuw architectuurmodel voor taal dat in staat is om de berekeningstijd bij het testen te schalen door impliciet redeneren in een latente ruimte. Ons model werkt door een recurrent blok te herhalen, waardoor het bij het testen tot willekeurige dieptes kan worden uitgerold. Dit staat in contrast met gangbare redeneringsmodellen die de berekening opschalen door meer tokens te produceren. In tegenstelling tot benaderingen gebaseerd op keten-van-gedachten, vereist onze benadering geen gespecialiseerde trainingsdata, kan werken met kleine contextvensters, en kan typen redeneringen vastleggen die niet gemakkelijk in woorden kunnen worden weergegeven. We schalen een proof-of-concept model naar 3,5 miljard parameters en 800 miljard tokens. We tonen aan dat het resulterende model zijn prestaties op redeneer-benchmarks kan verbeteren, soms aanzienlijk, tot een rekenbelasting equivalent aan 50 miljard parameters.
Deze paper introduceert Goku, een state-of-the-art familie van gezamenlijke beeld- en video-generatiemodellen die gebruikmaken van rechtgezette stroomtransformatoren om toonaangevende prestaties in de industrie te behalen. We beschrijven de fundamentele elementen die hoogwaardige visuele generatie mogelijk maken, waaronder het gegevensverzamelingsproces, het ontwerp van het modelarchitectuur, de stroomformulering, en geavanceerde infrastructuur voor efficiënte en robuuste grootschalige training. De Goku-modellen tonen superieure prestaties in zowel kwalitatieve als kwantitatieve evaluaties, waarbij nieuwe maatstaven worden gezet voor belangrijke taken. Specifiek behaalt Goku 0.76 op GenEval en 83.65 op DPG-Bench voor tekst-naar-beeld generatie, en 84.85 op VBench voor tekst-naar-video taken. Wij geloven dat dit werk waardevolle inzichten en praktische vooruitgang biedt voor de onderzoeksgemeenschap bij het ontwikkelen van gezamenlijke beeld- en video-generatiemodellen.
Hoewel Rotary Position Embedding (RoPE) en zijn varianten wijdverspreid zijn aangenomen vanwege hun vermogen om lange contexten te verwerken, blijft de uitbreiding van de 1D RoPE naar video, met zijn complexe ruimtelijk-temporele structuur, een open uitdaging. Dit werk introduceert eerst een uitgebreide analyse die vier essentiële kenmerken identificeert voor de effectieve aanpassing van RoPE naar video, die nog niet volledig zijn overwogen in eerdere werken. Als onderdeel van onze analyse introduceren we een uitdagende V-NIAH-D (Visual Needle-In-A-Haystack met Afleidingen) taak, die periodieke afleidingen toevoegt aan V-NIAH. De V-NIAH-D taak toont aan dat eerdere RoPE varianten, die geen geschikte toewijzing van de temporele dimensie hebben, gemakkelijk misleid worden door afleidingen. Op basis van onze analyse introduceren we VideoRoPE, met een 3D structuur ontworpen om ruimtelijk-temporele relaties te behouden. VideoRoPE kenmerkt zich door lage frequentie temporele toewijzing om periodieke oscillaties te verminderen, een diagonale lay-out om ruimtelijke symmetrie te behouden, en aanpasbare temporele afstand om temporele en ruimtelijke indexering te ontkoppelen. VideoRoPE overtreft consequent eerdere RoPE varianten, over diverse downstream taken zoals lange videoretrieval, videobegrip en videohallucinatie. Onze code zal beschikbaar zijn op https://github.com/Wiselnn570/VideoRoPE.
Diffusie Transformatoren (DiTs) met 3D volledige aandachtsstaat-van-de-kunst videoproductie, maar lijden onder een onoverkomelijke rekenefficiëntie - bij het genereren van slechts een 5-seconden 720P video, neemt de aandacht alleen al 800 van de 945 seconden van de totale inferentietijd in beslag. Dit artikel introduceert glijdende tegel aandacht (STA) om deze uitdaging aan te pakken. STA maakt gebruik van de observatie dat aandachtscores in vooraf getrainde video diffusiemodellen voornamelijk geconcentreerd zijn binnen gelokaliseerde 3D-vensters. Door te schuiven en aandacht te besteden aan de lokale ruimtelijk-temporele regio, elimineert STA redundantie van volledige aandacht. In tegenstelling tot traditionele token-gebaseerde schuifvenster aandacht (SWA), werkt STA tegel-voor-tegel met een nieuw hardwarebewust schuifvensterontwerp, waarbij expressiviteit behouden blijft terwijl het hardware-efficiënt is. Met zorgvuldige optimalisaties op kernelniveau biedt STA de eerste efficiënte 2D/3D schuifvenster-achtige aandachtimplementatie, met een bereik van 58,79% MFU. Precies versnelt STA de aandacht met 2,8-17x ten opzichte van FlashAttention-2 (FA2) en 1,6-10x ten opzichte van FlashAttention-3 (FA3). Op de toonaangevende video DiT, HunyuanVideo, vermindert STA de end-to-end latentie van 945s (FA3) tot 685s zonder kwaliteitsverlies, zonder training te vereisen. Door finetuning mogelijk te maken, wordt de latentie verder verlaagd tot 268s met slechts een daling van 0,09% op VBench.
Een benadering om de enorme kosten van grote taalmodellen (LLMs) te verlagen, is het gebruik van gekwantiseerde of spaarzame representaties voor training of implementatie. Hoewel post-training compressiemethoden zeer populair zijn, is de vraag of nog nauwkeurigere gecomprimeerde modellen kunnen worden verkregen door rechtstreeks te trainen over dergelijke representaties, d.w.z. Quantization-Aware Training (QAT), nog open: bijvoorbeeld, een recente studie (arXiv:2411.04330v2) stelde de "optimale" bit-breedte vast waarop modellen kunnen worden getraind met behulp van QAT, terwijl ze concurrerend blijven qua nauwkeurigheid met standaard FP16/BF16 precisie, op 8-bits gewichten en activaties. We brengen deze state-of-the-art verder met een nieuwe methode genaamd QuEST, die Pareto-concurrerend is met FP16, d.w.z. het biedt betere nauwkeurigheid bij een kleinere modelgrootte, terwijl modellen worden getraind met gewichten en activaties in 4-bits of minder. Bovendien maakt QuEST stabiele training mogelijk met 1-bit gewichten en activaties. QuEST bereikt dit door twee belangrijke aspecten van QAT-methoden te verbeteren: (1) nauwkeurige en snelle kwantisatie van de (continue) distributies van gewichten en activaties via Hadamard-normalisatie en MSE-optimale fitting; (2) een nieuwe trust gradient estimator gebaseerd op het idee om expliciet de fout tussen de lawaaierige gradient berekend over gekwantiseerde toestanden en de "ware" (maar onbekende) volledig-precisie gradient te minimaliseren. Experimenten op Llama-type architecturen tonen aan dat QuEST stabiele schalingswetten induceert over het gehele bereik van door hardware ondersteunde precisies, en kan worden uitgebreid naar spaarzame representaties. We bieden GPU kernelondersteuning aan waaruit blijkt dat modellen geproduceerd door QuEST efficiënt kunnen worden uitgevoerd. Onze code is beschikbaar op https://github.com/IST-DASLab/QuEST.
Het inpainten van driedimensionale scènes is cruciaal voor toepassingen van virtual reality tot architecturale visualisatie, maar bestaande methoden worstelen met consistentie van het zicht en geometrische nauwkeurigheid in 360 graden onbegrensde scènes. Wij presenteren AuraFusion360, een nieuw referentiegebaseerde methode die hoogwaardige objectverwijdering en gatenvulling mogelijk maakt in 3D-scènes die worden vertegenwoordigd door Gaussische Splatting. Onze aanpak introduceert (1) diepte-gevoelige ongeziene maskergeneratie voor nauwkeurige occlusie-identificatie, (2) Adaptieve Geleide Dieptediffusie, een zero-shot methode voor nauwkeurige initiële puntplaatsing zonder extra training te vereisen, en (3) SDEdit-gebaseerde detailverbetering voor multi-view coherentie. We introduceren ook 360-USID, de eerste uitgebreide dataset voor 360 graden onbegrensde scène inpainting met ground truth. Uitgebreide experimenten tonen aan dat AuraFusion360 aanzienlijk beter presteert dan bestaande methoden, met superieure perceptuele kwaliteit en behoud van geometrische nauwkeurigheid bij dramatische veranderingen in het gezichtspunt. Bekijk onze projectpagina voor videorresultaten en de dataset op https://kkennethwu.github.io/aurafusion360/.
DiT-diffusiemodellen hebben grote successen behaald in tekst-naar-video generatie, waarbij ze profiteren van hun schaalbaarheid in modelcapaciteit en datagrootte. Hoge inhouds- en bewegingsgetrouwheid die overeenkomen met tekstprompts vereisen echter vaak grote modelparameters en een aanzienlijk aantal functie-evaluaties (NFE's). Realistische en visueel aantrekkelijke details worden doorgaans weerspiegeld in uitvoer met hoge resolutie, waardoor de computationele eisen verder toenemen, vooral voor DiT-modellen in één fase. Om deze uitdagingen aan te pakken, stellen we een nieuw tweefasenframework voor, FlashVideo, dat op strategische wijze modelcapaciteit en NFE's verdeelt over fasen om generatiegetrouwheid en -kwaliteit in balans te brengen. In de eerste fase heeft promptgetrouwheid prioriteit door een generatieproces met lage resolutie te gebruiken met grote parameters en voldoende NFE's om de computationele efficiëntie te verbeteren. De tweede fase legt een stroomovereenkomst tussen lage en hoge resoluties vast, waarbij fijne details effectief worden gegenereerd met minimale NFE's. Kwantitatieve en visuele resultaten tonen aan dat FlashVideo state-of-the-art video-generatie met hoge resolutie bereikt met superieure computationele efficiëntie. Bovendien stelt het tweefasenontwerp gebruikers in staat om de initiële uitvoer te bekijken voordat ze zich verbinden aan generatie met volledige resolutie, waardoor aanzienlijk de computationele kosten en wachttijden worden verminderd en de commerciële levensvatbaarheid wordt verbeterd.
De integratie van langzaamdenkende mechanismen in grote taalmodellen (LLM's) biedt een veelbelovende manier om Level 2 AGI Reasoners te bereiken, zoals geïllustreerd door systemen zoals OpenAI's o1. Er blijven echter verschillende significante uitdagingen bestaan, waaronder inefficiënt overdenken en een te grote afhankelijkheid van hulpbeloningsmodellen. We wijzen erop dat deze beperkingen voortkomen uit het onvermogen van LLM's om het zoekproces te internaliseren, een essentieel onderdeel van effectief redeneren. Een cruciale stap om dit probleem aan te pakken, is het mogelijk maken dat LLM's autonoom bepalen wanneer en waar ze moeten terugkeren, een fundamentele operatie in traditionele zoekalgoritmen. Met dit doel stellen we een zelf-terugspoelmechanisme voor dat LLM's in staat stelt om tijdens zowel training als inferentie terug te spoelen. Dit mechanisme verbetert niet alleen het redeneervermogen, maar ook de efficiëntie door langzaamdenkende processen om te zetten in snel denken door zelfverbetering. Empirische evaluaties tonen aan dat ons voorstel aanzienlijk de redeneervaardigheden van LLM's verbetert, met een prestatiewinst van meer dan 40 procent in vergelijking met de optimale-pad-supervised fine-tuning methode. Wij geloven dat deze studie een nieuw en veelbelovend pad introduceert voor het ontwikkelen van geavanceerdere en robuustere Reasoners.
Agency is het vermogen van een systeem om resultaten naar een doel te sturen, en is een centraal onderwerp van studie binnen de biologie, filosofie, cognitieve wetenschap en kunstmatige intelligentie. Het vaststellen of een systeem agency vertoont is een beruchte moeilijke vraag: Dennett (1989) benadrukt bijvoorbeeld het raadsel van het bepalen welke principes kunnen bepalen of een steen, een thermostaat of een robot elk agency bezitten. Wij benaderen dit raadsel hier vanuit het gezichtspunt van reinforcement learning door te betogen dat agency fundamenteel afhankelijk is van het kader: Elke meting van het agency van een systeem moet relatief tot een referentiekader worden gemaakt. We ondersteunen deze bewering door een filosofisch argument te presenteren dat elk van de essentiële eigenschappen van agency voorgesteld door Barandiaran et al. (2009) en Moreno (2018) zelf afhankelijk zijn van het kader. We concluderen dat elke basiswetenschap van agency kader-afhankelijkheid vereist, en bespreken de implicaties van deze bewering voor reinforcement learning.
De snelle vooruitgang van grote taalmodellen (LLM's) heeft de behoefte aan guardrailmodellen vergroot om verantwoord gebruik te waarborgen, met name bij het detecteren van onveilige en illegale inhoud. Hoewel er aanzienlijke veiligheidsgegevens beschikbaar zijn in het Engels, blijft multilingual guardrailmodellering onderbelicht vanwege de schaarste aan open-source veiligheidsgegevens in andere talen. Om deze lacune aan te pakken, stellen we een nieuw tweespeler Reinforcement Learning (RL) kader voor, waarbij een generator en een guardrailmodel op een vijandige manier samen evolueren om hoogwaardige synthetische gegevens te produceren voor multilingual guardrailtraining. We formaliseren deze interactie theoretisch als een tweespelerspel, waarbij we aantonen dat er convergentie is naar een Nash-evenwicht. Empirische evaluaties tonen aan dat ons model \ours beter presteert dan state-of-the-art modellen, met bijna 10% verbetering ten opzichte van LlamaGuard3 (8B) op Engelse benchmarks, terwijl het 4,5x sneller is bij inferentie met een aanzienlijk kleiner model (0,5B). We boeken aanzienlijke vooruitgang in multilingual veiligheidstaken, met name bij het aanpakken van de onbalans voor talen met minder bronnen in een verzamelde echte dataset. Ablatiestudies benadrukken de cruciale rol van synthetische gegevensgeneratie bij het overbruggen van de onbalans in open-source gegevens tussen het Engels en andere talen. Deze bevindingen leggen een schaalbare en efficiënte benadering van synthetische gegevensgeneratie vast, waardoor de weg wordt vrijgemaakt voor verbeterde multilingual guardrailmodellen om de veiligheid van LLM's te verbeteren. De code, het model en de gegevens zullen open-source beschikbaar zijn op https://github.com/yihedeng9/DuoGuard.
Het oplossen van complexe planningsproblemen vereist dat Grote Taalmodellen (LLMs) de staatsovergang expliciet modelleren om regelovertredingen te vermijden, te voldoen aan beperkingen en optimaliteit te waarborgen - een taak die wordt bemoeilijkt door de inherente ambiguïteit van natuurlijke taal. Om dergelijke ambiguïteit te overwinnen, wordt Planning Domein Definitie Taal (PDDL) ingezet als een planningsabstractie die nauwkeurige en formele staatbeschrijvingen mogelijk maakt. Met PDDL kunnen we een symbolisch wereldmodel genereren waar klassieke zoekalgoritmen, zoals A*, naadloos kunnen worden toegepast om optimale plannen te vinden. Echter, het direct genereren van PDDL-domeinen met huidige LLMs blijft een open uitdaging vanwege het gebrek aan PDDL-trainingsgegevens. Om deze uitdaging aan te pakken, stellen we voor om de testtijd berekening van LLMs te vergroten om hun PDDL redeneervermogen te verbeteren, waardoor de generatie van hoogwaardige PDDL-domeinen mogelijk wordt. Specifiek introduceren we een eenvoudig maar effectief algoritme, dat eerst een Best-of-N bemonsteringsbenadering gebruikt om de kwaliteit van de initiële oplossing te verbeteren en vervolgens de oplossing verfijnt op een fijnmazige manier met verbaal gemaakt machinaal leren. Onze methode presteert aanzienlijk beter dan o1-mini bij de generatie van PDDL-domeinen, met een succespercentage van meer dan 50% bij twee taken (d.w.z. het genereren van PDDL-domeinen uit natuurlijke taalbeschrijving of PDDL-problemen). Dit wordt gedaan zonder extra training te vereisen. Door gebruik te maken van PDDL als staatabstractie, is onze methode in staat om bijna alle planningsopdrachten op competitieniveau te overtreffen met de huidige state-of-the-art methoden.
Grote taalmodellen (LLM's) behalen indrukwekkende prestaties door het schalen van modelparameters, maar dit gaat gepaard met aanzienlijke inferentie-overhead. Feedforward-netwerken (FFN's), die de parameters van LLM's domineren, vertonen een hoge activatiesparsiteit in verborgen neuronen. Om hiervan gebruik te maken, hebben onderzoekers voorgesteld om een mengsel-van-experts (MoE) architectuur te gebruiken, waarbij slechts een subset van parameters geactiveerd wordt. Echter, bestaande benaderingen vereisen vaak uitgebreide trainingsgegevens en middelen, wat hun praktische toepasbaarheid beperkt. Wij stellen CMoE (Carved MoE) voor, een nieuw raamwerk om op efficiënte wijze MoE-modellen uit dichte modellen te snijden. CMoE behaalt opmerkelijke prestaties door middel van efficiënte expertgroepering en lichtgewicht aanpassing. Allereerst worden neuronen gegroepeerd in gedeelde en gerouteerde experts op basis van activatiesnelheden. Vervolgens construeren we een routeringsmechanisme zonder vanaf nul te trainen, waarbij een differentieerbaar routeringsproces en belastingbalancering worden opgenomen. Met bescheiden gegevens produceert CMoE binnen vijf minuten een goed ontworpen, bruikbare MoE vanuit een 7B dicht model. Met lichtgewicht fine-tuning bereikt het een hoogwaardig herstel van de prestaties in minder dan een uur. We stellen onze code openbaar beschikbaar op https://github.com/JarvisPei/CMoE.
Wij presenteren On-device Sora, een eerste baanbrekende oplossing voor op diffusie gebaseerde tekst-naar-video generatie die efficiënt werkt op smartphone-grade apparaten. Voortbouwend op Open-Sora, past On-device Sora drie nieuwe technieken toe om de uitdagingen van op diffusie gebaseerde tekst-naar-video generatie op reken- en geheugenbeperkte mobiele apparaten aan te pakken. Ten eerste vermindert Lineaire Proportionele Sprong (LPL) de overmatige denoising-stappen die nodig zijn in video diffusie door middel van een efficiënte sprong-gebaseerde benadering. Ten tweede minimaliseert Temporele Dimensie Token Samenvoeging (TDTM) intensieve token-verwerkingsberekeningen in aandachtslagen door opeenvolgende tokens langs de temporele dimensie samen te voegen. Ten derde verdeelt Concurrent Inferentie met Dynamische Laden (CI-DL) grote modellen dynamisch in kleinere blokken en laadt ze in het geheugen voor gelijktijdige modelinferentie, waarbij effectief wordt ingegaan op de uitdagingen van beperkt apparaatgeheugen. We implementeren On-device Sora op de iPhone 15 Pro, en de experimentele evaluaties tonen aan dat het in staat is om hoogwaardige video's op het apparaat te genereren, vergelijkbaar met die geproduceerd door Open-Sora op high-end GPU's. Deze resultaten tonen aan dat On-device Sora efficiënte en hoogwaardige videogeneratie mogelijk maakt op resource-beperkte mobiele apparaten, waardoor toegankelijkheid wordt vergroot, gebruikersprivacy wordt gewaarborgd, afhankelijkheid van cloud-infrastructuur wordt verminderd en gerelateerde kosten worden verlaagd. Wij zien het voorgestelde On-device Sora als een belangrijke eerste stap naar democratisering van toonaangevende generatieve technologieën, waardoor videogeneratiemogelijkheden op alledaagse mobiele en embedded apparaten worden mogelijk gemaakt. De code-implementatie is openbaar beschikbaar op een GitHub repository: https://github.com/eai-lab/On-device-Sora.
Model merging integreert de gewichten van meerdere taakspecifieke modellen in een enkel multi-taakmodel. Ondanks de recente interesse in het probleem, blijft er een aanzienlijk prestatieverschil bestaan tussen de gecombineerde en enkelvoudige modellen. In dit artikel onderzoeken we de belangrijkste kenmerken van taakmatrices - gewichtsupdatematrixen toegepast op een voorgeleerd model - die effectieve samenvoeging mogelijk maken. We laten zien dat de afstemming tussen afzonderlijke componenten van taakspecifieke en samengevoegde matrices sterk correleert met prestatieverbetering ten opzichte van het voorgeleerde model. Op basis hiervan stellen we een isotropisch samenvoegingskader voor dat het singulariteitswaardespectrum van taakmatrices afvlakt, de afstemming verbetert en het prestatieverschil verkleint. Daarnaast nemen we zowel gemeenschappelijke als taakspecifieke subspace op om de afstemming en prestaties verder te verbeteren. Onze voorgestelde aanpak behaalt state-of-the-art prestaties in verschillende scenario's, waaronder diverse takenreeksen en modelgroottes. Dit werk bevordert het begrip van de dynamiek van model samenvoeging en biedt een effectieve methodologie om modellen samen te voegen zonder extra training. De code is beschikbaar op https://github.com/danielm1405/iso-merging.
De generalisatie van taalmodellen (LM's) is onderwerp van actieve debatten, waarbij hun potentieel voor algemene intelligentie wordt gecontrasteerd met hun worstelingen met basale kenniscompositie (bijv. omgekeerde/transitie-vloek). Dit artikel onthult het fenomeen van lineaire correlaties in LM's tijdens kenniscompositie. Ter verklaring bestaat er een lineaire transformatie tussen bepaalde gerelateerde kennis die de logaritmen van voorspellingen van het volgende token van de ene prompt naar de andere in kaart brengt, bijv. "X woont in de stad" naar "X woont in het land" voor elk gegeven X. Dit weerspiegelt de lineariteit in menselijke kenniscompositie, zoals Parijs naar Frankrijk. Onze bevindingen geven aan dat de lineaire transformatie veerkrachtig is bij grootschalige fijnafstemming, waarbij bijgewerkte kennis wordt gegeneraliseerd wanneer deze in lijn is met real-world relaties, maar hallucinaties veroorzaakt wanneer deze afwijkt. Empirische resultaten suggereren dat lineaire correlatie kan dienen als een potentieel identificatiemiddel van de generalisatie van LM's. Tot slot tonen we aan dat dergelijke lineaire correlaties kunnen worden geleerd met een enkel feedforward netwerk en vooraf getrainde woordenschatrepresentaties, wat aangeeft dat de generalisatie van LM sterk afhankelijk is van laatstgenoemde.
Sinds de introductie van de Vision Transformer (ViT) wordt patchificatie al lange tijd beschouwd als een de facto benadering voor beeldtokenisatie voor eenvoudige visuele architecturen. Door de ruimtelijke grootte van afbeeldingen te comprimeren, kan deze benadering effectief de tokenreeks verkorten en de rekenkundige kosten van ViT-achtige eenvoudige architecturen verminderen. In dit werk is ons doel om grondig te onderzoeken welke informatie verloren gaat door dit op patchificatie gebaseerde compressieve encoderingsparadigma en hoe dit van invloed is op visueel begrip. We voeren uitgebreide experimenten uit met het schalen van patchgroottes en observeren met enthousiasme een intrigerende schaalwet in patchificatie: de modellen kunnen consequent profiteren van afnemende patchgroottes en verbeterde voorspellende prestaties behalen, totdat de minimale patchgrootte van 1x1 is bereikt, d.w.z. pixel-tokenisatie. Deze conclusie is breed toepasbaar op verschillende visuele taken, diverse invoerschalen en verschillende architecturen zoals ViT en de recente Mamba-modellen. Bovendien ontdekken we als bijproduct dat met kleinere patches taakspecifieke decoderingskoppen minder cruciaal worden voor dichte voorspelling. In de experimenten schalen we succesvol de visuele reeks op tot een uitzonderlijke lengte van 50.176 tokens, waarbij we een competitieve testnauwkeurigheid van 84,6% behalen met een model van basiskwaliteit op de ImageNet-1k benchmark. We hopen dat deze studie inzichten en theoretische fundamenten kan bieden voor toekomstige werken aan het bouwen van niet-compressieve visiemodellen. De code is beschikbaar op https://github.com/wangf3014/Patch_Scaling.
Bestaande methoden falen om Grote Taalmodellen (LLMs) effectief te sturen tussen tekstueel redeneren en codegeneratie, waardoor symbolische rekenmogelijkheden onderbenut blijven. We introduceren CodeSteer, een effectieve methode voor het begeleiden van LLM-code/tekstgeneratie. We construeren een uitgebreide benchmark SymBench bestaande uit 37 symbolische taken met aanpasbare complexiteit en synthetiseren ook datasets van 12k multi-ronde begeleidings/generatietrajecten en 5.5k begeleidingsvergelijkingsparen. We finetunen het Llama-3-8B model met een nieuw ontworpen multi-ronde supervisie-finetuning (SFT) en directe voorkeurs optimalisatie (DPO). Het resulterende model, CodeSteerLLM, aangevuld met de voorgestelde symbolische en zelf-antwoordcontroleurs, begeleidt effectief de code/tekstgeneratie van grotere modellen. Het toevoegen van CodeSteer aan GPT-4o verhoogt zijn gemiddelde prestatiescore van 53.3 naar 86.4, waarbij het zelfs de bestaande beste LLM's van OpenAI o1 (82.7), o1-preview (74.8) en DeepSeek R1 (76.8) overtreft op alle 37 taken (28 gezien, 9 ongezien). Getraind voor GPT-4o, toont CodeSteer superieure generaliseerbaarheid, met een gemiddelde prestatieverbetering van 41.8 op Claude, Mistral en GPT-3.5. CodeSteer-geleide LLMs benutten symbolische rekenkracht volledig om sterke prestaties te behouden op zeer complexe taken. Modellen, Datasets en Codes zijn beschikbaar op https://github.com/yongchao98/CodeSteer-v1.0.
We introduceren Quantized Language-Image Pretraining (QLIP), een visuele tokenisatiemethode die state-of-the-art reconstructiekwaliteit combineert met state-of-the-art begrip van afbeeldingen zonder voorafgaande training. QLIP traint een binair-sferische-gekwantiseerde auto-encoder met reconstructie- en taal-afbeelding aligneringsdoelstellingen. Wij zijn de eersten die aantonen dat de twee doelstellingen niet tegenstrijdig hoeven te zijn. We balanceren de twee verliesfuncties dynamisch tijdens de training en tonen aan dat een tweefasige trainingspijplijn effectief de grote-batchvereisten van voorafgaande training van afbeeldingen en taal mixt met de geheugenbottleneck die wordt opgelegd door de reconstructiedoelstelling. We valideren de effectiviteit van QLIP voor multimodaal begrip en tekst-geconditioneerde beeldgeneratie met een enkel model. Specifiek dient QLIP als een plug-and-play vervanging voor de visuele encoder voor LLaVA en de beeldtokenizer voor LlamaGen met vergelijkbare of zelfs betere prestaties. Ten slotte tonen we aan dat QLIP een verenigd gemengd-modaliteitsauto-regressief model mogelijk maakt voor begrip en generatie.
Het begrijpen van tijd vanuit visuele representaties is een fundamentele cognitieve vaardigheid, maar het blijft een uitdaging voor multimodale grote taalmodellen (MLLM's). In dit werk onderzoeken we de mogelijkheden van MLLM's om tijd en datum te interpreteren aan de hand van analoge klokken en jaarlijkse kalenders. Om dit te vergemakkelijken, hebben we een gestructureerde dataset samengesteld bestaande uit twee subsets: 1) KlokkenV&A, die verschillende soorten klokstijlen omvat - standaard, zwart-wijzerplaat, zonder secondewijzer, Romeinse cijfers en pijlwijzers - gekoppeld aan tijdgerelateerde vragen; en 2) KalenderV&A, die bestaat uit jaarlijkse kalenderafbeeldingen met vragen variërend van algemeen bekende data (bijv. Kerstmis, Nieuwjaarsdag) tot berekende data (bijv. de 100e of 153e dag van het jaar). We beogen te analyseren hoe MLLM's kunnen presteren in visuele herkenning, numerieke redenering en temporele inferentie wanneer ze worden gepresenteerd met tijdgerelateerde visuele gegevens. Onze evaluaties tonen aan dat ondanks recente vooruitgang, het betrouwbaar begrijpen van tijd een aanzienlijke uitdaging blijft voor MLLM's.
Grote taalmodellen (LLM's) behalen opmerkelijke prestaties op uitdagende benchmarks die vaak gestructureerd zijn als meerkeuzevraag-beantwoordings (QA) taken. Zero-shot Chain-of-Thought (CoT) prompting verbetert redeneren in LLM's, maar biedt slechts vage en generieke begeleiding ("denk stap voor stap"). Dit artikel introduceert ARR, een intuïtieve en effectieve zero-shot prompting methode die expliciet drie essentiële stappen in QA-oplossingen incorporeert: het analyseren van de intentie van de vraag, het ophalen van relevante informatie, en stapsgewijs redeneren. Uitgebreide experimenten over diverse en uitdagende QA-taken tonen aan dat ARR consequent de Baseline verbetert (zonder ARR prompting) en CoT overtreft. Ablatie- en casestudies bevestigen verder de positieve bijdragen van elk component: analyseren, ophalen en redeneren. Opmerkelijk is dat intentieanalyse een cruciale rol speelt in ARR. Bovendien bevestigen uitgebreide evaluaties over verschillende modelgroottes, LLM-series en generatie-instellingen de effectiviteit, robuustheid en generaliseerbaarheid van ARR.
Het schalen van gegevens en rekenkracht is cruciaal voor het succes van machine learning. Echter, schalen vereist voorspelbaarheid: we willen dat methoden niet alleen goed presteren met meer rekenkracht of gegevens, maar ook dat hun prestaties voorspelbaar zijn op basis van kleinschalige runs, zonder de grootschalige experimenten uit te voeren. In dit artikel laten we zien dat value-based off-policy RL-methoden voorspelbaar zijn, ondanks de gemeenschappelijke overlevering over hun pathologisch gedrag. Ten eerste tonen we aan dat de gegevens- en rekenvereisten om een bepaald prestatieniveau te bereiken op een Pareto-frontlijn liggen, beheerst door de updates-to-data (UTD) ratio. Door deze frontlijn te schatten, kunnen we de gegevensvereiste voorspellen wanneer er meer rekenkracht beschikbaar is, en de rekenvereiste voorspellen wanneer er meer gegevens zijn. Ten tweede bepalen we de optimale verdeling van een totaal resourcebudget over gegevens en rekenkracht voor een bepaalde prestatie en gebruiken dit om hyperparameters te bepalen die de prestaties maximaliseren binnen een vastgesteld budget. Ten derde wordt dit schalingsgedrag mogelijk gemaakt door eerst voorspelbare relaties tussen hyperparameters te schatten, die worden gebruikt om de effecten van overfitting en plasticiteitsverlies uniek voor RL te beheren. We valideren onze aanpak met behulp van drie algoritmen: SAC, BRO en PQL op DeepMind Control, OpenAI gym en IsaacGym, bij het extrapoleren naar hogere niveaus van gegevens, rekenkracht, budget of prestaties.
Een nauwkeurige afstemming in Tekst-naar-Afbeelding (T2I) systemen is cruciaal om ervoor te zorgen dat gegenereerde visuals niet alleen nauwkeurig de intenties van gebruikers vastleggen, maar ook voldoen aan strikte ethische en esthetische normen. Incidenten zoals het Google Gemini fiasco, waarbij verkeerd uitgelijnde resultaten aanzienlijke publieke verontwaardiging veroorzaakten, benadrukken de kritieke behoefte aan robuuste uitlijningsmechanismen. In tegenstelling hiermee hebben Grote Taalmodellen (LLMs) opmerkelijk succes behaald in uitlijning. Voortbouwend op deze vooruitgang zijn onderzoekers enthousiast om vergelijkbare uitlijningstechnieken, zoals Directe VoorkeursOptimalisatie (DPO), toe te passen op T2I systemen om de betrouwbaarheid en geloofwaardigheid van beeldgeneratie te verbeteren. We presenteren YinYangAlign, een geavanceerd benchmarking framework dat systematisch de uitlijningsbetrouwbaarheid van T2I systemen kwantificeert, waarbij zes fundamentele en inherent tegenstrijdige ontwerpdoelstellingen worden aangepakt. Elk paar vertegenwoordigt fundamentele spanningen in beeldgeneratie, zoals het balanceren van het volgen van gebruikersaanwijzingen met creatieve aanpassingen of het handhaven van diversiteit naast visuele samenhang. YinYangAlign omvat gedetailleerde axioma datasets met menselijke aanwijzingen, uitgelijnde (gekozen) reacties, verkeerd uitgelijnde (afgewezen) door AI gegenereerde resultaten, en verklaringen van de onderliggende tegenstrijdigheden.
We presenteren een verenigd kader dat in staat is om een breed scala aan 3D-taken op te lossen. Onze aanpak omvat een stateful recurrent model dat continu zijn statusrepresentatie bijwerkt met elke nieuwe observatie. Gegeven een stroom van afbeeldingen kan deze evoluerende status worden gebruikt om metrische schaal puntkaarten (per pixel 3D-punten) te genereren voor elke nieuwe invoer op een online manier. Deze puntkaarten bevinden zich binnen een gemeenschappelijk coördinatensysteem en kunnen worden opgebouwd tot een coherente, dichte scène reconstructie die wordt bijgewerkt naarmate er nieuwe afbeeldingen binnenkomen. Ons model, genaamd CUT3R (Continuous Updating Transformer for 3D Reconstruction), legt rijke aannames vast van echte scènes: het kan niet alleen nauwkeurige puntkaarten voorspellen vanuit beeldobservaties, maar het kan ook ongeziene regio's van de scène afleiden door te onderzoeken vanuit virtuele, onwaargenomen gezichtspunten. Onze methode is eenvoudig maar zeer flexibel en accepteert natuurlijk variabele lengtes van afbeeldingen die zowel videostreams als ongeordende fotocollecties kunnen zijn, met zowel statische als dynamische inhoud. We evalueren onze methode op verschillende 3D/4D-taken en tonen een concurrerende of toonaangevende prestatie in elk geval. Projectpagina: https://cut3r.github.io/
Semantische promptcaches verminderen de latentie en kosten van grote taalmodellen (LLM) door gecachte LLM-generieke reacties op semantisch vergelijkbare prompts te hergebruiken. Vectorgelijkheidsmetrieken kennen een numerieke score toe om de gelijkenis tussen een ingebedde prompt en zijn dichtstbijzijnde buur in de cache te kwantificeren. Bestaande systemen vertrouwen op een statische drempel om te classificeren of de gelijkenisscore voldoende hoog is om te resulteren in een cache-hit. We tonen aan dat deze one-size-fits-all drempel ontoereikend is voor verschillende prompts. We stellen VectorQ voor, een framework om inbeddingspecifieke drempelregio's te leren die zich aanpassen aan de complexiteit en onzekerheid van een inbedding. Door evaluaties op een combinatie van vier uiteenlopende datasets tonen we aan dat VectorQ consequent beter presteert dan state-of-the-art systemen over alle statische drempels, met een toename van de cache-hitrate tot wel 12x en een vermindering van de foutenpercentages tot wel 92%.
In hedendaagse werkplekken zijn vergaderingen essentieel voor het uitwisselen van ideeën en het waarborgen van teamafstemming, maar ze worden vaak geconfronteerd met uitdagingen zoals tijdsverbruik, planning conflicten en inefficiënte deelname. Recente ontwikkelingen in Grote Taalmodellen (LLM's) hebben hun sterke mogelijkheden aangetoond op het gebied van natuurlijke taalgeneratie en redenering, wat de vraag oproept: kunnen LLM's effectief deelnemers delegeren in vergaderingen? Om dit te onderzoeken, ontwikkelen we een prototype LLM-aangedreven vergadersysteem en creëren we een uitgebreide benchmark met behulp van echte vergadertranscripties. Onze evaluatie onthult dat GPT-4/4o een gebalanceerde prestatie behouden tussen actieve en voorzichtige betrokkenheidsstrategieën. In tegenstelling hiermee neigt Gemini 1.5 Pro voorzichtiger te zijn, terwijl Gemini 1.5 Flash en Llama3-8B/70B meer actieve neigingen vertonen. Over het algemeen behandelt ongeveer 60\% van de reacties minstens één sleutelpunt uit de werkelijke situatie. Er zijn echter verbeteringen nodig om irrelevante of repetitieve inhoud te verminderen en de tolerantie voor transcriptiefouten die vaak voorkomen in realistische omgevingen te verbeteren. Bovendien implementeren we het systeem in praktische omgevingen en verzamelen we feedback uit de praktijkdemonstraties. Onze bevindingen benadrukken het potentieel en de uitdagingen van het gebruik van LLM's als vergaderdelegates, en bieden waardevolle inzichten in hun praktische toepassing om de last van vergaderingen te verlichten.
Wij stellen SPARC voor, een lichtgewicht continu leerframework voor grote taalmodellen (LLM's) dat efficiënte taakaanpassing mogelijk maakt door promptafstemming in een lagere-dimensionale ruimte. Door gebruik te maken van principale componentenanalyse (PCA) identificeren we een compacte subspace van de trainingsgegevens. Het optimaliseren van prompts in deze lagere-dimensionale ruimte verbetert de trainings-efficiëntie, doordat het de updates richt op de meest relevante kenmerken en tegelijkertijd de rekenkundige overhead vermindert. Bovendien, aangezien de interne structuur van het model onveranderd blijft, wordt de uitgebreide kennis die is opgedaan tijdens de voorafgaande training volledig behouden, waardoor wordt gegarandeerd dat eerder geleerde informatie niet in gevaar komt tijdens de aanpassing. Onze methode bereikt een hoge kennisretentie in zowel taak-incrementele als domein-incrementele continu leeropstellingen, terwijl slechts 0,04% van de parameters van het model wordt fijngestemd. Bovendien, door LoRA te integreren, verbeteren we de aanpasbaarheid aan rekenkundige beperkingen, waardoor een afweging tussen nauwkeurigheid en trainingskosten mogelijk is. Experimenten op de SuperGLUE benchmark tonen aan dat onze op PCA gebaseerde promptafstemming in combinatie met LoRA volledige kennisretentie behoudt en de nauwkeurigheid verbetert, met slechts 1% van de parameters van het model. Deze resultaten bevestigen onze aanpak als een schaalbare en efficiënte oplossing voor continu leren in LLM's.
Autonome edge computing in robotica, slimme steden en autonome voertuigen steunt op de naadloze integratie van waarneming, verwerking en activering voor real-time besluitvorming in dynamische omgevingen. In de kern staat de waarneming-tot-actie lus, die sensorinvoer iteratief afstemt met rekenkundige modellen om adaptieve controlestrategieën aan te sturen. Deze lussen kunnen zich aanpassen aan hyperlokale omstandigheden, waardoor de efficiëntie van hulpbronnen en reactievermogen worden verbeterd, maar ze worden ook geconfronteerd met uitdagingen zoals hulpbronbeperkingen, synchronisatievertragingen bij multimodale gegevensfusie en het risico van zich voortplantende fouten in terugkoppelingslussen. Dit artikel onderzoekt hoe proactieve, contextbewuste waarneming-tot-actie en actie-tot-waarneming aanpassingen de efficiëntie kunnen verbeteren door dynamisch de waarneming en berekening aan te passen op basis van taakeisen, zoals het waarnemen van een zeer beperkt deel van de omgeving en de rest voorspellen. Door de waarneming te sturen via controleacties kunnen actie-tot-waarneming paden de taakrelevantie en het gebruik van hulpbronnen verbeteren, maar ze vereisen ook robuuste monitoring om zich voortplantende fouten te voorkomen en betrouwbaarheid te handhaven. Multi-agent waarneming-actie lussen breiden deze mogelijkheden verder uit door gecoördineerde waarneming en acties over gedistribueerde agenten, waarbij de hulpbronnenoptimalisatie wordt geoptimaliseerd via samenwerking. Bovendien biedt neuromorfische computing, geïnspireerd door biologische systemen, een efficiënt kader voor op spikes gebaseerde, op gebeurtenissen gebaseerde verwerking dat energie bespaart, latentie vermindert en hiërarchische controle ondersteunt - waardoor het ideaal is voor multi-agent optimalisatie. Dit artikel benadrukt het belang van end-to-end co-ontwerpstrategieën die algoritmische modellen afstemmen met hardware en omgevingsdynamiek en de interafhankelijkheden tussen lagen verbeteren om de doorvoer, precisie en aanpasbaarheid te verbeteren voor energiezuinige edge autonomie in complexe omgevingen.