Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks enorme recente vooruitgang hebben generatieve videomodellen nog steeds moeite om echte beweging, dynamiek en natuurkunde vast te leggen. We tonen aan dat deze beperking voortkomt uit het conventionele objectief van pixelreconstructie, dat modellen beïnvloedt om te streven naar uiterlijke gelijkenis ten koste van bewegingscoherentie. Om dit aan te pakken, introduceren we VideoJAM, een nieuw raamwerk dat een effectieve bewegingsprioriteit inblaast bij videogeneratoren, door het model aan te moedigen om een gezamenlijke verschijnings-bewegingsrepresentatie te leren. VideoJAM bestaat uit twee complementaire eenheden. Tijdens training breiden we het objectief uit om zowel de gegenereerde pixels als hun overeenkomstige beweging te voorspellen vanuit een enkele aangeleerde representatie. Tijdens inferentie introduceren we Inner-Guidance, een mechanisme dat de generatie stuurt naar coherente beweging door gebruik te maken van de voortschrijdende bewegingsvoorspelling van het model als dynamisch begeleidingssignaal. Opmerkelijk genoeg kan ons raamwerk worden toegepast op elk videomodel met minimale aanpassingen, zonder wijzigingen aan de trainingsgegevens of schaling van het model. VideoJAM behaalt state-of-the-art prestaties in bewegingscoherentie, overtreft zeer competitieve gepatenteerde modellen en verbetert ook de waargenomen visuele kwaliteit van de gegenereerde beelden. Deze bevindingen benadrukken dat verschijning en beweging complementair kunnen zijn en, wanneer effectief geïntegreerd, zowel de visuele kwaliteit als de coherentie van videogeneratie verbeteren. Projectwebsite: https://hila-chefer.github.io/videojam-paper.github.io/
De meeste vooruitgang in recente codeermodellen is gedreven door begeleid fijnafstemmen (SFT), terwijl het potentieel van versterkend leren (RL) grotendeels onbenut blijft, voornamelijk vanwege het gebrek aan betrouwbare beloningsgegevens/model in het codeerdomein. In dit artikel pakken we deze uitdaging aan door geautomatiseerde grootschalige testgevalsynthese te benutten om de training van codeermodellen te verbeteren. Specifiek ontwerpen we een pijplijn die uitgebreide (vraag, testgeval) paren genereert uit bestaande codegegevens. Met behulp van deze testgevallen construeren we voorkeursparen op basis van slaagpercentages over bemonsterde programma's om beloningsmodellen te trainen met Bradley-Terry verlies. Het toont een gemiddelde verbetering van 10 punten voor Llama-3.1-8B-Ins en 5 punten voor Qwen2.5-Coder-7B-Ins via best-of-32 bemonstering, waardoor het 7B-model op gelijke voet komt te staan met 236B DeepSeek-V2.5. Bovendien voeren we versterkend leren uit met zowel beloningsmodellen als testgevalslaagbeloningen, resulterend in consistente verbeteringen over HumanEval, MBPP, BigCodeBench, en LiveCodeBench (V4). Opmerkelijk is dat we de R1-stijl training volgen om direct vanaf Qwen2.5-Coder-base te beginnen en laten zien dat onze RL-training het model op HumanEval-plus met meer dan 25% kan verbeteren en op MBPP-plus met 6% met slechts 80 optimalisatiestappen. Wij geloven dat onze resultaten het enorme potentieel van versterkend leren in codeermodellen benadrukken.
Het leren van diffusiebrugmodellen is eenvoudig; ze snel en praktisch maken is een kunst. Diffusiebrugmodellen (DBM's) vormen een veelbelovende uitbreiding van diffusiemarkten voor toepassingen in beeld-naar-beeldvertaling. Echter, net als veel moderne diffusie- en stroommodellen, hebben DBM's last van het probleem van trage inferentie. Om dit aan te pakken, stellen we een nieuwe distillatietechniek voor op basis van de formulering van omgekeerde brugovereenkomst en leiden we het haalbare doel af om het in de praktijk op te lossen. In tegenstelling tot eerder ontwikkelde DBM-distillatietechnieken, kan de voorgestelde methode zowel conditionele als onvoorwaardelijke typen DBM's distilleren, modellen distilleren in een generator in één stap, en alleen de beschadigde afbeeldingen gebruiken voor training. We evalueren onze aanpak voor zowel conditionele als onvoorwaardelijke typen brugovereenkomsten in een breed scala van opstellingen, waaronder superresolutie, JPEG-herstel, schets-naar-afbeelding en andere taken, en tonen aan dat onze distillatietechniek ons in staat stelt de inferentie van DBM's te versnellen van 4x tot 100x en zelfs een betere generatiekwaliteit te bieden dan het gebruikte docentmodel, afhankelijk van de specifieke opstelling.
Grote taalmodellen (LLM's) hebben opmerkelijke redeneervermogens aangetoond over diverse domeinen. Recente studies hebben aangetoond dat het verhogen van de rekentijd tijdens testen de redeneervermogens van LLM's verbetert. Dit houdt meestal uitgebreide steekproeven in tijdens de inferentie, geleid door een externe LLM-verificateur, wat resulteert in een tweespelersysteem. Ondanks externe begeleiding toont de effectiviteit van dit systeem het potentieel van een enkel LLM om complexe taken aan te pakken. Daarom stellen we een nieuw onderzoeksprobleem voor: Kunnen we de zoekmogelijkheden internaliseren om fundamenteel de redeneervaardigheden van een enkel LLM te verbeteren? Dit werk verkent een orthogonale richting die zich richt op post-training LLM's voor autoregressief zoeken (dat wil zeggen, een uitgebreid redeneerproces met zelfreflectie en zelfverkenning van nieuwe strategieën). Om dit te bereiken, stellen we de Chain-of-Action-Thought (COAT) redenering voor en een tweefasig trainingsparadigma: 1) een kleinschalige opmaakafstemmingsfase om de COAT redeneeropmaak te internaliseren en 2) een grootschalige zelfverbeteringsfase die gebruikmaakt van reinforcement learning. Onze benadering resulteert in Satori, een 7B LLM getraind op open-source modellen en data. Uitgebreide empirische evaluaties tonen aan dat Satori state-of-the-art prestaties behaalt op wiskundige redeneerbenchmarks en sterke generalisatie vertoont naar taken buiten het domein. Code, data en modellen zullen volledig open-source worden gemaakt.
Taalagenten zijn een veelbelovende oplossing geworden voor complexe interactieve taken. Een van de belangrijkste ingrediënten voor het succes van taalagenten is het beloningsmodel op de traject van de agentische workflow, dat waardevolle begeleiding biedt tijdens training of inferentie. Vanwege het gebrek aan annotaties van tussenliggende interacties gebruiken de meeste bestaande werken echter een uitkomstbeloningsmodel om beleidslijnen te optimaliseren over hele trajecten. Dit kan leiden tot suboptimale beleidslijnen en de algehele prestaties belemmeren. Om dit aan te pakken, stellen we QLASS (Q-geleide Taalagent Stapsgewijze Zoektocht) voor, om automatisch annotaties te genereren door Q-waarden stapsgewijs te schatten voor open taalagenten. Door een redeneringsboom te introduceren en procesbeloningsmodellering uit te voeren, biedt QLASS effectieve tussenliggende begeleiding voor elke stap. Met de stapsgewijze begeleiding stellen we een Q-geleide generatiestrategie voor om taalagenten in staat te stellen zich beter aan te passen aan langetermijnwaarde, resulterend in aanzienlijke prestatieverbetering tijdens modelinferentie op complexe interactieve agenttaken. Opmerkelijk is dat, zelfs met bijna de helft van de geannoteerde gegevens, QLASS sterke prestaties behoudt, wat de efficiëntie ervan in het omgaan met beperkt toezicht aantoont. We tonen ook empirisch aan dat QLASS kan leiden tot effectievere besluitvorming door kwalitatieve analyse. We zullen onze code en gegevens vrijgeven.
Deze paper onderzoekt een onderbelichte uitdaging in grote taalmodellen (LLM's): de impact van KV-cachecompressiemethoden op de fundamentele mogelijkheden van LLM's. Hoewel bestaande methoden indrukwekkende compressieverhoudingen behalen op benchmarks met lange context, blijven hun effecten op de kernmogelijkheden van het model onderbelicht. We presenteren een uitgebreide empirische studie waarin prominente KV-cachecompressiemethoden worden geëvalueerd over diverse taken, variërend van wereldkennis, gezond verstand redeneren, rekenkundig redeneren, codegeneratie, veiligheid, en begrip en generatie van lange context. Onze analyse onthult dat KV-cachecompressiemethoden taakspecifieke prestatievermindering vertonen. Rekenkundige redeneertaken blijken bijzonder gevoelig te zijn voor agressieve compressie, waarbij verschillende methoden prestatiedalingen van 17,4% - 43,3% tonen. Opmerkelijk is dat het DeepSeek R1 Distill-model een robuustere compressietolerantie vertoont in vergelijking met op instructies afgestemde modellen, waarbij slechts 9,67% - 25,53% prestatievermindering wordt waargenomen. Op basis van onze analyse van aandachtspatronen en prestaties van compressie over taken heen, stellen we ShotKV voor, een nieuwe compressiebenadering die op een onderscheidende manier prefill- en decoderingsfasen behandelt terwijl het semantische coherentie op shot-niveau behoudt. Empirische resultaten tonen aan dat ShotKV 9% - 18% prestatieverbeteringen behaalt bij taken voor het genereren van lange context onder agressieve compressieverhoudingen.
Het combineren van uitvoer van diverse bronnen is een eenvoudige maar effectieve aanpak om de prestaties te verbeteren. Mixture-of-Agents (MoA) is zo'n populaire ensemble methode die uitvoer van meerdere verschillende Grote Taalmodellen (GTM's) samenbrengt. Dit artikel werpt de vraag op in de context van taalmodellen: is het mengen van verschillende GTM's werkelijk voordelig? Wij stellen Self-MoA voor - een ensemble methode die uitvoer van alleen het best presterende GTM samenbrengt. Onze uitgebreide experimenten tonen aan dat, verrassend genoeg, Self-MoA beter presteert dan standaard MoA die verschillende GTM's mengt in een groot aantal scenario's: Self-MoA behaalt een verbetering van 6,6% ten opzichte van MoA op de AlpacaEval 2.0 benchmark, en een gemiddelde verbetering van 3,8% over verschillende benchmarks, waaronder MMLU, CRUX en MATH. Door Self-MoA toe te passen op een van de best presterende modellen in AlpacaEval 2.0 behalen we direct de nieuwe state-of-the-art prestatie op het scorebord. Om de effectiviteit van Self-MoA te begrijpen, onderzoeken we systematisch de afweging tussen diversiteit en kwaliteit van uitvoer onder verschillende MoA-instellingen. We bevestigen dat de prestatie van MoA nogal gevoelig is voor de kwaliteit, en dat het mengen van verschillende GTM's vaak de gemiddelde kwaliteit van de modellen verlaagt. Als aanvulling op de studie introduceren we een sequentiële versie van Self-MoA, die in staat is om een groot aantal GTM-uitvoer on-the-fly samen te brengen over meerdere rondes, en even effectief is als het samenbrengen van alle uitvoer in één keer.
Ondanks de opmerkelijke vooruitgang in tekst-naar-afbeelding generatieve modellen, zijn ze vatbaar voor aanvallen van tegenstanders en genereren ze onbedoeld onveilige, onethische inhoud. Bestaande benaderingen vertrouwen vaak op het fijnafstemmen van modellen om specifieke concepten te verwijderen, wat rekenkundig duur is, niet schaalbaar is en/of ten koste gaat van de generatiekwaliteit. In dit werk stellen we een nieuw raamwerk voor dat gebruikmaakt van k-sparse auto-encoders (k-SAE's) om efficiënte en interpreteerbare conceptmanipulatie in diffusiemodellen mogelijk te maken. Specifiek identificeren we eerst interpreteerbare monosemante concepten in de latente ruimte van tekst-embeddings en gebruiken we ze om de generatie precies af te leiden van of naar een bepaald concept (bijv. naaktheid) of om een nieuw concept te introduceren (bijv. fotografische stijl). Via uitgebreide experimenten tonen we aan dat onze aanpak zeer eenvoudig is, geen hertraining van het basismodel of LoRA-adapters vereist, de generatiekwaliteit niet in gevaar brengt en bestand is tegen manipulaties van tegenstanders. Onze methode leidt tot een verbetering van 20,01% in het verwijderen van onveilige concepten, is effectief in stijlmanipulatie en is 5 keer sneller dan de huidige state-of-the-art.
Sampling-based search, een eenvoudig paradigma voor het benutten van rekenkracht op testtijd, omvat het genereren van meerdere kandidaatreacties en het selecteren van de beste - meestal door elke reactie te verifiëren op juistheid. In dit artikel bestuderen we de schalingstrends die sampling-based search beheersen. Een van onze bevindingen is dat door eenvoudigweg een minimalistische implementatie op te schalen die alleen willekeurige steekproeven en directe zelfverificatie gebruikt, resulteert in voortdurende prestatieverbeteringen die bijvoorbeeld de redeneervermogens van het Gemini v1.5 Pro-model verhogen voorbij die van o1-Preview op populaire benchmarks. We schrijven de schaalbaarheid van sampling-based search gedeeltelijk toe aan een fenomeen van impliciete schaling, waarbij het nemen van een grotere pool van reacties op zijn beurt de verificatienauwkeurigheid verbetert. We identificeren ook twee nuttige principes voor het verbeteren van zelfverificatiemogelijkheden met rekenkracht op testtijd: (1) het vergelijken van reacties levert nuttige signalen op over de locaties van fouten en hallucinaties, en (2) verschillende modeloutputstijlen zijn nuttig voor verschillende contexten - gedachtegangen zijn nuttig voor redeneren maar moeilijker te verifiëren. We constateren ook dat, hoewel nauwkeurige verificatie kan worden verkregen, frontier-modellen opmerkelijk zwakke out-of-box verificatiemogelijkheden vertonen en introduceren een benchmark om vooruitgang te meten op deze tekortkomingen.
Dit artikel introduceert de COCONut-PanCap dataset, gecreëerd om panoptische segmentatie en op feiten gebaseerde afbeeldingbijschriften te verbeteren. Voortbouwend op de COCO dataset met geavanceerde COCONut panoptische maskers, heeft deze dataset tot doel beperkingen in bestaande afbeelding-tekst datasets te overwinnen die vaak gedetailleerde, allesomvattende beschrijvingen missen. De COCONut-PanCap dataset omvat fijnmazige, op regio-niveau bijschriften gebaseerd op panoptische segmentatie maskers, wat consistentie waarborgt en de gedetailleerdheid van gegenereerde bijschriften verbetert. Door menselijk bewerkte, dicht becommentarieerde beschrijvingen ondersteunt COCONut-PanCap verbeterde training van visie-taal modellen (VLMs) voor beeldbegrip en generatieve modellen voor tekst-naar-afbeelding taken. Experimentele resultaten tonen aan dat COCONut-PanCap de prestaties aanzienlijk verbetert over begrip- en generatietaken, met aanvullende voordelen voor grootschalige datasets. Deze dataset stelt een nieuwe norm voor het evalueren van modellen op gezamenlijke panoptische segmentatie en op feiten gebaseerde bijschrifttaken, waarbij wordt ingegaan op de behoefte aan hoogwaardige, gedetailleerde afbeelding-tekst annotaties in multimodaal leren.
Het creëren van Computer-Ondersteund Ontwerp (CAD) modellen vereist aanzienlijke expertise en inspanning. Tekst-naar-CAD, dat tekstuele beschrijvingen omzet in CAD-parametrische sequenties, is cruciaal om dit proces te stroomlijnen. Recente studies hebben gebruik gemaakt van grondwaarheid parametrische sequenties, bekend als opeenvolgende signalen, als toezicht om dit doel te bereiken. Echter, CAD-modellen zijn inherent multimodaal, bestaande uit parametrische sequenties en bijbehorende weergegeven visuele objecten. Bovendien is het renderingsproces van parametrische sequenties naar visuele objecten veel-op-een. Daarom zijn zowel opeenvolgende als visuele signalen cruciaal voor effectieve training. In dit werk introduceren we CADFusion, een framework dat Grote Taalmodellen (LLM's) als basis gebruikt en afwisselt tussen twee trainingsfasen: de opeenvolgende leerfase (SL) en de visuele feedbackfase (VF). In de SL-fase trainen we LLM's met behulp van grondwaarheid parametrische sequenties, waardoor de generatie van logisch coherente parametrische sequenties mogelijk wordt. In de VF-fase belonen we parametrische sequenties die renderen tot visueel geprefereerde objecten en straffen we die dat niet doen, waardoor LLM's leren hoe weergegeven visuele objecten worden waargenomen en geëvalueerd. Deze twee fasen wisselen elkaar af tijdens de training, waarbij evenwichtig leren wordt gegarandeerd en voordelen van beide signalen behouden blijven. Experimenten tonen aan dat CADFusion de prestaties aanzienlijk verbetert, zowel kwalitatief als kwantitatief.
Het aanpassen van tekst-naar-afbeelding modellen stelt gebruikers in staat om aangepaste concepten in te voegen en de concepten te genereren in ongeziene omgevingen. Bestaande methoden vertrouwen ofwel op kostbare optimalisatie tijdens de testfase of trainen encoders op enkelvoudige afbeelding-trainingsdatasets zonder supervisie van meerdere afbeeldingen, wat resulteert in een lagere beeldkwaliteit. Wij stellen een eenvoudige benadering voor die beide beperkingen aanpakt. We maken eerst gebruik van bestaande tekst-naar-afbeelding modellen en 3D-datasets om een hoogwaardige Synthetische Aanpassingsdataset (SynCD) te creëren, bestaande uit meerdere afbeeldingen van hetzelfde object in verschillende belichtingen, achtergronden en poses. Vervolgens stellen we een nieuwe encoderarchitectuur voor op basis van gedeelde aandachtsmechanismen die fijnmazige visuele details van invoerafbeeldingen beter opnemen. Ten slotte stellen we een nieuwe inferentietechniek voor die overbelichtingsproblemen tijdens inferentie vermindert door normalisatie van de tekst- en afbeeldingsbegeleidingsvectoren. Via uitgebreide experimenten tonen we aan dat ons model, getraind op de synthetische dataset met de voorgestelde encoder en inferentiealgoritme, beter presteert dan bestaande afstemmingsvrije methoden op standaard aanpassingsbenchmarks.
Het fine-tunen van grote taalmodellen (LLM's) op apparaten trekt steeds meer interesse. Recente werken hebben lage-rang aanpassingstechnieken (LoRA) gecombineerd met gefedereerd fine-tunen om uitdagingen met betrekking tot de grootte van apparaatmodellen en gegevensschaarste te verminderen. Toch blijft de heterogeniteit van computationele middelen een kritieke bottleneck: terwijl modules met hogere rang over het algemeen de prestaties verbeteren, beperken variërende apparaatmogelijkheden het haalbare rangbereik van LoRA. Bestaande benaderingen die proberen dit probleem op te lossen, ontberen ofwel analytische rechtvaardiging of leggen extra computationele overhead op, waardoor er een grote ruimte is voor een efficiënte en theoretisch gefundeerde oplossing. Om deze uitdagingen aan te pakken, stellen we federated sketching LoRA (FSLoRA) voor, dat een schetsmechanisme benut om apparaten in staat te stellen selectief submatrices van wereldwijde LoRA-modules bij te werken die worden onderhouden door de server. Door de schetsverhoudingen aan te passen, die de rangen van de submatrices op de apparaten bepalen, past FSLoRA zich flexibel aan aan apparaatspecifieke communicatie- en computationele beperkingen. We bieden een rigoureuze convergentieanalyse van FSLoRA die karakteriseert hoe de schetsverhoudingen de convergentiesnelheid beïnvloeden. Door uitgebreide experimenten op meerdere datasets en LLM-modellen tonen we aan dat FSLoRA superieure prestaties levert in vergelijking met verschillende baselines.
Grote Taalmodellen (LLM's) hebben opmerkelijke capaciteiten laten zien in verschillende domeinen. Met de evoluerende capaciteiten en uitbreidende inzetscenario's van LLM's nemen de uitdagingen bij implementatie toe vanwege hun enorme omvang en de geavanceerde maar complexe activatieontwerpen die gangbaar zijn in opmerkelijke modelseries, zoals Llama, Gemma en Mistral. Deze uitdagingen zijn met name merkbaar in implementaties met beperkte middelen, waar het verminderen van efficiëntieknelpunten bij inferentie van essentieel belang is. Onder verschillende recente inspanningen is activatiebenadering naar voren gekomen als een veelbelovende weg om inferentie-efficiëntie na te streven, soms beschouwd als onmisbaar in toepassingen zoals privé-inferentie. Ondanks aanzienlijke versnellingen te behalen met minimale impact op bruikbaarheid, en zelfs klinkend en praktisch voor implementatie in de echte wereld, blijven de veiligheidsimplicaties van activatiebenaderingen onduidelijk. In dit werk vullen we deze kritieke lacune in de veiligheid van LLM's aan door de eerste systematische veiligheidsevaluatie van activatiebenaderingen uit te voeren. Onze veiligheidsbeoordeling omvat zeven state-of-the-art technieken in drie populaire categorieën, waarbij consistente veiligheidsdegradatie wordt onthuld over tien veiligheidsgerichte LLM's.