Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Test-tijd schalen is een veelbelovende nieuwe benadering voor taalmodellering die extra rekenkracht gebruikt tijdens het testen om de prestaties te verbeteren. Onlangs toonde het o1-model van OpenAI deze mogelijkheid, maar de methodologie werd niet openbaar gedeeld, wat heeft geleid tot vele replicatiepogingen. We streven naar de eenvoudigste aanpak om test-tijd schalen en sterke redeneerprestaties te behalen. Ten eerste stellen we een kleine dataset s1K samen van 1.000 vragen gekoppeld aan redeneersporen, gebaseerd op drie criteria die we valideren via ablaties: moeilijkheid, diversiteit en kwaliteit. Ten tweede ontwikkelen we budgetdwang om de test-tijd rekenkracht te beheersen door het denkproces van het model krachtig te beëindigen of te verlengen door meerdere keren "Wachten" toe te voegen aan de gegenereerde tekst van het model wanneer het probeert te eindigen. Dit kan het model ertoe brengen om zijn antwoord te controleren, vaak onjuiste redeneerstappen corrigerend. Na het toezicht houden op de fijnafstemming van het Qwen2.5-32B-Instruct-taalmodel op s1K en het uitrusten met budgetdwang, overtreft ons model s1 o1-preview op wiskundige vragen in wedstrijden met maximaal 27% (MATH en AIME24). Verder maakt het schalen van s1 met budgetdwang extrapolatie mogelijk voorbij zijn prestaties zonder test-tijd interventie: van 50% naar 57% op AIME24. Ons model, data en code zijn open-source op https://github.com/simplescaling/s1.
We introduceren Reward-Guided Speculative Decoding (RSD), een nieuw raamwerk gericht op het verbeteren van de efficiëntie van inferentie in grote taalmodellen (LLMs). RSD combineert op synergetische wijze een lichtgewicht conceptmodel met een krachtiger doelmodel, waarbij een gecontroleerde bias wordt toegepast om uitvoer met hoge beloningen prioriteit te geven, in tegenstelling tot bestaande speculatieve decodeermethoden die strikte onbevooroordeeldheid afdwingen. RSD maakt gebruik van een procesbeloningsmodel om tussenliggende decodeerstappen te evalueren en dynamisch te beslissen of het doelmodel moet worden ingeroepen, waarbij de afweging tussen rekenkundige kosten en uitvoerkwaliteit wordt geoptimaliseerd. We tonen theoretisch aan dat een op drempel gebaseerde mengstrategie een optimale balans bereikt tussen het gebruik van middelen en prestaties. Uitgebreide evaluaties op uitdagende redeneerbenchmarks, waaronder taken op Olympisch niveau, tonen aan dat RSD aanzienlijke efficiëntiewinsten oplevert ten opzichte van decoderen met alleen het doelmodel (tot 4,4x minder FLOPs), terwijl het significant betere nauwkeurigheid behaalt dan de parallelle decodeermethode gemiddeld (tot +3,5). Deze resultaten benadrukken RSD als een robuuste en kosteneffectieve benadering voor het implementeren van LLMs in scenario's met veel middelen.
Auxiliary-free menselijke video-matting methoden, die uitsluitend vertrouwen op invoerframes, hebben vaak moeite met complexe of dubbelzinnige achtergronden. Om dit aan te pakken, stellen we MatAnyone voor, een robuust framework dat is afgestemd op doelgericht video-matting. Specifiek, voortbouwend op een op geheugen gebaseerd paradigma, introduceren we een consistente geheugenpropagatiemodule via regio-adaptieve geheugenfusie, die adaptief geheugen van het vorige frame integreert. Dit zorgt voor semantische stabiliteit in kernregio's terwijl fijne details langs objectgrenzen behouden blijven. Voor robuuste training presenteren we een grotere, hoogwaardige en diverse dataset voor video-matting. Daarnaast nemen we een nieuw trainingsstrategie op die efficiënt gebruikmaakt van grootschalige segmentatiedata, waardoor de mattingstabiliteit wordt verhoogd. Met deze nieuwe netwerkontwerp, dataset en trainingsstrategie levert MatAnyone robuuste en nauwkeurige video-mattingresultaten op in diverse real-world scenario's, waarbij bestaande methoden worden overtroffen.
Vanwege de natuurlijke kloof tussen de structuren van Kennisgrafieken (KG) en natuurlijke taal, is de effectieve integratie van holistische structurele informatie van KG's met Grote Taalmodellen (LLM's) naar voren gekomen als een belangrijke vraagstelling. Met dit doel stellen we een tweefasenraamwerk voor om gekwantiseerde codes te leren en toe te passen voor elk entiteit, met als doel de naadloze integratie van KG's met LLM's. Allereerst wordt een zelf-superviserende gekwantiseerde representatiemethode (SSQR) voorgesteld om zowel structurele als semantische kennis van KG's samen te drukken in discrete codes (d.w.z., tokens) die overeenkomen met de opmaak van taalzinnen. We ontwerpen verder KG instructievolggegevens door deze geleerde codes te beschouwen als kenmerken die rechtstreeks aan LLM's worden ingevoerd, waardoor naadloze integratie wordt bereikt. De experimentele resultaten tonen aan dat SSQR beter presteert dan bestaande ongesuperviseerde gekwantiseerde methoden, waarbij meer onderscheidende codes worden geproduceerd. Bovendien hebben de fijnafgestemde LLaMA2 en LLaMA3.1 ook superieure prestaties op KG koppelingsvoorspelling en drievoudige classificatietaken, waarbij slechts 16 tokens per entiteit worden gebruikt in plaats van duizenden in conventionele prompting-methoden.
Het maximale element van de vector die wordt uitgevoerd door de Softmax-functie nadert nul naarmate de grootte van de invoector toeneemt. Op transformer-gebaseerde taalmodellen vertrouwen op Softmax om aandachtscores te berekenen, wat leidt tot een vlakkere aandachtsverdeling naarmate de contextgrootte toeneemt. Dit vermindert het vermogen van het model om effectief belangrijke informatie te prioriteren en beperkt mogelijk de generalisatie van de lengte. Om dit probleem aan te pakken, stellen we Scalable-Softmax (SSMax) voor, die Softmax vervangt in scenario's waar de grootte van de invoector varieert. SSMax kan naadloos worden geïntegreerd in bestaande op transformer gebaseerde architecturen. Experimentele resultaten in taalmodellering tonen aan dat modellen die SSMax gebruiken niet alleen sneller verliesvermindering bereiken tijdens pretraining, maar ook aanzienlijk betere prestaties leveren in lange contexten en bij het ophalen van belangrijke informatie. Bovendien onthult een analyse van aandachtscores dat SSMax het model in staat stelt de aandacht te richten op belangrijke informatie, zelfs in lange contexten. Bovendien kunnen modellen die vanaf het begin van de pretraining SSMax gebruiken betere lengtegeneralisatie bereiken, terwijl diegenen die al zijn begonnen met pretraining nog steeds enigszins deze mogelijkheid kunnen verkrijgen door Softmax in de aandachtlagen te vervangen door SSMax, zowel tijdens als na pretraining.
Bestaande foundation-modellen verwerken visuele input doorgaans als pixels en tekstuele input als tokens, een paradigma dat contrasteert met menselijke perceptie, waar beide modaliteiten op een geünificeerde manier worden verwerkt. Met de opkomst van belichaamde en agentieke AI, waarbij input voornamelijk afkomstig is van camerapixels, wordt de behoefte aan een geünificeerd perceptiekader steeds duidelijker. In dit artikel stellen we voor om alle modaliteiten (tekst, tabellen, code, diagrammen, afbeeldingen, enz.) te unificeren als pixel-inputs, d.w.z. "Alles waarnemen als Pixels" (PEAP). We introduceren PixelWorld, een nieuw evaluatiepakket dat alle genoemde modaliteiten in pixelruimte verenigt om de prestaties van bestaande modellen te meten. Onze bevindingen tonen aan dat (1) PEAP beter presteert dan de basislijn met op tokens gebaseerde input in multimodale datasets, profiterend van geünificeerde input voor betere disambiguatie, (2) significante afnames in redeneer- en codeervaardigheden bij alle modellen bij verwerking van pixel-gebaseerde input, waarbij de noodzaak wordt benadrukt om de perceptuele vaardigheden van foundation-modellen te verbeteren, (3) grotere modellen sterke prestaties kunnen behouden op niet-redenerende taken onder PEAP, terwijl kleinere modellen zoals Phi-3.5-V aanzienlijke prestatievermindering ondervinden, (4) het aandachtspatroon van PEAP sterk overeenkomt met tekst-token-input, (5) PEAP aanzienlijk kan worden versneld door gebruik te maken van de ruimtelijke spaarzaamheid. We concluderen dat de bestaande frontier-modellen bekwaam zijn in pixelwaarneming, echter, er is nog ruimte voor verbetering. Onze code, dataset zal worden vrijgegeven bij acceptatie.
Het vermogen om toekomstige uitkomsten te voorspellen gegeven controleacties is fundamenteel voor fysisch redeneren. Echter, dergelijke voorspellende modellen, vaak wereldmodellen genoemd, blijken moeilijk te leren te zijn en worden typisch ontwikkeld voor opgavespecifieke oplossingen met online beleidsleren. Wij betogen dat het ware potentieel van wereldmodellen ligt in hun vermogen om te redeneren en plannen over diverse problemen met enkel passieve data. Concreet vereisen we dat wereldmodellen de volgende drie eigenschappen hebben: 1) trainbaar zijn op offline, vooraf verzamelde trajecten, 2) ondersteuning bieden voor gedragsoptimalisatie op testtijd, en 3) taakagnostisch redeneren vergemakkelijken. Om dit te verwezenlijken, presenteren we DINO World Model (DINO-WM), een nieuwe methode om visuele dynamiek te modelleren zonder de visuele wereld te reconstrueren. DINO-WM maakt gebruik van ruimtelijke patchkenmerken die vooraf zijn getraind met DINOv2, waardoor het kan leren van offline gedragstrajecten door toekomstige patchkenmerken te voorspellen. Deze opzet stelt DINO-WM in staat om observationele doelen te bereiken door actiesequentie-optimalisatie, wat taakagnostisch gedragplannen vergemakkelijkt door gewenste doelpatchkenmerken als voorspellingsdoelen te behandelen. We evalueren DINO-WM over verschillende domeinen, waaronder doolhofnavigatie, tafelverplaatsing en deeltjesmanipulatie. Onze experimenten tonen aan dat DINO-WM nul-shot gedragsoplossingen kan genereren op testtijd zonder te vertrouwen op expertdemonstraties, beloningsmodellering of vooraf geleerde inverse modellen. Opmerkelijk vertoont DINO-WM sterke generalisatievermogens in vergelijking met eerder state-of-the-art werk, waarbij het zich aanpast aan diverse taakfamilies zoals willekeurig geconfigureerde doolhoven, duwmanipulatie met gevarieerde objectvormen, en multipartikel scenario's.
Grote taalmodellen (LLM's) zijn kwetsbaar voor universele jailbreaks, waarbij strategieën systematisch modelbeveiligingen omzeilen en gebruikers in staat stellen schadelijke processen uit te voeren die veel modelinteracties vereisen, zoals het produceren van illegale stoffen op grote schaal. Om zich te verdedigen tegen deze aanvallen, introduceren we Constitutionele Classificeerders: beveiligingen getraind op synthetische gegevens, gegenereerd door LLM's te stimuleren met natuurlijke taalregels (d.w.z. een grondwet) die toegestane en beperkte inhoud specificeren. In meer dan 3.000 geschatte uren van red teaming vond geen enkele red teamer een universele jailbreak die informatie kon extraheren uit een vroeg door een classifier bewaakt LLM op een vergelijkbaar detailniveau als een onbeschermd model voor de meeste doelzoekopdrachten. Bij geautomatiseerde evaluaties toonden verbeterde classificeerders een robuuste verdediging tegen domain-specifieke jailbreaks die werden achtergehouden. Deze classificeerders behouden ook implementatie levensvatbaarheid, met een absolute toename van 0,38% in weigeringen van productieverkeer en een 23,7% inferentie-overhead. Ons werk toont aan dat verdedigen tegen universele jailbreaks terwijl praktische implementatie levensvatbaarheid behouden blijft, haalbaar is.
Diffusiemodellen, hoewel krachtig, kunnen onbedoeld schadelijke of ongewenste inhoud genereren, wat aanzienlijke ethische en veiligheidszorgen met zich meebrengt. Recente machine-unlearningbenaderingen bieden mogelijke oplossingen, maar missen vaak transparantie, waardoor het moeilijk is om de veranderingen die ze aanbrengen in het basismodel te begrijpen. In dit werk introduceren we SAeUron, een nieuw methodiek die gebruikmaakt van kenmerken die zijn geleerd door schaarse auto-encoders (SAE's) om ongewenste concepten in tekst-naar-afbeelding diffusiemodellen te verwijderen. Allereerst tonen we aan dat SAE's, op een onbewaakte manier getraind op activaties van meerdere denoising tijdstappen van het diffusiemodel, spaarzame en interpreteerbare kenmerken vastleggen die overeenkomen met specifieke concepten. Voortbouwend hierop stellen we een kenmerkselectiemethode voor die precieze interventies op modelactivaties mogelijk maakt om gerichte inhoud te blokkeren terwijl de algehele prestaties behouden blijven. Evaluatie met de competitieve UnlearnCanvas benchmark op object- en stijlunlearning benadrukt de state-of-the-art prestaties van SAeUron. Bovendien laten we zien dat we met een enkele SAE meerdere concepten tegelijk kunnen verwijderen en dat SAeUron, in tegenstelling tot andere methoden, de mogelijkheid om ongewenste inhoud te genereren, zelfs onder een aanval van een tegenstander, vermindert. Code en checkpoints zijn beschikbaar op: https://github.com/cywinski/SAeUron.
We laten zien dat leersnelheidsschema's voor het trainen van grote modellen zich verrassend vergelijkbaar gedragen met een prestatiegebonden uit de theorie van niet-gladde convexe optimalisatie. We geven een grens voor het constante schema met lineaire afkoeling; in het bijzonder wordt het praktische voordeel van afkoeling weerspiegeld in de grens door het ontbreken van logaritmische termen. Verder tonen we aan dat deze verrassend nauwe overeenkomst tussen optimalisatietheorie en praktijk kan worden benut voor het afstemmen van leersnelheden: we behalen merkbare verbeteringen voor het trainen van 124M en 210M Llama-type modellen door (i) het uitbreiden van het schema voor voortgezette training met optimale leersnelheid, en (ii) het overdragen van de optimale leersnelheid tussen schema's.
Huidige methoden voor 3D-scene reconstructie van schaarse geposeerde afbeeldingen maken gebruik van tussenliggende 3D representaties zoals neurale velden, voxelrasters of 3D-Gaussianen, om een consistente scene verschijning en geometrie vanuit meerdere gezichtspunten te bereiken. In dit artikel introduceren we MVGD, een op diffusie gebaseerde architectuur die in staat is om direct op pixelniveau afbeeldingen en dieptekaarten te genereren vanuit nieuwe gezichtspunten, gegeven een willekeurig aantal invoerweergaven. Onze methode maakt gebruik van raymap-conditionering om zowel visuele kenmerken aan te vullen met ruimtelijke informatie vanuit verschillende gezichtspunten, als om de generatie van afbeeldingen en dieptekaarten van nieuwe gezichtspunten te sturen. Een belangrijk aspect van onze benadering is de multi-task generatie van afbeeldingen en dieptekaarten, waarbij leerzame taak-embeddings worden gebruikt om het diffusieproces naar specifieke modaliteiten te sturen. We trainen dit model op een verzameling van meer dan 60 miljoen multi-view monsters uit openbaar beschikbare datasets, en stellen technieken voor om efficiënt en consistent leren in dergelijke diverse omstandigheden mogelijk te maken. We stellen ook een nieuwe strategie voor die het efficiënt trainen van grotere modellen mogelijk maakt door incrementele verfijning van kleinere modellen, met veelbelovend schaalgedrag. Via uitgebreide experimenten rapporteren we state-of-the-art resultaten in meerdere benchmarks voor synthese van nieuwe gezichtspunten, evenals multi-view stereo en video diepteschatting.
We voeren experimenten uit naar de impact van het verhogen van de rekentijd voor inferentie in redeneermodellen (specifiek OpenAI o1-preview en o1-mini) op hun robuustheid tegen aanvallen van kwaadwillende partijen. We constateren dat bij verschillende aanvallen een toename van de rekentijd voor inferentie leidt tot verbeterde robuustheid. In veel gevallen (met belangrijke uitzonderingen) neigt het percentage modelvoorbeelden waar de aanval slaagt naar nul naarmate de hoeveelheid testtijd-rekenkracht toeneemt. We voeren geen training uit voor kwaadwillende aanvallen voor de taken die we bestuderen, en we verhogen de rekentijd voor inferentie eenvoudigweg door de modellen meer rekentijd te laten besteden aan redeneren, onafhankelijk van de vorm van de aanval. Onze resultaten suggereren dat rekentijd voor inferentie het potentieel heeft om de robuustheid tegen kwaadwillende aanvallen te verbeteren voor Grote Taalmodellen. We verkennen ook nieuwe aanvallen gericht op redeneermodellen, evenals situaties waarin rekentijd voor inferentie de betrouwbaarheid niet verbetert, en speculeren over de redenen hiervoor en manieren om hiermee om te gaan.
Gezien de recente introductie van meerdere taalmodellen en de voortdurende vraag naar verbeterde taken voor natuurlijke taalverwerking, met name samenvattingen, biedt dit werk een uitgebreide benchmark van 20 recente taalmodellen, met de nadruk op kleinere modellen voor de taak van nieuws-samenvattingen. In dit werk testen we systematisch de mogelijkheden en effectiviteit van deze modellen bij het samenvatten van nieuwsartikelteksten die in verschillende stijlen zijn geschreven en worden gepresenteerd in drie verschillende datasets. Specifiek richten we ons in deze studie op zero-shot en few-shot leersituaties en passen we een robuuste evaluatiemethodologie toe die verschillende evaluatieconcepten combineert, waaronder automatische metrieken, menselijke evaluatie en LLM-als-beoordelaar. Interessant genoeg verbeterden demonstratievoorbeelden in de few-shot leersituatie de prestaties van de modellen niet en leidden in sommige gevallen zelfs tot een slechtere kwaliteit van de gegenereerde samenvattingen. Dit probleem ontstaat voornamelijk door de lage kwaliteit van de gouden samenvattingen die zijn gebruikt als referentiesamenvattingen, wat een negatieve invloed heeft op de prestaties van de modellen. Bovendien benadrukken de resultaten van onze studie de uitzonderlijke prestaties van GPT-3.5-Turbo en GPT-4, die over het algemeen domineren vanwege hun geavanceerde mogelijkheden. Onder de geëvalueerde openbare modellen vertoonden bepaalde modellen zoals Qwen1.5-7B, SOLAR-10.7B-Instruct-v1.0, Meta-Llama-3-8B en Zephyr-7B-Beta veelbelovende resultaten. Deze modellen toonden aanzienlijk potentieel, waardoor ze zich positioneren als competitieve alternatieven voor grote modellen voor de taak van nieuws-samenvattingen.
Deze paper behandelt de langdurige uitdaging van het reconstrueren van 3D-structuren uit video's met dynamische inhoud. Huidige benaderingen van dit probleem waren niet ontworpen om te werken met informele video's opgenomen met standaard camera's of vereisen een lange optimalisatietijd. Met als doel de efficiëntie van eerdere benaderingen aanzienlijk te verbeteren, presenteren we TracksTo4D, een op leren gebaseerde benadering die het afleiden van 3D-structuur en cameraposities mogelijk maakt uit dynamische inhoud afkomstig van informele video's met behulp van een enkele efficiënte feedforward-pass. Om dit te bereiken, stellen we voor om rechtstreeks te werken met 2D-punttracks als invoer en een architectuur te ontwerpen die is afgestemd op het verwerken van 2D-punttracks. Onze voorgestelde architectuur is ontworpen met twee belangrijke principes in gedachten: (1) het houdt rekening met de inherente symmetrieën in de invoergegevens van de punttracks, en (2) het gaat ervan uit dat de bewegingspatronen effectief kunnen worden gerepresenteerd met een lage-rangbenadering. TracksTo4D wordt ongesuperviseerd getraind op een dataset van informele video's met behulp van alleen de 2D-punttracks die zijn geëxtraheerd uit de video's, zonder enige 3D-begeleiding. Onze experimenten tonen aan dat TracksTo4D een tijdelijke puntenwolk en cameraposities van de onderliggende video kan reconstrueren met een nauwkeurigheid die vergelijkbaar is met methoden van het hoogste niveau, terwijl de looptijd drastisch wordt verminderd met wel tot 95%. We tonen verder aan dat TracksTo4D goed generaliseert naar ongeziene video's van ongeziene semantische categorieën op het moment van inferentie.
Taakgenerieke aanstuurbare beeldsegmentatie streeft ernaar om segmentatie van diverse monsters te bereiken onder een enkele taakbeschrijving door slechts één taakgenerieke aanwijzing te gebruiken. Huidige methoden maken gebruik van de generalisatiecapaciteiten van Vision-Language Modellen (VLM's) om instantiespecifieke aanwijzingen af te leiden van deze taakgenerieke aanwijzingen om het segmentatieproces te begeleiden. Echter, wanneer VLM's moeite hebben met generaliseren naar sommige beeldinstanties, wordt de voorspelling van instantiespecifieke aanwijzingen zwak. Om dit probleem op te lossen, introduceren we Instantiespecifieke Negatieve Mijnbouw voor Taakgenerieke Aanstuurbare Segmentatie (INT). Het belangrijkste idee van INT is om adaptief de invloed van irrelevante (negatieve) voorkennis te verminderen, terwijl het gebruik van de meest plausibele voorkennis, geselecteerd door negatieve mijnbouw met hoger contrast, wordt verhoogd om de generatie van instantiespecifieke aanwijzingen te optimaliseren. Concreet bestaat INT uit twee componenten: (1) generatie van instantiespecifieke aanwijzingen, die geleidelijk onjuiste informatie filtert bij de generatie van aanwijzingen; (2) generatie van semantische maskers, die ervoor zorgt dat elke beeldinstantiesegmentatie correct overeenkomt met de semantiek van de instantiespecifieke aanwijzingen. INT wordt gevalideerd op zes datasets, waaronder gecamoufleerde objecten en medische beelden, waarbij de effectiviteit, robuustheid en schaalbaarheid ervan worden aangetoond.
Om geheugenkosten te verminderen bij lang-contextueel redeneren met Grote Taalmodellen (LLMs), richten veel recente werken zich op het comprimeren van de sleutel-waarde (KV) cache van verschillende tokens. We identificeren echter dat de vorige KV-cache-compressiemethoden de tokenbelangrijkheid individueel meten, waarbij de afhankelijkheid tussen verschillende tokens in de taalkenmerken van de echte wereld wordt verwaarloosd. In het licht hiervan introduceren we ChunkKV, waarbij de tokens in een 'chunk' worden gegroepeerd als een basiseenheid voor compressie, en waarbij de meest informatieve semantische chunks behouden blijven terwijl de minder belangrijke worden verworpen. Bovendien stellen we vast dat ChunkKV een hogere gelijkenis vertoont in de behouden indices over verschillende lagen, en stellen we laagsgewijs indexhergebruik voor om de computationele overhead verder te verminderen. We hebben ChunkKV geëvalueerd op toonaangevende lang-contextuele benchmarks, waaronder LongBench en Needle-In-A-HayStack, evenals de GSM8K en JailbreakV in-context leerbenchmark. Onze experimenten met instructieafstemming en meerstapsredenering (O1 en R1) LLMs behalen tot 10% prestatieverbetering bij agressieve compressieverhoudingen in vergelijking met bestaande methoden.