Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Autoregressieve modellen (ARMs) worden algemeen beschouwd als de hoeksteen van grote taalmodelen (LLMs). Wij betwisten deze opvatting door LLaDA te introduceren, een diffusiemodel dat vanaf nul is getraind volgens het paradigma van voorafgaande training en begeleide fijnafstemming (SFT). LLaDA modelleert verdelingen via een voorwaarts gegevensmaskeringsproces en een omgekeerd proces, geparametriseerd door een standaard Transformer om gemaskeerde tokens te voorspellen. Door een waarschijnlijkheidsgrens te optimaliseren, biedt het een principiële generatieve benadering voor probabilistische inferentie. Over uitgebreide benchmarks heen toont LLaDA sterke schaalbaarheid en overtreft het onze zelf geconstrueerde ARM-baselines. Opmerkelijk is dat LLaDA 8B concurreert met sterke LLMs zoals LLaMA3 8B in contextueel leren en, na SFT, indrukwekkende instructievolgvaardigheden vertoont in casestudies zoals meerzijdige dialoog. Bovendien adresseert LLaDA de omkeringvloek en overtreft het GPT-4o in een omkeringgedichtvoltooiingstaak. Onze bevindingen vestigen diffusiemodellen als een levensvatbaar en veelbelovend alternatief voor ARMs, waarbij de aanname wordt uitgedaagd dat de hierboven besproken sleutelcapaciteiten van LLMs inherent verbonden zijn aan ARMs.
Grote Redenerende Modellen (LRM's) vertegenwoordigen een doorbraak in de AI probleemoplossende capaciteiten, maar hun effectiviteit in interactieve omgevingen kan beperkt zijn. Dit artikel introduceert en analyseert overdenken in LRM's. Een fenomeen waar modellen de voorkeur geven aan uitgebreide interne redeneerketens boven omgevingsinteractie. Door experimenten uit te voeren op software engineering taken met behulp van SWE Bench Verified, observeren we drie terugkerende patronen: Analyse Verlamming, Dwarse Acties en Voortijdige Ontkoppeling. We stellen een raamwerk voor om deze gedragingen te bestuderen, dat correleert met menselijke expertbeoordelingen, en analyseren 4018 trajecten. We observeren dat hogere overdenkscores correleren met verminderde prestaties, waarbij redenerende modellen sterkere neigingen vertonen tot overdenken in vergelijking met niet-redenerende modellen. Onze analyse onthult dat eenvoudige inspanningen om overdenken in agente omgevingen te verminderen, zoals het selecteren van de oplossing met de lagere overdenkscore, de modelprestaties met bijna 30% kunnen verbeteren terwijl de berekeningskosten met 43% worden verminderd. Deze resultaten suggereren dat het verminderen van overdenken sterke praktische implicaties heeft. We suggereren dat door gebruik te maken van de inheemse functie-oproepmogelijkheden en selectieve versterkende leerneigingen tot overdenken kunnen worden verminderd. We stellen ook ons evaluatieraamwerk en dataset open-source beschikbaar om onderzoek in deze richting te vergemakkelijken op https://github.com/AlexCuadron/Overthinking.
We presenteren Step-Video-T2V, een state-of-the-art tekst-naar-video voorgetraind model met 30B parameters en de mogelijkheid om video's van maximaal 204 frames te genereren. Een diepe compressie Variational Autoencoder, Video-VAE, is ontworpen voor videogeneratietaken, waarbij een ruimtelijke compressieverhouding van 16x16 en een temporele compressieverhouding van 8x wordt bereikt, terwijl een uitzonderlijke videoreconstructiekwaliteit behouden blijft. Gebruikersprompts worden gecodeerd met behulp van twee tweetalige tekstencoders om zowel Engels als Chinees te verwerken. Een DiT met 3D volledige aandacht wordt getraind met Flow Matching en wordt gebruikt om invoerruis te denoizen naar latente frames. Een video-gebaseerde DPO-aanpak, Video-DPO, wordt toegepast om artefacten te verminderen en de visuele kwaliteit van de gegenereerde video's te verbeteren. We gaan ook in detail in op onze trainingsstrategieën en delen belangrijke observaties en inzichten. De prestaties van Step-Video-T2V worden geëvalueerd op een nieuwe videogeneratiebenchmark, Step-Video-T2V-Eval, waaruit blijkt dat het state-of-the-art tekst-naar-video kwaliteit biedt in vergelijking met zowel open-source als commerciële engines. Daarnaast bespreken we de beperkingen van het huidige diffusiegebaseerde modelparadigma en schetsen we toekomstige richtingen voor videofoundationmodellen. We maken zowel Step-Video-T2V als Step-Video-T2V-Eval beschikbaar op https://github.com/stepfun-ai/Step-Video-T2V. De online versie is ook toegankelijk via https://yuewen.cn/videos. Ons doel is om de innovatie van videofoundationmodellen te versnellen en videocontentmakers te empoweren.
Diffusiemodellen (DMs) zijn uitgegroeid tot de eerste keuze voor generatieve taken in diverse domeinen. Hun afhankelijkheid van meerdere sequentiële forward passes beperkt echter aanzienlijk de realtime prestaties. Eerdere versnellingsmethoden richtten zich voornamelijk op het verminderen van het aantal samplingstappen of het hergebruiken van tussenresultaten, maar slaagden er niet in om variaties tussen ruimtelijke regio's binnen de afbeelding te benutten vanwege de beperkingen van convolutionele U-Net-structuren. Door de flexibiliteit van Diffusion Transformers (DiTs) te benutten bij het verwerken van een variabel aantal tokens, introduceren we RAS, een nieuwe, trainingsvrije samplingstrategie die dynamisch verschillende samplingratio's toewijst aan regio's binnen een afbeelding op basis van de focus van het DiT-model. Onze belangrijkste observatie is dat tijdens elke samplingstap het model zich concentreert op semantisch betekenisvolle regio's, en dat deze focusgebieden een sterke continuïteit vertonen over opeenvolgende stappen. Met deze inzicht werkt RAS alleen de regio's bij die momenteel in focus zijn, terwijl andere regio's worden bijgewerkt met behulp van gecachte ruis uit de vorige stap. De focus van het model wordt bepaald op basis van de uitvoer van de voorgaande stap, waarbij we gebruikmaken van de temporele consistentie die we hebben waargenomen. We evalueren RAS op Stable Diffusion 3 en Lumina-Next-T2I, waarbij we respectievelijk snelheidsverbeteringen tot 2,36x en 2,51x behalen, met minimale achteruitgang in de generatiekwaliteit. Daarnaast toont een gebruikersstudie aan dat RAS vergelijkbare kwaliteiten biedt bij menselijke evaluatie, terwijl een snelheidsverbetering van 1,6x wordt bereikt. Onze aanpak zet een belangrijke stap naar efficiëntere diffusion transformers, waardoor hun potentieel voor realtime toepassingen wordt vergroot.
Grote Multimodale Modellen (LMMs) vertonen grote tekortkomingen bij het interpreteren van afbeeldingen en hebben, volgens sommige maatstaven, een slechter ruimtelijk inzicht dan jonge kinderen of dieren. Desondanks behalen ze hoge scores op veel populaire visuele benchmarks, waarbij de marge snel wordt ingehaald door een voortdurende golf van modelverbeteringen. Om dit aan te pakken, is er een dringende behoefte aan uitdagende benchmarks die langer relevant blijven. We nemen dit idee tot het uiterste door ZeroBench te introduceren - een lichtgewicht benchmark voor visueel redeneren die volledig onmogelijk is voor hedendaagse toonaangevende LMMs. Onze benchmark bestaat uit 100 handmatig samengestelde vragen en 334 minder moeilijke subvragen. We evalueren 20 LMMs op ZeroBench, die allemaal een score van 0,0% behalen, en analyseren de fouten grondig. Om vooruitgang in visueel begrip te stimuleren, maken we ZeroBench openbaar beschikbaar.
Ondanks aanzienlijke vooruitgang in Multimodale Grote Taalmodellen (MLLMs), hebben de meeste state-of-the-art modellen nog geen grondige afstemming met menselijke voorkeuren ondergaan. Deze kloof bestaat omdat het huidige onderzoek naar afstemming voornamelijk vooruitgang heeft geboekt in specifieke gebieden (bijvoorbeeld het verminderen van hallucinaties), terwijl de bredere vraag of het afstemmen van modellen op menselijke voorkeuren de capaciteit van MLLMs systematisch kan verbeteren, grotendeels onontgonnen blijft. Daarom introduceren we MM-RLHF, een dataset met 120k fijnmazige, door mensen geannoteerde voorkeursvergelijkingen. Deze dataset vertegenwoordigt een aanzienlijke vooruitgang ten opzichte van bestaande bronnen, met een superieure omvang, diversiteit, annotatiegranulariteit en kwaliteit. Gebruikmakend van deze dataset, stellen we verschillende belangrijke innovaties voor om zowel de kwaliteit van beloningsmodellen als de efficiëntie van afstemmingsalgoritmen te verbeteren. Opmerkelijk is de introductie van een Kritiek-Gebaseerd Beloningsmodel, dat kritieken op modeloutputs genereert voordat scores worden toegekend, wat een verbeterde interpreteerbaarheid en meer informatieve feedback biedt in vergelijking met traditionele scalaire beloningsmechanismen. Daarnaast stellen we Dynamische Beloningsschaling voor, een methode die het verliesgewicht van elk monster aanpast volgens het beloningssignaal, waardoor het gebruik van hoogwaardige vergelijkingsparen wordt geoptimaliseerd. Onze aanpak wordt rigoureus geëvalueerd over 10 verschillende dimensies en 27 benchmarks, met resultaten die significante en consistente verbeteringen in modelprestaties aantonen. Specifiek leidt het finetunen van LLaVA-ov-7B met MM-RLHF en ons afstemmingsalgoritme tot een toename van 19,5% in conversatievaardigheden en een verbetering van 60% in veiligheid. We hebben de voorkeursdataset, het beloningsmodel, de trainings- en evaluatiecode, evenals de beloningsmodellering en veiligheidsbenchmarks openbaar gemaakt. Voor meer details, bezoek onze projectpagina: https://mm-rlhf.github.io.
Diffusiemodellen maken de synthese van hoogwaardige en diverse visuele inhoud mogelijk. Ze hebben echter moeite met het genereren van zeldzame of onbekende concepten. Om deze uitdaging aan te pakken, onderzoeken we het gebruik van Retrieval-Augmented Generation (RAG) in combinatie met beeldgeneratiemodellen. We introduceren ImageRAG, een methode die dynamisch relevante afbeeldingen ophaalt op basis van een gegeven tekstprompt en deze gebruikt als context om het generatieproces te sturen. Eerdere benaderingen die opgehaalde afbeeldingen gebruikten om de generatie te verbeteren, trainden modellen specifiek voor retrieval-gebaseerde generatie. In tegenstelling hiermee maakt ImageRAG gebruik van de mogelijkheden van bestaande beeldconditioneringsmodellen en vereist het geen RAG-specifieke training. Onze aanpak is zeer aanpasbaar en kan worden toegepast op verschillende modeltypen, wat een aanzienlijke verbetering laat zien in het genereren van zeldzame en fijnmazige concepten met behulp van verschillende basismodellen. Onze projectpagina is beschikbaar op: https://rotem-shalev.github.io/ImageRAG
Redenerende LLM's zoals OpenAI o1, o3 en DeepSeek R1 hebben aanzienlijke vooruitgang geboekt in wiskunde en programmeren, maar vinden geavanceerde taken zoals combinatoriekproblemen van de Internationale Wiskunde Olympiade (IMO), puzzels uit het Abstraction and Reasoning Corpus (ARC) en vragen uit Humanity's Last Exam (HLE) uitdagend. We gebruiken een diverse inferentiebenadering die meerdere modellen en methoden combineert tijdens de testfase. We ontdekken dat het verifiëren van wiskunde- en programmeerproblemen, en rejection sampling bij andere problemen, eenvoudig en effectief is. We verifiëren automatisch de correctheid van oplossingen voor IMO-problemen met Lean, en ARC-puzzels met code, en vinden dat best-of-N effectief HLE-vragen beantwoordt. Onze aanpak verhoogt de nauwkeurigheid van antwoorden op IMO-combinatoriekproblemen van 33,3% naar 77,8%, de nauwkeurigheid op HLE-vragen van 8% naar 37%, en lost 80% van de ARC-puzzels op die 948 mensen niet konden oplossen en 26,5% van de ARC-puzzels die o3 met hoge rekenkracht niet oplost. Testtijdsimulaties, reinforcement learning en meta-learning met inferentiefeedback verbeteren de generalisatie door de grafische representaties van agenten aan te passen en prompts, code en datasets te variëren. Onze aanpak is betrouwbaar, robuust en schaalbaar, en in de geest van reproduceerbaar onderzoek zullen we deze na publicatie openbaar maken.
Grote Taalmodellen (LLMs) hebben aanzienlijk succes behaald in diverse NLP-taken. Hun enorme rekenkundige kosten beperken echter hun brede toepassing, vooral in realtime-toepassingen. Gestructureerd snoeien biedt een effectieve oplossing door modellen te comprimeren en direct end-to-end snelheidsverbeteringen te bieden, ongeacht de hardwareomgeving. Tegelijkertijd vertonen verschillende componenten van het model verschillende gevoeligheden voor snoeien, wat vraagt om niet-uniforme modelcompressie. Een snoeimethode moet echter niet alleen een capabele substructuur identificeren, maar ook rekening houden met training na compressie. Hiertoe stellen we \sysname voor, een methode voor trainingbewust gestructureerd snoeien. \sysname bouwt voort op een evolutionair zoekproces, waarbij in elke generatie meerdere afstammingsmodellen worden gegenereerd door mutatie, en de meest geschikte worden geselecteerd voor overleving. Om het effect van training na compressie te beoordelen, integreren we een lichtgewicht, meerstaps trainingsproces binnen de afstammingspopulatie, waarbij het aantal tokens progressief wordt verhoogd en slecht presterende modellen in elke selectiefase worden geëlimineerd. We valideren onze methode door uitgebreide experimenten op Llama-2-7B, Llama-3.1-8B en Qwen-2.5-14B-Instruct, waarbij we state-of-the-art prestaties behalen voor gestructureerd snoeien. \sysname overtreft bijvoorbeeld ShearedLlama terwijl het 5 keer minder trainingsdata vereist tijdens de training na compressie.
Grote Taalmodellen (LLMs) representeren getallen doorgaans met behulp van meerdere tokens, waardoor het model deze tokens moet aggregeren om numerieke waarden te interpreteren. Deze fragmentatie maakt zowel training als inferentie minder efficiënt en heeft een negatieve invloed op de prestaties van het model bij taken die met getallen te maken hebben. Geïnspireerd door de observatie dat vooraf getrainde LLMs intern Fourier-achtige kenmerken voor getaltokens leren, stellen we Fourier Number Embedding (FoNE) voor, een nieuwe methode die getallen direct in de embeddingruimte afbeeldt met hun Fourier-kenmerken. FoNE codeert elk getal als een enkel token met slechts twee embeddingdimensies per cijfer, waardoor numerieke waarden effectief worden vastgelegd zonder fragmentatie. Deze compacte representatie versnelt zowel de training als de inferentie. In vergelijking met traditionele subwoord- en cijfergewijze embeddings vermindert FoNE niet alleen de rekenkundige overhead, maar behaalt het ook een hogere nauwkeurigheid bij verschillende numerieke taken, waaronder optellen, aftrekken en vermenigvuldigen. Bij het optellen van 6-cijferige decimale getallen heeft FoNE 64 keer minder data nodig om een nauwkeurigheid van 99% te bereiken dan subwoord- en cijfergewijze embeddings, terwijl het respectievelijk 3 keer en 6 keer minder tokens per getal gebruikt. Bovendien is FoNE de enige methode die een nauwkeurigheid van 100% behaalt op meer dan 100.000 testvoorbeelden voor optellen, aftrekken en vermenigvuldigen. De codes en visualisaties zijn beschikbaar op https://fouriernumber.github.io/.
Nieuwe diffusiemodellen kunnen foto-realistische afbeeldingen synthetiseren met geïntegreerde tekst van hoge kwaliteit. Verrassend genoeg tonen we door middel van aandacht-activeringspatching aan dat minder dan 1% van de parameters van diffusiemodellen, allemaal aanwezig in aandachtlagen, de generatie van tekstuele inhoud binnen de afbeeldingen beïnvloedt. Op basis van deze observatie verbeteren we de efficiëntie en prestaties van tekstgeneratie door ons te richten op de kruis- en gezamenlijke aandachtlagen van diffusiemodellen. We introduceren verschillende toepassingen die profiteren van het lokaliseren van de lagen die verantwoordelijk zijn voor tekstuele inhoudsgeneratie. We tonen eerst aan dat een LoRA-gebaseerde fine-tuning uitsluitend van de gelokaliseerde lagen de algemene tekstgeneratiecapaciteiten van grote diffusiemodellen verder verbetert, terwijl de kwaliteit en diversiteit van de generaties van de diffusiemodellen behouden blijven. Vervolgens demonstreren we hoe we de gelokaliseerde lagen kunnen gebruiken om tekstuele inhoud in gegenereerde afbeeldingen te bewerken. Ten slotte breiden we dit idee uit naar de praktische use case van het voorkomen van de generatie van giftige tekst op een kosteloze manier. In tegenstelling tot eerder werk is onze lokalisatiebenadering breed toepasbaar op verschillende diffusiemodelarchitecturen, waaronder U-Net (bijv. LDM en SDXL) en transformer-gebaseerde modellen (bijv. DeepFloyd IF en Stable Diffusion 3), waarbij diverse tekstencoders worden gebruikt (bijv. van CLIP tot grote taalmmodellen zoals T5). Projectpagina beschikbaar op https://t2i-text-loc.github.io/.
Dit position paper betoogt dat we, om AI te begrijpen, niet kunnen vertrouwen op onze bestaande woordenschat van menselijke termen. In plaats daarvan moeten we streven naar het ontwikkelen van neologismen: nieuwe woorden die precieze menselijke concepten vertegenwoordigen die we machines willen aanleren, of machineconcepten die wij moeten leren. We vertrekken vanuit de premisse dat mensen en machines verschillende concepten hebben. Dit betekent dat interpreteerbaarheid kan worden opgevat als een communicatieprobleem: mensen moeten in staat zijn om machineconcepten te refereren en te controleren, en menselijke concepten aan machines te communiceren. Het creëren van een gedeelde mens-machine taal door het ontwikkelen van neologismen, zo geloven wij, zou dit communicatieprobleem kunnen oplossen. Succesvolle neologismen bereiken een nuttig niveau van abstractie: niet te gedetailleerd, zodat ze herbruikbaar zijn in veel contexten, en niet te hoog overkoepelend, zodat ze precieze informatie overbrengen. Als proof of concept demonstreren we hoe een "lengte-neologisme" het mogelijk maakt om de lengte van LLM-reacties te controleren, terwijl een "diversiteits-neologisme" het mogelijk maakt om meer gevarieerde reacties te genereren. Samengevat betogen we dat we AI niet kunnen begrijpen met onze bestaande woordenschat, en dat het uitbreiden ervan door middel van neologismen kansen creëert om machines zowel beter te controleren als te begrijpen.
Vooraf getrainde basis modellen (FMs) hebben uitzonderlijke prestaties getoond in univariate tijdreeksvoorspellingstaken. Echter, blijven er verschillende praktische uitdagingen bestaan, waaronder het beheren van complexe afhankelijkheden tussen kenmerken en het kwantificeren van onzekerheid in voorspellingen. Deze studie beoogt deze kritieke beperkingen aan te pakken door adapters te introduceren; transformaties in de kenmerkruimte die het effectieve gebruik van vooraf getrainde univariate tijdreeks FMs voor multivariate taken vergemakkelijken. Adapters werken door multivariate invoer te projecteren in een geschikte latente ruimte en het FM onafhankelijk toe te passen op elke dimensie. Geïnspireerd door de literatuur over representatie leren en gedeeltelijk stochastische Bayesiaanse neurale netwerken, presenteren we een reeks adapters en optimalisatie/inferentiestrategieën. Experimenten uitgevoerd op zowel synthetische als real-world datasets bevestigen de effectiviteit van adapters, waarbij aanzienlijke verbeteringen in voorspellingsnauwkeurigheid en onzekerheidskwantificatie worden gedemonstreerd in vergelijking met baseline methoden. Ons raamwerk, AdaPTS, positioneert adapters als een modulaire, schaalbare en effectieve oplossing voor het benutten van tijdreeks FMs in multivariate contexten, waardoor hun bredere adoptie in real-world toepassingen wordt bevorderd. We hebben de code vrijgegeven op https://github.com/abenechehab/AdaPTS.
Talen met weinig bronnen (Low-Resource Languages, LRLs) worden geconfronteerd met aanzienlijke uitdagingen in natuurlijke taalverwerking (Natural Language Processing, NLP) vanwege beperkte data. Hoewel de huidige state-of-the-art grote taalmmodellen (Large Language Models, LLMs) nog steeds moeite hebben met LRLs, bieden kleinere meertalige modellen (multilingual models, mLMs) zoals mBERT en XLM-R meer potentieel vanwege een betere aansluiting van hun capaciteit op de beperkte hoeveelheid trainingsdata. Deze studie onderzoekt systematisch parameter-efficiënte adapter-gebaseerde methoden voor het aanpassen van mLMs aan LRLs, waarbij drie architecturen worden geëvalueerd: Sequential Bottleneck, Invertible Bottleneck en Low-Rank Adaptation. Met behulp van ongestructureerde tekst uit GlotCC en gestructureerde kennis uit ConceptNet tonen we aan dat kleine aanpassingsdatasets (bijvoorbeeld tot 1 GB vrije tekst of enkele MB’s aan knowledge graph-data) verbeteringen opleveren in intrinsieke (masked language modeling) en extrinsieke taken (topic classification, sentiment analysis en named entity recognition). We constateren dat Sequential Bottleneck-adapters uitblinken in taalmodellering, terwijl Invertible Bottleneck-adapters andere methoden licht overtreffen bij downstream-taken vanwege betere embedding-uitlijning en een groter aantal parameters. Adapter-gebaseerde methoden presteren even goed of beter dan volledige fine-tuning, terwijl ze veel minder parameters gebruiken, en kleinere mLMs blijken effectiever voor LRLs dan enorme LLMs zoals LLaMA-3, GPT-4 en op DeepSeek-R1 gebaseerde gedistilleerde modellen. Hoewel aanpassing de prestaties verbetert, blijft de grootte van de pre-trainingsdata de dominante factor, vooral voor talen met uitgebreide pre-trainingsdekking.
Het verfijnen van Grote Taalmodellen (LLM's) op specifieke datasets is een veelvoorkomende praktijk om de prestaties op doeltaken te verbeteren. Deze prestatiewinst leidt echter vaak tot overfitting, waarbij het model te gespecialiseerd raakt in de taak of de kenmerken van de trainingsdata, wat resulteert in een verlies aan generalisatie. Dit artikel introduceert Selectieve Zelf-naar-Supervised Fine-Tuning (S3FT), een verfijningsbenadering die betere prestaties behaalt dan de standaard supervised fine-tuning (SFT) en tegelijkertijd de generalisatie verbetert. S3FT maakt gebruik van het bestaan van meerdere geldige antwoorden op een query. Door gebruik te maken van de correcte antwoorden van het model, vermindert S3FT de specialisatie van het model tijdens de verfijningsfase. S3FT identificeert eerst de juiste modelantwoorden uit de trainingsset door een geschikte beoordelaar in te zetten. Vervolgens verfijnt het model door gebruik te maken van de juiste modelantwoorden en het gouden antwoord (of de parafrase ervan) voor de overige voorbeelden. De effectiviteit van S3FT wordt aangetoond door experimenten op taken voor wiskundig redeneren, Python-programmeren en leesbegrip. De resultaten tonen aan dat standaard SFT kan leiden tot een gemiddelde prestatiedaling van maximaal 4.4 op meerdere benchmarks, zoals MMLU en TruthfulQA. Daarentegen vermindert S3FT deze daling met de helft, namelijk 2.5, wat wijst op betere generalisatiemogelijkheden dan SFT, terwijl het aanzienlijk beter presteert op de verfijningstaken.
In dit artikel stellen we een efficiënte multi-level convolutiearchitectuur voor voor 3D visuele gronding. Conventionele methoden hebben moeite om te voldoen aan de eisen van real-time inferentie vanwege de twee-fase of puntgebaseerde architectuur. Geïnspireerd door het succes van de volledig sparse convolutiearchitectuur op meerdere niveaus in 3D objectdetectie, streven we ernaar om een nieuw 3D visueel grondingsframework te bouwen volgens deze technische route. Echter, aangezien in de 3D visuele grondingstaak de 3D scène-representatie diep moet interageren met tekstkenmerken, is de sparse convolutiegebaseerde architectuur inefficiënt voor deze interactie vanwege de grote hoeveelheid voxelkenmerken. Daarom stellen we tekstgeleid snoeien (TGP) en voltooiingsgebaseerde toevoeging (CBA) voor om de 3D scène-representatie en tekstkenmerken op een efficiënte manier diep te integreren door geleidelijke regiosnoei en doelvoltooiing. Specifiek sparsificeert TGP iteratief de 3D scène-representatie en interageert zo efficiënt de voxelkenmerken met tekstkenmerken via cross-attentie. Om het effect van snoeien op delicate geometrische informatie te verzachten, herstelt CBA adaptief het overgesnoeide gebied door voxelvoltooiing met verwaarloosbare rekenkosten. Vergeleken met eerdere enkelfasemethoden behaalt onze methode de hoogste inferentiesnelheid en overtreft de vorige snelste methode met 100\% FPS. Onze methode behaalt ook state-of-the-art nauwkeurigheid, zelfs vergeleken met twee-fasemethoden, met een voorsprong van +1,13 op Acc@0,5 op ScanRefer, en +2,6 en +3,2 op NR3D en SR3D respectievelijk. De code is beschikbaar op https://github.com/GWxuan/TSP3D{https://github.com/GWxuan/TSP3D}.
Een belangrijk doel van belichaamde intelligentie is het in staat stellen van agents om langetermijntaken uit te voeren in dynamische omgevingen, terwijl robuuste besluitvorming en aanpassingsvermogen behouden blijven. Om dit doel te bereiken, stellen we de Spatio-Temporele Geheugen Agent (STMA) voor, een nieuw raamwerk ontworpen om taakplanning en -uitvoering te verbeteren door spatio-temporeel geheugen te integreren. STMA is gebaseerd op drie cruciale componenten: (1) een spatio-temporele geheugenmodule die historische en omgevingsveranderingen in realtime vastlegt, (2) een dynamische kennisgrafiek die adaptief ruimtelijk redeneren mogelijk maakt, en (3) een planner-critic-mechanisme dat taakstrategieën iteratief verfijnt. We evalueren STMA in de TextWorld-omgeving op 32 taken, waarbij multi-stappenplanning en exploratie onder verschillende complexiteitsniveaus betrokken zijn. Experimentele resultaten tonen aan dat STMA een verbetering van 31,25% in succespercentage en een toename van 24,7% in gemiddelde score behaalt in vergelijking met het state-of-the-art model. De resultaten benadrukken de effectiviteit van spatio-temporeel geheugen bij het verbeteren van de geheugencapaciteiten van belichaamde agents.
Masked Image Modeling (MIM) biedt een veelbelovende benadering voor zelf-gesuperviseerd representatie leren, maar bestaande MIM-modellen blijven achter bij de state-of-the-art. In dit artikel analyseren we systematisch doelrepresentaties, verliesfuncties en architecturen om CAPI te introduceren - een nieuw puur-MIM raamwerk dat steunt op het voorspellen van latente clusteringen. Onze aanpak maakt gebruik van een clustering-gebaseerde verliesfunctie, die stabiel is om te trainen en veelbelovende schaaleigenschappen vertoont. Onze ViT-L backbone, CAPI, behaalt een nauwkeurigheid van 83,8% op ImageNet en 32,1% mIoU op ADE20K met eenvoudige lineaire probes, wat aanzienlijk beter presteert dan eerdere MIM-methoden en de prestaties van de huidige state-of-the-art, DINOv2, benadert. We maken al onze code en modellen openbaar.
In toepassingen van diffusiemodellen is controleerbare generatie van praktisch belang, maar ook uitdagend. Huidige methoden voor controleerbare generatie richten zich voornamelijk op het aanpassen van de scorefunctie van diffusiemodellen, terwijl Mean Reverting (MR) Diffusion direct de structuur van de stochastische differentiaalvergelijking (SDE) wijzigt, waardoor de integratie van beeldcondities eenvoudiger en natuurlijker wordt. Echter, huidige trainingsvrije snelle samplers zijn niet direct toepasbaar op MR Diffusion. Hierdoor vereist MR Diffusion honderden NFEs (aantal functie-evaluaties) om hoogwaardige samples te verkrijgen. In dit artikel stellen we een nieuw algoritme voor, genaamd MRS (MR Sampler), om de sampling NFEs van MR Diffusion te verminderen. We lossen de omgekeerde-tijd SDE en de waarschijnlijkheidsstroom gewone differentiaalvergelijking (PF-ODE) op die geassocieerd zijn met MR Diffusion, en leiden semi-analytische oplossingen af. De oplossingen bestaan uit een analytische functie en een integraal geparameteriseerd door een neuraal netwerk. Op basis van deze oplossing kunnen we hoogwaardige samples genereren in minder stappen. Onze aanpak vereist geen training en ondersteunt alle gangbare parameterisaties, inclusief ruisvoorspelling, datavoorspelling en snelheidsvoorspelling. Uitgebreide experimenten tonen aan dat MR Sampler een hoge samplingkwaliteit behoudt met een versnelling van 10 tot 20 keer over tien verschillende beeldhersteltaken. Ons algoritme versnelt de samplingprocedure van MR Diffusion, waardoor het praktischer wordt in controleerbare generatie.
CLaMP 3 is een uniform raamwerk ontwikkeld om de uitdagingen van cross-modale en cross-linguale generalisatie in muziekinformatie-retrieval aan te pakken. Door gebruik te maken van contrastief leren, brengt het alle belangrijke muziekmodaliteiten—waaronder bladmuziek, uitvoeringssignalen en audio-opnames—in lijn met meertalige tekst in een gedeelde representatieruimte, waardoor retrievel mogelijk wordt over niet-uitgelijnde modaliteiten met tekst als brug. Het beschikt over een meertalige tekstencoder die aanpasbaar is voor onbekende talen en sterke cross-linguale generalisatie vertoont. Door gebruik te maken van retrieval-augmented generation, hebben we M4-RAG samengesteld, een web-schaal dataset bestaande uit 2,31 miljoen muziek-tekst paren. Deze dataset is verrijkt met gedetailleerde metadata die een breed scala aan wereldwijde muziektradities vertegenwoordigen. Om toekomstig onderzoek te bevorderen, brengen we WikiMT-X uit, een benchmark bestaande uit 1000 tripletten van bladmuziek, audio en rijk gevarieerde tekstbeschrijvingen. Experimenten tonen aan dat CLaMP 3 state-of-the-art prestaties behaalt op meerdere MIR-taken, waarbij het eerdere sterke baselines aanzienlijk overtreft en uitstekende generalisatie toont in multimodale en meertalige muziekcontexten.
Huidige autonome voertuigen vertrouwen voornamelijk op hun individuele sensoren om de omringende omgeving te begrijpen en toekomstige trajecten te plannen, wat onbetrouwbaar kan zijn wanneer de sensoren defect zijn of geblokkeerd worden. Om dit probleem aan te pakken, zijn coöperatieve perceptiemethoden via voertuig-naar-voertuig (V2V) communicatie voorgesteld, maar deze hebben zich meestal gericht op detectie en tracking. Hoe deze benaderingen bijdragen aan de algehele coöperatieve planningsprestatie is nog steeds onderbelicht. Geïnspireerd door recente vooruitgang in het gebruik van Large Language Models (LLMs) om autonome rijsystemen te bouwen, stellen we een nieuwe probleemstelling voor die een LLM integreert in coöperatief autonoom rijden, met de voorgestelde Vehicle-to-Vehicle Question-Answering (V2V-QA) dataset en benchmark. We stellen ook onze baseline-methode Vehicle-to-Vehicle Large Language Model (V2V-LLM) voor, die een LLM gebruikt om perceptie-informatie van meerdere verbonden autonome voertuigen (CAVs) te fuseren en rijgerelateerde vragen te beantwoorden: gronding, opmerkelijke objectidentificatie en planning. Experimentele resultaten tonen aan dat onze voorgestelde V2V-LLM een veelbelovend uniform modelarchitectuur kan zijn voor het uitvoeren van verschillende taken in coöperatief autonoom rijden, en presteert beter dan andere baseline-methoden die verschillende fusiebenaderingen gebruiken. Ons werk creëert ook een nieuwe onderzoeksrichting die de veiligheid van toekomstige autonome rijsystemen kan verbeteren. Onze projectwebsite: https://eddyhkchiu.github.io/v2vllm.github.io/ .
Weigertraining op Large Language Models (LLMs) voorkomt schadelijke uitvoer, maar deze verdediging blijft kwetsbaar voor zowel geautomatiseerde als door mensen gemaakte jailbreaks. We presenteren een nieuwe LLM-as-red-teamer-benadering waarbij een mens een refusal-getrainde LLM jailbreakt om deze bereid te maken zichzelf of andere LLMs te jailbreaken. We verwijzen naar de gejailbreakte LLMs als J_2-aanvallers, die systematisch doelmodellen kunnen evalueren met behulp van verschillende red teaming-strategieën en hun prestaties kunnen verbeteren via in-context leren van eerdere mislukkingen. Onze experimenten tonen aan dat Sonnet 3.5 en Gemini 1.5 pro andere LLMs overtreffen als J_2, met respectievelijk 93,0% en 91,0% aanvalsuccespercentages (ASRs) tegen GPT-4o (en vergelijkbare resultaten bij andere capabele LLMs) op Harmbench. Ons werk introduceert niet alleen een schaalbare benadering voor strategisch red teaming, geïnspireerd door menselijke red teamers, maar benadrukt ook jailbreaking-to-jailbreak als een over het hoofd gezien falingsmechanisme van de beveiliging. Specifiek kan een LLM zijn eigen beveiligingen omzeilen door een gejailbreakte versie van zichzelf te gebruiken die bereid is te helpen bij verdere jailbreaking. Om direct misbruik met J_2 te voorkomen, terwijl we onderzoek naar AI-veiligheid bevorderen, delen we onze methodologie publiekelijk, maar houden we specifieke prompting-details privé.
Eiwitten zijn dynamische moleculaire machines waarvan de biologische functies, die enzymatische katalyse, signaaltransductie en structurele aanpassing omvatten, intrinsiek verbonden zijn met hun bewegingen. Het ontwerpen van eiwitten met gerichte dynamische eigenschappen blijft echter een uitdaging vanwege de complexe, degeneratieve relaties tussen sequentie, structuur en moleculaire beweging. Hier introduceren we VibeGen, een generatief AI-framework dat end-to-end de novo eiwitontwerp mogelijk maakt, geconditioneerd op normale modusvibraties. VibeGen maakt gebruik van een agentieke dubbelmodelarchitectuur, bestaande uit een eiwitontwerper die sequentiekandidaten genereert op basis van gespecificeerde trillingsmodi en een eiwitvoorspeller die hun dynamische nauwkeurigheid evalueert. Deze benadering combineert diversiteit, nauwkeurigheid en nieuwigheid tijdens het ontwerpproces. Via volledige atoommoleculaire simulaties als directe validatie, tonen we aan dat de ontworpen eiwitten nauwkeurig de voorgeschreven normale modusamplitudes over de ruggengraat reproduceren terwijl ze verschillende stabiele, functioneel relevante structuren aannemen. Opmerkelijk genoeg zijn gegenereerde sequenties de novo, vertonen ze geen significante gelijkenis met natuurlijke eiwitten, waardoor de toegankelijke eiwitruimte wordt uitgebreid voorbij evolutionaire beperkingen. Ons werk integreert eiwitdynamica in generatief eiwitontwerp en legt een directe, tweerichtingsverbinding tussen sequentie en trillingsgedrag, waardoor nieuwe wegen worden geopend voor het ontwerpen van biomoleculen met op maat gemaakte dynamische en functionele eigenschappen. Dit framework heeft brede implicaties voor het rationeel ontwerpen van flexibele enzymen, dynamische structuren en biomaterialen, en effent de weg naar dynamica-geïnformeerd AI-gestuurd eiwitengineering.