Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de recente vooruitgang van visie-taal-actie (VLA) modellen op verschillende robotica taken, kampen ze met kritieke problemen zoals slechte generaliseerbaarheid naar ongeziene taken, vanwege hun afhankelijkheid van gedragsklonen uitsluitend van succesvolle uitvoeringen. Bovendien worden ze typisch fijnafgestemd om demonstraties van experts onder verschillende omstandigheden na te bootsen, wat distributiebias introduceert en hun aanpasbaarheid aan diverse manipulatiedoelen, zoals efficiëntie, veiligheid en taakvoltooiing, beperkt. Om deze kloof te overbruggen, introduceren we GRAPE: Generaliseren van Robotbeleid via Voorkeursafstemming. Specifiek stemt GRAPE VLA's af op trajectniveau en modelleert impliciet beloningen van zowel succesvolle als mislukte pogingen om de generaliseerbaarheid naar diverse taken te vergroten. Bovendien breekt GRAPE complexe manipulatietaken af naar onafhankelijke stadia en begeleidt automatisch voorkeursmodellering door aangepaste spatiotemporale beperkingen met keypoints voorgesteld door een groot visie-taalmodel. Opmerkelijk is dat deze beperkingen flexibel zijn en aangepast kunnen worden om het model af te stemmen op verschillende doelen, zoals veiligheid, efficiëntie of taaksucces. We evalueren GRAPE over een divers scala aan taken in zowel echte als gesimuleerde omgevingen. Experimentele resultaten tonen aan dat GRAPE de prestaties van toonaangevende VLA-modellen verbetert, waarbij de succespercentages op in-domein en ongeziene manipulatietaken respectievelijk met 51,79% en 60,36% toenemen. Bovendien kan GRAPE worden afgestemd op verschillende doelen, zoals veiligheid en efficiëntie, waarbij de botsingspercentages met 44,31% en de uitvoeringsstaplengte met 11,15% worden verminderd. Alle code, modellen en gegevens zijn beschikbaar op https://grape-vla.github.io/
Videodiepteschatting tilt monovideoclips naar 3D door dichte diepte af te leiden bij elk frame. Recente vooruitgang in diepteschatting van enkele afbeeldingen, mogelijk gemaakt door de opkomst van grote basis modellen en het gebruik van synthetische trainingsgegevens, hebben de belangstelling voor videodiepte nieuw leven ingeblazen. Echter, het naïef toepassen van een diepteschatting van enkele afbeeldingen op elk frame van een video negeert de temporele continuïteit, wat niet alleen tot flikkering leidt maar ook kan falen wanneer camerabeweging plotselinge veranderingen in dieptebereik veroorzaakt. Een voor de hand liggende en principiële oplossing zou zijn om voort te bouwen op videobasis modellen, maar deze hebben hun eigen beperkingen; waaronder dure training en inferentie, onvolmaakte 3D consistentie, en stikselschema's voor de vaste (korte) uitvoer. We nemen een stap terug en laten zien hoe we een latent diffusiemodel (LDM) van enkele afbeeldingen kunnen omzetten in een geavanceerde videodiepteschatting. Ons model, dat we RollingDepth noemen, heeft twee hoofdingrediënten: (i) een diepteschatting over meerdere frames die is afgeleid van een enkele afbeelding LDM en zeer korte videofragmenten (meestal frame triplets) naar dieptefragmenten in kaart brengt. (ii) een robuust, optimalisatiegebaseerd registratiealgoritme dat dieptefragmenten die zijn bemonsterd op verschillende frame-snelheden optimaal samenvoegt tot een consistente video. RollingDepth kan efficiënt omgaan met lange video's met honderden frames en levert nauwkeurigere dieptevideo's op dan zowel toegewijde videodiepteschattingen als hoogpresterende enkelvoudige modellen. Projectpagina: rollingdepth.github.io.
In-context Learning (ICL) stelt grote taalmodellen (LLM's) in staat om downstream taken aan te pakken door geavanceerde aanwijzingen en hoogwaardige demonstraties. Echter, dit traditionele ICL paradigma vertoont beperkingen bij het omgaan met complexe wiskundige redeneertaken, voornamelijk vanwege de zware afhankelijkheid van voorbeeldkwaliteit en de noodzaak van menselijke tussenkomst in uitdagende scenario's. Om deze beperkingen aan te pakken, presenteert dit artikel HiAR-ICL, een High-level Automated Reasoning paradigma in ICL dat de focus verlegt van specifieke voorbeelden naar abstract denkpatronen, waarbij het conventionele concept van context in ICL wordt uitgebreid. HiAR-ICL introduceert vijf atomische redeneeracties als fundamentele componenten voor het construeren van keten-gestructureerde patronen. Met behulp van Monte Carlo Tree Search verkennen we redeneerpaden en construeren we gedachtekkaarten om daaropvolgende inferentie te begeleiden. Vervolgens ontwikkelen we een cognitief complexiteitskader dat problemen dynamisch koppelt aan passende gedachtekkaarten. Experimentele resultaten tonen de effectiviteit van HiAR-ICL aan, met een state-of-the-art nauwkeurigheid (79,6%) op de MATH benchmark met Qwen2.5-7B-Instruct, waarbij GPT-4o (76,6%) en Claude 3.5 (71,1%) worden overtroffen.
De afgelopen jaren hebben een snelle ontwikkeling gezien van algemene multimodale grote taalmodellen (MLLM's). Het aanpassen van algemene MLLM's aan specifieke domeinen, zoals wetenschappelijke vakgebieden en industriële toepassingen, blijft echter minder onderzocht. Dit artikel onderzoekt systematisch domeinaanpassing van MLLM's via post-training, met de focus op gegevenssynthese, trainingspijplijnen en taakevaluatie. (1) Gegevenssynthese: Met behulp van open-source modellen ontwikkelen we een visuele instructiesynthesizer die effectief diverse visuele instructietaken genereert uit domeinspecifieke afbeelding-ondertitel paren. Onze synthetische taken overtreffen die gegenereerd door handmatige regels, GPT-4 en GPT-4V in het verbeteren van de domeinspecifieke prestaties van MLLM's. (2) Trainingspijplijn: Terwijl de tweefasen training - eerst op afbeelding-ondertitel paren gevolgd door visuele instructietaken - vaak wordt toegepast voor het ontwikkelen van algemene MLLM's, passen wij een enkele-fase trainingspijplijn toe om de taakdiversiteit te verbeteren voor domeinspecifieke post-training. (3) Taakevaluatie: We voeren experimenten uit in twee domeinen, biogeneeskunde en voeding, door MLLM's van verschillende bronnen en schalen (bijv. Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B) na te trainen en vervolgens de prestaties van MLLM's te evalueren op verschillende domeinspecifieke taken. Om verder onderzoek naar MLLM domeinaanpassing te ondersteunen, zullen we onze implementaties open-source maken.
Deze technische rapportage presenteert Yi-Lightning, ons nieuwste vlaggenschip-groot taalmodel (LLM). Het behaalt uitzonderlijke prestaties, met een 6e plaats overall op Chatbot Arena, met name sterke resultaten (2e tot 4e plaats) in gespecialiseerde categorieën, waaronder Chinees, Wiskunde, Codering en Moeilijke Aanwijzingen. Yi-Lightning maakt gebruik van een verbeterde Mixture-of-Experts (MoE) architectuur, met geavanceerde expertsegmentatie- en routeringsmechanismen in combinatie met geoptimaliseerde KV-cachingtechnieken. Ons ontwikkelingsproces omvat uitgebreide voorafgaande training, begeleid finetunen (SFT), en versterkend leren van menselijke feedback (RLHF), waarbij we doordachte strategieën bedenken voor meertraps training, constructie van synthetische data, en beloningsmodellering. Bovendien implementeren we RAISE (Verantwoordelijke AI Veiligheidsengine), een viercomponentenkader om veiligheidskwesties aan te pakken in de voorafgaande training, post-training, en dienstverleningsfasen. Dankzij onze schaalbare supercomputing-infrastructuur verminderen al deze innovaties aanzienlijk de kosten voor training, implementatie en inferentie, terwijl ze hoge prestatienormen handhaven. Met verdere evaluaties op openbare academische benchmarks, toont Yi-Lightning competitieve prestaties tegen topklasse LLMs, terwijl we een opmerkelijke discrepantie waarnemen tussen traditionele, statische benchmarkresultaten en dynamische menselijke voorkeuren in de echte wereld. Deze observatie leidt tot een kritische herbeoordeling van het nut van conventionele benchmarks bij het sturen van de ontwikkeling van meer intelligente en krachtige AI-systemen voor praktische toepassingen. Yi-Lightning is nu beschikbaar via ons ontwikkelaarsplatform op https://platform.lingyiwanwu.com.
Diffusiemodellen zijn naar voren gekomen als een krachtig instrument voor het genereren van hoogwaardige afbeeldingen, video's en 3D-inhoud. Hoewel bemonsteringsbegeleidingstechnieken zoals CFG de kwaliteit verbeteren, verminderen ze de diversiteit en beweging. Autobegeleiding vermindert deze problemen, maar vereist extra training van zwakke modellen, wat de praktische toepasbaarheid ervan voor grootschalige modellen beperkt. In dit werk introduceren we Spatiotemporele Skipbegeleiding (STG), een eenvoudige trainingsvrije bemonsteringsbegeleidingsmethode voor het verbeteren van op transformer gebaseerde video-diffusiemodellen. STG maakt gebruik van een impliciet zwak model via zelfverstoring, waardoor de noodzaak voor externe modellen of extra training wordt vermeden. Door selectief spatiotemporele lagen over te slaan, produceert STG een uitgelijnde, verslechterde versie van het originele model om de kwaliteit van de steekproef te verbeteren zonder de diversiteit of dynamiek in gevaar te brengen. Onze bijdragen omvatten: (1) de introductie van STG als een efficiënte, hoogwaardige begeleidingstechniek voor video-diffusiemodellen, (2) het elimineren van de noodzaak van hulpmodellen door het simuleren van een zwak model door het overslaan van lagen, en (3) het waarborgen van kwaliteitsverbeterde begeleiding zonder de steekproefdiversiteit of dynamiek in gevaar te brengen, in tegenstelling tot CFG. Voor aanvullende resultaten, bezoek https://junhahyung.github.io/STGuidance.
Omgekeerd denken speelt een cruciale rol in menselijke redenering. Mensen kunnen redeneren niet alleen vanuit een probleem naar een oplossing, maar ook andersom, dat wil zeggen, starten vanuit de oplossing en redeneren naar het probleem. Dit verbetert vaak de algehele redeneerprestatie omdat het consistentiecontroles mogelijk maakt tussen hun voorwaartse en achterwaartse denken. Om Grote Taalmodellen (LLM's) in staat te stellen om omgekeerd te denken, introduceren we Omgekeerd-Versterkt Denken (RevThink), een raamwerk bestaande uit gegevensaugmentatie en leermiddelen. In RevThink breiden we de dataset uit door gestructureerd voorwaarts-achterwaarts redeneren te verzamelen van een docentmodel, bestaande uit: (1) de oorspronkelijke vraag, (2) voorwaarts redeneren, (3) achterwaartse vraag, en (4) achterwaarts redeneren. Vervolgens gebruiken we drie doelstellingen om een kleiner studentenmodel op te leiden in een multi-task-leerstijl: (a) genereer voorwaarts redeneren vanuit een vraag, (b) genereer een achterwaartse vraag vanuit een vraag, en (c) genereer achterwaarts redeneren vanuit de achterwaartse vraag. Experimenten over 12 datasets die algemeen inzicht, wiskunde en logisch redeneren bestrijken, tonen een gemiddelde verbetering van 13,53% ten opzichte van de zero-shot-prestatie van het studentenmodel en een verbetering van 6,84% ten opzichte van de sterkste baselines voor kennisdestillatie. Bovendien toont onze methode monster-efficiëntie aan - door slechts 10% van het juiste voorwaartse redeneren uit de trainingsgegevens te gebruiken, presteert het beter dan een standaard fine-tuning methode die is getraind op 10x meer voorwaarts redeneren. RevThink vertoont ook sterke generalisatie naar out-of-distribution held-out datasets.
Als een fundamentele ruggengraat voor videogeneratie worden diffusiemodellen uitgedaagd door een lage inferentiesnelheid als gevolg van de sequentiële aard van denoising. Eerdere methoden versnellen de modellen door het cachen en hergebruiken van modeluitvoer op gelijkmatig geselecteerde tijdstappen. Echter, een dergelijke strategie verwaarloost het feit dat verschillen tussen modeluitvoer niet gelijkmatig zijn over tijdstappen, wat het selecteren van de juiste modeluitvoer om te cachen bemoeilijkt en leidt tot een slecht evenwicht tussen inferentie-efficiëntie en visuele kwaliteit. In deze studie introduceren we Tijdstap Insluitende Bewuste Cache (TeaCache), een trainingsvrije cachelingsbenadering die de fluctuerende verschillen tussen modeluitvoer over tijdstappen schat en benut. In plaats van rechtstreeks gebruik te maken van de tijdrovende modeluitvoer, richt TeaCache zich op modelinputs, die een sterke correlatie hebben met de modeluitvoer en verwaarloosbare computationele kosten met zich meebrengen. TeaCache moduleert eerst de ruisachtige inputs met behulp van de tijdstap insluitingen om ervoor te zorgen dat hun verschillen beter overeenkomen met die van de modeluitvoer. Vervolgens introduceert TeaCache een herschalingsstrategie om de geschatte verschillen te verfijnen en gebruikt deze om de uitvoercaching aan te geven. Experimenten tonen aan dat TeaCache tot 4,41x versnelling bereikt ten opzichte van Open-Sora-Plan met verwaarloosbare (-0,07% Vbench-score) degradatie van visuele kwaliteit.
Diffusiemodellen zijn bedreven in het genereren van hoogwaardige afbeeldingen. Ze zijn echter alleen effectief wanneer ze werken op de resolutie die tijdens de training is gebruikt. Inferentie op een geschaalde resolutie leidt tot repetitieve patronen en structurele vervormingen. Het opnieuw trainen op hogere resoluties wordt al snel onmogelijk. Daarom zijn methoden die bestaande diffusiemodellen in staat stellen om te werken bij flexibele testtijdsresoluties zeer wenselijk. Eerdere werken hebben last van frequente artefacten en introduceren vaak grote latentie-overhead. We stellen twee eenvoudige modules voor die samen deze problemen oplossen. We introduceren een Frequentiemodulatie (FM) module die het Fourier domein benut om de consistentie van de globale structuur te verbeteren, en een Aandachtsmodulatie (AM) module die de consistentie van lokale textuurpatronen verbetert, een probleem dat grotendeels genegeerd is in eerdere werken. Onze methode, genaamd Fam diffusie, kan naadloos geïntegreerd worden in elk latent diffusiemodel en vereist geen extra training. Uitgebreide kwalitatieve resultaten benadrukken de effectiviteit van onze methode bij het aanpakken van structurele en lokale artefacten, terwijl kwantitatieve resultaten state-of-the-art prestaties aantonen. Bovendien vermijdt onze methode overbodige inferentietrucjes voor verbeterde consistentie zoals op patches gebaseerde of progressieve generatie, wat leidt tot verwaarloosbare latentie-overhead.
Grote taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond, maar hun adoptie wordt beperkt door hoge computationele kosten tijdens inferentie. Het verhogen van het aantal parameters verbetert de nauwkeurigheid, maar vergroot ook de kloof tussen de state-of-the-art mogelijkheden en de praktische inzetbaarheid. We presenteren Puzzle, een framework om LLM-inferentie op specifieke hardware te versnellen terwijl hun mogelijkheden behouden blijven. Door een innovatieve toepassing van neurale architectuurzoek (NAS) op een ongekende schaal, optimaliseert Puzzle systematisch modellen met tientallen miljarden parameters onder hardwarebeperkingen. Onze aanpak maakt gebruik van bloksgewijze lokale kennisdistillatie (BLD) voor parallelle architectuurexploratie en maakt gebruik van geheeltallige programmering voor nauwkeurige beperkingsoptimalisatie. We demonstreren de real-world impact van ons framework via Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), een publiekelijk beschikbaar model afgeleid van Llama-3.1-70B-Instruct. Nemotron-51B behaalt een 2,17x versnelling van de inferentiesnelheid, passend op een enkele NVIDIA H100 GPU terwijl 98,4% van de oorspronkelijke modelmogelijkheden behouden blijven. Nemotron-51B staat momenteel bekend als het meest nauwkeurige taalmodel dat inferentie kan uitvoeren op een enkele GPU met grote batchgroottes. Opmerkelijk genoeg vereiste deze transformatie slechts 45B trainings-tokens, in vergelijking met meer dan 15T tokens die werden gebruikt voor het 70B-model waar het van is afgeleid. Dit vestigt een nieuw paradigma waar krachtige modellen geoptimaliseerd kunnen worden voor efficiënte implementatie met slechts verwaarloosbare compromissen van hun mogelijkheden, waarbij wordt aangetoond dat inferentieprestaties, niet alleen het aantal parameters, de modelselectie moeten leiden. Met de release van Nemotron-51B en de presentatie van het Puzzle-framework bieden we beoefenaars directe toegang tot state-of-the-art taalmodelleringsmogelijkheden tegen aanzienlijk verminderde computationele kosten.
Recente ontwikkelingen in videogeneratie zijn sterk gestimuleerd door videodiffusiemodellen, waarbij camerabewegingsbesturing naar voren komt als een cruciale uitdaging bij het creëren van op maat gemaakte visuele inhoud. Dit artikel introduceert trajectaandacht, een nieuw benadering die aandacht uitvoert langs beschikbare pixeltrajecten voor nauwkeurige camerabewegingsbesturing. In tegenstelling tot bestaande methoden die vaak onnauwkeurige resultaten opleveren of temporale correlaties verwaarlozen, heeft onze benadering een sterkere inductieve bias die trajectinformatie naadloos injecteert in het videogeneratieproces. Belangrijk is dat onze benadering trajectaandacht modelleert als een hulpbranche naast traditionele temporale aandacht. Deze opzet maakt het mogelijk dat de oorspronkelijke temporale aandacht en de trajectaandacht synergetisch werken, waardoor zowel nauwkeurige bewegingsbesturing als nieuwe inhoudsgeneratiemogelijkheden worden gegarandeerd, wat cruciaal is wanneer het traject slechts gedeeltelijk beschikbaar is. Experimenten met camerabewegingsbesturing voor afbeeldingen en video's tonen aanzienlijke verbeteringen in precisie en consistentie op lange termijn, met behoud van hoogwaardige generatie. Bovendien laten we zien dat onze benadering kan worden uitgebreid naar andere videobewegingsbesturingstaken, zoals video-editing geleid door het eerste frame, waarbij het uitblinkt in het behouden van inhoudsconsistentie over grote ruimtelijke en temporele bereiken.
De tokenisatie van spraak met neurale audiocodec-modellen is een essentieel onderdeel van moderne AI-pijplijnen voor de generatie of het begrip van spraak, alleen of in een multimodale context. Traditioneel hebben dergelijke tokenisatiemodellen zich gericht op architecturen met een laag parameteraantal met alleen componenten met sterke inductieve vooroordelen. In dit werk laten we zien dat door het schalen van een transformer-architectuur met een groot parameteraantal voor dit probleem, en het toepassen van een flexibele bottleneck gebaseerd op eindige scalaire kwantisatie (FSQ), het mogelijk is om state-of-the-art spraakkwaliteit te bereiken bij extreem lage bitsnelheden van 400 of 700 bits per seconde. De getrainde modellen presteren aanzienlijk beter dan bestaande baselines in zowel objectieve als subjectieve tests.
Menselijke beweging, inherent continu en dynamisch, vormt aanzienlijke uitdagingen voor generatieve modellen. Ondanks hun dominantie ondervinden discrete kwantisatiemethoden, zoals VQ-VAE's, inherente beperkingen, waaronder beperkte expressiviteit en ruisartefacten per frame. Continue benaderingen, hoewel ze soepelere en natuurlijkere bewegingen produceren, struikelen vaak door de hoge dimensionale complexiteit en beperkte trainingsgegevens. Om deze "discordantie" tussen discrete en continue representaties op te lossen, introduceren we DisCoRD: Discrete Tokens naar Continue Beweging via Gelijkgerichte Stroomdecodering, een nieuw methode die discrete bewegingstokens decodeert naar continue beweging via gerectificeerde stroom. Door een iteratief verfijningsproces in de continue ruimte toe te passen, legt DisCoRD fijnkorrelige dynamiek vast en zorgt voor soepelere en natuurlijkere bewegingen. Compatibel met elk op discretie gebaseerd raamwerk, verbetert onze methode de natuurlijkheid zonder afbreuk te doen aan de trouw aan de conditioneringssignalen. Uitgebreide evaluaties tonen aan dat DisCoRD state-of-the-art prestaties behaalt, met een FID van 0.032 op HumanML3D en 0.169 op KIT-ML. Deze resultaten bevestigen DisCoRD als een robuuste oplossing voor het overbruggen van de kloof tussen discrete efficiëntie en continue realisme. Onze projectpagina is beschikbaar op: https://whwjdqls.github.io/discord.github.io/.
Met de groeiende schaal en complexiteit van videogegevens, brengt het efficiënt verwerken van lange videosequenties aanzienlijke uitdagingen met zich mee vanwege de kwadratische toename in geheugen- en rekenvereisten die gepaard gaan met bestaande op transformatoren gebaseerde Grote Multi-modale Modellen (GMM's). Om deze problemen aan te pakken, introduceren we Video-Ma^2mba, een nieuw architectuur dat Staatruimtemodellen (SSM's) integreert binnen het Mamba-2 framework, waarbij de aandachtsmechanismen worden vervangen. Dit maakt het mogelijk voor de GMM's om lineair op te schalen wat betreft tijd- en geheugenvereisten, waardoor het haalbaar wordt om langdurige videomateriaal te verwerken. Bovendien verbeteren we de geheugenefficiëntie door de introductie van de Multi-Axis Gradient Checkpointing (MA-GC) methode, die strategisch geheugen beheert door alleen essentiële activaties over meerdere rekenassen te behouden. Onze aanpak vermindert aanzienlijk de geheugenfootprint in vergelijking met standaard gradient checkpointing. Empirische analyses tonen aan dat Video-Ma^2mba uitgebreide videosequenties kan verwerken - equivalent aan miljoenen tokens of meer dan twee uur aan continue sequenties bij 1 FPS - op een enkele GPU. Door een gedetailleerde vastlegging van temporele dynamiek te behouden, verbetert ons model de nauwkeurigheid en relevantie van reacties bij taken voor het begrijpen van lange video's, waarbij aanzienlijke voordelen worden aangetoond ten opzichte van bestaande frameworks.
Wiskundige redeneervaardigheden nemen toe met taalagenten die zijn uitgebreid met tools, maar methoden steunen vaak op gesloten bronnen of grote modellen, externe gegevens of uitgebreide prompt-engineering. Dit werk introduceert MATATA, een nieuw kosteneffectieve methode om LLM-agenten te trainen voor problemen met tabulaire gegevens door redeneren, plannen en gereedschapsgebruik. Met een progressief zelfverbeteringsparadigma en iteratieve zwakke supervisie, versterkt het 3,8B/8B Kleine Taalmodellen (SLM's), bijzonder geschikt voor lokaal hosten en gevoelige zakelijke contexten waar gegevensprivacy cruciaal is. Door flexibele en herbruikbare tools in te zetten voor verschillende datasets, behaalt het robuuste prestaties met effectieve schaalbaarheid over gedeelde taken. Experimenten tonen aan dat MATATA state-of-the-art prestaties behaalt op FinQA en TAT-QA onder redeneerkaders gebaseerd op open-source modellen. Bovendien concurreren MATATA-modellen met GPT-4-gebaseerde kaders op TabMWP, terwijl ze SLM's zijn.
Recentelijk hebben tal van werken 3D camerabesturing geïntegreerd in fundamentele tekst-naar-video modellen, maar de resulterende camerabesturing is vaak onnauwkeurig, wat de kwaliteit van de videoproductie schaadt. In dit werk analyseren we camerabewegingen vanuit een eerstprincipes-perspectief, waarbij we inzichten blootleggen die precieze 3D cameramanipulatie mogelijk maken zonder de synthese kwaliteit in gevaar te brengen. Allereerst bepalen we dat de beweging veroorzaakt door camerabewegingen in video's van lage frequentie is. Dit motiveert ons om de trainings- en testpose-conditioneringsschema's aan te passen, waardoor de trainingsconvergentie wordt versneld en de visuele en bewegingskwaliteit verbeteren. Vervolgens, door de representaties van een onvoorwaardelijke video-diffusie-transformator te onderzoeken, observeren we dat ze impliciet camerapositieschatting uitvoeren onder de motorkap, en dat slechts een deel van hun lagen de camerainformatie bevat. Dit suggereerde ons om de injectie van camerabesturing te beperken tot een subset van de architectuur om interferentie met andere videofuncties te voorkomen, wat resulteerde in een 4x reductie van trainingsparameters, verbeterde trainingsnelheid en 10% hogere visuele kwaliteit. Ten slotte vullen we de typische dataset voor het leren van camerabesturing aan met een samengestelde dataset van 20K diverse dynamische video's met stilstaande camera's. Dit helpt het model om het verschil tussen camerabeweging en scènebeweging te onderscheiden, en verbetert de dynamiek van gegenereerde pose-geconditioneerde video's. We combineren deze bevindingen om de Advanced 3D Camera Control (AC3D) architectuur te ontwerpen, het nieuwe state-of-the-art model voor generatieve videomodellering met camerabesturing.
We introduceren AlphaTablets, een nieuwe en generieke representatie van 3D-vlakken die continue 3D-oppervlakken en nauwkeurige grensafbakening biedt. Door 3D-vlakken voor te stellen als rechthoeken met alfakanalen, combineren AlphaTablets de voordelen van huidige 2D- en 3D-vlakrepresentaties, waardoor nauwkeurige, consistente en flexibele modellering van 3D-vlakken mogelijk is. We leiden differentieerbare rasterisatie af bovenop AlphaTablets om 3D-vlakken efficiënt om te zetten naar afbeeldingen, en stellen een nieuwe bottom-up pijplijn voor 3D-vlakreconstructie van monoculaire video's voor. Door te beginnen met 2D-superpixels en geometrische aanwijzingen van vooraf getrainde modellen, initialiseren we 3D-vlakken als AlphaTablets en optimaliseren ze via differentieerbare rendering. Een effectief samenvoegingsschema wordt geïntroduceerd om de groei en verfijning van AlphaTablets te vergemakkelijken. Door iteratieve optimalisatie en samenvoeging reconstrueren we complete en nauwkeurige 3D-vlakken met solide oppervlakken en duidelijke grenzen. Uitgebreide experimenten op de ScanNet-dataset tonen een toonaangevende prestatie in 3D-vlakreconstructie aan, waarbij het grote potentieel van AlphaTablets als generieke 3D-vlakrepresentatie voor diverse toepassingen wordt benadrukt. Het projectpagina is beschikbaar op: https://hyzcluster.github.io/alphatablets
Met het steeds groeiende aantal nieuwsverhalen dat online beschikbaar is, is het classificeren ervan op onderwerp, ongeacht de taal waarin ze zijn geschreven, cruciaal geworden voor het verbeteren van de toegang van lezers tot relevante inhoud. Om deze uitdaging aan te gaan, stellen we een leerling-leraar kader voor op basis van grote taalmodellen (LLM's) voor het ontwikkelen van meertalige nieuwsclassificatiemodellen van redelijke omvang zonder de noodzaak van handmatige gegevensannotatie. Het kader maakt gebruik van een Generatief Voortraind Transformer (GVT) model als het leermodel om een IPTC Media Topic-trainingsdataset te ontwikkelen door automatische annotatie van nieuwsartikelen in het Sloveens, Kroatisch, Grieks en Catalaans. Het leermodel vertoont een hoge zero-shot prestatie in alle vier talen. De overeenstemming ervan met menselijke annotatoren is vergelijkbaar met die tussen de menselijke annotatoren zelf. Om de computationele beperkingen te verminderen die gepaard gaan met de vereiste verwerking van miljoenen teksten per dag, worden kleinere BERT-achtige leerlingmodellen fijnafgestemd op de GVT-geannoteerde dataset. Deze leerlingmodellen behalen een hoge prestatie die vergelijkbaar is met het leermodel. Verder onderzoeken we de impact van de trainingsdatasetgrootte op de prestatie van de leerlingmodellen en onderzoeken we hun eentalige, meertalige en zero-shot cross-linguale mogelijkheden. De bevindingen geven aan dat leerlingmodellen een hoge prestatie kunnen behalen met een relatief klein aantal trainingsvoorbeelden en sterke zero-shot cross-linguale mogelijkheden demonstreren. Tot slot publiceren we de best presterende nieuwsclassificeerder, waardoor meertalige classificatie mogelijk is met de topniveaucategorieën van het IPTC Media Topic-schema.
Het trainen van grote neurale netwerken vereist doorgaans het delen van gradiënten tussen versnellers via gespecialiseerde hoogwaardige interconnects. Geïnspireerd door de signaalverwerkingsprincipes van frequentiedecompositie en energiecompactie, tonen we aan dat het synchroniseren van volledige optimizerstaten en modelparameters tijdens training overbodig is. Door het loskoppelen van momentumupdates en het toestaan van gecontroleerde divergentie in optimizerstaten over versnellers heen, bereiken we een verbeterde convergentie in vergelijking met state-of-the-art optimalisatoren. We introduceren {De}coupled {Mo}mentum (DeMo), een samengevoegde optimizer en datageparallellisatie-algoritme dat de communicatievereisten tussen versnellers met meerdere ordes van grootte vermindert. Dit maakt training van grote neurale netwerken mogelijk, zelfs met beperkte netwerkbandbreedte en heterogene hardware. Onze methode is topologie-agnostisch en architectuur-onafhankelijk en ondersteunt schaalbare klok-synchrone gedistribueerde training met verwaarloosbare reken- en geheugenoverhead. Empirische resultaten tonen aan dat modellen getraind met DeMo overeenkomen met of zelfs beter presteren dan equivalente modellen getraind met AdamW, terwijl de noodzaak voor hoogwaardige interconnects bij het vooraf trainen van grootschalige basismodellen wordt geëlimineerd. Een open source referentie-implementatie in PyTorch is gepubliceerd op GitHub op https://github.com/bloc97/DeMo
Recent onderzoek heeft aangetoond dat diffusiemodellen kunnen worden gebruikt als krachtige neurale render-engines die kunnen worden ingezet voor het invoegen van virtuele objecten in afbeeldingen. In tegenstelling tot typische op fysica gebaseerde renderers, zijn neurale render-engines echter beperkt door het gebrek aan handmatige controle over de belichtingsopstelling, wat vaak essentieel is voor het verbeteren of personaliseren van het gewenste beeldresultaat. In dit artikel laten we zien dat nauwkeurige belichtingscontrole kan worden bereikt voor objectbelichting door eenvoudigweg de gewenste schaduwen van het object te specificeren. Verrassend genoeg laten we zien dat het injecteren van alleen de schaduw van het object in een vooraf getrainde diffusie-gebaseerde neurale renderer het in staat stelt om het object nauwkeurig te belichten volgens de gewenste lichtpositie, terwijl het object (en zijn schaduw) op passende wijze harmonieert binnen de doelachtergrondafbeelding. Onze methode, SpotLight, maakt gebruik van bestaande neurale renderbenaderingen en behaalt controleerbare belichtingsresultaten zonder extra training. Specifiek demonstreren we het gebruik ervan met twee neurale renderers uit de recente literatuur. We laten zien dat SpotLight superieure objectcompositieresultaten behaalt, zowel kwantitatief als perceptueel, zoals bevestigd door een gebruikersstudie, waarbij bestaande diffusie-gebaseerde modellen die specifiek zijn ontworpen voor belichting worden overtroffen.
In het huidige werk presenteren we Training Noise Token (TNT) Pruning voor vision transformers. Onze methode versoepelt de voorwaarde van het laten vallen van discrete tokens naar continue additieve ruis, wat zorgt voor soepele optimalisatie tijdens training, terwijl discrete verlaging van berekeningen behouden blijft in implementatie-instellingen. We leggen theoretische verbanden met de Rate-Distortion literatuur en voeren empirische evaluaties uit op de ImageNet dataset met behulp van ViT en DeiT architecturen, waarbij we de voordelen van TNT ten opzichte van eerdere snoeimethoden aantonen.