Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We stellen SlowFast-LLaVA (of kortweg SF-LLaVA) voor, een trainingsvrij video groot taalmodel (LLM) dat zowel gedetailleerde ruimtelijke semantiek als langetermijn temporele context gezamenlijk kan vastleggen zonder het tokenbudget van veelgebruikte LLM's te overschrijden. Dit wordt gerealiseerd door een tweestromen SlowFast-ontwerp van inputs voor Video LLM's te gebruiken om op een effectieve manier kenmerken uit bemonsterde videoframes te aggregeren. Specifiek extraheert het Slow-pad kenmerken met een lage framesnelheid terwijl zoveel mogelijk ruimtelijke details behouden blijven (bijvoorbeeld met 24x24 tokens), en opereert het Fast-pad op een hoge framesnelheid maar gebruikt het een grotere ruimtelijke poolingstap (bijvoorbeeld downsampling 6x) om zich te richten op de bewegingssignalen. Als gevolg maakt dit ontwerp het mogelijk om zowel ruimtelijke als temporele kenmerken adequaat vast te leggen die nuttig zijn voor het begrijpen van details in de video. Experimentele resultaten tonen aan dat SF-LLaVA bestaande trainingsvrije methoden overtreft op een breed scala aan videotaken. Op sommige benchmarks behaalt het vergelijkbare of zelfs betere prestaties vergeleken met state-of-the-art Video LLM's die zijn afgestemd op videodatasets.
Grote taalmodellen (LLM's) die gericht zijn op verschillende implementatieschalen en groottes worden momenteel geproduceerd door elke variant vanaf nul te trainen; dit is extreem rekenintensief. In dit artikel onderzoeken we of het snoeien van een bestaand LLM en het vervolgens opnieuw trainen met een fractie (<3%) van de oorspronkelijke trainingsdata een geschikt alternatief kan zijn voor herhaalde, volledige hertraining. Hiertoe ontwikkelen we een set praktische en effectieve compressiebest practices voor LLM's die diepte-, breedte-, aandacht- en MLP-snoei combineren met hertraining op basis van kennisdistillatie; we komen tot deze best practices door een gedetailleerde empirische verkenning van snoeistrategieën voor elke as, methoden om assen te combineren, distillatiestrategieën en zoektechnieken om optimale gecomprimeerde architecturen te vinden. We gebruiken deze handleiding om de Nemotron-4-familie van LLM's met een factor 2-4x te comprimeren en vergelijken hun prestaties met vergelijkbaar grote modellen op een verscheidenheid aan taalmodelleringstaken. Het afleiden van 8B- en 4B-modellen van een reeds voorgetraind 15B-model met onze aanpak vereist tot 40x minder trainings tokens per model in vergelijking met trainen vanaf nul; dit resulteert in rekenkostenbesparingen van 1.8x voor het trainen van de volledige modelfamilie (15B, 8B en 4B). Minitron-modellen vertonen tot 16% verbetering in MMLU-scores in vergelijking met trainen vanaf nul, presteren vergelijkbaar met andere communitymodellen zoals Mistral 7B, Gemma 7B en Llama-3 8B, en overtreffen state-of-the-art compressietechnieken uit de literatuur. We hebben de Minitron-modelgewichten open source gemaakt op Huggingface, met bijbehorend aanvullend materiaal inclusief voorbeeldcode beschikbaar op GitHub.
De enorme schaal van state-of-the-art foundation-modellen heeft hun toegankelijkheid voor wetenschappers beperkt, omdat aangepaste experimenten met grote modelgroottes dure hardware en complexe engineering vereisen die voor de meeste onderzoekers onpraktisch zijn. Om deze problemen te verlichten, introduceren we NNsight, een open-source Python-pakket met een eenvoudige, flexibele API die interventies op elk PyTorch-model kan uitdrukken door rekengrafieken te bouwen. We introduceren ook NDIF, een collaboratief onderzoeksplatform dat onderzoekers toegang biedt tot foundation-scale LLM's via de NNsight API. Code, documentatie en tutorials zijn beschikbaar op https://www.nnsight.net.
Het begrijpen van kennismechanismen in Large Language Models (LLMs) is cruciaal voor de vooruitgang naar betrouwbare AGI. Dit artikel bespreekt de analyse van kennismechanismen vanuit een nieuwe taxonomie, inclusief kennisbenutting en -evolutie. Kennisbenutting verdiept zich in het mechanisme van memorisatie, begrip en toepassing, en creatie. Kennis evolutie richt zich op de dynamische voortgang van kennis binnen individuele en groeps-LLMs. Bovendien bespreken we welke kennis LLMs hebben geleerd, de redenen voor de kwetsbaarheid van parametrische kennis, en de potentiële donkere kennis (hypothese) die moeilijk aan te pakken zal zijn. We hopen dat dit werk kan bijdragen aan het begrijpen van kennis in LLMs en inzichten kan bieden voor toekomstig onderzoek.
Grote multimodale modellen (LMMs) bieden aanzienlijke mogelijkheden in verschillende domeinen, van persoonlijke assistentie bij dagelijkse taken tot geavanceerde toepassingen zoals medische diagnostiek. Hun mogelijkheden hebben echter beperkingen in het domein van videogames, zoals uitdagingen met scènebegrip, hallucinaties en onnauwkeurige beschrijvingen van videogame-inhoud, vooral in open-source modellen. Dit artikel beschrijft de ontwikkeling van VideoGameBunny, een LLaVA-stijl model gebaseerd op Bunny, specifiek ontworpen voor het begrijpen van afbeeldingen uit videogames. We publiceren tussentijdse checkpoints, trainingslogboeken en een uitgebreide dataset bestaande uit 185.259 videogame-afbeeldingen van 413 titels, samen met 389.565 afbeelding-instructie paren die afbeeldingbeschrijvingen, vraag-antwoord paren en een JSON-representatie van 16 elementen van 136.974 afbeeldingen bevatten. Onze experimenten tonen aan dat onze hoogwaardige game-gerelateerde data het potentieel hebben om een relatief klein model beter te laten presteren dan het veel grotere state-of-the-art model LLaVa-1.6-34b (dat meer dan 4x het aantal parameters heeft). Onze studie baant de weg voor toekomstig onderzoek naar videogame-begrip voor taken zoals spelen, commentaar geven en debuggen. Code en data zijn beschikbaar op https://videogamebunny.github.io/.
Multi-agent reinforcement learning (MARL) heeft recentelijk uitblinkende resultaten geboekt bij het oplossen van uitdagende coöperatieve en competitieve multi-agent problemen in diverse omgevingen, meestal met een beperkt aantal agents en volledige observeerbaarheid. Bovendien wordt voorgesteld om een reeks cruciale robotica-gerelateerde taken, zoals multi-robot navigatie en obstakelvermijding, die traditioneel werden benaderd met klassieke niet-leerbare methoden (bijvoorbeeld heuristische zoekalgoritmen), nu op te lossen met op leren gebaseerde of hybride methoden. Desalniettemin is het in dit domein moeilijk, zo niet onmogelijk, om een eerlijke vergelijking te maken tussen klassieke, op leren gebaseerde en hybride benaderingen vanwege het ontbreken van een uniform raamwerk dat zowel leren als evaluatie ondersteunt. Daarom introduceren we POGEMA, een set van uitgebreide tools die een snelle omgeving voor leren omvat, een generator van probleeminstanties, een verzameling van vooraf gedefinieerde instanties, een visualisatietoolkit en een benchmarkingtool die geautomatiseerde evaluatie mogelijk maakt. We introduceren en specificeren een evaluatieprotocol dat een reeks domeingerelateerde metrieken definieert, berekend op basis van primaire evaluatie-indicatoren (zoals succespercentage en padlengte), wat een eerlijke veelzijdige vergelijking mogelijk maakt. De resultaten van een dergelijke vergelijking, waarbij een verscheidenheid aan state-of-the-art MARL, zoekgebaseerde en hybride methoden betrokken zijn, worden gepresenteerd.
Grote multimodale modellen (LMMs) verwerken steeds langere en rijkere invoer. Ondanks de vooruitgang zijn er weinig openbare benchmarks beschikbaar om deze ontwikkeling te meten. Om dit gat te dichten, introduceren we LongVideoBench, een vraag-antwoord-benchmark die video-taal verweven invoer tot een uur lang bevat. Onze benchmark omvat 3.763 web-gecollecteerde video's van verschillende lengtes met hun ondertitels over diverse thema's, ontworpen om LMMs uitgebreid te evalueren op langetermijn multimodale begrip. Om dit te bereiken, interpreteren we de primaire uitdaging als het nauwkeurig ophalen en redeneren over gedetailleerde multimodale informatie uit lange invoer. Als zodanig formuleren we een nieuwe video vraag-antwoord-taak genaamd verwijzend redeneren. Specifiek bevat het, als onderdeel van de vraag, een verwijzende query die gerelateerde videocontexten aanhaalt, genaamd de verwijzde context. Het model moet vervolgens redeneren over relevante videodetails uit de verwijzde context. Volgens het paradigma van verwijzend redeneren hebben we 6.678 door mensen geannoteerde meerkeuzevragen in 17 fijnmazige categorieën samengesteld, waarmee een van de meest uitgebreide benchmarks voor langdurig videobegrip wordt gevestigd. Evaluaties suggereren dat de LongVideoBench aanzienlijke uitdagingen biedt, zelfs voor de meest geavanceerde propriëtaire modellen (bijv. GPT-4o, Gemini-1.5-Pro, GPT-4-Turbo), terwijl hun open-source tegenhangers een nog grotere prestatiekloof laten zien. Daarnaast geven onze resultaten aan dat de modelprestaties op de benchmark alleen verbeteren wanneer ze meer frames kunnen verwerken, wat LongVideoBench positioneert als een waardevolle benchmark voor het evalueren van toekomstige generaties lang-context LMMs.
Reinforcement learning from human feedback (RLHF) is een belangrijke drijvende kracht achter kwaliteit en veiligheid in state-of-the-art grote taalmodelen. Toch is Best-of-N sampling, een verrassend eenvoudige en krachtige strategie tijdens inferentie, een methode die de beste generatie selecteert uit N kandidaten. In dit artikel introduceren we Best-of-N Distillation (BOND), een nieuw RLHF-algoritme dat Best-of-N probeert na te bootsen, maar zonder de aanzienlijke rekenkosten tijdens inferentie. Specifiek is BOND een distributie-matching-algoritme dat ervoor zorgt dat de distributie van generaties van het beleid dichter bij de Best-of-N-distributie komt. We gebruiken de Jeffreys-divergentie (een lineaire combinatie van forward en backward KL) om een balans te vinden tussen mode-covering en mode-seeking gedrag, en leiden een iteratieve formulering af die gebruikmaakt van een bewegend anker voor efficiëntie. We demonstreren de effectiviteit van onze aanpak en verschillende ontwerpkeuzes via experimenten op abstractieve samenvatting en Gemma-modellen. Het uitlijnen van Gemma-beleid met BOND overtreft andere RLHF-algoritmen door betere resultaten te behalen op verschillende benchmarks.
Hoewel Neural Radiance Fields (NeRFs) een uitzonderlijke kwaliteit hebben laten zien, blijft hun langdurige trainingstijd een beperking. Generaliseerbare en op MVS gebaseerde NeRFs kunnen de trainingstijd weliswaar verkorten, maar gaan vaak ten koste van de kwaliteit. Dit artikel presenteert een nieuwe aanpak genaamd BoostMVSNeRFs om de renderkwaliteit van op MVS gebaseerde NeRFs in grootschalige scènes te verbeteren. We identificeren eerst beperkingen in op MVS gebaseerde NeRF-methoden, zoals beperkte viewportdekking en artefacten door een beperkt aantal invoerweergaven. Vervolgens pakken we deze beperkingen aan door een nieuwe methode voor te stellen die meerdere kostenvolumes selecteert en combineert tijdens volume rendering. Onze methode vereist geen training en kan zich op een feed-forward manier aanpassen aan elke op MVS gebaseerde NeRF-methode om de renderkwaliteit te verbeteren. Bovendien is onze aanpak ook end-to-end trainbaar, waardoor fine-tuning op specifieke scènes mogelijk is. We demonstreren de effectiviteit van onze methode door experimenten op grootschalige datasets, waarbij we aanzienlijke verbeteringen in de renderkwaliteit laten zien in grootschalige scènes en onbegrensde buitenomgevingen. We geven de broncode van BoostMVSNeRFs vrij op https://su-terry.github.io/BoostMVSNeRFs/.
Diffusiemodellen verstrengelen inhoud- en stijlgeneratie tijdens het denoisingsproces, wat leidt tot ongewenste inhoudsmodificatie wanneer ze direct worden toegepast op stilisatietaken. Bestaande methoden hebben moeite om het diffusiemodel effectief te controleren om aan de esthetische eisen voor stilisatie te voldoen. In dit artikel introduceren we Artist, een trainingsvrije aanpak die esthetisch de inhoud- en stijlgeneratie van een voorgetraind diffusiemodel beheerst voor tekstgestuurde stilisatie. Onze belangrijkste inzicht is om het denoisen van inhoud en stijl te ontwarren in afzonderlijke diffusieprocessen, terwijl informatie tussen hen wordt gedeeld. We stellen eenvoudige maar effectieve methoden voor inhouds- en stijlcontrole voor die de generatie van stijlonafhankelijke inhoud onderdrukken, wat resulteert in harmonieuze stilisatieresultaten. Uitgebreide experimenten tonen aan dat onze methode uitblinkt in het behalen van esthetische stilisatie-eisen, waarbij gedetailleerde details in de inhoudsafbeelding behouden blijven en goed aansluiten bij de stijlprompt. Bovendien demonstreren we de hoge beheersbaarheid van de stilisatiesterkte vanuit verschillende perspectieven. Code zal worden vrijgegeven, projecthomepage: https://DiffusionArtist.github.io
Algemene kunstmatige intelligentie (AI) systemen zijn gebouwd op enorme hoeveelheden publieke webdata, samengesteld in corpora zoals C4, RefinedWeb en Dolma. Voor zover wij weten, voeren wij de eerste grootschalige, longitudinale audit uit van de toestemmingsprotocollen voor de webdomeinen die ten grondslag liggen aan AI-trainingscorpora. Onze audit van 14.000 webdomeinen biedt een uitgebreid beeld van crawlbare webdata en hoe toestemmingsvoorkeuren voor het gebruik ervan in de loop van de tijd veranderen. We observeren een toename van AI-specifieke clausules om het gebruik te beperken, aanzienlijke verschillen in restricties voor AI-ontwikkelaars, evenals algemene inconsistenties tussen de uitgedrukte intenties in de Algemene Voorwaarden van websites en hun robots.txt. We diagnosticeren deze als symptomen van ineffectieve webprotocollen, die niet zijn ontworpen om om te gaan met de wijdverbreide herbestemming van het internet voor AI. Onze longitudinale analyses laten zien dat er in één jaar tijd (2023-2024) een snelle toename is geweest van datarestricties van webbronnen, waardoor ~5%+ van alle tokens in C4, of 28%+ van de meest actief onderhouden, kritieke bronnen in C4, volledig beperkt zijn voor gebruik. Voor restricties in de Algemene Voorwaarden met betrekking tot crawlen, is nu een volledige 45% van C4 beperkt. Indien gerespecteerd of gehandhaafd, leiden deze restricties snel tot een vertekening van de diversiteit, actualiteit en schaalwetten voor algemene AI-systemen. We hopen de opkomende crisis in datatoestemming te illustreren, die een groot deel van het open web afsluit, niet alleen voor commerciële AI, maar ook voor niet-commerciële AI en academische doeleinden.
Ondanks dat Flow Matching en diffusiemodellen zich hebben ontwikkeld als krachtige generatieve paradigma's voor continue variabelen zoals afbeeldingen en video's, is hun toepassing op hoogdimensionale discrete gegevens, zoals taal, nog steeds beperkt. In dit werk presenteren we Discrete Flow Matching, een nieuw discreet stroomparadigma dat specifiek is ontworpen voor het genereren van discrete gegevens. Discrete Flow Matching biedt verschillende belangrijke bijdragen: (i) het werkt met een algemene familie van waarschijnlijkheidspaden die interpoleren tussen bron- en doeldistributies; (ii) het maakt een generieke formule mogelijk voor het bemonsteren van deze waarschijnlijkheidspaden met behulp van geleerde posteriori zoals de waarschijnlijkheidsdenoiser (x-predictie) en ruisvoorspelling (epsilon-predictie); (iii) in de praktijk verbetert het focussen op specifieke waarschijnlijkheidspaden die zijn gedefinieerd met verschillende planners de generatieve perplexiteit aanzienlijk in vergelijking met eerdere discrete diffusie- en stroommodellen; en (iv) door Discrete Flow Matching-modellen op te schalen tot 1,7 miljard parameters, bereiken we 6,7% Pass@1 en 13,4% Pass@10 op HumanEval en 6,7% Pass@1 en 20,6% Pass@10 op 1-shot MBPP-coderingsbenchmarks. Onze aanpak is in staat om hoogwaardige discrete gegevens te genereren op een niet-autoregressieve manier, waardoor de kloof tussen autoregressieve modellen en discrete stroommodellen aanzienlijk wordt verkleind.
3D-scenegeneratie is zeer gewild in verschillende domeinen, waaronder virtual reality, gaming en de filmindustrie. Dankzij de krachtige generatieve mogelijkheden van tekst-naar-beeld diffusiemodellen die betrouwbare priors bieden, is het creëren van 3D-scènes met alleen tekstprompts haalbaar geworden, wat het onderzoek naar tekstgestuurde 3D-scènegeneratie aanzienlijk heeft bevorderd. Om meerdere-weergave supervisie te verkrijgen vanuit 2D-diffusiemodellen, gebruiken heersende methoden doorgaans het diffusiemodel om een initieel lokaal beeld te genereren, gevolgd door het iteratief uitbreiden van het lokale beeld met diffusiemodellen om geleidelijk scènes te genereren. Deze op uitbreiding gebaseerde benaderingen zijn echter geneigd om globaal inconsistente scènegeneratieresultaten te produceren zonder een hoge mate van volledigheid, wat hun bredere toepassingen beperkt. Om deze problemen aan te pakken, introduceren we HoloDreamer, een framework dat eerst een hoge-definitie panorama genereert als een holistische initialisatie van de volledige 3D-scène, en vervolgens 3D Gaussian Splatting (3D-GS) gebruikt om snel de 3D-scène te reconstrueren, waardoor het creëren van weergave-consistente en volledig omsloten 3D-scènes wordt vergemakkelijkt. Specifiek stellen we Stylized Equirectangular Panorama Generation voor, een pijplijn die meerdere diffusiemodellen combineert om gestileerde en gedetailleerde equirectangular panorama's te genereren vanuit complexe tekstprompts. Vervolgens wordt Enhanced Two-Stage Panorama Reconstruction geïntroduceerd, dat een tweestaps optimalisatie van 3D-GS uitvoert om ontbrekende regio's in te vullen en de integriteit van de scène te verbeteren. Uitgebreide experimenten hebben aangetoond dat onze methode eerdere werken overtreft in termen van algehele visuele consistentie en harmonie, evenals reconstructiekwaliteit en renderingsrobuustheid bij het genereren van volledig omsloten scènes.
Diffusiemodellen hebben grote vooruitgang geboekt in beeldanimatie dankzij hun krachtige generatieve mogelijkheden. Het blijft echter een uitdaging om ruimtelijk-temporele consistentie te behouden met gedetailleerde informatie uit de statische invoerafbeelding over tijd (bijv. stijl, achtergrond en object van de statische invoerafbeelding) en om vloeiendheid in geanimeerde videonarratieven te waarborgen die worden gestuurd door tekstuele prompts. In dit artikel introduceren we Cinemo, een nieuwe benadering voor beeldanimatie die gericht is op het bereiken van betere bewegingsbestuurbaarheid, evenals sterkere temporele consistentie en vloeiendheid. Over het algemeen stellen we drie effectieve strategieën voor tijdens de trainings- en inferentiefasen van Cinemo om ons doel te bereiken. Tijdens de trainingsfase richt Cinemo zich op het leren van de verdeling van bewegingsresiduen, in plaats van direct opvolgende frames te voorspellen via een bewegingsdiffusiemodel. Daarnaast wordt een strategie gebaseerd op de structurele gelijkenisindex voorgesteld om Cinemo betere bestuurbaarheid van bewegingsintensiteit te bieden. Tijdens de inferentiefase wordt een ruisverfijningstechniek geïntroduceerd die gebaseerd is op discrete cosinustransformatie om plotselinge bewegingsveranderingen te verminderen. Deze drie strategieën stellen Cinemo in staat om zeer consistente, vloeiende en bewegingsbestuurbare resultaten te produceren. In vergelijking met eerdere methoden biedt Cinemo eenvoudigere en preciezere gebruikersbestuurbaarheid. Uitgebreide experimenten tegen verschillende state-of-the-art methoden, waaronder zowel commerciële tools als onderzoeksbenaderingen, over meerdere metrieken, demonstreren de effectiviteit en superioriteit van onze voorgestelde benadering.
Gebouwd op de kracht van LLM's (Large Language Models) hebben talrijke multimodale grote taalmodellen (MLLMs) recentelijk opmerkelijke prestaties behaald op diverse visie-taal taken over meerdere benchmarks. Echter richten de meeste bestaande MLLMs en benchmarks zich voornamelijk op scenario's met één afbeelding als invoer, waardoor de prestaties van MLLMs bij het verwerken van realistische meerdere afbeeldingen onderbelicht blijven. Hoewel enkele benchmarks meerdere afbeeldingen overwegen, zijn hun evaluatiedimensies en voorbeelden zeer beperkt. Daarom stellen wij in dit artikel een nieuwe benchmark voor, genaamd MIBench, om de fijnmazige vaardigheden van MLLMs in scenario's met meerdere afbeeldingen uitgebreid te evalueren. Specifiek categoriseert MIBench de vaardigheden met meerdere afbeeldingen in drie scenario's: instructie met meerdere afbeeldingen (MII), multimodale kenniszoektochten (MKS) en multimodaal leren in context (MIC), en construeert 13 taken met in totaal 13K geannoteerde voorbeelden. Tijdens de dataconstructie, voor MII en MKS, extraheren we correcte opties uit handmatige annotaties en creëren we uitdagende afleiders om meerkeuzevragen te verkrijgen. Voor MIC, om een diepgaande evaluatie mogelijk te maken, stellen we vier sub-taken in en transformeren we de originele datasets naar in-context leerformaten. We evalueren verschillende open-source MLLMs en closed-source MLLMs op de voorgestelde MIBench. De resultaten tonen aan dat hoewel huidige modellen uitblinken in taken met één afbeelding, ze aanzienlijke tekortkomingen vertonen wanneer ze worden geconfronteerd met invoer van meerdere afbeeldingen, zoals verwarde fijnmazige perceptie, beperkt redeneren met meerdere afbeeldingen en onstabiel leren in context. De geannoteerde data in MIBench is beschikbaar op https://huggingface.co/datasets/StarBottle/MIBench.
Beloning-gebaseerd finetunen is cruciaal voor het afstemmen van taalbeleid op beoogde gedragingen (bijvoorbeeld creativiteit en veiligheid). Een belangrijke uitdaging hierbij is het ontwikkelen van stuurbare taalmodellen die op een flexibele en efficiënte manier meerdere (tegenstrijdige) doelstellingen afwegen. Dit artikel presenteert Conditioned Language Policy (CLP), een algemeen raamwerk voor het finetunen van taalmodellen op meerdere doelstellingen. Gebaseerd op technieken uit multi-task training en parameter-efficiënt finetunen, kan CLP stuurbare modellen leren die effectief tegenstrijdige doelstellingen afwegen tijdens inferentie. Opmerkelijk is dat dit niet vereist dat er meerdere modellen worden getraind of onderhouden om verschillende afwegingen tussen de doelstellingen te bereiken. Door middel van een uitgebreide reeks experimenten en ablatie-studies tonen we aan dat het CLP-raamwerk stuurbare modellen leert die de huidige state-of-the-art benaderingen voor multi-objectief finetunen overtreffen en Pareto-domineren.
Taalagentschappen, gebouwd bovenop taalmmodellen (LMs), zijn systemen die kunnen interageren met complexe omgevingen, zoals het open web. In dit werk onderzoeken we of dergelijke agentschappen realistische en tijdrovende taken op het web kunnen uitvoeren, zoals het monitoren van vastgoedmarkten of het lokaliseren van relevante bedrijven in de buurt. We introduceren AssistantBench, een uitdagende nieuwe benchmark bestaande uit 214 realistische taken die automatisch kunnen worden geëvalueerd, en die verschillende scenario's en domeinen bestrijkt. We constateren dat AssistantBench de beperkingen van huidige systemen blootlegt, inclusief taalmmodellen en retrieval-augmented taalmmodellen, aangezien geen enkel model een nauwkeurigheid van meer dan 25 punten bereikt. Hoewel closed-book LMs goed presteren, vertonen ze een lage precisie omdat ze geneigd zijn feiten te hallucineren. State-of-the-art webagentschappen bereiken een score van bijna nul. Daarnaast introduceren we SeePlanAct (SPA), een nieuw webagentschap dat aanzienlijk beter presteert dan eerdere agentschappen, en een ensemble van SPA en closed-book modellen bereikt de beste algehele prestaties. Bovendien analyseren we de tekortkomingen van huidige systemen en benadrukken we dat webnavigatie een grote uitdaging blijft.
Bestaande tekst-naar-muziekmodellen kunnen hoogwaardige audio produceren met een grote diversiteit. Echter kunnen tekstuele prompts alleen geen precieze controle bieden over temporele muzikale kenmerken zoals akkoorden en ritme van de gegenereerde muziek. Om deze uitdaging aan te pakken, introduceren we MusiConGen, een temporeel-geconditioneerd Transformer-gebaseerd tekst-naar-muziekmodel dat voortbouwt op het voorgetrainde MusicGen-framework. Onze innovatie ligt in een efficiënt finetuning-mechanisme, afgestemd op consumenten-GPU's, dat automatisch geëxtraheerd ritme en akkoorden integreert als het conditiesignaal. Tijdens inferentie kan de conditie bestaan uit muzikale kenmerken die zijn geëxtraheerd uit een referentie-audiosignaal, of uit door de gebruiker gedefinieerde symbolische akkoordreeksen, BPM en tekstuele prompts. Onze prestatie-evaluatie op twee datasets -- één afgeleid van geëxtraheerde kenmerken en de andere van door gebruikers gecreëerde invoer -- toont aan dat MusiConGen realistische begeleidingsmuziek kan genereren die goed aansluit bij de gespecificeerde condities. We maken de code en modelcheckpoints open source en bieden audiovoorbeelden online, https://musicongen.github.io/musicongen_demo/.
Lay-outgeneratie is de basistaak van intelligent ontwerp, waarbij de integratie van visuele esthetiek en harmonieuze weergave van contentoverdracht vereist is. Bestaande methoden kampen echter nog steeds met uitdagingen bij het genereren van precieze en visueel aantrekkelijke lay-outs, waaronder blokkering, overlap of ruimtelijke uitlijning tussen lay-outs, die nauw samenhangen met de ruimtelijke structuur van grafische lay-outs. Wij constateren dat deze methoden te veel focussen op contentinformatie en te weinig beperkingen opleggen aan de ruimtelijke structuur van lay-outs, wat resulteert in een onevenwichtige balans tussen contentbewuste en grafisch bewuste kenmerken. Om dit probleem aan te pakken, stellen wij Content and Graphic Balance Layout Generation met een Transformer-based Diffusion Model (CGB-DM) voor. Specifiek ontwerpen wij eerst een regulator die het voorspelde content- en grafische gewicht in balans brengt, waardoor de neiging om meer aandacht te besteden aan de content op het canvas wordt overwonnen. Ten tweede introduceren wij een grafische beperking van een saliency bounding box om de uitlijning van geometrische kenmerken tussen lay-outrepresentaties en afbeeldingen verder te verbeteren. Daarnaast passen wij een transformer-based diffusion model aan als backbone, waarvan de krachtige generatiecapaciteit de kwaliteit van lay-outgeneratie waarborgt. Uitgebreide experimentele resultaten tonen aan dat onze methode state-of-the-art prestaties heeft bereikt in zowel kwantitatieve als kwalitatieve evaluaties. Ons modelraamwerk kan ook worden uitgebreid naar andere grafische ontwerpgebieden.
We introduceren LocoTrack, een uiterst nauwkeurig en efficiënt model ontworpen voor de taak van het volgen van elk punt (TAP) in videosequenties. Eerdere benaderingen voor deze taak maken vaak gebruik van lokale 2D-correlatiekaarten om overeenkomsten vast te stellen tussen een punt in de queryafbeelding en een lokaal gebied in de doelafbeelding, wat vaak problemen oplevert bij homogene gebieden of repetitieve kenmerken, wat leidt tot matchingambiguïteiten. LocoTrack overwint deze uitdaging met een nieuwe aanpak die alle-paar-correspondenties tussen regio's benut, d.w.z. lokale 4D-correlatie, om precieze overeenkomsten vast te stellen, waarbij bidirectionele correspondentie en matchinggladheid de robuustheid tegen ambiguïteiten aanzienlijk verbeteren. We integreren ook een lichtgewicht correlatie-encoder om de rekenkundige efficiëntie te verbeteren, en een compacte Transformer-architectuur om langetermijntijdelijke informatie te integreren. LocoTrack behaalt ongeëvenaarde nauwkeurigheid op alle TAP-Vid-benchmarks en werkt met een snelheid die bijna 6 keer sneller is dan de huidige state-of-the-art.
We introduceren Temporale Residuele Jacobianen als een nieuwe representatie om data-gedreven motieoverdracht mogelijk te maken. Onze aanname gaat niet uit van toegang tot rigging of tussenliggende vorm-keyframes, produceert geometrisch en temporeel consistente bewegingen, en kan worden gebruikt om lange bewegingssequenties over te dragen. Centraal in onze aanpak staan twee gekoppelde neurale netwerken die individueel lokale geometrische en temporele veranderingen voorspellen, die vervolgens ruimtelijk en temporeel worden geïntegreerd om de uiteindelijke geanimeerde meshes te produceren. De twee netwerken worden gezamenlijk getraind, vullen elkaar aan bij het produceren van ruimtelijke en temporele signalen, en worden direct begeleid met 3D-positionele informatie. Tijdens inferentie lost onze methode, in afwezigheid van keyframes, in wezen een motie-extrapolatieprobleem op. We testen onze opzet op diverse meshes (synthetische en gescande vormen) om de superioriteit aan te tonen in het genereren van realistische en natuurlijk ogende animaties op onbekende lichaamsvormen tegenover state-of-the-art alternatieven. Aanvullende video en code zijn beschikbaar op https://temporaljacobians.github.io/.
Thermische beeldvorming kent diverse toepassingen, variërend van landbouwmonitoring tot gebouwinspectie en beeldvorming onder slechte zichtomstandigheden, zoals bij weinig licht, mist en regen. Het reconstrueren van thermische scènes in 3D brengt echter verschillende uitdagingen met zich mee vanwege de relatief lagere resolutie en beperkte kenmerken in beelden van langegolf-infrarood (LWIR). Om deze uitdagingen te overwinnen, stellen we een uniform raamwerk voor voor scènereconstructie op basis van een set LWIR- en RGB-beelden, waarbij we een multispectraal stralingsveld gebruiken om een scène weer te geven die wordt waargenomen door zowel zichtbare als infraroodcamera's, waardoor informatie uit beide spectra wordt benut. We kalibreren de RGB- en infraroodcamera's ten opzichte van elkaar als een preprocessing-stap met behulp van een eenvoudig kalibratiedoel. We demonstreren onze methode op real-world sets van RGB- en LWIR-foto's die zijn vastgelegd met een handzame thermische camera, waarbij we de effectiviteit van onze methode aantonen bij het representeren van scènes over het zichtbare en infrarode spectrum. We laten zien dat onze methode in staat is tot thermische superresolutie, evenals het visueel verwijderen van obstakels om objecten te onthullen die in de RGB- of thermische kanalen zijn afgedekt. Zie https://yvette256.github.io/thermalnerf voor videoresultaten, evenals onze code en datasetrelease.
Dit artikel introduceert GET-Zero, een modelarchitectuur en trainingsprocedure voor het leren van een belichaamingsbewust controlebeleid dat zich onmiddellijk kan aanpassen aan nieuwe hardwareveranderingen zonder hertraining. Hiervoor presenteren we de Graph Embodiment Transformer (GET), een transformermodel dat de connectiviteit van de belichaamingsgrafiek benut als een geleerde structurele bias in het aandachtmechanisme. We gebruiken gedragsklonering om demonstratiegegevens van belichaamingsspecifieke expertbeleid te destilleren in een belichaamingsbewust GET-model dat zich baseert op de hardwareconfiguratie van de robot om controlebeslissingen te nemen. We voeren een casestudy uit over een behendige taak van het roteren van een object in de hand met verschillende configuraties van een viervingerige robothand waarbij gewrichten zijn verwijderd en waarbij de lengte van de schakels is verlengd. Het gebruik van het GET-model in combinatie met een zelfmodelleringsverlies stelt GET-Zero in staat om zero-shot te generaliseren naar ongeziene variaties in grafiekstructuur en schakellengte, wat een verbetering van 20% oplevert ten opzichte van baseline-methoden. Alle code en kwalitatieve videoresultaten zijn te vinden op https://get-zero-paper.github.io.
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft aanzienlijke vooruitgang geboekt op het gebied van visuele vraagbeantwoording met één afbeelding. Deze modellen worden echter geconfronteerd met aanzienlijke uitdagingen wanneer ze taken krijgen die een uitgebreide verzameling afbeeldingen omvatten, vergelijkbaar met realistische scenario's zoals het doorzoeken van grote fotoalbums, het vinden van specifieke informatie op internet, of het monitoren van milieuveranderingen via satellietbeelden. Dit artikel onderzoekt de taak van Visuele Vraagbeantwoording met Meerdere Afbeeldingen (MIQA): gegeven een grote set afbeeldingen en een natuurlijke taalvraag, is de taak om een relevante en gegronde reactie te genereren. We stellen een nieuwe openbare benchmark voor, genaamd "Visual Haystacks (VHs)", specifiek ontworpen om de mogelijkheden van LMMs te evalueren in visuele retrieval en redenering over sets van niet-gerelateerde afbeeldingen, waar we uitgebreide evaluaties uitvoeren die aantonen dat zelfs robuuste closed-source modellen aanzienlijk moeite hebben. Om deze tekortkomingen aan te pakken, introduceren we MIRAGE (Multi-Image Retrieval Augmented Generation), een nieuw retrieval/vraagbeantwoordings- framework op maat voor LMMs dat de uitdagingen van MIQA met opmerkelijke efficiëntie en nauwkeurigheidsverbeteringen aanpakt ten opzichte van baseline-methoden. Onze evaluatie laat zien dat MIRAGE closed-source GPT-4o-modellen met tot 11% overtreft op de VHs- benchmark en tot 3,4x verbeteringen in efficiëntie biedt ten opzichte van tekstgerichte meerstapsbenaderingen.