Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren de nieuwste ontwikkelingen van Qwen-Audio, een grootschalig audio-taalmodel genaamd Qwen2-Audio, dat in staat is om diverse audio-signalen als invoer te accepteren en audio-analyses uit te voeren of direct tekstuele reacties te geven met betrekking tot spraakinstructies. In tegenstelling tot complexe hiërarchische tags, hebben we het voorafgaande trainingsproces vereenvoudigd door natuurlijke taalprompts te gebruiken voor verschillende data en taken, en hebben we het datavolume verder uitgebreid. We hebben de instructievolgcapaciteit van Qwen2-Audio versterkt en twee verschillende audio-interactiemodi geïmplementeerd voor spraakchat en audio-analyse. In de spraakchatmodus kunnen gebruikers vrijelijk spraakinteracties aangaan met Qwen2-Audio zonder tekstinvoer. In de audio-analysemodus kunnen gebruikers audio en tekstinstructies verstrekken voor analyse tijdens de interactie. Merk op dat we geen systeemprompts gebruiken om tussen de spraakchat- en audio-analysemodi te schakelen. Qwen2-Audio is in staat om de inhoud binnen audio intelligent te begrijpen en spraakcommando's te volgen om gepast te reageren. Bijvoorbeeld, in een audiosegment dat gelijktijdig geluiden, gesprekken met meerdere sprekers en een spraakcommando bevat, kan Qwen2-Audio het commando direct begrijpen en een interpretatie en reactie op de audio geven. Daarnaast heeft DPO de prestaties van het model geoptimaliseerd wat betreft feitelijkheid en het naleven van gewenst gedrag. Volgens de evaluatieresultaten van AIR-Bench presteerde Qwen2-Audio beter dan eerdere SOTA's, zoals Gemini-1.5-pro, in tests gericht op audio-centrische instructievolgcapaciteiten. Qwen2-Audio is open-source gemaakt met als doel de vooruitgang van de multimodale taalcommunity te bevorderen.
Bij het evalueren van de lange-context capaciteiten van grote taalmodellen (LLM's) is het identificeren van inhoud die relevant is voor een gebruikersvraag uit originele lange documenten een cruciale voorwaarde voor elk LLM om vragen te beantwoorden op basis van lange tekst. Wij presenteren NeedleBench, een raamwerk dat bestaat uit een reeks progressief uitdagender taken voor het beoordelen van tweetalige lange-context capaciteiten, die meerdere lengte-intervallen omvatten (4k, 8k, 32k, 128k, 200k, 1000k en verder) en verschillende dieptebereiken, waardoor het strategisch inbrengen van kritieke datapunten in verschillende tekstdieptezones mogelijk wordt om de ophaal- en redeneercapaciteiten van modellen in diverse contexten rigoureus te testen. We gebruiken het NeedleBench-raamwerk om te beoordelen hoe goed de toonaangevende open-source modellen sleutelinformatie die relevant is voor de vraag kunnen identificeren en die informatie kunnen toepassen bij het redeneren in tweetalige lange teksten. Bovendien stellen we de Ancestral Trace Challenge (ATC) voor om de complexiteit van logische redeneeruitdagingen na te bootsen die waarschijnlijk aanwezig zijn in real-world lange-context taken, en bieden we een eenvoudige methode voor het evalueren van LLM's bij het omgaan met complexe lange-context situaties. Onze resultaten suggereren dat huidige LLM's aanzienlijke ruimte voor verbetering hebben in praktische lange-context toepassingen, aangezien ze moeite hebben met de complexiteit van logische redeneeruitdagingen die waarschijnlijk aanwezig zijn in real-world lange-context taken. Alle codes en bronnen zijn beschikbaar op OpenCompass: https://github.com/open-compass/opencompass.
In dit artikel presenteren we DiT-MoE, een sparse versie van de diffusion Transformer, die schaalbaar is en kan concurreren met dichte netwerken terwijl deze sterk geoptimaliseerde inferentie vertoont. De DiT-MoE omvat twee eenvoudige ontwerpen: gedeelde expert routing en expert-level balance loss, waardoor gemeenschappelijke kennis wordt vastgelegd en redundantie tussen de verschillende gerouteerde experts wordt verminderd. Wanneer toegepast op conditionele beeldgeneratie, levert een diepgaande analyse van expertspecialisatie enkele interessante observaties op: (i) Expertselectie vertoont voorkeur voor ruimtelijke positie en denoising-tijdstap, terwijl deze ongevoelig is voor verschillende klasse-conditionele informatie; (ii) Naarmate de MoE-lagen dieper gaan, verschuift de selectie van experts geleidelijk van specifieke ruimtelijke positie naar spreiding en balans. (iii) Expertspecialisatie neigt meer geconcentreerd te zijn in de vroege tijdstap en wordt daarna geleidelijk uniform na de helft. Wij schrijven dit toe aan het diffusieproces dat eerst de laagfrequente ruimtelijke informatie modelleert en vervolgens de hoogfrequente complexe informatie. Op basis van de bovenstaande richtlijnen bereikt een reeks DiT-MoE experimenteel prestaties die gelijk zijn aan die van dichte netwerken, maar vereist veel minder rekenkracht tijdens inferentie. Nog bemoedigender is dat we het potentieel van DiT-MoE aantonen met gesynthetiseerde beeldgegevens, waarbij het diffusiemodel wordt geschaald naar 16,5B parameters dat een nieuwe SoTA FID-50K-score van 1,80 behaalt in 512x512 resolutie-instellingen. De projectpagina: https://github.com/feizc/DiT-MoE.
Traditionele referentiesegmentatietaken hebben zich voornamelijk gericht op stille visuele scènes, waarbij de integrale rol van multimodale perceptie en interactie in menselijke ervaringen werd verwaarloosd. In dit werk introduceren we een nieuwe taak genaamd Referentie Audio-Visuele Segmentatie (Ref-AVS), die tot doel heeft objecten binnen het visuele domein te segmenteren op basis van uitdrukkingen die multimodale signalen bevatten. Dergelijke uitdrukkingen worden geformuleerd in natuurlijke taalvormen, maar zijn verrijkt met multimodale signalen, waaronder audio- en visuele beschrijvingen. Om dit onderzoek te faciliteren, hebben we de eerste Ref-AVS benchmark geconstrueerd, die pixelniveau annotaties biedt voor objecten die worden beschreven in corresponderende multimodale-signaal uitdrukkingen. Om de Ref-AVS taak aan te pakken, stellen we een nieuwe methode voor die multimodale signalen adequaat benut om nauwkeurige segmentatiebegeleiding te bieden. Ten slotte voeren we kwantitatieve en kwalitatieve experimenten uit op drie testsubsets om onze aanpak te vergelijken met bestaande methoden uit gerelateerde taken. De resultaten tonen de effectiviteit van onze methode aan, waarbij het vermogen om objecten nauwkeurig te segmenteren met behulp van multimodale-signaal uitdrukkingen wordt benadrukt. De dataset is beschikbaar op https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.
Bestaande agents gebaseerd op grote taalmodellen (LLMs) tonen robuuste probleemoplossende vermogens door de inherente kennis van LLMs, sterke in-context leervaardigheden en zero-shot-mogelijkheden te integreren, evenals het gebruik van tools in combinatie met zorgvuldig ontworpen LLM-aanroepworkflows door mensen. Deze agents vertonen echter nog steeds tekortkomingen in langetermijnredenering en benutten het potentieel van bestaande tools onvoldoende, wat leidt tot opvallende tekortkomingen in complexe real-world redeneerscenario's. Om deze beperkingen aan te pakken, introduceren we Sibyl, een eenvoudig maar krachtig LLM-gebaseerd agentframework dat is ontworpen om complexe redeneertaken aan te pakken door efficiënt gebruik te maken van een minimale set tools. Geïnspireerd door de Global Workspace Theory, integreert Sibyl een globale werkruimte om het beheer en de uitwisseling van kennis en gespreksgeschiedenis binnen het systeem te verbeteren. Bovendien, geleid door de Society of Mind Theory, implementeert Sibyl een multi-agent debat-gebaseerde jury om de uiteindelijke antwoorden zelf te verfijnen, wat zorgt voor een uitgebreide en evenwichtige aanpak. Deze aanpak heeft als doel de systeemcomplexiteit te verminderen terwijl het bereik van oplosbare problemen wordt uitgebreid—van zaken die doorgaans door mensen in minuten worden opgelost tot zaken die uren of zelfs dagen vergen, waardoor een verschuiving van System-1 naar System-2 denken wordt gefaciliteerd. Sibyl is ontworpen met een focus op schaalbaarheid en gemakkelijke debugbaarheid door het concept van reentrantie uit functioneel programmeren vanaf het begin te integreren, met als doel naadloze en moeiteloze integratie in andere LLM-toepassingen om de mogelijkheden te verbeteren. Onze experimentele resultaten op de GAIA-benchmarktestset laten zien dat de Sibyl-agent geïnstantieerd met GPT-4 state-of-the-art prestaties bereikt met een gemiddelde score van 34,55%, vergeleken met andere agents gebaseerd op GPT-4. We hopen dat Sibyl meer betrouwbare en herbruikbare LLM-gebaseerde agentoplossingen kan inspireren om complexe real-world redeneertaken aan te pakken.
Wij presenteren VLMEvalKit: een open-source toolkit voor het evalueren van grote multimodale modellen, gebaseerd op PyTorch. De toolkit heeft als doel een gebruiksvriendelijk en uitgebreid raamwerk te bieden voor onderzoekers en ontwikkelaars om bestaande multimodale modellen te evalueren en reproduceerbare evaluatieresultaten te publiceren. In VLMEvalKit implementeren we meer dan 70 verschillende grote multimodale modellen, waaronder zowel propriëtaire API's als open-source modellen, evenals meer dan 20 verschillende multimodale benchmarks. Door het implementeren van een enkele interface kunnen nieuwe modellen eenvoudig aan de toolkit worden toegevoegd, terwijl de toolkit automatisch de resterende taken afhandelt, zoals gegevensvoorbereiding, gedistribueerde inferentie, post-processing van voorspellingen en metriekberekening. Hoewel de toolkit momenteel voornamelijk wordt gebruikt voor het evalueren van grote visueel-taalkundige modellen, is het ontwerp compatibel met toekomstige updates die aanvullende modaliteiten, zoals audio en video, incorporeren. Op basis van de evaluatieresultaten die met de toolkit zijn verkregen, hosten we de OpenVLM Leaderboard, een uitgebreid scorebord om de voortgang van onderzoek naar multimodaal leren bij te houden. De toolkit is vrijgegeven op https://github.com/open-compass/VLMEvalKit en wordt actief onderhouden.
Score distillation sampling (SDS) is naar voren gekomen als een effectief raamwerk voor tekstgestuurde 3D-bewerkingstaken vanwege de inherente 3D-consistentie. Echter, bestaande SDS-gebaseerde 3D-bewerkingsmethoden kampen met een lange trainingstijd en leveren resultaten van lage kwaliteit op, voornamelijk omdat deze methoden afwijken van de samplingdynamiek van diffusiemodellen. In dit artikel introduceren we DreamCatalyst, een nieuw raamwerk dat SDS-gebaseerde bewerking interpreteert als een diffusie-omgekeerd proces. Onze doelfunctie houdt rekening met de samplingdynamiek, waardoor het optimalisatieproces van DreamCatalyst een benadering wordt van het diffusie-omgekeerde proces in bewerkingstaken. DreamCatalyst heeft als doel de trainingstijd te verkorten en de bewerkingskwaliteit te verbeteren. DreamCatalyst biedt twee modi: (1) een snellere modus, die de NeRF-scene in slechts ongeveer 25 minuten bewerkt, en (2) een hoogwaardige modus, die superieure resultaten oplevert in minder dan 70 minuten. Specifiek presteert onze hoogwaardige modus beter dan de huidige state-of-the-art NeRF-bewerkingsmethoden, zowel in snelheid als kwaliteit. Bekijk uitgebreidere resultaten op onze projectpagina: https://dream-catalyst.github.io.
Zelfs voor beter bestudeerde gebarentalen zoals Amerikaanse Gebarentaal (ASL) vormt data de bottleneck voor machine learning-onderzoek. De situatie is nog erger voor de vele andere gebarentalen die worden gebruikt door Dove/Slechthorende gemeenschappen over de hele wereld. In dit artikel presenteren we YouTube-SL-25, een grootschalig, open-domain meertalig corpus van gebarentaalvideo's met ogenschijnlijk goed uitgelijnde bijschriften afkomstig van YouTube. Met meer dan 3000 uur aan video's in meer dan 25 gebarentalen, is YouTube-SL-25 a) meer dan 3 keer zo groot als YouTube-ASL, b) de grootste parallelle gebarentaaldataset tot nu toe, en c) de eerste of grootste parallelle dataset voor veel van de opgenomen talen. We bieden basislijnen voor gebaar-naar-tekst taken met behulp van een uniform meertalig multitask-model gebaseerd op T5 en rapporteren scores op benchmarks voor 4 gebarentalen. De resultaten tonen aan dat meertalige transfer zowel hoger- als lager-resource gebarentalen binnen YouTube-SL-25 ten goede komt.
Recente vooruitgang in 4D-generatie richt zich voornamelijk op het genereren van 4D-inhoud door vooraf getrainde tekst- of enkelvoudige beeld-geconditioneerde modellen te destilleren. Het is voor hen onhandig om gebruik te maken van diverse kant-en-klare 3D-assets met multi-view attributen, en hun resultaten lijden onder spatiotemporele inconsistentie vanwege de inherente ambiguïteit in de supervisiesignalen. In dit werk presenteren we Animate3D, een nieuw framework voor het animeren van elk statisch 3D-model. De kernidee is tweeledig: 1) We stellen een nieuw multi-view video diffusiemodel (MV-VDM) voor, geconditioneerd op multi-view weergaven van het statische 3D-object, dat wordt getraind op onze gepresenteerde grootschalige multi-view videodataset (MV-Video). 2) Op basis van MV-VDM introduceren we een framework dat reconstructie en 4D Score Distillation Sampling (4D-SDS) combineert om de multi-view video diffusieprioriteiten te benutten voor het animeren van 3D-objecten. Specifiek voor MV-VDM ontwerpen we een nieuwe spatiotemporele aandachtmodule om de ruimtelijke en temporele consistentie te verbeteren door 3D- en videodiffusiemodellen te integreren. Daarnaast gebruiken we de multi-view weergaven van het statische 3D-model als voorwaarden om de identiteit ervan te behouden. Voor het animeren van 3D-modellen wordt een effectieve tweefasenpijplijn voorgesteld: we reconstrueren eerst bewegingen direct vanuit gegenereerde multi-view video's, gevolgd door de geïntroduceerde 4D-SDS om zowel het uiterlijk als de beweging te verfijnen. Kwalitatieve en kwantitatieve experimenten tonen aan dat Animate3D aanzienlijk beter presteert dan eerdere benaderingen. Data, code en modellen zullen openbaar worden vrijgegeven.
Grote taalmmodellen (LLMs) zijn essentieel voor moderne natuurlijke taalverwerking en kunstmatige intelligentie. Ze worden echter geconfronteerd met uitdagingen bij het beheren van hun aanzienlijke geheugeneisen. Hoewel kwantisatiebewuste training (QAT) een oplossing biedt door het geheugengebruik te verminderen via laagbitrepresentaties met minimale nauwkeurigheidsverliezen, vereist het aanzienlijke trainingsbronnen om modelgewichten en kwantisatieparameters te optimaliseren. Om dit aan te pakken, stellen we Efficient Quantization-Aware Training (EfficientQAT) voor, een nieuwe kwantisatietechniek voor het comprimeren van LLMs. EfficientQAT omvat twee opeenvolgende fasen: Bloksgewijze training van alle parameters (Block-AP) en end-to-end training van kwantisatieparameters (E2E-QP). Block-AP voert sequentieel kwantisatiebewuste training uit voor alle parameters in elk transformatorblok met bloksgewijze reconstructie, waarbij efficiëntie wordt behouden door het vermijden van het trainen van het gehele LLM. Geïnitialiseerd met een gekwantiseerd model, traint E2E-QP vervolgens alleen kwantisatieparameters (stapgroottes) end-to-end, waardoor de efficiëntie wordt verbeterd met een vast gekwantiseerd skelet en een verminderd aantal trainbare parameters. Uitgebreide experimenten tonen aan dat EfficientQAT eerdere kwantisatiemethoden overtreft voor een reeks modellen, waaronder basis-LLMs, instructiegetrainde LLMs en multimodale LLMs, met schalen van 7B tot 70B parameters bij verschillende kwantisatiebits. Zo verkrijgt EfficientQAT bijvoorbeeld een 2-bit Llama-2-70B model op een enkele A100-80GB GPU in 41 uur, met minder dan 3\% nauwkeurigheidsverlies vergeleken met volledige precisie (69.48 vs. 72.41). Opmerkelijk is dat dit INT2-gekwantiseerde 70B model een nauwkeurigheidswinst van 1.67 behaalt ten opzichte van het Llama-2-13B model (69.48 vs. 67.81) terwijl het minder geheugen vereist (19.2GB vs. 24.2GB). Code is beschikbaar op https://github.com/OpenGVLab/EfficientQAT.
Vision language models (VLMs) hebben indrukwekkende vooruitgang geboekt in diverse toepassingen en zijn een veelvoorkomende onderzoeksrichting geworden. In dit artikel ontwikkelen we FIRE, een feedback-verfijningsdataset, bestaande uit 1,1 miljoen meerzijdige gesprekken die zijn afgeleid van 27 brondatasets, waardoor VLMs in staat worden gesteld om hun reacties spontaan te verfijnen op basis van gebruikersfeedback bij diverse taken. Om de gegevensverzameling op te schalen, wordt FIRE verzameld in twee componenten: FIRE-100K en FIRE-1M, waarbij FIRE-100K wordt gegenereerd door GPT-4V en FIRE-1M vrij wordt gegenereerd via modellen die zijn getraind op FIRE-100K. Vervolgens ontwikkelen we FIRE-Bench, een benchmark om het feedback-verfijningsvermogen van VLMs uitgebreid te evalueren, die 11.000 feedback-verfijningsgesprekken bevat als testdata, twee evaluatie-instellingen en een model om feedback te geven aan VLMs. We ontwikkelen het FIRE-LLaVA-model door LLaVA te finetunen op FIRE-100K en FIRE-1M, dat een opmerkelijk feedback-verfijningsvermogen toont op FIRE-Bench en niet-getrainde VLMs met 50% overtreft, waardoor gebruikers-agentinteracties efficiënter worden en het belang van de FIRE-dataset wordt benadrukt.
Een goede gewichtsinitialisatie dient als een effectieve maatregel om de trainingskosten van een diep neuraal netwerk (DNN) model te verlagen. De keuze van hoe parameters te initialiseren is uitdagend en kan handmatige afstemming vereisen, wat tijdrovend en gevoelig voor menselijke fouten kan zijn. Om deze beperkingen te overwinnen, zet dit werk een nieuwe stap in het ontwikkelen van een gewichtsgenerator om de neurale gewichten voor initialisatie te synthetiseren. We gebruiken de beeld-naar-beeld vertaaltaak met generatieve adversariële netwerken (GANs) als voorbeeld vanwege het gemak van het verzamelen van modelgewichten die een breed scala beslaan. Specifiek verzamelen we eerst een dataset met diverse beeldbewerkingsconcepten en hun corresponderende getrainde gewichten, die later worden gebruikt voor het trainen van de gewichtsgenerator. Om de verschillende kenmerken tussen lagen en het aanzienlijke aantal te voorspellen gewichten aan te pakken, verdelen we de gewichten in gelijkmatige blokken en wijzen we elk blok een index toe. Vervolgens wordt een diffusiemodel getraind met een dergelijke dataset, waarbij zowel tekstcondities van het concept als de blokindexen worden gebruikt. Door het beeldvertaalmodel te initialiseren met de gedenoiseerde gewichten die door ons diffusiemodel worden voorspeld, duurt de training slechts 43,3 seconden. Vergeleken met trainen vanaf nul (d.w.z. Pix2pix), bereiken we een 15x versnelling van de trainingsduur voor een nieuw concept, terwijl we zelfs een betere beeldgeneratiekwaliteit verkrijgen.
Moderne Large Language Models (LLM's) bestaan uit matrices met miljarden elementen, waardoor hun opslag en verwerking behoorlijk veeleisend zijn wat betreft rekenkracht en geheugengebruik. Omdat deze matrices aanzienlijk groot zijn, kunnen ze vaak worden uitgedrukt in een low-rank-formaat, wat het potentieel heeft om de resourcebehoeften te verminderen. In tegenstelling tot eerdere werken die zich richten op het ontwikkelen van nieuwe matrixdecompositie-algoritmen, bestuderen we in dit werk eerst het ontstaan van low-rank-structuren in matrices binnen verschillende lagen van LLM's en leggen we een causaal verband tussen de gradientdynamiek en de opkomende low-rank-expressiviteit van matrices. Onze bevindingen laten zien dat verschillende lagen variërende niveaus van geconvergeerde low-rank-structuur vertonen, wat een niet-uniforme rankreductie over deze lagen vereist om prestatieverlies door compressie te minimaliseren. Gezien dit presenteren we Weight Low-Rank Projection (WeLore), dat gewichtscompressie en geheugenefficiënte fine-tuning verenigt als ÉÉN, op een data-agnostische en one-shot-manier. WeLore maakt gebruik van de heavy-tail-distributie van singuliere waarden om een geschikte rankreductieverhouding te identificeren voor matrices binnen LLM's. Meer dan alleen een compressietechniek, categoriseert WeLore gewichtsmatrices in Low-rank Components (LRC's) en Non-Low-rank Components (N-LRC's) op basis van hun vermogen om zich als low-rank uit te drukken. Ons gradientperspectief en uitgebreide experimenten illustreren dat LRC's de neiging hebben betere fine-tuning-mogelijkheden te hebben en nauw kunnen nabootsen (en soms overtreffen) het trainingsverliesverloop en de prestaties van volledige fine-tuning, met een aanzienlijke vermindering van geheugen- en rekenkrachtvereisten. Bijvoorbeeld, het fine-tunen van een 50% gecomprimeerd LLaMa-2 7B-model met slechts een fractie van de parameters in LRC's (WeLore) kan de volledige fine-tuning overtreffen met ~3x betere doorvoer en ~0.6x GPU-vereiste. Onze codes zijn beschikbaar op https://github.com/VITA-Group/welore.
Onlangs heeft mens-computerinteractie met verschillende modaliteiten veelbelovende toepassingen laten zien, zoals GPT-4o en Gemini. Gezien de fundamentele rol van multimodale gezamenlijke representatie in begrips- en generatiepijplijnen, zouden hoogwaardige omni-gezamenlijke representaties een stap zijn naar het gezamenlijk verwerken van meer diverse multimodale informatie. In dit werk presenteren we OmniBind, grootschalige multimodale gezamenlijke representatiemodellen variërend in schaal van 7 miljard tot 30 miljard parameters, die 3D, audio, beeld en taal als invoer ondersteunen. Vanwege de schaarste aan gegevensparen over alle modaliteiten, stellen we voor om in plaats van grote modellen vanaf nul te trainen, de ruimtes van verschillende vooraf getrainde specialistische modellen opnieuw toe te wijzen en aan elkaar te binden. Deze aanpak maakt "opschalen" mogelijk door indirect het aantal modelparameters en de hoeveelheid geziene gegevens te vergroten. Om verschillende ruimtes effectief te integreren, wijzen we dynamisch gewichten toe aan verschillende ruimtes door routers te leren met twee doelstellingen: cross-modale algehele uitlijning en ontkoppeling van taalrepresentatie. Opmerkelijk is dat, aangezien het binden en routeren van ruimtes beide slechts lichtgewicht netwerken vereisen, OmniBind extreem trainings efficiënt is. Het leren van het grootste 30B-model vereist slechts ongepaarde unimodale gegevens en ongeveer 3 dagen op een enkele 8-4090-node. Uitgebreide experimenten demonstreren de veelzijdigheid en superioriteit van OmniBind als een omni-representatiemodel, en benadrukken het grote potentieel voor diverse toepassingen, zoals elke-query en samenstelbare multimodale begripsvorming.
We presenteren een methode voor het besturen van een gesimuleerd humanoïde om een object te grijpen en te verplaatsen om een objecttrajectorie te volgen. Vanwege de uitdagingen bij het besturen van een humanoïde met behendige handen, gebruiken eerdere methoden vaak een losse hand en overwegen ze alleen verticale liften of korte trajecten. Deze beperkte reikwijdte belemmert hun toepasbaarheid voor objectmanipulatie die nodig is voor animatie en simulatie. Om deze kloof te dichten, leren we een controller die een groot aantal (>1200) objecten kan oppakken en vervoeren om willekeurig gegenereerde trajecten te volgen. Onze belangrijkste inzicht is het benutten van een humanoïde bewegingsrepresentatie die menselijke motorische vaardigheden biedt en de training aanzienlijk versnelt. Met alleen eenvoudige beloningen, toestands- en objectrepresentaties toont onze methode een gunstige schaalbaarheid op diverse objecten en trajecten. Voor de training hebben we geen dataset nodig van gepaarde volledige lichaamsbewegingen en objecttrajecten. Tijdens de test hebben we alleen het objectmesh en de gewenste trajecten nodig voor het grijpen en transporteren. Om de mogelijkheden van onze methode te demonstreren, tonen we state-of-the-art succespercentages in het volgen van objecttrajecten en het generaliseren naar onbekende objecten. Code en modellen zullen worden vrijgegeven.
De opkomst van grootschalige multimodale generatieve modellen heeft kunstmatige intelligentie aanzienlijk vooruitgeholpen, met ongekende niveaus van prestaties en functionaliteit. Het optimaliseren van deze modellen blijft echter een uitdaging vanwege historisch gescheiden ontwikkelingspaden van modelgerichte en datagerichte benaderingen, wat leidt tot suboptimale resultaten en inefficiënt gebruik van middelen. Als reactie hierop presenteren wij een nieuw sandbox-suite, speciaal ontworpen voor geïntegreerde data-model co-ontwikkeling. Deze sandbox biedt een uitgebreid experimenteel platform, waardoor snelle iteratie en inzichtgedreven verfijning van zowel data als modellen mogelijk wordt. Onze voorgestelde "Probe-Analyze-Refine"-werkwijze, gevalideerd door toepassingen op state-of-the-art LLaVA-achtige en DiT-gebaseerde modellen, leidt tot aanzienlijke prestatieverbeteringen, zoals het bereiken van de top op de VBench-leaderboard. We hebben ook waardevolle inzichten verkregen uit uitgebreide benchmarks, die licht werpen op het cruciale samenspel tussen data-kwaliteit, diversiteit en modelgedrag. Met de hoop om een dieper begrip en toekomstige vooruitgang in multimodale data en generatieve modellering te bevorderen, worden onze codes, datasets en modellen onderhouden en toegankelijk gehouden op https://github.com/modelscope/data-juicer/blob/main/docs/Sandbox.md.
Vibravox is een dataset die voldoet aan de Algemene Verordening Gegevensbescherming (AVG) en audiobestanden bevat die zijn opgenomen met vijf verschillende lichaamsoverdracht-audiosensoren: twee in-ear microfoons, twee botgeleidingsvibratie-opnemers en een laryngofoon. De dataset omvat ook audiodata van een luchtgeleide microfoon die als referentie wordt gebruikt. Het Vibravox-corpus bevat 38 uur aan spraakmonsters en fysiologische geluiden, opgenomen door 188 deelnemers onder verschillende akoestische omstandigheden die zijn opgelegd door een hoogwaardige ambisonics 3D-spatializer. Annotaties over de opnameomstandigheden en linguïstische transcripties zijn eveneens opgenomen in het corpus. We hebben een reeks experimenten uitgevoerd voor diverse spraakgerelateerde taken, waaronder spraakherkenning, spraakverbetering en sprekersverificatie. Deze experimenten zijn uitgevoerd met state-of-the-art modellen om hun prestaties te evalueren en te vergelijken op signalen die zijn vastgelegd door de verschillende audiosensoren die de Vibravox-dataset biedt, met als doel een beter inzicht te krijgen in hun individuele kenmerken.
Interactieve segmentatie van 3D Gaussians biedt een grote mogelijkheid voor real-time manipulatie van 3D-scènes dankzij de real-time renderingcapaciteit van 3D Gaussian Splatting. De huidige methoden hebben echter te maken met tijdrovende nabewerking om om te gaan met ruis in de segmentatie-uitvoer. Bovendien slagen ze er niet in om gedetailleerde segmentatie te bieden, wat belangrijk is voor fijnmazige manipulatie van 3D-scènes. In deze studie stellen we Click-Gaussian voor, dat onderscheidende kenmerkvelden van twee niveaus van granulariteit leert, waardoor segmentatie mogelijk wordt zonder tijdrovende nabewerking. We verdiepen ons in uitdagingen die voortkomen uit inconsistente geleerde kenmerkvelden als gevolg van 2D-segmentatie die onafhankelijk van een 3D-scène wordt verkregen. De nauwkeurigheid van 3D-segmentatie verslechtert wanneer 2D-segmentatieresultaten over de verschillende aanzichten, de primaire aanwijzingen voor 3D-segmentatie, met elkaar in conflict zijn. Om deze problemen te overwinnen, stellen we Global Feature-guided Learning (GFL) voor. GFL construeert clusters van globale kenmerkkandidaten uit ruisachtige 2D-segmenten over de verschillende aanzichten, wat de ruis vermindert bij het trainen van de kenmerken van 3D Gaussians. Onze methode werkt in 10 ms per klik, 15 tot 130 keer zo snel als de vorige methoden, en verbetert tegelijkertijd de segmentatienauwkeurigheid aanzienlijk. Onze projectpagina is beschikbaar op https://seokhunchoi.github.io/Click-Gaussian.
Grote Taalmodellen (LLMs) worden ingezet in diverse hoogrisicodomeinen, waar de betrouwbaarheid van hun uitvoer cruciaal is. Een veelgebruikte methode om de betrouwbaarheid van de antwoorden van LLMs te beoordelen is onzekerheidsschatting, die de waarschijnlijkheid inschat dat hun antwoorden correct zijn. Terwijl veel studies zich richten op het verbeteren van de nauwkeurigheid van onzekerheidsschattingen voor LLMs, onderzoekt ons onderzoek de kwetsbaarheid van onzekerheidsschatting en verkent het mogelijke aanvallen. We tonen aan dat een aanvaller een achterdeur kan inbouwen in LLMs, die, wanneer geactiveerd door een specifieke trigger in de invoer, de onzekerheid van het model manipuleert zonder de uiteindelijke uitvoer te beïnvloeden. Specifiek kan de voorgestelde achterdeuraanvalmethode de uitvoerwaarschijnlijkheidsverdeling van een LLM veranderen, waardoor de waarschijnlijkheidsverdeling convergeert naar een door de aanvaller vooraf gedefinieerde verdeling, terwijl wordt gegarandeerd dat de top-1 voorspelling ongewijzigd blijft. Onze experimentele resultaten tonen aan dat deze aanval de zelfevaluatiebetrouwbaarheid van het model effectief ondermijnt bij meerkeuzevragen. Zo behaalden we bijvoorbeeld een 100% aanvalsuccespercentage (ASR) bij drie verschillende triggerstrategieën in vier modellen. Verder onderzoeken we of deze manipulatie generaliseert over verschillende prompts en domeinen. Dit werk belicht een significante bedreiging voor de betrouwbaarheid van LLMs en benadrukt de noodzaak van toekomstige verdedigingen tegen dergelijke aanvallen. De code is beschikbaar op https://github.com/qcznlp/uncertainty_attack.