Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De ontwikkeling en evaluatie van Grote Taalmodellen (LLMs) hebben zich voornamelijk gericht op individuele mogelijkheden. Dit negeert echter de intersectie van meerdere vaardigheden over verschillende soorten expertise die vaak vereist zijn voor taken in de echte wereld, wat wij kruisvaardigheden noemen. Om dit concept systematisch te verkennen, definiëren we eerst zeven kernindividuele mogelijkheden en koppelen deze vervolgens om zeven veelvoorkomende kruisvaardigheden te vormen, elk ondersteund door een handmatig geconstrueerde taxonomie. Voortbouwend op deze definities introduceren we CrossEval, een benchmark bestaande uit 1.400 menselijk geannoteerde prompts, met 100 prompts voor elke individuele en kruisvaardigheid. Om betrouwbare evaluatie te garanderen, betrekken we expert annotatoren bij het beoordelen van 4.200 modelreacties, waarbij we 8.400 menselijke beoordelingen verzamelen met gedetailleerde verklaringen om te dienen als referentievoorbeelden. Onze bevindingen tonen aan dat, zowel bij statische evaluaties als pogingen om specifieke vaardigheden te verbeteren, huidige LLMs consequent de "Wet van de Zwakste Schakel" vertonen, waarbij de prestaties van kruisvaardigheden aanzienlijk worden beperkt door het zwakste onderdeel. Specifiek, van de 58 kruisvaardigheidsscores van 17 modellen, zijn 38 scores lager dan alle individuele mogelijkheden, terwijl 20 tussen sterk en zwak vallen, maar dichter bij de zwakkere vaardigheid liggen. Deze resultaten benadrukken de onderprestatie van LLMs in kruisvaardigheidstaken, waardoor de identificatie en verbetering van de zwakste vaardigheden een kritieke prioriteit wordt voor toekomstig onderzoek om prestaties te optimaliseren in complexe, multidimensionale scenario's.
Het uitvoeren van inferentie met grote modellen verschuift van de cloud naar de edge vanwege zorgen over de privacy van gebruikersinteractiegegevens. Echter, edge-apparaten hebben vaak te maken met beperkte rekenkracht, geheugen en bandbreedte, wat samenwerking over meerdere apparaten vereist om LLM-inferentie uit te voeren en te versnellen. Pijplijnparallelisme, de gangbare oplossing, is inefficiënt voor scenario's met één gebruiker, terwijl tensorparallelisme moeite heeft met frequente communicatie. In dit artikel betogen we dat tensorparallelisme effectiever kan zijn dan pijplijnparallelisme op apparaten met weinig middelen, en presenteren we een reken- en geheugenefficiënt tensornetwerk voor parallelle inferentie, genaamd TPI-LLM, om modellen op schaal van 70B te bedienen. TPI-LLM houdt gevoelige ruwe gegevens lokaal op de apparaten van gebruikers en introduceert een geheugenplanner met schuifvenster om dynamisch de gewichten van lagen te beheren tijdens inferentie, waarbij de latentie van schijf-I/O wordt overlapt met de berekening en communicatie. Dit maakt het mogelijk dat grotere modellen soepel draaien op geheugenbeperkte apparaten. We analyseren de communicatieknelpunten en vinden dat linklatentie, niet bandbreedte, naar voren komt als het belangrijkste probleem, dus wordt een op sterren gebaseerd allreduce-algoritme geïmplementeerd. Door uitgebreide experimenten op zowel geëmuleerde als echte testomgevingen heeft TPI-LLM meer dan 80% minder tijd tot het eerste token en tokenlatentie gedemonstreerd in vergelijking met Accelerate, en meer dan 90% in vergelijking met Transformers en Galaxy, terwijl de piekgeheugenfootprint van Llama 2-70B met 90% wordt verlaagd, waarbij slechts 3,1 GB geheugen nodig is voor modellen op schaal van 70B.
We introduceren Atlas-Chat, de allereerste verzameling van grote taalmodellen die specifiek zijn ontwikkeld voor dialectisch Arabisch. Met de focus op Marokkaans Arabisch, ook bekend als Darija, construeren we onze instructiedataset door bestaande Darija-taalbronnen te consolideren, nieuwe datasets zowel handmatig als synthetisch te creëren, en Engelse instructies met strenge kwaliteitscontrole te vertalen. De Atlas-Chat-9B en 2B modellen, fijnafgestemd op de dataset, vertonen een superieure vaardigheid in het opvolgen van Darija-instructies en het uitvoeren van standaard NLP-taken. Opmerkelijk is dat onze modellen zowel state-of-the-art als op Arabisch gespecialiseerde LLM's zoals LLaMa, Jais en AceGPT overtreffen, bijvoorbeeld door een prestatieverbetering van 13% te behalen ten opzichte van een groter 13B-model op DarijaMMLU, in onze nieuw geïntroduceerde evaluatiesuite voor Darija die zowel discriminerende als generatieve taken omvat. Bovendien voeren we een experimentele analyse uit van verschillende fijnafstemmingsstrategieën en basismodelkeuzes om optimale configuraties te bepalen. Al onze bronnen zijn openbaar toegankelijk, en we geloven dat ons werk uitgebreide ontwerpmethodologieën biedt voor instructie-afstemming voor taalvarianten met weinig bronnen, die vaak verwaarloosd worden ten gunste van datarijke talen door hedendaagse LLM's.
Het genereren van hoogwaardige 3D-inhoud uit tekst, enkele afbeeldingen of schaarse weergaveafbeeldingen blijft een uitdagende taak met brede toepassingen. Bestaande methoden maken doorgaans gebruik van multi-view diffusiemodellen om multi-view afbeeldingen te synthetiseren, gevolgd door een feedforward-proces voor 3D-reconstructie. Deze benaderingen worden echter vaak beperkt door een klein en vast aantal invoerweergaven, waardoor hun vermogen om diverse standpunten vast te leggen beperkt is en, nog erger, leidt tot suboptimale generatieresultaten als de gesynthetiseerde weergaven van slechte kwaliteit zijn. Om deze beperkingen aan te pakken, stellen we Flex3D voor, een nieuw tweefasenframework dat in staat is om een willekeurig aantal hoogwaardige invoerweergaven te benutten. De eerste fase bestaat uit een kandidaatweergavegeneratie- en curatiepijplijn. We maken gebruik van een fijn afgestemd multi-view afbeeldingsdiffusiemodel en een videodiffusiemodel om een pool van kandidaatweergaven te genereren, waardoor een rijke representatie van het doel-3D-object mogelijk is. Vervolgens filtert een weergaveselectiepijplijn deze weergaven op basis van kwaliteit en consistentie, waarbij ervoor wordt gezorgd dat alleen de hoogwaardige en betrouwbare weergaven worden gebruikt voor reconstructie. In de tweede fase worden de gecureerde weergaven ingevoerd in een Flexibel Reconstructiemodel (FlexRM), gebouwd op een transformer-architectuur die effectief een willekeurig aantal invoergegevens kan verwerken. FlexRM geeft rechtstreeks 3D-Gaussische punten uit met behulp van een drievlaksrepresentatie, waardoor efficiënte en gedetailleerde 3D-generatie mogelijk is. Door uitgebreid onderzoek naar ontwerp- en trainingsstrategieën optimaliseren we FlexRM om superieure prestaties te behalen in zowel reconstructie- als generatietaken. Onze resultaten tonen aan dat Flex3D state-of-the-art prestaties behaalt, met een gebruikersstudiewinpercentage van meer dan 92% in 3D-generatietaken in vergelijking met verschillende van de nieuwste feedforward 3D-generatiemodellen.
We introduceren VideoLISA, een op video gebaseerd multimodaal groot taalmodel dat is ontworpen om het probleem van taal-geïnstrueerde redeneringssegmentatie in video's aan te pakken. Door gebruik te maken van de redeneercapaciteiten en wereldkennis van grote taalmodellen, en aangevuld met het Segment Anything Model, genereert VideoLISA temporeel consistente segmentatiemaskers in video's op basis van taalinstructies. Bestaande op beeld gebaseerde methoden, zoals LISA, hebben moeite met videotaken vanwege de extra temporele dimensie, die een temporeel dynamisch begrip en consistente segmentatie over frames vereist. VideoLISA pakt deze uitdagingen aan door een Sparse Dense Sampling-strategie te integreren in het video-LLM, die een balans biedt tussen temporele context en ruimtelijk detail binnen computationele beperkingen. Daarnaast stellen we een One-Token-Seg-All benadering voor met behulp van een speciaal ontworpen <TRK> token, waardoor het model objecten kan segmenteren en volgen over meerdere frames. Uitgebreide evaluaties op diverse benchmarks, waaronder onze nieuw geïntroduceerde ReasonVOS benchmark, tonen de superieure prestaties van VideoLISA aan in video-objectsegmentatietaken die complex redeneren, temporeel begrip en objecttracking vereisen. Hoewel geoptimaliseerd voor video's, toont VideoLISA ook veelbelovende generalisatie naar beeldsegmentatie, wat zijn potentieel als een verenigd basismodel voor taal-geïnstrueerde objectsegmentatie onthult. Code en model zijn beschikbaar op: https://github.com/showlab/VideoLISA.
In dit werk delen we inzichten voor het bereiken van eersteklas kwaliteit in ons tekst-naar-afbeelding anime-afbeeldingsgeneratiemodel, genaamd Illustrious. Om hoge resolutie, dynamische kleurbereikafbeeldingen en een hoge herstelcapaciteit te bereiken, richten we ons op drie kritieke benaderingen voor modelverbetering. Ten eerste duiken we in het belang van de batchgrootte en dropout-regeling, die een snellere leerervaring van controleerbare token-gebaseerde conceptactivaties mogelijk maakt. Ten tweede verhogen we de trainingsresolutie van afbeeldingen, wat de nauwkeurige weergave van karakteranatomie in veel hogere resolutie beïnvloedt, waardoor de generatiecapaciteit wordt uitgebreid tot meer dan 20MP met passende methoden. Ten slotte stellen we de verfijnde meerlaagse bijschriften voor, die alle tags en verschillende natuurlijke taalbijschriften omvatten als een kritieke factor voor modelontwikkeling. Door uitgebreide analyse en experimenten toont Illustrious eersteklas prestaties op het gebied van animatiestijl, waarbij het veelgebruikte modellen in illustratiedomeinen overtreft, waardoor gemakkelijkere aanpassing en personalisatie mogelijk is met de aard van open source. We zijn van plan om de bijgewerkte Illustrious modelserie sequentieel openbaar vrij te geven, evenals duurzame plannen voor verbeteringen.
Diffusiemodellen zijn naar voren gekomen als een krachtige generatieve technologie en blijken toepasbaar te zijn in verschillende scenario's. De meeste bestaande fundamentele diffusiemodellen zijn primair ontworpen voor tekstgestuurde visuele generatie en ondersteunen geen multimodale omstandigheden, die essentieel zijn voor veel visuele bewerkingstaken. Deze beperking voorkomt dat deze fundamentele diffusiemodellen dienen als een verenigd model in het veld van visuele generatie, zoals GPT-4 in het natuurlijke taalverwerkingveld. In dit werk stellen we ACE voor, een All-round Creator and Editor, die vergelijkbare prestaties behaalt in een breed scala van visuele generatietaken in vergelijking met die van expertmodellen. Om dit doel te bereiken, introduceren we eerst een verenigd voorwaardenformaat genaamd Long-context Condition Unit (LCU) en stellen we een nieuw op Transformer gebaseerd diffusiemodel voor dat LCU als invoer gebruikt, met als doel gezamenlijke training over verschillende generatie- en bewerkingstaken. Bovendien stellen we een efficiënte gegevensverzamelingsbenadering voor om het probleem van het ontbreken van beschikbare trainingsgegevens aan te pakken. Dit omvat het verkrijgen van paarafbeeldingen met synthesegebaseerde of clusteringgebaseerde pipelines en het voorzien van deze paren van nauwkeurige tekstuele instructies door gebruik te maken van een fijn afgestemd multimodaal groot taalmodel. Om de prestaties van ons model uitgebreid te evalueren, stellen we een benchmark vast van handmatig geannoteerde paardata over een verscheidenheid aan visuele generatietaken. De uitgebreide experimentele resultaten tonen de superioriteit van ons model in visuele generatievelden aan. Dankzij de alles-in-één mogelijkheden van ons model kunnen we gemakkelijk een multimodaal chatsysteem opzetten dat reageert op elk interactief verzoek voor beeldcreatie met behulp van een enkel model als backend, waardoor het omslachtige proces dat typisch wordt gebruikt in visuele agenten wordt vermeden. De code en modellen zullen beschikbaar zijn op de projectpagina: https://ali-vilab.github.io/ace-page/.
De vooruitgang van autonoom rijden is steeds meer afhankelijk van hoogwaardige geannoteerde datasets, vooral bij de taak van 3D bezettingsvoorspelling, waarbij de bezettingslabels dichte 3D-annotatie vereisen met aanzienlijke menselijke inspanning. In dit artikel stellen we SyntheOcc voor, wat een diffusiemodel aanduidt dat fotorealistische en geometrisch gecontroleerde afbeeldingen synthetiseert door de bezettingslabels in rijscenario's te conditioneren. Dit levert een onbeperkte hoeveelheid diverse, geannoteerde en controleerbare datasets op voor toepassingen zoals het trainen van perceptiemodellen en simulatie. SyntheOcc pakt de cruciale uitdaging aan van hoe 3D-geometrische informatie efficiënt te coderen als conditionele invoer voor een 2D diffusiemodel. Onze aanpak omvat innovatief 3D semantische multi-plane afbeeldingen (MPI's) om uitgebreide en ruimtelijk uitgelijnde 3D scènebeschrijvingen te bieden voor conditionering. Als gevolg hiervan kan SyntheOcc fotorealistische multi-view afbeeldingen en video's genereren die nauwkeurig overeenkomen met de gegeven geometrische labels (semantiek in 3D-voxelruimte). Uitgebreide kwalitatieve en kwantitatieve evaluaties van SyntheOcc op de nuScenes dataset bewijzen de effectiviteit ervan bij het genereren van controleerbare bezettingsdatasets die dienen als een effectieve gegevensaanvulling voor perceptiemodellen.
Grote multimodale modellen (LMM's) hebben indrukwekkende prestaties aangetoond bij taken voor het begrijpen van korte video's, maar staan voor grote uitdagingen wanneer ze worden toegepast op het begrijpen van lange video's. Daarentegen vertonen grote taalmodellen (LLM's) uitstekende mogelijkheden om lange teksten te modelleren. Bestaand werk probeert dit probleem aan te pakken door lange video-tekstparen tijdens de training te introduceren. Deze benaderingen vereisen echter aanzienlijke rekenkracht en gegevensbronnen. In dit artikel gaan we de uitdaging van het begrijpen van lange video's aan vanuit het perspectief van contextvensters, met als doel LMM's toe te passen op lange videotaken zonder opnieuw te trainen op lange videodatasets. We voeren eerst een diepgaande analyse uit van waarom voorgetrainde LMM's moeite hebben met het begrijpen van uitgebreide videomateriaal, waarbij we vaststellen dat verschillen tussen visuele en taalmodaliteiten leiden tot verschillende contextvensters voor visuele en taaltokens, waardoor het moeilijk is om de visuele tokens rechtstreeks uit te breiden om overeen te komen met het taalcontextvenster. Op basis hiervan stellen we voor om LMM's aan te passen voor taken voor het begrijpen van lange video's door het visuele contextvenster uit te breiden, waardoor het opnieuw trainen op grootschalige lange videodatasets overbodig wordt. Om de aanzienlijke geheugenconsumptie veroorzaakt door lange sequenties verder te verminderen, introduceren we een progressieve pooling-inferentiestrategie die selectief de ruimtelijke resolutie van frame-embeddings aanpast, waardoor het aantal visuele tokens wordt verminderd terwijl belangrijke ruimtelijke informatie behouden blijft. Over meerdere benchmarks voor het begrijpen van lange video's verbetert onze methode consequent de prestaties naarmate het aantal videoframes toeneemt. Op de MLVU-benchmark presteert onze methode beter dan GPT-4o, ook al is onze modelgrootte slechts 7B. Bovendien vermindert onze methode het geheugengebruik met ongeveer 45% in vergelijking met de basisinstelling van 256 frames, zonder enig prestatieverlies te introduceren.
Algoritmes voor het herstellen van fotorealistische afbeeldingen worden doorgaans geëvalueerd aan de hand van vervormingsmetingen (bijv. PSNR, SSIM) en perceptuele kwaliteitsmetingen (bijv. FID, NIQE), waarbij het streven is om de laagst mogelijke vervorming te bereiken zonder in te leveren op de perceptuele kwaliteit. Om dit doel te bereiken, proberen huidige methoden typisch te samplen uit de posterior distributie, of een gewogen som te optimaliseren van een vervormingsverlies (bijv. MSE) en een perceptuele kwaliteitsverlies (bijv. GAN). In tegenstelling tot eerdere werken, richt dit artikel zich specifiek op de optimale schatter die de MSE minimaliseert onder een beperking van een perfect perceptueel index, namelijk waar de distributie van de gereconstrueerde afbeeldingen gelijk is aan die van de werkelijke afbeeldingen. Een recent theoretisch resultaat toont aan dat zo'n schatter geconstrueerd kan worden door de posterior mean voorspelling (MMSE schatting) optimaal te transporteren naar de distributie van de werkelijke afbeeldingen. Geïnspireerd door dit resultaat introduceren we Posterior-Mean Rectified Flow (PMRF), een eenvoudig maar zeer effectief algoritme dat deze optimale schatter benadert. In het bijzonder voorspelt PMRF eerst de posterior mean, en transporteert vervolgens het resultaat naar een hoogwaardige afbeelding met behulp van een gerechtvaardigd stroommodel dat de gewenste optimale transportmap benadert. We onderzoeken het theoretische nut van PMRF en tonen aan dat het consequent beter presteert dan eerdere methoden bij verschillende taken voor het herstellen van afbeeldingen.
We presenteren een methode om tijd-consistente menselijke lichaamsmodellen te reconstrueren van monoculaire video's, met de focus op zeer losse kleding of interacties met handheld objecten. Eerdere onderzoeken naar menselijke reconstructie zijn ofwel beperkt tot strakke kleding zonder objectinteracties, of vereisen gekalibreerde multi-view opnames of gepersonaliseerde sjabloonscans die kostbaar zijn om op grote schaal te verzamelen. Ons belangrijkste inzicht voor hoogwaardige maar flexibele reconstructie is de zorgvuldige combinatie van generieke menselijke aannames over gearticuleerde lichaamsvorm (geleerd uit grootschalige trainingsgegevens) met video-specifieke gearticuleerde "bag-of-bones" vervorming (aangepast aan een enkele video via optimalisatie op testtijd). We bereiken dit door het leren van een neurale impliciete model dat lichaams- versus kledingvervormingen ontwart als afzonderlijke bewegingsmodel-lagen. Om de subtiele geometrie van kleding vast te leggen, maken we gebruik van op beelden gebaseerde aannames zoals menselijke lichaamshouding, oppervlaktenormalen en optische stroming tijdens optimalisatie. De resulterende neurale velden kunnen worden geëxtraheerd in tijd-consistente meshes, of verder worden geoptimaliseerd als expliciete 3D-Gaussianen voor hoogwaardige interactieve rendering. Op datasets met zeer uitdagende kledingvervormingen en objectinteracties levert DressRecon 3D-reconstructies met hogere nauwkeurigheid op dan de eerdere methoden. Projectpagina: https://jefftan969.github.io/dressrecon/
Leermethoden hebben sterke prestaties behaald voor viervoetige voortbeweging. Echter, verschillende uitdagingen voorkomen dat viervoeters nuttige binnen vaardigheden leren die interactie met omgevingen en mensen vereisen: gebrek aan eind-effectoren voor manipulatie, beperkt semantisch begrip met alleen simulatiedata, en lage begaanbaarheid en bereikbaarheid in binnenomgevingen. We presenteren een systeem voor mobiele manipulatie door viervoeters in binnenomgevingen. Het maakt gebruik van een aan de voorkant gemonteerde grijper voor objectmanipulatie, een laag-niveau controller getraind in simulatie met behulp van egocentrische diepte voor behendige vaardigheden zoals klimmen en kantelen van het hele lichaam, en vooraf getrainde visie-taalmodellen (VLM's) met een fisheye derdepersoons- en een egocentrische RGB-camera voor semantisch begrip en commandogeneratie. We evalueren ons systeem in twee ongeziene omgevingen zonder enige gegevensverzameling of training in de echte wereld. Ons systeem kan zich zonder training aanpassen aan deze omgevingen en taken voltooien, zoals het opvolgen van commando's van de gebruiker om een willekeurig geplaatst knuffeldier te halen na het beklimmen van een tweepersoonsbed, met een succespercentage van 60%. Projectwebsite: https://helpful-doggybot.github.io/
Gender bias in machinevertaling (MT) wordt erkend als een probleem dat mensen en de samenleving kan schaden. En toch houden vooruitgang in het vakgebied zelden rekening met mensen, de uiteindelijke MT-gebruikers, of informeren ze over hoe zij mogelijk worden beïnvloed door bevooroordeelde technologieën. Huidige evaluaties zijn vaak beperkt tot automatische methoden, die een ondoorzichtige schatting bieden van wat de downstream impact van genderongelijkheden zou kunnen zijn. We voeren een uitgebreide op de mens gerichte studie uit om te onderzoeken of en in hoeverre bias in MT schade met tastbare kosten met zich meebrengt, zoals kwaliteitsverschillen in dienstverlening tussen vrouwen en mannen. Met dit doel verzamelen we gedragsgegevens van 90 deelnemers, die MT-uitvoer post-editen om correcte gendervertaling te garanderen. Over meerdere datasets, talen en soorten gebruikers laat onze studie zien dat het post-editen van vrouwelijke vertalingen aanzienlijk meer technische en tijdelijke inspanning vergt, wat ook overeenkomt met hogere financiële kosten. Bestaande biasmetingen weerspiegelen echter niet de gevonden ongelijkheden. Onze bevindingen pleiten voor op de mens gerichte benaderingen die de maatschappelijke impact van bias kunnen informeren.
Er is geen limiet aan hoeveel een robot kan verkennen en leren, maar al die kennis moet doorzoekbaar en bruikbaar zijn. Binnen het taalonderzoek is retrieval augmented generation (RAG) de werkpaard geworden van grootschalige niet-parametrische kennis, echter bestaande technieken kunnen niet direct worden overgebracht naar het belichaamde domein, dat multimodaal is, waar data sterk gecorreleerd is en waar perceptie abstractie vereist. Om deze uitdagingen aan te pakken, introduceren we Embodied-RAG, een raamwerk dat het fundament van een belichaamde agent versterkt met een niet-parametrisch geheugensysteem dat autonoom hiërarchische kennis kan opbouwen voor zowel navigatie als taalgeneratie. Embodied-RAG behandelt een volledig scala aan ruimtelijke en semantische resoluties over diverse omgevingen en soorten vragen, of het nu gaat om een specifiek object of een holistische beschrijving van de ambiance. In de kern is het geheugen van Embodied-RAG gestructureerd als een semantisch bos, waarbij taalbeschrijvingen op verschillende detailniveaus worden opgeslagen. Deze hiërarchische organisatie stelt het systeem in staat om efficiënt contextgevoelige uitvoer te genereren over verschillende robotplatforms. We tonen aan dat Embodied-RAG effectief RAG verbindt met het robotica-domein, met succes meer dan 200 uitleg- en navigatievragen behandelt in 19 omgevingen, waarbij de belofte wordt benadrukt van een algemeen niet-parametrisch systeem voor belichaamde agenten.