Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het verlengen van de contextlengte van Taalmodellen (LM's) door de Rotary Position Embedding (RoPE) te verbeteren, is een trend geworden. Terwijl bestaande werken voornamelijk de beperkingen van RoPE binnen het aandachtsmechanisme aanpakken, biedt dit artikel een analyse over bijna alle onderdelen van LM's, waarbij hun nadelige effecten op lengtegeneralisatie voor op RoPE gebaseerde aandacht worden blootgelegd. Met behulp van de theorie van Discrete Signaalverwerking tonen we aan dat RoPE periodieke aandacht mogelijk maakt door impliciet de Non-Uniform Discrete Fourier-Transformatie te bereiken. Echter, deze periodieke eigenschap wordt ondermijnd door de spectrale schade veroorzaakt door: 1) lineaire lagen en activatiefuncties buiten de aandacht; 2) onvoldoende getrainde frequentiecomponenten veroorzaakt door tijdsdomeintruncatie. Voortbouwend op onze observaties stellen we Fourier Position Embedding (FoPE) voor, die de frequentiedomeineigenschappen van de aandacht verbetert om zowel de periodieke uitbreiding als de lengtegeneralisatie te verbeteren. FoPE construeert Fourierreeksen en elimineert de schadelijke frequentiecomponenten, waardoor de modelrobustheid tegen spectrumschade toeneemt. Experimenten op verschillende modelschalen tonen aan dat, binnen variërende contextvensters, FoPE een stabielere perplexiteit kan handhaven en een consistenter nauwkeurigheidsniveau kan behalen in een naald-in-een-hooibergtaak in vergelijking met RoPE en ALiBi. Diverse analyses en ablaties bieden verdere ondersteuning voor onze methode en theoretische modellering.
Een 3D-scene-graaf vertegenwoordigt een compact scènemodel, waarin informatie over de objecten en de semantische relaties tussen hen wordt opgeslagen, waardoor het veelbelovend is voor robottaken. Bij interactie met een gebruiker moet een belichaamde intelligente agent in staat zijn om te reageren op verschillende vragen over de scène die geformuleerd zijn in natuurlijke taal. Grote Taalmodellen (LLM's) zijn gunstige oplossingen voor gebruiker-robotinteractie vanwege hun begrip van natuurlijke taal en redeneervermogen. Recente methoden voor het creëren van leerzame representaties van 3D-scènes hebben het potentieel aangetoond om de kwaliteit van LLM's-responsen te verbeteren door zich aan te passen aan de 3D-wereld. Echter, de bestaande methoden maken geen expliciet gebruik van informatie over de semantische relaties tussen objecten, en beperken zich tot informatie over hun coördinaten. In dit werk stellen we een methode 3DGraphLLM voor om een leerzame representatie van een 3D-scene-graaf te construeren. De leerzame representatie wordt gebruikt als invoer voor LLM's om 3D visie-taal taken uit te voeren. In onze experimenten met populaire ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D en Scan2cap datasets, tonen we het voordeel van deze benadering ten opzichte van basismethoden die geen gebruik maken van informatie over de semantische relaties tussen objecten. De code is openbaar beschikbaar op https://github.com/CognitiveAISystems/3DGraphLLM.
Ontbrekende waarden blijven een veelvoorkomende uitdaging voor dieptedata in een breed scala van toepassingen, voortkomend uit verschillende oorzaken zoals onvolledige gegevensverzameling en perspectiefverandering. Dit werk overbrugt deze kloof met DepthLab, een basis dieptevervullingsmodel aangedreven door beeldverspreidingsprioriteiten. Ons model heeft twee opmerkelijke sterke punten: (1) het toont veerkracht tegenover dieptetekortgebieden, waardoor betrouwbare voltooiing mogelijk is voor zowel continue gebieden als geïsoleerde punten, en (2) het behoudt nauwkeurig de schaalconsistentie met de geconditioneerde bekende diepte bij het invullen van ontbrekende waarden. Puttend uit deze voordelen, bewijst onze benadering haar waarde in verschillende downstreamtaken, waaronder 3D-scenevervulling, tekst-naar-3D-scene-generatie, schaars-beeldreconstructie met DUST3R, en LiDAR-dieptevervulling, waarbij de huidige oplossingen worden overtroffen op zowel numerieke prestaties als visuele kwaliteit. Onze projectpagina met broncode is beschikbaar op https://johanan528.github.io/depthlab_web/.
Sora-achtige videogeneratiemodellen hebben opmerkelijke vooruitgang geboekt met een Multi-Modale Diffusie Transformer MM-DiT-architectuur. Echter, de huidige videogeneratiemodellen richten zich voornamelijk op enkele aanwijzingen en worstelen om coherente scènes te genereren met meerdere opeenvolgende aanwijzingen die beter de dynamische scenario's in de echte wereld weerspiegelen. Hoewel sommige baanbrekende werken multi-aanwijzingen videogeneratie hebben verkend, worden ze geconfronteerd met aanzienlijke uitdagingen, waaronder strikte trainingsdata-eisen, zwakke opvolging van aanwijzingen en onnatuurlijke overgangen. Om deze problemen aan te pakken, stellen we DiTCtrl voor, een trainingsvrije methode voor multi-aanwijzingen videogeneratie onder MM-DiT-architecturen voor de eerste keer. Ons belangrijkste idee is om de taak van multi-aanwijzingen videogeneratie te beschouwen als temporele videobewerking met vloeiende overgangen. Om dit doel te bereiken, analyseren we eerst het aandachtsmechanisme van MM-DiT, waarbij we constateren dat de 3D-volle aandacht zich op een vergelijkbare manier gedraagt als die van de kruis-/zelfaandachtsblokken in de UNet-achtige diffusiemodellen, waardoor maskergestuurde precieze semantische controle mogelijk is over verschillende aanwijzingen met aandachtsdeling voor multi-aanwijzingen videogeneratie. Op basis van onze zorgvuldige ontwerp genereert de video gemaakt door DiTCtrl vloeiende overgangen en consistente objectbeweging bij meerdere opeenvolgende aanwijzingen zonder extra training. Bovendien presenteren we ook MPVBench, een nieuwe benchmark speciaal ontworpen voor multi-aanwijzingen videogeneratie om de prestaties van multi-aanwijzingengeneratie te evalueren. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art prestaties behaalt zonder extra training.
Text- of afbeelding-naar-3D generatoren en 3D scanners kunnen nu 3D assets produceren met vormen en texturen van hoge kwaliteit. Deze assets bestaan doorgaans uit een enkele, samengevoegde representatie, zoals een impliciet neuraal veld, een Gaussische mengvorm, of een mesh, zonder enige bruikbare structuur. Echter, de meeste toepassingen en creatieve workflows vereisen dat assets bestaan uit verschillende betekenisvolle delen die onafhankelijk kunnen worden gemanipuleerd. Om deze kloof te overbruggen, introduceren we PartGen, een nieuw benadering die 3D objecten genereert bestaande uit betekenisvolle delen, beginnend vanuit tekst, een afbeelding, of een ongestructureerd 3D object. Allereerst, gegeven meerdere aanzichten van een 3D object, gegenereerd of gerenderd, extraheren een multi-view diffusie model een reeks plausibele en aanzicht-consistente deelsegmentaties, waarbij het object wordt verdeeld in delen. Vervolgens neemt een tweede multi-view diffusie model elk deel afzonderlijk, vult de occlusies in, en gebruikt die voltooide aanzichten voor 3D reconstructie door ze toe te voeren aan een 3D reconstructie netwerk. Dit voltooiingsproces houdt rekening met de context van het gehele object om ervoor te zorgen dat de delen samenhangend integreren. Het generatieve voltooiingsmodel kan de ontbrekende informatie door occlusies compenseren; in extreme gevallen kan het zelfs volledig onzichtbare delen hallucineren op basis van de input 3D asset. We evalueren onze methode op gegenereerde en echte 3D assets en tonen aan dat het aanzienlijk beter presteert dan segmentatie- en deel-extractie baselines. We laten ook downstream toepassingen zien zoals 3D deelbewerking.
Ondanks recente vooruitgang in grote taalmodellen, hebben open-source modellen vaak moeite om consistent goed te presteren op complexe redeneertaken. Bestaande ensemble methoden, of ze nu worden toegepast op token- of outputniveaus, slagen er niet in deze uitdagingen aan te pakken. Als reactie presenteren we Language model Ensemble with Monte Carlo Tree Search (LE-MCTS), een nieuw raamwerk voor het op procesniveau samenvoegen van taalmodellen. LE-MCTS formuleert stapsgewijs redeneren met een ensemble van taalmodellen als een Markov-beslissingsproces. In dit raamwerk stellen staten tussenliggende redeneerpaden voor, terwijl acties bestaan uit het genereren van de volgende redeneerstap met behulp van een van de taalmodellen geselecteerd uit een vooraf gedefinieerde pool. Geleid door een op proces gebaseerd beloningsmodel voert LE-MCTS een boomzoekopdracht uit over de redeneerstappen gegenereerd door verschillende taalmodellen, waarbij de meest nauwkeurige redeneerketen wordt geïdentificeerd. Experimentele resultaten op vijf wiskundige redeneerbenchmarks tonen aan dat onze aanpak zowel enkelvoudige taalmodeldecoderingsalgoritmen als taalmodelensemblemethoden overtreft. Opmerkelijk verbetert LE-MCTS de prestaties met respectievelijk 3,6% en 4,3% op de MATH- en MQA-datasets, waarbij de effectiviteit ervan bij het oplossen van complexe redeneerproblemen wordt benadrukt.
De ARC-uitdaging lijkt voor moderne LLM's moeilijker dan ARC Gemakkelijk, voornamelijk vanwege een evaluatieopstelling die directe vergelijking van antwoordkeuzes voorkomt in plaats van inherente complexiteit. Hoewel sommige onderzoekers het afgelopen jaar stilzwijgend zijn overgestapt naar een meer geschikt schema, zijn de implicaties van deze verandering nog niet breed erkend. We benadrukken deze over het hoofd geziene verschuiving, laten zien hoe vergelijkbare evaluatiepraktijken ten onrechte redeneringstekorten suggereren in andere benchmarks, en tonen aan dat eerlijkere methoden prestatieverschillen aanzienlijk verkleinen (bijv. op SIQA) en zelfs bovenmenselijke resultaten opleveren (OpenBookQA). Op deze manier onthullen we hoe evaluatie de waargenomen moeilijkheid vormgeeft en bieden we richtlijnen om ervoor te zorgen dat meerkeuze-evaluaties de daadwerkelijke modelcapaciteiten nauwkeurig weerspiegelen.
Spaarzaam geactiveerde Mixture-of-Experts (MoE) modellen worden veelvuldig gebruikt om de modelcapaciteit te vergroten zonder het rekenbudget te verhogen. Echter, standaard TopK-routers worden op een discontinu, niet-differentieerbare manier getraind, wat hun prestaties en schaalbaarheid beperkt. Om dit probleem aan te pakken, stellen we ReMoE voor, een volledig differentieerbare MoE-architectuur die een eenvoudige maar effectieve vervanging biedt voor de conventionele TopK+Softmax-routing, waarbij ReLU als router wordt gebruikt. We stellen ook methoden voor om de spaarzaamheid van de router te reguleren terwijl de belasting onder de experts wordt gebalanceerd. De continue aard van ReMoE maakt efficiënte dynamische toewijzing van berekeningen over tokens en lagen mogelijk, terwijl ook domeinspecialisatie wordt getoond. Onze experimenten tonen aan dat ReMoE consequent beter presteert dan standaard TopK-gerouteerde MoE-modellen bij verschillende modelgroottes, expertaantallen en granulariteitsniveaus. Bovendien vertoont ReMoE superieure schaalbaarheid wat betreft het aantal experts, waarbij traditionele MoE-architecturen worden overtroffen. De implementatie gebaseerd op Megatron-LM is beschikbaar op https://github.com/thu-ml/ReMoE.
Retrieval-Augmented Generation (RAG) systemen zijn cruciaal geworden bij het benutten van uitgebreide corpora om geïnformeerde en contextueel relevante antwoorden te genereren, waarbij hallucinaties in Grote Taalmodellen aanzienlijk worden verminderd. Ondanks aanzienlijke vooruitgang hebben deze systemen moeite met het efficiënt verwerken en ophalen van informatie uit grote datasets, terwijl ze een alomvattend begrip van de context behouden. Dit artikel introduceert SKETCH, een nieuwe methodologie die het RAG ophaalproces verbetert door semantisch tekst ophalen te integreren met kennisgrafieken, waardoor gestructureerde en ongestructureerde gegevens worden samengevoegd voor een meer holistisch begrip. SKETCH toont aanzienlijke verbeteringen in ophaalprestaties en behoudt superieure contextuele integriteit in vergelijking met traditionele methoden. Geëvalueerd over vier diverse datasets: QuALITY, QASPER, NarrativeQA en Italiaanse Keuken-SKETCH presteert consequent beter dan basismethoden op belangrijke RAGAS-metrieken zoals antwoordrelevantie, getrouwheid, contextprecisie en contextherinnering. Met name op de dataset van Italiaanse Keuken behaalde SKETCH een antwoordrelevantie van 0.94 en een contextprecisie van 0.99, wat de hoogste prestatie vertegenwoordigt over alle geëvalueerde metrieken. Deze resultaten benadrukken de capaciteit van SKETCH om nauwkeurigere en contextueel relevantere antwoorden te leveren, waarmee nieuwe maatstaven worden gezet voor toekomstige ophaalsystemen.
Vooruitgang in AI wordt grotendeels gedreven door de omvang en kwaliteit van trainingsdata. Desondanks is er een tekort aan empirische analyse die de kenmerken van goed gevestigde datasets buiten tekst onderzoekt. In dit werk voeren we de grootste en eerste longitudinale audit uit over modaliteiten - populaire tekst, spraak en video datasets - van hun gedetailleerde bronnetrends en gebruik beperkingen tot hun geografische en taalkundige representatie. Onze handmatige analyse omvat bijna 4000 openbare datasets tussen 1990-2024, die 608 talen, 798 bronnen, 659 organisaties en 67 landen beslaan. We constateren dat multimodale machine learning toepassingen in grote mate zijn overgestapt naar web-gecrawld, synthetische en sociale mediaplatforms, zoals YouTube, voor hun trainingssets, waarbij ze alle andere bronnen overschaduwen sinds 2019. Ten tweede, door de keten van datasetafleidingen te traceren, vinden we dat terwijl minder dan 33% van de datasets restrictief gelicentieerd zijn, meer dan 80% van de broninhoud in veelgebruikte tekst-, spraak- en video datasets niet-commerciële beperkingen met zich meedragen. Tot slot, in tegenstelling tot het toenemende aantal talen en geografieën die vertegenwoordigd zijn in openbare AI-trainingsdatasets, toont onze audit aan dat maatregelen van relatieve geografische en meertalige representatie niet significant zijn verbeterd sinds 2013. Wij geloven dat de breedte van onze audit ons in staat stelt om trends in gegevensbronnen, beperkingen en Westerse gerichtheid op een ecosysteemniveau empirisch te onderzoeken, en dat inzicht in deze vragen essentieel is voor vooruitgang in verantwoorde AI. Als bijdrage aan lopende verbeteringen in datasettransparantie en verantwoord gebruik, publiceren we onze volledige multimodale audit, waardoor beoefenaars gegevensherkomst kunnen traceren over tekst, spraak en video.
Text-Image-to-Video (TI2V) generatie heeft als doel een video te genereren vanuit een afbeelding aan de hand van een tekstbeschrijving, wat ook wel tekstgestuurde afbeeldingsanimatie wordt genoemd. De meeste bestaande methoden hebben moeite met het genereren van video's die goed aansluiten bij de tekstuele aanwijzingen, vooral wanneer beweging wordt gespecificeerd. Om deze beperking te overwinnen, introduceren we MotiF, een eenvoudige maar effectieve aanpak die het leren van het model richt op de gebieden met meer beweging, waardoor de tekstuitlijning en bewegingsgeneratie worden verbeterd. We gebruiken optische stroming om een bewegingswarmtekaart te genereren en wegen het verlies volgens de intensiteit van de beweging. Dit aangepaste doel leidt tot merkbare verbeteringen en vult bestaande methoden aan die bewegingsprioriteiten gebruiken als modelinvoer. Daarnaast, vanwege het gebrek aan een divers benchmark voor het evalueren van TI2V-generatie, stellen we TI2V Bench voor, een dataset bestaande uit 320 afbeelding-tekst paren voor een robuuste evaluatie. We presenteren een menselijke evaluatieprotocol waarbij de annotatoren wordt gevraagd een algemene voorkeur tussen twee video's te selecteren, gevolgd door hun rechtvaardigingen. Door een uitgebreide evaluatie op TI2V Bench presteert MotiF beter dan negen open-source modellen, met een gemiddelde voorkeur van 72%. De TI2V Bench is beschikbaar op https://wang-sj16.github.io/motif/.