Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Plannen met gedeeltelijke observatie is een centrale uitdaging in embodied AI. Een meerderheid van eerdere werken heeft deze uitdaging aangepakt door agenten te ontwikkelen die fysiek hun omgeving verkennen om hun overtuigingen over de wereldstaat bij te werken. In tegenstelling hiermee kunnen mensen ongeziene delen van de wereld voorstellen door middel van mentale verkenning en hun overtuigingen herzien met voorgestelde observaties. Dergelijke bijgewerkte overtuigingen kunnen hen in staat stellen om meer geïnformeerde beslissingen te nemen, zonder dat ze voortdurend de wereld fysiek hoeven te verkennen. Om deze menselijke vaardigheid te bereiken, introduceren we de Generative World Explorer (Genex), een egocentrisch wereldverkenningskader dat een agent in staat stelt om mentaal een grootschalige 3D-wereld (bijv. stedelijke scènes) te verkennen en denkbeeldige observaties te verkrijgen om zijn overtuiging bij te werken. Deze bijgewerkte overtuiging zal de agent vervolgens helpen om een meer geïnformeerde beslissing te nemen op het huidige moment. Om Genex te trainen, creëren we een synthetische stedelijke scènedataset, Genex-DB. Onze experimentele resultaten tonen aan dat (1) Genex hoogwaardige en consistente observaties kan genereren tijdens verkenning op lange termijn van een grote virtuele fysieke wereld en (2) de overtuigingen bijgewerkt met de gegenereerde observaties een bestaand besluitvormingsmodel (bijv. een LLM-agent) kunnen informeren om betere plannen te maken.
De opkomst en groeiende populariteit van multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel om verschillende aspecten van het dagelijks leven te verbeteren, van het verbeteren van communicatie tot het vergemakkelijken van leren en probleemoplossing. Mobiele telefoons, als essentiële dagelijkse metgezellen, vertegenwoordigen het meest effectieve en toegankelijke implementatieplatform voor MLLM's, waardoor naadloze integratie in alledaagse taken mogelijk is. Het implementeren van MLLM's op mobiele telefoons brengt echter uitdagingen met zich mee vanwege beperkingen in geheugengrootte en rekenkracht, waardoor het moeilijk is om vloeiende en real-time verwerking te bereiken zonder uitgebreide optimalisatie. In dit artikel presenteren we BlueLM-V-3B, een algoritme- en systeem-co-ontwerpbenadering die specifiek is afgestemd op de efficiënte implementatie van MLLM's op mobiele platforms. Om specifiek te zijn, herontwerpen we het dynamische resolutieschema dat wordt aangenomen door gangbare MLLM's en implementeren we systeemoptimalisatie voor hardwarebewuste implementatie om modelinferentie op mobiele telefoons te optimaliseren. BlueLM-V-3B heeft de volgende belangrijke hoogtepunten: (1) Kleine omvang: BlueLM-V-3B heeft een taalmodel met 2,7 miljard parameters en een visie-encoder met 400 miljoen parameters. (2) Snelle snelheid: BlueLM-V-3B bereikt een generatiesnelheid van 24,4 tokens/s op de MediaTek Dimensity 9300-processor met 4-bits LLM-gewichtskwantisatie. (3) Sterke prestaties: BlueLM-V-3B heeft de hoogste gemiddelde score van 66,1 behaald op de OpenCompass-benchmark onder modellen met ≤ 4 miljard parameters en heeft een reeks modellen met veel grotere parametergroottes overtroffen (bijv. MiniCPM-V-2.6, InternVL2-8B).
We presenteren een verenigde controleerbare video generatie benadering AnimateAnything die precieze en consistente videomanipulatie mogelijk maakt onder verschillende omstandigheden, waaronder cameratrajecten, tekstprompts en gebruikersbewegingsannotaties. Specifiek ontwerpen we zorgvuldig een multi-schaal controle eigenschap fusie netwerk om een gemeenschappelijke bewegingsrepresentatie te construeren voor verschillende omstandigheden. Het zet alle controle-informatie expliciet om in frame-voor-frame optische stromen. Vervolgens nemen we de optische stromen op als bewegingsprioriteiten om de uiteindelijke videogeneratie te sturen. Daarnaast stellen we een frequentie-gebaseerde stabilisatiemodule voor om de flikkering veroorzaakt door grootschalige beweging te verminderen. Het kan de temporele coherentie verbeteren door de frequentiedomeinconsistentie van de video te waarborgen. Experimenten tonen aan dat onze methode beter presteert dan de state-of-the-art benaderingen. Voor meer details en video's, zie de webpagina: https://yu-shaonian.github.io/Animate_Anything/.
De evolutie van machine learning heeft steeds meer prioriteit gegeven aan de ontwikkeling van krachtige modellen en meer schaalbare toezichtsignalen. Echter, de opkomst van foundation modellen brengt aanzienlijke uitdagingen met zich mee bij het verschaffen van effectieve toezichtsignalen die nodig zijn om hun mogelijkheden verder te verbeteren. Daarom is er een dringende behoefte om nieuwe toezichtsignalen en technische benaderingen te verkennen. In dit artikel stellen we verifier engineering voor, een nieuw paradigma na de training dat specifiek is ontworpen voor het tijdperk van foundation modellen. De kern van verifier engineering omvat het benutten van een reeks geautomatiseerde verifiers om verificatietaken uit te voeren en zinvolle feedback te geven aan foundation modellen. We categoriseren systematisch het verifier engineering proces in drie essentiële stadia: zoeken, verifiëren en feedback geven, en bieden een uitgebreid overzicht van state-of-the-art onderzoeksontwikkelingen binnen elk stadium. We geloven dat verifier engineering een fundamentele weg vormt naar het bereiken van Kunstmatige Algemene Intelligentie.
Grote taalmodellen (LLM's) maken doorgaans gebruik van hebzuchtig decoderen of lage-temperatuursteekproeven voor redeneertaken, wat een waargenomen afweging weerspiegelt tussen diversiteit en nauwkeurigheid. Wij dagen deze conventie uit door top-nsigma te introduceren, een nieuw steekproefmethode die rechtstreeks op pre-softmax logaritmes werkt door gebruik te maken van een statistische drempel. Ons belangrijkste inzicht is dat logaritmes van nature opsplitsen in een Gaussisch verdeeld ruisachtig gebied en een afzonderlijk informatief gebied, waardoor efficiënte tokenfiltering mogelijk is zonder complexe waarschijnlijkheidsmanipulaties. In tegenstelling tot bestaande methoden (bijv. top-p, min-p) die onbedoeld meer ruis-tokens opnemen bij hogere temperaturen, handhaaft top-nsigma een stabiele steekproefruimte ongeacht de temperatuurschaal. We bieden ook een theoretische analyse van top-nsigma om zijn gedrag beter te begrijpen. De uitgebreide experimentele resultaten over vier op redeneren gerichte datasets tonen aan dat onze methode niet alleen bestaande steekproefbenaderingen overtreft, maar ook hebzuchtig decoderen overstijgt, terwijl het consistente prestaties behoudt, zelfs bij hoge temperaturen.
Rerankers, meestal cross-encoders, worden vaak gebruikt om de documenten opnieuw te beoordelen die zijn opgehaald door goedkopere initiële IR-systemen. Dit komt doordat, hoewel duur, wordt aangenomen dat rerankers effectiever zijn. We dagen deze aanname uit door de prestaties van rerankers te meten voor volledige opvraging, niet alleen het opnieuw beoordelen van de opvraging in de eerste fase. Onze experimenten onthullen een verrassende trend: de beste bestaande rerankers leveren afnemende meeropbrengsten bij het beoordelen van progressief meer documenten en de kwaliteit daalt daadwerkelijk na een bepaalde limiet. In feite kunnen rerankers in deze context vaak hoge scores toekennen aan documenten zonder enige lexicale of semantische overlap met de zoekopdracht. We hopen dat onze bevindingen toekomstig onderzoek zullen stimuleren om reranking te verbeteren.
Hoewel op beeld gebaseerde virtuele pasvorm uitproberen aanzienlijke vooruitgang heeft geboekt, ondervinden opkomende benaderingen nog steeds uitdagingen bij het produceren van hoogwaardige en robuuste pasvormafbeeldingen in uiteenlopende scenario's. Deze methoden hebben vaak moeite met kwesties zoals textuurgevoelig onderhoud en maatgevoelige pasvorm, die hun algehele effectiviteit belemmeren. Om deze beperkingen aan te pakken, stellen we een nieuwe techniek voor voor het verbeteren van kledingperceptie, genaamd FitDiT, ontworpen voor hoogwaardige virtuele pasvorm met behulp van Diffusion Transformers (DiT) die meer parameters en aandacht toewijzen aan hoge-resolutie kenmerken. Ten eerste introduceren we, om textuurgevoelig onderhoud verder te verbeteren, een kledingtextuurextractor die kledingprioriteiten evolutie opneemt om kledingkenmerken bij te stellen, wat helpt bij het beter vastleggen van rijke details zoals strepen, patronen en tekst. Daarnaast introduceren we leertechnieken in het frequentiedomein door een frequentieafstandsverlies aan te passen om hoge-frequentie kledingdetails te verbeteren. Om het probleem van maatgevoelige pasvorm aan te pakken, maken we gebruik van een strategie met verdunde-ontspannen maskers die zich aanpassen aan de juiste lengte van kledingstukken, waardoor wordt voorkomen dat kledingstukken worden gegenereerd die het volledige maskergebied vullen tijdens het uitproberen van verschillende categorieën. Uitgerust met bovenstaand ontwerp overtreft FitDiT alle baselines in zowel kwalitatieve als kwantitatieve evaluaties. Het excelleert in het produceren van goed passende kledingstukken met fotorealistische en ingewikkelde details, terwijl het ook competitieve inferentietijden van 4,57 seconden behaalt voor een enkele 1024x768 afbeelding na het slanken van de DiT-structuur, waarbij bestaande methoden worden overtroffen.
Hoewel kleine taalmodellen (SLM's) veelbelovend zijn voor mobiele implementatie, blijft hun prestatie en toepassingen in de echte wereld op smartphones onderbelicht. We presenteren SlimLM, een reeks SLM's geoptimaliseerd voor documentondersteuningstaken op mobiele apparaten. Door uitgebreide experimenten op een Samsung Galaxy S24 identificeren we de optimale afwegingen tussen modelgrootte (variërend van 125M tot 7B parameters), contextlengte en inferentietijd voor efficiënte verwerking op het apparaat. SlimLM is vooraf getraind op SlimPajama-627B en fijnafgestemd op DocAssist, ons samengestelde dataset voor samenvatting, vraagbeantwoording en suggestietaken. Ons kleinste model toont efficiënte prestaties op de S24, terwijl grotere varianten verbeterde mogelijkheden bieden binnen de beperkingen van mobiele apparaten. We evalueren SlimLM ten opzichte van bestaande SLM's, waarbij vergelijkbare of superieure prestaties worden getoond en een benchmark wordt geboden voor toekomstig onderzoek naar taalmodellen op apparaten. We bieden ook een Android-applicatie aan, die praktische inzichten biedt in de implementatie van SLM's. Onze bevindingen bieden waardevolle inzichten en belichten de mogelijkheden van het uitvoeren van geavanceerde taalmodellen op high-end smartphones, wat mogelijk serverkosten kan verlagen en privacy kan verbeteren door verwerking op het apparaat.
Recente ontwikkelingen in generatieve AI hebben de inhoudscreatie en -bewerking aanzienlijk bevorderd, waarbij heersende studies deze spannende vooruitgang verder uitbreiden naar videobewerking. Bij het doen hiervan transfereren deze studies voornamelijk de inherente bewegingspatronen van de bronvideo's naar de bewerkte video's, waarbij resultaten met inferieure consistentie ten opzichte van gebruikersaanwijzingen vaak worden waargenomen, vanwege het gebrek aan specifieke afstemming tussen de geleverde bewegingen en bewerkte inhoud. Om deze beperking aan te pakken, presenteren we in dit artikel een vorm-consistente videobewerkingsmethode, namelijk StableV2V. Onze methode decomposeert het gehele bewerkingsproces in verschillende opeenvolgende procedures, waarbij het de eerste videoframe bewerkt, vervolgens een afstemming tot stand brengt tussen de geleverde bewegingen en gebruikersaanwijzingen, en uiteindelijk de bewerkte inhoud verspreidt naar alle andere frames op basis van deze afstemming. Bovendien stellen we een testbenchmark samen, genaamd DAVIS-Edit, voor een uitgebreide evaluatie van videobewerking, waarbij verschillende soorten aanwijzingen en moeilijkheden in overweging worden genomen. Experimentele resultaten en analyses illustreren de overtreffende prestaties, visuele consistentie en inferentie-efficiëntie van onze methode in vergelijking met bestaande state-of-the-art studies.
Nu het onderzoek naar Multimodale Grote Taalmodellen (MLLM's) populairder wordt, is een geavanceerd MLLM-model typisch vereist om verschillende tekstuele en visuele taken (bijv. VQA, Detectie, OCR en ChartQA) gelijktijdig te verwerken voor praktische toepassingen. Echter, vanwege de aanzienlijke verschillen in representatie en distributie tussen gegevens van verschillende taken, leidt eenvoudigweg het samenvoegen van gegevens van alle taken tot het bekende "multi-taak conflict" probleem, resulterend in prestatievermindering over verschillende taken. Om dit probleem aan te pakken, stellen we Awaker2.5-VL voor, een Architectuur van een Mengeling van Experts~(MoE) geschikt voor MLLM, die de multi-taak mogelijkheden verwerft door middel van meerdere spaarzaam geactiveerde experts. Om het trainen en afleiden van Awaker2.5-VL te versnellen, is elke expert in ons model ontworpen als een structuur van lage rangorde (LoRA). Uitgebreide experimenten op meerdere recente benchmarks tonen de effectiviteit van Awaker2.5-VL aan. De code en modelgewicht zijn vrijgegeven op onze Projectpagina: https://github.com/MetabrainAGI/Awaker.
Tijdens het decoderen van taalmodellen is bekend dat het gebruik van een hogere temperatuur bij het samplen leidt tot meer creatieve reacties, terwijl lagere temperaturen meer feitelijk accuraat zijn. Echter, dergelijke modellen worden doorgaans toegepast op algemene instructieopvolging, wat zowel creatieve als feitelijk zoekende taken omvat, waarbij een vaste temperatuur wordt gebruikt voor alle voorbeelden en tokens. In dit werk introduceren we Adaptief Decoderen, een laag toegevoegd aan het model om dynamisch de samplings-temperatuur te selecteren tijdens inferentie, op zowel token- als voorbeeldniveau, om de prestaties te optimaliseren. Om de parameters te leren introduceren we Latente VoorkeursOptimalisatie (LVO), een algemene benadering om discrete latente variabelen zoals keuzes van temperatuur te trainen. Onze methode presteert beter dan alle vaste decodeertemperaturen over een reeks taken die verschillende temperaturen vereisen, waaronder UltraFeedback, Creatief Verhaalschrijven, en GSM8K.
Diffusie Transformers (DiT) zijn naar voren gekomen als krachtige generatieve modellen voor verschillende taken, waaronder beeld-, video- en spraaksynthese. De inferentieprocedure blijft echter rekenkundig duur vanwege de herhaalde evaluatie van resource-intensieve aandachts- en feedforward-modules. Om dit aan te pakken, introduceren we SmoothCache, een model-agnostische versnellingsmethode voor inferentie van DiT-architecturen. SmoothCache maakt gebruik van de waargenomen hoge gelijkenis tussen laaguitvoer over aangrenzende diffusietijdstappen. Door laagsgewijze representatiefouten te analyseren vanuit een kleine kalibratieset, cacht en hergebruikt SmoothCache adaptief belangrijke kenmerken tijdens inferentie. Onze experimenten tonen aan dat SmoothCache een versnelling van 8% tot 71% bereikt, terwijl de generatiekwaliteit behouden blijft of zelfs verbetert over diverse modaliteiten. We tonen de effectiviteit aan op DiT-XL voor beeldgeneratie, Open-Sora voor tekst-naar-video en Stable Audio Open voor tekst-naar-audio, waarbij de potentie wordt benadrukt om real-time toepassingen mogelijk te maken en de toegankelijkheid van krachtige DiT-modellen te vergroten.
We hebben twee Duits-only decodermodellen gecreëerd, LL\"aMmlein 120M en 1B, transparant vanaf nul, en deze, samen met de trainingsgegevens, gepubliceerd voor de Duitse NLP-onderzoeksgemeenschap om te gebruiken. Het modeltrainingsproces omvatte verschillende essentiële stappen, waaronder uitgebreide gegevensvoorverwerking, de ontwikkeling van een aangepaste Duitse tokeniser, de eigenlijke training, evenals de evaluatie van de uiteindelijke modellen op verschillende benchmarks. Gedurende het trainingsproces werden meerdere checkpoints opgeslagen en geanalyseerd met behulp van de SuperGLEBer benchmark om de leerdynamiek van de modellen te monitoren. In vergelijking met state-of-the-art modellen op de SuperGLEBer benchmark presteerden beide LL\"aMmlein modellen concurrerend, waarbij ze consequent overeenkwamen met of modellen met vergelijkbare parametergroottes overtroffen. De resultaten tonen aan dat de kwaliteit van de modellen toeneemt met de grootte zoals verwacht, maar dat prestatieverbeteringen op sommige taken vroeg afvlakten, wat waardevolle inzichten biedt in de toewijzing van middelen voor toekomstige modelontwikkeling.
Retrieval-augmented generation (RAG) is naar voren gekomen als een veelbelovende benadering om de prestaties van grote taalmodellen (LLM's) te verbeteren bij kennisintensieve taken, zoals die in het medische domein. Echter, de gevoelige aard van het medische domein vereist een volledig nauwkeurig en betrouwbaar systeem. Terwijl bestaande RAG-benchmarks zich voornamelijk richten op de standaard ophaal-antwoord instelling, vergeten ze vele praktijkscenario's die cruciale aspecten meten van een betrouwbaar medisch systeem. Dit artikel adresseert deze lacune door een uitgebreid evaluatiekader te bieden voor medische vraag-antwoordsystemen in een RAG-instelling voor deze situaties, inclusief voldoendeheid, integratie en robuustheid. We introduceren het Medical Retrieval-Augmented Generation Benchmark (MedRGB) dat verschillende aanvullende elementen biedt aan vier medische QA-datasets om de capaciteit van LLM's te testen om deze specifieke scenario's aan te kunnen. Door gebruik te maken van MedRGB voeren we uitgebreide evaluaties uit van zowel toonaangevende commerciële LLM's als open-source modellen onder verschillende ophaalcondities. Onze experimentele resultaten tonen aan dat de huidige modellen beperkt zijn in hun vermogen om ruis en misinformatie in de opgehaalde documenten te verwerken. We analyseren verder de redeneerprocessen van de LLM's om waardevolle inzichten en toekomstige richtingen te bieden voor de ontwikkeling van RAG-systemen in dit cruciale medische domein.
Impliciete Neurale Representaties (INRs) maken gebruik van neurale netwerken om discrete gegevens te benaderen als continue functies. In de context van videogegevens kunnen dergelijke modellen worden gebruikt om de coördinaten van pixellocaties samen met frame-occurrencetijden (of indices) om te zetten in RGB-kleurwaarden. Hoewel INRs effectieve compressie mogelijk maken, zijn ze niet geschikt voor bewerkingsdoeleinden. Een mogelijke oplossing is om een op 3D Gaussische Splatting (3DGS) gebaseerd model te gebruiken, zoals de Video Gaussische Representatie (VGR), dat in staat is om video te coderen als een veelvoud van 3D Gaussians en toepasbaar is voor tal van videobewerkingen, inclusief bewerkingen. Desalniettemin is in dit geval de mogelijkheid tot aanpassing beperkt tot een beperkte reeks basisveranderingen. Om dit probleem aan te pakken, introduceren we het Video Gaussische Splatting (VeGaS) model, dat realistische aanpassingen van videogegevens mogelijk maakt. Voor de constructie van VeGaS stellen we een nieuwe familie van Gevouwen-Gaussische verdelingen voor, ontworpen om niet-lineaire dynamiek in een videostream vast te leggen en opeenvolgende frames te modelleren met 2D Gaussians verkregen als respectievelijke conditionele verdelingen. Onze experimenten tonen aan dat VeGaS beter presteert dan state-of-the-art oplossingen bij frame-reconstructietaken en realistische aanpassingen van videogegevens mogelijk maakt. De code is beschikbaar op: https://github.com/gmum/VeGaS.
De groeiende mogelijkheden van grote taalmodellen (LLM's) hebben geleid tot hun gebruik als vervangers voor menselijke feedback bij het trainen en beoordelen van andere LLM's. Deze methoden vertrouwen vaak op 'grondwetten', schriftelijke richtlijnen die een kritisch model gebruikt om feedback te geven en generaties te verbeteren. We onderzoeken hoe de keuze van een grondwet de kwaliteit van feedback beïnvloedt door vier verschillende grondwetten te gebruiken om de communicatie gericht op de patiënt te verbeteren in medische interviews. In paarvergelijkingen uitgevoerd door 215 menselijke beoordelaars, ontdekten we dat gedetailleerde grondwetten betere resultaten opleverden wat betreft emotionele kwaliteiten. Echter, geen van de grondwetten presteerde beter dan de basislijn bij het aanleren van meer praktisch georiënteerde vaardigheden met betrekking tot het verzamelen en verstrekken van informatie. Onze bevindingen geven aan dat hoewel gedetailleerde grondwetten prioriteit moeten krijgen, er mogelijke beperkingen zijn aan de effectiviteit van AI-feedback als beloningssignaal op bepaalde gebieden.