Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Vision encoders genereren doorgaans een groot aantal visuele tokens, die informatie-rijke representaties bieden maar de rekenkundige eisen aanzienlijk verhogen. Dit roept de vraag op of alle gegenereerde tokens even waardevol zijn of dat sommige ervan kunnen worden verwijderd om de rekenkosten te verlagen zonder de kwaliteit aan te tasten. In dit artikel introduceren we een nieuwe methode om de bruikbaarheid van features te bepalen, gebaseerd op het idee dat minder waardevolle features kunnen worden gereconstrueerd uit meer waardevolle. We implementeren dit concept door een autoencoder te integreren met een Gumbel-Softmax-selectiemechanisme, waarmee de meest informatieve visuele tokens kunnen worden geïdentificeerd en behouden. Om onze aanpak te valideren, vergeleken we de prestaties van het LLaVA-NeXT-model, waarbij features werden geselecteerd met onze methode, met willekeurig geselecteerde features. We ontdekten dat bij OCR-gebaseerde taken meer dan 50% van de visuele context kan worden verwijderd met minimaal prestatieverlies, terwijl het willekeurig verwijderen van dezelfde hoeveelheid features de modelcapaciteiten aanzienlijk beïnvloedt. Bovendien behaalt bij algemene taken zelfs het willekeurig behouden van slechts 30% van de tokens prestaties die vergelijkbaar zijn met het gebruik van de volledige set visuele tokens. Onze resultaten wijzen op een veelbelovende richting naar adaptief en efficiënt multimodaal snoeien, wat schaalbare en low-overhead inferentie mogelijk maakt zonder in te leveren op prestaties.
Multimodale wetenschappelijke problemen (MSPs) omvatten complexe vraagstukken die de integratie van meerdere modaliteiten vereisen, zoals tekst en diagrammen, wat een aanzienlijke uitdaging vormt binnen kunstmatige intelligentie. Hoewel er vooruitgang is geboekt bij het aanpakken van traditionele wetenschappelijke problemen, kampen MSPs nog steeds met twee primaire kwesties: de uitdaging van multimodale alomvattende redenering bij het oplossen van wetenschappelijke problemen en het ontbreken van reflectieve en herbezinningscapaciteiten. Om deze kwesties aan te pakken, introduceren we een Multi-Agent framework gebaseerd op de Big Seven Persoonlijkheid en Socratische begeleiding (MAPS). Dit framework maakt gebruik van zeven verschillende agents die feedbackmechanismen en de Socratische methode inzetten om de oplossing van MSPs te begeleiden. Voor de eerste kwestie stellen we een progressieve vier-agent oplossingsstrategie voor, waarbij elke agent zich richt op een specifieke fase van het probleemoplossingsproces. Voor de tweede kwestie introduceren we een Critic-agent, geïnspireerd door Socratisch vragen stellen, die kritisch denken stimuleert en autonoom leren aanmoedigt. We voeren uitgebreide experimenten uit op de EMMA, Olympiad en MathVista datasets, waarbij we veelbelovende resultaten behalen die de huidige SOTA-model met 15,84% overtreffen voor alle taken. Tegelijkertijd bevestigen de aanvullende analytische experimenten ook de vooruitgang en het generalisatievermogen van het model.
Efficiënte verwerking van lange contexten is een voortdurend streven in Natural Language Processing. Met het groeiende aantal lange documenten, dialogen en andere tekstuele gegevens, is het belangrijk om Long Context Language Models (LCLMs) te ontwikkelen die uitgebreide invoer op een effectieve en efficiënte manier kunnen verwerken en analyseren. In dit artikel presenteren we een uitgebreid overzicht van recente vooruitgang in lange-contextmodellering voor grote taalmodellen. Ons overzicht is gestructureerd rond drie kernaspecten: hoe effectieve en efficiënte LCLMs te verkrijgen, hoe LCLMs efficiënt te trainen en in te zetten, en hoe LCLMs uitgebreid te evalueren en analyseren. Voor het eerste aspect bespreken we datastrategieën, architectonische ontwerpen en workflowbenaderingen gericht op lange context verwerking. Voor het tweede aspect bieden we een gedetailleerd onderzoek van de infrastructuur die nodig is voor LCLM-training en -inferentie. Voor het derde aspect presenteren we evaluatieparadigma's voor lange-contextbegrip en lange-vormgeneratie, evenals gedragsanalyse en mechanisme-interpretatie van LCLMs. Naast deze drie kernaspecten verkennen we grondig de diverse toepassingsscenario's waarin bestaande LCLMs zijn ingezet en schetsen we veelbelovende toekomstige ontwikkelingsrichtingen. Dit overzicht biedt een actuele review van de literatuur over lange-context LLMs, die we willen laten dienen als een waardevolle bron voor zowel onderzoekers als ingenieurs. Een geassocieerde GitHub-repository die de nieuwste papers en repos verzamelt, is beschikbaar op: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.
Het basis vraag-antwoordformaat van grote taalmodellen omvat het invoeren van een prompt en het ontvangen van een reactie, waarbij de kwaliteit van de prompt direct van invloed is op de effectiviteit van het antwoord. Automatische Promptoptimalisatie (APO) streeft ernaar om los te komen van de cognitieve vooroordelen van handmatig ontworpen prompts en verkent een breder ontwerpgebied voor prompts. Bestaande APO-methoden kampen echter met beperkte flexibiliteit van vaste sjablonen en inefficiënte zoekacties in promptruimtes als belangrijke problemen. Daarom stellen we een Multi-Agent framework Incorporating Socratic guidance (MARS) voor, dat multi-agentfusietechnologie gebruikt voor automatische planning, met geleidelijke continue optimalisatie en evaluatie. Specifiek bestaat MARS uit zeven agents, elk met verschillende functionaliteiten, die autonoom de Planner gebruiken om een optimalisatiepad te bedenken dat flexibiliteit waarborgt. Daarnaast wordt een Teacher-Critic-Student Socratisch dialoogpatroon gebruikt om de prompts iteratief te optimaliseren terwijl effectief wordt gezocht. We voeren uitgebreide experimenten uit op verschillende datasets om de effectiviteit van onze methode te valideren, en voeren aanvullende analytische experimenten uit om de vooruitgang van het model evenals de interpreteerbaarheid te beoordelen.
Het ontwerpen van effectieve belichaamde multi-agent systemen is cruciaal voor het oplossen van complexe taken in de echte wereld, over verschillende domeinen heen. Vanwege de complexiteit van belichaamde multi-agent systemen slagen bestaande methoden er niet in om automatisch veilige en efficiënte trainingsdata voor dergelijke systemen te genereren. Daarom introduceren we het concept van compositionele beperkingen voor belichaamde multi-agent systemen, waarmee we de uitdagingen aanpakken die voortkomen uit de samenwerking tussen belichaamde agents. We ontwerpen verschillende interfaces die zijn afgestemd op verschillende soorten beperkingen, waardoor naadloze interactie met de fysieke wereld mogelijk wordt. Door gebruik te maken van compositionele beperkingen en specifiek ontworpen interfaces, ontwikkelen we een geautomatiseerd framework voor dataverzameling voor belichaamde multi-agent systemen en introduceren we de eerste benchmark voor belichaamde multi-agent manipulatie, RoboFactory. Op basis van de RoboFactory benchmark passen we de methode van imitatieleren aan en evalueren we de prestaties ervan in taken met verschillende moeilijkheidsgraden voor agents. Bovendien onderzoeken we de architecturen en trainingsstrategieën voor multi-agent imitatieleren, met als doel het bouwen van veilige en efficiënte belichaamde multi-agent systemen.
Omdat creatieve schrijftaken geen eenduidige correcte antwoorden hebben, zouden grote taalmmodellen (LLM's) die zijn getraind om deze taken uit te voeren, in staat moeten zijn om diverse geldige uitvoer te genereren. Echter richt post-training van LLM's zich vaak op het verbeteren van de generatiekwaliteit, maar wordt er weinig aandacht besteed aan het bevorderen van uitvoerdiversiteit. Daarom onderzoeken we in creatieve schrijftaalgeneratie post-trainingbenaderingen om zowel uitvoerdiversiteit als kwaliteit te bevorderen. Onze kernidee is om afwijking – de mate van verschil tussen een trainingsvoorbeeld en alle andere voorbeelden met dezelfde prompt – op te nemen in het trainingsdoel om het leren van zeldzame hoogwaardige instanties te vergemakkelijken. Door onze benadering toe te passen op direct preference optimization (DPO) en odds ratio preference optimization (ORPO), laten we zien dat we de uitvoerdiversiteit van getrainde modellen kunnen bevorderen terwijl de kwaliteit minimaal afneemt. Ons beste model met 8B parameters kon een vergelijkbare diversiteit bereiken als een door mensen gemaakte dataset, terwijl de uitvoerkwaliteit vergelijkbaar was met de best onderzochte instructie-getunede modellen, GPT-4o en DeepSeek-R1. We valideren onze benaderingen verder met een humane evaluatie, een ablatie en een vergelijking met een bestaande diversificatiebenadering, DivPO.
Autoregressieve visuele generatiemodellen vertrouwen doorgaans op tokenizers om afbeeldingen te comprimeren in tokens die sequentieel kunnen worden voorspeld. Er bestaat een fundamenteel dilemma in tokenrepresentatie: discrete tokens maken eenvoudige modellering mogelijk met standaard kruisentropieverlies, maar lijden onder informatieverlies en instabiliteit tijdens het trainen van de tokenizer; continue tokens behouden visuele details beter, maar vereisen complexe distributiemodellering, wat de generatiepijplijn compliceert. In dit artikel stellen we TokenBridge voor, dat deze kloof overbrugt door de sterke representatiecapaciteit van continue tokens te behouden terwijl de eenvoud van modellering met discrete tokens wordt bewaard. Om dit te bereiken, ontkoppelen we discretisatie van het tokenizertrainingsproces door middel van post-trainingskwantisatie die direct discrete tokens verkrijgt uit continue representaties. Specifiek introduceren we een dimensiegewijze kwantiseringsstrategie die elke kenmerkdimensie onafhankelijk discretiseert, gepaard met een lichtgewicht autoregressief voorspellingsmechanisme dat de resulterende grote tokenruimte efficiënt modelleert. Uitgebreide experimenten tonen aan dat onze aanpak reconstructie- en generatiekwaliteit bereikt die vergelijkbaar is met continue methoden, terwijl standaard categorische voorspelling wordt gebruikt. Dit werk toont aan dat het overbruggen van discrete en continue paradigma's de sterke punten van beide benaderingen effectief kan benutten, wat een veelbelovende richting biedt voor hoogwaardige visuele generatie met eenvoudige autoregressieve modellering. Projectpagina: https://yuqingwang1029.github.io/TokenBridge.
Realistische 3D full-body pratende avatars hebben groot potentieel in AR, met toepassingen variërend van e-commerce livestreaming tot holografische communicatie. Ondanks vooruitgang in 3D Gaussian Splatting (3DGS) voor levensechte avatarcreatie, worstelen bestaande methoden met fijnmazige controle van gezichtsuitdrukkingen en lichaamsbewegingen in full-body pratende taken. Bovendien bieden ze vaak onvoldoende details en kunnen ze niet in real-time draaien op mobiele apparaten. Wij presenteren TaoAvatar, een hoogwaardige, lichtgewicht, 3DGS-gebaseerde full-body pratende avatar die wordt aangestuurd door diverse signalen. Onze aanpak begint met het creëren van een gepersonaliseerd gekleed menselijk parametrisch sjabloon dat Gaussians bindt om uiterlijk te representeren. Vervolgens pre-trainen we een StyleUnet-gebaseerd netwerk om complexe pose-afhankelijke niet-rigide vervorming te verwerken, wat hoogfrequente uiterlijkdetails kan vastleggen maar te resource-intensief is voor mobiele apparaten. Om dit te overwinnen, "bakken" we de niet-rigide vervormingen in een lichtgewicht MLP-gebaseerd netwerk met behulp van een distillatietechniek en ontwikkelen we blend shapes om details te compenseren. Uitgebreide experimenten tonen aan dat TaoAvatar state-of-the-art renderkwaliteit bereikt terwijl het in real-time draait op diverse apparaten, met een snelheid van 90 FPS op hoogwaardige stereo-apparaten zoals de Apple Vision Pro.
Recente vooruitgang aangetoond door DeepSeek-R1 heeft laten zien dat complexe redeneervaardigheden in grote taalmodelen (LLMs), waaronder geavanceerd gedrag zoals zelfverificatie en zelfcorrectie, kunnen worden bereikt door Reinforcement Learning (RL) met verifieerbare beloningen, wat de modelprestaties aanzienlijk verbetert op uitdagende taken zoals AIME. Gemotiveerd door deze bevindingen onderzoekt onze studie of vergelijkbare redeneervaardigheden succesvol kunnen worden geïntegreerd in grote visie-taalmodelen (LVLMs) en beoordeelt hun impact op uitdagende multimodale redeneertaken. We overwegen een aanpak die iteratief gebruikmaakt van supervised fine-tuning (SFT) op lichtgewicht trainingsdata en Reinforcement Learning (RL) om de modelgeneralisatie verder te verbeteren. In eerste instantie werden redeneervaardigheden gedistilleerd uit pure-tekst R1-modellen door redeneerstappen te genereren met behulp van hoogwaardige bijschriften van afbeeldingen afkomstig uit diverse visuele datasets. Vervolgens verbeterde iteratieve RL-training de redeneervaardigheden verder, waarbij het door RL verbeterde model van elke iteratie verfijnde SFT-datasets genereerde voor de volgende ronde. Dit iteratieve proces resulteerde in OpenVLThinker, een LVLM dat consistente verbeteringen in redeneerprestaties laat zien op uitdagende benchmarks zoals MathVista, MathVerse en MathVision, wat het potentieel van onze strategie voor robuuste visie-taalredenering aantoont. De code, het model en de data zijn beschikbaar op https://github.com/yihedeng9/OpenVLThinker.
Ondanks aanzienlijke vooruitgang in tekst-naar-video-generatie, blijft het bereiken van precieze en flexibele controle over fijnmazige spatiotemporele attributen een belangrijke onopgeloste uitdaging in onderzoek naar videogeneratie. Om deze beperkingen aan te pakken, introduceren we VCtrl (ook wel PP-VCtrl genoemd), een nieuw framework ontworpen om fijnmazige controle over vooraf getrainde videodiffusiemodellen op een uniforme manier mogelijk te maken. VCtrl integreert diverse door de gebruiker gespecificeerde controlesignalen—zoals Canny edges, segmentatiemaskers en menselijke keypoints—in vooraf getrainde videodiffusiemodellen via een generaliseerbare conditionele module die in staat is om meerdere typen hulpsignalen uniform te coderen zonder de onderliggende generator aan te passen. Daarnaast ontwerpen we een uniforme pijplijn voor het coderen van controlesignalen en een mechanisme voor sparse residuele verbindingen om controle-representaties efficiënt te incorporeren. Uitgebreide experimenten en menselijke evaluaties tonen aan dat VCtrl de beheersbaarheid en generatiekwaliteit effectief verbetert. De broncode en vooraf getrainde modellen zijn publiekelijk beschikbaar en geïmplementeerd met behulp van het PaddlePaddle-framework op http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.
Ondanks indrukwekkende prestaties op diverse taken, hebben Multimodale Grote Taalmodellen (MLLMs) hun potentieel in visueel wiskundig probleemoplossen nog niet volledig kunnen aantonen, met name in het nauwkeurig waarnemen en interpreteren van diagrammen. Geïnspireerd door typische processen van mensen, stellen we de hypothese dat de perceptiecapaciteiten om betekenisvolle informatie uit diagrammen te extraheren cruciaal zijn, aangezien dit een directe invloed heeft op de daaropvolgende redeneerprocessen. Om deze hypothese te valideren, hebben we FlowVerse ontwikkeld, een uitgebreide benchmark die alle informatie die tijdens het probleemoplossen wordt gebruikt, categoriseert in vier componenten, die vervolgens worden gecombineerd tot zes probleemversies voor evaluatie. Onze voorlopige resultaten op FlowVerse onthullen dat bestaande MLLMs aanzienlijke beperkingen vertonen bij het extraheren van essentiële informatie en redeneereigenschappen uit diagrammen en bij het uitvoeren van complexe redeneringen op basis van deze visuele inputs. Als reactie hierop introduceren we MathFlow, een modulaire probleemoplossingspipeline die perceptie en redenering ontkoppelt in afzonderlijke fasen, waardoor elk afzonderlijk wordt geoptimaliseerd. Gezien de waargenomen perceptuele beperkingen in huidige MLLMs, hebben we MathFlow-P-7B getraind als een toegewijd perceptiemodel. Experimentele resultaten tonen aan dat MathFlow-P-7B aanzienlijke prestatieverbeteringen oplevert wanneer het wordt geïntegreerd met verschillende closed-source en open-source redeneermodellen. Dit demonstreert de effectiviteit van de MathFlow-pipeline en de compatibiliteit ervan met diverse redeneerkaders. De FlowVerse-benchmark en code zijn beschikbaar op https://github.com/MathFlow-zju/MathFlow.
Het personaliseren van beeldgeneratie en -bewerking is bijzonder uitdagend wanneer we slechts een paar afbeeldingen van het onderwerp hebben, of zelfs maar één afbeelding. Een veelgebruikte aanpak voor personalisatie is concept learning, dat het onderwerp relatief snel kan integreren in bestaande modellen, maar beelden produceert waarvan de kwaliteit snel achteruitgaat wanneer het aantal afbeeldingen van het onderwerp klein is. De kwaliteit kan worden verbeterd door een encoder voor te trainen, maar training beperkt de generatie tot de trainingsdistributie en is tijdrovend. Het blijft een moeilijke uitdaging om beeldgeneratie en -bewerking te personaliseren vanuit één enkele afbeelding zonder training. Hier presenteren we SISO, een nieuwe, trainingsvrije aanpak gebaseerd op het optimaliseren van een gelijkenisscore met een invoerafbeelding van het onderwerp. Meer specifiek genereert SISO iteratief afbeeldingen en optimaliseert het model op basis van het verlies aan gelijkenis met de gegeven onderwerpafbeelding totdat een bevredigend niveau van gelijkenis is bereikt, waardoor plug-and-play optimalisatie voor elke beeldgenerator mogelijk wordt. We evalueerden SISO in twee taken, beeldbewerking en beeldgeneratie, met behulp van een diverse dataset van persoonlijke onderwerpen, en laten aanzienlijke verbeteringen zien ten opzichte van bestaande methoden in beeldkwaliteit, onderwerptrouw en achtergrondbehoud.
Het nauwkeurig evalueren van semantische afstemming tussen tekstprompts en gegenereerde video's blijft een uitdaging in Text-to-Video (T2V) Generatie. Bestaande tekst-naar-video afstemmingsmetrieken zoals CLIPScore genereren alleen grofkorrelige scores zonder gedetailleerde afstemmingsinformatie, wat niet overeenkomt met menselijke voorkeuren. Om deze beperking aan te pakken, stellen we ETVA voor, een nieuwe Evaluatiemethode voor Text-to-Video Afstemming via fijnmazige vraaggeneratie en beantwoording. Eerst parseert een multi-agent systeem prompts in semantische scènegrafieken om atomische vragen te genereren. Vervolgens ontwerpen we een kennis-augmented multi-staps redeneerframework voor vraagbeantwoording, waarbij een hulp-LLM eerst relevante algemene kennis (bijv. natuurkundige wetten) ophaalt, en daarna beantwoordt de video-LLM de gegenereerde vragen via een multi-staps redeneermechanisme. Uitgebreide experimenten tonen aan dat ETVA een Spearman's correlatiecoëfficiënt van 58,47 bereikt, wat een veel hogere correlatie met menselijk oordeel laat zien dan bestaande metrieken die slechts 31,0 halen. We construeren ook een uitgebreide benchmark specifiek ontworpen voor tekst-naar-video afstemmingsevaluatie, met 2k diverse prompts en 12k atomische vragen verdeeld over 10 categorieën. Door een systematische evaluatie van 15 bestaande tekst-naar-video modellen, identificeren we hun belangrijkste capaciteiten en beperkingen, wat de weg vrijmaakt voor de volgende generatie T2V-generatie.
In dit artikel introduceren we \textsc{FastCuRL}, een eenvoudige maar efficiënte aanpak voor Curriculum Reinforcement Learning met een strategie voor het uitbreiden van het contextvenster om de trainings efficiëntie van R1-achtige redeneermodellen te versnellen, terwijl hun prestaties bij complexe redeneertaken met lange ketens van gedachten worden verbeterd, met name bij een taalmodel met 1,5B parameters. \textsc{FastCuRL} bestaat uit twee hoofdprocedures: lengtebewuste segmentatie van trainingsdata en training met uitbreiding van het contextvenster. Specifiek splitst de eerste procedure de originele trainingsdata in drie verschillende niveaus op basis van de lengte van de invoerprompt, waarna de tweede procedure gebruikmaakt van gesegmenteerde trainingsdatasets met een geleidelijk toenemende contextvensterlengte om het redeneermodel te trainen. Experimentele resultaten tonen aan dat \textsc{FastCuRL}-1.5B-Preview DeepScaleR-1.5B-Preview overtreft op alle vijf datasets (inclusief MATH 500, AIME 2024, AMC 2023, Minerva Math en OlympiadBench) terwijl slechts 50\% van de trainingsstappen wordt gebruikt. Bovendien worden alle trainingsfasen voor FastCuRL-1.5B-Preview voltooid met slechts één node met 8 GPU's.
In dit artikel introduceren we MapBench - de eerste dataset die specifiek is ontworpen voor mensleesbare, pixelgebaseerde buitenomgevingnavigatie, samengesteld uit complexe padzoek-scenario's. MapBench omvat meer dan 1600 padzoekproblemen in de pixelruimte, afkomstig van 100 diverse kaarten. In MapBench genereren LVLM's (Large Vision-Language Models) taalgebaseerde navigatie-instructies op basis van een kaartafbeelding en een query met begin- en eindlandmarken. Voor elke kaart biedt MapBench een Map Space Scene Graph (MSSG) als een indexerende datastructuur om te converteren tussen natuurlijke taal en om LVLM-gegenereerde resultaten te evalueren. We tonen aan dat MapBench state-of-the-art LVLM's aanzienlijk uitdaagt, zowel bij zero-shot prompting als bij een Chain-of-Thought (CoT) versterkt redeneerkader dat kaartnavigatie opsplitst in sequentiële cognitieve processen. Onze evaluatie van zowel open-source als closed-source LVLM's benadrukt de aanzienlijke moeilijkheidsgraad van MapBench, wat kritieke beperkingen in hun ruimtelijk redeneervermogen en gestructureerde besluitvormingscapaciteiten aan het licht brengt. We maken alle code en de dataset beschikbaar op https://github.com/taco-group/MapBench.
Grote Vision-Taalmodellen (LVLMs) hebben aanzienlijke vooruitgang geboekt in het combineren van visueel begrip met taalgeneratie. Ondanks dit succes lijdt de trainingsdata van LVLMs nog steeds aan Long-Tail (LT) problemen, waarbij de dataverdeling sterk onevenwichtig is. Eerdere werken hebben zich voornamelijk gericht op traditionele VLM-architecturen, zoals CLIP of ViT, en specifieke taken zoals herkenning en classificatie. Desalniettemin blijft de verkenning van LVLM (bijv. LLaVA) en meer algemene taken (bijv. Visuele Vraagbeantwoording en Visueel Redeneren) onderbelicht. In dit artikel voeren we eerst een diepgaande analyse uit van de LT-problemen in LVLMs en identificeren we twee kernoorzaken: de overrepresentatie van hoofdconcepten en de onderrepresentatie van staartconcepten. Op basis van deze observatie stellen we een Adaptief Dataverfijningsraamwerk (ADR) voor, dat uit twee fasen bestaat: Dataherbalancering (DR) en Datasynthese (DS). In de DR-fase balanceren we de redundante data adaptief op basis van entiteitsverdelingen, terwijl we in de DS-fase Denoising Diffusion Probabilistic Models (DDPMs) en schaarse afbeeldingen gebruiken om ondervertegenwoordigde delen aan te vullen. Door middel van uitgebreide evaluaties over elf benchmarks blijkt dat ons voorgestelde ADR effectief het long-tail probleem in de trainingsdata vermindert, waardoor de gemiddelde prestaties van LLaVA 1.5 relatief met 4,36% verbeteren, zonder het volume van de trainingsdata te vergroten.
Video large language models (ViLLMs) blinken uit in algemeen videobegrip, zoals het herkennen van activiteiten zoals praten en eten, maar hebben moeite met identiteitsbewust begrip, zoals "Wilson ondergaat chemotherapie" of "Tom bespreekt iets met Sarah", wat hun toepasbaarheid in slimme gezondheidszorg en slimme thuissituaties beperkt. Om deze beperking aan te pakken, stellen wij een one-shot learning framework voor, genaamd PVChat, de eerste gepersonaliseerde ViLLM die subjectbewuste vraag-antwoord (QA) mogelijk maakt op basis van een enkele video per subject. Onze aanpak optimaliseert een Mixture-of-Heads (MoH) verbeterde ViLLM op een synthetisch aangevulde video-QA dataset, gebruikmakend van een progressieve beeld-naar-video leerstrategie. Specifiek introduceren wij een geautomatiseerde augmentatiepijplijn die identiteitsbehoudende positieve samples synthetiseert en moeilijke negatieven ophaalt uit bestaande videocorpora, waardoor een diverse trainingsdataset wordt gegenereerd met vier QA- typen: bestaan, uiterlijk, actie en locatievragen. Om subjectspecifiek leren te verbeteren, stellen wij een ReLU Routing MoH aandachtmechanisme voor, samen met twee nieuwe doelstellingen: (1) Smooth Proximity Regularization voor progressief leren door exponentiële afstandsschaal en (2) Head Activation Enhancement voor gebalanceerde aandachtroutering. Ten slotte hanteren wij een tweestaps trainingsstrategie, waarbij wordt overgegaan van beeldvoorbereiding naar video fine-tuning, waardoor een geleidelijk leerproces van statische attributen naar dynamische representaties mogelijk wordt. Wij evalueren PVChat op diverse datasets die medische scenario's, tv-series, anime en real-world beelden omvatten, en tonen zijn superioriteit aan in gepersonaliseerd kenmerkbegrip na het leren van een enkele video, vergeleken met state-of-the-art ViLLMs.
Impliciete bias verwijst naar automatische of spontane mentale processen die percepties, oordelen en gedrag beïnvloeden. Eerder onderzoek naar 'impliciete bias' in grote taalmodellen (LLM's) heeft het fenomeen vaak anders benaderd dan hoe het bij mensen wordt bestudeerd, door zich voornamelijk te richten op modeloutputs in plaats van op modelverwerking. Om modelverwerking te onderzoeken, presenteren we een methode genaamd de Reasoning Model Implicit Association Test (RM-IAT) voor het bestuderen van impliciete bias-achtige patronen in redeneermodellen: LLM's die stapsgewijs redeneren gebruiken om complexe taken op te lossen. Met deze methode ontdekken we dat redeneermodellen meer tokens nodig hebben bij het verwerken van associatie-incompatibele informatie vergeleken met associatie-compatibele informatie. Deze bevindingen suggereren dat AI-systemen patronen in informatieverwerking vertonen die analoog zijn aan menselijke impliciete bias. We bespreken de implicaties van deze impliciete bias-achtige patronen voor hun inzet in real-world toepassingen.
De afgelopen jaren heeft het vakgebied van beeldgeneratie aanzienlijke vooruitgang geboekt, met name op het gebied van fine-tuningmethoden die modellen afstemmen op universele menselijke voorkeuren. Dit artikel onderzoekt de cruciale rol van voorkeursgegevens in het trainingsproces van diffusiemodellen, met name in de context van Diffusion-DPO en de daaropvolgende aanpassingen. We onderzoeken de complexiteit rond universele menselijke voorkeuren bij beeldgeneratie, waarbij we de subjectieve aard van deze voorkeuren en de uitdagingen die worden veroorzaakt door minderheidsvoorbeelden in voorkeursdatasets belichten. Door middel van pilotexperimenten tonen we het bestaan van minderheidsvoorbeelden en hun nadelige effecten op modelprestaties aan. We stellen Adaptive-DPO voor — een nieuwe benadering die een minderheidsgevoelige metriek integreert in het DPO-doel. Deze metriek, die intra-annotatorbetrouwbaarheid en inter-annotatorstabiliteit omvat, onderscheidt meerderheids- en minderheidsvoorbeelden. We introduceren een Adaptive-DPO-verliesfunctie die de DPO-verliesfunctie op twee manieren verbetert: het verbeteren van het leren van meerderheidslabels door het model, terwijl de negatieve impact van minderheidsvoorbeelden wordt geminimaliseerd. Onze experimenten tonen aan dat deze methode effectief omgaat met zowel synthetische minderheidsgegevens als voorkeursgegevens uit de praktijk, wat de weg vrijmaakt voor effectievere trainingsmethodologieën bij beeldgeneratietaken.
Beeldgeolokalisatie, waarbij traditioneel een AI-model de precieze GPS-coördinaten van een afbeelding voorspelt, is een uitdagende taak met veel downstreamtoepassingen. De gebruiker kan het model echter niet benutten om zijn kennis verder uit te breiden dan de GPS-coördinaat; het model mist een begrip van de locatie en het conversatievermogen om met de gebruiker te communiceren. De laatste tijd, met de enorme vooruitgang van grote multimodale modellen (LMMs), hebben zowel propriëtaire als open-source onderzoekers geprobeerd afbeeldingen te geolokaliseren via LMMs. De problemen blijven echter onopgelost; naast algemene taken, worstelen LMMs met meer gespecialiseerde downstreamtaken, waarvan geolokalisatie er één is. In dit werk stellen we voor om dit probleem op te lossen door een conversatiemodel, GAEA, te introduceren dat informatie kan verstrekken over de locatie van een afbeelding, zoals door de gebruiker gevraagd. Er bestaat geen grootschalige dataset die het trainen van zo'n model mogelijk maakt. Daarom stellen we een uitgebreide dataset, GAEA, voor met 800K afbeeldingen en ongeveer 1.6M vraag-antwoordparen, geconstrueerd door gebruik te maken van OpenStreetMap (OSM) attributen en geografische contextuele aanwijzingen. Voor kwantitatieve evaluatie stellen we een divers benchmark voor, bestaande uit 4K afbeelding-tekstparen, om conversatievaardigheden te evalueren die zijn uitgerust met diverse vraagtypen. We beschouwen 11 state-of-the-art open-source en propriëtaire LMMs en tonen aan dat GAEA het beste open-source model, LLaVA-OneVision, significant overtreft met 25.69% en het beste propriëtaire model, GPT-4o, met 8.28%. Onze dataset, model en codes zijn beschikbaar.
Recente 3D-gezichtsbewerkingsmethoden die maskers gebruiken, hebben hoogwaardige bewerkte afbeeldingen geproduceerd door gebruik te maken van Neural Radiance Fields (NeRF). Ondanks hun indrukwekkende prestaties bieden bestaande methoden vaak beperkte gebruikerscontrole vanwege het gebruik van vooraf getrainde segmentatiemaskers. Om maskers met een gewenste lay-out te kunnen gebruiken, is een uitgebreide trainingsdataset nodig, wat moeilijk te verzamelen is. Wij presenteren FFaceNeRF, een NeRF-gebaseerde gezichtsbewerkingstechniek die de uitdaging van beperkte gebruikerscontrole door het gebruik van vaste maskerlay-outs kan overwinnen. Onze methode maakt gebruik van een geometrie-adapter met feature-injectie, waardoor effectieve manipulatie van geometrie-attributen mogelijk is. Daarnaast passen we latent mixing toe voor tri-plane-augmentatie, wat training met weinig samples mogelijk maakt. Dit vergemakkelijkt snelle modelaanpassing aan gewenste maskerlay-outs, wat cruciaal is voor toepassingen in gebieden zoals gepersonaliseerde medische beeldvorming of creatieve gezichtsbewerking. Onze vergelijkende evaluaties tonen aan dat FFaceNeRF bestaande masker-gebaseerde gezichtsbewerkingsmethoden overtreft op het gebied van flexibiliteit, controle en gegenereerde beeldkwaliteit, wat de weg vrijmaakt voor toekomstige vooruitgang in gepersonaliseerde en hoogwaardige 3D-gezichtsbewerking. De code is beschikbaar op de {https://kwanyun.github.io/FFaceNeRF_page/{project-page}}.
Gegeneraliseerde few-shot 3D-puntenwolksegmentatie (GFS-PCS) past modellen aan aan nieuwe klassen met weinig steunmonsters, terwijl de segmentatie van basisklassen behouden blijft. Bestaande GFS-PCS-methoden verbeteren prototypes door interactie met steun- of querykenmerken, maar blijven beperkt door de schaarse kennis uit few-shot-monsters. Tegelijkertijd bevatten 3D-visie-taalmodelen (3D VLMs), die generaliseren over open-wereld nieuwe klassen, rijke maar ruisachtige kennis over nieuwe klassen. In dit werk introduceren we een GFS-PCS-raamwerk dat dichte maar ruisachtige pseudo-labels van 3D VLMs combineert met precieze maar schaarse few-shot-monsters om de sterke punten van beide te maximaliseren, genaamd GFS-VL. Specifiek presenteren we een prototype-gestuurde pseudo-labelselectie om regio's van lage kwaliteit te filteren, gevolgd door een adaptieve invulstrategie die kennis combineert uit pseudo-labelcontexten en few-shot-monsters om de gefilterde, ongelabelde gebieden adaptief te labelen. Daarnaast ontwerpen we een novel-base mix-strategie om few-shot-monsters in trainingsscènes in te bedden, waardoor essentiële context behouden blijft voor verbeterd leren van nieuwe klassen. Bovendien, erkennend de beperkte diversiteit in huidige GFS-PCS-benchmarks, introduceren we twee uitdagende benchmarks met diverse nieuwe klassen voor uitgebreide generalisatie-evaluatie. Experimenten valideren de effectiviteit van ons raamwerk over modellen en datasets heen. Onze aanpak en benchmarks bieden een solide basis voor het bevorderen van GFS-PCS in de echte wereld. De code is te vinden op https://github.com/ZhaochongAn/GFS-VL.