Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Camerabesturing is actief bestudeerd in tekst- of beeldgeconditioneerde videogeneratietaken. Het aanpassen van cameratrajecten van een gegeven video blijft echter onderbelicht, ondanks het belang ervan op het gebied van videoproductie. Dit is niet triviaal vanwege de extra beperkingen van het behouden van het uiterlijk over meerdere frames en dynamische synchronisatie. Om dit aan te pakken, presenteren we ReCamMaster, een camerabestuurd generatief videoherweergaveframework dat de dynamische scène van een invoervideo reproduceert bij nieuwe cameratrajecten. De kerninnovatie ligt in het benutten van de generatieve mogelijkheden van vooraf getrainde tekst-naar-videomodellen via een eenvoudig maar krachtig videoconditioneringsmechanisme — een mogelijkheid die in het huidige onderzoek vaak over het hoofd wordt gezien. Om het gebrek aan gekwalificeerde trainingsdata te overwinnen, construeren we een uitgebreide multi-camera gesynchroniseerde videodataset met behulp van Unreal Engine 5, die zorgvuldig is samengesteld om real-world filmkenmerken te volgen, met diverse scènes en camerabewegingen. Dit helpt het model om te generaliseren naar video’s in de praktijk. Ten slotte verbeteren we de robuustheid voor diverse invoeren verder via een nauwkeurig ontworpen trainingsstrategie. Uitgebreide experimenten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen en sterke baselines. Onze methode vindt ook veelbelovende toepassingen in videostabilisatie, superresolutie en uitbreiding. Projectpagina: https://jianhongbai.github.io/ReCamMaster/
We introduceren SmolDocling, een ultracompact vision-language model gericht op end-to-end documentconversie. Ons model verwerkt volledige pagina's door DocTags te genereren, een nieuw universeel opmaakformaat dat alle pagina-elementen in hun volledige context met locatie vastlegt. In tegenstelling tot bestaande benaderingen die vertrouwen op grote foundation models, of ensembles die gebruikmaken van handmatig samengestelde pipelines van meerdere gespecialiseerde modellen, biedt SmolDocling een end-to-end conversie voor het nauwkeurig vastleggen van inhoud, structuur en ruimtelijke locatie van documentelementen in een vision-language model met 256M parameters. SmolDocling toont robuuste prestaties in het correct reproduceren van documentkenmerken zoals codelijsten, tabellen, vergelijkingen, grafieken, lijsten en meer, over een breed scala aan documenttypen, waaronder zakelijke documenten, academische artikelen, technische rapporten, patenten en formulieren -- wat aanzienlijk verder gaat dan de gebruikelijke focus op wetenschappelijke artikelen. Daarnaast dragen we nieuwe, publiek beschikbare datasets bij voor het herkennen van grafieken, tabellen, vergelijkingen en code. Experimentele resultaten tonen aan dat SmolDocling kan concurreren met andere Vision Language Models die tot 27 keer groter zijn, terwijl de rekenvereisten aanzienlijk worden verminderd. Het model is momenteel beschikbaar, de datasets zullen binnenkort openbaar worden gemaakt.
Diffusiemodellen hebben indrukwekkende resultaten laten zien bij het genereren van hoogwaardige conditionele samples met behulp van begeleidingstechnieken zoals Classifier-Free Guidance (CFG). Bestaande methoden vereisen echter vaak extra training of neurale functie-evaluaties (NFEs), waardoor ze niet compatibel zijn met begeleidingsgedistilleerde modellen. Bovendien vertrouwen ze op heuristische benaderingen die het identificeren van doel-lagen vereisen. In dit werk stellen we een nieuwe en efficiënte methode voor, genaamd PLADIS, die vooraf getrainde modellen (U-Net/Transformer) versterkt door gebruik te maken van sparse attention. Specifiek extrapoleren we query-key correlaties met behulp van softmax en zijn sparse tegenhanger in de cross-attention laag tijdens inferentie, zonder extra training of NFEs nodig te hebben. Door gebruik te maken van de ruisbestendigheid van sparse attention, ontketent onze PLADIS het latente potentieel van tekst-naar-beeld diffusiemodellen, waardoor ze uitblinken in gebieden waar ze voorheen moeite hadden met nieuwe effectiviteit. Het integreert naadloos met begeleidingstechnieken, inclusief begeleidingsgedistilleerde modellen. Uitgebreide experimenten tonen aanzienlijke verbeteringen in tekstuitlijning en menselijke voorkeur, wat een zeer efficiënte en universeel toepasbare oplossing biedt.
Grote taalmodellen (LLMs) zijn geëvolueerd van eenvoudige tekstgeneratie naar het aansturen van softwareagentschappen die natuurlijke taalcommando's direct vertalen in tastbare acties. Hoewel API-gebaseerde LLM-agentschappen aanvankelijk bekendheid verwierven vanwege hun robuuste automatiseringmogelijkheden en naadloze integratie met programmatische eindpunten, heeft recente vooruitgang in multimodale LLM-onderzoek GUI-gebaseerde LLM-agentschappen mogelijk gemaakt die op een mensachtige manier interacteren met grafische gebruikersinterfaces. Hoewel deze twee paradigma's hetzelfde doel hebben, namelijk het mogelijk maken van LLM-gestuurde taakautomatisering, verschillen ze aanzienlijk in architecturale complexiteit, ontwikkelingsworkflows en gebruikersinteractiemodellen. Dit artikel presenteert de eerste uitgebreide vergelijkende studie van API-gebaseerde en GUI-gebaseerde LLM-agentschappen, waarbij systematisch hun verschillen en mogelijke convergentie worden geanalyseerd. We onderzoeken belangrijke dimensies en belichten scenario's waarin hybride benaderingen hun complementaire sterktes kunnen benutten. Door duidelijke beslissingscriteria voor te stellen en praktische use cases te illustreren, streven we ernaar om praktijkmensen en onderzoekers te begeleiden bij het selecteren, combineren of overstappen tussen deze paradigma's. Uiteindelijk geven we aan dat voortdurende innovaties in LLM-gebaseerde automatisering de grenzen tussen API- en GUI-gestuurde agentschappen zullen vervagen, wat de weg vrijmaakt voor meer flexibele, adaptieve oplossingen in een breed scala aan real-world toepassingen.
De zoektocht naar data-efficiëntie, waarbij kwaliteit belangrijker is dan kwantiteit, is naar voren gekomen als een hoeksteen in robotmanipulatie, vooral gezien de hoge kosten die gepaard gaan met het verzamelen van real-world data. Wij stellen voor dat het maximaliseren van de informatie-dichtheid van individuele demonstraties de afhankelijkheid van grootschalige datasets aanzienlijk kan verminderen, terwijl de taakprestaties verbeteren. Hiertoe introduceren we Adversarial Data Collection (ADC), een Human-in-the-Loop (HiL) raamwerk dat robotische data-acquisitie herdefinieert door middel van real-time, bidirectionele mens-omgeving interacties. In tegenstelling tot conventionele pipelines die statische demonstraties passief opnemen, neemt ADC een collaboratief verstoringsparadigma aan: tijdens een enkele episode verandert een adversariale operator dynamisch objecttoestanden, omgevingscondities en linguïstische commando's, terwijl de tele-operator adaptief acties aanpast om deze evoluerende uitdagingen te overwinnen. Dit proces comprimeert diverse fout-herstelgedragingen, compositionele taakvariaties en omgevingsverstoringen in minimale demonstraties. Onze experimenten tonen aan dat met ADC getrainde modellen superieure compositionele generalisatie naar onbekende taakinstructies bereiken, verbeterde robuustheid tegen perceptuele verstoringen en emergent foutherstelvermogen. Opvallend is dat modellen die getraind zijn met slechts 20% van het demonstratievolume dat via ADC is verzameld, traditionele benaderingen die volledige datasets gebruiken, significant overtreffen. Deze vooruitgang overbrugt de kloof tussen data-centrische leerparadigma's en praktische robotimplementatie, en toont aan dat strategische data-acquisitie, niet slechts post-hoc verwerking, cruciaal is voor schaalbare, real-world robotleren. Daarnaast zijn we bezig met het samenstellen van een grootschalige ADC-Robotics dataset die real-world manipulatietaken met adversariale verstoringen omvat. Deze benchmark zal open-source worden gemaakt om vooruitgang in robotische imitatieleren te faciliteren.
State Space Models (SSMs) zijn naar voren gekomen als een veelbelovend alternatief voor de populaire transformer-gebaseerde modellen en krijgen steeds meer aandacht. In vergelijking met transformers blinken SSMs uit bij taken met sequentiële data of langere contexten, waarbij ze vergelijkbare prestaties leveren met aanzienlijke efficiëntiewinsten. In dit overzicht bieden we een samenhangend en systematisch overzicht van SSMs, inclusief hun theoretische motivaties, wiskundige formuleringen, vergelijking met bestaande modelklassen en diverse toepassingen. We verdelen de SSM-reeks in drie hoofdonderdelen, waarbij we een gedetailleerde introductie geven van het originele SSM, het gestructureerde SSM vertegenwoordigd door S4, en het selectieve SSM getypeerd door Mamba. We leggen de nadruk op technische aspecten en belichten de verschillende sleuteltechnieken die zijn geïntroduceerd om de effectiviteit en efficiëntie van SSMs te verbeteren. We hopen dat dit manuscript dient als een introductie voor onderzoekers om de theoretische grondslagen van SSMs te verkennen.
We presenteren VGGT, een feedforward neuraal netwerk dat direct alle belangrijke 3D-attributen van een scène afleidt, inclusief cameraparameters, puntkaarten, dieptekaarten en 3D-punttrajecten, vanuit één, enkele of honderden van zijn aanzichten. Deze aanpak is een stap voorwaarts in 3D-computervisie, waar modellen traditioneel beperkt en gespecialiseerd waren voor individuele taken. Het is ook eenvoudig en efficiënt, waarbij beelden in minder dan één seconde worden gereconstrueerd, en het presteert nog steeds beter dan alternatieven die nabewerking met visuele geometrie-optimalisatietechnieken vereisen. Het netwerk behaalt state-of-the-art resultaten in meerdere 3D-taken, waaronder cameraparameterschatting, multi-view diepteschatting, dichte puntenwolkreconstructie en 3D-punttracking. We laten ook zien dat het gebruik van voorgetrainde VGGT als feature-backbone downstream taken aanzienlijk verbetert, zoals niet-rigide punttracking en feedforward synthese van nieuwe aanzichten. Code en modellen zijn publiekelijk beschikbaar op https://github.com/facebookresearch/vggt.
State-of-the-art transformer-gebaseerde grote multimodale modellen (LMMs) hebben moeite met het verwerken van uur-lange video-inputs vanwege de kwadratische complexiteit van de causale self-attention-operaties, wat leidt tot hoge rekenkosten tijdens training en inferentie. Bestaande methoden op basis van tokencompressie verminderen het aantal videotokens, maar gaan vaak gepaard met informatieverlies en blijven inefficiënt voor extreem lange sequenties. In dit artikel verkennen we een orthogonale richting om een hybride Mamba-Transformer-model (VAMBA) te bouwen dat Mamba-2-blokken gebruikt om videotokens te coderen met lineaire complexiteit. Zonder enige tokenreductie kan VAMBA meer dan 1024 frames (640x360) coderen op een enkele GPU, terwijl transformer-gebaseerde modellen slechts 256 frames kunnen coderen. Bij lange video-input realiseert VAMBA een reductie van ten minste 50% in GPU-geheugengebruik tijdens training en inferentie, en verdubbelt bijna de snelheid per trainingsstap in vergelijking met transformer-gebaseerde LMMs. Onze experimentele resultaten tonen aan dat VAMBA de nauwkeurigheid met 4,3% verbetert op de uitdagende uur-lange video-begripbenchmark LVBench ten opzichte van eerdere efficiënte video-LMMs, en sterke prestaties behoudt op een breed scala aan lange en korte video-begriptaken.
Het overbruggen van verschillende modaliteiten staat centraal bij cross-modaliteit generatie. Terwijl conventionele benaderingen de tekstmodaliteit behandelen als een conditionerend signaal dat geleidelijk het denoising-proces begeleidt van Gaussische ruis naar de doel- beeldmodaliteit, verkennen wij een veel eenvoudiger paradigma: directe evolutie tussen tekst- en beeldmodaliteiten door middel van flow matching. Hiervoor is het nodig om beide modaliteiten te projecteren in een gedeelde latente ruimte, wat een aanzienlijke uitdaging vormt vanwege hun inherent verschillende representaties: tekst is zeer semantisch en gecodeerd als 1D-tokens, terwijl beelden ruimtelijk redundant zijn en worden weergegeven als 2D latente embeddings. Om dit aan te pakken introduceren wij FlowTok, een minimaal framework dat naadloos stroomt tussen tekst en beelden door beelden te coderen in een compacte 1D-tokenrepresentatie. Vergeleken met eerdere methoden reduceert dit ontwerp de grootte van de latente ruimte met 3,3x bij een beeldresolutie van 256, waardoor complexe conditioneringmechanismen of ruisschedulering overbodig worden. Bovendien breidt FlowTok zich natuurlijk uit naar beeld-naar-tekst generatie onder dezelfde formulering. Met zijn gestroomlijnde architectuur die draait om compacte 1D- tokens, is FlowTok zeer geheugenefficiënt, vereist het aanzienlijk minder trainingsbronnen, en bereikt het veel snellere sampling-snelheden—terwijl het prestaties levert die vergelijkbaar zijn met state-of-the-art modellen. Code zal beschikbaar zijn op https://github.com/bytedance/1d-tokenizer.
Federated Learning (FL) is naar voren gekomen als een veelbelovend paradigma voor privacybeschermende, collaboratieve modeltraining zonder het delen van ruwe data. Recente studies hebben echter aangetoond dat privé-informatie nog steeds kan worden gelekt via gedeelde gradientinformatie en kan worden aangevallen door Gradient Inversion Attacks (GIA). Hoewel er veel GIA-methoden zijn voorgesteld, ontbreekt het nog steeds aan een gedetailleerde analyse, evaluatie en samenvatting van deze methoden. Hoewel diverse overzichtspapers bestaande privacyaanvallen in FL samenvatten, hebben weinig studies uitgebreide experimenten uitgevoerd om de effectiviteit van GIA en de bijbehorende beperkende factoren in deze context bloot te leggen. Om deze leemte op te vullen, ondernemen we eerst een systematische review van GIA en categoriseren we bestaande methoden in drie typen, namelijk optimalisatie-gebaseerde GIA (OP-GIA), generatie-gebaseerde GIA (GEN-GIA) en analyse-gebaseerde GIA (ANA-GIA). Vervolgens analyseren en evalueren we de drie typen GIA in FL uitgebreid, waarbij we inzicht bieden in de factoren die hun prestaties, praktische toepasbaarheid en potentiële bedreigingen beïnvloeden. Onze bevindingen geven aan dat OP-GIA de meest praktische aanvalsinstelling is ondanks de onbevredigende prestaties, terwijl GEN-GIA veel afhankelijkheden heeft en ANA-GIA gemakkelijk detecteerbaar is, waardoor beide onpraktisch zijn. Tot slot bieden we gebruikers een drietraps verdedigingspipeline bij het ontwerpen van FL-frameworks en -protocollen voor betere privacybescherming en delen we enkele toekomstige onderzoeksrichtingen vanuit het perspectief van aanvallers en verdedigers die volgens ons nagestreefd moeten worden. We hopen dat onze studie onderzoekers kan helpen om robuustere FL-frameworks te ontwerpen die deze aanvallen kunnen weerstaan.
Precisie-therapie vereist multimodale adaptieve modellen die gepersonaliseerde behandelingsaanbevelingen genereren. Wij introduceren TxAgent, een AI-agent die gebruikmaakt van meerstaps redeneren en real-time biomedische kennisretrieval over een toolbox van 211 tools om medicijninteracties, contra-indicaties en patiëntspecifieke behandelstrategieën te analyseren. TxAgent evalueert hoe medicijnen interageren op moleculair, farmacokinetisch en klinisch niveau, identificeert contra-indicaties op basis van patiëntcomorbiditeiten en gelijktijdige medicatie, en past behandelstrategieën aan op basis van individuele patiëntkenmerken. Het haalt en synthetiseert bewijs uit meerdere biomedische bronnen, beoordeelt interacties tussen medicijnen en patiëntcondities, en verfijnt behandelingsaanbevelingen via iteratief redeneren. Het selecteert tools op basis van taakdoelen en voert gestructureerde functieaanroepen uit om therapeutische taken op te lossen die klinisch redeneren en cross-source validatie vereisen. De ToolUniverse consolideert 211 tools uit vertrouwde bronnen, inclusief alle door de Amerikaanse FDA goedgekeurde medicijnen sinds 1939 en gevalideerde klinische inzichten van Open Targets. TxAgent presteert beter dan toonaangevende LLM's, tool-gebruikmodellen en redeneeragentschappen over vijf nieuwe benchmarks: DrugPC, BrandPC, GenericPC, TreatmentPC en DescriptionPC, die 3.168 medicijnredeneertaken en 456 gepersonaliseerde behandelingsscenario's omvatten. Het behaalt een nauwkeurigheid van 92,1% in open-einde medicijnredeneertaken, overtreft GPT-4o en presteert beter dan DeepSeek-R1 (671B) in gestructureerd meerstaps redeneren. TxAgent generaliseert over varianten van medicijnnamen en beschrijvingen. Door multi-staps inferentie, real-time kennisverankering en tool-ondersteunde besluitvorming te integreren, zorgt TxAgent ervoor dat behandelingsaanbevelingen aansluiten bij gevestigde klinische richtlijnen en real-world bewijs, waardoor het risico op bijwerkingen wordt verminderd en de therapeutische besluitvorming wordt verbeterd.
We stellen een nieuwe aanpak voor voor het genereren van bijschriften en het verankeren van objecten in video's, waarbij de objecten in het bijschrift worden verankerd in de video via temporeel dichte begrenzingsvakken. We introduceren de volgende bijdragen. Ten eerste presenteren we een grootschalige methode voor automatische annotatie die bijschriften met begrenzingsvakken over individuele frames aggregeert tot temporeel dichte en consistente annotaties van begrenzingsvakken. We passen deze aanpak toe op de HowTo100M-dataset om een grootschalige pre-trainingsdataset te construeren, genaamd HowToGround1M. We introduceren ook een Grounded Video Caption Generation-model, genaamd GROVE, en pre-trainen het model op HowToGround1M. Ten tweede introduceren we een nieuwe dataset, genaamd iGround, bestaande uit 3500 video's met handmatig geannoteerde bijschriften en dichte spatio-temporeel verankerde begrenzingsvakken. Dit stelt ons in staat om vooruitgang te meten op dit uitdagende probleem, evenals om ons model te fine-tunen op deze kleinschalige maar hoogwaardige data. Ten derde tonen we aan dat onze aanpak state-of-the-art resultaten behaalt op de voorgestelde iGround-dataset in vergelijking met een aantal baselines, evenals op de VidSTG- en ActivityNet-Entities-datasets. We voeren uitgebreide ablatie-experimenten uit die het belang aantonen van pre-training met onze automatisch geannoteerde HowToGround1M-dataset, gevolgd door fine-tuning op de handmatig geannoteerde iGround-dataset, en valideren de belangrijkste technische bijdragen van ons model.
Kolmogorov-Arnold-netwerken (KANs) vormen een opmerkelijke innovatie die bestaat uit leerbare activatiefuncties met het potentieel om complexere relaties uit data vast te leggen. Hoewel KANs nuttig zijn voor het vinden van symbolische representaties en het continu leren van eendimensionale functies, blijft hun effectiviteit in diverse machine learning (ML)-taken, zoals visie, twijfelachtig. Momenteel worden KANs ingezet door multilayer perceptrons (MLPs) te vervangen in diepe netwerkarchitecturen, waaronder geavanceerde architecturen zoals vision Transformers (ViTs). In dit artikel zijn wij de eersten die een algemene leerbare Kolmogorov-Arnold Attention (KArAt) ontwerpen voor standaard ViTs die kan werken met elke keuze van basis. De reken- en geheugenkosten van het trainen ervan hebben ons echter gemotiveerd om een meer modulaire versie voor te stellen, en we hebben een specifieke leerbare aandacht ontworpen, genaamd Fourier-KArAt. Fourier-KArAt en zijn varianten overtreffen hun ViT-tegenhangers of laten vergelijkbare prestaties zien op de CIFAR-10, CIFAR-100 en ImageNet-1K datasets. We ontleden de prestaties en generalisatiecapaciteit van deze architecturen door hun verlieslandschappen, gewichtsverdelingen, optimizer-paden, aandachtvisualisaties en spectraalgedrag te analyseren, en vergelijken deze met standaard ViTs. Het doel van dit artikel is niet om parameter- en reken-efficiënte aandacht te produceren, maar om de gemeenschap aan te moedigen KANs te verkennen in combinatie met meer geavanceerde architecturen die een zorgvuldig begrip van leerbare activaties vereisen. Onze open-source code en implementatiedetails zijn beschikbaar op: https://subhajitmaity.me/KArAt
Het aanpassen van een lichaam aan een 3D-geklede menselijke puntenwolk is een veelvoorkomende maar uitdagende taak. Traditionele optimalisatiegebaseerde benaderingen gebruiken meerfasige pijplijnen die gevoelig zijn voor pose-initialisatie, terwijl recente leer-gebaseerde methoden vaak moeite hebben met generalisatie over diverse poses en kledingtypes. Wij stellen Equivariant Tightness Fitting for Clothed Humans, oftewel ETCH, voor, een nieuwe pijplijn die de mapping van kleding naar lichaamsoppervlak schat door middel van lokaal benaderde SE(3)-equivariantie, waarbij strakheid wordt gecodeerd als verplaatsingsvectoren van het kledingoppervlak naar het onderliggende lichaam. Na deze mapping regresseren pose-invariante lichaamskenmerken spaarzame lichaamsmarkers, wat het aanpassen van geklede mensen vereenvoudigt tot een taak van het aanpassen van innerlijke lichaamsmarkers. Uitgebreide experimenten op CAPE en 4D-Dress laten zien dat ETCH aanzienlijk beter presteert dan state-of-the-art methoden — zowel strakheidsonafhankelijke als strakheidsbewuste — in nauwkeurigheid van lichaamsaanpassing bij losse kleding (16,7% ~ 69,5%) en vormnauwkeurigheid (gemiddeld 49,9%). Ons equivariant strakheidsontwerp kan zelfs richtingsfouten verminderen met (67,2% ~ 89,8%) in one-shot (of out-of-distribution) instellingen. Kwalitatieve resultaten tonen een sterke generalisatie van ETCH, ongeacht uitdagende poses, onbekende vormen, losse kleding en niet-rigide dynamiek. Wij zullen binnenkort de code en modellen vrijgeven voor onderzoeksdoeleinden op https://boqian-li.github.io/ETCH/.
Visuele autoregressieve modellen volgen doorgaans een rastervolgorde "volgende-token-voorspelling"-paradigma, waarbij de ruimtelijke en temporele localiteit die inherent is aan visuele content over het hoofd wordt gezien. Specifiek vertonen visuele tokens aanzienlijk sterkere correlaties met hun ruimtelijk of temporeel aangrenzende tokens in vergelijking met tokens die veraf liggen. In dit artikel stellen we Neighboring Autoregressive Modeling (NAR) voor, een nieuw paradigma dat autoregressieve visuele generatie formuleert als een progressieve uitbreidingsprocedure, volgens een nabij-naar-ver "volgende-buur-voorspelling"-mechanisme. Beginnend bij een initieel token, worden de overige tokens gedecodeerd in oplopende volgorde van hun Manhattan-afstand tot het initiële token in de ruimtelijk-temporele ruimte, waarbij de grens van het gedecodeerde gebied progressief wordt uitgebreid. Om parallelle voorspelling van meerdere aangrenzende tokens in de ruimtelijk-temporele ruimte mogelijk te maken, introduceren we een set dimensie-gerichte decodeerkoppen, die elk het volgende token voorspellen langs een onderling orthogonale dimensie. Tijdens inferentie worden alle tokens die grenzen aan de gedecodeerde tokens parallel verwerkt, wat het aantal modelvoorwaartse stappen voor generatie aanzienlijk vermindert. Experimenten op ImageNet256x256 en UCF101 tonen aan dat NAR respectievelijk 2,4x en 8,6x hogere doorvoer bereikt, terwijl het superieure FID/FVD-scores behaalt voor zowel beeld- als videogeneratietaken in vergelijking met de PAR-4X-aanpak. Bij evaluatie op de tekst-naar-beeld-generatiebenchmark GenEval presteert NAR met 0,8B parameters beter dan Chameleon-7B, terwijl het slechts 0,4 van de trainingsdata gebruikt. Code is beschikbaar op https://github.com/ThisisBillhe/NAR.
Aangezien multimodale grote taalmodellen (MLLMs) vaak fouten vertonen bij het oplossen van wetenschappelijke problemen, is het evalueren van de geldigheid van hun redeneerprocessen cruciaal om betrouwbaarheid te waarborgen en fijnmazige modelzwaktes bloot te leggen. Omdat menselijke evaluatie arbeidsintensief en kostbaar is, is het aansturen van MLLMs als geautomatiseerde procesbeoordelaars een gangbare praktijk geworden. De betrouwbaarheid van deze modelgebaseerde beoordelaars blijft echter onzeker. Om dit aan te pakken, introduceren we ProJudgeBench, de eerste uitgebreide benchmark die specifiek is ontworpen voor het evalueren van de vaardigheden van MLLM-gebaseerde procesbeoordelaars. ProJudgeBench omvat 2.400 testgevallen en 50.118 stapniveau-labels, die vier wetenschappelijke disciplines bestrijken met diverse moeilijkheidsgraden en multimodale inhoud. In ProJudgeBench is elke stap zorgvuldig geannoteerd door menselijke experts op correctheid, fouttype en uitleg, wat een systematische evaluatie mogelijk maakt van de capaciteiten van beoordelaars om fouten te detecteren, classificeren en diagnosticeren. Evaluatie op ProJudgeBench onthult een aanzienlijk prestatieverschil tussen open-source en propriëtaire modellen. Om dit verschil te overbruggen, stellen we verder ProJudge-173k voor, een grootschalige instructie-afstemmingsdataset, en een Dynamische Dual-Fase afstemmingsstrategie die modellen aanmoedigt expliciet te redeneren door probleemoplossing voordat ze oplossingen beoordelen. Beide bijdragen verbeteren de procesevaluatiecapaciteiten van open-source modellen aanzienlijk. Alle bronnen zullen worden vrijgegeven om toekomstig onderzoek naar betrouwbare multimodale procesevaluatie te bevorderen.
Unified models (UniMs) voor multimodale interpretatie en generatie hebben recentelijk veel aandacht gekregen op het gebied van visie en taal. Bestaande UniMs zijn ontworpen om zowel multimodale interpretatie- als generatiecapaciteiten tegelijkertijd te leren, wat aanzienlijke rekenkracht vereist, en hebben vaak moeite met het genereren van afwisselende tekst en afbeeldingen. Wij presenteren ARMOR, een resource-efficiënt en puur autoregressief framework dat zowel interpretatie als generatie bereikt door bestaande multimodale grote taalmodellen (MLLMs) te fine-tunen. Specifiek breidt ARMOR bestaande MLLMs uit vanuit drie perspectieven: (1) Voor de modelarchitectuur wordt een asymmetrische encoder-decoder-architectuur met een forward-switching-mechanisme geïntroduceerd om de embeddingruimte te unificeren, waarbij tekstuele en visuele modaliteiten worden geïntegreerd om natuurlijke afwisselende tekst-afbeelding-generatie mogelijk te maken met minimale rekenkracht. (2) Voor de trainingsdata wordt een zorgvuldig samengestelde, hoogwaardige dataset met afwisselende inhoud verzameld voor het fine-tunen van MLLMs. (3) Voor het trainingsalgoritme stellen we een "wat of hoe te genereren"-algoritme voor om bestaande MLLMs te voorzien van multimodale generatiecapaciteiten, terwijl hun multimodale interpretatiecapaciteiten behouden blijven, via drie progressieve trainingsfasen gebaseerd op de verzamelde dataset. Experimentele resultaten tonen aan dat ARMOR bestaande MLLMs opwaardeert naar UniMs met veelbelovende afbeeldingsgeneratiecapaciteiten, met beperkte trainingsresources. Onze code zal binnenkort worden vrijgegeven op https://armor.github.io.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties en generalisatiecapaciteiten getoond over meerdere talen en taken, waardoor ze zeer aantrekkelijke doelwitten zijn voor multi-modaliteitsintegratie (bijvoorbeeld afbeeldingen of spraak). In dit werk breiden we een bestaand LLM uit naar de spraakmodaliteit via spraakdiscretisatie en voortgezette voorafgaande training. We zijn vooral geïnteresseerd in meertalige LLMs, zoals TOWER, omdat hun voorafgaande trainingsopzet het mogelijk maakt om gediscretiseerde spraakinvoer te behandelen als een aanvullende vertaaltaal. Het resulterende open-source model, SPIRE, is in staat om Engelse spraakinvoer te transcriberen en te vertalen, terwijl het de oorspronkelijke prestaties van TOWER op vertaalgerelateerde taken behoudt. Dit toont aan dat de integratie van gediscretiseerde spraakinvoer als een aanvullende taal haalbaar is tijdens de aanpassing van LLMs. We stellen onze code en modellen beschikbaar aan de gemeenschap.
Nauwkeurige materiaalretrieval is essentieel voor het creëren van realistische 3D-assets. Bestaande methoden vertrouwen op datasets die vorminvariante en lichtvariabele representaties van materialen vastleggen, die schaars zijn en uitdagingen ondervinden door beperkte diversiteit en onvoldoende generalisatie naar de echte wereld. De meeste huidige benaderingen maken gebruik van traditionele technieken voor beeldzoekopdrachten. Deze schieten tekort in het vastleggen van de unieke eigenschappen van materiaalruimtes, wat leidt tot suboptimale prestaties bij retrievaultaken. Om deze uitdagingen aan te pakken, introduceren we MaRI, een raamwerk ontworpen om de kloof in de kenmerkruimte tussen synthetische en real-world materialen te overbruggen. MaRI construeert een gedeelde inbeddingsruimte die visuele en materiaalattributen harmoniseert door middel van een contrastieve leerstrategie, waarbij een beeld- en materiaalencoder gezamenlijk worden getraind, waardoor vergelijkbare materialen en beelden dichter bij elkaar worden gebracht terwijl ongelijke paren binnen de kenmerkruimte worden gescheiden. Om dit te ondersteunen, construeren we een uitgebreide dataset bestaande uit hoogwaardige synthetische materialen gerenderd met gecontroleerde vormvariaties en diverse lichtomstandigheden, samen met real-world materialen die zijn verwerkt en gestandaardiseerd met behulp van materiaaloverdrachttechnieken. Uitgebreide experimenten tonen de superieure prestaties, nauwkeurigheid en generalisatiecapaciteiten van MaRI aan bij diverse en complexe materiaalretrievaultaken, waarbij bestaande methoden worden overtroffen.
Het versnellen van diffusiemodel sampling is cruciaal voor een efficiënte inzet van AIGC. Hoewel diffusiedistillatiemethoden – gebaseerd op distributie- en trajectmatching – het sampling kunnen reduceren tot slechts één stap, schieten ze tekort bij complexe taken zoals tekst-naar-beeldgeneratie. Generatie in enkele stappen biedt een betere balans tussen snelheid en kwaliteit, maar bestaande benaderingen kampen met een hardnekkige afweging: distributiematching mist flexibiliteit voor multi-step sampling, terwijl trajectmatching vaak suboptimale beeldkwaliteit oplevert. Om deze kloof te overbruggen, stellen we voor om diffusiemodellen in enkele stappen te leren via Trajectory Distribution Matching (TDM), een geïntegreerd distillatieparadigma dat de sterke punten van distributie- en trajectmatching combineert. Onze methode introduceert een data-vrij score-distillatiedoel, dat het traject van de student afstemt op dat van de leraar op distributieniveau. Verder ontwikkelen we een sampling-stappen-bewust doel dat leerdoelen ontkoppelt over verschillende stappen, waardoor meer aanpasbaar sampling mogelijk wordt. Deze benadering ondersteunt zowel deterministisch sampling voor superieure beeldkwaliteit als flexibele multi-step aanpassing, wat resulteert in state-of-the-art prestaties met opmerkelijke efficiëntie. Ons model, TDM, overtreft bestaande methoden op verschillende backbones, zoals SDXL en PixArt-alpha, en levert superieure kwaliteit met aanzienlijk gereduceerde trainingskosten. In het bijzonder destilleert onze methode PixArt-alpha tot een 4-staps generator die zijn leraar overtreft op basis van echte gebruikersvoorkeuren bij 1024 resolutie. Dit wordt bereikt met 500 iteraties en 2 A800 uren – slechts 0,01% van de trainingskosten van de leraar. Daarnaast kan onze voorgestelde TDM worden uitgebreid om tekst-naar-video diffusie te versnellen. Opmerkelijk is dat TDM zijn lerarmodel (CogVideoX-2B) kan overtreffen door slechts 4 NFE te gebruiken op VBench, waarbij de totale score verbetert van 80,91 naar 81,65. Projectpagina: https://tdm-t2x.github.io/
We introduceren TreeMeshGPT, een autoregressieve Transformer die is ontworpen om hoogwaardige artistieke meshes te genereren die zijn afgestemd op invoerpuntenwolken. In plaats van de conventionele voorspelling van het volgende token in een autoregressieve Transformer, stellen we een nieuwe Autoregressieve Boomsequentie voor, waarbij het volgende invoertoken wordt opgehaald uit een dynamisch groeiende boomstructuur die is gebaseerd op de driehoekige aangrenzing van vlakken binnen de mesh. Onze sequentie maakt het mogelijk dat de mesh lokaal uitbreidt vanaf het laatst gegenereerde driehoekige vlak bij elke stap, waardoor de trainingsmoeilijkheid wordt verminderd en de meshkwaliteit wordt verbeterd. Onze aanpak vertegenwoordigt elk driehoekig vlak met twee tokens, wat een compressiepercentage van ongeveer 22% oplevert in vergelijking met de naïeve vlaktokenisatie. Deze efficiënte tokenisatie stelt ons model in staat om zeer gedetailleerde artistieke meshes te genereren met sterke conditionering op puntenwolken, waardoor eerdere methoden worden overtroffen in zowel capaciteit als nauwkeurigheid. Bovendien genereert onze methode meshes met sterke beperkingen op de normaaloriëntatie, waardoor omgekeerde normalen die vaak voorkomen in eerdere methoden worden geminimaliseerd. Onze experimenten tonen aan dat TreeMeshGPT de kwaliteit van de meshgeneratie verbetert met verfijnde details en consistentie in de normaaloriëntatie.
Dit werk presenteert een eerste evaluatie van twee state-of-the-art Large Reasoning Models (LRMs), OpenAI's o3-mini en DeepSeek R1, op het gebied van analogisch redeneren, met een focus op goed gevestigde non-verbale menselijke IQ-tests gebaseerd op Raven's progressieve matrices. We benchmarken met de I-RAVEN dataset en de moeilijkere uitbreiding daarvan, I-RAVEN-X, die het vermogen test om te generaliseren naar langere redeneerregels en bereiken van attribuutwaarden. Om de invloed van visuele onzekerheden op deze non-verbale analogische redeneertests te beoordelen, breiden we de I-RAVEN-X dataset uit, die anders uitgaat van een orakelperceptie. We hanteren een tweeledige strategie om deze onvolmaakte visuele perceptie te simuleren: 1) we introduceren verstorende attributen die, willekeurig bemonsterd, niet bijdragen aan de voorspelling van het juiste antwoord van de puzzels en 2) we verzachten de verdelingen van de waarden van de invoerattributen. We observeren een scherpe daling in de taaknauwkeurigheid van OpenAI's o3-mini, die daalt van 86,6% op de originele I-RAVEN naar slechts 17,0% – wat dicht bij willekeurige kans ligt – op de uitdagendere I-RAVEN-X, die de invoerlengte en het bereik vergroot en perceptuele onzekerheid nabootst. Deze daling trad op ondanks het gebruik van 3,4x meer redeneertokens. Een vergelijkbare trend wordt ook waargenomen voor DeepSeek R1: van 80,6% naar 23,2%. Aan de andere kant kan een neuro-symbolisch probabilistisch abductief model, ARLC, dat state-of-the-art prestaties behaalt op I-RAVEN, robuust redeneren onder al deze out-of-distribution tests, waarbij het een sterke nauwkeurigheid behoudt met slechts een bescheiden reductie van 98,6% naar 88,0%. Onze code is beschikbaar op https://github.com/IBM/raven-large-language-models.
Video Detailed Captioning (VDC) is een cruciale taak voor het overbruggen van visie en taal, waardoor gedetailleerde beschrijvingen van complexe video-inhoud mogelijk worden. In dit artikel evalueren we eerst uitgebreid de huidige state-of-the-art benaderingen en identificeren we systematisch twee kritieke beperkingen: een bevooroordeelde capaciteit ten opzichte van specifieke aspecten van captioning en een verkeerde uitlijning met menselijke voorkeuren. Om deze tekortkomingen aan te pakken, stellen we Cockatiel voor, een nieuwe drietraps trainingspipeline die synthetische en menselijk uitgelijnde training combineert om de VDC-prestaties te verbeteren. In de eerste fase leiden we een scorer af van een nauwkeurig geannoteerde dataset om synthetische bijschriften te selecteren die goed presteren op bepaalde gedetailleerde video-bijschrift uitlijningen en menselijke voorkeuren, terwijl andere worden genegeerd. Vervolgens trainen we Cockatiel-13B met deze gecureerde dataset om het te voorzien van samengestelde modelsterktes en menselijke voorkeuren. Ten slotte destilleren we Cockatiel-8B verder uit Cockatiel-13B voor gebruiksgemak. Uitgebreide kwantitatieve en kwalitatieve experimenten tonen de effectiviteit van onze methode aan, aangezien we niet alleen een nieuwe state-of-the-art prestatie op VDCSCORE behalen op een dimensie-gebalanceerde manier, maar ook toonaangevende alternatieven op het gebied van menselijke voorkeur met een grote marge overtreffen, zoals blijkt uit de resultaten van de menselijke evaluatie.
Het aanleren van vaardigheden in open-wereldomgevingen is essentieel voor het ontwikkelen van agents die in staat zijn om een verscheidenheid aan taken uit te voeren door basisvaardigheden te combineren. Online demonstratievideo's zijn doorgaans lang maar ongesegmenteerd, wat het moeilijk maakt om ze te segmenteren en te labelen met vaardigheidsidentificatoren. In tegenstelling tot bestaande methoden die vertrouwen op sequentiële steekproeven of menselijke labeling, hebben wij een zelfgesuperviseerde leerbenadering ontwikkeld om deze lange video's te segmenteren in een reeks semantisch bewuste en vaardigheidsconsistente segmenten. Geïnspireerd door de cognitieve gebeurtenissegmentatietheorie van de mens, introduceren we Skill Boundary Detection (SBD), een annotatievrij tijdelijk videosegmentatiealgoritme. SBD detecteert vaardigheidsgrenzen in een video door gebruik te maken van voorspellingsfouten van een vooraf getraind onvoorwaardelijk actievoorspellingsmodel. Deze benadering is gebaseerd op de veronderstelling dat een significante toename in voorspellingsfout wijst op een verandering in de uitgevoerde vaardigheid. We hebben onze methode geëvalueerd in Minecraft, een rijke open-wereldsimulator met uitgebreide gameplayvideo's die online beschikbaar zijn. Onze door SBD gegenereerde segmenten verbeterden de gemiddelde prestaties van geconditioneerde beleidsregels met 63,7% en 52,1% op kortetermijn atomische vaardigheidstaken, en hun corresponderende hiërarchische agents met 11,3% en 20,8% op langetermijntaken. Onze methode kan de diverse YouTube-video's benutten om instructievolgende agents te trainen. De projectpagina is te vinden op https://craftjarvis.github.io/SkillDiscovery.
We introduceren CHOrD, een nieuw raamwerk voor de schaalbare synthese van 3D binnenscènes, ontworpen om huisgrote, botsingsvrije en hiërarchisch gestructureerde digitale tweelingen van binnenruimtes te creëren. In tegenstelling tot bestaande methoden die de scène-indeling direct synthetiseren als een scènegrafiek of objectenlijst, integreert CHOrD een op 2D afbeeldingen gebaseerde tussenliggende lay-outrepresentatie, waardoor effectief botsingsartefacten worden voorkomen door deze succesvol te identificeren als out-of-distribution (OOD) scenario’s tijdens de generatie. Bovendien is CHOrD, in tegenstelling tot bestaande methoden, in staat om scène-indelingen te genereren die voldoen aan complexe plattegronden met multimodale controles, waardoor het mogelijk wordt om samenhangende, huisbrede indelingen te creëren die robuust zijn tegen zowel geometrische als semantische variaties in kamerstructuren. Daarnaast stellen we een nieuwe dataset voor met een uitgebreide dekking van huishoudelijke artikelen en kamerconfiguraties, evenals een aanzienlijk verbeterde data-kwaliteit. CHOrD toont state-of-the-art prestaties op zowel de 3D-FRONT als onze voorgestelde datasets, en levert fotorealistische, ruimtelijk samenhangende synthese van binnenscènes die aanpasbaar is aan willekeurige variaties in plattegronden.
Wij stellen GoalFlow voor, een end-to-end autonome rijmethode voor het genereren van hoogwaardige multimodale trajecten. In autonome rijsituaties is er zelden een enkel geschikt traject. Recente methoden richten zich steeds meer op het modelleren van multimodale trajectverdelingen. Deze methoden kampen echter met complexiteit bij trajectselectie en verminderde trajectkwaliteit door hoge trajectdivergentie en inconsistenties tussen begeleidings- en scène-informatie. Om deze problemen aan te pakken, introduceren wij GoalFlow, een nieuwe methode die het generatieve proces effectief beperkt om hoogwaardige, multimodale trajecten te produceren. Om het probleem van trajectdivergentie, inherent aan op diffusie gebaseerde methoden, op te lossen, beperkt GoalFlow de gegenereerde trajecten door een doelpunt in te voeren. GoalFlow stelt een nieuw scoringsmechanisme in dat het meest geschikte doelpunt selecteert uit de kandidaatpunten op basis van scène-informatie. Bovendien maakt GoalFlow gebruik van een efficiënte generatieve methode, Flow Matching, om multimodale trajecten te genereren, en incorporeert een verfijnd scoringsmechanisme om het optimale traject uit de kandidaten te selecteren. Onze experimentele resultaten, gevalideerd op de NavsimDauner2024_navsim, tonen aan dat GoalFlow state-of-the-art prestaties bereikt en robuuste multimodale trajecten levert voor autonoom rijden. GoalFlow behaalde een PDMS van 90,3, wat aanzienlijk beter is dan andere methoden. In vergelijking met andere op diffusiebeleid gebaseerde methoden, vereist onze aanpak slechts één denoiseringsstap om uitstekende prestaties te verkrijgen. De code is beschikbaar op https://github.com/YvanYin/GoalFlow.
Machine unlearning is een opkomend paradigma om de invloed van specifieke trainingsdata (d.w.z. de forget set) uit een model te verwijderen, terwijl de kennis van de rest van de data (d.w.z. de retain set) behouden blijft. Eerdere benaderingen gaan ervan uit dat de te vergeten data uniform verdeeld is over alle trainingsdatapunten. Echter, als de data die moet worden vergeten dominant is in één groep, tonen we empirisch aan dat de prestaties voor deze groep achteruitgaan, wat leidt tot eerlijkheidsproblemen. Dit werk behandelt het over het hoofd geziene probleem van niet-uniform verdeelde forget sets, wat we group-robust machine unlearning noemen, door een eenvoudige, effectieve strategie te presenteren die het prestatieverlies in dominante groepen vermindert via herweging van de steekproefverdeling. Bovendien presenteren we MIU (Mutual Information-aware Machine Unlearning), de eerste benadering voor groeprobuustheid in benaderend machine unlearning. MIU minimaliseert de wederzijdse informatie tussen modelkenmerken en groepsinformatie, waardoor unlearning wordt bereikt terwijl prestatievermindering in de dominante groep van de forget set wordt beperkt. Daarnaast maakt MIU gebruik van herweging van de steekproefverdeling en kalibratie van wederzijdse informatie met het oorspronkelijke model om groeprobuustheid te behouden. We voeren experimenten uit op drie datasets en laten zien dat MIU standaardmethoden overtreft, waarbij unlearning wordt bereikt zonder de robuustheid van het model aan te tasten. Broncode is beschikbaar op https://github.com/tdemin16/group-robust_machine_unlearning.