Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusie-taalmodelen bieden unieke voordelen ten opzichte van autoregressieve modellen vanwege hun potentieel voor parallelle generatie en beheersbaarheid, maar ze blijven achter in waarschijnlijkheidsmodellering en zijn beperkt tot generatie met vaste lengte. In dit werk introduceren we een klasse van blokdiffusie-taalmodelen die een brug slaan tussen discrete denoising-diffusie en autoregressieve modellen. Blokdiffusie overkomt belangrijke beperkingen van beide benaderingen door flexibele-lengte-generatie te ondersteunen en de inferentie-efficiëntie te verbeteren met KV-caching en parallelle token-sampling. We stellen een recept voor voor het bouwen van effectieve blokdiffusie-modellen, inclusief een efficiënt trainingsalgoritme, schatters van gradiëntvariantie en data-gedreven ruisschema's om de variantie te minimaliseren. Blokdiffusie stelt een nieuwe state-of-the-art prestatie vast onder diffusiemodellen op taalmodelbenchmarks en maakt generatie van sequenties met willekeurige lengte mogelijk. We bieden de code, samen met de modelgewichten en een blogpost op de projectpagina: https://m-arriola.com/bd3lms/.
De ontwikkeling van videodiffusiemodellen onthult een aanzienlijke uitdaging: de grote rekenkundige eisen. Om deze uitdaging te verminderen, merken we op dat het omgekeerde proces van diffusie een inherent entropieverlagend karakter heeft. Gezien de redundantie tussen frames in de videomodaliteit, is het handhaven van volledige framesnelheden in hoog-entropiefasen niet nodig. Op basis van dit inzicht stellen we TPDiff voor, een uniform raamwerk om de efficiëntie van training en inferentie te verbeteren. Door diffusie in verschillende fasen te verdelen, verhoogt ons raamwerk geleidelijk de framesnelheid tijdens het diffusieproces, waarbij alleen de laatste fase op volledige framesnelheid werkt, waardoor de rekenkundige efficiëntie wordt geoptimaliseerd. Om het meerfasige diffusiemodel te trainen, introduceren we een specifiek trainingsraamwerk: fasenwijze diffusie. Door de gepartitioneerde waarschijnlijkheidsstroom gewone differentiaalvergelijkingen (ODE) van diffusie op te lossen onder uitgelijnde gegevens en ruis, is onze trainingsstrategie toepasbaar op verschillende diffusievormen en verbetert het verder de trainings efficiëntie. Uitgebreide experimentele evaluaties valideren de algemeenheid van onze methode, waarbij een vermindering van 50% in trainingskosten en een 1,5x verbetering in inferentie-efficiëntie wordt aangetoond.
Voorwaardelijke bewegingsgeneratie is uitgebreid bestudeerd in de computer vision, maar twee cruciale uitdagingen blijven bestaan. Ten eerste, hoewel gemaskeerde autoregressieve methoden recentelijk beter presteren dan op diffusie gebaseerde benaderingen, ontbreekt het bestaande maskeringsmodellen aan een mechanisme om dynamische frames en lichaamsdelen te prioriteren op basis van gegeven voorwaarden. Ten tweede slagen bestaande methoden voor verschillende conditioneringsmodaliteiten er vaak niet in om meerdere modaliteiten effectief te integreren, wat de controle en samenhang in gegenereerde beweging beperkt. Om deze uitdagingen aan te pakken, stellen we Motion Anything voor, een multimodale bewegingsgeneratieframework dat een Attention-based Mask Modeling benadering introduceert, waardoor fijnmazige ruimtelijke en temporele controle over sleutelframes en acties mogelijk wordt. Ons model codeert adaptief multimodale voorwaarden, waaronder tekst en muziek, wat de bestuurbaarheid verbetert. Daarnaast introduceren we Text-Music-Dance (TMD), een nieuwe bewegingsdataset bestaande uit 2.153 paren van tekst, muziek en dans, wat het twee keer zo groot maakt als AIST++, en daarmee een kritische leemte in de gemeenschap opvult. Uitgebreide experimenten tonen aan dat Motion Anything state-of-the-art methoden overtreft op meerdere benchmarks, met een verbetering van 15% in FID op HumanML3D en consistente prestatieverbeteringen op AIST++ en TMD. Zie onze projectwebsite https://steve-zeyu-zhang.github.io/MotionAnything.
Het efficiënt verwerven van externe kennis en actuele informatie is essentieel voor effectief redeneren en tekstgeneratie in grote taalmodellen (LLM's). Retrieval-augmentatie en tool-use trainingsbenaderingen, waarbij een zoekmachine als een tool wordt behandeld, missen complexe flexibiliteit voor meerdaagse retrieval of vereisen grootschalige begeleide data. Het aansturen van geavanceerde LLM's met redeneervaardigheden tijdens inferentie om zoekmachines te gebruiken is niet optimaal, omdat het LLM niet leert hoe het optimaal kan interacteren met de zoekmachine. Dit artikel introduceert Search-R1, een uitbreiding van het DeepSeek-R1 model waarbij het LLM – uitsluitend door middel van reinforcement learning (RL) – leert om autonoom (meerdere) zoekopdrachten te genereren tijdens stapsgewijs redeneren met real-time retrieval. Search-R1 optimaliseert LLM-rollouts met meerdaagse zoekinteracties, waarbij gebruik wordt gemaakt van retrieved token masking voor stabiele RL-training en een eenvoudige outcome-based beloningsfunctie. Experimenten op zeven vraag-antwoord datasets laten zien dat Search-R1 de prestaties verbetert met 26% (Qwen2.5-7B), 21% (Qwen2.5-3B), en 10% (LLaMA3.2-3B) ten opzichte van SOTA-baselines. Dit artikel biedt verder empirische inzichten in RL-optimalisatiemethoden, LLM-keuzes en dynamiek van responslengte in retrieval-augmented redeneren. De code en modelcheckpoints zijn beschikbaar op https://github.com/PeterGriffinJin/Search-R1.
We introduceren Reangle-A-Video, een uniform raamwerk voor het genereren van gesynchroniseerde multi-view video's vanuit een enkele invoervideo. In tegenstelling tot mainstream benaderingen die multi-view videodiffusiemodellen trainen op grootschalige 4D-datasets, herformuleert onze methode de taak van multi-view videogeneratie als video-naar-video's vertaling, waarbij gebruik wordt gemaakt van publiek beschikbare beeld- en videodiffusiepriors. In essentie werkt Reangle-A-Video in twee fasen. (1) Multi-View Bewegingsleren: Een beeld-naar-video diffusietransformer wordt synchroon fijn afgestemd op een zelfgesuperviseerde manier om view-invariante beweging te destilleren uit een set vervormde video's. (2) Multi-View Consistente Beeld-naar-Beeld Vertaling: Het eerste frame van de invoervideo wordt vervormd en ingevuld in verschillende cameraperspectieven onder een inferentie-tijd cross-view consistentiebegeleiding met behulp van DUSt3R, waardoor multi-view consistente startbeelden worden gegenereerd. Uitgebreide experimenten op statische view-transport en dynamische camerabesturing tonen aan dat Reangle-A-Video bestaande methoden overtreft, en een nieuwe oplossing biedt voor multi-view videogeneratie. We zullen onze code en data openbaar beschikbaar stellen. Projectpagina: https://hyeonho99.github.io/reangle-a-video/
Reinforcement learning met verifieerbare uitkomstbeloningen (RLVR) heeft effectief de keten-van-gedachten (CoT) redenering in grote taalmodelen (LLMs) opgeschaald. Echter, de effectiviteit ervan bij het trainen van visie-taalmodel (VLM) agents voor doelgericht actieredeneren in visuele omgevingen is minder goed vastgesteld. Dit onderzoek behandelt dit probleem door middel van uitgebreide experimenten met complexe kaartspellen, zoals 24 punten, en belichaamde taken uit ALFWorld. We ontdekken dat wanneer beloningen uitsluitend gebaseerd zijn op actie-uitkomsten, RL er niet in slaagt om CoT redenering in VLMs te stimuleren, wat leidt tot een fenomeen dat we gedachte-inzakking noemen, gekenmerkt door een snel verlies van diversiteit in de gedachten van de agent, staat-irrelevante en onvolledige redenering, en daaropvolgende ongeldige acties, resulterend in negatieve beloningen. Om gedachte-inzakking tegen te gaan, benadrukken we de noodzaak van procesbegeleiding en stellen we een geautomatiseerde corrector voor die de redenering van de agent bij elke RL-stap evalueert en verfijnt. Dit eenvoudige en schaalbare GTR (Guided Thought Reinforcement) framework traint redenering en actie gelijktijdig zonder de behoefte aan dichte, per-stap menselijke labeling. Onze experimenten tonen aan dat GTR de prestaties en generalisatie van het LLaVA-7b model aanzienlijk verbetert in diverse visuele omgevingen, met 3-5 keer hogere taaksuccespercentages vergeleken met state-of-the-art modellen met aanzienlijk kleinere modelgroottes.
Retrieval-augmented generation (RAG) voorziet grote taalmodellen (LLMs) van relevante documenten. Hoewel eerdere studies opmerkten dat het ophalen van veel documenten de prestaties kan verslechteren, isoleerden zij niet hoe de hoeveelheid documenten de prestaties beïnvloedt terwijl de contextlengte constant werd gehouden. Wij evalueren verschillende taalmodellen op aangepaste datasets afgeleid van een multi-hop QA-taak. We houden de contextlengte en de positie van relevante informatie constant terwijl we het aantal documenten variëren, en ontdekken dat het verhogen van het aantal documenten in RAG-instellingen aanzienlijke uitdagingen vormt voor LLMs. Daarnaast geven onze resultaten aan dat het verwerken van meerdere documenten een aparte uitdaging is in vergelijking met het omgaan met lange contexten. We maken ook de datasets en code beschikbaar: https://github.com/shaharl6000/MoreDocsSameLen.
Score Distillation Sampling (SDS) is naar voren gekomen als een effectieve techniek voor het benutten van 2D diffusie-priors voor taken zoals tekst-naar-3D-generatie. Hoewel krachtig, heeft SDS moeite met het bereiken van fijnmazige afstemming op de bedoeling van de gebruiker. Om dit te overwinnen, introduceren we RewardSDS, een nieuwe aanpak die ruisvoorbeelden weegt op basis van afstemmingsscores van een beloningsmodel, wat resulteert in een gewogen SDS-verlies. Dit verlies geeft prioriteit aan gradienten van ruisvoorbeelden die uitgelijnde, hoogbeloonde output opleveren. Onze aanpak is breed toepasbaar en kan SDS-gebaseerde methoden uitbreiden. In het bijzonder demonstreren we de toepasbaarheid ervan op Variational Score Distillation (VSD) door RewardVSD te introduceren. We evalueren RewardSDS en RewardVSD op taken zoals tekst-naar-beeld, 2D-bewerking en tekst-naar-3D-generatie, en laten significante verbeteringen zien ten opzichte van SDS en VSD op een diverse set van metrieken die de generatiekwaliteit en afstemming op gewenste beloningsmodellen meten, wat state-of-the-art prestaties mogelijk maakt. De projectpagina is beschikbaar op https://itaychachy.github.io/reward-sds/.
Hoewel grote taalmmodellen (LLMs) opmerkelijke prestaties hebben behaald bij diverse taken, blijven ze gevoelig voor fouten. Een belangrijke uitdaging is het mogelijk maken van zelfcorrectie. Waar eerder onderzoek vertrouwde op externe tools of grote propriëtaire modellen, verkent dit werk zelfcorrectie in kleine taalmmodellen (SLMs) door middel van iteratieve fine-tuning met uitsluitend zelf gegenereerde data. We introduceren het Self-Taught Self-Correction (STaSC) algoritme, dat meerdere algoritmische ontwerpkeuzes omvat. Experimentele resultaten op een vraag-antwoordtaak tonen aan dat STaSC effectief zelfcorrectie leert, wat leidt tot aanzienlijke prestatieverbeteringen. Onze analyse biedt verder inzicht in de mechanismen van zelfcorrectie en de impact van verschillende ontwerpkeuzes op de leer dynamiek en de algehele prestaties. Om toekomstig onderzoek te ondersteunen, maken we onze gebruiksvriendelijke codebase en lichtgewicht modellen beschikbaar.
Recente LLM's hebben opmerkelijke successen geboekt in het opvolgen van gebruikersinstructies, maar het omgaan met instructies met meerdere beperkingen blijft een aanzienlijke uitdaging. In dit werk introduceren we WildIFEval - een grootschalige dataset van 12K echte gebruikersinstructies met diverse, multi-beperkende voorwaarden. In tegenstelling tot eerdere datasets beslaat onze collectie een breed lexicaal en thematisch spectrum van beperkingen, in natuurlijke gebruikersprompts. We categoriseren deze beperkingen in acht hoogwaardige klassen om hun verdeling en dynamiek in realistische scenario's vast te leggen. Door gebruik te maken van WildIFEval, voeren we uitgebreide experimenten uit om de instructie-opvolgingscapaciteiten van toonaangevende LLM's te benchmarken. Onze bevindingen tonen aan dat alle geëvalueerde modellen prestatieverlies ervaren bij een toenemend aantal beperkingen. Hiermee laten we zien dat alle modellen nog aanzienlijke verbeteringsmogelijkheden hebben voor dergelijke taken. Bovendien observeren we dat het specifieke type beperking een cruciale rol speelt in de modelprestaties. We publiceren onze dataset om verder onderzoek te bevorderen naar instructie-opvolging onder complexe, realistische omstandigheden.
Menselijke dagelijkse activiteiten kunnen beknopt worden beschreven als reeksen van routinegebeurtenissen (bijvoorbeeld het uitzetten van een wekker) in videostreams, wat een gebeurtenisvocabulaire vormt. Geïnspireerd door dit idee introduceren we VLog, een nieuw videobegripskader dat videobeschrijvingen definieert als vocabulaire, wat verder gaat dan de typische subwoordvocabulaires in bestaande generatieve video-taalmodellen. Gebouwd op het lichtgewicht taalmodel GPT-2, biedt VLog drie belangrijke innovaties: (i) Een generatief retrievalsysteem, dat de complexe redeneercapaciteiten van taalmodel combineert met de efficiënte gelijkeniszoektocht van contrastief retrieval. (ii) Een hiërarchisch vocabulaire afgeleid van grootschalige videobeschrijvingen met behulp van ons algoritme voor het coderen van beschrijvingsparen, waardoor efficiënte indexering van specifieke gebeurtenissen (bijvoorbeeld het snijden van een tomaat) mogelijk wordt door bredere scenario's (bijvoorbeeld de keuken) te identificeren met expressieve postfixen (bijvoorbeeld met de linkerhand). (iii) Een vocabulaire-updatestrategie die gebruikmaakt van generatieve modellen om het vocabulaire uit te breiden voor nieuwe gebeurtenissen die tijdens de inferentie worden tegengekomen. Om onze aanpak te valideren, introduceren we VidCap-Eval, een ontwikkelingsset die beknopte beschrijvingen vereist met redeneerrelaties (bijvoorbeeld voor en na). Experimenten op EgoSchema, COIN en HiREST demonstreren verder de effectiviteit van VLog, waarbij het vermogen wordt benadrukt om beknopte, contextueel accurate en efficiënte beschrijvingen te genereren, wat een nieuw perspectief biedt op videobegrip. De code is vrijgegeven op https://github.com/showlab/VLog.
Grote Taalmodellen (LLMs) hebben een indrukwekkend vermogen getoond in codegeneratie en, specifiek, in het automatisch implementeren van vereisten die in natuurlijke taal zijn beschreven. De effectiviteit van een LLM neemt over het algemeen toe met zijn grootte: hoe meer trainbare parameters een LLM heeft, hoe beter zijn vermogen om code te implementeren. Echter, bij het inzetten van LLM-gebaseerde codegeneratoren, vormen grotere LLMs aanzienlijke uitdagingen met betrekking tot hun geheugen- (en daarmee ook koolstof-)voetafdruk. Eerder werk van Wei et al. stelde voor om kwantisatietechnieken te benutten om de geheugenvoetafdruk van LLM-gebaseerde codegeneratoren te verkleinen zonder hun effectiviteit substantieel te verminderen. Kort gezegd bestudeerden zij LLMs met tot 16B parameters, waarbij ze de precisie kwantiseerden van 32-bits floating point naar 8-bits integers en lieten zien dat dit slechts een beperkte impact had op de codegeneratieprestaties. Gezien het snelle tempo waarin de mogelijkheden van LLMs en kwantisatietechnieken evolueren, presenteren wij in dit werk een gedifferentieerde replicatie van het werk van Wei et al., waarin we (i) aan de ene kant recentere en grotere codegerelateerde LLMs beschouwen, met tot 34B parameters; (ii) de nieuwste ontwikkelingen in modelkwantisatietechnieken, die het mogelijk maken om de compressie te pushen naar het extreme kwantisatieniveau van 2 bits per modelparameter; en (iii) verschillende soorten kalibratiedatasets om het kwantisatieproces te begeleiden, inclusief code-specifieke datasets. Onze empirische evaluatie onthult dat de nieuwe grens voor LLM-kwantisatie 4-bits precisie is, wat resulteert in een gemiddelde vermindering van de geheugenvoetafdruk van 70% vergeleken met het originele model, zonder enige significante prestatievermindering waar te nemen. Daarnaast, wanneer de kwantisatie nog extremer wordt (3 en 2 bits), helpt een code-specifieke kalibratiedataset om het prestatieverlies te beperken.
De beeld-naar-beeld vertaalcapaciteiten van generatieve leermodellen hebben recentelijk aanzienlijke vooruitgang geboekt in het schatten van complexe (gestuurde) afbeeldingen tussen beeldverdelingen. Hoewel op uiterlijk gebaseerde taken zoals beeldinpaint of stijloverdracht uitgebreid zijn bestudeerd, stellen wij voor om het potentieel van generatieve modellen te onderzoeken in de context van fysische simulaties. Door een dataset van 300k beeldparen en basislijnevaluaties voor drie verschillende fysische simulatietaken te bieden, stellen wij een benchmark voor om de volgende onderzoeksvragen te onderzoeken: i) zijn generatieve modellen in staat om complexe fysische relaties te leren van invoer-uitvoer beeldparen? ii) welke snelheidswinsten kunnen worden behaald door differentiaalvergelijking gebaseerde simulaties te vervangen? Hoewel basislijnevaluaties van verschillende huidige modellen het potentieel voor hoge snelheidswinsten (ii) laten zien, tonen deze resultaten ook sterke beperkingen ten aanzien van de fysische correctheid (i). Dit benadrukt de noodzaak voor nieuwe methoden om fysische correctheid af te dwingen. Data, basislijmodellen en evaluatiecode zijn beschikbaar op http://www.physics-gen.org.
Efficiënt visueel-taalkundig begrip van grote Remote Sensing Images (RSI's) is betekenisvol maar uitdagend. Huidige Large Vision-Language Models (LVLM's) gebruiken typisch beperkte vooraf gedefinieerde roosters om afbeeldingen te verwerken, wat leidt tot informatieverlies bij het omgaan met gigapixel RSI's. Omgekeerd verhoogt het gebruik van onbeperkte roosters de rekenkosten aanzienlijk. Om beelddetails te behouden terwijl de rekencomplexiteit wordt verminderd, stellen we een tekstgeleide token pruning-methode voor met integratie van Dynamic Image Pyramid (DIP). Onze methode introduceert: (i) een Region Focus Module (RFM) dat gebruikmaakt van tekstbewuste regiolokalisatie om kritieke visuele tokens te identificeren, en (ii) een grof-naar-fijn beeldtegelselectie en visuele token pruning-strategie gebaseerd op DIP, die wordt geleid door RFM-uitvoer en vermijdt om de volledige grote afbeelding direct te verwerken. Daarnaast lijden bestaande benchmarks voor het evalueren van het perceptievermogen van LVLM's op grote RSI's onder beperkte vraagdiversiteit en beperkte afbeeldingsgroottes. We construeren een nieuwe benchmark genaamd LRS-VQA, die 7.333 vraag-antwoordparen bevat over 8 categorieën, met een beeldlengte tot 27.328 pixels. Onze methode presteert beter dan bestaande hoogresolutiestrategieën op vier datasets met dezelfde data. Bovendien toont onze aanpak, vergeleken met bestaande tokenreductiemethoden, hogere efficiëntie onder hoogresolutie-instellingen. Dataset en code zijn beschikbaar op https://github.com/VisionXLab/LRS-VQA.
Large Action Models (LAMs) hebben intelligente automatisering gerevolutioneerd, maar hun toepassing in de gezondheidszorg wordt geconfronteerd met uitdagingen vanwege privacyzorgen, latentie en afhankelijkheid van internettoegang. Dit rapport introduceert een ondevice, multi-agent gezondheidsassistent die deze beperkingen overwint. Het systeem maakt gebruik van kleinere, taakspecifieke agents om middelen te optimaliseren, schaalbaarheid en hoge prestaties te waarborgen. Ons voorgestelde systeem fungeert als een alles-in-één oplossing voor gezondheidszorgbehoeften met functies zoals afspraken plannen, gezondheidsmonitoring, medicijnherinneringen en dagelijkse gezondheidsrapportage. Aangedreven door het Qwen Code Instruct 2.5 7B-model, behalen de Planner en Caller Agents een gemiddelde RougeL-score van 85,5 voor planning en 96,5 voor het uitvoeren van taken, terwijl ze lichtgewicht zijn voor ondevice-implementatie. Deze innovatieve aanpak combineert de voordelen van ondevice-systemen met multi-agent-architecturen, wat de weg vrijmaakt voor gebruikersgerichte gezondheidszorgoplossingen.
Latent Diffusion Models (LDMs) staan bekend om hun onstabiele generatieproces, waarbij zelfs kleine verstoringen of verschuivingen in de invoerruis kunnen leiden tot aanzienlijk verschillende uitvoeren. Dit belemmert hun toepasbaarheid in situaties waar consistente resultaten vereist zijn. In dit werk herontwerpen we LDMs om de consistentie te verbeteren door ze shift-equivariant te maken. Hoewel het introduceren van anti-aliasingbewerkingen de shift-equivariantie gedeeltelijk kan verbeteren, blijven aanzienlijke aliasing en inconsistentie bestaan vanwege de unieke uitdagingen in LDMs, waaronder 1) aliasingversterking tijdens VAE-training en meerdere U-Net-inferenties, en 2) self-attentionmodules die van nature geen shift-equivariantie bezitten. Om deze problemen aan te pakken, herontwerpen we de attentionmodules om shift-equivariant te zijn en introduceren we een equivariantieverlies dat effectief de frequentiebandbreedte van de features in het continue domein onderdrukt. De resulterende alias-vrije LDM (AF-LDM) bereikt een sterke shift-equivariantie en is ook robuust tegen onregelmatige vervormingen. Uitgebreide experimenten tonen aan dat AF-LDM aanzienlijk consistentere resultaten oplevert dan de standaard LDM in diverse toepassingen, waaronder videobewerking en beeld-naar-beeldvertaling. Code is beschikbaar op: https://github.com/SingleZombie/AFLDM.
Het ontwikkelen van effectieve en efficiënte Transformer-gebaseerde grote taalmodelen (LLM's) is recentelijk een onderzoeksfocus geworden, waarbij het maximaliseren van de taalvaardigheden van het model en het minimaliseren van de trainings- en implementatiekosten centraal staan. Bestaande inspanningen hebben voornamelijk complexe relaties beschreven tussen modelprestaties, parametergrootte en datagrootte, en hebben gezocht naar de optimale compute-toewijzing voor het trainen van LLM's. Ze hebben echter de invloed van contextlengte en de configuratie van aandachtskoppen (het aantal query- en key-value koppen in grouped-query attention) op training en inferentie over het hoofd gezien. In dit artikel vergelijken we systematisch modellen met verschillende parametergroottes, contextlengtes en aandachtskopconfiguraties wat betreft modelprestaties, rekenkosten en geheugenkosten. Vervolgens breiden we de bestaande schaalingsmethoden, die uitsluitend gebaseerd zijn op parametergrootte en trainingscompute, uit om de constructie van kost-optimale LLM's tijdens zowel training als inferentie te begeleiden. Onze kwantitatieve schaalingsstudies tonen aan dat, bij het verwerken van voldoende lange sequenties, een groter model met minder aandachtskoppen een lager verlies kan bereiken terwijl het lagere reken- en geheugenkosten met zich meebrengt. Onze bevindingen bieden waardevolle inzichten voor de ontwikkeling van praktische LLM's, vooral in scenario's met lange-contextverwerking. We zullen onze code en data openbaar beschikbaar stellen.
Retrieval-Augmented Generation (RAG), hoewel het een waardevolle aanvulling vormt op grote taalmodelen (LLMs), negeert vaak het cruciale aspect van tekstsegmentering binnen zijn pijplijn. Dit artikel introduceert eerst een dubbele-metric evaluatiemethode, bestaande uit Boundary Clarity en Chunk Stickiness, om de directe kwantificering van segmenteringskwaliteit mogelijk te maken. Door gebruik te maken van deze beoordelingsmethode, benadrukken we de inherente beperkingen van traditionele en semantische segmentering bij het omgaan met complexe contextuele nuances, waardoor de noodzaak van het integreren van LLMs in het segmenteringsproces wordt onderbouwd. Om het inherente compromis tussen computationele efficiëntie en segmenteringsprecisie in LLM-gebaseerde benaderingen aan te pakken, ontwikkelen we het granulariteitsbewuste Mixture-of-Chunkers (MoC) framework, dat bestaat uit een drietraps verwerkingsmechanisme. Opmerkelijk is dat ons doel is om de segmenteringsmodule te begeleiden bij het genereren van een gestructureerde lijst van segmenteringsreguliere expressies, die vervolgens worden gebruikt om segmenten uit de originele tekst te extraheren. Uitgebreide experimenten tonen aan dat zowel onze voorgestelde metrics als het MoC-framework effectief de uitdagingen van de segmenteringstaak aanpakken, de segmenteringskern blootleggen en tegelijkertijd de prestaties van het RAG-systeem verbeteren.
Voorgetrainde taalmodellen (PLMs) hebben wetenschappelijk onderzoek revolutionair veranderd, maar hun toepassing op single-cell analyse blijft beperkt. Tekst-PLMs kunnen geen single-cell RNA-sequencinggegevens verwerken, terwijl cel-PLMs niet in staat zijn om vrije tekst te hanteren, wat hun gebruik in multimodale taken beperkt. Bestaande inspanningen om deze modaliteiten te overbruggen, lijden vaak onder informatieverlies of onvoldoende voorafgaande training van één modaliteit, wat leidt tot suboptimale prestaties. Om deze uitdagingen aan te pakken, stellen we het Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT) voor, een geïntegreerd PLM voor gezamenlijke cel- en tekstmodellering. scMMGPT integreert effectief de state-of-the-art cel- en tekst-PLMs, waardoor kruismodale kennisuitwisseling wordt gefaciliteerd voor verbeterde prestaties. Om de kloof tussen tekst- en celmodaliteiten te overbruggen, maakt scMMGPT gebruik van toegewijde kruismodale projectoren en ondergaat het uitgebreide voorafgaande training op 27 miljoen cellen – de grootste dataset voor multimodale cel-tekst-PLMs tot nu toe. Deze grootschalige voorafgaande training stelt scMMGPT in staat om uit te blinken in gezamenlijke cel-teksttaken, met een relatieve verbetering van 84% in tekstuele discrepantie voor celbeschrijvingsgeneratie, 20,5% hogere nauwkeurigheid voor celtypeannotatie en een verbetering van 4% in k-NN-nauwkeurigheid voor tekst-geconditioneerde pseudo-celgeneratie, waarmee het de baseline-methoden overtreft.
Video Question Answering (VQA) in lange video's vormt de belangrijkste uitdaging van het extraheren van relevante informatie en het modelleren van langetermijnafhankelijkheden uit vele redundante frames. Het self-attention-mechanisme biedt een algemene oplossing voor sequentiemodellering, maar het heeft een verbijsterende kostprijs wanneer het wordt toegepast op een enorm aantal spatiotemporele tokens in lange video's. De meeste eerdere methoden vertrouwen op compressiestrategieën om de rekenkosten te verlagen, zoals het verminderen van de invoerlengte via sparse frame sampling of het comprimeren van de uitvoerreeks die wordt doorgegeven aan het grote taalmodel (LLM) via ruimte-tijd pooling. Deze naïeve benaderingen overrepresenteren echter redundante informatie en missen vaak opvallende gebeurtenissen of snel optredende ruimte-tijdpatronen. In dit werk introduceren we BIMBA, een efficiënt state-space-model om lange video's te verwerken. Ons model maakt gebruik van het selectieve scan-algoritme om kritieke informatie effectief te selecteren uit hoogdimensionale video's en deze om te zetten in een gereduceerde tokenreeks voor efficiënte LLM-verwerking. Uitgebreide experimenten tonen aan dat BIMBA state-of-the-art nauwkeurigheid bereikt op meerdere lange VQA-benchmarks, waaronder PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench en Video-MME. Code en modellen zijn openbaar beschikbaar op https://sites.google.com/view/bimba-mllm.
Random Sample Consensus (RANSAC) is een fundamentele benadering voor het robuust schatten van parametrische modellen uit ruisachtige data. Bestaande op leren gebaseerde RANSAC-methoden gebruiken deep learning om de robuustheid van RANSAC tegen uitschieters te verbeteren. Deze methoden worden echter getraind en getest op data die gegenereerd zijn door dezelfde algoritmen, wat leidt tot beperkte generalisatie naar out-of-distribution data tijdens inferentie. Daarom introduceren we in dit artikel een nieuw op diffusie gebaseerd paradigma dat geleidelijk ruis injecteert in grondwaarheid-data, waardoor de ruisachtige omstandigheden voor het trainen van op leren gebaseerde RANSAC worden gesimuleerd. Om de diversiteit van de data te vergroten, integreren we Monte Carlo-steekproeven in het diffusieparadigma, waarbij diverse dataverdelingen worden benaderd door verschillende soorten willekeur op meerdere niveaus in te voeren. We evalueren onze aanpak in de context van feature matching door middel van uitgebreide experimenten op de ScanNet- en MegaDepth-datasets. De experimentele resultaten tonen aan dat ons Monte Carlo-diffusiemechanisme de generalisatiecapaciteit van op leren gebaseerde RANSAC aanzienlijk verbetert. We ontwikkelen ook uitgebreide ablatiestudies die de effectiviteit van de belangrijkste componenten in ons framework benadrukken.
Machine Learning Force Fields (MLFFs) vormen een veelbelovend alternatief voor kostbare ab initio kwantummechanische moleculaire simulaties. Gezien de diversiteit van chemische ruimtes die van belang zijn en de kosten van het genereren van nieuwe data, is het belangrijk om te begrijpen hoe MLFFs generaliseren buiten hun trainingsdistributies. Om distributieverschuivingen in MLFFs te karakteriseren en beter te begrijpen, voeren we diagnostische experimenten uit op chemische datasets, waarbij we veelvoorkomende verschuivingen blootleggen die aanzienlijke uitdagingen vormen, zelfs voor grote foundationmodellen die getraind zijn op uitgebreide data. Op basis van deze observaties stellen we de hypothese op dat huidige supervised trainingsmethoden MLFFs onvoldoende regulariseren, wat leidt tot overfitting en het aanleren van slechte representaties van out-of-distributie systemen. Vervolgens stellen we twee nieuwe methoden voor als eerste stappen om distributieverschuivingen voor MLFFs te mitigeren. Onze methoden richten zich op test-time verfijningsstrategieën die minimale rekenkosten met zich meebrengen en geen gebruik maken van dure ab initio referentielabels. De eerste strategie, gebaseerd op spectrale grafentheorie, past de randen van testgrafieken aan om deze af te stemmen op grafstructuren die tijdens de training zijn gezien. Onze tweede strategie verbetert representaties voor out-of-distributie systemen tijdens test-time door gradientstappen te nemen met behulp van een hulpdoel, zoals een goedkope fysische prior. Onze test-time verfijningsstrategieën verminderen de fouten op out-of-distributie systemen aanzienlijk, wat suggereert dat MLFFs in staat zijn om diverse chemische ruimtes te modelleren en hiernaar kunnen evolueren, maar dat ze niet effectief worden getraind om dit te doen. Onze experimenten stellen duidelijke benchmarks vast voor het evalueren van de generalisatiecapaciteiten van de volgende generatie MLFFs. Onze code is beschikbaar op https://tkreiman.github.io/projects/mlff_distribution_shifts/.