AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Het trainen van grote taalmodellen om te redeneren in een continue latente ruimte
Training Large Language Models to Reason in a Continuous Latent Space

Dec 9

ByShibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian

Grote taalmodellen (LLM's) zijn beperkt tot redeneren in de "taalruimte", waar ze doorgaans het redeneerproces uitdrukken met een keten van gedachten (CoT) om een complex redeneerprobleem op te lossen. We betogen echter dat de taalruimte niet altijd optimaal is voor redeneren. Zo zijn de meeste woordtokens voornamelijk voor tekstuele samenhang en niet essentieel voor redeneren, terwijl sommige kritieke tokens complexe planning vereisen en enorme uitdagingen vormen voor LLM's. Om het potentieel van LLM-redeneren te verkennen in een onbeperkte latente ruimte in plaats van natuurlijke taal te gebruiken, introduceren we een nieuw paradigma Coconut (Keten van Continue Gedachte). We gebruiken de laatste verborgen toestand van de LLM als een representatie van de redeneertoestand (genaamd "continue gedachte"). In plaats van dit te decoderen tot een woordtoken, voeren we het direct terug naar de LLM als de daaropvolgende invoer-embedding in de continue ruimte. Experimenten tonen aan dat Coconut effectief de LLM kan versterken bij verschillende redeneertaken. Dit nieuwe latente redeneerparadigma leidt tot opkomende geavanceerde redeneerpatronen: de continue gedachte kan meerdere alternatieve volgende redeneerstappen coderen, waardoor het model een breedte-eerst zoeken (BFS) kan uitvoeren om het probleem op te lossen, in plaats van zich vroegtijdig te committeren aan een enkel deterministisch pad zoals CoT. Coconut presteert beter dan CoT bij bepaalde logische redeneertaken die aanzienlijke terugtracking vereisen tijdens de planning, met minder denktokens tijdens inferentie. Deze bevindingen tonen de belofte van latente redenering en bieden waardevolle inzichten voor toekomstig onderzoek.

ProcessBench: Het identificeren van procesfouten in wiskundig redeneren
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Dec 9

ByChujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin

Aangezien taalmodellen regelmatig fouten maken bij het oplossen van wiskundige problemen, wordt geautomatiseerde identificatie van fouten in het redeneerproces steeds belangrijker voor hun schaalbare toezicht. In dit artikel introduceren we ProcessBench om de vaardigheid te meten om foutieve stappen in wiskundig redeneren te identificeren. Het bestaat uit 3.400 testgevallen, voornamelijk gericht op wiskundige problemen op competitie- en Olympisch niveau. Elk testgeval bevat een stapsgewijze oplossing met de locatie van de fout geannoteerd door menselijke experts. Modellen moeten de vroegste stap identificeren die een fout bevat, of concluderen dat alle stappen correct zijn. We voeren uitgebreide evaluaties uit op ProcessBench, waarbij twee soorten modellen betrokken zijn: procesbeloningsmodellen (PRM's) en criticusmodellen, waarbij we voor de laatste algemene taalmodellen vragen om elke oplossingsstap kritisch te bekijken. We trekken twee belangrijke observaties: (1) Bestaande PRM's falen doorgaans om te generaliseren naar uitdagendere wiskundige problemen dan GSM8K en MATH. Ze presteren minder dan criticusmodellen (d.w.z. door algemene taalmodellen gevraagd) en onze eigen getrainde PRM die eenvoudig is afgestemd op de PRM800K-dataset. (2) Het beste open-source model, QwQ-32B-Preview, heeft de kritiekcapaciteit aangetoond die concurrerend is met het eigen model GPT-4o, hoewel het nog steeds achterloopt op de op redenering gespecialiseerde o1-mini. We hopen dat ProcessBench toekomstig onderzoek naar de beoordeling van redeneerprocessen kan bevorderen, waardoor de weg wordt vrijgemaakt naar schaalbaar toezicht op taalmodellen.

Het Ontwarren van de Complexiteit van Geheugen in RL-Agenten: een Benadering voor Classificatie en Evaluatie
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Dec 9

ByEgor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov

De integratie van geheugen in agenten is essentieel voor tal van taken binnen het domein van Reinforcement Learning (RL). Met name voor taken die het gebruik van eerdere informatie vereisen, aanpassing aan nieuwe omgevingen en verbeterde steekproefeffectiviteit is geheugen van cruciaal belang. Echter, de term "geheugen" omvat een breed scala aan concepten, wat, samen met het ontbreken van een eenduidige methodologie voor het valideren van het geheugen van een agent, leidt tot onjuiste oordelen over de geheugencapaciteiten van agenten en voorkomt objectieve vergelijking met andere geheugenverbeterde agenten. Dit artikel heeft tot doel het concept van geheugen in RL te stroomlijnen door praktische en nauwkeurige definities te geven van agentgeheugentypen, zoals langetermijn- versus kortetermijngeheugen en declaratief versus procedureel geheugen, geïnspireerd door cognitieve wetenschap. Met behulp van deze definities categoriseren we verschillende klassen van agentgeheugen, stellen we een robuuste experimentele methodologie voor om de geheugencapaciteiten van RL-agenten te evalueren, en standaardiseren we evaluaties. Bovendien tonen we empirisch het belang aan van het naleven van de voorgestelde methodologie bij het evalueren van verschillende soorten agentgeheugen door experimenten uit te voeren met verschillende RL-agenten en wat de schending ervan tot gevolg heeft.

Maya: Een instructie gefinetuned meertalig multimodaal model
Maya: An Instruction Finetuned Multilingual Multimodal Model

Dec 10

ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji

De snelle ontwikkeling van grote Vision-Language Modellen (VLM's) heeft geleid tot indrukwekkende resultaten op academische benchmarks, voornamelijk in veel gesproken talen. Er blijven echter aanzienlijke hiaten bestaan in het vermogen van huidige VLM's om om te gaan met talen met weinig bronnen en gevarieerde culturele contexten, grotendeels als gevolg van een gebrek aan hoogwaardige, diverse en veiligheid-gecontroleerde gegevens. Als gevolg hiervan hebben deze modellen vaak moeite om talen met weinig bronnen en culturele nuances te begrijpen op een manier die vrij is van toxiciteit. Om deze beperkingen aan te pakken, introduceren we Maya, een open-source Multimodaal Multilinguaal model. Onze bijdragen zijn drievoudig: 1) een multilinguale afbeelding-tekst pretraining dataset in acht talen, gebaseerd op de LLaVA pretraining dataset; 2) een grondige analyse van toxiciteit binnen de LLaVA dataset, gevolgd door de creatie van een nieuwe toxiciteitvrije versie in acht talen; en 3) een multilinguaal afbeelding-tekst model dat deze talen ondersteunt, waardoor cultureel en taalkundig begrip wordt verbeterd bij visie-taal taken. Code beschikbaar op https://github.com/nahidalam/maya.

Rond de Wereld in 80 Tijdstappen: Een Generatieve Benadering van Globale Visuele Geolocatie
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Dec 9

ByNicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu

Wereldwijde visuele geolocatie voorspelt waar een afbeelding op aarde is vastgelegd. Aangezien afbeeldingen variëren in hoe nauwkeurig ze kunnen worden gelokaliseerd, omvat deze taak inherent een aanzienlijke mate van ambiguïteit. Bestaande benaderingen zijn echter deterministisch en zien dit aspect over het hoofd. In dit artikel streven we ernaar om de kloof te dichten tussen traditionele geolocatie en moderne generatieve methoden. We stellen de eerste generatieve geolocatiebenadering voor op basis van diffusie en Riemanniaanse stroommatching, waarbij het denoisingproces rechtstreeks op het aardoppervlak werkt. Ons model behaalt state-of-the-art prestaties op drie visuele geolocatie-benchmarks: OpenStreetView-5M, YFCC-100M en iNat21. Bovendien introduceren we de taak van probabilistische visuele geolocatie, waarbij het model een kansverdeling voorspelt over alle mogelijke locaties in plaats van een enkel punt. We introduceren nieuwe metrieken en baselines voor deze taak, waarbij we de voordelen van onze op diffusie gebaseerde benadering aantonen. Codes en modellen zullen beschikbaar worden gesteld.

Divot: Diffusie Voedt Video Tokenizer voor Begrip en Generatie
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Dec 5

ByYuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan

In de afgelopen jaren is er een aanzienlijke toename van interesse geweest in het verenigen van beeldbegrip en -generatie binnen Grote Taalmodellen (LLM's). Deze groeiende interesse heeft ons aangespoord om deze vereniging uit te breiden naar video's. De kernuitdaging ligt in het ontwikkelen van een veelzijdige videotokenizer die zowel de ruimtelijke kenmerken als de temporele dynamiek van video's vastlegt om representaties voor LLM's te verkrijgen, en de representaties kunnen verder worden gedecodeerd tot realistische videoclips om videogeneratie mogelijk te maken. In dit werk introduceren we Divot, een Diffusie-Aangedreven VideoTokenizer, die gebruikmaakt van het diffusieproces voor zelfbegeleidende videorepresentatie-leren. We veronderstellen dat als een video-diffusiemodel videoclips effectief kan denoiseren door de kenmerken van een videotokenizer als de conditie te nemen, de tokenizer met succes robuuste ruimtelijke en temporele informatie heeft vastgelegd. Bovendien fungeert het video-diffusiemodel op intrinsieke wijze als een detokenizer, waarbij video's worden gedecodeerd uit hun representaties. Voortbouwend op de Divot-tokenizer presenteren we Divot-Vicuna via video-naar-tekst autoregressie en tekst-naar-video generatie door de distributies van continue Divot-kenmerken te modelleren met een Gaussische Mengmodel. Experimentele resultaten tonen aan dat onze diffusie-gebaseerde videotokenizer, wanneer geïntegreerd met een voorgeleerd LLM, concurrerende prestaties behaalt over verschillende video-begrip en -generatie benchmarks. De instructie afgestemde Divot-Vicuna blinkt ook uit in videoverhalen, waarbij geïnterlinieerde verhalen en bijbehorende video's worden gegenereerd.

Verkennen van Multi-Granulaire Conceptannotaties voor Multimodale Grote Taalmodellen
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Dec 8

ByXiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan

Multimodale Grote Taalmodellen (MLLM's) excelleren in visie-taal taken door alleen vooraf te trainen op grofkorrelige concept annotaties (bijv. afbeelding bijschriften). Wij veronderstellen dat het integreren van fijnkorrelige concept annotaties (bijv. object labels en object regio's) de prestaties verder zal verbeteren, aangezien beide gegevensgranulariteiten elkaar aanvullen wat betreft de breedte en diepte in concept representatie. Wij introduceren een nieuwe dataset met Multimodale Multi-Korrelige Concept annotaties (MMGiC) voor MLLM's. Bij het construeren van MMGiC onderzoeken we de impact van verschillende gegevensrecepten op multimodale begrip en generatie. Onze analyses tonen aan dat multi-korrelige concept annotaties elkaar integreren en aanvullen, binnen ons gestructureerde sjabloon en een algemeen MLLM kader. We verkennen en tonen duidelijk het potentieel van MMGiC om MLLM's te helpen bij het beter lokaliseren en leren van concepten, door visie en taal op meerdere granulariteiten op elkaar af te stemmen. We valideren onze hypothese verder door het onderzoeken van de eerlijke vergelijking en effectieve samenwerking tussen MMGiC en afbeelding-bijschrift gegevens op 12 multimodale begrips- en generatie benchmarks, bijv. hun juiste combinatie levert 3.95% en 2.34% absolute verbeteringen op ten opzichte van alleen afbeelding-bijschrift gegevens op POPE en SEED-Bench. Code, gegevens en modellen zullen beschikbaar zijn op https://github.com/LooperXX/MMGiC.

Afgeschermde Delta-netwerken: Verbetering van Mamba2 met de Delta-regel
Gated Delta Networks: Improving Mamba2 with Delta Rule

Dec 9

BySonglin Yang, Jan Kautz, Ali Hatamizadeh

Lineaire Transformers hebben aandacht gekregen als efficiënte alternatieven voor standaard Transformers, maar hun prestaties bij ophalen en taken met een lange context zijn beperkt gebleven. Om deze beperkingen aan te pakken, heeft recent onderzoek twee verschillende mechanismen verkend: gating voor adaptieve geheugenregeling en de delta-update regel voor nauwkeurige geheugenwijzigingen. We merken op dat deze mechanismen complementair zijn: gating maakt snelle geheugenwissing mogelijk terwijl de delta-regel gerichte updates vergemakkelijkt. Voortbouwend op deze inzichten introduceren we de gated delta-regel en ontwikkelen we een parallel trainingsalgoritme geoptimaliseerd voor moderne hardware. Onze voorgestelde architectuur, Gated DeltaNet, overtreft consequent bestaande modellen zoals Mamba2 en DeltaNet op meerdere benchmarks, waaronder taalmodellering, gezond verstand redeneren, in-context ophalen, lengte-extrapolatie en begrip van lange context. We verbeteren de prestaties verder door hybride architecturen te ontwikkelen die Gated DeltaNet-lagen combineren met aandacht met schuifvenster of Mamba2-lagen, waardoor zowel de trainings-efficiëntie als de taakprestaties worden verbeterd.

Je ziet het, je hebt het: Leren van 3D-creatie op pose-vrije video's op schaal
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Dec 9

ByBaorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang

Recente 3D-generatiemodellen vertrouwen doorgaans op beperkte schaal 3D 'goudlabels' of 2D-diffusiepriors voor 3D-contentcreatie. Hun prestaties worden echter beperkt door beperkte 3D-priors vanwege het ontbreken van schaalbare leermethoden. In dit werk presenteren we See3D, een visueel-conditioneel multi-view diffusiemodel dat is getraind op grootschalige internetvideo's voor open-wereld 3D-creatie. Het model streeft ernaar 3D-kennis te verkrijgen door enkel de visuele inhoud te zien van de uitgebreide en snelgroeiende videogegevens - Je ziet het, je hebt het. Om dit te bereiken, schalen we eerst de trainingsgegevens op met behulp van een voorgestelde gegevenscuratiepijplijn die automatisch inconsistente multi-view beelden en onvoldoende observaties uit bronvideo's filtert. Dit resulteert in een hoogwaardige, rijk gevarieerde, grootschalige dataset van multi-view beelden, genaamd WebVi3D, met 320 miljoen frames uit 16 miljoen videoclips. Desalniettemin is het leren van generieke 3D-priors uit video's zonder expliciete 3D-geometrie of camerapositieannotaties niet triviaal, en het annoteren van posities voor web-schaal video's is buitengewoon duur. Om de noodzaak van posities te elimineren, introduceren we een innovatieve visuele conditie - een puur 2D-inductief visueel signaal gegenereerd door tijdafhankelijk ruis toe te voegen aan de gemaskeerde videogegevens. Tot slot introduceren we een nieuw visueel-conditioneel 3D-generatiekader door See3D te integreren in een op warping gebaseerde pijplijn voor hoogwaardige 3D-generatie. Onze numerieke en visuele vergelijkingen op enkele en schaarse reconstructie-benchmarks tonen aan dat See3D, getraind op kosteneffectieve en schaalbare videogegevens, opmerkelijke zero-shot en open-wereld generatiecapaciteiten bereikt, aanzienlijk beter presterend dan modellen getraind op dure en beperkte 3D-datasets. Raadpleeg onze projectpagina op: https://vision.baai.ac.cn/see3d

OmniDocBench: Benchmarken van Diverse PDF-documentanalyse met Uitgebreide annotaties
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Dec 10

ByLinke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He

Het extraheren van documentinhoud is cruciaal in computer vision, vooral voor het voldoen aan de hoge kwaliteitsgegevensbehoeften van grote taalmodellen (LLM's) en technologieën voor opvraag-verrijkte generatie (RAG). Huidige methoden voor het analyseren van documenten kampen echter met aanzienlijke beperkingen op het gebied van diversiteit en uitgebreide evaluatie. Om deze uitdagingen aan te pakken, introduceren we OmniDocBench, een nieuw multi-source benchmark ontworpen om geautomatiseerde extractie van documentinhoud te bevorderen. OmniDocBench bevat een zorgvuldig samengestelde en geannoteerde dataset van hoge kwaliteit met negen diverse documenttypen, zoals academische papers, studieboeken, presentaties, en andere. Onze benchmark biedt een flexibel en uitgebreid evaluatiekader met 19 lay-outcategorieën en 14 attribuutlabels, waardoor multi-level beoordelingen mogelijk zijn over gehele datasets, individuele modules, of specifieke gegevenstypen. Met behulp van OmniDocBench voeren we een uitputtende vergelijkende analyse uit van bestaande modulaire pipelines en multimodale end-to-end methoden, waarbij hun beperkingen in het omgaan met documentdiversiteit worden benadrukt en een eerlijke evaluatie wordt gewaarborgd. OmniDocBench stelt een robuuste, diverse en eerlijke evaluatiestandaard vast voor het veld van documentinhoudsextractie, en biedt cruciale inzichten voor toekomstige ontwikkelingen en bevordert de ontwikkeling van technologieën voor het analyseren van documenten. De codes en dataset zijn beschikbaar op https://github.com/opendatalab/OmniDocBench.

MotionShop: Zero-Shot Bewegingsoverdracht in Video Diffusiemodellen met een Mix van Scorebegeleiding
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Dec 6

ByHidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag

In dit werk stellen we de eerste bewegingsoverdrachtsbenadering voor in diffusietransformator via Mixture of Score Guidance (MSG), een theoretisch gefundeerd kader voor bewegingsoverdracht in diffusiemodellen. Onze belangrijkste theoretische bijdrage ligt in het herformuleren van conditionele score om bewegingsscore en inhoudsscore te ontbinden in diffusiemodellen. Door bewegingsoverdracht te formuleren als een mengsel van potentiële energieën behoudt MSG op natuurlijke wijze scènecompositie en maakt het creatieve scènetransformaties mogelijk terwijl de integriteit van overgedragen bewegingspatronen wordt behouden. Deze nieuwe bemonstering werkt rechtstreeks op vooraf getrainde video-diffusiemodellen zonder extra training of fijnafstemming. Via uitgebreide experimenten toont MSG succesvolle behandeling van diverse scenario's, waaronder enkel object, meerdere objecten en kruisobjectbewegingsoverdracht, evenals complexe camerabewegingsoverdracht. Bovendien introduceren we MotionBench, de eerste dataset voor bewegingsoverdracht bestaande uit 200 bronvideo's en 1000 overgedragen bewegingen, die enkelvoudige/meervoudige objectoverdrachten en complexe camerabewegingen omvatten.

Wereldwijde en Dichte Embeddings van de Aarde: Major TOM zwevend in de Latente Ruimte
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Dec 7

ByMikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski

Met de voortdurend toenemende volumes aan aardobservatiegegevens in de archieven van grote programma's zoals Copernicus, groeit de behoefte aan efficiënte vectorrepresentaties van de onderliggende ruwe data. De benadering van het extraheren van kenmerkrepresentaties uit vooraf getrainde diepe neurale netwerken is een krachtige methode die semantische abstracties van de invoerdata kan bieden. Echter, de manier waarop dit wordt gedaan voor beeldarchieven met geospatiale data is nog niet gedefinieerd. In dit werk wordt een uitbreiding voorgesteld van een bestaand gemeenschapsproject, Major TOM, gericht op het verstrekken en standaardiseren van open en gratis AI-gereed datasets voor aardobservatie. Bovendien worden vier wereldwijde en dichte inbeddingsdatasets openlijk en gratis vrijgegeven samen met de publicatie van dit manuscript, resulterend in de meest uitgebreide wereldwijde open dataset van geospatiale visuele inbeddingen wat betreft het gedekte aardoppervlak.

MAtCha Gaussians: Atlas van Grafieken voor Hoogwaardige Meetkunde en Fotorealisme vanuit Schaarse Weergaven
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Dec 9

ByAntoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino

We presenteren een nieuw verschijningsmodel dat tegelijkertijd expliciete hoogwaardige 3D oppervlaktemesh reconstructie en fotorealistische synthese van nieuwe weergaven realiseert vanuit schaarse weergavemonsters. Ons belangrijkste idee is om de onderliggende scènegeometrie Mesh te modelleren als een Atlas van Kaarten die we renderen met 2D Gaussische surfels (MAtCha Gaussians). MAtCha destilleert hoogfrequente scène oppervlaktedetails uit een kant-en-klare monoculair diepteschatting en verfijnt dit door middel van Gaussische surfelrendering. De Gaussische surfels worden dynamisch aan de kaarten gekoppeld, waarbij wordt voldaan aan fotorealisme van neurale volumetrische rendering en scherpe geometrie van een meshmodel, oftewel twee ogenschijnlijk tegenstrijdige doelen in één model. In de kern van MAtCha ligt een nieuw neuronaal vervormingsmodel en een structuurverlies dat de fijne oppervlaktedetails behouden die zijn gedestilleerd uit geleerde monoculaire dieptes, terwijl hun fundamentele schaalambiguïteiten worden aangepakt. Resultaten van uitgebreide experimentele validatie tonen de state-of-the-art kwaliteit van oppervlakte reconstructie en fotorealisme van MAtCha aan, vergelijkbaar met topconcurrenten maar met een drastische vermindering van het aantal invoerweergaven en de benodigde rekentijd. We geloven dat MAtCha zal dienen als een fundamenteel instrument voor elke visuele toepassing in visie, grafische vormgeving en robotica die expliciete geometrie vereisen naast fotorealisme. Onze projectpagina is de volgende: https://anttwo.github.io/matcha/

CARP: Visuomotorbeleidsleren via grof-naar-fijne autoregressieve voorspelling
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Dec 9

ByZhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang

In het leren van robotische visuomotorbeleid hebben op diffusie gebaseerde modellen aanzienlijk succes geboekt bij het verbeteren van de nauwkeurigheid van actietrajectgeneratie in vergelijking met traditionele autoregressieve modellen. Ze kampen echter met inefficiëntie als gevolg van meerdere denoising-stappen en beperkte flexibiliteit door complexe beperkingen. In dit artikel introduceren we Coarse-to-Fine AutoRegressive Policy (CARP), een nieuw paradigma voor het leren van visuomotorbeleid dat het autoregressieve actiegeneratieproces opnieuw definieert als een grof-naar-fijn, volgende-schaalbenadering. CARP splitst actiegeneratie op in twee fasen: eerst leert een actie-auto-encoder multi-schaal representaties van de volledige actiesequentie; vervolgens verfijnt een transformer in GPT-stijl de sequentievoorspelling via een grof-naar-fijn autoregressief proces. Deze eenvoudige en intuïtieve benadering produceert zeer nauwkeurige en soepele acties, die overeenkomen met of zelfs de prestaties van op diffusie gebaseerde beleidslijnen overtreffen, terwijl de efficiëntie op het niveau blijft van autoregressieve beleidslijnen. We voeren uitgebreide evaluaties uit in diverse omgevingen, waaronder single-task en multi-task scenario's op op status gebaseerde en op afbeeldingen gebaseerde simulatiebenchmarks, evenals taken in de echte wereld. CARP behaalt concurrerende succespercentages, met een verbetering tot wel 10%, en levert 10x snellere inferentie in vergelijking met beleidslijnen van de laatste stand van zaken, waarbij een hoogwaardig, efficiënt en flexibel paradigma wordt vastgesteld voor actiegeneratie in robotische taken.

Robuuste multi-bit tekstwatermerk met LLM-gebaseerde parafrasehulpmiddelen.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Dec 4

ByXiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li

Wij stellen een onopvallend multi-bit tekstwatermerk voor dat wordt ingebed door parafraseren met LLM's. We finetunen een paar LLM-parafraseurs die zo zijn ontworpen dat ze zich verschillend gedragen, zodat het verschil in parafraseren dat wordt weerspiegeld in de tekstsemantiek kan worden geïdentificeerd door een getrainde decoder. Om ons multi-bit watermerk in te bedden, gebruiken we twee parafraseurs afwisselend om de vooraf gedefinieerde binaire code op zinsniveau te coderen. Vervolgens gebruiken we een tekstklassificeerder als decoder om elk bit van het watermerk te decoderen. Via uitgebreide experimenten tonen we aan dat onze watermerken meer dan 99,99\% detectie AUC kunnen bereiken met kleine (1,1B) tekstparafraseurs, terwijl de semantische informatie van de oorspronkelijke zin behouden blijft. Belangrijker nog is dat onze aanpak robuust is bij woordsubstitutie en zinsparafraseverstoringen en goed generaliseert naar out-of-distributionele gegevens. We tonen ook de onopvallendheid van ons watermerk met LLM-gebaseerde evaluatie. We stellen de code beschikbaar als open source: https://github.com/xiaojunxu/multi-bit-text-watermark.

Als je ze niet kunt gebruiken, recycleer ze dan: optimalisatie van samenvoeging op schaal vermindert prestatiecompromissen.
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Dec 5

ByMuhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé

Het samenvoegen van modellen heeft veelbelovende resultaten laten zien bij het combineren van expertmodellen, maar het voordeel van samenvoegen is onduidelijk bij het samenvoegen van "generalistische" modellen die zijn getraind op veel taken. We verkennen het samenvoegen in de context van grote (ongeveer 100 miljard) modellen door checkpoints te hergebruiken die compromissen vertonen tussen verschillende taken. Dergelijke checkpoints worden vaak gecreëerd in het proces van het ontwikkelen van een grensverleggend model, en veel suboptimale worden meestal verworpen. Gegeven een pool van modelcheckpoints verkregen uit verschillende trainingsruns (bijv. verschillende fasen, doelstellingen, hyperparameters en datamixen), die van nature compromissen laten zien tussen verschillende taalvaardigheden (bijv. instructieopvolging vs. codegeneratie), onderzoeken we of samenvoegen dergelijke suboptimale modellen kan hergebruiken tot een Pareto-optimaal model. Ons optimalisatiealgoritme stemt het gewicht van elk checkpoint af in een lineaire combinatie, resulterend in Pareto-optimale modellen die zowel individuele modellen als op samenvoeging gebaseerde baselines overtreffen. Verder onderzoek toont aan dat goede samenvoegingen meestal bijna alle checkpoints met niet-nul gewichten bevatten, wat aangeeft dat zelfs ogenschijnlijk slechte initiële checkpoints kunnen bijdragen aan goede uiteindelijke samenvoegingen.

Turbo3D: Ultrasnelle Tekst-naar-3D Generatie
Turbo3D: Ultra-fast Text-to-3D Generation

Dec 5

ByHanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang

Wij presenteren Turbo3D, een ultrasnel tekst-naar-3D-systeem dat in staat is om hoogwaardige Gaussian splatting-assets te genereren in minder dan één seconde. Turbo3D maakt gebruik van een snelle 4-stappen, 4-weergave diffusiegenerator en een efficiënte feedforward Gaussian-reconstructor, die beide opereren in latente ruimte. De 4-stappen, 4-weergave generator is een studentmodel gedistilleerd via een nieuw Dual-Teacher benadering, die de student aanmoedigt om weergaveconsistentie te leren van een multi-weergave leraar en fotorealisme van een enkele-weergave leraar. Door de invoer van de Gaussian reconstructor te verplaatsen van pixelruimte naar latente ruimte, elimineren we de extra beelddecoderingstijd en halveren we de lengte van de transformer-sequentie voor maximale efficiëntie. Onze methode toont superieure 3D-generatieresultaten in vergelijking met eerdere baselines, terwijl deze werkt in een fractie van hun looptijd.