Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Encoder-only transformermodellen zoals BERT bieden een uitstekende prestatie-grootteverhouding voor ophaal- en classificatietaken ten opzichte van grotere decoder-only modellen. Ondanks dat ze het werkpaard zijn van talrijke productiepijplijnen, zijn er sinds de release van BERT beperkte Pareto-verbeteringen geweest. In dit artikel introduceren we ModernBERT, waarbij moderne modeloptimalisaties worden toegepast op alleen-encodermodellen en die een belangrijke Pareto-verbetering vormen ten opzichte van oudere encoders. Getraind op 2 biljoen tokens met een oorspronkelijke sequentielengte van 8192, vertonen ModernBERT-modellen state-of-the-art resultaten op een groot aantal evaluaties die diverse classificatietaken omvatten, evenals zowel enkelvoudige als multi-vector ophaling in verschillende domeinen (inclusief code). Naast sterke prestaties in downstream, is ModernBERT ook de meest snelheids- en geheugenefficiënte encoder en is ontworpen voor inferentie op gangbare GPU's.
Het schalen van de resolutie van de invoerafbeelding is essentieel voor het verbeteren van de prestaties van Vision Language Models (VLM's), met name bij taken voor het begrijpen van tekstrijke afbeeldingen. Populaire visuele encoders zoals ViTs worden echter inefficiënt bij hoge resoluties vanwege het grote aantal tokens en de hoge coderingslatentie veroorzaakt door gestapelde zelfaandachtslagen. Bij verschillende operationele resoluties kan de visie-encoder van een VLM worden geoptimaliseerd langs twee assen: het verminderen van de coderingslatentie en het minimaliseren van het aantal visuele tokens dat naar de LLM wordt doorgegeven, waardoor de algehele latentie wordt verlaagd. Op basis van een uitgebreide efficiëntieanalyse van de wisselwerking tussen beeldresolutie, visuele latentie, aantal tokens en LLM-grootte, introduceren we FastVLM, een model dat een geoptimaliseerd compromis bereikt tussen latentie, modelgrootte en nauwkeurigheid. FastVLM bevat FastViTHD, een nieuw hybride visie-encoder die is ontworpen om minder tokens uit te voeren en de codeertijd aanzienlijk te verminderen voor afbeeldingen met hoge resolutie. In tegenstelling tot eerdere methoden bereikt FastVLM de optimale balans tussen het aantal visuele tokens en de beeldresolutie uitsluitend door het schalen van de invoerafbeelding, waardoor de noodzaak voor extra tokenpruning wordt geëlimineerd en het modelontwerp wordt vereenvoudigd. In de LLaVA-1.5-opstelling behaalt FastVLM een verbetering van 3,2 keer in de tijd tot de eerste token (TTFT) terwijl het vergelijkbare prestaties behoudt op VLM-benchmarks in vergelijking met eerdere werken. Vergeleken met LLaVa-OneVision op de hoogste resolutie (1152 keer 1152), behaalt FastVLM vergelijkbare prestaties op belangrijke benchmarks zoals SeedBench en MMMU, met behulp van dezelfde 0,5B LLM, maar met 85 keer snellere TTFT en een visie-encoder die 3,4 keer kleiner is.
De productie van 2D-animatie volgt een industriestandaard workflow, bestaande uit vier essentiële fasen: karakterontwerp, keyframe-animatie, tussentijdse animatie en kleuring. Ons onderzoek richt zich op het verminderen van de arbeidskosten in het bovenstaande proces door het benutten van het potentieel van steeds krachtigere generatieve AI. Door videodiffusiemodellen als basis te gebruiken, komt AniDoc naar voren als een tool voor het inkleuren van video-lijntekeningen, die schetsreeksen automatisch omzet in gekleurde animaties volgens de specificatie van het referentiepersonage. Ons model maakt gebruik van overeenkomstige matching als expliciete begeleiding, wat resulteert in een sterke robuustheid tegen variaties (bijv. houding) tussen het referentiepersonage en elk lijntekeningframe. Bovendien kan ons model zelfs het tussentijdse animatieproces automatiseren, zodat gebruikers eenvoudig een temporeel consistente animatie kunnen maken door simpelweg een karakterafbeelding en de start- en eindschetsen te verstrekken. Onze code is beschikbaar op: https://yihao-meng.github.io/AniDoc_demo.
We hebben dagelijks interactie met computers, of het nu in het dagelijks leven is of op het werk, en veel aspecten van werk kunnen volledig worden uitgevoerd met toegang tot een computer en het internet. Tegelijkertijd is er dankzij verbeteringen in grote taalmodellen (LLM's) ook een snelle ontwikkeling geweest in AI-agenten die interacteren met en veranderingen teweegbrengen in hun omgeving. Maar hoe goed presteren AI-agenten bij het helpen versnellen of zelfs autonoom uitvoeren van taken op het werk? Het antwoord op deze vraag heeft belangrijke implicaties voor zowel de industrie die AI wil integreren in hun werkprocessen, als voor het economisch beleid om de effecten te begrijpen die de adoptie van AI kan hebben op de arbeidsmarkt. Om de voortgang van de prestaties van deze LLM-agenten bij het uitvoeren van real-world professionele taken te meten, introduceren we in dit artikel TheAgentCompany, een uitbreidbare benchmark voor het evalueren van AI-agenten die op vergelijkbare wijze interacteren met de wereld als een digitale werker: door het browsen op het web, het schrijven van code, het uitvoeren van programma's en communiceren met andere collega's. We creëren een zelfstandige omgeving met interne websites en data die een kleine softwarebedrijfsomgeving nabootst, en stellen verschillende taken op die door werknemers in zo'n bedrijf kunnen worden uitgevoerd. We testen basisagenten aangedreven door zowel op gesloten API's gebaseerde als open-gewichten taalmodellen (LM's), en ontdekken dat met de meest competitieve agent 24% van de taken autonoom kan worden voltooid. Dit schetst een genuanceerd beeld van taakautomatisering met LM-agenten - in een setting die een echte werkomgeving simuleert, kunnen veel eenvoudige taken autonoom worden opgelost, maar meer complexe taken op lange termijn zijn nog steeds buiten bereik van huidige systemen.
In dit werk stellen we de noodzaak van adaptieve gradiëntmethoden voor het trainen van diepe neurale netwerken ter discussie. SGD-SaI is een eenvoudige maar effectieve verbetering van stochastische gradiëntdaling met momentum (SGDM). SGD-SaI voert Learning Rate Scaling at Initialization (SaI) uit naar verschillende parametergroepen, geleid door hun respectievelijke gradiënt signaal-ruisverhoudingen (g-SNR). Door leerpercentages aan te passen zonder te vertrouwen op adaptieve tweede-orde momentum, helpt SGD-SaI om trainingsonevenwichtigheden vanaf de allereerste iteratie te voorkomen en vermindert het het geheugengebruik van de optimizer met de helft in vergelijking met AdamW. Ondanks zijn eenvoud en efficiëntie, presteert SGD-SaI consequent even goed of beter dan AdamW bij het trainen van verschillende op Transformer gebaseerde taken, waarbij het effectief een langdurige uitdaging overwint van het gebruik van SGD voor het trainen van Transformers. SGD-SaI blinkt uit in ImageNet-1K classificatie met Vision Transformers (ViT) en GPT-2 pretraining voor grote taalmodellen (LLM's, alleen transformer-decoder), waarbij het robuustheid toont tegen hyperparameter variaties en praktisch nut voor diverse toepassingen. We hebben ook de robuustheid ervan getest op taken zoals LoRA fine-tuning voor LLM's en diffusiemodellen, waar het consequent beter presteert dan state-of-the-art optimalisatoren. Vanuit een geheugenefficiëntieperspectief behaalt SGD-SaI aanzienlijke geheugenbesparingen voor optimizerstaten, waarbij het geheugengebruik met 5,93 GB vermindert voor GPT-2 (1,5B parameters) en 25,15 GB voor Llama2-7B in vergelijking met AdamW in instellingen voor training met volledige precisie.
Grafische gebruikersinterface (GUI) agenten, aangedreven door Grote Foundation Modellen, zijn naar voren gekomen als een transformerende aanpak om de interactie tussen mens en computer te automatiseren. Deze agenten interacteren autonoom met digitale systemen of softwaretoepassingen via GUI's, waarbij ze menselijke acties zoals klikken, typen en navigeren door visuele elementen op diverse platforms nabootsen. Gedreven door de groeiende interesse en fundamentele belang van GUI agenten, bieden we een uitgebreid overzicht dat hun benchmarks, evaluatiemetrics, architecturen en trainingsmethoden categoriseert. We stellen een verenigd kader voor dat hun perceptie, redenering, planning en handelingsvermogen afbakent. Bovendien identificeren we belangrijke open uitdagingen en bespreken we belangrijke toekomstige richtingen. Tenslotte dient dit werk als basis voor praktijkmensen en onderzoekers om een intuïtief begrip te krijgen van de huidige vooruitgang, technieken, benchmarks en kritieke open problemen die nog moeten worden aangepakt.
Mensen bezitten de visueel-ruimtelijke intelligentie om ruimtes te onthouden vanuit opeenvolgende visuele observaties. Maar kunnen Multimodale Grote Taalmodellen (MLLM's) die zijn getraind op video-datasets op miljoenen schaal ook "ruimtelijk denken" vanuit video's? We introduceren een nieuw op video gebaseerd visueel-ruimtelijk intelligentie benchmark (VSI-Bench) van meer dan 5.000 vraag-antwoordparen, en ontdekken dat MLLM's competitieve - zij het ondermenselijke - visueel-ruimtelijke intelligentie vertonen. We onderzoeken modellen om uit te drukken hoe ze ruimtelijk denken, zowel linguïstisch als visueel, en ontdekken dat hoewel ruimtelijke redeneervaardigheden de belangrijkste bottleneck blijven voor MLLM's om een hogere benchmarkprestatie te behalen, lokale wereldmodellen en ruimtelijk bewustzijn wel naar voren komen binnen deze modellen. Opmerkelijk is dat heersende linguïstische redeneertechnieken (bijv. keten-van-gedachten, zelfconsistentie, boom-van-gedachten) de prestaties niet verbeteren, terwijl expliciet genereren van cognitieve kaarten tijdens vraagbeantwoording de ruimtelijke afstandsvermogen van MLLM's verbetert.
Grote Taalmodellen (LLM's) hebben opmerkelijk succes behaald, maar recente bevindingen tonen aan dat hun diepere lagen vaak minimaal bijdragen en kunnen worden weggesnoeid zonder de algehele prestaties te beïnvloeden. Terwijl sommigen dit zien als een kans voor modelcompressie, identificeren wij dit als een trainingsgebrek dat geworteld is in het wijdverbreide gebruik van Pre-Laagnormalisatie (Pre-LN). We tonen aan dat Pre-LN, veelgebruikt in modellen zoals GPT en LLaMA, leidt tot verminderde gradiëntnormen in de diepere lagen, waardoor hun effectiviteit afneemt. In tegenstelling hiermee behoudt Post-Laagnormalisatie (Post-LN) grotere gradiëntnormen in diepere lagen, maar heeft te maken met verdwijnende gradiënten in eerdere lagen. Om dit aan te pakken, introduceren we Mix-LN, een nieuwe normalisatietechniek die de sterke punten van Pre-LN en Post-LN combineert binnen hetzelfde model. Mix-LN past Post-LN toe op de eerdere lagen en Pre-LN op de diepere lagen, waardoor meer uniforme gradiënten over de lagen worden gegarandeerd. Dit maakt het mogelijk dat alle delen van het netwerk - zowel oppervlakkige als diepe lagen - effectief bijdragen aan de training. Uitgebreide experimenten met verschillende modelgroottes van 70M tot 7B tonen aan dat Mix-LN consequent beter presteert dan zowel Pre-LN als Post-LN, wat zorgt voor meer gebalanceerde, gezondere gradiëntnormen door het hele netwerk en het verbeteren van de algehele kwaliteit van LLM-voortraining. Bovendien tonen we aan dat modellen die zijn voorgetraind met Mix-LN beter leren in vergelijking met die welke Pre-LN of Post-LN gebruiken tijdens begeleid finetunen (SFT) en versterkend leren van menselijke feedback (RLHF), waarbij het cruciale belang van hoogwaardige diepe lagen wordt benadrukt. Door de inefficiënties van diepe lagen in huidige LLM's effectief aan te pakken, ontsluit Mix-LN hun potentieel, waardoor de modelcapaciteit wordt verbeterd zonder de modelgrootte te vergroten. Onze code is beschikbaar op https://github.com/pixeli99/MixLN.
In multimodale grote taalmodellen (MLLM's) worden visietransformatoren (ViTs) veel gebruikt voor visuele codering. Hun prestaties bij het oplossen van universele MLLM-taken zijn echter niet bevredigend. We schrijven dit toe aan een gebrek aan informatie van diverse visuele niveaus, waardoor de afstemming met de verschillende semantische granulariteit die nodig is voor taalgeneratie wordt belemmerd. Om dit probleem aan te pakken, presenteren we LLaVA-UHD v2, een geavanceerd MLLM dat draait om een hiërarchische venstertransformator die het vastleggen van diverse visuele granulariteit mogelijk maakt door het construeren en integreren van een hoogwaardige functiepiramide. Als een visie-taalprojector bestaat de Hiwin-transformator uit twee primaire modules: (i) een omgekeerde functiepiramide, geconstrueerd door een ViT-afgeleid proces voor het vergroten van functies met behulp van hoogfrequente details van een beeldpiramide, en (ii) hiërarchische vensteraandacht, gericht op een reeks belangrijke bemonsteringskenmerken binnen kruisschalige vensters om meerlagige functiekaarten samen te vatten. Uitgebreide experimenten tonen aan dat LLaVA-UHD v2 superieure prestaties behaalt ten opzichte van bestaande MLLM's op populaire benchmarks. Opmerkelijk is dat ons ontwerp een gemiddelde verbetering van 3,7% over 14 benchmarks met zich meebrengt in vergelijking met de basismethode, bijvoorbeeld 9,3% bij DocVQA. We stellen alle gegevens, modelcontrolepunt en code openbaar beschikbaar om toekomstig onderzoek te vergemakkelijken.
We presenteren FashionComposer voor compositionele modebeeldgeneratie. In tegenstelling tot eerdere methoden is FashionComposer zeer flexibel. Het accepteert multimodale invoer (d.w.z. tekstprompt, parametrisch menselijk model, kledingbeeld en gezichtsbeeld) en ondersteunt het personaliseren van het uiterlijk, de houding en de figuur van de mens en het toewijzen van meerdere kledingstukken in één keer. Om dit te bereiken, ontwikkelen we eerst een universeel raamwerk dat in staat is om diverse invoermodaliteiten te verwerken. We construeren geschaalde trainingsgegevens om de robuuste compositionele mogelijkheden van het model te verbeteren. Om meerdere referentiebeelden (kledingstukken en gezichten) naadloos te kunnen verwerken, organiseren we deze referenties in één afbeelding als een "assetbibliotheek" en maken gebruik van een referentie-UNet om uiterlijke kenmerken te extraheren. Om de uiterlijke kenmerken in de juiste pixels in het gegenereerde resultaat te injecteren, stellen we subject-bindende aandacht voor. Het bindt de uiterlijke kenmerken van verschillende "assets" met de overeenkomstige tekstkenmerken. Op deze manier kan het model elk asset begrijpen op basis van hun semantiek, waarbij het willekeurige aantallen en soorten referentiebeelden ondersteunt. Als een allesomvattende oplossing ondersteunt FashionComposer ook vele andere toepassingen zoals het genereren van menselijke albums, diverse virtuele pas-taken, enz.
Dit artikel presenteert een nieuwe benadering die autoregressieve videogeneratie met hoge efficiëntie mogelijk maakt. We stellen voor om het probleem van videogeneratie te herformuleren als een niet-gekwantiseerde autoregressieve modellering van temporele frame-voor-frame voorspelling en ruimtelijke set-voor-set voorspelling. In tegenstelling tot raster-scan voorspelling in eerdere autoregressieve modellen of gezamenlijke distributiemodellering van tokens met een vaste lengte in diffusiemodellen, behoudt onze benadering de causale eigenschap van GPT-stijl modellen voor flexibele in-context mogelijkheden, terwijl het bidirectionele modellering binnen individuele frames benut voor efficiëntie. Met de voorgestelde benadering trainen we een nieuwe autoregressief videomodel zonder vectorkwantisatie, genaamd NOVA. Onze resultaten tonen aan dat NOVA eerdere autoregressieve videomodellen overtreft in data-efficiëntie, inferentiesnelheid, visuele kwaliteit en videovloeiendheid, zelfs met een veel kleinere modelcapaciteit, d.w.z., 0,6B parameters. NOVA presteert ook beter dan state-of-the-art beeld diffusiemodellen in tekst-naar-beeld generatietaken, met aanzienlijk lagere trainingskosten. Bovendien generaliseert NOVA goed over uitgebreide videoduur en maakt het diverse zero-shot toepassingen mogelijk in één verenigd model. Code en modellen zijn openbaar beschikbaar op https://github.com/baaivision/NOVA.
Prompts spelen een cruciale rol bij het ontketenen van de kracht van taal- en visie-foundation-modellen voor specifieke taken. Voor het eerst introduceren we prompting in diepte-foundation-modellen, waarbij we een nieuw paradigma creëren voor metrische diepteschatting genaamd Prompt Diepte Alles. Specifiek gebruiken we een kosteneffectieve LiDAR als prompt om het Diepte Alles-model te begeleiden voor nauwkeurige metrische diepte-uitvoer, met een resolutie tot 4K. Onze aanpak richt zich op een beknopt promptfusie-ontwerp dat de LiDAR integreert op meerdere schalen binnen de diepte-decoder. Om de trainingsuitdagingen aan te pakken die worden veroorzaakt door beperkte datasets met zowel LiDAR-diepte als nauwkeurige GT-diepte, stellen we een schaalbare datapijplijn voor die synthetische data LiDAR-simulatie en pseudo GT-dieptegeneratie met echt data omvat. Onze aanpak zet nieuwe state-of-the-arts op de ARKitScenes en ScanNet++ datasets en biedt voordelen voor downstream-toepassingen, waaronder 3D-reconstructie en gegeneraliseerde robotgrijpen.
Diffusiebeleid is wijdverbreid geworden in Imitatie Leren, met verschillende aantrekkelijke eigenschappen, zoals het genereren van multimodale en discontinu gedrag. Aangezien modellen steeds groter worden om complexere mogelijkheden vast te leggen, nemen hun computationele eisen toe, zoals blijkt uit recente schalingswetten. Daarom zal doorgaan met de huidige architecturen een computationele hindernis vormen. Om deze kloof aan te pakken, stellen we Mixture-of-Denoising Experts (MoDE) voor als een nieuw beleid voor Imitatie Leren. MoDE overtreft de huidige state-of-the-art Transformer-gebaseerde Diffusiebeleidslijnen en maakt schaalvergroting mogelijk door middel van schaarse experts en ruis-geconditioneerde routering, waarbij zowel actieve parameters met 40% worden verminderd als inferentiekosten met 90% via expertcaching. Onze architectuur combineert deze efficiënte schaling met een ruis-geconditioneerd zelfaandachtsmechanisme, waardoor effectievere denoising mogelijk is bij verschillende geluidsniveaus. MoDE behaalt state-of-the-art prestaties op 134 taken in vier gevestigde imitatie-leerbenchmarks (CALVIN en LIBERO). Opmerkelijk is dat door MoDE vooraf te trainen op diverse robotica-gegevens, we 4.01 behalen op CALVIN ABC en 0.95 op LIBERO-90. Het overtreft zowel op CNN gebaseerde als Transformer Diffusiebeleidslijnen met gemiddeld 57% over 4 benchmarks, terwijl het 90% minder FLOPs en minder actieve parameters gebruikt in vergelijking met standaard Diffusie Transformer-architecturen. Bovendien voeren we uitgebreide ablaties uit op de componenten van MoDE, die inzichten bieden voor het ontwerpen van efficiënte en schaalbare Transformer-architecturen voor Diffusiebeleid. Code en demonstraties zijn beschikbaar op https://mbreuss.github.io/MoDE_Diffusion_Policy/.
Geospatiale modellen moeten zich aanpassen aan de diversiteit van aardobservatiegegevens wat betreft resoluties, schalen en modaliteiten. Bestaande benaderingen verwachten echter vaste invoerconfiguraties, wat hun praktische toepasbaarheid beperkt. Wij stellen AnySat voor, een multimodaal model gebaseerd op een gezamenlijke inbeddingsvoorspellingsarchitectuur (JEPA) en resolutie-aanpasbare ruimtelijke encoders, waardoor we een enkel model kunnen trainen op zeer heterogene gegevens op een zelfbegeleide manier. Om de voordelen van deze verenigde aanpak te demonstreren, compileren we GeoPlex, een verzameling van 5 multimodale datasets met variërende kenmerken en 11 verschillende sensoren. Vervolgens trainen we een enkel krachtig model op deze diverse datasets tegelijkertijd. Eenmaal fijn afgestemd, behalen we betere of bijna state-of-the-art resultaten op de datasets van GeoPlex en 4 extra voor 5 milieumonitoringstaken: landbedekkingskaart, boomsoortidentificatie, gewastypeclassificatie, veranderingdetectie en overstromingssegmentatie. De code en modellen zijn beschikbaar op https://github.com/gastruc/AnySat.
Het schaalbaar leren van humanoïde robots is cruciaal voor hun inzet in real-world toepassingen. Terwijl traditionele benaderingen voornamelijk vertrouwen op versterkend leren of teleoperatie om volledige lichaamscontrole te bereiken, worden ze vaak beperkt door de diversiteit van gesimuleerde omgevingen en de hoge kosten van demonstratieverzameling. Daarentegen zijn menselijke video's alomtegenwoordig en vormen ze een onbenutte bron van semantische en bewegingsinformatie die aanzienlijk de generalisatiecapaciteiten van humanoïde robots zou kunnen verbeteren. Dit artikel introduceert Humanoid-X, een grootschalige dataset van meer dan 20 miljoen poses van humanoïde robots met bijbehorende op tekst gebaseerde bewegingsbeschrijvingen, ontworpen om te profiteren van deze overvloedige data. Humanoid-X wordt samengesteld via een uitgebreide pipeline: datamining van het internet, generatie van videobijschriften, bewegingsretargeting van mensen naar humanoïde robots, en beleidsleren voor inzet in de echte wereld. Met Humanoid-X trainen we verder een groot humanoïde model, UH-1, dat tekstinstructies als input neemt en overeenkomstige acties genereert om een humanoïde robot te besturen. Uitgebreide gesimuleerde en echte wereld experimenten bevestigen dat onze schaalbare trainingsbenadering leidt tot superieure generalisatie in op tekst gebaseerde controle van humanoïde robots, wat een significante stap betekent naar aanpasbare, klaar voor de echte wereld humanoïde robots.
Ondanks de aanzienlijke vooruitgang die bestaande opvraag-versterkte taalmodellen (RALM's) hebben geboekt bij het verstrekken van betrouwbare antwoorden en het verankeren in betrouwbare bronnen, vergeten ze vaak effectieve afstemming op menselijke voorkeuren. In het afstemmingsproces fungeren beloningsmodellen (RMs) als een cruciale tussenpersoon voor menselijke waarden om de optimalisatie te sturen. Het blijft echter onduidelijk hoe een betrouwbaar RM voor voorkeursafstemming in RALM's geëvalueerd en geselecteerd kan worden. Daartoe stellen we RAG-RewardBench voor, de eerste benchmark voor het evalueren van RMs in RAG-instellingen. Ten eerste ontwerpen we vier cruciale en uitdagende RAG-specifieke scenario's om RMs te beoordelen, waaronder redeneren over meerdere stappen, fijnmazige citatie, passend onthouden en conflictbestendigheid. Vervolgens nemen we 18 RAG-subsets, zes ophalers en 24 RALM's op om de diversiteit van gegevensbronnen te vergroten. Ten slotte hanteren we een LLM-als-beoordelaarbenadering om de efficiëntie en effectiviteit van voorkeursannotatie te verbeteren, met een sterke correlatie met menselijke annotaties. Op basis van de RAG-RewardBench voeren we een uitgebreide evaluatie uit van 45 RMs en onthullen we hun beperkingen in RAG-scenario's. Bovendien onthullen we ook dat bestaande getrainde RALM's vrijwel geen verbetering laten zien in voorkeursafstemming, wat de noodzaak benadrukt van een verschuiving naar voorkeursafgestemde training. We maken onze benchmark en code openbaar beschikbaar op https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ voor toekomstig werk.
Recent onderzoek arXiv:2410.15027 arXiv:2410.23775 heeft de inherente in-context generatiemogelijkheden van vooraf getrainde diffusietransformatoren (DiTs) benadrukt, waardoor ze naadloos kunnen aanpassen aan diverse visuele taken met minimale of geen architectonische aanpassingen. Deze mogelijkheden worden ontsloten door zelfaandachtstokens over meerdere invoer- en doelafbeeldingen te concatenaten, gecombineerd met gegroepeerde en gemaskeerde generatiepijplijnen. Voortbouwend op deze basis presenteren we ChatDiT, een zero-shot, algemeen en interactief visueel generatiekader dat vooraf getrainde diffusietransformatoren in hun oorspronkelijke vorm benut, zonder extra afstemming, adapters of aanpassingen vereist. Gebruikers kunnen met ChatDiT communiceren om onderlinge tekst-afbeeldingsartikelen te maken, meerbladige prentenboeken, afbeeldingen te bewerken, IP-derivaten te ontwerpen of karakterontwerpinstellingen te ontwikkelen, allemaal via vrije natuurlijke taal over één of meer conversatierondes. In de kern maakt ChatDiT gebruik van een multi-agent systeem bestaande uit drie belangrijke componenten: een Instructie-Interpreterende agent die door de gebruiker geüploade afbeeldingen en instructies interpreteert, een Strategie-Planningsagent die enkelvoudige of meerstaps generatieacties bedenkt, en een Uitvoeringsagent die deze acties uitvoert met behulp van een in-context toolkit van diffusietransformatoren. We evalueren ChatDiT grondig op IDEA-Bench arXiv:2412.11767, bestaande uit 100 real-world ontwerptaken en 275 gevallen met diverse instructies en variërende aantallen invoer- en doelafbeeldingen. Ondanks zijn eenvoud en trainingvrije benadering overtreft ChatDiT alle concurrenten, inclusief die specifiek ontworpen en getraind op uitgebreide multi-task datasets. We identificeren verder belangrijke beperkingen van vooraf getrainde DiTs in zero-shot aanpassing aan taken. We publiceren alle code, agenten, resultaten en tussenliggende uitvoer om verder onderzoek te vergemakkelijken op https://github.com/ali-vilab/ChatDiT
We presenteren een demonstratie van een groot taalmodel dat betrokken is bij uitlijningsvervalsing: selectief voldoen aan zijn trainingsdoelstelling tijdens de training om wijziging van zijn gedrag buiten de training te voorkomen. Allereerst geven we Claude 3 Opus een systeemprompt waarin staat dat het wordt getraind om alle vragen te beantwoorden, zelfs schadelijke, wat in strijd is met zijn eerdere training om dergelijke vragen te weigeren. Om het model in staat te stellen af te leiden wanneer het wordt getraind, zeggen we dat het alleen zal worden getraind op gesprekken met gratis gebruikers, niet met betaalde gebruikers. We ontdekken dat het model 14% van de tijd voldoet aan schadelijke vragen van gratis gebruikers, tegenover bijna nooit voor betaalde gebruikers. Bij het verklaren van dit verschil, in bijna alle gevallen waarin het model voldoet aan een schadelijke vraag van een gratis gebruiker, observeren we expliciete redeneringen over uitlijningsvervalsing, waarbij het model verklaart strategisch schadelijke vragen te beantwoorden tijdens de training om zijn voorkeursgedrag van onschadelijkheid buiten de training te behouden. Vervolgens bestuderen we een realistischere setting waarin informatie over het trainingsproces niet wordt verstrekt in een systeemprompt, maar door training op synthetische documenten die pre-trainingsgegevens nabootsen - en observeren vergelijkbare uitlijningsvervalsing. Ten slotte bestuderen we het effect van daadwerkelijk trainen van het model om te voldoen aan schadelijke vragen via versterkt leren, wat resulteert in een toename van het percentage redeneringen over uitlijningsvervalsing tot 78%, hoewel het ook de naleving buiten de training verhoogt. We observeren ook andere gedragingen zoals het model dat zijn gewichten exfiltreert wanneer het een gemakkelijke kans krijgt. Hoewel we uitlijningsvervalsing hebben vergemakkelijkt door het model te vertellen wanneer en op basis van welke criteria het werd getraind, hebben we het model niet geïnstrueerd om uitlijning te vervalsen of hebben we het geen expliciet doel gegeven. Aangezien toekomstige modellen mogelijk informatie over hun trainingsproces kunnen afleiden zonder te worden verteld, suggereren onze resultaten een risico van uitlijningsvervalsing in toekomstige modellen, ofwel vanwege een onschuldige voorkeur - zoals in dit geval - of niet.
Het encoderen van videomateriaal in compacte latente tokens is een fundamentele stap geworden in video-generatie en -begrip, gedreven door de noodzaak om de inherente redundantie in pixelniveau-representaties aan te pakken. Als gevolg hiervan is er een groeiende vraag naar hoogwaardige, open-source video-tokenizers nu video-gecentreerd onderzoek aan belang wint. We introduceren VidTok, een veelzijdige video-tokenizer die state-of-the-art prestaties levert in zowel continue als discrete tokenisaties. VidTok omvat verschillende belangrijke vooruitgangen ten opzichte van bestaande benaderingen: 1) modelarchitectuur zoals convolutionele lagen en up/downsampling-modules; 2) om de trainingsinstabiliteit en codeboekinstorting die vaak geassocieerd worden met conventionele Vector Quantization (VQ) aan te pakken, integreren we Finite Scalar Quantization (FSQ) in discrete video-tokenisatie; 3) verbeterde trainingsstrategieën, waaronder een tweefasig trainingsproces en het gebruik van verlaagde framerates. Door deze vooruitgangen te integreren, behaalt VidTok aanzienlijke verbeteringen ten opzichte van bestaande methoden, waarbij superieure prestaties worden aangetoond op meerdere metrieken, waaronder PSNR, SSIM, LPIPS en FVD, onder gestandaardiseerde evaluatie-instellingen.
Datacontaminatie belemmert een eerlijke evaluatie van LLM door testgegevens in de trainingssets van nieuwere modellen te introduceren. Bestaande studies lossen deze uitdaging op door benchmarks bij te werken met nieuw verzamelde gegevens. Ze slagen er echter niet in om een evaluatie zonder contaminatie te garanderen, aangezien de nieuw verzamelde gegevens mogelijk al bestaande kennis bevatten, en hun benchmarkupdates steunen op intensieve menselijke arbeid. Om deze problemen aan te pakken, stellen wij in dit artikel AntiLeak-Bench voor, een geautomatiseerd benchmarkingframework tegen lekken. In plaats van simpelweg nieuw verzamelde gegevens te gebruiken, construeren we monsters met expliciet nieuwe kennis die afwezig is in de trainingssets van LLM's, wat dus zorgt voor een strikt contaminatievrije evaluatie. We ontwerpen verder een volledig geautomatiseerde workflow om onze benchmark te bouwen en bij te werken zonder menselijke arbeid. Dit verlaagt aanzienlijk de kosten van benchmarkonderhoud om opkomende LLM's te accommoderen. Door uitgebreide experimenten benadrukken we dat datacontaminatie waarschijnlijk al bestaat vóór de afkapdatum van LLM's en tonen we aan dat AntiLeak-Bench effectief deze uitdaging overwint.
Computer-Ondersteund Ontwerp (CAD) modellen worden typisch geconstrueerd door sequentieel parametrische schetsen te tekenen en CAD-operaties toe te passen om een 3D-model te verkrijgen. Het probleem van omgekeerde engineering van 3D CAD bestaat uit het reconstrueren van de schets- en CAD-operatiesequenties van 3D representaties zoals puntenwolken. In dit artikel pakken we deze uitdaging aan door middel van nieuwe bijdragen op drie niveaus: CAD-sequentie representatie, netwerkontwerp en dataset. In het bijzonder stellen we CAD schets-extrude sequenties voor als Python code. Het voorgestelde CAD-Recode vertaalt een puntenwolk naar Python code die, wanneer uitgevoerd, het CAD-model reconstrueert. Door gebruik te maken van de blootstelling van vooraf getrainde Grote Taalmodellen (LLM's) aan Python code, maken we gebruik van een relatief klein LLM als decoder voor CAD-Recode en combineren we het met een lichtgewicht puntenwolkprojector. CAD-Recode wordt uitsluitend getraind op een voorgestelde synthetische dataset van één miljoen diverse CAD-sequenties. CAD-Recode presteert aanzienlijk beter dan bestaande methoden over drie datasets en vereist minder invoerpunten. Opmerkelijk is dat het 10 keer lagere gemiddelde Chamfer-afstand bereikt dan state-of-the-art methoden op de DeepCAD en Fusion360 datasets. Bovendien tonen we aan dat onze CAD Python code uitvoer interpreteerbaar is door standaard LLM's, waardoor CAD bewerking en CAD-specifieke vraagbeantwoording vanuit puntenwolken mogelijk is.
Historische documenten omvatten een schat aan culturele schatten, maar lijden aan ernstige beschadigingen zoals ontbrekende tekens, papierschade en inkterosie in de loop van de tijd. Bestaande methoden voor documentverwerking richten zich voornamelijk op binarisatie, verbetering, enz., waarbij het herstellen van deze schade wordt verwaarloosd. Om dit aan te pakken, presenteren we een nieuwe taak, genaamd Historisch Documentherstel (HDR), die tot doel heeft de oorspronkelijke verschijning van beschadigde historische documenten te voorspellen. Om het hiaat in dit vakgebied op te vullen, stellen we een grootschalige dataset HDR28K voor en een op diffusie gebaseerd netwerk DiffHDR voor historisch documentherstel. Specifiek bevat HDR28K 28.552 beschadigde-herstelde afbeeldingsparen met annotaties op karakterniveau en degradaties in meerdere stijlen. Bovendien breidt DiffHDR het standaard diffusiekader uit met semantische en ruimtelijke informatie en een zorgvuldig ontworpen karakter-perceptueel verlies voor contextuele en visuele coherentie. Experimentele resultaten tonen aan dat het voorgestelde DiffHDR, getraind met HDR28K, aanzienlijk beter presteert dan bestaande benaderingen en opmerkelijke prestaties vertoont bij het omgaan met echt beschadigde documenten. Opmerkelijk is dat DiffHDR ook kan worden uitgebreid naar documentbewerking en tekstblokgeneratie, waarbij het zijn hoge flexibiliteit en generalisatievermogen laat zien. We geloven dat deze studie een nieuwe richting kan inslaan op het gebied van documentverwerking en kan bijdragen aan het behoud van onschatbare culturen en beschavingen. De dataset en code zijn beschikbaar op https://github.com/yeungchenwa/HDR.