ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Technisch Rapport SageAttention2: Nauwkeurige 4-bits Aandacht voor Plug-and-play Inferentie Versnelling
SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

Nov 17
ByJintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen
55
9

Hoewel kwantisatie voor lineaire lagen veel wordt toegepast, is de toepassing ervan om het aandachtsproces te versnellen beperkt gebleven. SageAttention maakt gebruik van 8-bits matrixvermenigvuldiging, 16-bits matrixvermenigvuldiging met 16-bits accumulator, en precisie-verhogende methoden, waarbij een nauwkeurige en 2x versnelde kernel wordt geïmplementeerd in vergelijking met FlashAttention2. Om de efficiëntie van aandachtsberekeningen verder te verbeteren terwijl de precisie behouden blijft, stellen we SageAttention2 voor, die aanzienlijk snellere 4-bits matrixvermenigvuldiging (Matmul) gebruikt naast extra precisie-verhogende technieken. Ten eerste stellen we voor om matrices (Q, K) te kwantiseren naar INT4 op warp-niveau en matrices (widetilde P, V) naar FP8 te kwantiseren. Ten tweede stellen we een methode voor om Q en V te verfijnen, wat de nauwkeurigheid van aandacht verbetert met INT4 QK en FP8 PV. Ten derde analyseren we de kwantisatienauwkeurigheid over tijdstappen en lagen, waarna we een adaptieve kwantisatiemethode voorstellen om de end-to-end metrieken over verschillende modellen te waarborgen. De bewerkingen per seconde (OPS) van SageAttention2 overtreffen FlashAttention2 en xformers met respectievelijk ongeveer 3x en 5x op RTX4090. Uitgebreide experimenten bevestigen dat onze aanpak verwaarloosbaar verlies aan end-to-end metrieken met zich meebrengt over diverse modellen, waaronder die voor grootschalige taalverwerking, beeldgeneratie en videogeneratie. De codes zijn beschikbaar op https://github.com/thu-ml/SageAttention.

2

VBench++: Uitgebreide en veelzijdige benchmark suite voor video generatieve modellen
VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models

Nov 20
ByZiqi Huang, Fan Zhang, Xiaojie Xu, Yinan He, Jiashuo Yu, Ziyue Dong, Qianli Ma, Nattapol Chanpaisit, Chenyang Si, Yuming Jiang, Yaohui Wang, Xinyuan Chen, Ying-Cong Chen, Limin Wang, Dahua Lin, Yu Qiao, Ziwei Liu
34
3

Het genereren van video's heeft aanzienlijke vooruitgang geboekt, maar het evalueren van deze modellen blijft een uitdaging. Een uitgebreide evaluatiebenchmark voor videogeneratie is onmisbaar om twee redenen: 1) Bestaande metrieken komen niet volledig overeen met menselijke percepties; 2) Een ideaal evaluatiesysteem zou inzichten moeten bieden om toekomstige ontwikkelingen van videogeneratie te informeren. Met dit doel presenteren we VBench, een uitgebreide benchmark suite die "videogeneratiekwaliteit" opsplitst in specifieke, hiërarchische en ontrafelde dimensies, elk met op maat gemaakte prompts en evaluatiemethoden. VBench heeft verschillende aantrekkelijke eigenschappen: 1) Uitgebreide Dimensies: VBench omvat 16 dimensies in videogeneratie (bijv. inconsistentie in onderwerpidentiteit, bewegingsvloeiendheid, temporale flikkering en ruimtelijke relatie, enz.). De evaluatiemetrieken met fijnmazige niveaus onthullen de sterke en zwakke punten van individuele modellen. 2) Menselijke Afstemming: We bieden ook een dataset van menselijke voorkeursannotaties om de afstemming van onze benchmarks met menselijke perceptie te valideren, voor elke evaluatiedimensie respectievelijk. 3) Waardevolle Inzichten: We onderzoeken de huidige capaciteiten van modellen over verschillende evaluatiedimensies en verschillende inhoudstypen. We onderzoeken ook de kloven tussen video- en beeldgeneratiemodellen. 4) Veelzijdige Benchmarking: VBench++ ondersteunt het evalueren van tekst-naar-video en beeld-naar-video. We introduceren een hoogwaardige Image Suite met een aanpasbaar aspectratio om eerlijke evaluaties mogelijk te maken in verschillende beeld-naar-video generatie-instellingen. Naast het beoordelen van technische kwaliteit evalueert VBench++ ook de betrouwbaarheid van video generatieve modellen, waardoor een meer holistisch beeld van de modelprestaties ontstaat. 5) Volledige Open-Source: We maken VBench++ volledig open-source en voegen voortdurend nieuwe videogeneratiemodellen toe aan onze ranglijst om het veld van videogeneratie vooruit te helpen.

3

VideoAutoArena: Een geautomatiseerde arena voor het evalueren van grote multimodale modellen in videomonitoring door middel van gebruikerssimulatie.
VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation

Nov 20
ByZiyang Luo, Haoning Wu, Dongxu Li, Jing Ma, Mohan Kankanhalli, Junnan Li
21
5

Grote multimodale modellen (LMM's) met geavanceerde videofuncties hebben recentelijk aanzienlijke aandacht gekregen. Echter vertrouwen de meeste evaluaties nog steeds op traditionele methoden zoals meerkeuzevragen in benchmarks zoals VideoMME en LongVideoBench, die vaak niet de diepgang hebben die nodig is om aan de complexe eisen van gebruikers in de echte wereld te voldoen. Om deze beperking aan te pakken - en vanwege de hoge kosten en trage voortgang van menselijke annotatie voor videotaken - introduceren we VideoAutoArena, een arena-stijl benchmark geïnspireerd door het raamwerk van LMSYS Chatbot Arena, ontworpen om automatisch de videofuncties van LMM's te beoordelen. VideoAutoArena maakt gebruik van gebruikerssimulatie om open vragen te genereren die adaptief zijn en op strenge wijze de prestaties van modellen in videobegrip beoordelen. De benchmark beschikt over een geautomatiseerd, schaalbaar evaluatieraamwerk, waarbij een aangepast ELO Rating System wordt gebruikt voor eerlijke en voortdurende vergelijkingen tussen meerdere LMM's. Om ons geautomatiseerde beoordelingssysteem te valideren, construeren we een 'gouden standaard' met een zorgvuldig samengestelde subset van menselijke annotaties, waarbij wordt aangetoond dat onze arena sterk overeenkomt met menselijk oordeel terwijl schaalbaarheid behouden blijft. Daarnaast introduceren we een foutgestuurde evolutiestrategie, waarbij de complexiteit van vragen geleidelijk wordt verhoogd om modellen te stimuleren om meer uitdagende videobegripscenario's aan te kunnen. Experimentele resultaten tonen aan dat VideoAutoArena effectief onderscheid maakt tussen toonaangevende LMM's, en inzichten biedt in modelsterktes en verbeterpunten. Om onze evaluatie verder te stroomlijnen, introduceren we VideoAutoBench als aanvullende benchmark, waarbij menselijke annotators winnaars labelen in een subset van VideoAutoArena-gevechten. We gebruiken GPT-4o als beoordelaar om de antwoorden te vergelijken met deze door mensen gevalideerde antwoorden. Samen bieden VideoAutoArena en VideoAutoBench een kosteneffectief en schaalbaar raamwerk voor het evalueren van LMM's in gebruikersgerichte videobegrip.

4

SAMURAI: Het aanpassen van het Segment Anything Model voor Zero-Shot Visuele Tracking met Bewustzijn van Beweging
SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Nov 18
ByCheng-Yen Yang, Hsiang-Wei Huang, Wenhao Chai, Zhongyu Jiang, Jenq-Neng Hwang
19
3

Het Segment Anything Model 2 (SAM 2) heeft sterke prestaties aangetoond bij objectsegmentatietaken, maar staat voor uitdagingen bij visuele objecttracking, vooral bij het beheren van drukke scènes met snelbewegende of zelf-occluderende objecten. Bovendien houdt de vaste-venster-geheugenbenadering in het oorspronkelijke model geen rekening met de kwaliteit van geselecteerde herinneringen om de beeldkenmerken voor het volgende frame te conditioneren, wat leidt tot foutenpropagatie in video's. Dit artikel introduceert SAMURAI, een verbeterde aanpassing van SAM 2 die specifiek is ontworpen voor visuele objecttracking. Door temporele bewegingsaanwijzingen te combineren met het voorgestelde mechanisme voor bewust selecteren van geheugen, voorspelt SAMURAI effectief objectbeweging en verfijnt maskerselectie, waardoor robuuste, nauwkeurige tracking wordt bereikt zonder de noodzaak voor opnieuw trainen of fijnafstemmen. SAMURAI werkt in realtime en toont sterke zero-shot prestaties over diverse benchmarkdatasets, waarbij het vermogen om te generaliseren zonder fijnafstemming wordt gedemonstreerd. In evaluaties behaalt SAMURAI aanzienlijke verbeteringen in succespercentage en precisie ten opzichte van bestaande trackers, met een AUC-winst van 7,1% op LaSOT_{ext} en een AO-winst van 3,5% op GOT-10k. Bovendien behaalt het competitieve resultaten in vergelijking met volledig begeleide methoden op LaSOT, waarbij de robuustheid in complexe tracking scenario's en het potentieel voor toepassingen in dynamische omgevingen wordt benadrukt. Code en resultaten zijn beschikbaar op https://github.com/yangchris11/samurai.

5

Wanneer Precisie Positie Ontmoet: BFloat16 Doorbreekt RoPE in Training met Lange Contexten
When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

Nov 20
ByHaonan Wang, Qian Liu, Chao Du, Tongyao Zhu, Cunxiao Du, Kenji Kawaguchi, Tianyu Pang
16
2

Het vergroten van de contextvenstergroottes stelt grote taalmodellen (LLM's) in staat om langere sequenties te verwerken en complexere taken aan te kunnen. Rotary Positional Embedding (RoPE) is de facto standaard geworden vanwege zijn relatieve positionele coderingseigenschappen die gunstig zijn voor training met een lange context. We merken echter op dat het gebruik van RoPE met het BFloat16-formaat leidt tot numerieke problemen, waardoor het afwijkt van zijn beoogde relatieve positionele codering, vooral in scenario's met een lange context. Dit probleem ontstaat door de beperkte precisie van BFloat16 en stapelt zich op naarmate de contextlengte toeneemt, waarbij de eerste token aanzienlijk bijdraagt aan dit probleem. Om dit aan te pakken, hebben we AnchorAttention ontwikkeld, een plug-and-play aandachtsmethode die numerieke problemen veroorzaakt door BFloat16 verlicht, de mogelijkheden voor lange context verbetert en de training versnelt. AnchorAttention vermindert onnodige aandachtsberekeningen, behoudt semantische coherentie en verbetert de rekenkundige efficiëntie door de eerste token te behandelen als een gedeelde anker met een consistente positie-ID, waardoor het zichtbaar is voor alle documenten binnen de trainingscontext. Experimenten met drie soorten LLM's tonen aan dat AnchorAttention de prestaties op lange context aanzienlijk verbetert en de trainingsduur met meer dan 50% verkort in vergelijking met standaard volledige aandachtsmechanismen, terwijl de oorspronkelijke mogelijkheden van het LLM behouden blijven voor algemene taken. Onze code is beschikbaar op https://github.com/haonan3/AnchorContext.

6

Is jouw LLM stiekem een wereldmodel van het internet? Modelgebaseerde planning voor webagenten.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Nov 10
ByYu Gu, Boyuan Zheng, Boyu Gou, Kai Zhang, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
16
2

Taalagenten hebben veelbelovende mogelijkheden gedemonstreerd bij het automatiseren van webgebaseerde taken, hoewel hun huidige reactieve benaderingen nog steeds grotendeels onderpresteren in vergelijking met mensen. Door geavanceerde planningsalgoritmen, met name boomzoekmethoden, te integreren, zou de prestatie van deze agenten kunnen worden verbeterd, maar het direct implementeren van boomzoekacties op live websites brengt aanzienlijke veiligheidsrisico's en praktische beperkingen met zich mee vanwege onomkeerbare acties zoals het bevestigen van een aankoop. In dit artikel introduceren we een nieuw paradigma dat taalagenten verrijkt met op modellen gebaseerde planning, waarbij we het innovatieve gebruik van grote taalmodellen (LLM's) als wereldmodellen in complexe webomgevingen pionieren. Onze methode, WebDreamer, bouwt voort op het belangrijke inzicht dat LLM's inherent uitgebreide kennis coderen over websitestructuren en functionaliteiten. Specifiek gebruikt WebDreamer LLM's om resultaten te simuleren voor elke kandidaatactie (bijv. "wat zou er gebeuren als ik op deze knop klik?") met behulp van natuurlijke taalbeschrijvingen, en evalueert vervolgens deze voorgestelde resultaten om de optimale actie bij elke stap te bepalen. Empirische resultaten op twee representatieve webagentbenchmarks met online interactie - VisualWebArena en Mind2Web-live - tonen aan dat WebDreamer aanzienlijke verbeteringen behaalt ten opzichte van reactieve baselines. Door de levensvatbaarheid van LLM's als wereldmodellen in webomgevingen vast te stellen, legt dit werk de basis voor een paradigma verschuiving in geautomatiseerde webinteractie. Meer in het algemeen openen onze bevindingen spannende nieuwe wegen voor toekomstig onderzoek naar 1) het optimaliseren van LLM's specifiek voor wereldmodellering in complexe, dynamische omgevingen, en 2) op modellen gebaseerde speculatieve planning voor taalagenten.

7

Stijlcodes: Codering van Stilistische Informatie voor Beeldgeneratie
Stylecodes: Encoding Stylistic Information For Image Generation

Nov 19
ByCiara Rowles
12
2

Diffusiemodellen blinken uit in beeldgeneratie, maar het controleren ervan blijft een uitdaging. We richten ons op het probleem van stijl-geconditioneerde beeldgeneratie. Hoewel voorbeeldafbeeldingen werken, zijn ze omslachtig: srefs (stijl-referentiecodes) van MidJourney lossen dit probleem op door een specifieke beeldstijl uit te drukken in een kort numerieke code. Deze zijn wijdverbreid overgenomen op sociale media vanwege zowel het gemak van delen als het feit dat ze het gebruik van een afbeelding voor stijlcontrole mogelijk maken, zonder de bronafbeeldingen zelf te hoeven plaatsen. Gebruikers kunnen echter geen srefs genereren vanuit hun eigen afbeeldingen, noch is de onderliggende trainingsprocedure openbaar. Wij stellen StyleCodes voor: een open-source en open-onderzoek stijl-encoderarchitectuur en trainingsprocedure om beeldstijl uit te drukken als een 20-symbool base64-code. Onze experimenten tonen aan dat onze codering resulteert in minimaal verlies in kwaliteit in vergelijking met traditionele beeld-naar-stijl technieken.

8

ViBe: Een tekst-naar-video benchmark voor het evalueren van hallucinatie in grote multimodale modellen.
ViBe: A Text-to-Video Benchmark for Evaluating Hallucination in Large Multimodal Models

Nov 16
ByVipula Rawte, Sarthak Jain, Aarush Sinha, Garv Kaushik, Aman Bansal, Prathiksha Rumale Vishwanath, Samyak Rajesh Jain, Aishwarya Naresh Reganti, Vinija Jain, Aman Chadha, Amit P. Sheth, Amitava Das
9
4

De laatste ontwikkelingen in Grote Multimodale Modellen (GMM's) hebben hun mogelijkheden verbreed om ook video begrip te omvatten. Specifiek hebben Tekst-naar-video (T2V) modellen aanzienlijke vooruitgang geboekt op het gebied van kwaliteit, begrip en duur, waarbij ze uitblinken in het maken van video's op basis van eenvoudige tekstuele aanwijzingen. Toch produceren ze nog steeds vaak gehallucineerde inhoud die duidelijk aangeeft dat de video door AI is gegenereerd. Wij introduceren ViBe: een grootschalige Tekst-naar-Video Benchmark van gehallucineerde video's door T2V modellen. We identificeren vijf belangrijke soorten hallucinaties: Verdwenen Onderwerp, Numerieke Variabiliteit, Temporele Dysmorfie, Weggelaten Fout, en Fysieke Incongruentie. Met behulp van 10 open-source T2V modellen hebben we het eerste grootschalige dataset van gehallucineerde video's ontwikkeld, bestaande uit 3,782 video's geannoteerd door mensen in deze vijf categorieën. ViBe biedt een unieke bron voor het evalueren van de betrouwbaarheid van T2V modellen en legt een basis voor het verbeteren van het detecteren en verminderen van hallucinaties bij videogeneratie. We stellen classificatie vast als een basislijn en presenteren verschillende ensemble classifier configuraties, waarbij de TimeSFormer + CNN combinatie de beste prestaties levert, met een nauwkeurigheid van 0.345 en een F1-score van 0.342. Deze benchmark heeft tot doel de ontwikkeling van robuuste T2V modellen te stimuleren die video's produceren die nauwkeuriger zijn afgestemd op de invoeraanwijzingen.

9

Voorspelling van verlies-tot-verlies: Schaalwetten voor alle datasets
Loss-to-Loss Prediction: Scaling Laws for All Datasets

Nov 19
ByDavid Brandfonbrener, Nikhil Anand, Nikhil Vyas, Eran Malach, Sham Kakade
5
2

Hoewel schaalwetten een betrouwbare methodologie bieden voor het voorspellen van trainingsverlies over rekenkundige schalen voor een enkele gegevensverdeling, is er minder bekend over hoe deze voorspellingen zouden moeten veranderen wanneer we de verdeling veranderen. In dit artikel leiden we een strategie af voor het voorspellen van het ene verlies uit het andere en passen we deze toe om te voorspellen over verschillende voorafgaande trainingsdatasets en van voorafgaande trainingsgegevens naar gegevens voor taakuitvoering. Onze voorspellingen extrapoleren zelfs goed tot 20x het grootste FLOP-budget dat is gebruikt om de curven te passen. Meer specifiek vinden we dat er eenvoudige verschoven machtsverhoudingen zijn tussen (1) de trainingsverliezen van twee modellen getraind op twee afzonderlijke datasets wanneer de modellen worden gekoppeld door trainingsberekening (train-to-train), (2) het trainingsverlies en het testverlies op elke taakuitvoeringsverdeling voor een enkel model (train-to-test), en (3) de testverliezen van twee modellen getraind op twee afzonderlijke trainingsdatasets (test-to-test). De resultaten gelden voor voorafgaande trainingsdatasets die aanzienlijk verschillen (sommige zijn volledig code en andere hebben helemaal geen code) en voor een verscheidenheid aan taken voor taakuitvoering. Tot slot vinden we dat in sommige situaties deze verschoven machtsverhoudingen nauwkeurigere voorspellingen kunnen opleveren dan het extrapoleren van schaalwetten voor enkele datasets.

10

Genereren van Samenstelbare Scènes via Tekst-naar-afbeelding RGBA Instantiegeneratie
Generating Compositional Scenes via Text-to-image RGBA Instance Generation

Nov 16
ByAlessandro Fontanella, Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Sarah Parisot
4
2

Tekst-naar-afbeelding diffusie generatieve modellen kunnen hoogwaardige afbeeldingen genereren ten koste van tijdrovende prompt-engineering. Controleerbaarheid kan worden verbeterd door lay-outconditionering te introduceren, echter bestaande methoden missen de mogelijkheid tot lay-outbewerking en fijnmazige controle over objectkenmerken. Het concept van meerlaagse generatie heeft veel potentieel om deze beperkingen aan te pakken, echter het gelijktijdig genereren van afbeeldingsinstanties en scènecompositie beperkt de controle over fijnmazige objectkenmerken, relatieve positionering in 3D-ruimte en scènemanipulatie mogelijkheden. In dit werk stellen we een nieuw meertraps generatieparadigma voor dat is ontworpen voor fijnmazige controle, flexibiliteit en interactiviteit. Om controle over instantiekenmerken te waarborgen, bedenken we een nieuw trainingsparadigma om een diffusiemodel aan te passen om geïsoleerde scèneonderdelen te genereren als RGBA-afbeeldingen met transparantie-informatie. Om complexe afbeeldingen te bouwen, gebruiken we deze vooraf gegenereerde instanties en introduceren we een meerlagig samengesteld generatieproces dat componenten soepel assembleert in realistische scènes. Onze experimenten tonen aan dat ons RGBA-diffusiemodel in staat is om diverse en hoogwaardige instanties te genereren met precieze controle over objectkenmerken. Door meerlagige compositie te gebruiken, tonen we aan dat onze aanpak het mogelijk maakt om afbeeldingen te bouwen en te manipuleren van zeer complexe prompts met fijnmazige controle over objectuiterlijk en locatie, met een hogere mate van controle dan concurrerende methoden.

11

ORID: Organ-Regionaal Informatiegestuurd Kader voor Radiologieverslag Generatie
ORID: Organ-Regional Information Driven Framework for Radiology Report Generation

Nov 20
ByTiancheng Gu, Kaicheng Yang, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai
2
2

Het doel van Radiologieverslaggeneratie (RRG) is om automatisch coherente tekstuele analyses van ziekten te genereren op basis van radiologische beelden, waardoor de werklast van radiologen wordt verlicht. Huidige op AI gebaseerde methoden voor RRG richten zich voornamelijk op aanpassingen aan de architectuur van het encoder-decoder model. Om deze benaderingen verder te ontwikkelen, introduceert dit artikel een Organ-Regionaal Informatiegestuurd (ORID) kader dat effectief multi-modale informatie kan integreren en de invloed van ruis van niet-gerelateerde organen kan verminderen. Specifiek, gebaseerd op de LLaVA-Med, construeren we eerst een RRG-gerelateerde instructiedataset om de vermogen van orgaan-regionale diagnosebeschrijving te verbeteren en krijgen we de LLaVA-Med-RRG. Daarna stellen we een op organen gebaseerde cross-modale fusiemodule voor om effectief de informatie van de orgaan-regionale diagnosebeschrijving en radiologiebeeld te combineren. Om de invloed van ruis van niet-gerelateerde organen op de generatie van radiologieverslagen verder te verminderen, introduceren we een module voor analyse van orgaanbelangrijke coëfficiënten, die gebruikmaakt van Graph Neural Network (GNN) om de onderlinge verbindingen van de cross-modale informatie van elk orgaanregio te onderzoeken. Uitgebreide experimenten en vergelijkingen met state-of-the-art methoden over verschillende evaluatiemetrics tonen de superieure prestaties van onze voorgestelde methode aan.

Nov 20
Nov 21
Nov 22