ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

MagicQuill: Een Intelligent Interactief Beeldbewerkingssysteem
MagicQuill: An Intelligent Interactive Image Editing System

Nov 14
ByZichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, Yujun Shen
78
14

Beeldbewerking omvat een verscheidenheid aan complexe taken en vereist efficiënte en nauwkeurige manipulatietechnieken. In dit artikel presenteren we MagicQuill, een geïntegreerd beeldbewerkingssysteem dat een snelle realisatie van creatieve ideeën mogelijk maakt. Ons systeem beschikt over een gestroomlijnde maar functioneel robuuste interface, waardoor de articulatie van bewerkingen (bijv. het invoegen van elementen, het wissen van objecten, het veranderen van kleur) met minimale invoer mogelijk is. Deze interacties worden gemonitord door een multimodaal groot taalmodel (MLLM) om bewerkingsintenties in realtime te anticiperen, waardoor de noodzaak voor expliciete promptinvoer wordt omzeild. Ten slotte passen we een krachtige diffusieprior toe, versterkt door een zorgvuldig geleerd tweearmig plug-in module, om bewerkingsverzoeken met nauwkeurige controle te verwerken. Experimentele resultaten tonen de effectiviteit van MagicQuill aan bij het bereiken van hoogwaardige beeldbewerkingen. Bezoek alstublieft https://magic-quill.github.io om ons systeem uit te proberen.

2

LLaMA-Mesh: Het verenigen van 3D-meshgeneratie met taalmodellen
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models

Nov 14
ByZhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng
77
4

Dit werk onderzoekt het uitbreiden van de mogelijkheden van grote taalmodellen (LLM's) die zijn vooraf getraind op tekst om 3D-meshes te genereren binnen een geünificeerd model. Dit biedt belangrijke voordelen van (1) het benutten van ruimtelijke kennis die al is ingebed in LLM's, afgeleid van tekstuele bronnen zoals 3D-tutorials, en (2) het mogelijk maken van conversatiegerichte 3D-generatie en meshbegrip. Een primaire uitdaging is het effectief tokeniseren van 3D-meshgegevens in discrete tokens die LLM's naadloos kunnen verwerken. Om dit aan te pakken, introduceren we LLaMA-Mesh, een nieuw benadering die de vertexcoördinaten en vlakdefinities van 3D-meshes als platte tekst voorstelt, waardoor directe integratie met LLM's mogelijk is zonder de woordenschat uit te breiden. We construeren een dataset voor begeleid finetunen (SFT) waarmee vooraf getrainde LLM's (1) 3D-meshes kunnen genereren vanuit tekstprompts, (2) tekst en 3D-meshuitvoer kunnen produceren zoals vereist, en (3) 3D-meshes kunnen begrijpen en interpreteren. Ons werk is het eerste dat aantoont dat LLM's kunnen worden gefinetuned om complexe ruimtelijke kennis te verwerven voor 3D-meshgeneratie in een op tekst gebaseerd formaat, waarbij effectief de 3D- en tekstmodaliteiten worden verenigd. LLaMA-Mesh behaalt meshgeneratiekwaliteit die vergelijkbaar is met modellen die vanaf nul zijn getraind, terwijl sterke tekstgeneratieprestaties worden behouden.

3

Beperk uw verliezen bij taalmodellen met een groot vocabulaire.
Cut Your Losses in Large-Vocabulary Language Models

Nov 13
ByErik Wijmans, Brody Huval, Alexander Hertzberg, Vladlen Koltun, Philipp Krähenbühl
49
4

Naarmate taalmodellen steeds groter worden, groeit ook hun vocabulaire. Dit heeft de geheugenfootprint van LLM's tijdens training onevenredig verschoven naar één enkele laag: de kruis-entropie in de verliesberekening. Kruis-entropie bouwt een logit-matrix op met vermeldingen voor elk paar invoertokens en vocabulaire-items en verbruikt voor kleine modellen een orde van grootte meer geheugen dan de rest van de LLM bij elkaar. Wij stellen Cut Cross-Entropy (CCE) voor, een methode die de kruis-entropie verlies berekent zonder de logaritmes voor alle tokens in het globale geheugen te materialiseren. In plaats daarvan berekent CCE alleen de logaritme voor het juiste token en evalueert de log-sum-exp over alle logaritmes on-the-fly. We implementeren een aangepaste kernel die de matrixvermenigvuldigingen en de log-sum-exp reductie over het vocabulaire in flashgeheugen uitvoert, waardoor het globale geheugenverbruik voor de kruis-entropieberekening verwaarloosbaar wordt. Dit heeft een dramatisch effect. Als we het Gemma 2 (2B) model als voorbeeld nemen, vermindert CCE de geheugenfootprint van de verliesberekening van 24 GB naar 1 MB, en het totale geheugenverbruik tijdens de training van de classifier head van 28 GB naar 1 GB. Om de doorvoer van CCE te verbeteren, maken we gebruik van de inherente spaarzaamheid van softmax en stellen voor om elementen van de gradiëntberekening over te slaan die een verwaarloosbare (d.w.z. onder numerieke precisie) bijdrage aan de gradiënt hebben. Experimenten tonen aan dat de dramatische vermindering van geheugenverbruik wordt bereikt zonder snelheid of convergentie van de training op te offeren.

4

ClinicalBench: Kunnen LLM's Traditionele ML-Modellen Verslaan in Klinische Voorspellingen?
ClinicalBench: Can LLMs Beat Traditional ML Models in Clinical Prediction?

Nov 10
ByCanyu Chen, Jian Yu, Shan Chen, Che Liu, Zhongwei Wan, Danielle Bitterman, Fei Wang, Kai Shu
17
2

Grote taalmodellen (LLM's) beloven de huidige klinische systemen te revolutioneren vanwege hun superieure capaciteiten op medische tekstverwerkingstaken en medische licentie-examens. Ondertussen worden traditionele ML-modellen zoals SVM en XGBoost nog steeds voornamelijk gebruikt bij klinische voorspellingstaken. Een opkomende vraag is of LLM's traditionele ML-modellen kunnen verslaan in klinische voorspellingen. Daarom hebben we een nieuwe benchmark, ClinicalBench, ontwikkeld om uitgebreid de klinische voorspellende modelleringscapaciteiten van zowel algemene als medische LLM's te bestuderen en ze te vergelijken met traditionele ML-modellen. ClinicalBench omvat drie veelvoorkomende klinische voorspellingstaken, twee databases, 14 algemene LLM's, 8 medische LLM's en 11 traditionele ML-modellen. Uit uitgebreid empirisch onderzoek blijkt dat zowel algemene als medische LLM's, zelfs met verschillende modelgroottes, diverse aansturings- of fijnafstemmingsstrategieën, nog steeds niet kunnen winnen van traditionele ML-modellen in klinische voorspellingen, wat wijst op hun potentiële tekortkomingen in klinisch redeneren en besluitvorming. We roepen op tot voorzichtigheid wanneer beoefenaars LLM's in klinische toepassingen gebruiken. ClinicalBench kan worden gebruikt om de kloof te overbruggen tussen de ontwikkeling van LLM's voor de gezondheidszorg en de klinische praktijk in de echte wereld.

5

Sharingan: Het extraheren van de gebruikersactiesequentie uit desktopopnames.
Sharingan: Extract User Action Sequence from Desktop Recordings

Nov 13
ByYanting Chen, Yi Ren, Xiaoting Qin, Jue Zhang, Kehong Yuan, Lu Han, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
10
2

Video-opnames van gebruikersactiviteiten, met name desktop-opnames, bieden een rijke bron van gegevens om gebruikersgedrag te begrijpen en processen te automatiseren. Ondanks vooruitgang in Vision-Language Modellen (VLM's) en hun toenemend gebruik in videoanalyse, blijft het extraheren van gebruikersacties uit desktop-opnames een onderbelicht gebied. Dit artikel adresseert deze lacune door twee nieuwe VLM-gebaseerde methoden voor het extraheren van gebruikersacties voor te stellen: de Directe Frame-Gebaseerde Benadering (DF), die bemonsterde frames rechtstreeks invoert in VLM's, en de Differentiële Frame-Gebaseerde Benadering (DiffF), die expliciete frameverschillen incorporeert die zijn gedetecteerd via computervisietechnieken. We evalueren deze methoden met behulp van een basiszelf samengestelde dataset en een geavanceerde benchmark aangepast van eerdere werken. Onze resultaten tonen aan dat de DF-benadering een nauwkeurigheid van 70% tot 80% behaalt bij het identificeren van gebruikersacties, waarbij de geëxtraheerde actiesequenties opnieuw af te spelen zijn via Robotic Process Automation. We constateren dat hoewel VLM's potentieel tonen, het incorporeren van expliciete UI-veranderingen de prestaties kan verminderen, waardoor de DF-benadering betrouwbaarder wordt. Dit werk vertegenwoordigt de eerste toepassing van VLM's voor het extraheren van gebruikersactiesequenties uit desktop-opnames, waarbij nieuwe methoden, benchmarks en inzichten worden bijgedragen voor toekomstig onderzoek.

6

Inconsistenties in consistentiemodellen: beter oplossen van ODE impliceert niet noodzakelijk betere monsters.
Inconsistencies In Consistency Models: Better ODE Solving Does Not Imply Better Samples

Nov 13
ByNoël Vouitsis, Rasa Hosseinzadeh, Brendan Leigh Ross, Valentin Villecroze, Satya Krishna Gorti, Jesse C. Cresswell, Gabriel Loaiza-Ganem
10
2

Hoewel diffusiemodellen opmerkelijk hoogwaardige monsters kunnen genereren, worden ze intrinsiek belemmerd door hun dure iteratieve monsteringsprocedure. Consistentiemodellen (CM's) zijn onlangs naar voren gekomen als een veelbelovende methode voor het destilleren van diffusiemodellen, waarbij de kosten van monstering worden verlaagd door hoogwaardige monsters te genereren in slechts een paar iteraties. Consistentiemodeldestillatie heeft tot doel de gewone differentiaalvergelijking (ODE) van de stroom van waarschijnlijkheden op te lossen die wordt gedefinieerd door een bestaand diffusiemodel. CM's worden niet rechtstreeks getraind om fouten te minimaliseren ten opzichte van een ODE-oplosser, maar gebruiken in plaats daarvan een meer computationeel haalbaar doel. Als een manier om te bestuderen hoe effectief CM's de ODE van de stroom van waarschijnlijkheden oplossen, en welk effect eventuele geïnduceerde fouten hebben op de kwaliteit van gegenereerde monsters, introduceren we Directe CM's, die deze fout rechtstreeks minimaliseren. Interessant genoeg vinden we dat Directe CM's de fout bij het oplossen van de ODE verminderen in vergelijking met CM's, maar ook resulteren in aanzienlijk slechtere monsterkwaliteit, waarbij de vraag rijst waarom CM's precies goed werken in de eerste plaats. De volledige code is beschikbaar op: https://github.com/layer6ai-labs/direct-cms.

7

Hermes: Een Groot Taalmodel Framework op de Reis naar Autonome Netwerken
Hermes: A Large Language Model Framework on the Journey to Autonomous Networks

Nov 10
ByFadhel Ayed, Ali Maatouk, Nicola Piovesan, Antonio De Domenico, Merouane Debbah, Zhi-Quan Luo
7
2

De drang naar het automatiseren van de werking van cellulair netwerken is toegenomen met de toenemende complexiteit van deze systemen. Ondanks vooruitgang blijft volledige autonomie momenteel buiten bereik vanwege de afhankelijkheid van menselijke tussenkomst bij het modelleren van netwerkgedrag en het definiëren van beleidslijnen om aan de doelvereisten te voldoen. Netwerk Digitale Tweelingen (NDT's) hebben belofte getoond in het verbeteren van netwerkintelligentie, maar de succesvolle implementatie van deze technologie wordt beperkt door use case-specifieke architecturen, waardoor de rol ervan bij het bevorderen van netwerkautonomie beperkt blijft. Een meer capabele netwerkintelligentie, of "telecommunicatiebrein", is nodig om naadloos, autonoom beheer van cellulair netwerk mogelijk te maken. Grote Taalmodellen (LLM's) zijn naar voren gekomen als potentiële facilitators voor deze visie, maar worden geconfronteerd met uitdagingen in netwerkmodellering, vooral in redenering en het omgaan met diverse gegevenstypen. Om deze lacunes aan te pakken, introduceren we Hermes, een keten van LLM-agenten die "blauwdrukken" gebruiken voor het construeren van NDT-instanties via gestructureerde en verklaarbare logische stappen. Hermes maakt automatische, betrouwbare en nauwkeurige netwerkmodellering van diverse use cases en configuraties mogelijk, waarmee vooruitgang wordt geboekt naar volledig autonome netwerkoperaties.

Nov 14
Nov 15
Nov 18