ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Schrijven in de marges: Een beter inferentiepatroon voor het ophalen van lange contexten
Writing in the Margins: Better Inference Pattern for Long Context Retrieval

Aug 27
ByMelisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh
144
11

In dit artikel introduceren we Writing in the Margins (WiM), een nieuw inferentiepatroon voor Large Language Models dat is ontworpen om de verwerking van lange invoerreeksen in retrievalgerichte taken te optimaliseren. Deze benadering maakt gebruik van de chunked prefill van de key-value cache om segmentgewijze inferentie uit te voeren, wat efficiënte verwerking van uitgebreide contexten mogelijk maakt, samen met de generatie en classificatie van tussentijdse informatie ("margins") die het model naar specifieke taken leidt. Deze methode verhoogt de rekenkosten marginaal, terwijl de prestaties van standaardmodellen aanzienlijk worden verbeterd zonder dat fine-tuning nodig is. Specifiek observeren we dat WiM een gemiddelde verbetering van 7,5% in nauwkeurigheid biedt voor redeneervaardigheden (HotpotQA, MultiHop-RAG) en een toename van meer dan 30,0% in de F1-score voor aggregatietaken (CWE). Daarnaast laten we zien hoe het voorgestelde patroon past in een interactief retrievalontwerp dat eindgebruikers voortdurend op de hoogte houdt van de voortgang van contextverwerking, en de integratie van relevante informatie in het uiteindelijke antwoord aanwijst. We hebben onze implementatie van WiM vrijgegeven met behulp van de Hugging Face Transformers-bibliotheek op https://github.com/writer/writing-in-the-margins.

2

Diffusiemodellen zijn real-time game-engines.
Diffusion Models Are Real-Time Game Engines

Aug 27
ByDani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter
126
16

We presenteren GameNGen, de eerste game-engine die volledig wordt aangedreven door een neuraal model en die real-time interactie mogelijk maakt met een complexe omgeving over lange trajecten met hoge kwaliteit. GameNGen kan het klassieke spel DOOM interactief simuleren met meer dan 20 frames per seconde op een enkele TPU. De voorspelling van het volgende frame bereikt een PSNR van 29.4, vergelijkbaar met lossy JPEG-compressie. Menselijke beoordelaars zijn slechts marginaal beter dan willekeurige kans in het onderscheiden van korte clips van het spel van clips van de simulatie. GameNGen wordt getraind in twee fasen: (1) een RL-agent leert het spel te spelen en de trainingssessies worden opgenomen, en (2) een diffusiemodel wordt getraind om het volgende frame te genereren, geconditioneerd op de reeks van vorige frames en acties. Conditioneringsaugmentaties maken stabiele autoregressieve generatie over lange trajecten mogelijk.

3

De Mamba in de Llama: Destilleren en Versnellen van Hybride Modellen
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Aug 27
ByJunxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao
42
6

Lineaire RNN-architecturen, zoals Mamba, kunnen concurreren met Transformer-modellen in taalmodelvorming, terwijl ze gunstige implementatiekenmerken hebben. Gezien de focus op het trainen van grootschalige Transformer-modellen, beschouwen we de uitdaging om deze voorgetrainde modellen om te zetten voor implementatie. We tonen aan dat het haalbaar is om grote Transformers te destilleren naar lineaire RNN's door de lineaire projectiegewichten uit aandachtslagen te hergebruiken met academische GPU-bronnen. Het resulterende hybride model, dat een kwart van de aandachtslagen bevat, bereikt prestaties die vergelijkbaar zijn met de oorspronkelijke Transformer in chatbenchmarks en overtreft open-source hybride Mamba-modellen die vanaf nul zijn getraind met biljoenen tokens, zowel in chatbenchmarks als in algemene benchmarks. Bovendien introduceren we een hardwarebewust speculatief decodeeralgoritme dat de inferentiesnelheid van Mamba en hybride modellen versnelt. Over het geheel genomen laten we zien hoe we, met beperkte rekenbronnen, veel van de oorspronkelijke aandachtslagen kunnen verwijderen en efficiënter kunnen genereren uit het resulterende model. Ons best presterende model, gedestilleerd uit Llama3-8B-Instruct, behaalt een lengtegecontroleerde winratio van 29,61 op AlpacaEval 2 tegenover GPT-4 en 7,35 op MT-Bench, waarmee het het best presterende instructiegetrainde lineaire RNN-model overtreft.

4

Generatieve Tussenbeelden: Aanpassing van Beeld-naar-Video Modellen voor Sleutelframe Interpolatie
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Aug 27
ByXiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz
30
2

We presenteren een methode voor het genereren van videosequenties met coherente beweging tussen een paar invoer keyframes. We passen een vooraf getraind grootschalig beeld-naar-video diffusiemodel aan (oorspronkelijk getraind om video's te genereren die voorwaarts in de tijd bewegen vanuit een enkel invoerbeeld) voor keyframe-interpolatie, d.w.z. om een video te produceren tussen twee invoerframes. We bereiken deze aanpassing door middel van een lichtgewicht fine-tuningtechniek die een versie van het model produceert dat in plaats daarvan video's voorspelt die achterwaarts in de tijd bewegen vanuit een enkel invoerbeeld. Dit model (samen met het originele voorwaarts bewegende model) wordt vervolgens gebruikt in een bidirectioneel diffusiebemonsteringsproces dat de overlappende modelvoorspellingen combineert die starten vanuit elk van de twee keyframes. Onze experimenten tonen aan dat onze methode zowel bestaande diffusiegebaseerde methoden als traditionele frame-interpolatietechnieken overtreft.

5

Text2SQL is niet voldoende: AI en databases verenigen met TAG
Text2SQL is Not Enough: Unifying AI and Databases with TAG

Aug 27
ByAsim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
26
2

AI-systemen die natuurlijke taalvragen over databases bedienen, beloven enorme waarde te ontsluiten. Dergelijke systemen zouden gebruikers in staat stellen om de krachtige redeneer- en kennisvaardigheden van taalmodelen (LMs) te combineren met de schaalbare rekenkracht van gegevensbeheersystemen. Deze gecombineerde mogelijkheden zouden gebruikers in staat stellen om willekeurige natuurlijke taalvragen te stellen over aangepaste gegevensbronnen. Bestaande methoden en benchmarks onderzoeken deze setting echter onvoldoende. Text2SQL-methoden richten zich uitsluitend op natuurlijke taalvragen die kunnen worden uitgedrukt in relationele algebra, wat slechts een kleine subset vertegenwoordigt van de vragen die echte gebruikers willen stellen. Evenzo beschouwt Retrieval-Augmented Generation (RAG) de beperkte subset van queries die kunnen worden beantwoord met puntzoekopdrachten naar één of enkele gegevensrecords binnen de database. Wij stellen Table-Augmented Generation (TAG) voor, een uniform en algemeen toepasbaar paradigma voor het beantwoorden van natuurlijke taalvragen over databases. Het TAG-model vertegenwoordigt een breed scala aan interacties tussen het LM en de database die voorheen niet zijn onderzocht en creëert spannende onderzoeksmogelijkheden om de wereldkennis en redeneervaardigheden van LMs over gegevens te benutten. We ontwikkelen systematisch benchmarks om het TAG-probleem te bestuderen en ontdekken dat standaardmethoden niet meer dan 20% van de queries correct beantwoorden, wat de noodzaak van verder onderzoek op dit gebied bevestigt. We geven code voor de benchmark vrij op https://github.com/TAG-Research/TAG-Bench.

6

Build-A-Scene: Interactieve 3D Lay-outcontrole voor Diffusie-Gebaseerde Afbeeldingsgeneratie
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Aug 27
ByAbdelrahman Eldesokey, Peter Wonka
22
4

Wij stellen een diffusiegebaseerde aanpak voor voor Text-to-Image (T2I) generatie met interactieve 3D-layoutcontrole. Layoutcontrole is uitgebreid bestudeerd om de tekortkomingen van T2I-diffusiemodellen in het begrijpen van de plaatsing en relaties van objecten vanuit tekstbeschrijvingen te verlichten. Desalniettemin zijn bestaande benaderingen voor layoutcontrole beperkt tot 2D-layouts, vereisen ze dat de gebruiker vooraf een statische layout opgeeft, en slagen ze er niet in gegenereerde afbeeldingen te behouden onder layoutwijzigingen. Dit maakt deze benaderingen ongeschikt voor toepassingen die 3D-objectcontrole en iteratieve verfijningen vereisen, zoals interieurontwerp en complexe scènegeneratie. Daarom maken we gebruik van de recente vooruitgang in dieptegestuurde T2I-modellen en stellen we een nieuwe aanpak voor voor interactieve 3D-layoutcontrole. We vervangen de traditionele 2D-boxen die worden gebruikt in layoutcontrole door 3D-boxen. Bovendien herzien we de T2I-taak als een meerfasig generatieproces, waarbij de gebruiker in elke fase een object in 3D kan invoegen, wijzigen en verplaatsen, terwijl objecten uit eerdere fasen behouden blijven. We bereiken dit door onze voorgestelde Dynamische Self-Attention (DSA) module en de consistente 3D-objectvertaalstrategie. Experimenten tonen aan dat onze aanpak complexe scènes kan genereren op basis van 3D-layouts, waardoor het succespercentage van objectgeneratie ten opzichte van standaard dieptegestuurde T2I-methoden verdubbelt. Bovendien presteert het beter dan andere methoden in het behouden van objecten onder layoutwijzigingen. Projectpagina: https://abdo-eldesokey.github.io/build-a-scene/

7

GenCA: Een tekstgeconditioneerd generatief model voor realistische en bestuurbare Codec Avatars
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

Aug 24
ByKeqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz
18
3

Foto-realistische en bestuurbare 3D-avatars zijn cruciaal voor diverse toepassingen zoals virtuele en gemengde realiteit (VR/MR), telepresence, gaming en filmproductie. Traditionele methoden voor het creëren van avatars omvatten vaak tijdrovende scan- en reconstructieprocessen voor elke avatar, wat hun schaalbaarheid beperkt. Bovendien bieden deze methoden niet de flexibiliteit om nieuwe identiteiten te genereren of bestaande te wijzigen. Aan de andere kant bieden generatieve modellen, door een sterke prior uit data te leren, een veelbelovend alternatief voor traditionele reconstructiemethoden, waardoor de tijdsdruk voor zowel data-acquisitie als -verwerking wordt verlicht. Daarnaast maken generatieve methoden downstream-toepassingen mogelijk die verder gaan dan reconstructie, zoals bewerking en stilisering. Desalniettemin staat het onderzoek naar generatieve 3D-avatars nog in de kinderschoenen, en hebben huidige methoden daarom nog beperkingen, zoals het creëren van statische avatars, een gebrek aan foto-realisme, onvolledige gezichtsdetails of beperkte bestuurbaarheid. Om dit aan te pakken, stellen we een tekst-geconditioneerd generatief model voor dat foto-realistische gezichtsavatars van diverse identiteiten kan genereren, met meer complete details zoals haar, ogen en de binnenkant van de mond, en dat bestuurd kan worden via een krachtige niet-parametrische latente expressieruimte. Specifiek integreren we de generatieve en bewerkingsmogelijkheden van latente diffusiemodellen met een sterk prior-model voor het besturen van avatar-expressies. Ons model kan hoogwaardige avatars genereren en besturen, zelfs die buiten de distributie vallen. We benadrukken ook het potentieel voor downstream-toepassingen, waaronder avatar-bewerking en single-shot avatar-reconstructie.

8

Platypus: Een Algemeen Specialistisch Model voor het Lezen van Tekst in Diverse Vormen
Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Aug 27
ByPeng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao
16
2

Het lezen van tekst uit afbeeldingen (zowel natuurlijke scènes als documenten) is al decennialang een belangrijk onderzoeksonderwerp, vanwege de hoge technische uitdaging en het brede toepassingsbereik. Voorheen werden individuele gespecialiseerde modellen ontwikkeld om de deel taken van tekstlezen aan te pakken (bijvoorbeeld herkenning van tekst in scènes, handgeschreven tekstherkenning en herkenning van wiskundige uitdrukkingen). Dergelijke gespecialiseerde modellen kunnen echter meestal niet effectief generaliseren over verschillende deel taken. Recentelijk hebben generalistische modellen (zoals GPT-4V), getraind op enorme hoeveelheden data op een uniforme manier, enorm potentieel getoond in het lezen van tekst in diverse scenario's, maar met de nadelen van beperkte nauwkeurigheid en lage efficiëntie. In dit werk stellen we Platypus voor, een gegeneraliseerd gespecialiseerd model voor tekstlezen. Specifiek combineert Platypus het beste van beide werelden: het kan tekst van verschillende vormen herkennen met een enkele uniforme architectuur, terwijl het uitstekende nauwkeurigheid en hoge efficiëntie bereikt. Om het voordeel van Platypus beter te benutten, hebben we ook een tekstleesdataset (genaamd Worms) samengesteld, waarvan de afbeeldingen zijn geselecteerd uit eerdere datasets en gedeeltelijk opnieuw gelabeld. Experimenten op standaard benchmarks demonstreren de effectiviteit en superioriteit van het voorgestelde Platypus-model. Het model en de data zullen publiekelijk beschikbaar worden gemaakt op https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

9

Project SHADOW: Symbolisch hogere-orde associatief deductief redeneren op Wikidata met behulp van LM-probing
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing

Aug 27
ByHanna Abi Akl
5
1

We introduceren SHADOW, een fijn afgestemd taalmodel getraind op een tussenliggende taak met behulp van associatief deductief redeneren, en meten de prestaties ervan op een taak voor het construeren van een kennisbank met behulp van Wikidata-triplecompletering. We evalueren SHADOW op de LM-KBC 2024-uitdaging en laten zien dat het de baseline-oplossing met 20% overtreft met een F1-score van 68,72%.

10

DSTI bij LLMs4OL 2024 Taak A: Intrinsieke versus extrinsieke kennis voor typeclassificatie
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification

Aug 26
ByHanna Abi Akl
5
1

We introduceren semantische torens, een extrinsieke kennisrepresentatiemethode, en vergelijken deze met intrinsieke kennis in grote taalmodellen voor ontologieleer. Onze experimenten tonen een afweging tussen prestaties en semantische verankering voor extrinsieke kennis in vergelijking met een fijn afgestemd model met intrinsieke kennis. We presenteren onze bevindingen voor de Large Language Models for Ontology Learning (LLMs4OL) 2024 challenge.

11

Tijdelijk consistente 3D-reconstructie van vogels
Temporally-consistent 3D Reconstruction of Birds

Aug 24
ByJohannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt
5
1

Dit artikel behandelt de 3D-reconstructie van zeevogels, die recentelijk in de belangstelling zijn gekomen van milieuwetenschappers als waardevolle bio-indicatoren voor milieuverandering. Dergelijke 3D-informatie is nuttig voor het analyseren van het gedrag en de fysiologische vorm van de vogels, bijvoorbeeld door het volgen van bewegingen, vormveranderingen en uiterlijke veranderingen. Vanuit het perspectief van computervisie zijn vogels bijzonder uitdagend vanwege hun snelle en vaak niet-rigide bewegingen. Wij stellen een benadering voor om de 3D-pose en -vorm te reconstrueren uit monoscopische video's van een specifiek ras zeevogel - de gewone zeekoet. Onze aanpak omvat een volledige pijplijn van detectie, tracking, segmentatie en temporeel consistente 3D-reconstructie. Daarnaast introduceren we een temporeel verlies dat huidige 3D-pose-schatters voor vogels op basis van enkele afbeeldingen uitbreidt naar het temporele domein. Bovendien bieden we een real-world dataset van 10.000 frames van video-observaties die gemiddeld negen vogels tegelijkertijd vastleggen, met een grote verscheidenheid aan bewegingen en interacties, inclusief een kleinere testset met vogelspecifieke keypoint-labels. Met behulp van onze temporele optimalisatie behalen we state-of-the-art prestaties voor de uitdagende sequenties in onze dataset.

12

LLM-3D Print: Grote Taalmodellen voor het Monitoren en Besturen van 3D-printen
LLM-3D Print: Large Language Models To Monitor and Control 3D Printing

Aug 26
ByYayati Jadhav, Peter Pak, Amir Barati Farimani
4
2

Industry 4.0 heeft de productie gerevolutioneerd door digitalisering te stimuleren en het paradigma te verschuiven naar additieve productie (AM). Fused Deposition Modeling (FDM), een belangrijke AM-technologie, maakt het mogelijk om sterk gepersonaliseerde, kosteneffectieve producten te creëren met minimaal materiaalverlies door middel van laag-voor-laag extrusie, wat een aanzienlijke uitdaging vormt voor traditionele subtractieve methoden. Echter, de gevoeligheid van materiaalextrusietechnieken voor fouten vereist vaak expertinterventie om defecten te detecteren en te mitigeren die de productkwaliteit ernstig kunnen aantasten. Hoewel geautomatiseerde foutdetectie en machine learning-modellen bestaan, is hun generaliseerbaarheid over diverse 3D-printeropstellingen, firmware en sensoren beperkt, en vereisen deep learning-methoden uitgebreide gelabelde datasets, wat de schaalbaarheid en aanpasbaarheid belemmert. Om deze uitdagingen aan te pakken, presenteren we een procesmonitorings- en controlekader dat gebruikmaakt van vooraf getrainde Large Language Models (LLM's) naast 3D-printers om printdefecten te detecteren en aan te pakken. De LLM evalueert de printkwaliteit door afbeeldingen te analyseren die na elke laag of printsegment zijn vastgelegd, faalmodi te identificeren en de printer te bevragen voor relevante parameters. Vervolgens genereert en voert het een corrigerend actieplan uit. We hebben de effectiviteit van het voorgestelde kader bij het identificeren van defecten gevalideerd door het te vergelijken met een controlegroep van ingenieurs met diverse AM-expertise. Onze evaluatie toonde aan dat LLM-gebaseerde agents niet alleen veelvoorkomende 3D-printfouten, zoals inconsistente extrusie, stringing, warping en laagadhesie, nauwkeurig identificeren, maar ook effectief de parameters bepalen die deze fouten veroorzaken en deze autonoom corrigeren zonder enige menselijke interventie.

Aug 27
Aug 28
Aug 29