ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Ster Aandacht: Efficiënte LLM Inferentie over Lange Sequenties
Star Attention: Efficient LLM Inference over Long Sequences

Nov 26
ByShantanu Acharya, Fei Jia, Boris Ginsburg
53
2

Inferentie met op Transformer gebaseerde Grote Taalmodellen (LLM's) op lange sequenties is zowel kostbaar als traag vanwege de kwadratische complexiteit van het zelfaandachtsmechanisme. We introduceren Star Attention, een tweefasen blok-schaarse benadering die de computationele efficiëntie verbetert door aandacht over meerdere hosts te verdelen terwijl de communicatie-overhead wordt geminimaliseerd. In de eerste fase wordt de context verwerkt met bloksgewijze lokale aandacht over hosts, parallel. In de tweede fase wonen query- en antwoordtokens bij aan alle eerdere gecachte tokens via sequentie-globale aandacht. Star Attention integreert naadloos met de meeste op Transformer gebaseerde LLM's die zijn getraind met globale aandacht, waardoor geheugenvereisten en inferentietijd met maximaal 11x worden verminderd, terwijl 95-100% van de nauwkeurigheid behouden blijft.

2

O1 Replicatie Reis -- Deel 2: O1-preview Overtreffen via Simpele Destillatie, Grote Vooruitgang of Bittere Les?
O1 Replication Journey -- Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

Nov 25
ByZhen Huang, Haoyang Zou, Xuefeng Li, Yixiu Liu, Yuxiang Zheng, Ethan Chern, Shijie Xia, Yiwei Qin, Weizhe Yuan, Pengfei Liu
45
2

Dit artikel presenteert een kritische beoordeling van de huidige benaderingen voor het repliceren van de mogelijkheden van het O1-model van OpenAI, met speciale aandacht voor het veelvoorkomende maar vaak onbekend gebleven gebruik van kennisdestillatietechnieken. Terwijl ons eerdere werk de fundamentele technische weg naar O1-replicatie onderzocht, onthult deze studie hoe eenvoudige destillatie van O1's API, gecombineerd met begeleid finetunen, superieure prestaties kan behalen op complexe wiskundige redeneertaken. Door uitgebreide experimenten tonen we aan dat een basismodel dat eenvoudig is gefinetuned op tienduizenden O1-gedestilleerde voorbeelden, O1-preview overtreft op de American Invitational Mathematics Examination (AIME) met minimale technische complexiteit. Bovendien strekt ons onderzoek zich uit voorbij wiskundige redenering om de generalisatiecapaciteiten van O1-gedestilleerde modellen over diverse taken te verkennen: hallucinatie, veiligheid en open-domein QA. Opmerkelijk is dat, ondanks training alleen op wiskundige probleemoplossingsgegevens, onze modellen sterke generalisatie naar open vragen met een open einde toonden en aanzienlijk minder vatbaar werden voor vleierij na finetuning. We maken deze bevinding opzettelijk openbaar om transparantie in AI-onderzoek te bevorderen en de huidige trend van verhulde technische claims in het veld uit te dagen. Ons werk omvat: (1) Een gedetailleerde technische uiteenzetting van het destillatieproces en de effectiviteit ervan, (2) Een uitgebreid benchmarkkader voor het evalueren en categoriseren van O1-replicatiepogingen op basis van hun technische transparantie en reproduceerbaarheid, (3) Een kritische bespreking van de beperkingen en potentiële risico's van het te veel vertrouwen op destillatiebenaderingen. Onze analyse komt tot een cruciale bittere les: terwijl het streven naar meer capabele AI-systemen belangrijk is, is de ontwikkeling van onderzoekers die geworteld zijn in eerstegraads denken van het grootste belang.

3

Materiaal Alles: Het Genereren van Materialen voor Elk 3D Object via Diffusie
Material Anything: Generating Materials for Any 3D Object via Diffusion

Nov 22
ByXin Huang, Tengfei Wang, Ziwei Liu, Qing Wang
40
3

Wij presenteren Material Anything, een volledig geautomatiseerd, verenigd diffusiekader dat is ontworpen om op fysische principes gebaseerde materialen te genereren voor 3D-objecten. In tegenstelling tot bestaande methoden die vertrouwen op complexe pipelines of geoptimaliseerde oplossingen voor specifieke gevallen, biedt Material Anything een robuuste, end-to-end oplossing die aanpasbaar is aan objecten onder diverse lichtomstandigheden. Onze aanpak maakt gebruik van een vooraf getraind beelddiffusiemodel, verbeterd met een triple-head architectuur en renderingsverlies om stabiliteit en materiaalkwaliteit te verbeteren. Daarnaast introduceren we vertrouwensmaskers als een dynamische schakelaar binnen het diffusiemodel, waardoor het effectief kan omgaan met zowel gestructureerde als niet-gestructureerde objecten onder verschillende lichtomstandigheden. Door gebruik te maken van een progressieve materiaalgeneratiestrategie geleid door deze vertrouwensmaskers, samen met een UV-ruimte materiaalverfijner, zorgt onze methode voor consistente, UV-klaar materiaaluitvoer. Uitgebreide experimenten tonen aan dat onze aanpak bestaande methoden overtreft over een breed scala van objectcategorieën en lichtomstandigheden.

4

Van Generatie tot Beoordeling: Kansen en Uitdagingen van LLM-als-een-rechter
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge

Nov 25
ByDawei Li, Bohan Jiang, Liangjie Huang, Alimohammad Beigi, Chengshuai Zhao, Zhen Tan, Amrita Bhattacharjee, Yuxuan Jiang, Canyu Chen, Tianhao Wu, Kai Shu, Lu Cheng, Huan Liu
39
2

Beoordeling en evaluatie zijn al lange tijd kritieke uitdagingen in kunstmatige intelligentie (AI) en natuurlijke taalverwerking (NLP). Echter, traditionele methoden, of ze nu op matching gebaseerd zijn of op embedding, schieten vaak tekort bij het beoordelen van subtiele kenmerken en het leveren van bevredigende resultaten. Recente ontwikkelingen in Grote Taalmodellen (LLM's) inspireren het "LLM-als-beoordelaar" paradigma, waar LLM's worden ingezet om scoring, rangschikking of selectie uit te voeren over verschillende taken en toepassingen. Dit artikel biedt een uitgebreid overzicht van op LLM's gebaseerde beoordeling en beoordeling, met een diepgaand overzicht om dit opkomende vakgebied verder te brengen. We beginnen met gedetailleerde definities vanuit zowel input- als outputperspectieven. Vervolgens introduceren we een uitgebreide taxonomie om LLM-als-beoordelaar te verkennen vanuit drie dimensies: wat te beoordelen, hoe te beoordelen en waar te beoordelen. Tot slot stellen we benchmarks samen voor het evalueren van LLM-als-beoordelaar en benadrukken we belangrijke uitdagingen en veelbelovende richtingen, met als doel waardevolle inzichten te bieden en toekomstig onderzoek in dit veelbelovende onderzoeksgebied te inspireren. Een lijst met artikelen en meer informatie over LLM-als-beoordelaar is te vinden op https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge en https://llm-as-a-judge.github.io.

5

GMAI-VL & GMAI-VL-5.5M: Een Groot Visie-Taalmodel en Een Uitgebreide Multimodale Dataset Richting Algemene Medische AI
GMAI-VL & GMAI-VL-5.5M: A Large Vision-Language Model and A Comprehensive Multimodal Dataset Towards General Medical AI

Nov 21
ByTianbin Li, Yanzhou Su, Wei Li, Bin Fu, Zhe Chen, Ziyan Huang, Guoan Wang, Chenglong Ma, Ying Chen, Ming Hu, Yanjun Li, Pengcheng Chen, Xiaowei Hu, Zhongying Deng, Yuanfeng Ji, Jin Ye, Yu Qiao, Junjun He
38
2

Ondanks aanzienlijke vooruitgang in algemene kunstmatige intelligentie, zoals GPT-4, blijft hun effectiviteit in het medische domein (algemene medische AI, GMAI) beperkt vanwege het ontbreken van gespecialiseerde medische kennis. Om dit probleem aan te pakken, presenteren we GMAI-VL-5.5M, een uitgebreide multimodale medische dataset gecreëerd door honderden gespecialiseerde medische datasets om te zetten in zorgvuldig geconstrueerde afbeelding-tekst paren. Deze dataset biedt uitgebreide dekking van taken, diverse modaliteiten en hoogwaardige afbeelding-tekst gegevens. Voortbouwend op deze multimodale dataset stellen we GMAI-VL voor, een algemeen medisch visie-taalmodel met een progressieve drie-fasen trainingsstrategie. Deze aanpak verbetert aanzienlijk de mogelijkheden van het model door visuele en tekstuele informatie te integreren, waardoor het vermogen om multimodale gegevens te verwerken en nauwkeurige diagnoses en klinische besluitvorming te ondersteunen, wordt verbeterd. Experimentele evaluaties tonen aan dat GMAI-VL state-of-the-art resultaten behaalt op een breed scala van multimodale medische taken, zoals visuele vraagbeantwoording en medische beeld diagnose. Onze bijdragen omvatten de ontwikkeling van de GMAI-VL-5.5M dataset, de introductie van het GMAI-VL model, en het vaststellen van nieuwe benchmarks in meerdere medische domeinen. Code en dataset zullen worden vrijgegeven op https://github.com/uni-medical/GMAI-VL.

6

Grootschalig tekst-naar-afbeeldingmodel met inpainting is een zero-shot Beeldgenerator aangestuurd door onderwerp.
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23
ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon
33
2

Onderwerpgestuurde tekst-naar-afbeelding generatie heeft als doel om afbeeldingen van een nieuw onderwerp binnen een gewenste context te produceren door zowel de visuele kenmerken van het onderwerp als de semantische inhoud van een tekstprompt nauwkeurig vast te leggen. Traditionele methoden vertrouwen op tijds- en resource-intensieve fijnafstemming voor onderwerpaligment, terwijl recente zero-shot benaderingen gebruikmaken van on-the-fly afbeeldingprompting, waarbij vaak onderwerpaligment wordt opgeofferd. In dit artikel introduceren we Diptiek Prompting, een nieuw zero-shot benadering die als een inpainting taak herinterpreteert met precies onderwerpaligment door gebruik te maken van het opkomende kenmerk van diptiek generatie in grootschalige tekst-naar-afbeelding modellen. Diptiek Prompting rangschikt een onvolledige diptiek met de referentieafbeelding in het linkerpaneel, en voert tekst-geconditioneerd inpainting uit op het rechterpaneel. We voorkomen verder ongewenst contentlek door de achtergrond in de referentieafbeelding te verwijderen en verbeteren fijngemalen details in het gegenereerde onderwerp door aandachtsgewichten tussen de panelen te versterken tijdens het inpaintingproces. Experimentele resultaten bevestigen dat onze benadering aanzienlijk beter presteert dan zero-shot afbeeldingprompting methoden, resulterend in afbeeldingen die visueel de voorkeur hebben van gebruikers. Bovendien ondersteunt onze methode niet alleen onderwerpgestuurde generatie, maar ook gestileerde afbeeldingsgeneratie en onderwerpgestuurde afbeeldingsbewerking, waarbij veelzijdigheid wordt aangetoond over diverse toepassingen voor afbeeldingsgeneratie. Projectpagina: https://diptychprompting.github.io/

7

Reflecties van de Hackathon voor Grote Taalmodel (GTM) van 2024 voor toepassingen in Materialenkunde en Chemie
Reflections from the 2024 Large Language Model (LLM) Hackathon for Applications in Materials Science and Chemistry

Nov 20
ByYoel Zimmermann, Adib Bazgir, Zartashia Afzal, Fariha Agbere, Qianxiang Ai, Nawaf Alampara, Alexander Al-Feghali, Mehrad Ansari, Dmytro Antypov, Amro Aswad, Jiaru Bai, Viktoriia Baibakova, Devi Dutta Biswajeet, Erik Bitzek, Joshua D. Bocarsly, Anna Borisova, Andres M Bran, L. Catherine Brinson, Marcel Moran Calderon, Alessandro Canalicchio, Victor Chen, Yuan Chiang, Defne Circi, Benjamin Charmes, Vikrant Chaudhary, Zizhang Chen, Min-Hsueh Chiu, Judith Clymo, Kedar Dabhadkar, Nathan Daelman, Archit Datar, Matthew L. Evans, Maryam Ghazizade Fard, Giuseppe Fisicaro, Abhijeet Sadashiv Gangan, Janine George, Jose D. Cojal Gonzalez, Michael Götte, Ankur K. Gupta, Hassan Harb, Pengyu Hong, Abdelrahman Ibrahim, Ahmed Ilyas, Alishba Imran, Kevin Ishimwe, Ramsey Issa, Kevin Maik Jablonka, Colin Jones, Tyler R. Josephson, Greg Juhasz, Sarthak Kapoor, Rongda Kang, Ghazal Khalighinejad, Sartaaj Khan, Sascha Klawohn, Suneel Kuman, Alvin Noe Ladines, Sarom Leang, Magdalena Lederbauer, Sheng-Lun Mark Liao, Hao Liu, Xuefeng Liu, Stanley Lo, Sandeep Madireddy, Piyush Ranjan Maharana, Shagun Maheshwari, Soroush Mahjoubi, José A. Márquez, Rob Mills, Trupti Mohanty, Bernadette Mohr, Seyed Mohamad Moosavi, Alexander Moßhammer, Amirhossein D. Naghdi, Aakash Naik, Oleksandr Narykov, Hampus Näsström, Xuan Vu Nguyen, Xinyi Ni, Dana O'Connor, Teslim Olayiwola, Federico Ottomano, Aleyna Beste Ozhan, Sebastian Pagel, Chiku Parida, Jaehee Park, Vraj Patel, Elena Patyukova, Martin Hoffmann Petersen, Luis Pinto, José M. Pizarro, Dieter Plessers, Tapashree Pradhan, Utkarsh Pratiush, Charishma Puli, Andrew Qin, Mahyar Rajabi, Francesco Ricci, Elliot Risch, Martiño Ríos-García, Aritra Roy, Tehseen Rug, Hasan M Sayeed, Markus Scheidgen, Mara Schilling-Wilhelmi, Marcel Schloz, Fabian Schöppach, Julia Schumann, Philippe Schwaller, Marcus Schwarting, Samiha Sharlin, Kevin Shen, Jiale Shi, Pradip Si, Jennifer D'Souza, Taylor Sparks, Suraj Sudhakar, Leopold Talirz, Dandan Tang, Olga Taran, Carla Terboven, Mark Tropin, Anastasiia Tsymbal, Katharina Ueltzen, Pablo Andres Unzueta, Archit Vasan, Tirtha Vinchurkar, Trung Vo, Gabriel Vogel, Christoph Völker, Jan Weinreich, Faradawn Yang, Mohd Zaki, Chi Zhang, Sylvester Zhang, Weijie Zhang, Ruijie Zhu, Shang Zhu, Jan Janssen, Ian Foster, Ben Blaiszik
30
2

Hier presenteren we de resultaten van de tweede Hackathon voor Toepassingen in Materialenkunde en Chemie met behulp van Grote Taalmodellen (LLM), waarbij deelnemers van over de hele wereld op hybride locaties betrokken waren en resulteerde in 34 teaminzendingen. De inzendingen bestreken zeven belangrijke toepassingsgebieden en toonden de diverse bruikbaarheid van LLM's voor toepassingen in (1) voorspelling van moleculaire en materiaaleigenschappen; (2) ontwerp van moleculen en materialen; (3) automatisering en nieuwe interfaces; (4) wetenschappelijke communicatie en educatie; (5) beheer en automatisering van onderzoeksgegevens; (6) hypothesevorming en evaluatie; en (7) kennisextractie en redeneren uit wetenschappelijke literatuur. Elke teaminzending wordt gepresenteerd in een samenvattende tabel met links naar de code en beknopte papers in de bijlage. Naast de teamresultaten bespreken we het hackathonevenement en het hybride formaat, dat fysieke hubs in Toronto, Montreal, San Francisco, Berlijn, Lausanne en Tokio omvatte, samen met een wereldwijde online hub om lokale en virtuele samenwerking mogelijk te maken. Over het algemeen benadrukte het evenement aanzienlijke verbeteringen in de mogelijkheden van LLM's sinds de hackathon van het vorige jaar, wat wijst op de voortdurende uitbreiding van LLM's voor toepassingen in onderzoek naar materialenkunde en chemie. Deze resultaten tonen de dubbele bruikbaarheid van LLM's aan als zowel veelzijdige modellen voor diverse machine learning taken als platforms voor het snel prototypen van op maat gemaakte toepassingen in wetenschappelijk onderzoek.

8

Eén Diffusie om Ze Allemaal te Genereren
One Diffusion to Generate Them All

Nov 25
ByDuong H. Le, Tuan Pham, Sangho Lee, Christopher Clark, Aniruddha Kembhavi, Stephan Mandt, Ranjay Krishna, Jiasen Lu
28
2

We introduceren OneDiffusion, een veelzijdig, grootschalig diffusiemodel dat naadloos bidirectionele beeldsynthese en begrip ondersteunt over diverse taken. Het maakt conditionele generatie mogelijk vanuit invoer zoals tekst, diepte, pose, lay-out en semantische kaarten, terwijl het ook taken zoals beeldontblurring, upscaling en omgekeerde processen zoals diepteschatting en segmentatie behandelt. Daarnaast maakt OneDiffusion multi-view generatie, camera pose schatting en directe personalisatie mogelijk met behulp van opeenvolgende beeldinvoer. Ons model hanteert een eenvoudige maar effectieve benadering door alle taken te behandelen als frame-sequenties met variërende ruisniveaus tijdens training, waardoor elk frame kan fungeren als een conditioneel beeld tijdens inferentie. Ons verenigd trainingskader elimineert de noodzaak voor gespecialiseerde architecturen, ondersteunt schaalbare multi-taak training en past soepel aan bij elke resolutie, waardoor zowel generalisatie als schaalbaarheid worden verbeterd. Experimentele resultaten tonen competitieve prestaties over taken in zowel generatie als voorspelling, zoals tekst-naar-beeld, multi-view generatie, ID-behoud, diepteschatting en camera pose schatting ondanks een relatief kleine trainingsdataset. Onze code en checkpoint zijn vrij beschikbaar op https://github.com/lehduong/OneDiffusion

9

MH-MoE: Multi-Head Mengsel-van-Experts
MH-MoE:Multi-Head Mixture-of-Experts

Nov 25
ByShaohan Huang, Xun Wu, Shuming Ma, Furu Wei
26
4

Multi-Head Mixture-of-Experts (MH-MoE) toont superieure prestaties door het gebruik van het multi-head mechanisme om gezamenlijk informatie bij te wonen uit verschillende representatieruimtes binnen verschillende experts. In dit artikel presenteren we een nieuwe implementatie van MH-MoE die zowel FLOPs als parameterpariteit behoudt met schaarse Mixture of Experts-modellen. Experimentele resultaten op taalmodellen tonen aan dat de nieuwe implementatie kwaliteitsverbeteringen oplevert ten opzichte van zowel vanilla MoE als fijnmazige MoE-modellen. Bovendien tonen onze experimenten aan dat MH-MoE compatibel is met 1-bits Large Language Models (LLMs) zoals BitNet.

10

Interactieve medische beeldsegmentatie: Een benchmark dataset en basislijn
Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline

Nov 19
ByJunlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He
23
2

Interactieve medische beeldsegmentatie (IMIS) wordt al lange tijd beperkt door de beperkte beschikbaarheid van grootschalige, diverse en dicht becommentarieerde datasets, wat modelgeneralisatie en consistente evaluatie over verschillende modellen belemmert. In dit artikel introduceren we de IMed-361M benchmark dataset, een significante vooruitgang in algemeen IMIS-onderzoek. Allereerst verzamelen en standaardiseren we meer dan 6,4 miljoen medische beelden en hun bijbehorende grondwaarheidmaskers vanuit meerdere gegevensbronnen. Vervolgens, door gebruik te maken van de sterke objectherkenningsmogelijkheden van een visionair fundamenteel model, hebben we automatisch dichte interactieve maskers gegenereerd voor elk beeld en hebben we hun kwaliteit gewaarborgd door middel van strenge kwaliteitscontrole en granulariteitsbeheer. In tegenstelling tot eerdere datasets, die beperkt zijn door specifieke modaliteiten of schaarse annotaties, omvat IMed-361M 14 modaliteiten en 204 segmentatiedoelen, met in totaal 361 miljoen maskers - een gemiddelde van 56 maskers per beeld. Ten slotte hebben we een IMIS-basismodelnetwerk ontwikkeld op deze dataset dat hoogwaardige maskergeneratie ondersteunt via interactieve invoer, waaronder klikken, begrenzingskaders, tekstprompts en hun combinaties. We evalueren de prestaties ervan op medische beeldsegmentatietaken vanuit verschillende perspectieven, waarbij we superieure nauwkeurigheid en schaalbaarheid aantonen in vergelijking met bestaande interactieve segmentatiemodellen. Om onderzoek naar fundamentele modellen in medische computervisie te vergemakkelijken, stellen we de IMed-361M-dataset en het model beschikbaar op https://github.com/uni-medical/IMIS-Bench.

11

Gevisualiseerde Tokenisering en Generatie door Factorisatie
Factorized Visual Tokenization and Generation

Nov 25
ByZechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
19
2

Visuele tokenizers zijn fundamenteel voor beeldgeneratie. Ze zetten visuele gegevens om in discrete tokens, waardoor op transformer gebaseerde modellen uitblinken in beeldgeneratie. Ondanks hun succes worden VQ-gebaseerde tokenizers zoals VQGAN geconfronteerd met aanzienlijke beperkingen vanwege beperkte woordenschatgroottes. Het eenvoudigweg uitbreiden van de codeboek leidt vaak tot trainingsinstabiliteit en afnemende prestatiewinsten, waardoor schaalbaarheid een kritische uitdaging wordt. In dit werk introduceren we Factorized Quantization (FQ), een nieuw benadering die VQ-gebaseerde tokenizers nieuw leven inblaast door een groot codeboek op te delen in meerdere onafhankelijke sub-codeboeken. Deze factorisatie vermindert de opzoekcomplexiteit van grote codeboeken, waardoor meer efficiënte en schaalbare visuele tokenisatie mogelijk wordt. Om ervoor te zorgen dat elk sub-codeboek onderscheidende en complementaire informatie vastlegt, stellen we een ontvlechtingsregularisatie voor die expliciet redundantie vermindert en diversiteit bevordert over de sub-codeboeken. Bovendien integreren we representatie-leren in het trainingsproces, waarbij gebruik wordt gemaakt van vooraf getrainde vision-modellen zoals CLIP en DINO om semantische rijkdom in de geleerde representaties te injecteren. Deze opzet zorgt ervoor dat onze tokenizer diverse semantische niveaus vastlegt, wat leidt tot meer expressieve en ontvlochten representaties. Experimenten tonen aan dat het voorgestelde FQGAN-model aanzienlijk de reconstructiekwaliteit van visuele tokenizers verbetert en state-of-the-art prestaties behaalt. We tonen verder aan dat deze tokenizer effectief kan worden aangepast voor autoregressieve beeldgeneratie. https://showlab.github.io/FQGAN

12

DreamRunner: Fijnmazige verhalende videogeneratie met Bewegingsaanpassing verrijkt met ophalen
DreamRunner: Fine-Grained Storytelling Video Generation with Retrieval-Augmented Motion Adaptation

Nov 25
ByZun Wang, Jialu Li, Han Lin, Jaehong Yoon, Mohit Bansal
19
2

Het genereren van verhalende video's (SVG) is onlangs naar voren gekomen als een taak om lange, multi-beweging, multi-scene video's te creëren die consequent het verhaal vertegenwoordigen zoals beschreven in het invoertekstscript. SVG heeft veel potentieel voor diverse inhoudcreatie in media en entertainment; echter, het brengt ook aanzienlijke uitdagingen met zich mee: (1) objecten moeten een scala aan fijnmazige, complexe bewegingen vertonen, (2) meerdere objecten moeten consistent verschijnen over scènes, en (3) onderwerpen kunnen meerdere bewegingen vereisen met naadloze overgangen binnen een enkele scène. Om deze uitdagingen aan te pakken, stellen we DreamRunner voor, een nieuw methode voor het genereren van verhaal-naar-video: Ten eerste structureren we het invoertekstscript met behulp van een groot taalmodel (LLM) om zowel grofmazige scèneplanning als fijnmazige objectniveau lay-out en bewegingsplanning te vergemakkelijken. Vervolgens presenteert DreamRunner retrieval-versterkte testtijd-aanpassing om bewegingsprioriteiten voor objecten in elke scène vast te leggen, waardoor diverse bewegingsaanpassingen mogelijk zijn op basis van opgehaalde video's, en zo de generatie van nieuwe video's met complexe, gescripte bewegingen vergemakkelijkt wordt. Ten slotte stellen we een nieuw ruimtelijk-temporeel op regio's gebaseerd 3D-aandachts- en prioriteitsinjectiemodule SR3AI voor fijnmazige object-bewegingsbinding en frame-voor-frame semantische controle voor. We vergelijken DreamRunner met verschillende SVG-baselines, waarbij we een state-of-the-art prestatie aantonen in karakterconsistentie, tekstuitlijning en vloeiende overgangen. Bovendien vertoont DreamRunner een sterke fijnmazige voorwaarde-volgende vaardigheid in compositorische tekst-naar-video-generatie, waarbij het aanzienlijk beter presteert dan baselines op T2V-ComBench. Tot slot valideren we DreamRunner's robuuste vermogen om multi-objectinteracties te genereren met kwalitatieve voorbeelden.

13

Voorzichtige optimaliseerders: Training verbeteren met één regel code
Cautious Optimizers: Improving Training with One Line of Code

Nov 25
ByKaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu
19
2

AdamW is al jaren de standaard optimizer geweest voor transformer pretraining. Onze gemeenschap is al geruime tijd op zoek naar snellere en stabielere optimizers met uitsluitend positieve resultaten. In dit werk stellen we een enkele aanpassing voor in Pytorch aan elke op momentum gebaseerde optimizer, die we omdopen tot Voorzichtige Optimizer, bijvoorbeeld C-AdamW en C-Lion. Ons theoretische resultaat toont aan dat deze aanpassing de Hamiltoniaanse functie van Adam behoudt en de convergentiegarantie niet verbreekt onder de Lyapunov-analyse. Bovendien onthult ons theoretisch inzicht een geheel nieuwe familie van optimizers. Daaruit kiezen we de eenvoudigste voor empirische experimenten, waarbij we een versnelling laten zien bij Llama en MAE pretraining tot wel 1.47 keer. De code is beschikbaar op https://github.com/kyleliang919/C-Optim

14

SegBook: Een eenvoudige basislijn en handleiding voor volumetrische medische beeldsegmentatie
SegBook: A Simple Baseline and Cookbook for Volumetric Medical Image Segmentation

Nov 21
ByJin Ye, Ying Chen, Yanjun Li, Haoyu Wang, Zhongying Deng, Ziyan Huang, Yanzhou Su, Chenglong Ma, Yuanfeng Ji, Junjun He
19
2

Computertomografie (CT) is een van de meest populaire modaliteiten voor medische beeldvorming. CT-beelden hebben verreweg bijgedragen aan de grootste publiekelijk beschikbare datasets voor volumetrische medische segmentatietaken, die volledige lichaamsanatomische structuren bestrijken. Grote hoeveelheden volledige lichaams-CT-beelden bieden de mogelijkheid om krachtige modellen vooraf te trainen, bijvoorbeeld STU-Net vooraf getraind op een begeleide manier, om talrijke anatomische structuren te segmenteren. Het blijft echter onduidelijk onder welke omstandigheden deze vooraf getrainde modellen kunnen worden overgebracht naar verschillende downstream medische segmentatietaken, met name het segmenteren van andere modaliteiten en diverse doelen. Om dit probleem aan te pakken, is een grootschalige benchmark voor een uitgebreide evaluatie cruciaal om deze omstandigheden te vinden. Daarom hebben we 87 openbare datasets verzameld die variëren in modaliteit, doel en steekproefgrootte om de overdrachtsmogelijkheid van vooraf getrainde modellen voor volledige lichaams-CT te evalueren. Vervolgens hebben we een representatief model, STU-Net met meerdere modelschalen, ingezet om overdrachtsleren over modaliteiten en doelen uit te voeren. Onze experimentele resultaten tonen aan dat (1) er mogelijk een bottleneck-effect is met betrekking tot de datasetgrootte bij fijnafstemming, met meer verbetering op zowel kleine als grote datasets dan op middelgrote. (2) Modellen die vooraf zijn getraind op volledige lichaams-CT tonen effectieve modaliteitsoverdracht, waarbij ze zich goed aanpassen aan andere modaliteiten zoals MRI. (3) Vooraf trainen op volledige lichaams-CT ondersteunt niet alleen sterke prestaties bij structuurdetectie, maar toont ook effectiviteit bij laesiedetectie, waarbij het aanpasbaarheid laat zien over verschillende doeltaken. We hopen dat deze grootschalige open evaluatie van overdrachtsleren toekomstig onderzoek naar volumetrische medische beeldsegmentatie kan sturen.

15

VisualLens: Personalisatie door Visuele Geschiedenis
VisualLens: Personalization through Visual History

Nov 25
ByWang Bill Zhu, Deqing Fu, Kai Sun, Yi Lu, Zhaojiang Lin, Seungwhan Moon, Kanika Narang, Mustafa Canim, Yue Liu, Anuj Kumar, Xin Luna Dong
18
2

Wij veronderstellen dat de visuele geschiedenis van een gebruiker met afbeeldingen die hun dagelijks leven weerspiegelen, waardevolle inzichten biedt in hun interesses en voorkeuren, en kan worden benut voor personalisatie. Onder de vele uitdagingen om dit doel te bereiken, is de belangrijkste de diversiteit en ruis in de visuele geschiedenis, met afbeeldingen die niet noodzakelijkerwijs verband houden met een aanbevelingstaak, niet noodzakelijkerwijs de interesse van de gebruiker weerspiegelen, of zelfs niet noodzakelijkerwijs relevant zijn voor voorkeuren. Bestaande aanbevelingssystemen vertrouwen ofwel op taakspecifieke gebruikersinteractielogs, zoals online winkelgeschiedenis voor winkelaanbevelingen, of richten zich op tekstsignalen. Wij stellen een nieuw benadering voor, VisualLens, die beeldrepresentaties extraheren, filteren en verfijnen, en deze signalen benutten voor personalisatie. We hebben twee nieuwe benchmarks gecreëerd met taakagnostische visuele geschiedenissen, en laten zien dat onze methode de state-of-the-art aanbevelingen verbetert met 5-10% op Hit@3, en beter presteert dan GPT-4o met 2-5%. Onze benadering effent het pad voor gepersonaliseerde aanbevelingen in scenario's waar traditionele methoden tekortschieten.

16

TEXGen: een Generatief Diffusie Model voor Mesh Texturen
TEXGen: a Generative Diffusion Model for Mesh Textures

Nov 22
ByXin Yu, Ze Yuan, Yuan-Chen Guo, Ying-Tian Liu, JianHui Liu, Yangguang Li, Yan-Pei Cao, Ding Liang, Xiaojuan Qi
17
2

Hoewel hoogwaardige textuurkaarten essentieel zijn voor realistische 3D-assetweergave, hebben maar weinig studies onderzocht om rechtstreeks te leren in de textuurruimte, vooral op grootschalige datasets. In dit werk wijken we af van de conventionele benadering van vertrouwen op vooraf getrainde 2D-diffusiemodellen voor optimalisatie van 3D-texturen op testtijd. In plaats daarvan richten we ons op het fundamentele probleem van leren in de UV-textuurruiimte zelf. Voor het eerst trainen we een groot diffusiemodel dat in staat is om op een feedforward manier direct hoogwaardige textuurkaarten te genereren. Om efficiënt leren in UV-ruimtes met hoge resolutie te vergemakkelijken, stellen we een schaalbare netwerkarchitectuur voor die convoluties op UV-kaarten afwisselt met aandachtlagen op puntenwolken. Door gebruik te maken van dit architectonisch ontwerp trainen we een diffusiemodel met 700 miljoen parameters dat UV-textuurkaarten kan genereren die worden geleid door tekstprompts en enkelvoudige beeldweergaven. Eenmaal getraind, ondersteunt ons model natuurlijk diverse uitgebreide toepassingen, waaronder textuurinpainting geleid door tekst, voltooiing van textuur bij spaarzame weergaven, en door tekst gestuurde textuursynthese. De projectpagina is te vinden op http://cvmi-lab.github.io/TEXGen/.

17

Kennisoverdracht tussen modaliteiten met toezicht in natuurlijke taal
Knowledge Transfer Across Modalities with Natural Language Supervision

Nov 23
ByCarlo Alberto Barbano, Luca Molinaro, Emanuele Aiello, Marco Grangetto
16
3

We presenteren een manier om nieuwe concepten te leren door alleen hun tekstuele beschrijving te gebruiken. We noemen deze methode Kennisoverdracht. Net als bij menselijke perceptie maken we gebruik van crossmodale interactie om nieuwe concepten te introduceren. We veronderstellen dat in een vooraf getrainde visuele encoder er al genoeg laag-niveau kenmerken zijn geleerd (bijv. vorm, uiterlijk, kleur) die gebruikt kunnen worden om eerder onbekende hoog-niveau concepten te beschrijven. Met een tekstuele beschrijving van het nieuwe concept werkt onze methode door de bekende laag-niveau kenmerken van de visuele encoder af te stemmen op de hoog-niveau tekstuele beschrijving. We tonen aan dat Kennisoverdracht met succes nieuwe concepten kan introduceren in multimodale modellen, op een zeer efficiënte manier, door slechts een enkele beschrijving van het doelconcept te vereisen. Onze benadering is compatibel met zowel afzonderlijke tekstuele en visuele encoders (bijv. CLIP) als gedeelde parameters tussen modaliteiten. We tonen ook aan dat, volgens hetzelfde principe, Kennisoverdracht concepten die al bekend zijn bij het model kan verbeteren. Door Kennisoverdracht te benutten verbeteren we de zero-shot prestaties over verschillende taken zoals classificatie, segmentatie, beeld-tekst ophalen en bijschriften.

18

Van CISC naar RISC: assemblage-transpilatie geleid door taalmodel
From CISC to RISC: language-model guided assembly transpilation

Nov 25
ByAhmed Heakl, Chaimaa Abi, Rania Hossam, Abdulrahman Mahmoud
14
7

De overgang van x86 naar ARM-architectuur wordt steeds gebruikelijker in verschillende domeinen, voornamelijk gedreven door de energie-efficiëntie van ARM en verbeterde prestaties in traditionele sectoren. Deze ISA-verandering brengt echter aanzienlijke uitdagingen met zich mee, voornamelijk vanwege het uitgebreide legacy-ecosysteem van x86-software en het gebrek aan draagbaarheid tussen eigen ecosystemen en softwarestacks. Dit artikel introduceert CRT, een lichtgewicht LLM-gebaseerde transpiler die automatisch x86-assembly naar ARM-assembly omzet. Onze aanpak overbrugt de fundamentele architecturale kloof tussen x86's CISC-gebaseerde en ARM's RISC-gebaseerde rekenparadigma's, met behoud van programmatische semantiek en het optimaliseren van prestaties. We evalueren CRT op diverse real-world toepassingen, waarbij we een vertaalnauwkeurigheid van 79,25% behalen van x86 naar ARMv5 op onze uitgebreide testreeks, en een nauwkeurigheid van 88,68% van x86 naar RISC-V. In praktische implementaties op Apple M2-hardware (ARMv8), behaalt onze getranspileerde code een snelheidsverbetering van 1,73 keer in vergelijking met Apple's Rosetta 2 virtualisatiemotor, terwijl deze 2,41 keer geheugenefficiënter is en 1,47 keer beter energie verbruikt. Door middel van testen en analyse tonen we aan dat CRT met succes de CISC/RISC-scheiding overbrugt en correct uitvoerbare RISC-code genereert ondanks machine "taal" barrières. We publiceren onze code, modellen, trainingsdatasets en benchmarks op: https://ahmedheakl.github.io/asm2asm/.

19

SplatFlow: Multi-View Rectified Flow Model voor 3D Gaussisch Splatting Synthese
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis

Nov 25
ByHyojun Go, Byeongjun Park, Jiho Jang, Jin-Young Kim, Soonwoo Kwon, Changick Kim
11
2

Tekstgebaseerde generatie en bewerking van 3D-scènes hebben aanzienlijk potentieel om contentcreatie te stroomlijnen door intuïtieve gebruikersinteracties. Terwijl recente ontwikkelingen gebruikmaken van 3D Gaussische Splatting (3DGS) voor hoogwaardige en real-time rendering, zijn bestaande methoden vaak gespecialiseerd en taakgericht, waarbij een eenduidig kader ontbreekt voor zowel generatie als bewerking. In dit artikel introduceren we SplatFlow, een allesomvattend kader dat deze kloof overbrugt door directe 3DGS-generatie en bewerking mogelijk te maken. SplatFlow bestaat uit twee hoofdcomponenten: een multi-view rechtgetrokken stroom (RF) model en een Gaussische Splatting Decoder (GSDecoder). Het multi-view RF-model werkt in latente ruimte, genereert gelijktijdig multi-view afbeeldingen, dieptes en cameraposities, geconditioneerd op tekstprompts, waardoor uitdagingen zoals diverse scèneschalen en complexe cameratrajecten in real-world omgevingen worden aangepakt. Vervolgens vertaalt de GSDecoder efficiënt deze latente uitvoer naar 3DGS-representaties via een feedforward 3DGS-methode. Door gebruik te maken van trainingvrije inversie- en inpaintingtechnieken maakt SplatFlow naadloze 3DGS-bewerking mogelijk en ondersteunt het een breed scala aan 3D-taken, waaronder objectbewerking, synthese van nieuwe weergaven en schatting van cameraposities, binnen een eenduidig kader zonder dat er extra complexe pipelines nodig zijn. We valideren de mogelijkheden van SplatFlow op de MVImgNet en DL3DV-7K datasets, waarbij we de veelzijdigheid en effectiviteit ervan aantonen in verschillende 3D-generatie-, bewerkings- en inpainting-gebaseerde taken.

20

Alle talen zijn belangrijk: Evaluatie van LMM's op cultureel diverse 100 talen
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

Nov 25
ByAshmal Vayani, Dinura Dissanayake, Hasindri Watawana, Noor Ahsan, Nevasini Sasikumar, Omkar Thawakar, Henok Biadglign Ademtew, Yahya Hmaiti, Amandeep Kumar, Kartik Kuckreja, Mykola Maslych, Wafa Al Ghallabi, Mihail Mihaylov, Chao Qin, Abdelrahman M Shaker, Mike Zhang, Mahardika Krisna Ihsani, Amiel Esplana, Monil Gokani, Shachar Mirkin, Harsh Singh, Ashay Srivastava, Endre Hamerlik, Fathinah Asma Izzati, Fadillah Adamsyah Maani, Sebastian Cavada, Jenny Chim, Rohit Gupta, Sanjay Manjunath, Kamila Zhumakhanova, Feno Heriniaina Rabevohitra, Azril Amirudin, Muhammad Ridzuan, Daniya Kareem, Ketan More, Kunyang Li, Pramesh Shakya, Muhammad Saad, Amirpouya Ghasemaghaei, Amirbek Djanibekov, Dilshod Azizov, Branislava Jankovic, Naman Bhatia, Alvaro Cabrera, Johan Obando-Ceron, Olympiah Otieno, Fabian Farestam, Muztoba Rabbani, Sanoojan Baliah, Santosh Sanjeev, Abduragim Shtanchaev, Maheen Fatima, Thao Nguyen, Amrin Kareem, Toluwani Aremu, Nathan Xavier, Amit Bhatkal, Hawau Toyin, Aman Chadha, Hisham Cholakkal, Rao Muhammad Anwer, Michael Felsberg, Jorma Laaksonen, Thamar Solorio, Monojit Choudhury, Ivan Laptev, Mubarak Shah, Salman Khan, Fahad Khan
10
2

Bestaande Grote Multimodale Modellen (LMM's) richten zich over het algemeen alleen op een paar regio's en talen. Naarmate LMM's blijven verbeteren, wordt het steeds belangrijker om ervoor te zorgen dat ze culturele contexten begrijpen, lokale gevoeligheden respecteren en lage-bron talen ondersteunen, terwijl ze effectief overeenkomstige visuele aanwijzingen integreren. In de zoektocht naar cultureel diverse wereldwijde multimodale modellen vertegenwoordigt ons voorgestelde All Languages Matter Benchmark (ALM-bench) de grootste en meest uitgebreide inspanning tot nu toe om LMM's te evalueren over 100 talen. ALM-bench daagt bestaande modellen uit door hun vermogen te testen om cultureel diverse afbeeldingen in combinatie met tekst in verschillende talen te begrijpen en te redeneren, inclusief veel lage-bron talen die traditioneel ondervertegenwoordigd zijn in LMM-onderzoek. De benchmark biedt een robuust en genuanceerd evaluatiekader met verschillende vraagformaten, waaronder waar/onwaar, meerkeuze en open vragen, die verder zijn onderverdeeld in korte en lange antwoordcategorieën. Het ontwerp van ALM-bench zorgt voor een uitgebreide beoordeling van het vermogen van een model om te gaan met verschillende moeilijkheidsgraden in visueel en taalkundig redeneren. Om het rijke tapijt van wereldculturen vast te leggen, selecteert ALM-bench zorgvuldig inhoud uit 13 verschillende culturele aspecten, variërend van tradities en rituelen tot beroemde persoonlijkheden en vieringen. Hierdoor biedt ALM-bench niet alleen een rigoureus testplatform voor toonaangevende open en gesloten-bron LMM's, maar benadrukt het ook het belang van culturele en taalkundige inclusiviteit, wat de ontwikkeling van modellen aanmoedigt die diverse wereldbevolkingen effectief kunnen bedienen. Onze benchmark is openbaar beschikbaar.

21

LLM's Denken Niet Stapsgewijs bij Impliciet Redeneren
LLMs Do Not Think Step-by-step In Implicit Reasoning

Nov 24
ByYijiong Yu
9
2

Het is algemeen bekend dat Chain-of-Thought de prestaties van LLM's aanzienlijk kan verbeteren bij complexe taken. Echter, omdat dit ook langzamere inferentiesnelheden en hogere computationele kosten met zich meebrengt, hebben veel onderzoeken geprobeerd impliciete CoT te gebruiken, waarbij LLM's niet expliciet de tussenstappen hoeven te genereren. Toch bestaat er nog steeds een kloof tussen hun effectiviteit en typische expliciete CoT-methoden. Dit roept de vraag op of impliciete CoT echt gelijk is aan expliciete CoT. Daarom behandelen we in deze studie deze vraag door middel van experimenten. We onderzoeken de informatie van tussenstappen uit de verborgen toestanden van het model wanneer het impliciete CoT uitvoert. De resultaten geven verrassend genoeg aan dat LLM's nauwelijks nadenken over tussenstappen, wat suggereert dat ze misschien alleen vertrouwen op ervaring in plaats van strikte stapsgewijze redenering. Bovendien vinden we dat de impliciete redeneervaardigheden van LLM's vatbaar zijn voor instabiliteit, wat de noodzaak van expliciete CoT benadrukt om complexe taken effectief te ondersteunen.

22

Het beste van twee werelden: Voordelen van Hybride Grafieksequentie Modellen
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Nov 23
ByAli Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
8
2

Moderne sequentiemodellen (bijv. Transformers, lineaire RNN's, enz.) zijn naar voren gekomen als dominante ruggengraat van recente diepgaande leersystemen, voornamelijk vanwege hun efficiëntie, representatiekracht en/of vermogen om lange-afhankelijkheden vast te leggen. Het aannemen van deze sequentiemodellen voor graf-gestructureerde gegevens heeft recentelijk aan populariteit gewonnen als alternatief voor Message Passing Neural Networks (MPNNs). Er ontbreekt echter een gemeenschappelijke basis over wat een goed graf-sequentie-model vormt, en een wiskundige beschrijving van de voordelen en tekortkomingen bij het aannemen van verschillende sequentiemodellen voor leren op grafieken. Om dit te bereiken, presenteren we eerst het Graph Sequence Model (GSM), een verenigend kader voor het aannemen van sequentiemodellen voor grafieken, bestaande uit drie hoofdstappen: (1) Tokenisatie, wat de grafiek vertaalt naar een reeks sequenties; (2) Lokale Codering, wat lokale buurten rond elke knoop codeert; en (3) Globale Codering, wat een schaalbaar sequentiemodel gebruikt om lange-afhankelijkheden binnen de sequenties vast te leggen. Dit kader stelt ons in staat om de kracht van verschillende sequentiemodelruggengraat in grafiektaken te begrijpen, te evalueren en te vergelijken. Onze theoretische evaluaties van de representatiekracht van Transformers en moderne recurrente modellen door de lens van globale en lokale graaftaken tonen aan dat er zowel negatieve als positieve kanten zijn voor beide soorten modellen. Voortbouwend op deze observatie presenteren we GSM++, een snel hybride model dat het Hierarchical Affinity Clustering (HAC) algoritme gebruikt om de grafiek te tokeniseren in hiërarchische sequenties, en vervolgens een hybride architectuur van Transformer inzet om deze sequenties te coderen. Onze theoretische en experimentele resultaten ondersteunen het ontwerp van GSM++, waarbij blijkt dat GSM++ beter presteert dan baselines in de meeste benchmarkevaluaties.

23

Vind elk onderdeel in 3D.
Find Any Part in 3D

Nov 20
ByZiqi Ma, Yisong Yue, Georgia Gkioxari
7
2

We bestuderen open-world deelsegmentatie in 3D: het segmenteren van elk deel in elk object op basis van elke tekstquery. Vorige methoden zijn beperkt in objectcategorieën en deelwoordenboeken. Recente vooruitgang in AI heeft effectieve open-world herkenningsmogelijkheden in 2D aangetoond. Geïnspireerd door deze vooruitgang stellen we een open-world, direct-voorspellend model voor 3D deelsegmentatie voor dat zero-shot kan worden toegepast op elk object. Onze aanpak, genaamd Find3D, traint een algemeen-categorie punt-embeddingmodel op grootschalige 3D-middelen van het internet zonder enige menselijke annotatie. Het combineert een data-engine, aangedreven door foundation-modellen voor het annoteren van gegevens, met een contrastieve trainingsmethode. We behalen sterke prestaties en generalisatie over meerdere datasets, met tot wel 3x verbetering in mIoU ten opzichte van de op één na beste methode. Ons model is 6x tot meer dan 300x sneller dan bestaande baselines. Om onderzoek naar algemene-categorie open-world 3D deelsegmentatie aan te moedigen, brengen we ook een benchmark uit voor algemene objecten en delen. Projectwebsite: https://ziqi-ma.github.io/find3dsite/

24

DreamMix: Het loskoppelen van objectkenmerken voor verbeterde bewerkbaarheid bij aangepaste beeldinpainting.
DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting

Nov 26
ByYicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu
7
3

Onderwerpgestuurde beeldinpainting is een populair taak geworden in beeldbewerking naast recente ontwikkelingen in diffusiemodellen. Vorige methoden richten zich voornamelijk op identiteitsbehoud, maar hebben moeite om de bewerkbaarheid van ingevoegde objecten te behouden. Als reactie introduceert dit artikel DreamMix, een diffusie-gebaseerd generatief model dat bekwaam is in het invoegen van doelobjecten in gegeven scènes op door de gebruiker gespecificeerde locaties, terwijl het tegelijkertijd willekeurige tekstgestuurde aanpassingen aan hun eigenschappen mogelijk maakt. In het bijzonder maken we gebruik van geavanceerde fundamentele inpainting modellen en introduceren we een ontward lokaal-globaal inpainting kader om een evenwicht te vinden tussen nauwkeurige lokale objectinvoeging en effectieve globale visuele coherentie. Daarnaast stellen we een Attribuut Ontkoppelingsmechanisme (ADM) en een Tekstuele Attribuut Substitutie (TAS) module voor om de diversiteit en onderscheidende capaciteit van de op tekst gebaseerde attribuutbegeleiding respectievelijk te verbeteren. Uitgebreide experimenten tonen aan dat DreamMix effectief een balans vindt tussen identiteitsbehoud en bewerkbaarheid van attributen in verschillende toepassingsscenario's, waaronder objectinvoeging, attribuutbewerking en inpainting van kleine objecten. Onze code is openbaar beschikbaar op https://github.com/mycfhs/DreamMix.

25

Voorspellen van Opkomende Mogelijkheden door Fijnafstemming
Predicting Emergent Capabilities by Finetuning

Nov 25
ByCharlie Snell, Eric Wallace, Dan Klein, Sergey Levine
7
2

Een fundamentele open uitdaging bij het schalen van moderne LLM's is het gebrek aan begrip rond opkomende mogelijkheden. Met name is bekend dat de voorafgaande training van taalmodellen zeer voorspelbaar is als functie van berekeningen. Echter, de mogelijkheden op lager niveau zijn veel minder voorspelbaar - soms zelfs met opkomende sprongen - wat het moeilijk maakt om de mogelijkheden van toekomstige modellen te anticiperen. In dit werk stellen we eerst de taak van opkomstvoorspelling: gegeven toegang tot huidige LLM's die willekeurige few-shot nauwkeurigheid hebben op een taak, kunnen we voorspellen of toekomstige modellen (GPT-N+1) een niet-triviale nauwkeurigheid op die taak zullen hebben? Vervolgens ontdekken we een eenvoudig inzicht voor dit probleem: het fine-tunen van LLM's op een gegeven taak kan het punt in schalen verschuiven waarop opkomst optreedt naar minder capabele modellen. Om dit inzicht operationeel te maken, kunnen we LLM's fine-tunen met verschillende hoeveelheden gegevens en een parametrische functie passen die voorspelt wanneer opkomst zal plaatsvinden (d.w.z. "opkomstwetten"). We valideren deze aanpak met behulp van vier standaard NLP-benchmarks waar grote open-source LLM's al opkomst aantonen (MMLU, GSM8K, CommonsenseQA en CoLA). Met behulp van alleen kleinschalige LLM's vinden we dat we in sommige gevallen nauwkeurig kunnen voorspellen of modellen die zijn getraind met tot 4x meer berekeningen zijn opgekomen. Tot slot presenteren we een casestudie van twee realistische toepassingen voor opkomstvoorspelling.

26

De Onmogelijke Test: Een dataset uit 2024 die niet oplosbaar is en een kans voor een AGI-quiz.
The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz

Nov 20
ByDavid Noever, Forrest McKee
7
2

Dit onderzoek introduceert een nieuw evaluatiekader dat is ontworpen om de mogelijkheid van grote taalmodellen (LLM's) te beoordelen om onzekerheid te erkennen bij 675 fundamenteel onoplosbare problemen. Met behulp van een samengestelde dataset van uitdagende vragen op graduate-niveau met opzettelijk onkenbare antwoorden, hebben we twaalf toonaangevende LLM's geëvalueerd, inclusief zowel open source als gesloten source modellen, op hun neiging om onwetendheid toe te geven in plaats van plausibele maar onjuiste antwoorden te genereren. De beste modellen behaalden scores in het bereik van 62-68% nauwkeurigheid voor het toegeven dat de oplossing van het probleem onbekend was op gebieden variërend van biologie tot filosofie en wiskunde. We observeerden een omgekeerde relatie tussen probleemcomplexiteit en modelnauwkeurigheid, waarbij GPT-4 hogere percentages van onzekerheidserkenning vertoonde bij meer uitdagende problemen (35,8%) vergeleken met eenvoudigere problemen (20,0%). Dit patroon geeft aan dat modellen meer geneigd kunnen zijn om speculatieve antwoorden te genereren wanneer problemen lijken oplosbaar te zijn. Het onderzoek onthulde ook significante variaties tussen probleemcategorieën, waarbij modellen moeite hadden met het erkennen van onzekerheid bij uitvindings- en NP-moeilijke problemen, terwijl ze relatief beter presteerden bij filosofische en psychologische uitdagingen. Deze resultaten dragen bij aan het groeiende onderzoek naar algemene kunstmatige intelligentie (AGI) evaluatie door het belang van het herkennen van onzekerheid te benadrukken als een cruciaal onderdeel van toekomstige machine intelligentie evaluatie. Deze onmogelijkheidstest breidt dus eerdere theoretische kaders voor universele intelligentietests uit door empirisch bewijs te leveren van de huidige beperkingen in het vermogen van LLM's om hun eigen kennisgrenzen te herkennen, wat wijst op nieuwe richtingen voor het verbeteren van modeltrainingsarchitecturen en evaluatiebenaderingen.

27

Randgewichtvoorspelling voor categorie-agnostische houdingschatting
Edge Weight Prediction For Category-Agnostic Pose Estimation

Nov 25
ByOr Hirschorn, Shai Avidan
6
2

Category-Agnostic Pose Estimation (CAPE) lokaliseert keypoints over diverse objectcategorieën met een enkel model, met behulp van één of enkele geannoteerde ondersteunende afbeeldingen. Recente werken hebben aangetoond dat het gebruik van een posegrafiek (d.w.z. keypoints behandelen als knooppunten in een grafiek in plaats van geïsoleerde punten) helpt bij het omgaan met occlusies en het doorbreken van symmetrie. Echter, deze methoden gaan uit van een statische posegrafiek met edges van gelijk gewicht, wat leidt tot suboptimale resultaten. Wij introduceren EdgeCape, een nieuw raamwerk dat deze beperkingen overwint door de gewichten van de grafiekedges te voorspellen, wat de lokaliseringsresultaten optimaliseert. Om structurele aannames verder te benutten, stellen we voor om Markoviaanse Structurele Bias te integreren, die de zelfaandachtsinteractie tussen knooppunten moduleert op basis van het aantal stappen tussen hen. We tonen aan dat dit de mogelijkheid van het model verbetert om globale ruimtelijke afhankelijkheden vast te leggen. Geëvalueerd op de MP-100 benchmark, die 100 categorieën en meer dan 20K afbeeldingen omvat, behaalt EdgeCape state-of-the-art resultaten in de 1-shot instelling en leidt onder methoden van vergelijkbare grootte in de 5-shot instelling, waarbij de nauwkeurigheid van de keypoint lokaliserings significant verbetert. Onze code is openbaar beschikbaar.

Nov 25
Nov 26
Nov 27