AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

HuatuoGPT-o1, Naar Medische Complex Redenering met LLM's
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Dec 25

ByJunying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang

104

De doorbraak van OpenAI o1 benadrukt het potentieel van het verbeteren van redenering om LLM te verbeteren. Toch heeft het merendeel van het onderzoek naar redenering zich gericht op wiskundige taken, waardoor domeinen zoals geneeskunde onderbelicht zijn gebleven. Het medische domein, hoewel verschillend van wiskunde, vereist ook robuuste redenering om betrouwbare antwoorden te bieden, gezien de hoge normen in de gezondheidszorg. Het verifiëren van medische redeneringen is echter uitdagend, in tegenstelling tot die in de wiskunde. Om dit aan te pakken, stellen we verifieerbare medische problemen voor met een medische verifier om de juistheid van modeluitvoer te controleren. Deze verifieerbare aard maakt vooruitgang mogelijk in medische redenering via een tweestappenbenadering: (1) het gebruik van de verifier om de zoektocht naar een complex redeneertraject te begeleiden voor het verfijnen van LLM's, (2) het toepassen van reinforcement learning (RL) met verifier-gebaseerde beloningen om complexe redenering verder te verbeteren. Tot slot introduceren we HuatuoGPT-o1, een medische LLM die in staat is tot complexe redenering, die beter presteert dan algemene en medisch-specifieke baselines met slechts 40K verifieerbare problemen. Experimenten tonen aan dat complexe redenering de oplossing van medische problemen verbetert en meer profiteert van RL. We hopen dat onze benadering inspiratie biedt voor vooruitgang in redenering over medische en andere gespecialiseerde domeinen.

1.58-bit FLUX 1,58-bits FLUX
1.58-bit FLUX

Dec 24

ByChenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen

We presenteren 1,58-bit FLUX, de eerste succesvolle benadering om het toonaangevende tekst-naar-afbeelding generatiemodel, FLUX.1-dev, te kwantiseren met 1,58-bit gewichten (d.w.z. waarden in {-1, 0, +1}) terwijl we vergelijkbare prestaties behouden voor het genereren van 1024 x 1024 afbeeldingen. Opmerkelijk is dat onze kwantisatiemethode werkt zonder toegang tot afbeeldingsgegevens, en uitsluitend vertrouwt op zelftoezicht van het FLUX.1-dev model. Daarnaast hebben we een aangepaste kernel ontwikkeld die geoptimaliseerd is voor 1,58-bit operaties, wat resulteert in een 7,7x reductie in modelopslag, een 5,1x reductie in inferentiememory, en verbeterde inferentievertraging. Uitgebreide evaluaties op de GenEval en T2I Compbench benchmarks tonen de effectiviteit aan van 1,58-bit FLUX in het behouden van generatiekwaliteit terwijl de computationele efficiëntie aanzienlijk wordt verbeterd.

Voorspelling van het volgende token richting multimodale intelligentie: Een uitgebreid overzicht
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Dec 16

ByLiang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang

Voortbouwend op de fundamenten van taalmodellering in natuurlijke taalverwerking, is Next Token Prediction (NTP) geëvolueerd tot een veelzijdig trainingsdoel voor machine learning taken over verschillende modaliteiten, met aanzienlijk succes. Aangezien Large Language Models (LLMs) zijn gevorderd om begrips- en generatietaken binnen de tekstuele modaliteit te verenigen, heeft recent onderzoek aangetoond dat taken uit verschillende modaliteiten ook effectief kunnen worden ingekapseld binnen het NTP-kader, waarbij multimodale informatie wordt omgezet in tokens en de volgende voorspellen gegeven de context. Deze survey introduceert een uitgebreide taxonomie die zowel begrip als generatie binnen multimodaal leren verenigt door de lens van NTP. De voorgestelde taxonomie behandelt vijf belangrijke aspecten: Multimodale tokenisatie, MMNTP modelarchitecturen, verenigde taakrepresentatie, datasets \& evaluatie, en open uitdagingen. Deze nieuwe taxonomie heeft als doel onderzoekers te helpen bij hun verkenning van multimodale intelligentie. Een bijbehorend GitHub repository dat de nieuwste papers en repositories verzamelt, is beschikbaar op https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

Oriënteer Alles: Het Leren van Robuuste Objectoriëntatie Schattingen uit het Renderen van 3D-Modellen
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

Dec 24

ByZehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

Oriëntatie is een essentiële eigenschap van objecten, cruciaal voor het begrijpen van hun ruimtelijke houding en opstelling in afbeeldingen. Echter, praktische oplossingen voor nauwkeurige oriëntatieschatting vanuit een enkele afbeelding blijven onderbelicht. In dit werk introduceren we Orient Anything, het eerste expert- en fundamentele model dat is ontworpen om de oriëntatie van objecten te schatten in een enkele- en vrije kijkafbeelding. Vanwege de schaarste aan gelabelde gegevens stellen we voor om kennis te extraheren uit de 3D-wereld. Door een pijplijn te ontwikkelen om het voorvlak van 3D-objecten te annoteren en afbeeldingen van willekeurige weergaven te renderen, verzamelen we 2 miljoen afbeeldingen met nauwkeurige oriëntatieannotaties. Om het dataset volledig te benutten, ontwerpen we een robuust trainingsdoel dat de 3D-oriëntatie modelleert als kansverdelingen van drie hoeken en de objectoriëntatie voorspelt door deze verdelingen te passen. Bovendien passen we verschillende strategieën toe om de overdracht van synthetisch naar echt te verbeteren. Ons model behaalt state-of-the-art nauwkeurigheid in oriëntatieschatting in zowel gerenderde als echte afbeeldingen en vertoont indrukwekkende zero-shot mogelijkheden in verschillende scenario's. Belangrijker nog, ons model verbetert veel toepassingen, zoals het begrip en de generatie van complexe ruimtelijke concepten en de aanpassing van de houding van 3D-objecten.

Taakvoorkeursoptimalisatie: Verbetering van multimodale grote taalmodellen met visuele taakuitlijning
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Dec 26

ByZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

Huidige multimodale grote taalmodellen (MLLM's) worstelen met het gedetailleerd of nauwkeurig begrijpen van visuele informatie, hoewel ze een uitgebreide perceptie en redenering bieden in een scala van visuele toepassingen. Recente studies ontwikkelen ofwel tools of integreren specifieke visuele taken in het autoregressieve kader, vaak ten koste van de algehele multimodale prestaties. Om dit probleem aan te pakken en MLLM's te verbeteren met visuele taken op een schaalbare manier, stellen we Task Preference Optimization (TPO) voor, een nieuw method die differentieerbare taakvoorkeuren gebruikt die zijn afgeleid van typische gedetailleerde visuele taken. TPO introduceert leerzame taaktokens die verbindingen tot stand brengen tussen meerdere taakspecifieke koppen en de MLLM. Door gebruik te maken van rijke visuele labels tijdens de training, verbetert TPO aanzienlijk de multimodale mogelijkheden van de MLLM en de taakspecifieke prestaties. Door middel van multi-task co-training binnen TPO observeren we synergetische voordelen die de individuele taakprestaties verhogen boven wat haalbaar is met single-task trainingsmethodologieën. Onze toepassing van deze benadering met VideoChat en LLaVA toont een algehele verbetering van 14,6% in multimodale prestaties in vergelijking met basismodellen. Bovendien toont MLLM-TPO robuuste zero-shot mogelijkheden over verschillende taken, waarbij het vergelijkbaar presteert met state-of-the-art begeleide modellen. De code zal worden vrijgegeven op https://github.com/OpenGVLab/TPO

Van Elementen tot Ontwerp: Een Gelaagde Benadering voor Automatisch Grafisch Ontwerp Compositie
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition

Dec 27

ByJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian

In dit werk onderzoeken we de automatische ontwerpsamenstelling van multimodale grafische elementen. Hoewel recente studies verschillende generatieve modellen voor grafisch ontwerp hebben ontwikkeld, worden ze meestal geconfronteerd met de volgende beperkingen: ze richten zich alleen op bepaalde subtaken en zijn ver verwijderd van het volbrengen van de ontwerpsamenstellingstaak; ze houden geen rekening met de hiërarchische informatie van grafische ontwerpen tijdens het generatieproces. Om deze problemen aan te pakken, introduceren we het gelaagde ontwerpprincipe in Grote Multimodale Modellen (LMM's) en stellen we een nieuw benadering voor, genaamd LaDeCo, om deze uitdagende taak te volbrengen. Specifiek voert LaDeCo eerst een lagenplanning uit voor een gegeven elementenset, waarbij de invoerelementen worden verdeeld in verschillende semantische lagen op basis van hun inhoud. Op basis van de planningsresultaten voorspelt het vervolgens elementkenmerken die de ontwerpsamenstelling op een laagsgewijze manier aansturen, en neemt het het weergegeven beeld van eerder gegenereerde lagen op in de context. Met dit inzichtelijke ontwerp decomposeert LaDeCo de moeilijke taak in kleinere beheersbare stappen, waardoor het generatieproces soepeler en duidelijker verloopt. De experimentele resultaten tonen de effectiviteit van LaDeCo in ontwerpsamenstelling aan. Bovendien laten we zien dat LaDeCo enkele interessante toepassingen in grafisch ontwerp mogelijk maakt, zoals resolutieaanpassing, elementinvulling, ontwerpvariatie, enz. Bovendien presteert het zelfs beter dan gespecialiseerde modellen in sommige ontwerpsubtaken zonder enige taakspecifieke training.

Het superponeren van diffusiemodellen met behulp van de Itô-dichtheidsschatting.
The Superposition of Diffusion Models Using the Itô Density Estimator

Dec 23

ByMarta Skreta, Lazar Atanackovic, Avishek Joey Bose, Alexander Tong, Kirill Neklyudov

De Cambrium-explosie van gemakkelijk toegankelijke vooraf getrainde diffusiemodellen suggereert een vraag naar methoden die meerdere verschillende vooraf getrainde diffusiemodellen combineren zonder de aanzienlijke rekenlast van het opnieuw trainen van een groter gecombineerd model. In dit artikel stellen we het probleem van het combineren van meerdere vooraf getrainde diffusiemodellen in de generatiefase voor onder een nieuw voorgesteld kader genaamd superpositie. Theoretisch leiden we superpositie af van rigoureuze eerste principes voortkomend uit de gevierde continuïteitsvergelijking en ontwerpen we twee nieuwe algoritmes op maat gemaakt voor het combineren van diffusiemodellen in SuperDiff. SuperDiff maakt gebruik van een nieuwe schaalbare It\^o-dichtheidsschatting voor de log-likelihood van de diffusie SDE die geen extra overhead met zich meebrengt in vergelijking met de bekende schatter van Hutchinson die nodig is voor divergentieberekeningen. We tonen aan dat SuperDiff schaalbaar is naar grote vooraf getrainde diffusiemodellen omdat superpositie uitsluitend wordt uitgevoerd door samenstelling tijdens inferentie, en ook gemakkelijk te implementeren is omdat het verschillende vooraf getrainde vectorvelden combineert door middel van een geautomatiseerd herwegingsmechanisme. Opmerkelijk is dat we aantonen dat SuperDiff efficiënt is tijdens inferentie en traditionele samenstellingsoperatoren nabootst zoals de logische OF en de logische EN. We tonen empirisch het nut aan van het gebruik van SuperDiff voor het genereren van meer diverse afbeeldingen op CIFAR-10, meer trouwe prompt-geconditioneerde beeldbewerking met Stable Diffusion, en verbeterd onvoorwaardelijk de novo-structuurontwerp van eiwitten. https://github.com/necludov/super-diffusion

VideoMaker: Video-generatie op maat zonder training met behulp van de inherente kracht van videodiffusiemodellen
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Dec 27

ByTao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

Zero-shot aangepaste videogeneratie heeft aanzienlijke aandacht gekregen vanwege het grote toepassingspotentieel. Bestaande methoden vertrouwen op aanvullende modellen om referentieonderwerpeigenschappen te extraheren en injecteren, waarbij wordt aangenomen dat het Video Diffusion Model (VDM) alleen onvoldoende is voor zero-shot aangepaste videogeneratie. Deze methoden worstelen echter vaak om een consistente onderwerpsuitstraling te behouden vanwege suboptimale functie-extractie- en injectietechnieken. In dit artikel onthullen we dat VDM inherent de kracht bezit om onderwerpeigenschappen te extraheren en injecteren. Afwijkend van eerdere heuristische benaderingen introduceren we een nieuw raamwerk dat gebruikmaakt van de inherente kracht van VDM om hoogwaardige zero-shot aangepaste videogeneratie mogelijk te maken. Specifiek voor functie-extractie voeren we rechtstreeks referentieafbeeldingen in VDM in en gebruiken we zijn intrinsieke functie-extractieproces, dat niet alleen fijnkorrelige functies biedt maar ook aanzienlijk overeenkomt met de vooraf getrainde kennis van VDM. Voor functie-injectie bedenken we een innovatieve bidirectionele interactie tussen onderwerpeigenschappen en gegenereerde inhoud via ruimtelijke zelfaandacht binnen VDM, waardoor VDM een betere onderwerptrouw heeft terwijl de diversiteit van de gegenereerde video behouden blijft. Experimenten met zowel aangepaste menselijke als objectvideo generatie bevestigen de effectiviteit van ons raamwerk.

Bescherm Fijnafgestelde Taalmodelen Door Modelsamenvoeging Vóór en Na Aanpassing
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Dec 27

ByHua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee

Het verfijnen van grote taalmodellen (LLM's) voor downstream taken is een veelgebruikte aanpak, maar het leidt vaak tot veiligheidsdegradatie bij veiligheidsgerichte LLM's. Momenteel pakken veel oplossingen dit probleem aan door extra veiligheidsgegevens op te nemen, wat in veel gevallen onpraktisch kan zijn. In dit artikel behandelen we de vraag: Hoe kunnen we de prestaties van downstream taken verbeteren terwijl we de veiligheid in LLM's behouden zonder te vertrouwen op extra veiligheidsgegevens? We stellen een eenvoudige en effectieve methode voor die de inherente veiligheid van LLM's behoudt terwijl hun prestaties bij downstream taken worden verbeterd: het samenvoegen van de gewichten van voor- en na-verfijnde veiligheidsgerichte modellen. Experimentele resultaten over verschillende downstream taken, modellen en samenvoegmethoden tonen aan dat deze aanpak veiligheidsdegradatie effectief tegengaat en tegelijkertijd de prestaties bij downstream taken verbetert, waardoor een praktische oplossing wordt geboden voor het aanpassen van veiligheidsgerichte LLM's.

CypherBench: Naar Precieze Terugvinding over Volledige Moderne Kennisgrafieken in het LLM-tijdperk
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Dec 24

ByYanlin Feng, Simone Papicchio, Sajjadur Rahman

Het ophalen van gegevens uit grafieken is cruciaal voor het verrijken van grote taalmodellen (LLM) met zowel open-domeinkennis als privébedrijfsgegevens, en het is ook een sleutelelement in het recente GraphRAG-systeem (Edge et al., 2024). Ondanks tientallen jaren onderzoek naar kennisgrafieken en vraag-antwoordkennisbanken, hebben toonaangevende LLM-frameworks (bijv. Langchain en LlamaIndex) slechts minimale ondersteuning voor het ophalen van gegevens uit moderne encyclopedische kennisgrafieken zoals Wikidata. In dit artikel analyseren we de oorzaak en suggereren dat moderne RDF-kennisgrafieken (bijv. Wikidata, Freebase) minder efficiënt zijn voor LLM's vanwege overdreven grote schema's die ver buiten het typische LLM-contextvenster vallen, het gebruik van bronidentificatoren, overlappende relatie typen en gebrek aan normalisatie. Als oplossing stellen we eigenschapsgrafweergaven voor bovenop de onderliggende RDF-grafiek die efficiënt kunnen worden bevraagd door LLM's met behulp van Cypher. We hebben dit idee geïmplementeerd op Wikidata en CypherBench geïntroduceerd, de eerste benchmark met 11 grootschalige, multidomeineigenschapsgroepen met 7,8 miljoen entiteiten en meer dan 10.000 vragen. Om dit te bereiken, zijn we verschillende belangrijke uitdagingen aangegaan, waaronder het ontwikkelen van een RDF-naar-eigenschapsgroepconversiemotor, het creëren van een systematische pijplijn voor tekst-naar-Cypher taakgeneratie, en het ontwerpen van nieuwe evaluatiemetingen.

SBS-cijfers: Vooraf trainen van cijfervragen vanuit fase-voor-fase gesynthetiseerde afbeeldingen
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

Dec 23

ByRisa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku

Het opbouwen van een dataset voor vraag-antwoord (QA) op grote schaal vereist aanzienlijk werk, van het verzamelen en selecteren van figuren tot het extraheren van attributen zoals tekst, getallen en kleuren, en het genereren van QAs. Hoewel recente ontwikkelingen in Taalmodel met Lineaire Modellen (LLMs) hebben geleid tot inspanningen om figuren te synthetiseren, richten de meeste van deze inspanningen zich voornamelijk op QA-generatie. Bovendien stuit het direct creëren van figuren met LLMs vaak op problemen zoals codefouten, figuren die op elkaar lijken en repetitieve inhoud in figuren. Om dit probleem aan te pakken, presenteren we SBSFigures (Figuur-synthetisatie stap voor stap), een dataset voor het vooraf trainen van figuur QA. Ons voorgestelde proces maakt het mogelijk om grafiekfiguren te creëren met volledige annotaties van de gevisualiseerde gegevens en dichte QA-annotaties zonder enig handmatig annotatieproces. Ons stap-voor-stap proces maakt het mogelijk om efficiënt diverse onderwerps- en uiterlijkfiguren te creëren, terwijl codefouten worden geminimaliseerd. Onze SBSFigures tonen een sterk effect van vooraf trainen, waardoor efficiënte training mogelijk is met een beperkte hoeveelheid echte grafiekgegevens, te beginnen vanuit onze vooraf getrainde gewichten.