AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Technisch Rapport Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11

ByYadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

De opvallende multimodale mogelijkheden en interactieve ervaring van GPT-4o benadrukken de cruciale rol ervan in praktische toepassingen, maar het ontbreekt aan een hoogwaardig open-source equivalent. In dit artikel introduceren we Baichuan-Omni, het eerste open-source 7B Multimodaal Groot Taalmodel (MLLM) dat bedreven is in gelijktijdige verwerking en analyse van modaliteiten van beeld, video, audio en tekst, terwijl het een geavanceerde multimodale interactieve ervaring en sterke prestaties levert. We stellen een effectief multimodaal trainingschema voor dat begint met het 7B-model en doorgaat via twee fasen van multimodale afstemming en multitask fijnafstemming over audio, beeld, video en tekstmodaliteiten. Deze aanpak rust het taalmodel uit met de mogelijkheid om visuele en audio data effectief te verwerken. Door sterke prestaties te tonen op verschillende omni-modale en multimodale benchmarks, streven we ernaar dat deze bijdrage dient als een competitieve basislijn voor de open-source gemeenschap bij het bevorderen van multimodale begrip en realtime interactie.

Meissonic: Het nieuw leven inblazen van Gemaskeerde Generatieve Transformatoren voor Efficiënte Hoogwaardige Tekst-naar-Afbeelding Synthese
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

Diffusiemodellen, zoals Stabiele Diffusie, hebben aanzienlijke vooruitgang geboekt in visuele generatie, maar hun paradigma blijft fundamenteel verschillend van autoregressieve taalmodellen, wat de ontwikkeling van eenduidige taal-beeldmodellen bemoeilijkt. Recente inspanningen zoals LlamaGen hebben geprobeerd autoregressieve beeldgeneratie te gebruiken met discrete VQVAE-tokens, maar het grote aantal betrokken tokens maakt deze aanpak inefficiënt en traag. In dit werk presenteren we Meissonic, dat niet-autoregressieve gemaskeerde beeldmodellering (MIM) tekst-naar-beeld naar een niveau tilt dat vergelijkbaar is met state-of-the-art diffusiemodellen zoals SDXL. Door een uitgebreide reeks architectonische innovaties, geavanceerde positionele coderingsstrategieën en geoptimaliseerde bemonsteringscondities op te nemen, verbetert Meissonic aanzienlijk de prestaties en efficiëntie van MIM. Daarnaast maken we gebruik van hoogwaardige trainingsgegevens, integreren we microcondities die geïnformeerd zijn door menselijke voorkeursscores, en gebruiken we functiecompressielagen om de beeldgetrouwheid en -resolutie verder te verbeteren. Ons model evenaart niet alleen, maar overtreft vaak de prestaties van bestaande modellen zoals SDXL bij het genereren van hoogwaardige, hoogwaardige beelden. Uitgebreide experimenten bevestigen de mogelijkheden van Meissonic en tonen zijn potentieel als nieuwe standaard in tekst-naar-beeldsynthese. We stellen een modelcheckpoint beschikbaar dat in staat is om beelden met een resolutie van 1024 bij 1024 pixels te produceren.

StructRAG: Versterking van Kennisintensieve Redenering van LLM's via Inferentie-tijd Hybride Informatie-Structurering
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

Retrieval-augmented generation (RAG) is een belangrijk middel om grote taalmodellen (LLM's) effectief te verbeteren in veel op kennis gebaseerde taken. Bestaande RAG-methoden worstelen echter met kennisintensieve redeneertaken, omdat de nuttige informatie die nodig is voor deze taken slecht verspreid is. Deze eigenschap maakt het moeilijk voor bestaande RAG-methoden om nauwkeurig de belangrijke informatie te identificeren en wereldwijd redeneren uit te voeren met een dergelijke lawaaierige aanvulling. In dit artikel, gemotiveerd door de cognitieve theorieën dat mensen ruwe informatie omzetten in verschillende gestructureerde kennis bij het aanpakken van kennisintensieve redeneertaken, stellen we een nieuw raamwerk voor, StructRAG, voor. Dit raamwerk kan het optimale structuurtype voor de betreffende taak identificeren, oorspronkelijke documenten reconstrueren naar dit gestructureerde formaat en antwoorden afleiden op basis van de resulterende structuur. Uitgebreide experimenten over verschillende kennisintensieve taken tonen aan dat StructRAG state-of-the-art prestaties behaalt, vooral uitblinkend in uitdagende scenario's, waarbij het zijn potentieel als een effectieve oplossing voor het verbeteren van LLM's in complexe real-world toepassingen aantoont.

Van Generalist tot Specialist: Het Aanpassen van Visie Taalmodellen via Taak-Specifieke Visuele Instructie Afstelling.
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

Grote visie-taalmodellen (VLM's) combineren grote taalmodellen met visuele encoders en tonen veelbelovende resultaten bij verschillende taken. Echter, ze presteren vaak ondermaats bij taakspecifieke toepassingen vanwege domeinverschillen tussen pre-training en fine-tuning. Wij introduceren VITask, een nieuw raamwerk dat de taakspecifieke aanpasbaarheid van VLM's verbetert door taakspecifieke modellen (TSM's) te integreren. VITask maakt gebruik van drie belangrijke strategieën: voorbeeldprompting (EP), uitlijning van responsverdeling (RDA) en contrastieve responsafstemming (CRT) om de taakspecifieke prestaties van VLM's te verbeteren door hun responsverdelingen aan te passen. EP stelt TSM-kenmerken in staat om VLM's te begeleiden, terwijl RDA VLM's in staat stelt om zich aan te passen zonder TSM's tijdens inferentie door te leren van voorbeeld-geprompte modellen. CRT optimaliseert verder de rangschikking van juiste beeldresponsparen, waardoor het risico op het genereren van ongewenste reacties wordt verminderd. Experimenten op 12 medische diagnose datasets over 9 beeldvormingsmodaliteiten tonen aan dat VITask zowel standaard instructie-afgestemde VLM's als TSM's overtreft, waarbij het vermogen wordt gedemonstreerd om effectief complementaire kenmerken van beide modellen te integreren. Bovendien biedt VITask praktische voordelen zoals flexibele TSM-integratie en robuustheid tegen onvolledige instructies, waardoor het een veelzijdige en efficiënte oplossing is voor taakspecifieke VLM-afstemming. Onze code is beschikbaar op https://github.com/baiyang4/VITask.

Multi-Agent Samenwerking bij Gegevensselectie voor Efficiënte LLM-vooropleiding
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

Efficiënte gegevensselectie is cruciaal om het voorbereiden van grote taalmodellen (LLM's) te versnellen. Hoewel verschillende methoden zijn voorgesteld om de gegevensefficiëntie te verbeteren, heeft beperkt onderzoek de inherente conflicten tussen deze benaderingen aangepakt om optimale gegevensselectie voor LLM-voorbereiding te bereiken. Om dit probleem aan te pakken, stellen we een nieuw multi-agent samenwerkingsmechanisme voor gegevensselectie voor. In dit kader fungeert elke gegevensselectiemethode als een onafhankelijke agent, en er is een agentenconsole ontworpen om dynamisch de informatie van alle agenten gedurende het LLM-trainingsproces te integreren. We voeren uitgebreide empirische studies uit om ons multi-agentenkader te evalueren. De experimentele resultaten tonen aan dat onze aanpak de gegevensefficiëntie aanzienlijk verbetert, de convergentie bij LLM-training versnelt en een gemiddelde prestatiewinst van 10,5% behaalt over meerdere taalmodelbenchmarks in vergelijking met de state-of-the-art methoden.

Mechanistische Permuteerbaarheid: Kenmerken Overeenstemmen Tussen Lagen
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

Het begrijpen van hoe kenmerken evolueren over lagen in diepe neurale netwerken is een fundamentele uitdaging in mechanismatische interpreteerbaarheid, met name vanwege polysemie en kenmerk-superpositie. Hoewel Schaarse Auto-encoders (SAE's) zijn gebruikt om interpreteerbare kenmerken uit individuele lagen te extraheren, is het uitlijnen van deze kenmerken over lagen heen een open probleem gebleven. In dit artikel introduceren we SAE Match, een nieuw, data-vrij methode voor het uitlijnen van SAE-kenmerken over verschillende lagen van een neuraal netwerk. Onze aanpak omvat het matchen van kenmerken door het minimaliseren van de gemiddelde kwadratische fout tussen de gevouwen parameters van SAE's, een techniek die activatiedrempels opneemt in de encoder- en decodergewichten om rekening te houden met verschillen in kenmerkschalen. Door uitgebreide experimenten uit te voeren op het Gemma 2 taalmodel, tonen we aan dat onze methode effectief kenmerkevolutie over lagen vastlegt, waardoor de kwaliteit van kenmerk-matching verbetert. We tonen ook aan dat kenmerken over meerdere lagen aanhouden en dat onze aanpak verborgen toestanden over lagen heen kan benaderen. Ons werk bevordert het begrip van kenmerkdynamiek in neurale netwerken en biedt een nieuw instrument voor mechanismatische interpreteerbaarheidsstudies.

EvolveDirector: Het benaderen van geavanceerde tekst-naar-afbeelding generatie met grote visie-taal modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

Recente ontwikkelingen in generatiemodellen hebben opmerkelijke capaciteiten aangetoond in het genereren van fantastische inhoud. Echter, de meeste van hen worden getraind op eigen hoogwaardige gegevens, en sommige modellen houden hun parameters achter en bieden alleen toegankelijke toepassingsprogrammeerinterfaces (API's), waardoor hun voordelen voor downstream taken beperkt zijn. Om de haalbaarheid te onderzoeken van het trainen van een tekst-naar-afbeelding generatiemodel vergelijkbaar met geavanceerde modellen met behulp van openbaar beschikbare bronnen, introduceren we EvolveDirector. Dit framework communiceert met geavanceerde modellen via hun openbare API's om tekst-afbeelding gegevensparen te verkrijgen om een basismodel te trainen. Onze experimenten met uitgebreide gegevens geven aan dat het model dat is getraind op gegenereerde gegevens van het geavanceerde model, in staat is om de generatiecapaciteit ervan te benaderen. Echter, hiervoor zijn grote steekproeven van 10 miljoen of meer nodig. Dit brengt aanzienlijke kosten met zich mee op het gebied van tijd, rekenkracht en vooral de kosten die gepaard gaan met het aanroepen van op kosten gebaseerde API's. Om dit probleem aan te pakken, maken we gebruik van vooraf getrainde grote visie-taalmodellen (VLM's) om de evolutie van het basismodel te begeleiden. VLM evalueert continu het basismodel tijdens de training en werkt dynamisch de training dataset bij door middel van discriminatie-, uitbreidings-, verwijderings- en mutatie-operaties. Experimentele resultaten tonen aan dat dit paradigma het vereiste gegevensvolume aanzienlijk vermindert. Bovendien kan EvolveDirector, bij het benaderen van meerdere geavanceerde modellen, de beste monsters selecteren die door hen zijn gegenereerd om krachtige en evenwichtige capaciteiten te leren. Het uiteindelijk getrainde model Edgen presteert beter dan deze geavanceerde modellen. De code en modelgewichten zijn beschikbaar op https://github.com/showlab/EvolveDirector.

Positie-ID: LLM's kunnen lengtes controleren, kopiëren en plakken met expliciete positionele bewustwording.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

Grote Taalmodellen (LLM's) tonen indrukwekkende mogelijkheden binnen diverse domeinen, waaronder rollenspellen, creatief schrijven, wiskundig redeneren en coderen. Ondanks deze vooruitgang ondervinden LLM's nog steeds uitdagingen met lengtebeheersing, waarbij ze vaak niet voldoen aan specifieke lengtebeperkingen vanwege hun token-niveau operaties en onvoldoende training op data met strikte lengtebeperkingen. We identificeren dit probleem als voortkomend uit een gebrek aan positioneel bewustzijn en stellen nieuwe benaderingen voor - PositionID Prompting en PositionID Fine-Tuning - om dit aan te pakken. Deze methoden verbeteren het vermogen van het model om tekstlengte continu te monitoren en beheren tijdens generatie. Daarnaast introduceren we PositionID CP Prompting om LLM's in staat te stellen kopieer- en plakbewerkingen nauwkeurig uit te voeren. Verder ontwikkelen we twee benchmarks voor het evalueren van lengtebeheersing en kopieer-plakmogelijkheden. Onze experimenten tonen aan dat onze methoden aanzienlijk de naleving van lengtebeperkingen en de nauwkeurigheid van kopieer-plak verbeteren zonder de kwaliteit van de respons in gevaar te brengen.

SuperCorrect: Het begeleiden en corrigeren van taalmodellen met foutgestuurde inzichten
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

Grote taalmodellen (LLM's) zoals GPT-4, PaLM en LLaMA hebben aanzienlijke verbeteringen laten zien in verschillende redeneertaken. Echter, kleinere modellen zoals Llama-3-8B en DeepSeekMath-Base hebben nog steeds moeite met complexe wiskundige redenering omdat ze er niet in slagen redeneerfouten effectief te identificeren en corrigeren. Recente reflectie-gebaseerde methoden trachten deze problemen aan te pakken door zelfreflectie en zelfcorrectie mogelijk te maken, maar ze ondervinden nog steeds uitdagingen bij het zelfstandig detecteren van fouten in hun redeneerstappen. Om deze beperkingen te overwinnen, stellen wij SuperCorrect voor, een nieuw tweefasig raamwerk dat een groot docentmodel gebruikt om zowel het redeneer- als reflectieproces van een kleiner studentmodel te begeleiden en corrigeren. In de eerste fase extraheren we hiërarchische hoog-niveau en gedetailleerde gedachtepatronen van het docentmodel om het studentmodel te begeleiden bij het oproepen van meer verfijnde redeneergedachten. In de tweede fase introduceren we cross-model samenwerkende directe voorkeursoptimalisatie (DPO) om de zelfcorrectiemogelijkheden van het studentmodel te verbeteren door tijdens de training de correctietracés van de docent te volgen. Deze cross-model DPO-benadering leert het studentmodel effectief foutieve gedachten te lokaliseren en op te lossen met inzichten uit het docentmodel die voortkomen uit fouten, waardoor de bottleneck van zijn gedachten wordt doorbroken en nieuwe vaardigheden en kennis worden verworven om uitdagende problemen aan te pakken. Uitgebreide experimenten tonen consequent onze superioriteit ten opzichte van eerdere methoden aan. Opmerkelijk genoeg overtreft ons SuperCorrect-7B-model significant krachtige DeepSeekMath-7B met 7,8%/5,3% en Qwen2.5-Math-7B met 15,1%/6,3% op MATH/GSM8K-benchmarks, waarmee het nieuwe SOTA-prestaties behaalt onder alle 7B-modellen. Code: https://github.com/YangLing0818/SuperCorrect-llm

Semantische Score Destillatie Sampling voor Compositie Text-naar-3D Generatie
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

Het genereren van hoogwaardige 3D-assets uit tekstuele beschrijvingen blijft een cruciale uitdaging in het onderzoek naar computergraphics en computerzicht. Vanwege de schaarste aan 3D-gegevens maken state-of-the-art benaderingen gebruik van vooraf getrainde 2D-diffusiepriori's, geoptimaliseerd via Score Distillation Sampling (SDS). Ondanks de vooruitgang is het nog steeds moeilijk om complexe 3D-scènes te creëren met meerdere objecten of ingewikkelde interacties. Om dit aan te pakken, hebben recente methoden box- of lay-outbegeleiding geïntegreerd. Echter, deze lay-outgestuurde compositorische methoden hebben vaak moeite met het bieden van fijnmazige controle, omdat ze over het algemeen grof zijn en aan expressiviteit ontbreken. Om deze uitdagingen te overwinnen, introduceren we een nieuw SDS-benadering, Semantic Score Distillation Sampling (SemanticSDS), ontworpen om de expressiviteit en nauwkeurigheid van tekst-naar-3D-generatie effectief te verbeteren. Onze benadering integreert nieuwe semantische insluitingen die consistentie behouden over verschillende renderingsweergaven en duidelijk onderscheid maken tussen verschillende objecten en onderdelen. Deze insluitingen worden omgezet in een semantische kaart, die een regiospecifiek SDS-proces aanstuurt, waardoor nauwkeurige optimalisatie en compositorische generatie mogelijk worden. Door expliciete semantische begeleiding te benutten, ontsluit onze methode de compositorische mogelijkheden van bestaande vooraf getrainde diffusiemodellen, waardoor superieure kwaliteit wordt bereikt in de generatie van 3D-inhoud, met name voor complexe objecten en scènes. Experimentele resultaten tonen aan dat ons SemanticSDS-framework zeer effectief is voor het genereren van geavanceerde complexe 3D-inhoud. Code: https://github.com/YangLing0818/SemanticSDS-3D

KV-voorspelling voor een verbeterde tijd tot de eerste token.
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

Het afleiden met op transformer-gebaseerde taalmodellen begint met een promptverwerkingsstap. In deze stap genereert het model het eerste uitvoertoken en slaat de KV-cache op die nodig is voor toekomstige generatiestappen. Deze promptverwerkingsstap kan rekenintensief zijn en 10-tallen seconden of meer in beslag nemen voor modellen met miljarden parameters op randapparaten wanneer de promptlengtes of batchgroottes toenemen. Dit vermindert de gebruikerservaring door aanzienlijke latentie in de uitvoer van het model te introduceren. Om de tijd die wordt besteed aan het produceren van het eerste uitvoerresultaat (bekend als de "tijd tot het eerste token", of TTFT) van een voortraind model te verminderen, introduceren we een nieuwe methode genaamd KV Voorspelling. In onze methode wordt een kleine hulpmodel gebruikt om de prompt te verwerken en een benadering van de KV-cache te produceren die door een basismodel wordt gebruikt. Deze benaderde KV-cache wordt vervolgens gebruikt met het basismodel voor autoregressieve generatie zonder dat het hulpmodel opnieuw hoeft te worden geraadpleegd. We tonen aan dat onze methode een pareto-optimale efficiëntie-nauwkeurigheidshandel oplevert in vergelijking met baselines. Op TriviaQA laten we relatieve nauwkeurigheidsverbeteringen zien in het bereik van 15%-50% over een reeks TTFT FLOPs-budgetten. We laten ook nauwkeurigheidsverbeteringen zien tot 30% bij het aanvullen van Python-code in HumanEval bij vaste TTFT FLOPs-budgetten. Daarnaast benchmarken we modellen op een Apple M2 Pro CPU en tonen aan dat onze verbetering in FLOPs zich vertaalt naar een versnelling van de TTFT op hardware. We publiceren onze code op https://github.com/apple/corenet/tree/main/projects/kv-prediction.

Denk terwijl je genereert: Discrete Diffusie met Geplande Denoising
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

Discrete diffusie heeft state-of-the-art prestaties behaald, waarbij het autoregressieve modellen overtreft of benadert op standaard benchmarks. In dit werk introduceren we Discrete Diffusie met Geplande Denoising (DDPD), een nieuw raamwerk dat het generatieproces opsplitst in twee modellen: een planner en een denoiser. Tijdens inferentie selecteert de planner welke posities als volgende moeten worden gedenoised door de meest aangetaste posities te identificeren die denoising nodig hebben, inclusief zowel aanvankelijk aangetaste als die extra verfijning vereisen. Deze plan-en-denoise benadering maakt efficiëntere reconstructie mogelijk tijdens generatie door corrumpties iteratief te identificeren en te denoisen in de optimale volgorde. DDPD overtreft traditionele denoiser-only masker diffusie methoden, met superieure resultaten op taalmodelleringsbenchmarks zoals text8, OpenWebText, en token-gebaseerde generatie op ImageNet 256 keer 256. Opmerkelijk is dat DDPD in taalmodellering aanzienlijk de prestatiekloof verkleint tussen diffusie-gebaseerde en autoregressieve methoden wat betreft generatieve perplexiteit. De code is beschikbaar op https://github.com/liusulin/DDPD.

ZeroComp: Zero-shot object compositie vanuit beeldintrinsieken via diffusie
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

We presenteren ZeroComp, een effectieve zero-shot 3D object compositing benadering die geen gepaarde samengestelde scène-afbeeldingen vereist tijdens training. Onze methode maakt gebruik van ControlNet om te conditioneren vanuit intrinsieke afbeeldingen en combineert dit met een Stable Diffusion model om zijn scènevoorkeuren te benutten, die samen fungeren als een effectieve renderengine. Tijdens training maakt ZeroComp gebruik van intrinsieke afbeeldingen gebaseerd op geometrie, albedo en gemaskerde shading, allemaal zonder de noodzaak van gepaarde afbeeldingen van scènes met en zonder samengestelde objecten. Eenmaal getraind, integreert het naadloos virtuele 3D-objecten in scènes, waarbij de shading wordt aangepast om realistische composieten te creëren. We hebben een hoogwaardige evaluatiedataset ontwikkeld en laten zien dat ZeroComp methoden die gebruikmaken van expliciete belichtingsschattingen en generatieve technieken overtreft in kwantitatieve en menselijke perceptie-benchmarks. Bovendien breidt ZeroComp uit naar echte en buitenbeeldcompositie, zelfs wanneer alleen getraind op synthetische binnen data, waarbij het zijn effectiviteit in beeldcompositie aantoont.

I-Max: Maximaliseer het resolutiepotentieel van vooraf getrainde Rectified Flow Transformers met Geprojecteerde Flow
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Rectified Flow Transformers (RFT's) bieden superieure training en inferentie efficiëntie, waardoor ze waarschijnlijk de meest levensvatbare richting zijn voor het opschalen van diffusiemodellen. Echter, de vooruitgang in generatieresolutie is relatief traag geweest vanwege de kwaliteit van gegevens en trainingskosten. Resolutie-extrapolatie zonder afstemming biedt een alternatief, maar de huidige methoden verminderen vaak de generatieve stabiliteit, waardoor de praktische toepassing beperkt wordt. In dit artikel bekijken we bestaande resolutie-extrapolatiemethoden en introduceren we het I-Max framework om het resolutiepotentieel van Tekst-naar-Afbeelding RFT's te maximaliseren. I-Max kenmerkt zich door: (i) een nieuw Projected Flow strategie voor stabiele extrapolatie en (ii) een geavanceerde inferentietoolkit voor het generaliseren van modelkennis naar hogere resoluties. Experimenten met Lumina-Next-2K en Flux.1-dev tonen de mogelijkheid van I-Max om stabiliteit te verbeteren in resolutie-extrapolatie en laten zien dat het beeldgedetailleerdheid en artefactcorrectie kan brengen, wat de praktische waarde van resolutie-extrapolatie zonder afstemming bevestigt.

DA-Code: Benchmark voor het genereren van agent data science code voor grote taalmodellen
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

We introduceren DA-Code, een codegeneratie benchmark die specifiek is ontworpen om LLMs te beoordelen op op agent-gebaseerde data science taken. Deze benchmark heeft drie kernonderdelen: Ten eerste zijn de taken binnen DA-Code inherent uitdagend, waardoor ze zich onderscheiden van traditionele codegeneratietaken en geavanceerde programmeervaardigheden vereisen op het gebied van grondslagen en planning. Ten tweede zijn de voorbeelden in DA-Code allemaal gebaseerd op echte en diverse data, die een breed scala aan complexe data manipulatie- en analysetaken bestrijken. Ten derde moeten de modellen om de taken op te lossen complexe data science programmeertalen gebruiken om ingewikkelde data verwerking uit te voeren en de antwoorden af te leiden. We hebben de benchmark opgezet in een controleerbare en uitvoerbare omgeving die aansluit bij scenario's voor data-analyse in de echte wereld en schaalbaar is. De annotatoren ontwerpen zorgvuldig de evaluatiesuite om de nauwkeurigheid en robuustheid van de evaluatie te waarborgen. We hebben de DA-Agent baseline ontwikkeld. Experimenten tonen aan dat hoewel de baseline beter presteert dan andere bestaande frameworks, het gebruik van de huidige beste LLMs slechts een nauwkeurigheid van 30,5% behaalt, wat ruimte laat voor verbetering. We publiceren onze benchmark op https://da-code-bench.github.io.

SimpleStrat: Het diversifiëren van taalmodelgeneratie met stratificatie
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Het genereren van diverse reacties van grote taalmodellen (LLM's) is cruciaal voor toepassingen zoals planning/zoekopdrachten en synthetische gegevensgeneratie, waar diversiteit verschillende antwoorden over generaties heen oplevert. Eerdere benaderingen vertrouwen op het verhogen van de temperatuur om de diversiteit te vergroten. Echter, in tegenstelling tot wat vaak wordt gedacht, tonen we aan dat deze benadering niet alleen lagere kwaliteit individuele generaties produceert naarmate de temperatuur stijgt, maar ook afhankelijk is van de waarschijnlijkheden van het volgende token van het model die vergelijkbaar zijn met de ware verdeling van antwoorden. We stellen een alternatieve benadering voor die het taalmodel zelf gebruikt om de ruimte in strata te verdelen. Bij inferentie wordt een willekeurig stratum geselecteerd en wordt een steekproef uit het stratum getrokken. Om diversiteit te meten, introduceren we CoverageQA, een dataset van ondergespecificeerde vragen met meerdere even plausibele antwoorden, en beoordelen we diversiteit door de KL-divergentie te meten tussen de uitvoerverdeling en de uniforme verdeling over geldige juiste antwoorden. Aangezien het berekenen van de waarschijnlijkheid per reactie/oplossing voor eigen modellen onhaalbaar is, meten we de recall op de juiste oplossingen. Onze evaluatie toont aan dat het gebruik van SimpleStrat een hogere recall oplevert met 0.05 in vergelijking met GPT-4o en een gemiddelde vermindering van 0.36 in KL-divergentie in vergelijking met Llama 3.

MiRAGeNews: Detectie van multimodale realistische door AI gegenereerde nieuwsberichten
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

De verspreiding van ontstekende of misleidende "nep" nieuwsinhoud is de afgelopen jaren steeds gebruikelijker geworden. Tegelijkertijd is het makkelijker dan ooit om AI-tools te gebruiken om fotorealistische afbeeldingen te genereren die elk denkbare scène uitbeelden. Het combineren van deze twee - door AI gegenereerde nepnieuwsinhoud - is bijzonder krachtig en gevaarlijk. Om de verspreiding van door AI gegenereerd nepnieuws tegen te gaan, stellen we het MiRAGeNews Dataset voor, een dataset van 12.500 hoogwaardige echte en door AI gegenereerde afbeelding-onderschrift paren van toonaangevende generatoren. We vinden dat onze dataset een aanzienlijke uitdaging vormt voor mensen (60% F-1) en toonaangevende multimodale LLM's (< 24% F-1). Met behulp van onze dataset trainen we een multimodale detector (MiRAGe) die met +5,1% F-1 verbetert ten opzichte van toonaangevende baselines op afbeelding-onderschrift paren van out-of-domain afbeeldingsgeneratoren en nieuwsuitgevers. We stellen onze code en gegevens beschikbaar om toekomstig werk bij het detecteren van door AI gegenereerde inhoud te ondersteunen.

Mentor-KD: Het Verbeteren van Kleine Taalmodellen als Multi-step Redeneerders
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties vertoond bij verschillende complexe taken door gebruik te maken van Chain-of-Thought (CoT) prompting. Onlangs hebben studies een Kennisdestillatie (KD) benadering voorgesteld, redeneringsdestillatie genaamd, die dergelijke redeneervaardigheden van LLM's overdraagt door taalmodellen van meerdere-stappen rationales gegenereerd door LLM-docenten te verfijnen. Echter, ze hebben onvoldoende rekening gehouden met twee uitdagingen met betrekking tot onvoldoende destillatiesets van het LLM-docentmodel, wat betreft 1) gegevenskwaliteit en 2) het verschaffen van zachte labels. In dit artikel stellen we Mentor-KD voor, dat effectief de multi-stap redeneervermogen van LLM's destilleert naar kleinere LMs terwijl het eerder genoemde uitdagingen aanpakt. Specifiek maken we gebruik van een mentor, een middelgroot taakspecifiek verfijnd model, om extra CoT-annotaties te benutten en zachte labels te verschaffen voor het studentmodel tijdens redeneringsdestillatie. We voeren uitgebreide experimenten uit en bevestigen de effectiviteit van Mentor-KD bij verschillende modellen en complexe redeneertaken.

GenARM: Beloningsgestuurde Generatie met Autoregressief Beloningsmodel voor Uitlijning op Testtijd
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Grote Taalmodellen (LLM's) vertonen indrukwekkende mogelijkheden, maar vereisen zorgvuldige afstemming op menselijke voorkeuren. Traditionele trainingsmethoden finetunen LLM's met behulp van datasets met menselijke voorkeuren, maar brengen aanzienlijke trainingskosten met zich mee en vereisen herhaalde training om diverse gebruikersvoorkeuren aan te kunnen. Testtijd-afstemmingsmethoden pakken dit aan door beloningsmodellen (RMs) te gebruiken om bevroren LLM's te begeleiden zonder opnieuw te trainen. Echter, bestaande testtijdbenaderingen vertrouwen op trajectniveau RMs die zijn ontworpen om complete reacties te evalueren, waardoor ze ongeschikt zijn voor autoregressieve tekstgeneratie die het berekenen van beloningen voor het volgende token vereist vanuit gedeeltelijke reacties. Om dit aan te pakken, introduceren we GenARM, een testtijd-afstemmingsbenadering die gebruikmaakt van het Autoregressieve Beloningsmodel - een nieuw beloningsparametrisatie ontworpen om beloningen voor het volgende token efficiënt en effectief te voorspellen voor autoregressieve generatie. Theoretisch tonen we aan dat deze parametrisatie bevroren LLM's aantoonbaar kan begeleiden naar elke distributie die haalbaar is met traditionele RMs binnen het KL-geregulariseerde reinforcement learning kader. Experimentele resultaten tonen aan dat GenARM aanzienlijk beter presteert dan eerdere testtijd-afstemmingsbaselines en overeenkomt met de prestaties van trainingsmethoden. Bovendien maakt GenARM efficiënte zwak-naar-sterk begeleiding mogelijk, waarbij grotere LLM's worden afgestemd op kleinere RMs zonder de hoge kosten van het trainen van grotere modellen. Verder ondersteunt GenARM multi-objectieve afstemming, waardoor real-time afwegingen tussen voorkeursdimensies mogelijk zijn en tegemoet wordt gekomen aan diverse gebruikersvoorkeuren zonder opnieuw te trainen.

Synth-SONAR: Sonarbeeldsynthese met verbeterde diversiteit en realisme via dubbele diffusiemodellen en GPT-aanwijzingen
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar

Sonarbeeldsynthese is cruciaal voor het bevorderen van toepassingen in onderwaterverkenning, mariene biologie en defensie. Traditionele methoden vertrouwen vaak op uitgebreide en kostbare gegevensverzameling met behulp van sonarsensoren, wat de kwaliteit en diversiteit van gegevens in gevaar brengt. Om deze beperkingen te overwinnen, stelt deze studie een nieuw raamwerk voor sonarbeeldsynthese voor, genaamd Synth-SONAR, waarbij diffusiemodellen en GPT-aanwijzingen worden benut. De belangrijkste vernieuwingen van Synth-SONAR zijn drievoudig: Ten eerste, door Generatieve AI-gebaseerde stijlinjectietechnieken te integreren met openbaar beschikbare echte/gemoduleerde gegevens, waardoor een van de grootste sonargegevenscorpora voor sonaronderzoek wordt geproduceerd. Ten tweede, een hiërarchie van dubbele tekstconditioneringssonor-diffusiemodellen synthetiseert grove en fijnkorrelige sonarbeelden met verbeterde kwaliteit en diversiteit. Ten derde maken hoog-niveau (grove) en laag-niveau (gedetailleerde) op tekst gebaseerde sonargeneratiemethoden gebruik van geavanceerde semantische informatie die beschikbaar is in visuele taalmodellen (VLM's) en GPT-aanwijzingen. Tijdens de inferentie genereert de methode diverse en realistische sonarbeelden van tekstuele aanwijzingen, waarbij de kloof tussen tekstuele beschrijvingen en sonarbeeldgeneratie wordt overbrugd. Dit markeert naar ons beste weten de eerste toepassing van GPT-aanwijzingen in sonarbeelden. Synth-SONAR behaalt state-of-the-art resultaten bij het produceren van hoogwaardige synthetische sonargegevenssets, waarbij hun diversiteit en realisme aanzienlijk worden verbeterd.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Technisch Rapport Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11

Meissonic: Het nieuw leven inblazen van Gemaskeerde Generatieve Transformatoren voor Efficiënte Hoogwaardige Tekst-naar-Afbeelding Synthese
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

StructRAG: Versterking van Kennisintensieve Redenering van LLM's via Inferentie-tijd Hybride Informatie-Structurering
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

Van Generalist tot Specialist: Het Aanpassen van Visie Taalmodellen via Taak-Specifieke Visuele Instructie Afstelling.
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

Multi-Agent Samenwerking bij Gegevensselectie voor Efficiënte LLM-vooropleiding
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

Mechanistische Permuteerbaarheid: Kenmerken Overeenstemmen Tussen Lagen
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

EvolveDirector: Het benaderen van geavanceerde tekst-naar-afbeelding generatie met grote visie-taal modellen
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

Positie-ID: LLM's kunnen lengtes controleren, kopiëren en plakken met expliciete positionele bewustwording.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

SuperCorrect: Het begeleiden en corrigeren van taalmodellen met foutgestuurde inzichten
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

Semantische Score Destillatie Sampling voor Compositie Text-naar-3D Generatie
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

KV-voorspelling voor een verbeterde tijd tot de eerste token.
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

Denk terwijl je genereert: Discrete Diffusie met Geplande Denoising
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

ZeroComp: Zero-shot object compositie vanuit beeldintrinsieken via diffusie
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

I-Max: Maximaliseer het resolutiepotentieel van vooraf getrainde Rectified Flow Transformers met Geprojecteerde Flow
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

DA-Code: Benchmark voor het genereren van agent data science code voor grote taalmodellen
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

SimpleStrat: Het diversifiëren van taalmodelgeneratie met stratificatie
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

MiRAGeNews: Detectie van multimodale realistische door AI gegenereerde nieuwsberichten
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

Mentor-KD: Het Verbeteren van Kleine Taalmodellen als Multi-step Redeneerders
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

GenARM: Beloningsgestuurde Generatie met Autoregressief Beloningsmodel voor Uitlijning op Testtijd
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Synth-SONAR: Sonarbeeldsynthese met verbeterde diversiteit en realisme via dubbele diffusiemodellen en GPT-aanwijzingen
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar