HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

7 papers found

LLaVA-o1: Laat Vision Language Models Stapsgewijs Redeneren
LLaVA-o1: Let Vision Language Models Reason Step-by-Step

Nov 15

ByGuowei Xu, Peng Jin, Li Hao, Yibing Song, Lichao Sun, Li Yuan

105

Grote taalmodellen hebben aanzienlijke vooruitgang getoond in redeneervermogen, met name door schaalvergroting tijdens inferentie, zoals geïllustreerd door modellen zoals OpenAI's o1. Echter, huidige Visie-Taal Modellen (VLM's) hebben vaak moeite met systematische en gestructureerde redenering, vooral bij het uitvoeren van complexe visuele vraag-antwoordtaken. In dit werk introduceren we LLaVA-o1, een nieuw VLM dat is ontworpen om autonome meertrapsredenering uit te voeren. In tegenstelling tot keten-van-gedachten prompting, betrekt LLaVA-o1 onafhankelijk bij opeenvolgende stadia van samenvatting, visuele interpretatie, logisch redeneren en conclusiegeneratie. Deze gestructureerde aanpak stelt LLaVA-o1 in staat aanzienlijke verbeteringen in precisie te behalen bij redeneringsintensieve taken. Om dit te bereiken, compileren we de LLaVA-o1-100k dataset, waarbij voorbeelden uit verschillende bronnen van visuele vraagbeantwoording worden geïntegreerd en gestructureerde redeneringsannotaties worden verstrekt. Bovendien stellen we een inferentietijd stadiumniveau beam search methode voor, die effectieve schaalvergroting tijdens inferentie mogelijk maakt. Opmerkelijk genoeg presteert LLaVA-o1 met slechts 100k trainingsvoorbeelden en een eenvoudige maar effectieve methode voor schaalvergroting tijdens inferentie niet alleen 8,9% beter dan zijn basismodel op een breed scala van multimodale redeneer-benchmarks, maar overtreft het ook de prestaties van grotere en zelfs gesloten-bronmodellen, zoals Gemini-1.5-pro, GPT-4o-mini, en Llama-3.2-90B-Vision-Instruct.

Regio-bewuste tekst-naar-afbeelding generatie via harde binding en zachte verfijning
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement

Nov 10

ByZhennan Chen, Yajie Li, Haofan Wang, Zhibo Chen, Zhengkai Jiang, Jun Li, Qian Wang, Jian Yang, Ying Tai

In dit artikel presenteren we RAG, een Regionaal-Bewuste tekst-naar-afbeelding Generatiemethode geconditioneerd op regionale beschrijvingen voor precieze lay-outcompositie. Regionale aanmoediging, of compositionele generatie, die fijnmazige ruimtelijke controle mogelijk maakt, heeft steeds meer aandacht gekregen vanwege de praktische toepasbaarheid in real-world toepassingen. Echter, eerdere methoden introduceren ofwel extra trainbare modules, waardoor ze alleen toepasbaar zijn op specifieke modellen, of manipuleren scorekaarten binnen kruis-aandachtslagen met behulp van aandachtsmaskers, wat resulteert in beperkte controlekracht wanneer het aantal regio's toeneemt. Om deze beperkingen aan te pakken, splitsen we de multi-regio generatie op in twee subtaken, de constructie van individuele regio (Regionale Harde Binding) die ervoor zorgt dat de regionale aanmoediging correct wordt uitgevoerd, en de algehele detailverfijning (Regionale Zachte Verfijning) over regio's die de visuele grenzen negeren en naburige interacties verbeteren. Bovendien maakt RAG op een vernieuwende manier herschilderen mogelijk, waarbij gebruikers specifieke ontevreden regio's in de laatste generatie kunnen aanpassen terwijl alle andere regio's ongewijzigd blijven, zonder te vertrouwen op aanvullende inpaintingsmodellen. Onze benadering is afstemmingsvrij en toepasbaar op andere frameworks als een verbetering van de prompt-opvolgingseigenschap. Kwantitatieve en kwalitatieve experimenten tonen aan dat RAG superieure prestaties behaalt op attribuutbinding en objectrelatie dan eerdere afstemmingsvrije methoden.

De Opkomst van GUI Agent: Een Voorlopige Casestudy met de Claude 3.5 Computer Gebruik
The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use

Nov 15

BySiyuan Hu, Mingyu Ouyang, Difei Gao, Mike Zheng Shou

Het recent uitgebrachte model, Claude 3.5 Computergebruik, valt op als het eerste AI-model aan de voorhoede dat computergebruik in de publieke bèta aanbiedt als een grafische gebruikersinterface (GUI)-agent. Als een vroege bèta blijft de capaciteit ervan in de complexe werkelijke omgeving onbekend. In deze casestudy om Claude 3.5 Computergebruik te verkennen, cureren en organiseren we een verzameling zorgvuldig ontworpen taken die verschillende domeinen en software bestrijken. Observaties uit deze gevallen tonen de ongekende mogelijkheid van Claude 3.5 Computergebruik in taal-tot-desktopacties. Samen met deze studie bieden we een out-of-the-box agentframework voor het implementeren van op API gebaseerde GUI-automatiseringsmodellen met eenvoudige implementatie. Onze casestudies beogen een basis te tonen van de mogelijkheden en beperkingen van Claude 3.5 Computergebruik met gedetailleerde analyses en brengen vragen over planning, actie en kritiek naar voren, die moeten worden overwogen voor toekomstige verbeteringen. We hopen dat deze voorlopige verkenning toekomstig onderzoek zal inspireren binnen de GUI-agentgemeenschap. Alle testgevallen in het artikel kunnen worden uitgeprobeerd via het project: https://github.com/showlab/computer_use_ootb.

GaussianAnything: Interactieve Puntwolk Latente Diffusie voor 3D Generatie
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation

Nov 12

ByYushi Lan, Shangchen Zhou, Zhaoyang Lyu, Fangzhou Hong, Shuai Yang, Bo Dai, Xingang Pan, Chen Change Loy

Hoewel 3D-inhoudsgeneratie aanzienlijk is gevorderd, hebben bestaande methoden nog steeds te maken met uitdagingen met invoerformaten, latent ruimteontwerp en uitvoerrepresentaties. Dit artikel introduceert een nieuw 3D-generatiekader dat deze uitdagingen aanpakt, met schaalbare, hoogwaardige 3D-generatie met een interactieve puntwolk-gestructureerde Latente ruimte. Ons kader maakt gebruik van een Variational Autoencoder (VAE) met multi-view geposeerde RGB-D(epth)-N(ormal) renderingen als invoer, waarbij een uniek latent ruimteontwerp wordt gebruikt dat 3D-vorminformatie behoudt, en een gecascadeerd latent diffusiemodel opneemt voor verbeterde vorm-textuurontkoppeling. De voorgestelde methode, GaussianAnything, ondersteunt multimodale conditionele 3D-generatie, waardoor puntwolk-, bijschrift- en enkel-/multi-view afbeeldingsinvoer mogelijk is. Opmerkelijk maakt de nieuw voorgestelde latente ruimte geometrie-textuurontkoppeling mogelijk, waardoor 3D-bewerking mogelijk is. Experimentele resultaten tonen de effectiviteit van onze aanpak aan op meerdere datasets, waarbij bestaande methoden worden overtroffen in zowel tekst- als afbeeldingsgeconditioneerde 3D-generatie.

Xmodel-1.5: Een meertalig LLM op schaal van 1B
Xmodel-1.5: An 1B-scale Multilingual LLM

Nov 15

ByWang Qun, Liu Yang, Lin Qingquan, Jiang Ling

We introduceren Xmodel-1.5, een nieuw 1-miljard-parameter meertalig groot model dat is voorgetraind op ongeveer 2 biljoen tokens. Het model toont sterke prestaties in verschillende talen, met name opmerkelijke resultaten in het Thais, Arabisch en Frans, naast zijn effectiviteit in het Chinees en Engels. Daarnaast dragen we bij aan de onderzoeksgemeenschap door een Thaise evaluatiedataset vrij te geven, die honderden vragen bevat die zijn geannoteerd door studenten van de School of Integrated Innovation van de Chulalongkorn Universiteit. Hoewel de resultaten veelbelovend zijn, erkennen we dat er nog ruimte is voor verbetering. We hopen dat dit werk bijdraagt aan lopende inspanningen in onderzoek naar meertalige AI en een beter interlinguïstisch begrip bevordert in verschillende taken voor natuurlijke taalverwerking. Onze modellen en code zijn openbaar beschikbaar op GitHub op https://github.com/XiaoduoAILab/XmodelLM.

Nummer het: Temporele verankering van video's zoals het omslaan van manga.
Number it: Temporal Grounding Videos like Flipping Manga

Nov 15

ByYongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

Video Large Language Models (Vid-LLMs) hebben opmerkelijke vooruitgang geboekt in het begrijpen van videomateriaal voor QA-dialogen. Echter, ze hebben moeite om deze visuele begrip uit te breiden naar taken die een nauwkeurige temporele lokalisatie vereisen, bekend als Video Temporal Grounding (VTG). Om deze kloof te overbruggen, introduceren we Number-Prompt (NumPro), een nieuw methodiek die Vid-LLMs in staat stelt om visueel begrip te verbinden met temporele lokalisatie door unieke numerieke identificatoren toe te voegen aan elk videoframe. Door een video te behandelen als een reeks genummerde frameafbeeldingen, transformeert NumPro VTG in een intuïtief proces: door manga-panelen in volgorde te bladeren. Dit stelt Vid-LLMs in staat om "gebeurtenistijdlijnen" te "lezen", waarbij ze visuele inhoud nauwkeurig koppelen aan bijbehorende temporele informatie. Onze experimenten tonen aan dat NumPro de VTG-prestaties van topklasse Vid-LLMs aanzienlijk verbetert zonder extra rekenkundige kosten. Bovendien definieert fine-tuning op een NumPro-versterkte dataset een nieuwe state-of-the-art voor VTG, waarbij eerdere best presterende methoden worden overtroffen met maximaal 6,9% in mIoU voor momentopvraging en 8,5% in mAP voor highlight-detectie. De code zal beschikbaar zijn op https://github.com/yongliang-wu/NumPro.

MARS: Het Benutten van de Kracht van Variantiereductie voor het Trainen van Grote Modellen
MARS: Unleashing the Power of Variance Reduction for Training Large Models

Nov 15

ByHuizhuo Yuan, Yifeng Liu, Shuang Wu, Xun Zhou, Quanquan Gu

Het trainen van diepe neurale netwerken - en meer recentelijk, grote modellen - vereist efficiënte en schaalbare optimalisatoren. Adaptieve gradiëntalgoritmen zoals Adam, AdamW en hun varianten zijn cruciaal gebleken voor deze taak. Ondanks de ontwikkeling van talrijke algoritmen voor variantiereductie in het afgelopen decennium, gericht op het versnellen van stochastische optimalisatie in zowel convexe als niet-convexe omgevingen, heeft variantiereductie geen brede acceptatie gevonden bij het trainen van diepe neurale netwerken of grote taalmodellen. Als gevolg hiervan is het een minder populaire benadering gebleven in de moderne AI. In dit artikel stellen we voor om de kracht van variantiereductie voor efficiënte training van grote modellen te benutten door middel van een verenigd optimalisatiekader, MARS (Make vAriance Reduction Shine), dat voorwaardelijke gradiëntmethoden verzoent met variantiereductie via een geschaalde stochastische recursieve momentumtechniek. Binnen ons kader introduceren we drie instanties van MARS die gebruikmaken van voorwaardelijke gradiëntupdates op basis van AdamW, Lion en Shampoo, respectievelijk. We leggen ook een verband tussen onze algoritmen en bestaande optimalisatoren. Experimentele resultaten bij het trainen van GPT-2 modellen tonen aan dat MARS consequent AdamW aanzienlijk overtreft.