Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen hebben aanzienlijke vooruitgang getoond in redeneervermogen, met name door schaalvergroting tijdens inferentie, zoals geïllustreerd door modellen zoals OpenAI's o1. Echter, huidige Visie-Taal Modellen (VLM's) hebben vaak moeite met systematische en gestructureerde redenering, vooral bij het uitvoeren van complexe visuele vraag-antwoordtaken. In dit werk introduceren we LLaVA-o1, een nieuw VLM dat is ontworpen om autonome meertrapsredenering uit te voeren. In tegenstelling tot keten-van-gedachten prompting, betrekt LLaVA-o1 onafhankelijk bij opeenvolgende stadia van samenvatting, visuele interpretatie, logisch redeneren en conclusiegeneratie. Deze gestructureerde aanpak stelt LLaVA-o1 in staat aanzienlijke verbeteringen in precisie te behalen bij redeneringsintensieve taken. Om dit te bereiken, compileren we de LLaVA-o1-100k dataset, waarbij voorbeelden uit verschillende bronnen van visuele vraagbeantwoording worden geïntegreerd en gestructureerde redeneringsannotaties worden verstrekt. Bovendien stellen we een inferentietijd stadiumniveau beam search methode voor, die effectieve schaalvergroting tijdens inferentie mogelijk maakt. Opmerkelijk genoeg presteert LLaVA-o1 met slechts 100k trainingsvoorbeelden en een eenvoudige maar effectieve methode voor schaalvergroting tijdens inferentie niet alleen 8,9% beter dan zijn basismodel op een breed scala van multimodale redeneer-benchmarks, maar overtreft het ook de prestaties van grotere en zelfs gesloten-bronmodellen, zoals Gemini-1.5-pro, GPT-4o-mini, en Llama-3.2-90B-Vision-Instruct.
In dit artikel presenteren we RAG, een Regionaal-Bewuste tekst-naar-afbeelding Generatiemethode geconditioneerd op regionale beschrijvingen voor precieze lay-outcompositie. Regionale aanmoediging, of compositionele generatie, die fijnmazige ruimtelijke controle mogelijk maakt, heeft steeds meer aandacht gekregen vanwege de praktische toepasbaarheid in real-world toepassingen. Echter, eerdere methoden introduceren ofwel extra trainbare modules, waardoor ze alleen toepasbaar zijn op specifieke modellen, of manipuleren scorekaarten binnen kruis-aandachtslagen met behulp van aandachtsmaskers, wat resulteert in beperkte controlekracht wanneer het aantal regio's toeneemt. Om deze beperkingen aan te pakken, splitsen we de multi-regio generatie op in twee subtaken, de constructie van individuele regio (Regionale Harde Binding) die ervoor zorgt dat de regionale aanmoediging correct wordt uitgevoerd, en de algehele detailverfijning (Regionale Zachte Verfijning) over regio's die de visuele grenzen negeren en naburige interacties verbeteren. Bovendien maakt RAG op een vernieuwende manier herschilderen mogelijk, waarbij gebruikers specifieke ontevreden regio's in de laatste generatie kunnen aanpassen terwijl alle andere regio's ongewijzigd blijven, zonder te vertrouwen op aanvullende inpaintingsmodellen. Onze benadering is afstemmingsvrij en toepasbaar op andere frameworks als een verbetering van de prompt-opvolgingseigenschap. Kwantitatieve en kwalitatieve experimenten tonen aan dat RAG superieure prestaties behaalt op attribuutbinding en objectrelatie dan eerdere afstemmingsvrije methoden.
Het recent uitgebrachte model, Claude 3.5 Computergebruik, valt op als het eerste AI-model aan de voorhoede dat computergebruik in de publieke bèta aanbiedt als een grafische gebruikersinterface (GUI)-agent. Als een vroege bèta blijft de capaciteit ervan in de complexe werkelijke omgeving onbekend. In deze casestudy om Claude 3.5 Computergebruik te verkennen, cureren en organiseren we een verzameling zorgvuldig ontworpen taken die verschillende domeinen en software bestrijken. Observaties uit deze gevallen tonen de ongekende mogelijkheid van Claude 3.5 Computergebruik in taal-tot-desktopacties. Samen met deze studie bieden we een out-of-the-box agentframework voor het implementeren van op API gebaseerde GUI-automatiseringsmodellen met eenvoudige implementatie. Onze casestudies beogen een basis te tonen van de mogelijkheden en beperkingen van Claude 3.5 Computergebruik met gedetailleerde analyses en brengen vragen over planning, actie en kritiek naar voren, die moeten worden overwogen voor toekomstige verbeteringen. We hopen dat deze voorlopige verkenning toekomstig onderzoek zal inspireren binnen de GUI-agentgemeenschap. Alle testgevallen in het artikel kunnen worden uitgeprobeerd via het project: https://github.com/showlab/computer_use_ootb.
Hoewel 3D-inhoudsgeneratie aanzienlijk is gevorderd, hebben bestaande methoden nog steeds te maken met uitdagingen met invoerformaten, latent ruimteontwerp en uitvoerrepresentaties. Dit artikel introduceert een nieuw 3D-generatiekader dat deze uitdagingen aanpakt, met schaalbare, hoogwaardige 3D-generatie met een interactieve puntwolk-gestructureerde Latente ruimte. Ons kader maakt gebruik van een Variational Autoencoder (VAE) met multi-view geposeerde RGB-D(epth)-N(ormal) renderingen als invoer, waarbij een uniek latent ruimteontwerp wordt gebruikt dat 3D-vorminformatie behoudt, en een gecascadeerd latent diffusiemodel opneemt voor verbeterde vorm-textuurontkoppeling. De voorgestelde methode, GaussianAnything, ondersteunt multimodale conditionele 3D-generatie, waardoor puntwolk-, bijschrift- en enkel-/multi-view afbeeldingsinvoer mogelijk is. Opmerkelijk maakt de nieuw voorgestelde latente ruimte geometrie-textuurontkoppeling mogelijk, waardoor 3D-bewerking mogelijk is. Experimentele resultaten tonen de effectiviteit van onze aanpak aan op meerdere datasets, waarbij bestaande methoden worden overtroffen in zowel tekst- als afbeeldingsgeconditioneerde 3D-generatie.
We introduceren Xmodel-1.5, een nieuw 1-miljard-parameter meertalig groot model dat is voorgetraind op ongeveer 2 biljoen tokens. Het model toont sterke prestaties in verschillende talen, met name opmerkelijke resultaten in het Thais, Arabisch en Frans, naast zijn effectiviteit in het Chinees en Engels. Daarnaast dragen we bij aan de onderzoeksgemeenschap door een Thaise evaluatiedataset vrij te geven, die honderden vragen bevat die zijn geannoteerd door studenten van de School of Integrated Innovation van de Chulalongkorn Universiteit. Hoewel de resultaten veelbelovend zijn, erkennen we dat er nog ruimte is voor verbetering. We hopen dat dit werk bijdraagt aan lopende inspanningen in onderzoek naar meertalige AI en een beter interlinguïstisch begrip bevordert in verschillende taken voor natuurlijke taalverwerking. Onze modellen en code zijn openbaar beschikbaar op GitHub op https://github.com/XiaoduoAILab/XmodelLM.
Video Large Language Models (Vid-LLMs) hebben opmerkelijke vooruitgang geboekt in het begrijpen van videomateriaal voor QA-dialogen. Echter, ze hebben moeite om deze visuele begrip uit te breiden naar taken die een nauwkeurige temporele lokalisatie vereisen, bekend als Video Temporal Grounding (VTG). Om deze kloof te overbruggen, introduceren we Number-Prompt (NumPro), een nieuw methodiek die Vid-LLMs in staat stelt om visueel begrip te verbinden met temporele lokalisatie door unieke numerieke identificatoren toe te voegen aan elk videoframe. Door een video te behandelen als een reeks genummerde frameafbeeldingen, transformeert NumPro VTG in een intuïtief proces: door manga-panelen in volgorde te bladeren. Dit stelt Vid-LLMs in staat om "gebeurtenistijdlijnen" te "lezen", waarbij ze visuele inhoud nauwkeurig koppelen aan bijbehorende temporele informatie. Onze experimenten tonen aan dat NumPro de VTG-prestaties van topklasse Vid-LLMs aanzienlijk verbetert zonder extra rekenkundige kosten. Bovendien definieert fine-tuning op een NumPro-versterkte dataset een nieuwe state-of-the-art voor VTG, waarbij eerdere best presterende methoden worden overtroffen met maximaal 6,9% in mIoU voor momentopvraging en 8,5% in mAP voor highlight-detectie. De code zal beschikbaar zijn op https://github.com/yongliang-wu/NumPro.
Het trainen van diepe neurale netwerken - en meer recentelijk, grote modellen - vereist efficiënte en schaalbare optimalisatoren. Adaptieve gradiëntalgoritmen zoals Adam, AdamW en hun varianten zijn cruciaal gebleken voor deze taak. Ondanks de ontwikkeling van talrijke algoritmen voor variantiereductie in het afgelopen decennium, gericht op het versnellen van stochastische optimalisatie in zowel convexe als niet-convexe omgevingen, heeft variantiereductie geen brede acceptatie gevonden bij het trainen van diepe neurale netwerken of grote taalmodellen. Als gevolg hiervan is het een minder populaire benadering gebleven in de moderne AI. In dit artikel stellen we voor om de kracht van variantiereductie voor efficiënte training van grote modellen te benutten door middel van een verenigd optimalisatiekader, MARS (Make vAriance Reduction Shine), dat voorwaardelijke gradiëntmethoden verzoent met variantiereductie via een geschaalde stochastische recursieve momentumtechniek. Binnen ons kader introduceren we drie instanties van MARS die gebruikmaken van voorwaardelijke gradiëntupdates op basis van AdamW, Lion en Shampoo, respectievelijk. We leggen ook een verband tussen onze algoritmen en bestaande optimalisatoren. Experimentele resultaten bij het trainen van GPT-2 modellen tonen aan dat MARS consequent AdamW aanzienlijk overtreft.