HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

14 papers found

FinTral: Een Familie van GPT-4 Niveau Multimodale Financiële Grote Taalmodellen
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

Feb 16

ByGagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed

We introduceren FinTral, een suite van state-of-the-art multimodale grote taalmodellen (LLMs) gebaseerd op het Mistral-7b-model en specifiek ontworpen voor financiële analyse. FinTral integreert tekstuele, numerieke, tabelvormige en beeldgegevens. We versterken FinTral met domeinspecifieke voorafgaande training, instructie-finetuning en RLAIF-training door gebruik te maken van een grote verzameling tekstuele en visuele datasets die we voor dit werk hebben samengesteld. We introduceren ook een uitgebreide benchmark met negen taken en 25 datasets voor evaluatie, inclusief hallucinaties in het financiële domein. Ons FinTral-model, getraind met directe voorkeursoptimalisatie met behulp van geavanceerde Tools en Retrieval-methoden, genaamd FinTral-DPO-T&R, toont een uitzonderlijke zero-shot prestatie. Het overtreft ChatGPT-3.5 in alle taken en overstijgt GPT-4 in vijf van de negen taken, wat een significante vooruitgang markeert in AI-gestuurde financiële technologie. We tonen ook aan dat FinTral het potentieel heeft om uit te blinken in real-time analyse en besluitvorming in diverse financiële contexten.

FiT: Flexibele Vision Transformer voor Diffusiemodellen
FiT: Flexible Vision Transformer for Diffusion Model

Feb 19

ByZeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

De natuur is oneindig resolutievrij. In de context van deze realiteit komen bestaande diffusiemodellen, zoals Diffusion Transformers, vaak uitdagingen tegen bij het verwerken van beeldresoluties buiten hun getrainde domein. Om deze beperking te overwinnen, presenteren we de Flexible Vision Transformer (FiT), een transformer-architectuur die specifiek is ontworpen voor het genereren van beelden met onbeperkte resoluties en aspectverhoudingen. In tegenstelling tot traditionele methoden die beelden zien als statische-resolutie roosters, conceptualiseert FiT beelden als reeksen van dynamisch grootte tokens. Dit perspectief maakt een flexibele trainingsstrategie mogelijk die moeiteloos aanpast aan diverse aspectverhoudingen tijdens zowel de trainings- als de inferentiefases, waardoor resolutiegeneralizatie wordt bevorderd en vooroordelen veroorzaakt door beeldbijsnijden worden geëlimineerd. Versterkt door een zorgvuldig aangepaste netwerkstructuur en de integratie van trainingsvrije extrapolatie technieken, toont FiT opmerkelijke flexibiliteit in resolutie-extrapolatie generatie. Uitgebreide experimenten demonstreren de uitzonderlijke prestaties van FiT over een breed scala aan resoluties, wat de effectiviteit ervan zowel binnen als buiten zijn trainingsresolutieverdeling aantoont. Repository beschikbaar op https://github.com/whlzy/FiT.

AnyGPT: Verenigd Multimodaal LLM met Discreet Sequentiële Modellering
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Feb 19

ByJun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

We introduceren AnyGPT, een any-to-any multimodale taalmodel dat gebruik maakt van discrete representaties voor de verenigde verwerking van verschillende modaliteiten, waaronder spraak, tekst, afbeeldingen en muziek. AnyGPT kan stabiel worden getraind zonder enige aanpassingen aan de huidige architectuur van grote taalmodellen (LLM) of trainingsparadigma's. In plaats daarvan vertrouwt het uitsluitend op data-level preprocessing, wat de naadloze integratie van nieuwe modaliteiten in LLM's vergemakkelijkt, vergelijkbaar met de integratie van nieuwe talen. We hebben een multimodaal tekstgericht dataset gebouwd voor multimodale alignement pre-training. Met behulp van generatieve modellen synthetiseren we de eerste grootschalige any-to-any multimodale instructiedataset. Deze bestaat uit 108k voorbeelden van meerzijdige gesprekken die verschillende modaliteiten op ingewikkelde wijze verweven, waardoor het model in staat wordt gesteld om willekeurige combinaties van multimodale invoer en uitvoer te verwerken. Experimentele resultaten tonen aan dat AnyGPT in staat is om any-to-any multimodale gesprekken te faciliteren en prestaties te behalen die vergelijkbaar zijn met gespecialiseerde modellen voor alle modaliteiten, wat aantoont dat discrete representaties effectief en gemakkelijk meerdere modaliteiten binnen een taalmodel kunnen verenigen. Demo's zijn te zien op https://junzhan2000.github.io/AnyGPT.github.io/.

Speculatieve Streaming: Snelle LLM-inferentie zonder hulpmodelen
Speculative Streaming: Fast LLM Inference without Auxiliary Models

Feb 16

ByNikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

Speculatieve decodering is een prominente techniek om de inferentie van een groot doel-taalmodel te versnellen op basis van voorspellingen van een hulp-draftmodel. Hoewel effectief, vereist dit in toepassingsspecifieke settings vaak het finetunen van zowel het draft- als het doelmodel om hoge acceptatiepercentages te bereiken. Naarmate het aantal downstream taken toeneemt, voegen deze draftmodellen aanzienlijke complexiteit toe aan inferentiesystemen. Wij stellen Speculative Streaming voor, een single-model speculatieve decoderingmethode die het draften integreert in het doelmodel door het finetuningdoel te veranderen van voorspelling van de volgende token naar voorspelling van toekomstige n-grammen. Speculative Streaming versnelt de decodering met 1,8 tot 3,1X in een diverse set van taken, zoals Samenvatting, Gestructureerde Query's en Betekenisrepresentatie, zonder in te leveren op generatiekwaliteit. Daarnaast is Speculative Streaming parameter-efficiënt. Het behaalt vergelijkbare/hogere snelheidsverbeteringen dan Medusa-achtige architecturen terwijl het ~10000X minder extra parameters gebruikt, wat het geschikt maakt voor apparaten met beperkte middelen.

OneBit: Op weg naar extreem laag-bit grote taalmodellen
OneBit: Towards Extremely Low-bit Large Language Models

Feb 17

ByYuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che

Modelkwantisering gebruikt waarden met een lage bitbreedte om de gewichtsmatrices van modellen weer te geven, wat een veelbelovende aanpak is om zowel de opslag- als de rekenkosten te verminderen bij het implementeren van zeer gewilde LLM's (Large Language Models). Bestaande kwantisatiemethoden lijden echter onder ernstige prestatievermindering wanneer de bitbreedte extreem wordt verlaagd, en richten zich daarom op het gebruik van 4-bit of 8-bit waarden om modellen te kwantiseren. Dit artikel kwantiseert de gewichtsmatrices van LLM's gedurfd tot 1-bit, wat de weg vrijmaakt voor de implementatie van LLM's met een extreem lage bitbreedte. Hiervoor introduceren we een 1-bit kwantisatiebewuste trainingsframework (QAT) genaamd OneBit, inclusief een nieuwe methode voor 1-bit parameterrepresentatie om LLM's beter te kwantiseren, evenals een effectieve parameterinitialisatiemethode gebaseerd op matrixdecompositie om de convergentiesnelheid van het QAT-framework te verbeteren. Uitgebreide experimentele resultaten tonen aan dat OneBit goede prestaties levert (minstens 83% van de niet-gekwantiseerde prestaties) met robuuste trainingsprocessen wanneer alleen 1-bit gewichtsmatrices worden gebruikt.

CoLLaVO: Crayon Groot Taal- en Visie Model
CoLLaVO: Crayon Large Language and Vision mOdel

Feb 17

ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

De opmerkelijke successen van Large Language Models (LLM's) en instructie-afstemming drijven de evolutie van Vision Language Models (VLM's) richting een veelzijdig model voor algemene doeleinden. Toch blijft het onbekend of huidige VLM's daadwerkelijk kwalitatief hoogstaande objectniveau-beeldbegrip bezitten, bepaald door vragen als 'welke objecten bevinden zich in de afbeelding?' of 'welk object correspondeert met een gespecificeerde begrenzingsbox?'. Onze bevindingen tonen aan dat het beeldbegrip van huidige VLM's sterk gecorreleerd is met hun zero-shot prestaties op Vision Language (VL)-taken. Dit suggereert dat het prioriteren van basisbeeldbegrip cruciaal is voor VLM's om uit te blinken in VL-taken. Om objectniveau-beeldbegrip te verbeteren, stellen we Crayon Large Language and Vision Model (CoLLaVO) voor, dat instructie-afstemming integreert met crayon prompts als een nieuw visueel prompt-afstemmingsschema gebaseerd op panoptische kleurkaarten. Daarnaast presenteren we een leerstrategie van Dual QLoRA om objectniveau-beeldbegrip te behouden zonder het te vergeten tijdens visuele instructie-afstemming, waardoor een significante sprong wordt gemaakt in zero-shot prestaties op talrijke VL-benchmarks.

Leren om sneller te leren van menselijke feedback met voorspellende controle van taalmodel
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18

ByJacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

Grote taalmodellen (LLM's) hebben aangetoond een breed scala aan mogelijkheden te bezitten, zoals het schrijven van robotcode op basis van taalcommando's – waardoor niet-experts robotgedrag kunnen aansturen, aanpassen op basis van feedback, of combineren om nieuwe taken uit te voeren. Deze mogelijkheden (aangedreven door in-context leren) zijn echter beperkt tot kortetermijninteracties, waarbij de feedback van gebruikers alleen relevant blijft zolang deze binnen de contextgrootte van het LLM past, en kan worden vergeten bij langere interacties. In dit werk onderzoeken we het fine-tunen van LLM's die robotcode schrijven, zodat ze hun in-context interacties onthouden en hun leerbaarheid verbeteren, d.w.z. hoe efficiënt ze zich aanpassen aan menselijke input (gemeten aan het gemiddeld aantal correcties voordat de gebruiker de taak als geslaagd beschouwt). Onze belangrijkste observatie is dat wanneer mens-robotinteracties worden geformuleerd als een gedeeltelijk waarneembaar Markov-beslissingsproces (waarbij menselijke taalinputs observaties zijn, en robotcode-outputs acties), het trainen van een LLM om eerdere interacties af te ronden kan worden gezien als het trainen van een transitiedynamisch model – dat kan worden gecombineerd met klassieke roboticatechnieken zoals model predictive control (MPC) om kortere wegen naar succes te ontdekken. Dit leidt tot Language Model Predictive Control (LMPC), een framework dat PaLM 2 fine-tunt om de leerbaarheid te verbeteren op 78 taken over 5 robotconfiguraties – waarbij het succespercentage van niet-experts bij het aanleren van onbekende taken met 26,9% wordt verbeterd, terwijl het gemiddeld aantal menselijke correcties wordt teruggebracht van 2,4 naar 1,9. Experimenten tonen aan dat LMPC ook sterke meta-leerders produceert, die het succespercentage van in-context leren van nieuwe taken op onbekende robotconfiguraties en API's met 31,5% verbeteren. Zie video's, code en demo's op: https://robot-teaching.github.io/.

LongAgent: Taalmodellen schalen naar 128k context door middel van multi-agent samenwerking
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Feb 18

ByJun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang

Grote taalmmodellen (LLMs) hebben indrukwekkende prestaties getoond in het begrijpen van taal en het uitvoeren van complexe redeneertaken. LLMs met lange contextvensters staan echter bekend om hun dure trainingskosten en hoge inferentielatentie. Zelfs de meest geavanceerde modellen zoals GPT-4 en Claude2 maken vaak fouten bij het verwerken van inputs van meer dan 100k tokens, een fenomeen dat ook wel bekend staat als 'lost in the middle'. In dit artikel stellen we LongAgent voor, een methode gebaseerd op multi-agent samenwerking, die LLMs (bijvoorbeeld LLaMA) schaalt naar een context van 128K en potentieel superieure prestaties toont in het verwerken van lange teksten in vergelijking met GPT-4. In LongAgent is een leider verantwoordelijk voor het begrijpen van de gebruikersintentie en het aansturen van teamleden om informatie uit documenten te verkrijgen. Vanwege hallucinaties van de leden is het niet triviaal voor een leider om accurate informatie te verkrijgen uit de reacties van tientallen tot honderden leden. Om dit aan te pakken, ontwikkelen we een communicatiemechanisme tussen leden om responsconflicten veroorzaakt door hallucinaties op te lossen door middel van informatie-uitwisseling. Onze experimentele resultaten geven aan dat LongAgent een veelbelovend alternatief biedt voor het verwerken van lange teksten. Het agententeam geïnstantieerd met LLaMA-7B behaalt significante verbeteringen in taken zoals het ophalen van 128k-lange teksten en multi-hop vraagbeantwoording, vergeleken met GPT-4.

Herformattere Uitlijning
Reformatted Alignment

Feb 19

ByRun-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu

De kwaliteit van de fine-tuninggegevens is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden. Huidige methoden om de gegevenskwaliteit te verbeteren zijn ofwel arbeidsintensief of vatbaar voor feitelijke fouten veroorzaakt door hallucinaties van LLM's. Dit artikel onderzoekt het verhogen van de kwaliteit van bestaande instructiegegevens om beter aan te sluiten bij menselijke waarden, en introduceert een eenvoudige en effectieve aanpak genaamd ReAlign, die de antwoorden van instructiegegevens herformuleert in een formaat dat beter aansluit bij vooraf vastgestelde criteria en het verzamelde bewijs. Deze aanpak minimaliseert menselijke annotatie, hallucinatie en de moeilijkheid bij opschaling, en blijft orthogonaal aan bestaande afstemmingstechnieken. Experimenteel gezien verbetert ReAlign aanzienlijk het algemene afstemmingsvermogen, wiskundig redeneren, feitelijkheid en leesbaarheid van de LLM's. Bemoedigend genoeg kan, zonder het introduceren van aanvullende gegevens of geavanceerde trainingstechnieken, en slechts door het herformatteren van het antwoord, het wiskundig redeneervermogen van LLaMA-2-13B op GSM8K worden verbeterd van 46,77% naar 56,63% in nauwkeurigheid. Bovendien levert slechts 5% van de ReAlign-gegevens een boost van 67% op in het algemene afstemmingsvermogen, gemeten door de Alpaca-dataset. Dit werk benadrukt de noodzaak van verder onderzoek naar de wetenschap en mechanistische interpreteerbaarheid van LLM's. We hebben de bijbehorende code en gegevens openbaar gemaakt om toekomstige studies te ondersteunen op https://github.com/GAIR-NLP/ReAlign.

GLoRe: Wanneer, Waar en Hoe het Redeneervermogen van LLM's te Verbeteren via Globale en Lokale Verfijningen
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Feb 13

ByAlex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau

State-of-the-art taalmodelen kunnen indrukwekkende redeneerverfijningscapaciteiten vertonen bij taken op het gebied van wiskunde, wetenschap of programmeren. Recent onderzoek toont echter aan dat zelfs de beste modellen moeite hebben om te bepalen wanneer en waar ze moeten verfijnen zonder toegang tot externe feedback. Outcome-based Reward Models (ORMs), getraind om de correctheid van het uiteindelijke antwoord te voorspellen en zo aan te geven wanneer er verfijnd moet worden, bieden een handige oplossing voor het beslissen wanneer te verfijnen. Process Based Reward Models (PRMs), getraind om de correctheid van tussenstappen te voorspellen, kunnen vervolgens worden gebruikt om aan te geven waar er verfijnd moet worden. Deze zijn echter duur om te trainen, omdat ze uitgebreide menselijke annotaties vereisen. In dit artikel stellen we Stepwise ORMs (SORMs) voor, die alleen op synthetische data worden getraind om de verwachte toekomstige beloning van het optimale beleid of V^{star} te benaderen. Meer specifiek zijn SORMs getraind om de correctheid van het uiteindelijke antwoord te voorspellen wanneer het huidige beleid meerdere keren wordt bemonsterd (in plaats van slechts één keer zoals bij ORMs). Onze experimenten tonen aan dat SORMs onjuiste redeneerstappen nauwkeuriger kunnen detecteren vergeleken met ORMs, waardoor de downstream-nauwkeurigheid bij het verfijnen wordt verbeterd. Vervolgens trainen we globale verfijningsmodellen, die alleen de vraag en een conceptoplossing als invoer nemen en een gecorrigeerde oplossing voorspellen, en lokale verfijningsmodellen die ook een kritiek als invoer nemen die de locatie van de eerste redeneerfout aangeeft. We genereren trainingsdata voor beide modellen synthetisch door data die gebruikt is om de SORM te trainen, te hergebruiken. We ontdekken dat het combineren van globale en lokale verfijningen, waarbij de ORM wordt gebruikt als een herrangeringsmodel, aanzienlijk beter presteert dan elk afzonderlijk, evenals een baseline van de beste van drie steekproeven. Met deze strategie kunnen we de nauwkeurigheid van een LLaMA-2 13B-model (dat al is afgestemd met reinforcement learning) op GSM8K verbeteren van 53\% naar 65\% wanneer het greedy wordt bemonsterd.

DiLightNet: Fijnmazige belichtingscontrole voor diffusiegebaseerde beeldgeneratie
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Feb 19

ByChong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong

Dit artikel presenteert een nieuwe methode voor het uitoefenen van fijnmazige lichtregie tijdens tekstgestuurde, diffusiegebaseerde beeldgeneratie. Hoewel bestaande diffusiemodellen al in staat zijn om afbeeldingen te genereren onder elke lichtconditie, hebben deze modellen zonder aanvullende begeleiding de neiging om beeldinhoud en belichting te correleren. Bovendien ontbreekt het tekstprompts aan de nodige uitdrukkingskracht om gedetailleerde lichtopstellingen te beschrijven. Om de inhoudscreator fijnmazige controle over de belichting te bieden tijdens beeldgeneratie, verrijken we het tekstprompt met gedetailleerde lichtinformatie in de vorm van radiance hints, dat wil zeggen visualisaties van de scènegeometrie met een homogeen canoniek materiaal onder de doelbelichting. De scènegeometrie die nodig is om de radiance hints te produceren, is echter onbekend. Onze belangrijkste observatie is dat we alleen het diffusieproces hoeven te begeleiden, waardoor exacte radiance hints niet nodig zijn; we hoeven het diffusiemodel alleen maar in de juiste richting te wijzen. Op basis van deze observatie introduceren we een driestapsmethode voor het beheersen van de belichting tijdens beeldgeneratie. In de eerste fase benutten we een standaard voorgetraind diffusiemodel om een voorlopige afbeelding te genereren onder ongecontroleerde belichting. Vervolgens, in de tweede fase, herontwerpen en verfijnen we het voorgrondobject in de gegenereerde afbeelding door de doelbelichting door te geven aan een verfijnd diffusiemodel, genaamd DiLightNet, met behulp van radiance hints berekend op een grove vorm van het voorgrondobject afgeleid uit de voorlopige afbeelding. Om de textuurdetails te behouden, vermenigvuldigen we de radiance hints met een neurale codering van de voorlopig gesynthetiseerde afbeelding voordat we deze doorgeven aan DiLightNet. Tot slot, in de derde fase, herontwerpen we de achtergrond zodat deze consistent is met de belichting op het voorgrondobject. We demonstreren en valideren ons lichtgecontroleerde diffusiemodel op een verscheidenheid aan tekstprompts en lichtcondities.

Binaire Opaciteitsroosters: Het Vastleggen van Fijne Geometrische Details voor Mesh-Gebaseerde Beeldsynthese
Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Feb 19

ByChristian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

Hoewel oppervlaktegebaseerde algoritmen voor viewsynthese aantrekkelijk zijn vanwege hun lage computationale eisen, hebben ze vaak moeite met het reproduceren van dunne structuren. Daarentegen excelleren duurdere methoden die de geometrie van de scène modelleren als een volumetrisch dichtheidsveld (bijv. NeRF) in het reconstrueren van fijne geometrische details. Dichtheidsvelden representeren geometrie echter vaak op een "wazige" manier, wat een exacte lokalisatie van het oppervlak belemmert. In dit werk passen we dichtheidsvelden aan om ze te stimuleren naar oppervlakken te convergeren, zonder hun vermogen om dunne structuren te reconstrueren in te perken. Ten eerste gebruiken we een discrete opacity grid-representatie in plaats van een continu dichtheidsveld, waardoor opacity-waarden discontinu kunnen overgaan van nul naar één bij het oppervlak. Ten tweede anti-aliassen we door meerdere stralen per pixel te casten, wat het modelleren van occlusiegrenzen en subpixelstructuren mogelijk maakt zonder semi-transparante voxels te gebruiken. Ten derde minimaliseren we de binaire entropie van de opacity-waarden, wat de extractie van oppervlaktegeometrie vergemakkelijkt door opacity-waarden te stimuleren om te binariseren tegen het einde van de training. Tot slot ontwikkelen we een fusiegebaseerde meshing-strategie gevolgd door mesh-simplificatie en aanpassing van het uiterlijkmodel. De compacte meshes die door ons model worden geproduceerd, kunnen in real-time worden gerenderd op mobiele apparaten en bereiken een aanzienlijk hogere kwaliteit van viewsynthese vergeleken met bestaande mesh-gebaseerde benaderingen.

Vision-Flan: Schaalvergroting van door mensen gelabelde taken in visuele instructieafstemming
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Feb 18

ByZhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang

Ondanks de opmerkelijke capaciteiten van visie-taalmodellen (VLMs) als veelzijdige visuele assistenten, blijven er twee aanzienlijke uitdagingen bestaan binnen de bestaande VLM-frameworks: (1) een gebrek aan taakdiversiteit in de voorafgaande training en visuele instructieafstemming, en (2) annotatiefouten en bias in de door GPT-4 gesynthetiseerde instructieafstemmingsdata. Beide uitdagingen leiden tot problemen zoals slechte generaliseerbaarheid, hallucinatie en catastrofaal vergeten. Om deze uitdagingen aan te pakken, hebben we Vision-Flan geconstrueerd, de meest diverse openbaar beschikbare dataset voor visuele instructieafstemming tot nu toe, bestaande uit 187 diverse taken en 1.664.261 instanties afkomstig uit academische datasets, waarbij elke taak wordt vergezeld door een door experts geschreven instructie. Daarnaast stellen we een tweefasen instructieafstemmingsframework voor, waarin VLMs eerst worden afgestemd op Vision-Flan en vervolgens verder worden afgestemd op door GPT-4 gesynthetiseerde data. We ontdekken dat dit tweefasen afstemmingsframework aanzienlijk beter presteert dan het traditionele eenfasige visuele instructieafstemmingsframework en de state-of-the-art prestaties behaalt op een breed scala aan multimodale evaluatiebenchmarks. Ten slotte voeren we diepgaande analyses uit om visuele instructieafstemming te begrijpen, en onze bevindingen onthullen dat: (1) door GPT-4 gesynthetiseerde data de capaciteiten van VLMs niet substantieel verbetert, maar eerder de reacties van het model afstemt op door mensen geprefereerde formaten; (2) Een minimale hoeveelheid (bijvoorbeeld 1.000) door GPT-4 gesynthetiseerde data kan de reacties van VLMs effectief afstemmen op menselijke voorkeuren; (3) Visuele instructieafstemming helpt voornamelijk grote-taalmodellen (LLMs) om visuele kenmerken te begrijpen.

Het maximaliseren van de capaciteit en schaalbaarheid van autoregressieve modellen voor 3D-vormgeneratie
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

Feb 19

ByXuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu

Auto-regressieve modellen hebben indrukwekkende resultaten behaald in 2D-beeldgeneratie door gezamenlijke verdelingen in rasterruimte te modelleren. In dit artikel breiden we auto-regressieve modellen uit naar 3D-domeinen en streven we naar een sterkere capaciteit voor 3D-vormgeneratie door auto-regressieve modellen tegelijkertijd te verbeteren op het gebied van capaciteit en schaalbaarheid. Ten eerste maken we gebruik van een ensemble van openbaar beschikbare 3D-datasets om de training van grootschalige modellen te vergemakkelijken. Dit bestaat uit een uitgebreide collectie van ongeveer 900.000 objecten, met meerdere eigenschappen zoals meshes, punten, voxels, gerenderde afbeeldingen en tekstbeschrijvingen. Deze diverse gelabelde dataset, genaamd Objaverse-Mix, stelt ons model in staat te leren van een breed scala aan objectvariaties. Het direct toepassen van 3D-auto-regressie stuit echter op kritieke uitdagingen, zoals hoge computationele eisen op volumetrische rasters en dubbelzinnige auto-regressieve volgorde langs rasterdimensies, wat resulteert in een inferieure kwaliteit van 3D-vormen. Daarom presenteren we vervolgens een nieuw framework, Argus3D, wat betreft capaciteit. Concreet introduceert onze aanpak discrete representatieleer gebaseerd op een latente vector in plaats van volumetrische rasters, wat niet alleen de computationele kosten vermindert, maar ook essentiële geometrische details behoudt door de gezamenlijke verdelingen in een meer hanteerbare volgorde te leren. De capaciteit van conditionele generatie kan zo worden gerealiseerd door eenvoudigweg verschillende conditionele invoeren aan de latente vector te koppelen, zoals puntenwolken, categorieën, afbeeldingen en teksten. Bovendien kunnen we, dankzij de eenvoud van onze modelarchitectuur, onze aanpak natuurlijk opschalen naar een groter model met indrukwekkende 3,6 miljard parameters, wat de kwaliteit van veelzijdige 3D-generatie verder verbetert. Uitgebreide experimenten op vier generatietaken tonen aan dat Argus3D diverse en nauwkeurige vormen over meerdere categorieën kan synthetiseren, waarbij opmerkelijke prestaties worden behaald.

Leren om sneller te leren van menselijke feedback met voorspellende controle van taalmodel
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18