Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren FinTral, een suite van state-of-the-art multimodale grote taalmodellen (LLMs) gebaseerd op het Mistral-7b-model en specifiek ontworpen voor financiële analyse. FinTral integreert tekstuele, numerieke, tabelvormige en beeldgegevens. We versterken FinTral met domeinspecifieke voorafgaande training, instructie-finetuning en RLAIF-training door gebruik te maken van een grote verzameling tekstuele en visuele datasets die we voor dit werk hebben samengesteld. We introduceren ook een uitgebreide benchmark met negen taken en 25 datasets voor evaluatie, inclusief hallucinaties in het financiële domein. Ons FinTral-model, getraind met directe voorkeursoptimalisatie met behulp van geavanceerde Tools en Retrieval-methoden, genaamd FinTral-DPO-T&R, toont een uitzonderlijke zero-shot prestatie. Het overtreft ChatGPT-3.5 in alle taken en overstijgt GPT-4 in vijf van de negen taken, wat een significante vooruitgang markeert in AI-gestuurde financiële technologie. We tonen ook aan dat FinTral het potentieel heeft om uit te blinken in real-time analyse en besluitvorming in diverse financiële contexten.
De natuur is oneindig resolutievrij. In de context van deze realiteit komen bestaande diffusiemodellen, zoals Diffusion Transformers, vaak uitdagingen tegen bij het verwerken van beeldresoluties buiten hun getrainde domein. Om deze beperking te overwinnen, presenteren we de Flexible Vision Transformer (FiT), een transformer-architectuur die specifiek is ontworpen voor het genereren van beelden met onbeperkte resoluties en aspectverhoudingen. In tegenstelling tot traditionele methoden die beelden zien als statische-resolutie roosters, conceptualiseert FiT beelden als reeksen van dynamisch grootte tokens. Dit perspectief maakt een flexibele trainingsstrategie mogelijk die moeiteloos aanpast aan diverse aspectverhoudingen tijdens zowel de trainings- als de inferentiefases, waardoor resolutiegeneralizatie wordt bevorderd en vooroordelen veroorzaakt door beeldbijsnijden worden geëlimineerd. Versterkt door een zorgvuldig aangepaste netwerkstructuur en de integratie van trainingsvrije extrapolatie technieken, toont FiT opmerkelijke flexibiliteit in resolutie-extrapolatie generatie. Uitgebreide experimenten demonstreren de uitzonderlijke prestaties van FiT over een breed scala aan resoluties, wat de effectiviteit ervan zowel binnen als buiten zijn trainingsresolutieverdeling aantoont. Repository beschikbaar op https://github.com/whlzy/FiT.
We introduceren AnyGPT, een any-to-any multimodale taalmodel dat gebruik maakt van discrete representaties voor de verenigde verwerking van verschillende modaliteiten, waaronder spraak, tekst, afbeeldingen en muziek. AnyGPT kan stabiel worden getraind zonder enige aanpassingen aan de huidige architectuur van grote taalmodellen (LLM) of trainingsparadigma's. In plaats daarvan vertrouwt het uitsluitend op data-level preprocessing, wat de naadloze integratie van nieuwe modaliteiten in LLM's vergemakkelijkt, vergelijkbaar met de integratie van nieuwe talen. We hebben een multimodaal tekstgericht dataset gebouwd voor multimodale alignement pre-training. Met behulp van generatieve modellen synthetiseren we de eerste grootschalige any-to-any multimodale instructiedataset. Deze bestaat uit 108k voorbeelden van meerzijdige gesprekken die verschillende modaliteiten op ingewikkelde wijze verweven, waardoor het model in staat wordt gesteld om willekeurige combinaties van multimodale invoer en uitvoer te verwerken. Experimentele resultaten tonen aan dat AnyGPT in staat is om any-to-any multimodale gesprekken te faciliteren en prestaties te behalen die vergelijkbaar zijn met gespecialiseerde modellen voor alle modaliteiten, wat aantoont dat discrete representaties effectief en gemakkelijk meerdere modaliteiten binnen een taalmodel kunnen verenigen. Demo's zijn te zien op https://junzhan2000.github.io/AnyGPT.github.io/.
Speculatieve decodering is een prominente techniek om de inferentie van een groot doel-taalmodel te versnellen op basis van voorspellingen van een hulp-draftmodel. Hoewel effectief, vereist dit in toepassingsspecifieke settings vaak het finetunen van zowel het draft- als het doelmodel om hoge acceptatiepercentages te bereiken. Naarmate het aantal downstream taken toeneemt, voegen deze draftmodellen aanzienlijke complexiteit toe aan inferentiesystemen. Wij stellen Speculative Streaming voor, een single-model speculatieve decoderingmethode die het draften integreert in het doelmodel door het finetuningdoel te veranderen van voorspelling van de volgende token naar voorspelling van toekomstige n-grammen. Speculative Streaming versnelt de decodering met 1,8 tot 3,1X in een diverse set van taken, zoals Samenvatting, Gestructureerde Query's en Betekenisrepresentatie, zonder in te leveren op generatiekwaliteit. Daarnaast is Speculative Streaming parameter-efficiënt. Het behaalt vergelijkbare/hogere snelheidsverbeteringen dan Medusa-achtige architecturen terwijl het ~10000X minder extra parameters gebruikt, wat het geschikt maakt voor apparaten met beperkte middelen.
Modelkwantisering gebruikt waarden met een lage bitbreedte om de gewichtsmatrices van modellen weer te geven, wat een veelbelovende aanpak is om zowel de opslag- als de rekenkosten te verminderen bij het implementeren van zeer gewilde LLM's (Large Language Models). Bestaande kwantisatiemethoden lijden echter onder ernstige prestatievermindering wanneer de bitbreedte extreem wordt verlaagd, en richten zich daarom op het gebruik van 4-bit of 8-bit waarden om modellen te kwantiseren. Dit artikel kwantiseert de gewichtsmatrices van LLM's gedurfd tot 1-bit, wat de weg vrijmaakt voor de implementatie van LLM's met een extreem lage bitbreedte. Hiervoor introduceren we een 1-bit kwantisatiebewuste trainingsframework (QAT) genaamd OneBit, inclusief een nieuwe methode voor 1-bit parameterrepresentatie om LLM's beter te kwantiseren, evenals een effectieve parameterinitialisatiemethode gebaseerd op matrixdecompositie om de convergentiesnelheid van het QAT-framework te verbeteren. Uitgebreide experimentele resultaten tonen aan dat OneBit goede prestaties levert (minstens 83% van de niet-gekwantiseerde prestaties) met robuuste trainingsprocessen wanneer alleen 1-bit gewichtsmatrices worden gebruikt.
De opmerkelijke successen van Large Language Models (LLM's) en instructie-afstemming drijven de evolutie van Vision Language Models (VLM's) richting een veelzijdig model voor algemene doeleinden. Toch blijft het onbekend of huidige VLM's daadwerkelijk kwalitatief hoogstaande objectniveau-beeldbegrip bezitten, bepaald door vragen als 'welke objecten bevinden zich in de afbeelding?' of 'welk object correspondeert met een gespecificeerde begrenzingsbox?'. Onze bevindingen tonen aan dat het beeldbegrip van huidige VLM's sterk gecorreleerd is met hun zero-shot prestaties op Vision Language (VL)-taken. Dit suggereert dat het prioriteren van basisbeeldbegrip cruciaal is voor VLM's om uit te blinken in VL-taken. Om objectniveau-beeldbegrip te verbeteren, stellen we Crayon Large Language and Vision Model (CoLLaVO) voor, dat instructie-afstemming integreert met crayon prompts als een nieuw visueel prompt-afstemmingsschema gebaseerd op panoptische kleurkaarten. Daarnaast presenteren we een leerstrategie van Dual QLoRA om objectniveau-beeldbegrip te behouden zonder het te vergeten tijdens visuele instructie-afstemming, waardoor een significante sprong wordt gemaakt in zero-shot prestaties op talrijke VL-benchmarks.
Grote taalmodellen (LLM's) hebben aangetoond een breed scala aan mogelijkheden te bezitten, zoals het schrijven van robotcode op basis van taalcommando's – waardoor niet-experts robotgedrag kunnen aansturen, aanpassen op basis van feedback, of combineren om nieuwe taken uit te voeren. Deze mogelijkheden (aangedreven door in-context leren) zijn echter beperkt tot kortetermijninteracties, waarbij de feedback van gebruikers alleen relevant blijft zolang deze binnen de contextgrootte van het LLM past, en kan worden vergeten bij langere interacties. In dit werk onderzoeken we het fine-tunen van LLM's die robotcode schrijven, zodat ze hun in-context interacties onthouden en hun leerbaarheid verbeteren, d.w.z. hoe efficiënt ze zich aanpassen aan menselijke input (gemeten aan het gemiddeld aantal correcties voordat de gebruiker de taak als geslaagd beschouwt). Onze belangrijkste observatie is dat wanneer mens-robotinteracties worden geformuleerd als een gedeeltelijk waarneembaar Markov-beslissingsproces (waarbij menselijke taalinputs observaties zijn, en robotcode-outputs acties), het trainen van een LLM om eerdere interacties af te ronden kan worden gezien als het trainen van een transitiedynamisch model – dat kan worden gecombineerd met klassieke roboticatechnieken zoals model predictive control (MPC) om kortere wegen naar succes te ontdekken. Dit leidt tot Language Model Predictive Control (LMPC), een framework dat PaLM 2 fine-tunt om de leerbaarheid te verbeteren op 78 taken over 5 robotconfiguraties – waarbij het succespercentage van niet-experts bij het aanleren van onbekende taken met 26,9% wordt verbeterd, terwijl het gemiddeld aantal menselijke correcties wordt teruggebracht van 2,4 naar 1,9. Experimenten tonen aan dat LMPC ook sterke meta-leerders produceert, die het succespercentage van in-context leren van nieuwe taken op onbekende robotconfiguraties en API's met 31,5% verbeteren. Zie video's, code en demo's op: https://robot-teaching.github.io/.
Grote taalmmodellen (LLMs) hebben indrukwekkende prestaties getoond in het begrijpen van taal en het uitvoeren van complexe redeneertaken. LLMs met lange contextvensters staan echter bekend om hun dure trainingskosten en hoge inferentielatentie. Zelfs de meest geavanceerde modellen zoals GPT-4 en Claude2 maken vaak fouten bij het verwerken van inputs van meer dan 100k tokens, een fenomeen dat ook wel bekend staat als 'lost in the middle'. In dit artikel stellen we LongAgent voor, een methode gebaseerd op multi-agent samenwerking, die LLMs (bijvoorbeeld LLaMA) schaalt naar een context van 128K en potentieel superieure prestaties toont in het verwerken van lange teksten in vergelijking met GPT-4. In LongAgent is een leider verantwoordelijk voor het begrijpen van de gebruikersintentie en het aansturen van teamleden om informatie uit documenten te verkrijgen. Vanwege hallucinaties van de leden is het niet triviaal voor een leider om accurate informatie te verkrijgen uit de reacties van tientallen tot honderden leden. Om dit aan te pakken, ontwikkelen we een communicatiemechanisme tussen leden om responsconflicten veroorzaakt door hallucinaties op te lossen door middel van informatie-uitwisseling. Onze experimentele resultaten geven aan dat LongAgent een veelbelovend alternatief biedt voor het verwerken van lange teksten. Het agententeam geïnstantieerd met LLaMA-7B behaalt significante verbeteringen in taken zoals het ophalen van 128k-lange teksten en multi-hop vraagbeantwoording, vergeleken met GPT-4.
De kwaliteit van de fine-tuninggegevens is cruciaal voor het afstemmen van grote taalmodellen (LLM's) op menselijke waarden. Huidige methoden om de gegevenskwaliteit te verbeteren zijn ofwel arbeidsintensief of vatbaar voor feitelijke fouten veroorzaakt door hallucinaties van LLM's. Dit artikel onderzoekt het verhogen van de kwaliteit van bestaande instructiegegevens om beter aan te sluiten bij menselijke waarden, en introduceert een eenvoudige en effectieve aanpak genaamd ReAlign, die de antwoorden van instructiegegevens herformuleert in een formaat dat beter aansluit bij vooraf vastgestelde criteria en het verzamelde bewijs. Deze aanpak minimaliseert menselijke annotatie, hallucinatie en de moeilijkheid bij opschaling, en blijft orthogonaal aan bestaande afstemmingstechnieken. Experimenteel gezien verbetert ReAlign aanzienlijk het algemene afstemmingsvermogen, wiskundig redeneren, feitelijkheid en leesbaarheid van de LLM's. Bemoedigend genoeg kan, zonder het introduceren van aanvullende gegevens of geavanceerde trainingstechnieken, en slechts door het herformatteren van het antwoord, het wiskundig redeneervermogen van LLaMA-2-13B op GSM8K worden verbeterd van 46,77% naar 56,63% in nauwkeurigheid. Bovendien levert slechts 5% van de ReAlign-gegevens een boost van 67% op in het algemene afstemmingsvermogen, gemeten door de Alpaca-dataset. Dit werk benadrukt de noodzaak van verder onderzoek naar de wetenschap en mechanistische interpreteerbaarheid van LLM's. We hebben de bijbehorende code en gegevens openbaar gemaakt om toekomstige studies te ondersteunen op https://github.com/GAIR-NLP/ReAlign.
State-of-the-art taalmodelen kunnen indrukwekkende redeneerverfijningscapaciteiten vertonen bij taken op het gebied van wiskunde, wetenschap of programmeren. Recent onderzoek toont echter aan dat zelfs de beste modellen moeite hebben om te bepalen wanneer en waar ze moeten verfijnen zonder toegang tot externe feedback. Outcome-based Reward Models (ORMs), getraind om de correctheid van het uiteindelijke antwoord te voorspellen en zo aan te geven wanneer er verfijnd moet worden, bieden een handige oplossing voor het beslissen wanneer te verfijnen. Process Based Reward Models (PRMs), getraind om de correctheid van tussenstappen te voorspellen, kunnen vervolgens worden gebruikt om aan te geven waar er verfijnd moet worden. Deze zijn echter duur om te trainen, omdat ze uitgebreide menselijke annotaties vereisen. In dit artikel stellen we Stepwise ORMs (SORMs) voor, die alleen op synthetische data worden getraind om de verwachte toekomstige beloning van het optimale beleid of V^{star} te benaderen. Meer specifiek zijn SORMs getraind om de correctheid van het uiteindelijke antwoord te voorspellen wanneer het huidige beleid meerdere keren wordt bemonsterd (in plaats van slechts één keer zoals bij ORMs). Onze experimenten tonen aan dat SORMs onjuiste redeneerstappen nauwkeuriger kunnen detecteren vergeleken met ORMs, waardoor de downstream-nauwkeurigheid bij het verfijnen wordt verbeterd. Vervolgens trainen we globale verfijningsmodellen, die alleen de vraag en een conceptoplossing als invoer nemen en een gecorrigeerde oplossing voorspellen, en lokale verfijningsmodellen die ook een kritiek als invoer nemen die de locatie van de eerste redeneerfout aangeeft. We genereren trainingsdata voor beide modellen synthetisch door data die gebruikt is om de SORM te trainen, te hergebruiken. We ontdekken dat het combineren van globale en lokale verfijningen, waarbij de ORM wordt gebruikt als een herrangeringsmodel, aanzienlijk beter presteert dan elk afzonderlijk, evenals een baseline van de beste van drie steekproeven. Met deze strategie kunnen we de nauwkeurigheid van een LLaMA-2 13B-model (dat al is afgestemd met reinforcement learning) op GSM8K verbeteren van 53\% naar 65\% wanneer het greedy wordt bemonsterd.
Dit artikel presenteert een nieuwe methode voor het uitoefenen van fijnmazige lichtregie tijdens tekstgestuurde, diffusiegebaseerde beeldgeneratie. Hoewel bestaande diffusiemodellen al in staat zijn om afbeeldingen te genereren onder elke lichtconditie, hebben deze modellen zonder aanvullende begeleiding de neiging om beeldinhoud en belichting te correleren. Bovendien ontbreekt het tekstprompts aan de nodige uitdrukkingskracht om gedetailleerde lichtopstellingen te beschrijven. Om de inhoudscreator fijnmazige controle over de belichting te bieden tijdens beeldgeneratie, verrijken we het tekstprompt met gedetailleerde lichtinformatie in de vorm van radiance hints, dat wil zeggen visualisaties van de scènegeometrie met een homogeen canoniek materiaal onder de doelbelichting. De scènegeometrie die nodig is om de radiance hints te produceren, is echter onbekend. Onze belangrijkste observatie is dat we alleen het diffusieproces hoeven te begeleiden, waardoor exacte radiance hints niet nodig zijn; we hoeven het diffusiemodel alleen maar in de juiste richting te wijzen. Op basis van deze observatie introduceren we een driestapsmethode voor het beheersen van de belichting tijdens beeldgeneratie. In de eerste fase benutten we een standaard voorgetraind diffusiemodel om een voorlopige afbeelding te genereren onder ongecontroleerde belichting. Vervolgens, in de tweede fase, herontwerpen en verfijnen we het voorgrondobject in de gegenereerde afbeelding door de doelbelichting door te geven aan een verfijnd diffusiemodel, genaamd DiLightNet, met behulp van radiance hints berekend op een grove vorm van het voorgrondobject afgeleid uit de voorlopige afbeelding. Om de textuurdetails te behouden, vermenigvuldigen we de radiance hints met een neurale codering van de voorlopig gesynthetiseerde afbeelding voordat we deze doorgeven aan DiLightNet. Tot slot, in de derde fase, herontwerpen we de achtergrond zodat deze consistent is met de belichting op het voorgrondobject. We demonstreren en valideren ons lichtgecontroleerde diffusiemodel op een verscheidenheid aan tekstprompts en lichtcondities.
Hoewel oppervlaktegebaseerde algoritmen voor viewsynthese aantrekkelijk zijn vanwege hun lage computationale eisen, hebben ze vaak moeite met het reproduceren van dunne structuren. Daarentegen excelleren duurdere methoden die de geometrie van de scène modelleren als een volumetrisch dichtheidsveld (bijv. NeRF) in het reconstrueren van fijne geometrische details. Dichtheidsvelden representeren geometrie echter vaak op een "wazige" manier, wat een exacte lokalisatie van het oppervlak belemmert. In dit werk passen we dichtheidsvelden aan om ze te stimuleren naar oppervlakken te convergeren, zonder hun vermogen om dunne structuren te reconstrueren in te perken. Ten eerste gebruiken we een discrete opacity grid-representatie in plaats van een continu dichtheidsveld, waardoor opacity-waarden discontinu kunnen overgaan van nul naar één bij het oppervlak. Ten tweede anti-aliassen we door meerdere stralen per pixel te casten, wat het modelleren van occlusiegrenzen en subpixelstructuren mogelijk maakt zonder semi-transparante voxels te gebruiken. Ten derde minimaliseren we de binaire entropie van de opacity-waarden, wat de extractie van oppervlaktegeometrie vergemakkelijkt door opacity-waarden te stimuleren om te binariseren tegen het einde van de training. Tot slot ontwikkelen we een fusiegebaseerde meshing-strategie gevolgd door mesh-simplificatie en aanpassing van het uiterlijkmodel. De compacte meshes die door ons model worden geproduceerd, kunnen in real-time worden gerenderd op mobiele apparaten en bereiken een aanzienlijk hogere kwaliteit van viewsynthese vergeleken met bestaande mesh-gebaseerde benaderingen.
Ondanks de opmerkelijke capaciteiten van visie-taalmodellen (VLMs) als veelzijdige visuele assistenten, blijven er twee aanzienlijke uitdagingen bestaan binnen de bestaande VLM-frameworks: (1) een gebrek aan taakdiversiteit in de voorafgaande training en visuele instructieafstemming, en (2) annotatiefouten en bias in de door GPT-4 gesynthetiseerde instructieafstemmingsdata. Beide uitdagingen leiden tot problemen zoals slechte generaliseerbaarheid, hallucinatie en catastrofaal vergeten. Om deze uitdagingen aan te pakken, hebben we Vision-Flan geconstrueerd, de meest diverse openbaar beschikbare dataset voor visuele instructieafstemming tot nu toe, bestaande uit 187 diverse taken en 1.664.261 instanties afkomstig uit academische datasets, waarbij elke taak wordt vergezeld door een door experts geschreven instructie. Daarnaast stellen we een tweefasen instructieafstemmingsframework voor, waarin VLMs eerst worden afgestemd op Vision-Flan en vervolgens verder worden afgestemd op door GPT-4 gesynthetiseerde data. We ontdekken dat dit tweefasen afstemmingsframework aanzienlijk beter presteert dan het traditionele eenfasige visuele instructieafstemmingsframework en de state-of-the-art prestaties behaalt op een breed scala aan multimodale evaluatiebenchmarks. Ten slotte voeren we diepgaande analyses uit om visuele instructieafstemming te begrijpen, en onze bevindingen onthullen dat: (1) door GPT-4 gesynthetiseerde data de capaciteiten van VLMs niet substantieel verbetert, maar eerder de reacties van het model afstemt op door mensen geprefereerde formaten; (2) Een minimale hoeveelheid (bijvoorbeeld 1.000) door GPT-4 gesynthetiseerde data kan de reacties van VLMs effectief afstemmen op menselijke voorkeuren; (3) Visuele instructieafstemming helpt voornamelijk grote-taalmodellen (LLMs) om visuele kenmerken te begrijpen.
Auto-regressieve modellen hebben indrukwekkende resultaten behaald in 2D-beeldgeneratie door gezamenlijke verdelingen in rasterruimte te modelleren. In dit artikel breiden we auto-regressieve modellen uit naar 3D-domeinen en streven we naar een sterkere capaciteit voor 3D-vormgeneratie door auto-regressieve modellen tegelijkertijd te verbeteren op het gebied van capaciteit en schaalbaarheid. Ten eerste maken we gebruik van een ensemble van openbaar beschikbare 3D-datasets om de training van grootschalige modellen te vergemakkelijken. Dit bestaat uit een uitgebreide collectie van ongeveer 900.000 objecten, met meerdere eigenschappen zoals meshes, punten, voxels, gerenderde afbeeldingen en tekstbeschrijvingen. Deze diverse gelabelde dataset, genaamd Objaverse-Mix, stelt ons model in staat te leren van een breed scala aan objectvariaties. Het direct toepassen van 3D-auto-regressie stuit echter op kritieke uitdagingen, zoals hoge computationele eisen op volumetrische rasters en dubbelzinnige auto-regressieve volgorde langs rasterdimensies, wat resulteert in een inferieure kwaliteit van 3D-vormen. Daarom presenteren we vervolgens een nieuw framework, Argus3D, wat betreft capaciteit. Concreet introduceert onze aanpak discrete representatieleer gebaseerd op een latente vector in plaats van volumetrische rasters, wat niet alleen de computationele kosten vermindert, maar ook essentiële geometrische details behoudt door de gezamenlijke verdelingen in een meer hanteerbare volgorde te leren. De capaciteit van conditionele generatie kan zo worden gerealiseerd door eenvoudigweg verschillende conditionele invoeren aan de latente vector te koppelen, zoals puntenwolken, categorieën, afbeeldingen en teksten. Bovendien kunnen we, dankzij de eenvoud van onze modelarchitectuur, onze aanpak natuurlijk opschalen naar een groter model met indrukwekkende 3,6 miljard parameters, wat de kwaliteit van veelzijdige 3D-generatie verder verbetert. Uitgebreide experimenten op vier generatietaken tonen aan dat Argus3D diverse en nauwkeurige vormen over meerdere categorieën kan synthetiseren, waarbij opmerkelijke prestaties worden behaald.