Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren LayerSkip, een end-to-end oplossing om de inferentie van grote taalmodelen (LLMs) te versnellen. Ten eerste passen we tijdens de training layer dropout toe, met lage dropout rates voor eerdere lagen en hogere dropout rates voor latere lagen, en een early exit loss waarbij alle transformer-lagen dezelfde exit delen. Ten tweede laten we tijdens de inferentie zien dat deze trainingsmethode de nauwkeurigheid van early exit in eerdere lagen verhoogt, zonder extra hulplagen of modules aan het model toe te voegen. Ten derde presenteren we een nieuwe zelf-speculatieve decodeeroplossing waarbij we vroegtijdig uitstappen in eerdere lagen en verifiëren en corrigeren met de resterende lagen van het model. Onze voorgestelde zelf-speculatieve decodeerbenadering heeft een kleinere geheugenvoetafdruk dan andere speculatieve decodeerbenaderingen en profiteert van gedeelde berekeningen en activaties van de draft- en verificatiefasen. We voeren experimenten uit met verschillende Llama-modelgroottes op verschillende soorten training: pretraining vanaf nul, voortgezette pretraining, finetuning op een specifiek datadomein en finetuning op een specifieke taak. We implementeren onze inferentie-oplossing en tonen snelheidsverbeteringen van tot 2,16x bij samenvatting van CNN/DM-documenten, 1,82x bij codering en 2,0x bij de TOPv2 semantische parsetaak. We maken onze code en checkpoints openbaar op https://github.com/facebookresearch/LayerSkip.
In dit rapport introduceren we InternVL 1.5, een open-source multimodaal groot taalmodel (MLLM) dat de kloof in capaciteit tussen open-source en propriëtaire commerciële modellen op het gebied van multimodale begrip overbrugt. We introduceren drie eenvoudige verbeteringen: (1) Sterke Vision Encoder: we hebben een continue leerstrategie onderzocht voor het grootschalige visuele basismodel -- InternViT-6B, waardoor de visuele begripsvaardigheden worden verbeterd en het model overdraagbaar en herbruikbaar wordt in verschillende LLM's. (2) Dynamische Hoge Resolutie: we verdelen afbeeldingen in tegels variërend van 1 tot 40 van 448x448 pixels op basis van de beeldverhouding en resolutie van de invoerafbeeldingen, wat invoer tot 4K-resolutie ondersteunt. (3) Hoogwaardige Tweetalige Dataset: we hebben zorgvuldig een hoogwaardige tweetalige dataset verzameld die veelvoorkomende scènes en documentafbeeldingen omvat, en deze geannoteerd met Engels-Chinese vraag-antwoordparen, wat de prestaties aanzienlijk verbetert in OCR- en Chinees-gerelateerde taken. We evalueren InternVL 1.5 via een reeks benchmarks en vergelijkende studies. In vergelijking met zowel open-source als propriëtaire modellen toont InternVL 1.5 competitieve prestaties en behaalt het state-of-the-art resultaten in 8 van de 18 benchmarks. De code is vrijgegeven op https://github.com/OpenGVLab/InternVL.
Hoewel veel hedendaagse grote taalmodellen (LLM's) lange invoer kunnen verwerken, hebben ze nog steeds moeite om informatie binnen de lange context volledig te benutten, een fenomeen dat bekend staat als de lost-in-the-middle uitdaging. Wij veronderstellen dat dit voortkomt uit onvoldoende expliciete supervisie tijdens de lange-context training, waarbij niet wordt benadrukt dat elke positie in een lange context cruciale informatie kan bevatten. Gebaseerd op deze intuïtie presenteert onze studie informatie-intensieve (IN2) training, een puur data-gedreven oplossing om lost-in-the-middle te overwinnen. Specifiek maakt IN2 training gebruik van een gesynthetiseerde lange-context vraag-antwoord dataset, waarbij het antwoord vereist (1) fijnmazige informatiebewustwording op een kort segment (~128 tokens) binnen een gesynthetiseerde lange context (4K-32K tokens), en (2) de integratie en redenering van informatie uit twee of meer korte segmenten. Door deze informatie-intensieve training toe te passen op Mistral-7B, presenteren we FILM-7B (FILl-in-the-Middle). Om het vermogen van FILM-7B om lange contexten te benutten grondig te beoordelen, ontwerpen we drie verkennende taken die verschillende contextstijlen omvatten (document, code en gestructureerde-data context) en informatie-ophaalpatronen (voorwaarts, achterwaarts en tweerichtingsverkeer). De verkennende resultaten tonen aan dat FILM-7B robuust informatie kan ophalen uit verschillende posities in zijn 32K contextvenster. Naast deze verkennende taken verbetert FILM-7B de prestaties aanzienlijk op real-world lange-context taken (bijv. 23.5->26.9 F1-score op NarrativeQA), terwijl het een vergelijkbare prestatie behoudt op korte-context taken (bijv. 59.3->59.2 nauwkeurigheid op MMLU). Github Link: https://github.com/microsoft/FILM.
3D-objectgeneratie heeft aanzienlijke vooruitgang geboekt, wat heeft geleid tot hoogwaardige resultaten. Deze methoden schieten echter tekort in het bieden van precieze gebruikerscontrole, wat vaak resulteert in uitkomsten die niet overeenkomen met de verwachtingen van gebruikers, waardoor hun toepasbaarheid beperkt blijft. Het realiseren van door gebruikers bedachte 3D-objecten vormt een grote uitdaging met de huidige generatieve modellen vanwege beperkte interactiemogelijkheden. Bestaande methoden bieden voornamelijk twee benaderingen: (i) het interpreteren van tekstuele instructies met beperkte aanpasbaarheid, of (ii) het reconstrueren van 3D-objecten vanuit 2D-afbeeldingen. Beide methoden beperken de aanpassingsmogelijkheden tot de grenzen van de 2D-referentie en kunnen ongewenste artefacten introduceren tijdens het 3D-liftproces, wat de mogelijkheden voor directe en veelzijdige 3D-aanpassingen beperkt. In dit werk introduceren we Interactive3D, een innovatief raamwerk voor interactieve 3D-generatie dat gebruikers precieze controle biedt over het generatieve proces door middel van uitgebreide 3D-interactiemogelijkheden. Interactive3D is opgebouwd in twee opeenvolgende fasen, waarbij gebruik wordt gemaakt van verschillende 3D-representaties. De eerste fase maakt gebruik van Gaussian Splatting voor directe gebruikersinteractie, waardoor aanpassingen en sturing van de generatieve richting mogelijk zijn op elk tussenliggend stap via (i) Toevoegen en Verwijderen van componenten, (ii) Vervormbaar en Rigid Slepen, (iii) Geometrische Transformaties, en (iv) Semantisch Bewerken. Vervolgens worden de Gaussian splats omgezet in InstantNGP. We introduceren een nieuw (v) Interactief Hash-verfijningsmodule om verder details toe te voegen en de geometrie te extraheren in de tweede fase. Onze experimenten tonen aan dat Interactive3D de aanpasbaarheid en kwaliteit van 3D-generatie aanzienlijk verbetert. Onze projectwebpagina is beschikbaar op https://interactive-3d.github.io/.
Diffusiegebaseerde technologieën hebben aanzienlijke vooruitgang geboekt, met name op het gebied van gepersonaliseerde en op maat gemaakte gezichtsgeneratie. Bestaande methoden kampen echter met uitdagingen bij het bereiken van hoge nauwkeurigheid en gedetailleerde identiteitsconsistentie (ID), voornamelijk door onvoldoende fijnmazige controle over gezichtsgebieden en het ontbreken van een uitgebreide strategie voor ID-behoud die rekening houdt met complexe gezichtsdetails en het gezicht als geheel. Om deze beperkingen aan te pakken, introduceren we ConsistentID, een innovatieve methode ontworpen voor diverse identiteitsbehoudende portretgeneratie onder fijnmazige multimodale gezichtsprompts, waarbij slechts één referentiebeeld wordt gebruikt. ConsistentID bestaat uit twee belangrijke componenten: een multimodale gezichtspromptgenerator die gezichtskenmerken, bijbehorende gezichtsbeschrijvingen en de algehele gezichtscontext combineert om de precisie van gezichtsdetails te verbeteren, en een ID-behoudnetwerk dat is geoptimaliseerd via de strategie voor lokalisatie van gezichtsattentie, gericht op het behouden van ID-consistentie in gezichtsgebieden. Samen verbeteren deze componenten de nauwkeurigheid van ID-behoud aanzienlijk door fijnmazige multimodale ID-informatie uit gezichtsgebieden te introduceren. Om de training van ConsistentID te vergemakkelijken, presenteren we een fijnmazig portretdataset, FGID, met meer dan 500.000 gezichtsafbeeldingen, die meer diversiteit en volledigheid biedt dan bestaande openbare gezichtsdatasets. % zoals LAION-Face, CelebA, FFHQ en SFHQ. Experimentele resultaten bevestigen dat onze ConsistentID uitblinkt in precisie en diversiteit bij gepersonaliseerde gezichtsgeneratie, en bestaande methoden overtreft in de MyStyle-dataset. Bovendien behoudt ConsistentID, ondanks de introductie van meer multimodale ID-informatie, een snelle inferentiesnelheid tijdens de generatie.
Set-of-Mark (SoM) Prompting benut de visuele verankeringscapaciteit van GPT-4V door het model in staat te stellen visuele objecten te associëren met tags die op de afbeelding zijn geplaatst. Deze tags, gemarkeerd met alfanumerieke tekens, kunnen via teksttokens worden geïndexeerd voor eenvoudige referentie. Ondanks de buitengewone prestaties van GPT-4V, merken we op dat andere Multimodale Large Language Models (MLLMs) moeite hebben om deze visuele tags te begrijpen. Om het leren van SoM-prompting voor open-source modellen te bevorderen, stellen we een nieuw leerparadigma voor: "items een voor een opsommen", waarbij het model wordt gevraagd alle visuele tags op de afbeelding te enumereren en te beschrijven volgens de alfanumerieke volgorde van de tags. Door onze samengestelde dataset te integreren met andere datasets voor visuele instructieafstemming, kunnen we bestaande MLLMs uitrusten met de SoM-prompting vaardigheid. Bovendien evalueren we onze fijn afgestemde SoM-modellen op vijf MLLM-benchmarks. We ontdekken dat deze nieuwe dataset, zelfs in een relatief kleine omvang (10k-30k afbeeldingen met tags), de visuele redeneervaardigheden aanzienlijk verbetert en hallucinaties voor MLLMs vermindert. Verrassend genoeg blijven deze verbeteringen bestaan, zelfs wanneer de visuele tags tijdens de inferentie uit de invoerafbeeldingen worden weggelaten. Dit suggereert het potentieel van "items een voor een opsommen" als een nieuw paradigma voor het trainen van MLLMs, dat de object-tekstuitlijning versterkt door het gebruik van visuele tags in de trainingsfase. Ten slotte voeren we analyses uit door getrainde modellen te onderzoeken om het werkingsmechanisme van SoM te begrijpen. Onze code en data zijn beschikbaar op https://github.com/zzxslp/SoM-LLaVA.
Grote taalmmodellen (LLMs) hebben indrukwekkende capaciteiten getoond op het gebied van taalbegrip en -generatie, wat een breed scala aan toepassingen mogelijk maakt. Er is echter een opvallend gebrek aan gedetailleerde, open-source methodologieën voor het efficiënt schalen van LLMs voorbij 50 miljard parameters met minimale trial-and-error kosten en rekenkundige middelen. In dit rapport introduceren we Tele-FLM (ook bekend als FLM-2), een 52B open-source meertalig groot taalmodel dat een stabiel, efficiënt pre-trainingsparadigma en verbeterde feitelijke beoordelingscapaciteiten biedt. Tele-FLM toont superieure meertalige taalmodelleringsvaardigheden, gemeten door BPB op tekstuele corpora. Daarnaast is het in zowel Engelse als Chinese foundation model-evaluaties vergelijkbaar met sterke open-source modellen die grotere pre-trainings FLOPs omvatten, zoals Llama2-70B en DeepSeek-67B. Naast de modelgewichten delen we de kernontwerpen, engineeringpraktijken en trainingsdetails, waarvan we verwachten dat ze zowel de academische als industriële gemeenschappen ten goede zullen komen.
Hoewel tekst-naar-beeld (T2I) generatieve modellen alomtegenwoordig zijn geworden, genereren ze niet noodzakelijkerwijs afbeeldingen die overeenkomen met een gegeven prompt. Hoewel eerder werk T2I-uitlijning heeft geëvalueerd door het voorstellen van metrieken, benchmarks en sjablonen voor het verzamelen van menselijke beoordelingen, is de kwaliteit van deze componenten niet systematisch gemeten. Menselijk beoordeelde promptsets zijn over het algemeen klein en de betrouwbaarheid van de beoordelingen — en daarmee de promptsets die worden gebruikt om modellen te vergelijken — is niet geëvalueerd. Wij vullen deze leemte door een uitgebreide studie uit te voeren die auto-evaluatiemetrieken en menselijke sjablonen evalueert. Wij leveren drie belangrijke bijdragen: (1) We introduceren een uitgebreide, op vaardigheden gebaseerde benchmark die modellen kan onderscheiden over verschillende menselijke sjablonen. Deze op vaardigheden gebaseerde benchmark categoriseert prompts in subvaardigheden, waardoor een beoefenaar niet alleen kan vaststellen welke vaardigheden uitdagend zijn, maar ook op welk complexiteitsniveau een vaardigheid uitdagend wordt. (2) We verzamelen menselijke beoordelingen over vier sjablonen en vier T2I-modellen voor een totaal van >100K annotaties. Dit stelt ons in staat te begrijpen waar verschillen ontstaan door inherente ambiguïteit in de prompt en waar ze ontstaan door verschillen in metriek en modelkwaliteit. (3) Tot slot introduceren we een nieuwe, op vragen-antwoorden gebaseerde auto-evaluatiemetriek die beter gecorreleerd is met menselijke beoordelingen dan bestaande metrieken voor onze nieuwe dataset, over verschillende menselijke sjablonen, en op TIFA160.
We presenteren NeRF-XL, een principiële methode voor het verdelen van Neural Radiance Fields (NeRFs) over meerdere GPU's, waardoor het trainen en renderen van NeRFs met een willekeurig grote capaciteit mogelijk wordt. We beginnen met het herzien van bestaande multi-GPU-benaderingen, die grote scènes opdelen in meerdere onafhankelijk getrainde NeRFs, en identificeren verschillende fundamentele problemen met deze methoden die verbeteringen in de reconstructiekwaliteit belemmeren naarmate er meer rekenbronnen (GPU's) worden gebruikt tijdens het trainen. NeRF-XL verhelpt deze problemen en maakt het trainen en renderen van NeRFs met een willekeurig aantal parameters mogelijk door simpelweg meer hardware te gebruiken. De kern van onze methode bestaat uit een nieuwe gedistribueerde trainings- en renderingsformulering, die wiskundig equivalent is aan het klassieke single-GPU-geval en de communicatie tussen GPU's minimaliseert. Door NeRFs met willekeurig grote aantallen parameters mogelijk te maken, is onze aanpak de eerste die schaalwetten voor NeRFs op meerdere GPU's onthult, waarbij verbeteringen in reconstructiekwaliteit worden getoond bij grotere aantallen parameters en snelheidsverbeteringen bij meer GPU's. We demonstreren de effectiviteit van NeRF-XL op een breed scala aan datasets, waaronder de grootste open-source dataset tot nu toe, MatrixCity, die 258K afbeeldingen bevat die een stedelijk gebied van 25 km² beslaan.
Het begrijpen van visuele inhoud met veel tekst is van cruciaal belang voor de praktische toepassing van Multimodale Grote Taalmodellen (MLLMs), aangezien scenario's met veel tekst alomtegenwoordig zijn in de echte wereld, die worden gekenmerkt door de aanwezigheid van uitgebreide teksten die in afbeeldingen zijn ingebed. Recentelijk heeft de opkomst van MLLMs met indrukwekkende veelzijdigheid de lat hoger gelegd voor wat we van MLLMs kunnen verwachten. Hun vaardigheid in scenario's met veel tekst moet echter nog uitgebreid en objectief worden beoordeeld, aangezien de huidige MLLM-benchmarks zich voornamelijk richten op het evalueren van algemeen visueel begrip. In dit werk introduceren we SEED-Bench-2-Plus, een benchmark die specifiek is ontworpen voor het evalueren van visueel begrip van MLLMs in tekstrijke scenario's. Onze benchmark bestaat uit 2.3K meerkeuzevragen met nauwkeurige menselijke annotaties, die drie brede categorieën omvatten: Grafieken, Kaarten en Webs, die elk een breed scala aan tekstrijke scenario's in de echte wereld bestrijken. Deze categorieën, vanwege hun inherente complexiteit en diversiteit, simuleren effectief real-world tekstrijke omgevingen. We voeren verder een grondige evaluatie uit met 34 prominente MLLMs (inclusief GPT-4V, Gemini-Pro-Vision en Claude-3-Opus) en benadrukken de huidige beperkingen van MLLMs in het begrijpen van visuele inhoud met veel tekst. We hopen dat ons werk kan dienen als een waardevolle aanvulling op bestaande MLLM-benchmarks, die inzichtelijke observaties biedt en verder onderzoek inspireert op het gebied van visueel begrip van tekstrijke inhoud met MLLMs. De dataset en evaluatiecode zijn toegankelijk op https://github.com/AILab-CVC/SEED-Bench.