Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bestaande open-source multimodale grote taalmodellen (MLLM's) volgen over het algemeen een trainingsproces dat pre-training en begeleid fijnafstemmen omvat. Deze modellen hebben echter last van distributieverschuivingen, die hun multimodale redenering beperken, met name in de Chain-of-Thought (CoT) prestaties. Om dit aan te pakken, introduceren we een voorkeur optimalisatie (PO) proces om de multimodale redeneervaardigheden van MLLM's te verbeteren. Specifiek (1) aan de datagebruikskant ontwerpen we een geautomatiseerde voorkeursgegevensconstructiepijplijn om MMPR te creëren, een hoogwaardige, grootschalige multimodale redeneervoorkeursdataset, en (2) aan de modelkant onderzoeken we de integratie van PO met MLLM's, waarbij we een eenvoudige maar effectieve methode ontwikkelen, genaamd Gemengde Voorkeur Optimalisatie (MPO), die de multimodale CoT-prestaties verbetert. Onze benadering toont verbeterde prestaties over meerdere benchmarks, met name in multimodale redeneertaken. Opmerkelijk is dat ons model, InternVL2-8B-MPO, een nauwkeurigheid van 67,0 behaalt op MathVista, waarbij het InternVL2-8B met 8,7 punten overtreft en prestaties behaalt die vergelijkbaar zijn met de 10x grotere InternVL2-76B. We hopen dat deze studie verdere vooruitgang in MLLM's kan inspireren. Code, gegevens en model zullen openbaar worden vrijgegeven.
Op dit moment heeft OpenAI o1 een golf van interesse in de studie van grote redenerende modellen (LRM) teweeggebracht. Voortbouwend op deze dynamiek richt Marco-o1 zich niet alleen op disciplines met standaardantwoorden, zoals wiskunde, natuurkunde en codering - die goed geschikt zijn voor reinforcement learning (RL) - maar legt ook meer nadruk op open-eindige oplossingen. We streven ernaar de vraag te beantwoorden: "Kan het o1-model effectief generaliseren naar bredere domeinen waar duidelijke normen ontbreken en beloningen moeilijk te kwantificeren zijn?" Marco-o1 wordt aangedreven door Chain-of-Thought (CoT) fine-tuning, Monte Carlo Tree Search (MCTS), reflectiemechanismen en innovatieve redeneerstrategieën - geoptimaliseerd voor complexe probleemoplossingstaken in de echte wereld.
We introduceren een nieuwe methode voor het vooraf trainen van grootschalige visuele encoders. Voortbouwend op recente ontwikkelingen in autoregressieve voorafgaande training van visuele modellen, breiden we dit kader uit naar een multimodale omgeving, d.w.z. beelden en tekst. In dit artikel presenteren we AIMV2, een familie van algemene visuele encoders gekenmerkt door een eenvoudig vooraf trainingsproces, schaalbaarheid en opmerkelijke prestaties over een reeks van downstream taken. Dit wordt bereikt door de visuele encoder te koppelen aan een multimodale decoder die autoregressief ruwe beeldpatches en teksttokens genereert. Onze encoders excelleren niet alleen in multimodale evaluaties, maar ook in visuele benchmarks zoals lokalisatie, gronding en classificatie. Opmerkelijk genoeg behaalt onze AIMV2-3B-encoder een nauwkeurigheid van 89,5% op ImageNet-1k met een bevroren stam. Bovendien presteert AIMV2 consequent beter dan state-of-the-art contrastieve modellen (bijv. CLIP, SigLIP) in multimodale beeldbegrip over diverse omgevingen.
Wij stellen Hymba voor, een familie van kleine taalmodellen met een hybride-hoofd parallelle architectuur die transformer aandachtsmechanismen integreert met toestandsruimtemodellen (SSM's) voor verbeterde efficiëntie. Aandachtsmechanismen bieden een hoge-resolutie herinnering, terwijl SSM-hoofden efficiënte contextsamenvatting mogelijk maken. Daarnaast introduceren we leerzame meta-tokens die aan prompts worden toegevoegd, waarin cruciale informatie wordt opgeslagen en de last van "gedwongen aandacht" die gepaard gaat met aandachtsmechanismen verlichten. Dit model is verder geoptimaliseerd door het opnemen van cross-layer key-value (KV) delen en gedeeltelijke schuifraam-aandacht, resulterend in een compacte cache-grootte. Tijdens de ontwikkeling hebben we een gecontroleerde studie uitgevoerd waarin verschillende architecturen onder identieke omstandigheden werden vergeleken en significante voordelen van onze voorgestelde architectuur werden waargenomen. Opmerkelijk genoeg behaalt Hymba state-of-the-art resultaten voor kleine taalmodellen: Ons Hymba-1.5B-Base model overtreft alle sub-2B openbare modellen in prestaties en presteert zelfs beter dan Llama-3.2-3B met 1.32% hogere gemiddelde nauwkeurigheid, een 11.67x cache-groottevermindering en 3.49x doorvoer.
Wetenschappelijke vooruitgang hangt af van het vermogen van onderzoekers om de groeiende hoeveelheid literatuur samen te vatten. Kunnen grote taalmodellen (LM's) wetenschappers helpen bij deze taak? We introduceren OpenScholar, een gespecialiseerd opvraag-verrijkt LM dat wetenschappelijke vragen beantwoordt door relevante passages te identificeren uit 45 miljoen open-access papers en citatie-ondersteunde antwoorden te synthetiseren. Om OpenScholar te evalueren, ontwikkelen we ScholarQABench, de eerste grootschalige multi-domein benchmark voor literatuuronderzoek, bestaande uit 2.967 door experts geschreven vragen en 208 lange antwoorden over informatica, natuurkunde, neurowetenschappen en biogeneeskunde. Op ScholarQABench presteert OpenScholar-8B beter dan GPT-4o met 5% en PaperQA2 met 7% in correctheid, ondanks dat het een kleiner, open model is. Terwijl GPT-4o 78 tot 90% van de tijd citaten verzint, behaalt OpenScholar citatie-accuratesse op het niveau van menselijke experts. OpenScholar's gegevensopslag, opvragingsmechanisme en zelf-feedback inferentielus verbeteren ook standaard LM's: bijvoorbeeld, OpenScholar-GPT4o verbetert de correctheid van GPT-4o met 12%. In menselijke evaluaties gaven experts de voorkeur aan de reacties van OpenScholar-8B en OpenScholar-GPT4o boven door experts geschreven antwoorden respectievelijk 51% en 70% van de tijd, in vergelijking met 32% voor GPT4o. We maken al onze code, modellen, gegevensopslag, data en een publieke demo open-source.
Grote Taalmodellen (LLM's) tonen verbeterde mogelijkheden en betrouwbaarheid door meer redeneringen uit te voeren, evoluerend van keten-van-gedachten prompts naar oplossingen op productniveau zoals OpenAI o1. Ondanks diverse inspanningen om de redeneervaardigheden van LLM's te verbeteren, blijven hoogwaardige gegevens voor langdurige redeneringen en geoptimaliseerde trainingspijplijnen nog onvoldoende verkend in visueel-talige taken. In dit artikel presenteren we Insight-V, een vroeg initiatief om 1) op schaal langdurige en robuuste redeneergegevens te produceren voor complexe multimodale taken, en 2) een effectieve trainingspijplijn om de redeneermogelijkheden van multimodale grote taalmodellen (MLLM's) te verbeteren. Specifiek, om langdurige en gestructureerde redeneergegevens te creëren zonder menselijke arbeid, ontwerpen we een tweestapspijplijn met een progressieve strategie om voldoende lange en diverse redeneerpaden te genereren en een methode voor multi-granulariteitsevaluatie om de gegevenskwaliteit te waarborgen. We merken op dat het rechtstreeks toezicht houden op MLLM's met dergelijke lange en complexe redeneergegevens niet zal leiden tot ideale redeneervaardigheid. Om dit probleem aan te pakken, ontwerpen we een multi-agent systeem bestaande uit een redeneeragent die zich toelegt op het uitvoeren van langdurige redeneringen en een samenvattingsagent die getraind is om redeneerresultaten te beoordelen en samen te vatten. We voegen verder een iteratief DPO-algoritme toe om de generatiestabiliteit en kwaliteit van de redeneeragent te verbeteren. Gebaseerd op het populaire LLaVA-NeXT model en ons krachtigere basis MLLM, tonen we aanzienlijke prestatieverbeteringen over uitdagende multimodale benchmarks die visuele redenering vereisen. Dankzij ons multi-agent systeem kan Insight-V ook eenvoudig de prestaties handhaven of verbeteren bij perceptiegerichte multimodale taken.
Reinforcement Learning (RL) formuleert mathematisch besluitvorming met een Markov Decision Process (MDP). Met MDP's hebben onderzoekers opmerkelijke doorbraken bereikt in verschillende domeinen, waaronder games, robotica en taalmodellen. Dit artikel onderzoekt een nieuwe mogelijkheid, Natural Language Reinforcement Learning (NLRL), door het traditionele MDP uit te breiden naar een representatieruimte op basis van natuurlijke taal. Specifiek herdefinieert NLRL op innovatieve wijze RL-principes, waaronder taakdoelstellingen, beleid, waardefunctie, Bellman-vergelijking en beleidsiteratie, in hun taal tegenhangers. Met recente vooruitgang in grote taalmodellen (LLM's) kan NLRL praktisch worden geïmplementeerd om RL-achtige beleids- en waardeverbetering te bereiken door middel van pure aanwijzingen of op gradient gebaseerde training. Experimenten over doolhoven, doorbraken en boter-kaas-en-eieren spellen tonen de effectiviteit, efficiëntie en interpreteerbaarheid van het NLRL-framework in diverse toepassingen. Onze code zal worden vrijgegeven op https://github.com/waterhorse1/Natural-language-RL.
Het is algemeen erkend dat de prestaties van Transformer modellen exponentieel gerelateerd zijn aan het aantal parameters en de computationele complexiteit. Terwijl benaderingen zoals Mixture of Experts (MoE) het aantal parameters ontkoppelen van de computationele complexiteit, worden ze nog steeds geconfronteerd met uitdagingen in inferentie vanwege hoge geheugentoegangskosten. Dit werk introduceert UltraMem, waarbij een grootschalige, ultra-schaarse geheugenlaag wordt opgenomen om deze beperkingen aan te pakken. Onze benadering vermindert aanzienlijk de inferentievertraging terwijl de modelprestaties behouden blijven. We onderzoeken ook de schaalwetten van deze nieuwe architectuur, waarbij wordt aangetoond dat deze niet alleen gunstige schalingseigenschappen vertoont, maar ook traditionele modellen overtreft. In onze experimenten trainen we netwerken met maximaal 20 miljoen geheugenslots. De resultaten tonen aan dat onze methode state-of-the-art inferentiesnelheid en modelprestaties behaalt binnen een gegeven computationeel budget.
Diffusiemodellen hebben het vakgebied van inhoudssynthese en -bewerking gerevolutioneerd. Recente modellen hebben de traditionele UNet-architectuur vervangen door de Diffusion Transformer (DiT) en hebben flow-matching toegepast voor verbeterde training en bemonstering. Ze vertonen echter beperkte generatiediversiteit. In dit werk benutten we deze beperking om consistente beeldbewerkingen uit te voeren door selectieve injectie van aandachtskenmerken. De belangrijkste uitdaging is dat DiT, in tegenstelling tot op UNet gebaseerde modellen, geen grof-naar-fijne synthesestructuur heeft, waardoor het onduidelijk is in welke lagen de injectie moet plaatsvinden. Daarom stellen we een automatische methode voor om "essentiële lagen" binnen DiT te identificeren, die cruciaal zijn voor beeldvorming, en laten zien hoe deze lagen een reeks gecontroleerde stabiele bewerkingen mogelijk maken, van niet-rigide aanpassingen tot objecttoevoegingen, met behulp van hetzelfde mechanisme. Vervolgens introduceren we een verbeterde beeldomkeringmethode voor flowmodellen om echte beeldbewerking mogelijk te maken. Tot slot evalueren we onze aanpak aan de hand van kwalitatieve en kwantitatieve vergelijkingen, samen met een gebruikersstudie, en tonen we de effectiviteit ervan aan bij meerdere toepassingen. De projectpagina is beschikbaar op https://omriavrahami.com/stable-flow.
In dit artikel introduceren we DINO-X, een verenigd op objecten gericht visiemodel ontwikkeld door IDEA Research met de beste open-world objectdetectieprestaties tot nu toe. DINO-X maakt gebruik van dezelfde op Transformer gebaseerde encoder-decoder architectuur als Grounding DINO 1.5 om een objectniveau representatie te realiseren voor het begrijpen van objecten in een open-world context. Om long-tailed objectdetectie eenvoudig te maken, breidt DINO-X zijn invoeropties uit om tekstprompt, visuele prompt en aangepaste prompt te ondersteunen. Met dergelijke flexibele promptopties ontwikkelen we een universele objectprompt om prompt-vrije open-world detectie te ondersteunen, waardoor het mogelijk wordt om iets in een afbeelding te detecteren zonder dat gebruikers een prompt hoeven te geven. Om de kerngrondingscapaciteit van het model te verbeteren, hebben we een grootschalige dataset geconstrueerd met meer dan 100 miljoen hoogwaardige grondingsvoorbeelden, aangeduid als Grounding-100M, om de open-vocabulaire detectieprestaties van het model te verbeteren. Vooraf trainen op zo'n grootschalige grondingsdataset leidt tot een fundamentele objectniveau representatie, waardoor DINO-X meerdere perceptiekoppen kan integreren om tegelijkertijd meerdere objectperceptie- en begrijpstaken te ondersteunen, waaronder detectie, segmentatie, pose schatting, objectonderschrift, op objecten gebaseerde QA, enzovoort. Experimentele resultaten tonen de superieure prestaties van DINO-X aan. Specifiek behaalt het DINO-X Pro-model 56.0 AP, 59.8 AP en 52.4 AP op respectievelijk de COCO, LVIS-minival en LVIS-val zero-shot objectdetectie benchmarks. Opmerkelijk scoort het 63.3 AP en 56.5 AP op de zeldzame klassen van de LVIS-minival en LVIS-val benchmarks, waarbij beide de vorige SOTA-prestaties met 5.8 AP verbeteren. Een dergelijk resultaat benadrukt aanzienlijk verbeterde capaciteit voor het herkennen van long-tailed objecten.
Hallucinaties bij grote taalmodellen zijn een veelvoorkomend probleem, maar de mechanismen achter het al dan niet hallucineren van modellen zijn slecht begrepen, wat onze mogelijkheid om dit probleem op te lossen beperkt. Door spaarzame auto-encoders te gebruiken als een interpretatiehulpmiddel, ontdekken we dat een sleutelonderdeel van deze mechanismen entiteitsherkenning is, waarbij het model detecteert of het een entiteit is waarover het feiten kan herinneren. Spaarzame auto-encoders onthullen betekenisvolle richtingen in de representatieruimte, die detecteren of het model een entiteit herkent, bijvoorbeeld door te detecteren dat het geen informatie heeft over een atleet of een film. Dit suggereert dat modellen zelfkennis kunnen hebben: interne representaties over hun eigen capaciteiten. Deze richtingen zijn causaal relevant: ze zijn in staat om het model te sturen om vragen over bekende entiteiten te weigeren of attributen van onbekende entiteiten te hallucineren wanneer het anders zou weigeren. We tonen aan dat ondanks dat de spaarzame auto-encoders zijn getraind op het basismodel, deze richtingen een causaal effect hebben op het weigeringsgedrag van het chatmodel, wat suggereert dat het finetunen van de chat dit bestaande mechanisme heeft hergebruikt. Bovendien bieden we een eerste verkenning van de mechanistische rol van deze richtingen in het model, waarbij we vinden dat ze de aandacht van downstream heads verstoren die doorgaans entiteitattributen naar het laatste token verplaatsen.
De snelle vooruitgang van diffusiemodellen heeft de videoproductie aanzienlijk verbeterd, vooral op het gebied van controleerbare videogeneratie, wat essentieel is voor toepassingen zoals autonoom rijden. Bestaande methoden worden echter beperkt door schaalbaarheid en de integratie van controlecondities, waardoor ze niet voldoen aan de behoeften voor hoge resolutie en lange video's voor toepassingen in autonoom rijden. In dit artikel introduceren we MagicDriveDiT, een nieuw benadering gebaseerd op de DiT-architectuur, en pakken we deze uitdagingen aan. Onze methode verbetert de schaalbaarheid door flow-matching en maakt gebruik van een progressieve trainingsstrategie om complexe scenario's te beheren. Door het opnemen van ruimtelijk-temporele conditionele codering, bereikt MagicDriveDiT nauwkeurige controle over ruimtelijk-temporele latenties. Uitgebreide experimenten tonen de superieure prestaties aan bij het genereren van realistische straatbeelden met hogere resolutie en meer frames. MagicDriveDiT verbetert aanzienlijk de kwaliteit van videoproductie en ruimtelijk-temporele controle, waardoor het potentieel toepasbaar is op verschillende taken in autonoom rijden.
Bestaande feed-forward beeld-naar-3D methoden vertrouwen voornamelijk op 2D multi-view diffusiemodellen die geen 3D consistentie kunnen garanderen. Deze methoden storten gemakkelijk in bij het veranderen van de kijkrichting en behandelen voornamelijk object-gecentreerde invoerbeelden. In dit artikel stellen we een nieuw single-stage 3D diffusiemodel voor, DiffusionGS, voor object- en scène-generatie vanuit één weergave. DiffusionGS geeft direct 3D Gaussische puntwolken uit bij elke tijdstap om kijkconsistentie af te dwingen en het model in staat te stellen robuust te genereren bij invoerweergaven van alle richtingen, voorbij object-gecentreerde invoer. Bovendien, om de capaciteit en generalisatievermogen van DiffusionGS te verbeteren, schalen we 3D trainingsgegevens op door een scène-object gemengde trainingsstrategie te ontwikkelen. Experimenten tonen aan dat onze methode geniet van betere generatiekwaliteit (2.20 dB hoger in PSNR en 23.25 lager in FID) en meer dan 5x snellere snelheid (~6s op een A100 GPU) dan toonaangevende methoden. De gebruikersstudie en tekst-naar-3D toepassingen onthullen ook de praktische waarden van onze methode. Onze Projectpagina op https://caiyuanhao1998.github.io/project/DiffusionGS/ toont de video- en interactieve generatieresultaten.
Recente ontwikkelingen op het gebied van grote taalmodellen, met name via de Chain of Thought (CoT) benadering, hebben significante verbeteringen aangetoond in het oplossen van complexe problemen. Bestaande modellen neigen echter ofwel gedetailleerd redeneren op te offeren voor bondigheid vanwege de voorkeuren van gebruikers, of vereisen uitgebreide en dure trainingsgegevens om ingewikkelde redeneervaardigheden aan te leren, waardoor hun potentieel om complexe taken op te lossen beperkt wordt. Om deze kloof te overbruggen, stellen we, in navolging van het concept van schaalvergroting op testtijd, een eenvoudige methode voor door modellen aan te moedigen een geduldiger redeneerstijl aan te nemen zonder de noodzaak om nieuwe kennis of vaardigheden te introduceren. Om een voorkeursoptimalisatiebenadering toe te passen, genereren we gedetailleerde redeneerprocessen als positieve voorbeelden en eenvoudige antwoorden als negatieve voorbeelden, waardoor het model getraind wordt om grondigheid in zijn antwoorden te verkiezen. Onze resultaten tonen een prestatieverhoging tot 6,7% op GSM8k aan met enkel training op een lichtgewicht dataset.
Grote taalmodellen (LLM's) presteren ondermaats bij talen met weinig bronnen vanwege beperkte trainingsdata. We presenteren een methode om efficiënt tekstgegevens te verzamelen voor talen met weinig bronnen uit het volledige Common Crawl-corpus. Onze benadering, UnifiedCrawl, filtert en extrahereert Common Crawl met minimale rekencapaciteit, resulterend in eentalige datasets die veel groter zijn dan voorheen beschikbare bronnen. We tonen aan dat het benutten van deze gegevens om meertalige LLM's fijn af te stemmen via efficiënte adaptermethoden (QLoRA) de prestaties aanzienlijk verbetert voor de taal met weinig bronnen, terwijl het VRAM-gebruik wordt geminimaliseerd. Onze experimenten tonen grote verbeteringen in perplexiteit van taalmodellering en een toename in scores voor prompten met weinig voorbeelden. Ons werk en vrijgegeven broncode bieden een betaalbare benadering om LLM's voor talen met weinig bronnen te verbeteren met behulp van consumentenhardware. Onze broncode is hier beschikbaar op https://github.com/bethelmelesse/unifiedcrawl.