Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Zelfcorrectie is een zeer gewenste capaciteit van grote taalmodellen (LLM's), maar het is consequent gebleken dat het grotendeels ineffectief is in moderne LLM's. Bestaande benaderingen voor het trainen van zelfcorrectie vereisen meerdere modellen of vertrouwen op een capabeler model of andere vormen van toezicht. Om dit te bereiken, ontwikkelen we een multi-turn online reinforcement learning (RL) benadering, SCoRe, die aanzienlijk de zelfcorrectiemogelijkheid van een LLM verbetert met volledig zelf gegenereerde gegevens. Om SCoRe te bouwen, tonen we eerst aan dat varianten van supervised fine-tuning (SFT) op offline model-genererende correctietraces onvoldoende zijn om zelfcorrectiegedrag in te prenten. In het bijzonder merken we op dat training via SFT ofwel lijdt aan een distributieverschil tussen de trainingsgegevens en de eigen reacties van het model, ofwel impliciet de voorkeur geeft aan slechts een bepaalde modus van correctiegedrag die vaak niet effectief is bij testtijd. SCoRe pakt deze uitdagingen aan door te trainen onder de eigen distributie van zelf gegenereerde correctietraces van het model en door passende regularisatie te gebruiken om het leerproces te sturen naar het aanleren van een zelfcorrectiestrategie die effectief is bij testtijd in plaats van simpelweg het passen van hoog-reward reacties voor een gegeven prompt. Deze regularisatie schrijft voor om een eerste fase van RL uit te voeren op een basismodel om een beleidsinitialisatie te genereren die minder vatbaar is voor ineenstorting en vervolgens een beloningsbonus te gebruiken om zelfcorrectie te versterken tijdens de training. Wanneer toegepast op de Gemini 1.0 Pro en 1.5 Flash modellen, vinden we dat SCoRe state-of-the-art zelfcorrectieprestaties behaalt, waarbij de zelfcorrectie van de basismodellen respectievelijk met 15,6% en 9,1% verbetert op de MATH en HumanEval benchmarks.
Het vooraf trainen op grootschalige, hoogwaardige datasets is cruciaal voor het verbeteren van de redeneervermogens van Grote Taalmodellen (LLM's), vooral in gespecialiseerde domeinen zoals wiskunde. Ondanks het erkende belang ontbreekt het momenteel aan een uitgebreide open-source pre-trainingsdataset die specifiek is ontworpen voor wiskundig redeneren in het Multimodale LLM's (MLLM's) veld. Om deze lacune aan te pakken, introduceren we InfiMM-WebMath-40B, een hoogwaardige dataset van geïnterlinieerde afbeelding-tekst documenten. Het omvat 24 miljoen webpagina's, 85 miljoen bijbehorende afbeeldings-URL's en 40 miljard teksttokens, allemaal zorgvuldig geëxtraheerd en gefilterd uit CommonCrawl. We bieden een gedetailleerd overzicht van onze gegevensverzameling en verwerkingspijplijn. Om de robuustheid van InfiMM-WebMath-40B te demonstreren, hebben we evaluaties uitgevoerd in zowel alleen-tekst als multimodale instellingen. Onze evaluaties op alleen-tekst benchmarks tonen aan dat, ondanks het gebruik van slechts 40 miljard tokens, onze dataset aanzienlijk de prestaties van ons 1.3B-model verbetert, met resultaten vergelijkbaar met DeepSeekMath-1.3B, dat 120 miljard tokens gebruikt voor dezelfde modelgrootte. Desalniettemin zetten onze modellen met de introductie van onze multimodale wiskundige pre-trainingsdataset een nieuwe state-of-the-art neer onder open-source modellen op multimodale wiskunde benchmarks zoals MathVerse en We-Math. We stellen onze gegevens beschikbaar op https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
De opkomst van Grote Taalmodellen (LLM's) heeft de weg vrijgemaakt voor AI-zoekmachines, bijvoorbeeld SearchGPT, die een nieuw paradigma in mens-internetinteractie laten zien. Echter, de meeste huidige AI-zoekmachines zijn beperkt tot alleen tekstinstellingen, waarbij de multimodale gebruikersquery's en de tekst-afbeelding geïnterlinieerde aard van website-informatie worden genegeerd. Onlangs hebben Grote Multimodale Modellen (LMM's) indrukwekkende vooruitgang geboekt. Toch blijft de vraag of ze kunnen functioneren als AI-zoekmachines onderbelicht, waardoor het potentieel van LMM's in multimodale zoekopdrachten een open vraag blijft. Om dit te onderzoeken, ontwerpen we eerst een verfijnde pijplijn, MMSearch-Engine, om elk LMM te voorzien van multimodale zoekmogelijkheden. Bovendien introduceren we MMSearch, een uitgebreide evaluatiebenchmark om de multimodale zoekprestaties van LMM's te beoordelen. Het samengestelde dataset bevat 300 handmatig verzamelde gevallen die 14 subgebieden bestrijken, zonder overlap met de huidige trainingsgegevens van LMM's, waardoor het juiste antwoord alleen kan worden verkregen door te zoeken. Door gebruik te maken van MMSearch-Engine worden de LMM's geëvalueerd door drie afzonderlijke taken uit te voeren (heropvragen, opnieuw rangschikken en samenvatten), en één uitdagende end-to-end taak met een volledig zoekproces. We voeren uitgebreide experimenten uit op gesloten en open-source LMM's. Onder alle geteste modellen behaalt GPT-4o met MMSearch-Engine de beste resultaten, die de commerciële product, Perplexity Pro, overtreffen in de end-to-end taak, waarbij de effectiviteit van onze voorgestelde pijplijn wordt aangetoond. We presenteren verder foutenanalyse om bloot te leggen dat huidige LMM's nog steeds moeite hebben om de multimodale zoektaken volledig te begrijpen, en voeren een ablatiestudie uit om het potentieel van het schalen van testtijd berekening voor AI-zoekmachine aan te geven. We hopen dat MMSearch unieke inzichten kan bieden om de toekomstige ontwikkeling van multimodale AI-zoekmachine te sturen. Projectpagina: https://mmsearch.github.io
Het selecteren van de beste codeoplossing uit meerdere gegenereerde oplossingen is een essentiële taak bij codegeneratie, die kan worden bereikt door gebruik te maken van betrouwbare validatoren (bijv. door ontwikkelaars geschreven testcases) ter ondersteuning. Aangezien betrouwbare testcases niet altijd beschikbaar zijn en in de praktijk duur kunnen zijn om te ontwikkelen, stellen onderzoekers voor om automatisch testcases te genereren om codeoplossingen te beoordelen. Echter, wanneer zowel codeoplossingen als testcases plausibel zijn en niet betrouwbaar, wordt het selecteren van de beste oplossing uitdagend. Hoewel er enkele heuristische strategieën zijn voorgesteld om dit probleem aan te pakken, ontbreekt een sterke theoretische garantie en is het nog steeds een open vraag of er een optimale selectiestrategie bestaat. Ons werk draagt op twee manieren bij. Ten eerste tonen we aan dat binnen een Bayesiaans kader de optimale selectiestrategie kan worden gedefinieerd op basis van de a posteriori kans van de waargenomen geslaagde toestanden tussen oplossingen en tests. Het probleem van het identificeren van de beste oplossing wordt vervolgens geformuleerd als een geheel programmeringsprobleem. Ten tweede stellen we een efficiënte benadering voor om deze optimale (maar onberekenbare) strategie te benaderen, waarbij de benaderingsfout begrensd is door de juistheid van de voorkennis. Vervolgens incorporeren we effectieve voorkennis om codegeneratietaken op maat te maken. Zowel theoretische als empirische studies bevestigen dat bestaande heuristieken beperkt zijn in het selecteren van de beste oplossingen met plausibele testcases. Onze voorgestelde benaderde optimale strategie B4 overtreft aanzienlijk bestaande heuristieken bij het selecteren van codeoplossingen gegenereerd door grote taalmodellen (LLM's) met LLM-generieerde tests, met een relatieve prestatieverbetering tot 50% ten opzichte van de sterkste heuristiek en 246% ten opzichte van willekeurige selectie in de meest uitdagende scenario's. Onze code is openbaar beschikbaar op https://github.com/ZJU-CTAG/B4.
Visuele data komt in verschillende vormen, variërend van kleine pictogrammen van slechts een paar pixels tot lange video's die uren duren. Bestaande multimodale LLM's standaardiseren doorgaans deze diverse visuele invoer naar een vaste resolutie voor visuele encoders en leveren vergelijkbare aantallen tokens op voor LLM's. Deze aanpak is niet optimaal voor multimodale begrip en inefficiënt voor de verwerking van invoer met lange en korte visuele inhoud. Om het probleem op te lossen, stellen we Oryx voor, een verenigde multimodale architectuur voor het ruimtelijk-temporeel begrip van afbeeldingen, video's en multi-view 3D-scènes. Oryx biedt een oplossing op maat om visuele invoer met willekeurige ruimtelijke afmetingen en tijdsduur naadloos en efficiënt te verwerken door middel van twee kerninnovaties: 1) een voorgeleerd OryxViT-model dat afbeeldingen op elke resolutie kan coderen tot LLM-vriendelijke visuele representaties; 2) een dynamische compressor module die 1x tot 16x compressie op visuele tokens ondersteunt op verzoek. Deze ontwerpkenmerken stellen Oryx in staat om extreem lange visuele contexten, zoals video's, te accommoderen met lagere resolutie en hoge compressie, terwijl de hoge herkenningsnauwkeurigheid wordt behouden voor taken zoals documentbegrip met native resolutie en zonder compressie. Naast de architecturale verbeteringen helpen verbeterde gegevenscuratie en gespecialiseerde training op lange-context ophalen en ruimtelijk-bewuste gegevens Oryx sterke mogelijkheden te bereiken in gelijktijdig begrip van afbeeldingen, video's en 3D multimodaal begrip. Ons werk is open-source beschikbaar op https://github.com/Oryx-mllm/Oryx.
Wij stellen het eerste video diffusiekader voor voor referentie-gebaseerde lijntekening video-kleuring. In tegenstelling tot eerdere werken die uitsluitend vertrouwen op beeldgeneratiemodellen om lijntekeningen frame voor frame in te kleuren, maakt onze benadering gebruik van een grootschalig voortraind video diffusiemodel om gekleurde animatievideo's te genereren. Deze aanpak leidt tot meer temporeel consistente resultaten en is beter in staat om grote bewegingen aan te pakken. Ten eerste introduceren we Sketch-geleide ControlNet die extra controle biedt om een beeld-naar-video diffusiemodel te verfijnen voor controleerbare videosynthese, waardoor de generatie van animatievideo's geconditioneerd op lijntekeningen mogelijk is. Vervolgens stellen we Reference Attention voor om de overdracht van kleuren van het referentiekader naar andere frames met snelle en uitgebreide bewegingen te vergemakkelijken. Tot slot presenteren we een nieuw schema voor sequentieel monsteren, waarbij het Overlappende Mengmodule en Prev-Referentie Aandacht worden opgenomen, om het video diffusiemodel uit te breiden voorbij zijn oorspronkelijke vaste lengtebeperking voor langdurige video-kleuring. Zowel kwalitatieve als kwantitatieve resultaten tonen aan dat onze methode aanzienlijk beter presteert dan state-of-the-art technieken op het gebied van frame- en videokwaliteit, evenals temporele consistentie. Bovendien is onze methode in staat om hoogwaardige, langdurig consistente animatievideo's met grote bewegingen te genereren, wat niet haalbaar is in eerdere werken. Onze code en model zijn beschikbaar op https://luckyhzt.github.io/lvcd.
De pre-trainingsfase van taalmodellen begint vaak met willekeurig geïnitialiseerde parameters. Met de huidige trends in het schalen van modellen kan het trainen van hun grote aantal parameters extreem langzaam en kostbaar zijn. Daarentegen zijn kleine taalmodellen goedkoper om te trainen, maar ze kunnen vaak niet de nauwkeurigheid van grote modellen bereiken. In dit artikel verkennen we een intrigerend idee om deze twee verschillende regimes met elkaar te verbinden: Kunnen we een methode ontwikkelen om grote taalmodellen te initialiseren met behulp van kleinere vooraf getrainde modellen? Zal een dergelijke initialisatie voordelen opleveren wat betreft trainingsduur en uiteindelijke nauwkeurigheid? In dit artikel introduceren we HyperCloning, een methode die de parameters van een vooraf getraind taalmodel kan uitbreiden naar die van een groter model met verhoogde verborgen dimensies. Onze methode zorgt ervoor dat het grotere model de functionaliteit van het kleinere model behoudt. Als gevolg hiervan erft het grotere model al de voorspellende kracht en nauwkeurigheid van het kleinere model voordat de training begint. We tonen aan dat het trainen van een dergelijk geïnitialiseerd model leidt tot aanzienlijke besparingen wat betreft GPU-uren die nodig zijn voor het vooraf trainen van grote taalmodellen.
De toenemende vraag naar hoogwaardige 3D-assets in verschillende sectoren vereist efficiënte en geautomatiseerde creatie van 3D-inhoud. Ondanks recente vooruitgang in 3D generatieve modellen, hebben bestaande methoden nog steeds te maken met uitdagingen op het gebied van optimalisatiesnelheid, geometrische nauwkeurigheid en het gebrek aan assets voor op fysica gebaseerde rendering (PBR). In dit artikel introduceren we 3DTopia-XL, een schaalbaar inheems 3D generatief model dat is ontworpen om deze beperkingen te overwinnen. 3DTopia-XL maakt gebruik van een nieuw soort primitief-gebaseerde 3D representatie, PrimX, die gedetailleerde vorm, albedo en materiaalveld codeert in een compact tensorformaat, wat het modelleren van geometrie met hoge resolutie met PBR-assets vergemakkelijkt. Bovenop de nieuwe representatie stellen we een generatief kader voor op basis van Diffusion Transformer (DiT), dat bestaat uit 1) Primitieve Patch Compressie, 2) en Latente Primitieve Diffusie. 3DTopia-XL leert hoogwaardige 3D-assets te genereren op basis van tekstuele of visuele invoer. We voeren uitgebreide kwalitatieve en kwantitatieve experimenten uit om aan te tonen dat 3DTopia-XL aanzienlijk beter presteert dan bestaande methoden bij het genereren van hoogwaardige 3D-assets met fijnmazige texturen en materialen, waarbij efficiënt de kwaliteitskloof wordt overbrugd tussen generatieve modellen en praktische toepassingen in de echte wereld.
Tuning-vrije gepersonaliseerde beeldgeneratiemethoden hebben aanzienlijk succes behaald in het behouden van gezichtsconsistentie, dat wil zeggen, identiteiten, zelfs met meerdere personages. Echter, het gebrek aan holistische consistentie in scènes met meerdere personages belemmert het vermogen van deze methoden om een samenhangend verhaal te creëren. In dit artikel introduceren we StoryMaker, een personalisatie-oplossing die niet alleen gezichtsconsistentie behoudt, maar ook kleding, kapsels en lichaamsconsistentie, waardoor de creatie van een verhaal door middel van een reeks afbeeldingen wordt vergemakkelijkt. StoryMaker omvat voorwaarden gebaseerd op gezichtsidentiteiten en bijgesneden karakterafbeeldingen, die kleding, kapsels en lichamen omvatten. Specifiek integreren we de gezichtsidentiteitsinformatie met de bijgesneden karakterafbeeldingen met behulp van de Positional-aware Perceiver Resampler (PPR) om onderscheidende karaktereigenschappen te verkrijgen. Om vermenging van meerdere personages en de achtergrond te voorkomen, beperken we afzonderlijk de impactgebieden van kruislingse aandacht van verschillende personages en de achtergrond met MSE-verlies met segmentatiemaskers. Daarnaast trainen we het generatienetwerk geconditioneerd op poses om ontkoppeling van poses te bevorderen. Een LoRA wordt ook ingezet om de trouw en kwaliteit te verbeteren. Experimenten benadrukken de effectiviteit van onze aanpak. StoryMaker ondersteunt tal van toepassingen en is compatibel met andere maatschappelijke plug-ins. Onze broncodes en modelgewichten zijn beschikbaar op https://github.com/RedAIGC/StoryMaker.
Recente methoden voor textuurgeneratie behalen indrukwekkende resultaten dankzij de krachtige generatieve prior die ze benutten van grootschalige tekst-naar-afbeelding diffusiemodellen. Echter, abstracte tekstuele aanwijzingen zijn beperkt in het verschaffen van globale textuur- of vorminformatie, wat resulteert in textuurgeneratiemethoden die wazige of inconsistente patronen produceren. Om dit aan te pakken, presenteren we FlexiTex, waarbij rijke informatie wordt ingebed via visuele begeleiding om een hoogwaardige textuur te genereren. De kern van FlexiTex is de module voor Visuele Begeleidingsverbetering, die meer specifieke informatie van visuele begeleiding opneemt om ambiguïteit in de tekstuele aanwijzing te verminderen en hoogfrequente details te behouden. Om de visuele begeleiding verder te verbeteren, introduceren we een Module voor Richtingbewuste Aanpassing die automatisch richtingsaanwijzingen ontwerpt op basis van verschillende camerastanden, waarbij het Janus-probleem wordt vermeden en semantisch globale consistentie wordt behouden. Profiterend van de visuele begeleiding produceert FlexiTex kwantitatief en kwalitatief solide resultaten, waarbij het zijn potentieel aantoont om textuurgeneratie voor praktische toepassingen te bevorderen.
Taalmodellen (LM's) kunnen fouten produceren die moeilijk te detecteren zijn voor mensen, vooral wanneer de taak complex is. RLHF, de meest populaire post-training methode, kan dit probleem verergeren: om hogere beloningen te behalen, kunnen LM's beter worden in het overtuigen van mensen dat ze gelijk hebben, zelfs wanneer ze fout zitten. We bestuderen dit fenomeen binnen een standaard RLHF-pijplijn en noemen het "U-SOPHISTRY", aangezien dit Onbedoeld is door modelontwikkelaars. Specifiek vragen we tijdbeperkte (bijv. 3-10 minuten) menselijke proefpersonen om de juistheid van modeluitvoer te beoordelen en berekenen we de nauwkeurigheid van mensen tegenover gouden labels. Bij een vraag-antwoordtaak (QuALITY) en programmeertaak (APPS) maakt RLHF LM's beter in het overtuigen van onze proefpersonen, maar niet in het correct voltooien van de taak. RLHF maakt het model ook moeilijker te evalueren: het valse positievenpercentage van onze proefpersonen neemt toe met 24,1% bij QuALITY en 18,3% bij APPS. Tot slot tonen we aan dat probing, een geavanceerde benadering voor het detecteren van Opzettelijke Sophistry (bijv. achterdeur LM's), niet generaliseert naar U-SOPHISTRY. Onze resultaten benadrukken een belangrijke foutmodus van RLHF en pleiten voor meer onderzoek om mensen te helpen zich hierop af te stemmen.
Instructieafstemming verbetert grote taalmodellen (LLM's) door ze af te stemmen op menselijke voorkeuren over diverse taken. Traditionele benaderingen om instructieafstemmingsdatasets te creëren staan voor serieuze uitdagingen bij talen met weinig bronnen vanwege hun afhankelijkheid van gegevensannotatie. Dit werk introduceert een nieuw methode, Multilingual Reverse Instructions (MURI), die hoogwaardige instructieafstemmingsdatasets genereert voor talen met weinig bronnen zonder menselijke annotators of bestaande meertalige modellen te vereisen. Door omgekeerde instructies en een vertaalpijplijn te gebruiken, genereert MURI instructie-uitvoerparen van bestaande door mensen geschreven teksten in talen met weinig bronnen. Deze methode waarborgt culturele relevantie en diversiteit door teksten uit verschillende inheemse domeinen te halen en filters toe te passen om ongepaste inhoud te elimineren. Onze dataset, MURI-IT, bevat meer dan 2 miljoen instructie-uitvoerparen in 200 talen. Evaluatie door moedertaalsprekers en fijnafstemmingsexperimenten met mT5-modellen tonen de effectiviteit van de benadering voor zowel NLU als open-end generatie aan. We stellen datasets en modellen openbaar beschikbaar op https://github.com/akoksal/muri.
We presenteren 3DGS-LM, een nieuwe methode die de reconstructie van 3D Gaussian Splatting (3DGS) versnelt door de ADAM-optimalisator te vervangen door een op maat gemaakte Levenberg-Marquardt (LM). Bestaande methoden verminderen de optimalisatietijd door het aantal Gaussians te verlagen of door de implementatie van de differentieerbare rasterizer te verbeteren. Echter, ze vertrouwen nog steeds op de ADAM-optimalisator om Gaussische parameters van een scène te passen in duizenden iteraties, wat tot een uur kan duren. Om dit te bereiken, veranderen we de optimalisator naar LM die samenwerkt met de differentieerbare rasterizer van 3DGS. Voor efficiënte GPU-parallelisatie stellen we een cachegegevensstructuur voor tussenliggende gradiënten voor die ons in staat stelt om Jacobiaanse-vectorproducten efficiënt te berekenen in aangepaste CUDA-kernels. In elke LM-iteratie berekenen we update richtingen van meerdere beeldsubsets met behulp van deze kernels en combineren ze in een gewogen gemiddelde. Over het algemeen is onze methode 30% sneller dan de originele 3DGS terwijl we dezelfde reconstructiekwaliteit behalen. Onze optimalisatie is ook onafhankelijk van andere methoden die 3DGS versnellen, waardoor zelfs snellere versnellingen mogelijk zijn in vergelijking met de standaard 3DGS.
Videogeneratie met behulp van diffusiegebaseerde modellen wordt beperkt door hoge computationele kosten als gevolg van het frame-voor-frame iteratieve diffusieproces. Dit werk introduceert een Diffusion Reuse MOtion (Dr. Mo) netwerk om de latentie videogeneratie te versnellen. Onze belangrijkste ontdekking is dat grofkorrelige ruis in eerdere denoising stappen een hoge bewegingsconsistentie heeft aangetoond over opeenvolgende videoframes. Naar aanleiding van deze observatie propageert Dr. Mo die grofkorrelige ruis naar het volgende frame door zorgvuldig ontworpen, lichtgewicht inter-frame bewegingen op te nemen, waardoor massale computationele redundantie in frame-voor-frame diffusiemodellen geëlimineerd wordt. De meer gevoelige en fijnkorrelige ruis wordt nog steeds verkregen via latere denoising stappen, die essentieel kunnen zijn om visuele kwaliteiten te behouden. Als zodanig kan het beslissen welke tussenliggende stappen moeten overschakelen van bewegingsgebaseerde propagaties naar denoising een cruciaal probleem zijn en een belangrijke afweging tussen efficiëntie en kwaliteit. Dr. Mo maakt gebruik van een meta-netwerk genaamd Denoising Step Selector (DSS) om dynamisch wenselijke tussenliggende stappen over videoframes te bepalen. Uitgebreide evaluaties van videogeneratie- en bewerkingstaken hebben aangetoond dat Dr. Mo aanzienlijk diffusiemodellen kan versnellen in videotaken met verbeterde visuele kwaliteiten.
De taak Geautomatiseerde Audiobijschriften (AAC) vraagt modellen om natuurlijke taalbeschrijvingen van een audio-invoer te genereren. Het evalueren van deze door machines gegenereerde audiobijschriften is een complexe taak die het overwegen van diverse factoren vereist, waaronder auditieve scènebegrip, geluidsobjectinferentie, temporele coherentie en de omgevingscontext van de scène. Terwijl huidige methoden zich richten op specifieke aspecten, slagen ze er vaak niet in om een algehele score te bieden die goed aansluit bij menselijke beoordeling. In dit werk stellen we CLAIR-A voor, een eenvoudige en flexibele methode die gebruikmaakt van de nul-shot mogelijkheden van grote taalmodellen (LLM's) om kandidaat-audiobijschriften te evalueren door LLM's rechtstreeks om een semantische afstandsscore te vragen. In onze evaluaties voorspelt CLAIR-A de menselijke beoordelingen van kwaliteit beter dan traditionele metrieken, met een relatieve nauwkeurigheidsverbetering van 5,8% in vergelijking met de domeinspecifieke FENSE-metriek en tot 11% boven de beste algemene maatstaf op de Clotho-Eval dataset. Bovendien biedt CLAIR-A meer transparantie door het taalmodel in staat te stellen de redenering achter zijn scores uit te leggen, waarbij deze verklaringen tot 30% beter worden beoordeeld door menselijke beoordelaars dan die verstrekt door basismethoden. CLAIR-A is openbaar beschikbaar op https://github.com/DavidMChan/clair-a.