Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit technische rapport stellen we ChemVLM voor, het eerste open-source multimodale grote taalmodel dat specifiek is ontwikkeld voor de chemie, ontworpen om de onverenigbaarheid tussen het begrijpen van chemische afbeeldingen en tekstanalyse aan te pakken. Gebaseerd op de VIT-MLP-LLM-architectuur, maken we gebruik van ChemLLM-20B als het fundamentele grote model, waardoor ons model robuuste mogelijkheden krijgt in het begrijpen en toepassen van chemische tekstkennis. Daarnaast gebruiken we InternVIT-6B als een krachtige beeldencoder. We hebben hoogwaardige data uit het chemiedomein verzameld, waaronder moleculen, reactieformules en chemie-examengegevens, en deze samengesteld in een tweetalige multimodale vraag-antwoorddataset. We testen de prestaties van ons model op meerdere open-source benchmarks en drie aangepaste evaluatiesets. Experimentele resultaten tonen aan dat ons model uitstekende prestaties levert en state-of-the-art resultaten behaalt in vijf van de zes betrokken taken. Ons model is te vinden op https://huggingface.co/AI4Chem/ChemVLM-26B.
Tekst-naar-beeldmodellen zijn krachtige hulpmiddelen voor het creëren van afbeeldingen. Het generatieproces is echter vergelijkbaar met het rollen van een dobbelsteen, waardoor het moeilijk is om één afbeelding te verkrijgen die alles vastlegt wat een gebruiker wil. In dit artikel stellen we een raamwerk voor om de gewenste afbeelding te creëren door deze samen te stellen uit verschillende delen van gegenereerde afbeeldingen, in feite een Generatieve Fotomontering vormend. Gegeven een stapel afbeeldingen gegenereerd door ControlNet met dezelfde invoervoorwaarde en verschillende seeds, laten we gebruikers gewenste delen selecteren uit de gegenereerde resultaten met behulp van een penseelstreekinterface. We introduceren een nieuwe techniek die de penseelstreken van de gebruiker inleest, de gegenereerde afbeeldingen segmenteert met behulp van een grafiekgebaseerde optimalisatie in diffusiekenmerkruimte, en vervolgens de gesegmenteerde regio's samenvoegt via een nieuwe kenmerkruimte-blendmethode. Onze methode behoudt trouw de door de gebruiker geselecteerde regio's terwijl ze harmonieus worden samengevoegd. We demonstreren dat ons flexibele raamwerk voor veel toepassingen kan worden gebruikt, waaronder het genereren van nieuwe uiterlijke combinaties, het corrigeren van onjuiste vormen en artefacten, en het verbeteren van promptafstemming. We tonen overtuigende resultaten voor elke toepassing en demonstreren dat onze methode superieur is aan bestaande beeldblendmethoden en verschillende baselines.
Dit artikel introduceert de Aquila2-serie, die bestaat uit een breed scala aan tweetalige modellen met parameterformaten van 7, 34 en 70 miljard. Deze modellen zijn getraind op basis van een innovatief raamwerk genaamd HeuriMentor (HM), dat real-time inzichten biedt in modelconvergentie en het trainingsproces en databeheer verbetert. Het HM-systeem, bestaande uit de Adaptive Training Engine (ATE), de Training State Monitor (TSM) en de Data Management Unit (DMU), maakt een nauwkeurige monitoring van de trainingsvoortgang van het model mogelijk en stelt efficiënte optimalisatie van dataverdeling in, waardoor de trainingseffectiviteit wordt vergroot. Uitgebreide evaluaties tonen aan dat de Aquila2-modelserie vergelijkbaar goed presteert op zowel Engelse als Chinese benchmarks. Specifiek laat Aquila2-34B slechts een lichte afname in prestaties zien wanneer het wordt gekwantiseerd naar Int4. Bovendien hebben we onze trainingscode (https://github.com/FlagOpen/FlagScale) en modelgewichten (https://github.com/FlagAI-Open/Aquila2) openbaar gemaakt om lopend onderzoek en de ontwikkeling van toepassingen te ondersteunen.
Recente ontwikkelingen in Chain-of-Thoughts (CoT) en Program-of-Thoughts (PoT) methoden hebben de wiskundige redeneervaardigheden van taalmodellen aanzienlijk verbeterd, wat hun integratie in instructieafstemmingsdatasets met LLM's vergemakkelijkt. Bestaande methoden voor het creëren van grootschalige datasets vereisen echter aanzienlijke seeddata en hoge computatiekosten voor datasynthese, wat belangrijke uitdagingen vormt voor schaalbaarheid. Wij introduceren InfinityMATH, een schaalbare instructieafstemmingsdataset voor programmatisch wiskundig redeneren. De constructiepipeline benadrukt het ontkoppelen van getallen van wiskundige problemen om getallonafhankelijke programma's te synthetiseren, wat efficiënte en flexibele schaalbaarheid mogelijk maakt terwijl de afhankelijkheid van specifieke numerieke waarden wordt geminimaliseerd. Fine-tuning experimenten met open-source taal- en codemodellen, zoals Llama2 en CodeLlama, demonstreren de praktische voordelen van InfinityMATH. Deze fine-tuned modellen toonden significante relatieve verbeteringen op zowel in-domein als out-of-domein benchmarks, variërend van 184,7% tot 514,3% gemiddeld. Daarnaast vertoonden deze modellen een hoge robuustheid op de GSM8K+ en MATH+ benchmarks, wat verbeterde versies van testverzamelingen zijn met eenvoudige getalvariaties. InfinityMATH zorgt ervoor dat modellen veelzijdiger en effectiever zijn over een breder scala aan wiskundige problemen. De data is beschikbaar op https://huggingface.co/datasets/flagopen/InfinityMATH.
We beschrijven een grootschalige dataset--{\em DeepSpeak}--van echte en deepfake-beelden van mensen die praten en gebaren maken voor hun webcams. De echte video's in deze eerste versie van de dataset bestaan uit 9 uur aan beeldmateriaal van 220 diverse individuen. De nepvideo's, die meer dan 25 uur aan beeldmateriaal omvatten, bestaan uit een reeks verschillende state-of-the-art face-swap en lip-sync deepfakes met natuurlijke en door AI gegenereerde stemmen. We verwachten toekomstige versies van deze dataset uit te brengen met verschillende en geüpdatete deepfake-technologieën. Deze dataset is vrij beschikbaar gemaakt voor onderzoek en niet-commercieel gebruik; verzoeken voor commercieel gebruik zullen in overweging worden genomen.
Het modelleren en manipuleren van 3D-scènes die uit de echte wereld zijn vastgelegd, is cruciaal in diverse toepassingen en trekt steeds meer onderzoeksinteresse. Hoewel eerdere werken over bewerking interessante resultaten hebben bereikt door het manipuleren van 3D-meshes, vereisen ze vaak nauwkeurig gereconstrueerde meshes om bewerkingen uit te voeren, wat hun toepassing in 3D-contentgeneratie beperkt. Om deze kloof te overbruggen, introduceren we een nieuwe aanpak voor 3D-scènebewerking op basis van 3D Gaussian Splatting, aangedreven door een enkele afbeelding, waardoor intuïtieve manipulatie mogelijk wordt via directe bewerking van de inhoud op een 2D-beeldvlak. Onze methode leert om de 3D-Gaussians te optimaliseren zodat ze overeenkomen met een bewerkte versie van de afbeelding die vanuit een door de gebruiker gespecificeerd gezichtspunt van de oorspronkelijke scène wordt gerenderd. Om langetermijnobjectvervorming vast te leggen, introduceren we positioneel verlies in het optimalisatieproces van 3D Gaussian Splatting en maken we gradientpropagatie mogelijk door herparameterisatie. Om verborgen 3D-Gaussians te behandelen bij het renderen vanuit het gespecificeerde gezichtspunt, bouwen we een ankergebaseerde structuur en gebruiken we een grof-naar-fijn optimalisatiestrategie die in staat is om langetermijnvervorming te hanteren terwijl structurele stabiliteit behouden blijft. Bovendien ontwerpen we een nieuwe maskerstrategie om adaptief niet-rigide vervormingsgebieden te identificeren voor fijnschalige modellering. Uitgebreide experimenten tonen de effectiviteit van onze methode aan in het omgaan met geometrische details, langetermijn- en niet-rigide vervorming, en demonstreren superieure bewerkingsflexibiliteit en kwaliteit in vergelijking met eerdere benaderingen.
Onlangs zijn universele golfvormgeneratietaken onderzocht onder verschillende out-of-distribution scenario's. Hoewel GAN-gebaseerde methoden hun kracht hebben getoond in snelle golfvormgeneratie, zijn ze kwetsbaar voor train-inference mismatch scenario's zoals tweestaps tekst-naar-spraak. Ondertussen hebben diffusiegebaseerde modellen hun krachtige generatieve prestaties getoond in andere domeinen; ze blijven echter buiten de schijnwerpers vanwege de langzame inferentiesnelheid bij golfvormgeneratietaken. Bovendien is er geen generatorarchitectuur die de natuurlijke periodieke kenmerken van hoogresolutie golfvormsignalen expliciet kan ontwarren. In dit artikel stellen we PeriodWave voor, een nieuw universeel golfvormgeneratiemodel. Ten eerste introduceren we een period-aware flow matching estimator die de periodieke kenmerken van het golfvormsignaal kan vastleggen bij het schatten van de vectorvelden. Daarnaast gebruiken we een multi-period estimator die overlappingen vermijdt om verschillende periodieke kenmerken van golfvormsignalen vast te leggen. Hoewel het verhogen van het aantal perioden de prestaties aanzienlijk kan verbeteren, vereist dit meer rekenkosten. Om dit probleem te verminderen, stellen we ook een single period-conditional universele estimator voor die parallel kan voeden door period-wise batch inference. Bovendien gebruiken we discrete wavelet transform om de frequentie-informatie van golfvormsignalen verliesvrij te ontwarren voor hoogfrequente modellering, en introduceren we FreeU om de hoogfrequente ruis voor golfvormgeneratie te verminderen. De experimentele resultaten toonden aan dat ons model de vorige modellen overtreft in zowel Mel-spectrogramreconstructie als tekst-naar-spraaktaken. Alle broncode zal beschikbaar zijn op https://github.com/sh-lee-prml/PeriodWave.
Het begrijpen van de 3D-semantiek van een scène is een fundamenteel probleem voor verschillende scenario's, zoals embodied agents. Hoewel NeRFs en 3DGS uitblinken in novel-view synthesis, waren eerdere methoden voor het begrijpen van hun semantiek beperkt tot een onvolledig 3D-begrip: hun segmentatieresultaten zijn 2D-maskers en hun supervisie is verankerd op 2D-pixels. Dit artikel herziet het probleem om een beter 3D-begrip na te streven van een scène gemodelleerd door NeRFs en 3DGS, als volgt. 1) We begeleiden de 3D-punten direct om het taalembeddingveld te trainen. Het bereikt state-of-the-art nauwkeurigheid zonder te vertrouwen op multi-schaal taalembeddings. 2) We transfereren het vooraf getrainde taalveld naar 3DGS, waardoor de eerste real-time renderingsnelheid wordt bereikt zonder in te leveren op trainingsduur of nauwkeurigheid. 3) We introduceren een 3D-query- en evaluatieprotocol voor het gezamenlijk beoordelen van de gereconstrueerde geometrie en semantiek. Code, checkpoints en annotaties zullen online beschikbaar zijn. Projectpagina: https://hyunji12.github.io/Open3DRF