Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) tonen veelbelovende mogelijkheden bij het oplossen van eenvoudige wetenschappelijke problemen, maar veroorzaken vaak hallucinaties bij complexe problemen. Door LLM's te integreren met tools kan de betrouwbaarheid toenemen, maar deze aanpak leidt doorgaans tot een te grote afhankelijkheid van tools, waardoor het vermogen van het model om eenvoudige problemen op te lossen via basisredenering afneemt. In tegenstelling hiermee beoordelen menselijke experts eerst de complexiteit van een probleem op basis van domeinkennis alvorens een passende oplossingsmethode te kiezen. Geïnspireerd door dit menselijke probleemoplossingsproces stellen we een nieuw tweecomponenten fine-tuning methode voor. In het eerste component, Wereldkennisdestillatie (WKD), leren LLM's rechtstreeks van oplossingen die zijn gegenereerd met behulp van informatie van tools om domeinkennis te internaliseren. In het tweede component, Toolgebruiksaanpassing (TUA), verdelen we problemen in eenvoudige en moeilijke categorieën op basis van de directe antwoordnauwkeurigheid van het model. Terwijl we voor eenvoudige problemen hetzelfde uitlijningsdoel behouden als bij WKD, trainen we het model om intelligent over te schakelen naar het gebruik van tools voor meer uitdagende problemen. We valideren onze methode op zes wetenschappelijke benchmarkdatasets, waaronder wiskunde, klimaatwetenschap en epidemiologie. Gemiddeld tonen onze modellen een verbetering van 28,18% in antwoordnauwkeurigheid en een toename van 13,89% in precisie van het gebruik van tools over alle datasets, waarbij we state-of-the-art modellen, waaronder GPT-4o en Claude-3.5, overtreffen.
Bestaande inspanningen om GUI-agenten te bouwen zijn sterk afhankelijk van de beschikbaarheid van robuuste commerciële Vision-Language Modellen (VLM's) zoals GPT-4o en GeminiProVision. Praktijkmensen zijn vaak terughoudend om open-source VLM's te gebruiken vanwege hun aanzienlijke prestatieverschil in vergelijking met hun gesloten-source tegenhangers, met name in GUI-gronding en Out-Of-Distribution (OOD) scenario's. Om toekomstig onderzoek op dit gebied te vergemakkelijken, hebben we OS-Atlas ontwikkeld - een fundamenteel GUI-actiemodel dat uitblinkt in GUI-gronding en OOD-agenttaken door innovaties in zowel data als modellering. We hebben aanzienlijke technische inspanningen geïnvesteerd in het ontwikkelen van een open-source toolkit voor het synthetiseren van GUI-grondingsdata over meerdere platforms, waaronder Windows, Linux, MacOS, Android en het web. Door gebruik te maken van deze toolkit, brengen we het grootste open-source cross-platform GUI-grondingscorpus tot nu toe uit, dat meer dan 13 miljoen GUI-elementen bevat. Deze dataset, gecombineerd met innovaties in modeltraining, biedt een solide basis voor OS-Atlas om GUI-screenshots te begrijpen en te generaliseren naar ongeziene interfaces. Door uitgebreide evaluatie over zes benchmarks die drie verschillende platforms bestrijken (mobiel, desktop en web), toont OS-Atlas aanzienlijke prestatieverbeteringen ten opzichte van eerdere state-of-the-art modellen. Onze evaluatie onthult ook waardevolle inzichten in het voortdurend verbeteren en schalen van de agentcapaciteiten van open-source VLM's.
Het personaliseren van Grote Taalmodellen (LLM's) is recentelijk steeds belangrijker geworden met een breed scala aan toepassingen. Ondanks het belang en de recente vooruitgang hebben de meeste bestaande werken over gepersonaliseerde LLM's zich ofwel volledig gericht op (a) gepersonaliseerde tekstgeneratie of (b) het benutten van LLM's voor gepersonaliseerde toepassingen, zoals aanbevelingssystemen. In dit werk overbruggen we voor het eerst de kloof tussen deze twee afzonderlijke hoofdrichtingen door een taxonomie voor het gebruik van gepersonaliseerde LLM's te introduceren en de belangrijkste verschillen en uitdagingen samen te vatten. We bieden een formalisering van de grondslagen van gepersonaliseerde LLM's die begrippen van personalisatie van LLM's consolideert en uitbreidt, waarbij we nieuwe facetten van personalisatie, gebruik en wensen van gepersonaliseerde LLM's definiëren en bespreken. Vervolgens verenigen we de literatuur over deze diverse gebieden en gebruiksscenario's door systematische taxonomieën voor de granulariteit van personalisatie, personalisatietechnieken, datasets, evaluatiemethoden en toepassingen van gepersonaliseerde LLM's voor te stellen. Tot slot benadrukken we uitdagingen en belangrijke open problemen die nog moeten worden aangepakt. Door recent onderzoek te unificeren en te onderzoeken met behulp van de voorgestelde taxonomieën, streven we ernaar een duidelijke gids te bieden voor de bestaande literatuur en verschillende facetten van personalisatie in LLM's, waardoor zowel onderzoekers als beoefenaars worden versterkt.
Gecorrigeerde stroom- en terugstroomprocedures hebben de snelle generatie aanzienlijk verbeterd door gewone differentiaalvergelijking (ODE) stromen geleidelijk te rechttrekken. Ze werken onder de veronderstelling dat beeld- en geluidsparen, bekend als koppelingen, kunnen worden benaderd door rechte trajecten met constante snelheid. We merken echter op dat modellering met constante snelheid en het gebruik van terugstroomprocedures beperkingen hebben bij het nauwkeurig leren van rechte trajecten tussen paren, wat resulteert in suboptimale prestaties bij generatie in enkele stappen. Om deze beperkingen aan te pakken, introduceren we Constante Versnellingsstroom (CAF), een nieuw raamwerk gebaseerd op een eenvoudige constante versnellingsvergelijking. CAF introduceert versnelling als een extra te leren variabele, waardoor een meer expressieve en nauwkeurige schatting van de ODE-stroom mogelijk is. Bovendien stellen we twee technieken voor om de schattingsnauwkeurigheid verder te verbeteren: initiële snelheidsconditionering voor het versnellingsmodel en een terugstroomproces voor de initiële snelheid. Onze uitgebreide studies op speelgoeddatasets, CIFAR-10 en ImageNet 64x64 tonen aan dat CAF beter presteert dan state-of-the-art baselines voor generatie in één stap. We tonen ook aan dat CAF aanzienlijk de koppelingbehoud en omkering in enkele stappen verbetert ten opzichte van Gecorrigeerde stroom. De code is beschikbaar op https://github.com/mlvlab/CAF{https://github.com/mlvlab/CAF}.
Bestaande benchmarks benadrukken vaak de opmerkelijke prestaties die worden behaald door state-of-the-art Multimodale Fundamentele Modellen (MFM's) bij het benutten van temporele context voor het begrijpen van video's. Echter, hoe goed presteren de modellen werkelijk in visuele temporele redenering? Onze studie van bestaande benchmarks toont aan dat deze capaciteit van MFM's waarschijnlijk wordt overschat, aangezien veel vragen kunnen worden opgelost door het gebruik van één, enkele, of willekeurige frames. Om de huidige visuele temporele redeneertaken systematisch te onderzoeken, stellen we drie principes voor met bijbehorende metrieken: (1) Multi-Frame Winst, (2) Framevolgordegevoeligheid, en (3) Frame-informatieverschil. Volgens deze principes introduceren we TOMATO, Temporele Redenering Multimodale Evaluatie, een nieuw benchmark ontworpen om de temporele redeneercapaciteiten van MFM's in video begrip grondig te beoordelen. TOMATO omvat 1.484 zorgvuldig samengestelde, mens-geannoteerde vragen die zes taken bestrijken (d.w.z., actietelling, richting, rotatie, vorm & trend, snelheid & frequentie, en visuele aanwijzingen), toegepast op 1.417 video's, inclusief 805 zelf opgenomen en gegenereerde video's, die mens-gecentreerde, realistische en gesimuleerde scenario's omvatten. Onze uitgebreide evaluatie onthult een mens-model prestatiekloof van 57,3% met het best presterende model. Bovendien onthult onze diepgaande analyse meer fundamentele beperkingen dan deze kloof in huidige MFM's. Hoewel ze gebeurtenissen nauwkeurig kunnen herkennen in geïsoleerde frames, falen ze in het interpreteren van deze frames als een continue reeks. Wij geloven dat TOMATO zal dienen als een cruciaal testplatform voor het evalueren van de volgende generatie MFM's en als een oproep aan de gemeenschap om AI-systemen te ontwikkelen die in staat zijn om de dynamiek van de menselijke wereld te begrijpen via de videomodaliteit.
Dit artikel presenteert Randomized AutoRegressive modellering (RAR) voor visuele generatie, dat een nieuwe state-of-the-art prestatie neerzet op de beeldgeneratietaak, terwijl het volledig compatibel blijft met taalmodelleringskaders. De voorgestelde RAR is eenvoudig: tijdens een standaard autoregressief trainingsproces met een volgende-token voorspellingsdoel, wordt de invoersequentie - typisch geordend in rasterformaat - willekeurig gepermuteerd in verschillende factorisatievolgordes met een kans r, waarbij r begint bij 1 en lineair afneemt tot 0 gedurende de training. Deze gloeiproces-trainingsstrategie stelt het model in staat om te leren om de verwachte waarschijnlijkheid te maximaliseren over alle factorisatievolgordes en zo effectief de capaciteit van het model om bidirectionele contexten te modelleren te verbeteren. Belangrijk is dat RAR de integriteit van het autoregressieve modelleringskader behoudt, wat zorgt voor volledige compatibiliteit met taalmodellering en aanzienlijke prestatieverbeteringen in beeldgeneratie. Op de ImageNet-256 benchmark behaalt RAR een FID-score van 1.48, waarbij niet alleen eerdere state-of-the-art autoregressieve beeldgeneratoren worden overtroffen, maar ook toonaangevende op diffusie gebaseerde en op gemaskeerde transformer gebaseerde methoden worden overtroffen. Code en modellen zullen beschikbaar worden gesteld op https://github.com/bytedance/1d-tokenizer
We hebben de onderliggende natuurkunde ontdekt in Next-token Prediction (NTP). We hebben de wet van informatiebehoud binnen NTP geïdentificeerd en de Eerste Wet van Informatiecapaciteit (IC-1) voorgesteld, waarbij we aantonen dat de essentie van intelligentie-ontwikkeling in auto-regressieve modellen in wezen een proces van informatieoverdracht is. We hebben ook het principe van Landauer geïntroduceerd in NTP, waarbij we de Tweede Wet van Informatiecapaciteit (IC-2) hebben geformuleerd, die de relatie tussen training van auto-regressieve modellen en energieverbruik vaststelt. Daarnaast hebben we verschillende gevolgtrekkingen gepresenteerd die praktisch belangrijk zijn voor productiepraktijken. Tot slot hebben we de compatibiliteit en aanvullendheid van onze bevindingen met bestaande theorieën bevestigd.
We presenteren een eenvoudige manier om gemaskerde taalmodellering te combineren met causale taalmodellering. Dit hybride trainingsdoel resulteert in een model dat de sterke punten van beide modelleringsparadigma's combineert binnen een enkele transformer stack: GPT-BERT kan transparant worden gebruikt zoals elk standaard causaal of gemaskeerd taalmodel. We testen het pretrainingproces dat dit flexibele gedrag mogelijk maakt op de BabyLM Challenge 2024. De resultaten tonen aan dat het hybride pretrainingmodel beter presteert dan modellen die alleen gemaskeerd of alleen causaal zijn. We maken de modellen, trainingscorpora en code openlijk beschikbaar.
De toepassingen van generatieve AI zijn buitengewoon indrukwekkend geworden, en de interactie tussen gebruikers en AI is dat nog meer. De huidige literatuur over mens-AI-interactie heeft een brede kijk genomen op hoe mensen interageren met generatieve AI, maar het ontbreekt aan specificiteit met betrekking tot de ontwerpen en patronen van gebruikersinterfaces die worden gebruikt om deze toepassingen te creëren. Daarom presenteren we een enquête die op een allesomvattende manier taxonomieën presenteert van hoe een mens met AI interageert en de gebruikersinteractiepatronen die zijn ontworpen om te voldoen aan de behoeften van verschillende relevante gebruiksscenario's. We richten ons voornamelijk op door de gebruiker geleide interacties, waarbij we interacties onderzoeken die door de gebruiker worden geïnitieerd en geen impliciete signalen van de gebruiker bevatten. Met deze enquête streven we ernaar een compendium van verschillende gebruikersinteractiepatronen te creëren die kunnen dienen als referentie voor zowel ontwerpers als ontwikkelaars. Hiermee proberen we ook de drempel te verlagen voor degenen die meer willen leren over het ontwerpen van generatieve AI-toepassingen.
We presenteren Fashion-VDM, een videodiffusiemodel (VDM) voor het genereren van virtuele pasvideo's. Met een invoerafbeelding van een kledingstuk en een persoonsvideo beoogt onze methode een hoogwaardige pasvideo te genereren waarop de persoon het betreffende kledingstuk draagt, met behoud van de identiteit en beweging van de persoon. Virtueel passen op basis van afbeeldingen heeft indrukwekkende resultaten laten zien; echter, bestaande methoden voor virtueel passen in video (VVT) missen nog steeds details van het kledingstuk en temporele consistentie. Om deze problemen aan te pakken, stellen we een op diffusie gebaseerde architectuur voor video virtueel passen voor, met een splitsing van classifier-vrije begeleiding voor meer controle over de conditionering inputs, en een progressieve temporale trainingsstrategie voor het genereren van video's in één doorgang met 64 frames en 512px. We tonen ook de effectiviteit aan van gezamenlijke beeld-video training voor video passen, vooral wanneer videogegevens beperkt zijn. Onze kwalitatieve en kwantitatieve experimenten tonen aan dat onze benadering de nieuwe state-of-the-art zet voor video virtueel passen. Voor aanvullende resultaten, bezoek onze projectpagina: https://johannakarras.github.io/Fashion-VDM.
Recent onderzoek arXiv:2410.15027 heeft het gebruik van diffusietransformatoren (DiTs) verkend voor taakagnostische beeldgeneratie door eenvoudigweg aandachtstokens over afbeeldingen samen te voegen. Echter, ondanks aanzienlijke rekenbronnen, blijft de kwaliteit van de gegenereerde beelden suboptimaal. In deze studie herzien en stroomlijnen we dit kader door te veronderstellen dat tekst-naar-beeld DiTs inherent in-context generatiemogelijkheden bezitten, waarbij slechts minimale afstemming nodig is om ze te activeren. Via diverse taakexperimenten tonen we kwalitatief aan dat bestaande tekst-naar-beeld DiTs effectief in-context generatie kunnen uitvoeren zonder enige afstemming. Voortbouwend op deze inzichten stellen we een opmerkelijk eenvoudige pijplijn voor om de in-context mogelijkheden van DiTs te benutten: (1) afbeeldingen samenvoegen in plaats van tokens, (2) gezamenlijke bijschriften maken van meerdere afbeeldingen, en (3) taakspecifieke LoRA-afstemming toepassen met behulp van kleine datasets (bijv. 20sim 100 monsters) in plaats van volledige parameterafstemming met grote datasets. We noemen onze modellen In-Context LoRA (IC-LoRA). Deze benadering vereist geen aanpassingen aan de originele DiT-modellen, alleen veranderingen in de trainingsgegevens. Opmerkelijk genereert onze pijplijn beeldsets met een hoge kwaliteit die beter aansluiten bij de instructies. Hoewel taakspecifiek wat betreft afstemmingsgegevens, blijft ons kader taakagnostisch in architectuur en pijplijn, en biedt het een krachtig instrument voor de gemeenschap en waardevolle inzichten voor verder onderzoek naar taakagnostische generatiesystemen op productniveau. We publiceren onze code, gegevens en modellen op https://github.com/ali-vilab/In-Context-LoRA
Recentelijk heeft 3D Gaussian Splatting (3DGS) de reconstructie van stralingsvelden gerevolutioneerd, wat resulteert in efficiënte en hoogwaardige synthese van nieuwe weergaven. Echter, het nauwkeurig representeren van oppervlakken, vooral in grote en complexe scenario's, blijft een aanzienlijke uitdaging vanwege de ongestructureerde aard van 3DGS. In dit artikel presenteren we CityGaussianV2, een nieuwe benadering voor reconstructie van scènes op grote schaal die kritieke uitdagingen met betrekking tot geometrische nauwkeurigheid en efficiëntie aanpakt. Voortbouwend op de gunstige generalisatiecapaciteiten van 2D Gaussian Splatting (2DGS), pakken we de convergentie- en schaalbaarheidsproblemen aan. Specifiek implementeren we een gedecomposeerde-gradiënt-gebaseerde verdichtings- en diepteregressietechniek om wazige artefacten te elimineren en de convergentie te versnellen. Om op te schalen introduceren we een verlengingsfilter dat de Gaussische tel-explosie veroorzaakt door 2DGS-degeneratie vermindert. Bovendien optimaliseren we de CityGaussian-pijplijn voor parallelle training, waarbij we tot 10 keer compressie bereiken, minstens 25% besparing in trainingsduur, en een 50% afname in geheugengebruik. We hebben ook standaard geometriebenchmarks vastgesteld onder scènes op grote schaal. Experimentele resultaten tonen aan dat onze methode een veelbelovend evenwicht bereikt tussen visuele kwaliteit, geometrische nauwkeurigheid, evenals opslag- en trainingskosten. De projectpagina is beschikbaar op https://dekuliutesla.github.io/CityGaussianV2/.
De ruimte van woordembedding in neurale modellen is scheef en het corrigeren hiervan kan de prestaties van taken verbeteren. We wijzen erop dat de meeste benaderingen voor het modelleren, corrigeren en meten van de symmetrie van een embeddingruimte impliciet aannemen dat de woordfrequenties uniform zijn; in werkelijkheid volgen woordfrequenties een sterk niet-uniforme verdeling, bekend als de wet van Zipf. Verrassend genoeg verbetert eenvoudigweg het uitvoeren van PCA-whitening gewogen door de empirische woordfrequentie die de wet van Zipf volgt aanzienlijk de prestaties van taken, waarbij gevestigde baselines worden overtroffen. Vanuit een theoretisch perspectief kunnen zowel onze benadering als bestaande methoden duidelijk worden gecategoriseerd: woordrepresentaties zijn verdeeld volgens een exponentiële familie met ofwel uniforme of Zipfiaanse basismaten. Door de laatstgenoemde benadering te adopteren, kunnen we op natuurlijke wijze informatieve woorden met een lage frequentie benadrukken wat betreft hun vectornorm, wat duidelijk wordt vanuit het informatiegeometrische perspectief, en wat betreft de verliesfuncties voor onevenwichtige classificatie. Bovendien bevestigt onze theorie dat populaire methoden voor natuurlijke taalverwerking, zoals skip-gram negatieve bemonstering, WhiteningBERT en hoofdloze taalmodellen, goed werken alleen omdat hun woordembedding de empirische woordfrequentie codeert in het onderliggende probabilistische model.
We stellen een effectieve methode voor om adapters in tekst-naar-afbeelding basis modellen in te voegen, waardoor complexe downstream taken kunnen worden uitgevoerd terwijl de generalisatiecapaciteit van het basismodel behouden blijft. Het kernidee van deze methode is om de aandachtsmechanismen met betrekking tot 2D kenmerkkaarten te optimaliseren, wat de prestaties van de adapter verbetert. Deze benadering is gevalideerd op de taak van meme video generatie en behaalde significante resultaten. We hopen dat dit werk inzichten kan bieden voor post-trainingstaken van grote tekst-naar-afbeelding modellen. Bovendien, aangezien deze methode goede compatibiliteit met SD1.5 afgeleide modellen aantoont, heeft het bepaalde waarde voor de open-source gemeenschap. Daarom zullen we de gerelateerde code vrijgeven (https://songkey.github.io/hellomeme).
Huidige gezichtsanonimiseringstechnieken zijn vaak afhankelijk van identiteitsverlies berekend door gezichtsherken modellen, die onnauwkeurig en onbetrouwbaar kunnen zijn. Bovendien vereisen veel methoden aanvullende gegevens zoals gezichtskenmerken en maskers om het synthese proces te begeleiden. In tegenstelling hiermee maakt onze benadering gebruik van diffusiemodellen met alleen een reconstructieverlies, waardoor de noodzaak voor gezichtskenmerken of maskers wordt geëlimineerd, terwijl nog steeds afbeeldingen met complexe, fijne details worden geproduceerd. We hebben onze resultaten gevalideerd op twee openbare benchmarks via zowel kwantitatieve als kwalitatieve evaluaties. Ons model behaalt state-of-the-art prestaties op drie belangrijke gebieden: identiteitsanonimisering, behoud van gezichtskenmerken en beeldkwaliteit. Naast zijn primaire functie van anonimisering kan ons model ook gezichtsverwisselingstaken uitvoeren door een extra gezichtsafbeelding als invoer op te nemen, waarbij het zijn veelzijdigheid en potentieel voor diverse toepassingen aantoont. Onze code en modellen zijn beschikbaar op https://github.com/hanweikung/face_anon_simple.
Grote Taalmodellen (LLM's) hebben uitgeblonken in meerstapsvraagbeantwoording (M-QA) vanwege hun geavanceerde redeneervermogen. De impact van de inherente redeneerstructuren op de prestaties van LLM M-QA blijft echter onduidelijk, grotendeels door het ontbreken van QA-datasets die gedetailleerde redeneerstructuren bieden. Om deze lacune aan te pakken, introduceren we de Grafische Redeneer-Gestructureerde Vraag-Antwoord Dataset (GRS-QA), die zowel semantische contexten als redeneerstructuren voor QA-paren bevat. In tegenstelling tot bestaande M-QA-datasets, waar verschillende redeneerstructuren door elkaar lopen, legt GRS-QA expliciet complexe redeneerpaden vast door redeneergrafen te construeren, waarbij knooppunten tekstuele contexten vertegenwoordigen en randen logische stromen aangeven. Deze redeneergrafen van verschillende structuren maken een gedetailleerde evaluatie van LLM-redeneervermogens over verschillende redeneerstructuren mogelijk. Onze empirische analyse onthult dat LLM's verschillend presteren bij het behandelen van vragen met verschillende redeneerstructuren. Deze bevinding vergemakkelijkt de verkenning van tekstuele structuren in vergelijking met semantiek.
De gezondheidstoestand (SOH) van een Li-ion batterij is een kritieke parameter die de resterende capaciteit en de resterende levensduur van de batterij bepaalt. In dit artikel stellen we SambaMixer voor, een nieuw gestructureerd toestandsruimtemodel (SSM) voor het voorspellen van de gezondheidstoestand van Li-ion batterijen. Het voorgestelde SSM is gebaseerd op de MambaMixer-architectuur, die is ontworpen om multivariate tijdsignalen te verwerken. We evalueren ons model op de NASA-batterijontlaaddataset en tonen aan dat ons model beter presteert dan de state-of-the-art op deze dataset. We introduceren verder een nieuw anker-gebaseerde hersteekmethode die ervoor zorgt dat tijdsignalen de verwachte lengte hebben, terwijl het ook dient als augmentatietechniek. Tenslotte conditioneren we de voorspelling op de steektijd en het cyclustijdsverschil met behulp van positionele coderingen om de prestaties van ons model te verbeteren en om hersteleffecten te leren. Onze resultaten bewijzen dat ons model in staat is om de SOH van Li-ion batterijen met hoge nauwkeurigheid en robuustheid te voorspellen.
Het niveau van code-aanvulling op repository-niveau heeft veel aandacht gekregen in de software-engineering, en verschillende benchmark datasets zijn geïntroduceerd. Echter, bestaande benchmark datasets voor code-aanvulling op repository-niveau richten zich meestal op een beperkt aantal talen (<5), wat niet de algemene code-intelligentievaardigheden kan evalueren over verschillende talen voor bestaande Large Language Models (LLMs). Bovendien rapporteren de bestaande benchmarks meestal algemene gemiddelde scores voor verschillende talen, waarbij de gedetailleerde vaardigheden in verschillende aanvullingsscenario's worden genegeerd. Daarom stellen we, om het onderzoek naar code-LLMs in meertalige scenario's te vergemakkelijken, een grootschalige meertalige benchmark voor code-aanvulling op repository-niveau voor die 18 programmeertalen bestrijkt (genaamd M2RC-EVAL), en twee soorten gedetailleerde annotaties (d.w.z. bucket-niveau en semantisch niveau) voor verschillende aanvullingsscenario's worden verstrekt, waarbij we deze annotaties verkrijgen op basis van de geparseerde abstracte syntaxisboom. Bovendien cureren we ook een grootschalige meertalige instructiecorpora M2RC-INSTRUCT dataset om de code-aanvullingsvaardigheden op repository-niveau van bestaande code-LLMs te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze M2RC-EVAL en M2RC-INSTRUCT aan.
In dit artikel behandelen we de kwaliteit van de WikiNER-corpus, een meertalige corpus voor het herkennen van vernoemde entiteiten, en bieden we een geconsolideerde versie ervan aan. De annotatie van WikiNER is op een semi-supervised manier geproduceerd, d.w.z. er is geen handmatige verificatie achteraf uitgevoerd. Een dergelijke corpus wordt een zilveren standaard genoemd. In dit artikel stellen we WikiNER-fr-gold voor, wat een herziene versie is van het Franse deel van WikiNER. Onze corpus bestaat uit willekeurig gesamplede 20% van de oorspronkelijke Franse sub-corpus (26.818 zinnen met 700k tokens). We beginnen met het samenvatten van de entiteitstypen die in elke categorie zijn opgenomen om een annotatierichtlijn te definiëren, en vervolgens gaan we over tot het herzien van de corpus. Tot slot presenteren we een analyse van fouten en inconsistenties die zijn waargenomen in de WikiNER-fr-corpus, en bespreken we mogelijke toekomstige onderzoeksrichtingen.