Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) vertonen opmerkelijk krachtige mogelijkheden. Een van de cruciale factoren om succes te behalen is het afstemmen van de output van de LLM op menselijke voorkeuren. Dit afstemmingsproces vereist vaak slechts een kleine hoeveelheid gegevens om de prestaties van de LLM efficiënt te verbeteren. Hoewel effectief, bestrijkt het onderzoek op dit gebied meerdere domeinen en zijn de betrokken methoden relatief complex om te begrijpen. De relaties tussen verschillende methoden zijn onderbelicht gebleven, wat de ontwikkeling van de voorkeursafstemming beperkt. In het licht hiervan breken we de bestaande populaire afstemmingsstrategieën af in verschillende componenten en bieden we een verenigd kader om de huidige afstemmingsstrategieën te bestuderen, waarbij verbindingen tussen hen worden vastgesteld. In deze survey ontleden we alle strategieën in voorkeursleren in vier componenten: model, gegevens, feedback en algoritme. Deze verenigde kijk biedt een diepgaand begrip van bestaande afstemmingsalgoritmen en opent ook mogelijkheden om de sterke punten van verschillende strategieën te synergeren. Bovendien presenteren we gedetailleerde werkvoorbeelden van gangbare bestaande algoritmen om de lezers een uitgebreid begrip te vergemakkelijken. Tot slot verkennen we, op basis van ons verenigd perspectief, de uitdagingen en toekomstige onderzoeksrichtingen voor het afstemmen van grote taalmodellen op menselijke voorkeuren.
De ontwikkeling van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijke vooruitgang geboekt. Echter, de hoeveelheid en kwaliteit van multimodale instructiedata zijn naar voren gekomen als significante knelpunten in hun voortgang. Het handmatig creëren van multimodale instructiedata is zowel tijdrovend als inefficiënt, wat uitdagingen met zich meebrengt bij het produceren van instructies van hoge complexiteit. Bovendien leidt het destilleren van instructiedata uit black-box commerciële modellen (bijv. GPT-4o, GPT-4V) vaak tot simplistische instructiedata, wat de prestaties beperkt tot die van deze modellen. De uitdaging van het samenstellen van diverse en complexe instructiedata blijft aanzienlijk. Wij stellen MMEvol voor, een nieuw multimodaal instructiedata-evolutiekader dat fijnmazige perceptie-evolutie, cognitieve redeneringsevolutie en interactie-evolutie combineert. Deze iteratieve aanpak doorbreekt knelpunten in datakwaliteit om een complex en divers dataset van beeld-tekstinstructies te genereren, waardoor MLLM's worden voorzien van verbeterde mogelijkheden. Beginnend met een initiële set instructies, SEED-163K, gebruiken we MMEvol om systematisch de diversiteit van instructietypen te vergroten, redeneerstappen te integreren om cognitieve mogelijkheden te verbeteren, en gedetailleerde informatie uit afbeeldingen te extraheren om visueel begrip en robuustheid te verbeteren. Om de effectiviteit van onze data uitgebreid te evalueren, trainen we LLaVA-NeXT met behulp van de geëvolueerde data en voeren we experimenten uit over 13 visie-taal taken. Vergeleken met de baseline getraind met seeddata, behaalt onze aanpak een gemiddelde nauwkeurigheidsverbetering van 3,1 punten en bereikt state-of-the-art (SOTA) prestaties op 9 van deze taken.
Ondanks de recente vooruitgang in Grote Taalmodellen (LLMs), die aanzienlijk hebben bijgedragen aan de generatieve mogelijkheden voor verschillende NLP-taken, ondervinden LLMs nog steeds beperkingen bij het direct verwerken van ophaaltaken. Veel praktische toepassingen vereisen echter de naadloze integratie van zowel ophalen als generatie. Dit artikel introduceert een nieuw en efficiënt kader voor Eén-pas Generatie en ophalen (OneGen), ontworpen om de prestaties van LLMs te verbeteren bij taken die zowel generatie als ophalen vereisen. Het voorgestelde kader overbrugt de traditioneel gescheiden trainingsbenaderingen voor generatie en ophalen door ophaaltokens autoregressief te genereren. Dit maakt het mogelijk dat een enkel LLM beide taken gelijktijdig afhandelt in een verenigde voorwaartse pas. We voeren experimenten uit op twee verschillende soorten samengestelde taken, RAG en Entiteitkoppeling, om de plugbaarheid, effectiviteit en efficiëntie van OneGen bij training en inferentie te valideren. Bovendien tonen onze resultaten aan dat het integreren van generatie en ophalen binnen dezelfde context de generatieve mogelijkheden van LLMs behoudt en tegelijkertijd de ophaalprestaties verbetert. Voor zover wij weten, is OneGen de eerste die LLMs in staat stelt om vectorophalen uit te voeren tijdens de generatie.
Retrieval-Augmented Generation (RAG) maakt gebruik van ophaalgereedschappen om externe databases te raadplegen, waardoor de generatiekwaliteit van grote taalmodellen (LLM's) wordt verbeterd door geoptimaliseerde context. De bestaande ophaalmethoden zijn echter inherent beperkt, omdat ze alleen relevantieovereenkomsten kunnen uitvoeren tussen expliciet geformuleerde vragen en goed gestructureerde kennis, maar niet in staat zijn om taken met ambiguïteit in informatiebehoeften of ongestructureerde kennis aan te pakken. Als gevolg hiervan zijn bestaande RAG-systemen voornamelijk effectief voor eenvoudige vraag-antwoordtaken. In dit werk stellen we MemoRAG voor, een nieuw ophaal-augmented generatieparadigma dat wordt versterkt door langetermijngeheugen. MemoRAG maakt gebruik van een dual-systeemarchitectuur. Enerzijds maakt het gebruik van een licht maar langbereik LLM om het globale geheugen van de database te vormen. Zodra een taak wordt gepresenteerd, genereert het conceptuele antwoorden, waardoor de ophaalgereedschappen nuttige informatie binnen de database kunnen lokaliseren. Anderzijds maakt het gebruik van een duur maar expressief LLM, dat het uiteindelijke antwoord genereert op basis van de opgehaalde informatie. Voortbouwend op dit algemene kader optimaliseren we verder de prestaties van MemoRAG door de cluing-mechanismen en memorisatiecapaciteit te verbeteren. In ons experiment behaalt MemoRAG superieure prestaties op verschillende evaluatietaken, waaronder zowel complexe taken waar conventionele RAG faalt als eenvoudige taken waar RAG doorgaans wordt toegepast.
Naarmate wetenschappelijk onderzoek zich vermenigvuldigt, staan onderzoekers voor de ontmoedigende taak om grote hoeveelheden literatuur te navigeren en te lezen. Bestaande oplossingen, zoals documentvraag-antwoordsystemen, slagen er niet in om op efficiënte wijze gepersonaliseerde en actuele informatie te verstrekken. Wij presenteren Paper Copilot, een zelf-evoluerend, efficiënt LLM-systeem dat is ontworpen om onderzoekers te ondersteunen, gebaseerd op gedachtenopvraging, gebruikersprofiel en optimalisatie van hoge prestaties. Specifiek kan Paper Copilot gepersonaliseerde onderzoeksdiensten aanbieden, met behoud van een database die in realtime wordt bijgewerkt. Kwantitatieve evaluatie toont aan dat Paper Copilot 69,92% van de tijd bespaart na efficiënte implementatie. Dit artikel beschrijft het ontwerp en de implementatie van Paper Copilot, waarbij de bijdragen aan gepersonaliseerde academische ondersteuning worden benadrukt, evenals het potentieel om het onderzoeksproces te stroomlijnen.
In de afgelopen jaren hebben visie-taalmodellen aanzienlijke vooruitgang geboekt, uitblinkend in taken zoals optische tekenherkenning en geometrische probleemoplossing. Er blijven echter verschillende kritieke kwesties bestaan: 1) Eigen modellen missen vaak transparantie over hun architecturen, terwijl open-source modellen meer gedetailleerde ablaties van hun trainingsstrategieën nodig hebben. 2) Vooraf trainingsdata in open-source werken is onderbelicht, met datasets die empirisch worden toegevoegd, wat het proces omslachtig maakt. 3) Fine-tuning richt zich vaak op het toevoegen van datasets, wat leidt tot afnemende meeropbrengsten. Om deze kwesties aan te pakken, stellen we de volgende bijdragen voor: 1) We hebben een robuust basismodel getraind met behulp van de nieuwste ontwikkelingen in visie-taalmodellen, waarbij we effectieve verbeteringen hebben geïntroduceerd en uitgebreide ablatie en validatie hebben uitgevoerd voor elke techniek. 2) Geïnspireerd door recent werk over grote taalmodellen hebben we vooraf trainingsdata gefilterd met behulp van perplexiteit, waarbij we de data met de laagste perplexiteit hebben geselecteerd voor training. Deze aanpak stelde ons in staat om te trainen op een samengestelde dataset van 1M, met het behalen van concurrerende prestaties. 3) Tijdens het fijnafstemmen van visuele instructies hebben we model soup gebruikt op verschillende datasets, waarbij het toevoegen van meer datasets marginale verbeteringen opleverde. Deze innovaties resulteerden in een model met 9B parameters dat concurrerend presteert met state-of-the-art modellen. Onze strategieën zijn efficiënt en lichtgewicht, waardoor ze gemakkelijk kunnen worden overgenomen door de gemeenschap.
Robotmodellen, met name die getraind zijn met grote hoeveelheden data, hebben onlangs een overvloed aan manipulatie- en navigatiemogelijkheden in de echte wereld laten zien. Verschillende onafhankelijke inspanningen hebben aangetoond dat robotbeleid, mits voldoende trainingsdata in een omgeving aanwezig zijn, kunnen generaliseren naar aangetoonde variaties in die omgeving. Echter, de noodzaak om robotmodellen te finetunen voor elke nieuwe omgeving staat in schril contrast met modellen in taal of visie die zero-shot ingezet kunnen worden voor open-wereld problemen. In dit werk presenteren we Robot Utility Modellen (RUMs), een raamwerk voor het trainen en inzetten van zero-shot robotbeleid dat direct kan generaliseren naar nieuwe omgevingen zonder enige finetuning. Om RUMs efficiënt te creëren, ontwikkelen we nieuwe tools om snel data te verzamelen voor mobiele manipulatietaken, dergelijke data te integreren in een beleid met multi-modale imitatieleren, en beleidsregels on-device in te zetten op de Hello Robot Stretch, een goedkope commodity robot, met een externe mLLM-verifier voor herhaling. We trainen vijf van zulke nuttigheidsmodellen voor het openen van kastdeuren, het openen van laden, het oppakken van servetten, het oppakken van papieren zakken, en het heroriënteren van gevallen objecten. Ons systeem behaalt gemiddeld een succespercentage van 90% in ongeziene, nieuwe omgevingen bij interactie met ongeziene objecten. Bovendien kunnen de nuttigheidsmodellen ook slagen in verschillende robot- en cameraset-ups zonder verdere data, training of finetuning. Belangrijkste lessen zijn onder meer het belang van trainingsdata boven trainingsalgoritme en beleidsklasse, richtlijnen over dataschaling, de noodzaak van diverse maar hoogwaardige demonstraties, en een recept voor robotintrospectie en herhaling om de prestaties in individuele omgevingen te verbeteren. Onze code, data, modellen, hardwareontwerpen, evenals onze experiment- en inzetvideo's zijn open source en kunnen worden gevonden op onze projectwebsite: https://robotutilitymodels.com
Hoewel Grote Taalmodellen (LLM's) opmerkelijke generatieve capaciteiten vertonen, zijn ze niet zonder gebreken, met name in de vorm van hallucinaties. Dit probleem is nog duidelijker wanneer LLM's worden toegepast op specifieke talen en domeinen. Zo kunnen LLM's bijvoorbeeld onzin genereren bij het omgaan met oude Chinese poëzie, spreekwoorden of uitdrukkingen, als gevolg van een gebrek aan specifieke kennis. Om dit aan te pakken, introduceert dit artikel een benchmark voor het corrigeren van Chinese kennis in LLM's via kennisbewerking. Specifiek introduceren we een nieuwe Chinese dataset, CKnowEdit, door zeven soorten kennis te verzamelen uit verschillende bronnen, waaronder klassieke teksten, uitdrukkingen en inhoud van Baidu Tieba Ruozhiba, waarbij rekening wordt gehouden met de unieke meerstemmigheid, antithese en logische constructies inherent aan de Chinese taal. Door de analyse van deze dataset onthullen we de uitdagingen waarmee huidige LLM's worden geconfronteerd bij het beheersen van het Chinees. Bovendien tonen onze evaluaties van toonaangevende kennisbewerkingstechnieken op deze dataset de aanzienlijke mogelijkheden voor vooruitgang in het corrigeren van Chinese kennis. De code en dataset zijn beschikbaar op https://github.com/zjunlp/EasyEdit.
Deze studie presenteert verschillende bijdragen voor de Karakalpakse taal: een FLORES+ devtest dataset vertaald naar het Karakalpaks, parallelle corpora voor Oezbeeks-Karakalpaks, Russisch-Karakalpaks en Engels-Karakalpaks van elk 100.000 paar en open-source fijnafgestemde neurale modellen voor vertaling tussen deze talen. Onze experimenten vergelijken verschillende modelvarianten en trainingsbenaderingen, waarbij verbeteringen worden aangetoond ten opzichte van bestaande baselines. Dit werk, uitgevoerd als onderdeel van de Open Language Data Initiative (OLDI) gedeelde taak, heeft tot doel de mogelijkheden voor machinale vertaling voor het Karakalpaks te verbeteren en bij te dragen aan het vergroten van de linguïstische diversiteit in NLP-technologieën.
We introduceren een benchmark om de afstemming tussen menselijke waarnemers en visiemodellen direct te evalueren voor een 3D-vorminferentietaak. We maken gebruik van een experimenteel ontwerp uit de cognitieve wetenschappen dat nul-shot visuele inferenties over objectvorm vereist: deelnemers moeten, gegeven een reeks afbeeldingen, identificeren welke dezelfde/different objecten bevatten, ondanks aanzienlijke gezichtspuntvariatie. We putten uit een diverse reeks afbeeldingen die zowel alledaagse objecten (bijv. stoelen) als abstracte vormen bevatten (d.w.z. procedureel gegenereerde 'onzin'-objecten). Na het construeren van meer dan 2000 unieke beeldensets, leggen we deze taken voor aan menselijke deelnemers, waarbij we 35K proeven aan gedragsgegevens verzamelen van meer dan 500 deelnemers. Dit omvat expliciete keuzegedragingen evenals tussenliggende maatregelen, zoals reactietijd en kijkgegevens. Vervolgens evalueren we de prestaties van gangbare visiemodellen (bijv. DINOv2, MAE, CLIP). We constateren dat mensen alle modellen veruit overtreffen. Met behulp van een multi-schaal evaluatiebenadering identificeren we onderliggende overeenkomsten en verschillen tussen modellen en mensen: hoewel de prestaties van mens en model gecorreleerd zijn, besteden mensen meer tijd/verwerking aan uitdagende proeven. Alle afbeeldingen, gegevens en code zijn toegankelijk via onze projectpagina.
De groeiende vraag van klanten naar slimme oplossingen in robotica en augmented reality heeft aanzienlijke aandacht getrokken naar 3D objectdetectie vanuit puntenwolken. Toch zijn bestaande binnen datasets op zichzelf te klein en onvoldoende divers om een krachtig en algemeen 3D objectdetectiemodel te trainen. Ondertussen zijn meer algemene benaderingen die gebruik maken van basis modellen nog steeds inferieur in kwaliteit aan die gebaseerd op begeleid leren voor een specifieke taak. In dit werk stellen we , een eenvoudig maar effectief 3D objectdetectiemodel voor, dat getraind is op een mix van binnen datasets en in staat is om te werken in verschillende binnenomgevingen. Door verschillende labelruimtes te verenigen, maakt het mogelijk om een sterke representatie te leren over meerdere datasets via een begeleid gezamenlijk trainingsplan. De voorgestelde netwerkarchitectuur is gebaseerd op een standaard transformer encoder, waardoor het eenvoudig is om de voorspellingspijplijn uit te voeren, aan te passen en uit te breiden voor praktisch gebruik. Uitgebreide experimenten tonen aan dat aanzienlijke verbeteringen behaalt ten opzichte van bestaande 3D objectdetectiemethoden in 6 binnen benchmarks: ScanNet (+1.1 mAP50), ARKitScenes (+19.4 mAP25), S3DIS (+9.1 mAP50), MultiScan (+9.3 mAP50), 3RScan (+3.2 mAP50) en ScanNet++ (+2.7 mAP50). De code is beschikbaar op https://github.com/filapro/unidet3d.
Deze paper presenteert inzichten uit de evaluatie van 16 voorhoede grote taalmodellen (LLM's) op de WebApp1K benchmark, een test suite ontworpen om de capaciteit van LLM's om webapplicatiecode te genereren te beoordelen. De resultaten tonen aan dat hoewel alle modellen vergelijkbare onderliggende kennis hebben, hun prestaties verschillen op basis van de frequentie van fouten die ze maken. Door het analyseren van regels code (LOC) en foutendistributies, ontdekken we dat het schrijven van correcte code complexer is dan het genereren van incorrecte code. Bovendien toont prompt engineering beperkte effectiviteit in het verminderen van fouten buiten specifieke gevallen. Deze bevindingen suggereren dat verdere vooruitgang in het coderen met LLM's de nadruk moet leggen op modelbetrouwbaarheid en foutminimalisatie.