Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Huidige grote taalmodellen (LLMs) met lange context kunnen inputs verwerken tot 100.000 tokens, maar hebben moeite om outputs te genereren die zelfs een bescheiden lengte van 2.000 woorden overschrijden. Door middel van gecontroleerde experimenten ontdekken we dat de effectieve generatielengte van het model inherent beperkt wordt door de voorbeelden die het heeft gezien tijdens supervised fine-tuning (SFT). Met andere woorden, hun outputbeperking is te wijten aan de schaarste aan lange-outputvoorbeelden in bestaande SFT-datasets. Om dit aan te pakken, introduceren we AgentWrite, een agent-gebaseerde pijplijn die ultra-lange generatietaken opdeelt in subtaken, waardoor standaard LLMs coherente outputs kunnen genereren die meer dan 20.000 woorden overschrijden. Door gebruik te maken van AgentWrite, construeren we LongWriter-6k, een dataset met 6.000 SFT-gegevens met outputlengtes variërend van 2k tot 32k woorden. Door deze dataset op te nemen in modeltraining, schalen we de outputlengte van bestaande modellen succesvol op tot meer dan 10.000 woorden, terwijl de outputkwaliteit behouden blijft. We ontwikkelen ook LongBench-Write, een uitgebreide benchmark voor het evalueren van ultra-lange generatiecapaciteiten. Ons 9B-parametermodel, verder verbeterd door DPO, behaalt state-of-the-art prestaties op deze benchmark en overtreft zelfs veel grotere propriëtaire modellen. Over het algemeen toont ons werk aan dat bestaande lange-context LLMs al het potentieel hebben voor een groter outputvenster—het enige wat nodig is, zijn gegevens met uitgebreide output tijdens modelafstemming om deze capaciteit te ontgrendelen. Onze code en modellen zijn te vinden op: https://github.com/THUDM/LongWriter.
We introduceren Imagen 3, een latent diffusiemodel dat hoogwaardige afbeeldingen genereert op basis van tekstprompts. We beschrijven onze kwaliteits- en verantwoordelijkheidsbeoordelingen. Imagen 3 wordt verkozen boven andere state-of-the-art (SOTA) modellen ten tijde van de evaluatie. Daarnaast bespreken we kwesties rond veiligheid en representatie, evenals de methoden die we hebben gebruikt om het potentiële nadeel van onze modellen te minimaliseren.
Grote taalmodellen (LLM) agents hebben groot potentieel getoond in het oplossen van real-world software engineering (SWE) problemen. De meest geavanceerde open-source SWE-agent kan meer dan 27% van de echte GitHub-issues in SWE-Bench Lite oplossen. Deze geavanceerde agentframeworks vertonen echter verschillende sterktes, waarbij ze uitblinken in bepaalde taken en minder goed presteren in andere. Om de diversiteit van deze agents volledig te benutten, stellen we DEI (Diversity Empowered Intelligence) voor, een framework dat hun unieke expertise benut. DEI fungeert als een meta-module bovenop bestaande SWE-agentframeworks en beheert agentcollectieven voor verbeterde probleemoplossing. Experimentele resultaten tonen aan dat een door DEI geleid comité van agents de prestaties van de beste individuele agent met een grote marge kan overtreffen. Een groep open-source SWE-agents, met een maximaal individueel oplossingspercentage van 27,3% op SWE-Bench Lite, kan bijvoorbeeld een oplossingspercentage van 34,3% bereiken met DEI, wat een verbetering van 25% betekent en de meeste closed-source oplossingen overtreft. Onze best presterende groep blinkt uit met een oplossingspercentage van 55%, waarmee de hoogste rang op SWE-Bench Lite wordt behaald. Onze bevindingen dragen bij aan het groeiende onderzoeksveld naar collaboratieve AI-systemen en hun potentieel om complexe software engineering uitdagingen op te lossen.
De snelle groei van wetenschappelijke literatuur brengt aanzienlijke uitdagingen met zich mee voor onderzoekers die ernaar streven op de hoogte te blijven van de nieuwste ontwikkelingen in hun vakgebied en nieuwe onderzoeksgebieden te verkennen. Wij introduceren OpenResearcher, een innovatief platform dat gebruikmaakt van technieken uit de Kunstmatige Intelligentie (AI) om het onderzoeksproces te versnellen door diverse vragen van onderzoekers te beantwoorden. OpenResearcher is gebouwd op basis van Retrieval-Augmented Generation (RAG) om Grote Taalmodellen (LLMs) te integreren met actuele, domeinspecifieke kennis. Daarnaast ontwikkelen we diverse tools voor OpenResearcher om vragen van onderzoekers te begrijpen, te zoeken in de wetenschappelijke literatuur, opgehaalde informatie te filteren, nauwkeurige en uitgebreide antwoorden te geven en deze antwoorden zelf te verfijnen. OpenResearcher kan deze tools flexibel inzetten om efficiëntie en effectiviteit in balans te brengen. Hierdoor stelt OpenResearcher onderzoekers in staat tijd te besparen en hun potentieel te vergroten om nieuwe inzichten te ontdekken en wetenschappelijke doorbraken te realiseren. Demo, video en code zijn beschikbaar op: https://github.com/GAIR-NLP/OpenResearcher.
De schaalvergroting van grote taalmodellen (LLMs) heeft hun mogelijkheden in diverse taken revolutionair verbeterd, maar deze groei moet gepaard gaan met efficiënte computationele strategieën. De Mixture-of-Experts (MoE)-architectuur springt eruit vanwege het vermogen om de modelgrootte te schalen zonder de trainingskosten significant te verhogen. Ondanks hun voordelen vertonen huidige MoE-modellen vaak parameterinefficiëntie. Zo kan een vooraf getraind MoE-gebaseerd LLM met 52 miljard parameters vergelijkbaar presteren als een standaardmodel met 6,7 miljard parameters. Als een cruciaal onderdeel van MoE, wijzen huidige routers in verschillende lagen tokens onafhankelijk toe zonder gebruik te maken van historische routeringsinformatie, wat mogelijk leidt tot suboptimale token-expertcombinaties en het parameterinefficiëntieprobleem. Om dit probleem te verlichten, introduceren we de Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE maakt gebruik van een Gated Recurrent Unit (GRU) om afhankelijkheden tussen routeringsbeslissingen over opeenvolgende lagen te creëren. Een dergelijke laaggewijze recurrentie kan efficiënt parallel worden berekend voor invoertokens en introduceert verhandelbare kosten. Onze uitgebreide empirische evaluaties tonen aan dat RMoE-gebaseerde taalmodellen consistent beter presteren dan een reeks basismodellen. Bovendien integreert RMoE een nieuwe rekentrap die orthogonaal is aan bestaande methoden, waardoor naadloze compatibiliteit met andere MoE-architecturen mogelijk is. Onze analyses schrijven de winsten van RMoE toe aan de effectieve gelaagde informatie-uitwisseling, die ook de expertselectie en diversiteit verbetert. Onze code is te vinden op https://github.com/qiuzh20/RMoE.
De ontwikkeling van grote taalmodelen leidt tot de vorming van een pre-train-then-align paradigma, waarbij het model doorgaans wordt voorgetraind op een grote tekstcorpus en vervolgens een afstemmingsfase ondergaat om het model af te stemmen op menselijke voorkeuren of downstream taken. In dit werk onderzoeken we de relatie tussen voorafgaande training en fine-tuning door meerdere tussenliggende voorgetrainde modelcheckpoints te fine-tunen. Onze resultaten op 18 datasets suggereren dat i) voortdurende voorafgaande training het model op een latente manier verbetert die pas na fine-tuning zichtbaar wordt; ii) met extra fine-tuning profiteren de datasets waarop het model geen capaciteit toont veel meer dan die waarop het model goed presteert tijdens de voorafgaande trainingsfase; iii) hoewel het model aanzienlijk profiteert van supervised fine-tuning, kan het eerder verworven domeinkennis vergeten en de taken die niet worden gezien tijdens fine-tuning; iv) het model vertoont een hoge gevoeligheid voor evaluatieprompts na supervised fine-tuning, maar deze gevoeligheid kan worden verminderd door meer voorafgaande training.
Het vermogen om objectgerichte abstracties te distilleren uit complexe visuele scènes vormt de basis voor generalisatie op menselijk niveau. Ondanks de aanzienlijke vooruitgang in objectgerichte leermethoden, blijft het leren van objectgerichte representaties in de fysieke 3D-wereld een cruciale uitdaging. In dit werk stellen we SlotLifter voor, een nieuw objectgericht stralingsmodel dat scène-reconstructie en -decompositie gezamenlijk aanpakt via slot-gestuurde feature lifting. Een dergelijk ontwerp verenigt objectgerichte leerrepresentaties en op afbeeldingen gebaseerde renderingmethoden, en biedt state-of-the-art prestaties in scène-decompositie en novel-view synthese op vier uitdagende synthetische en vier complexe real-world datasets, waarbij bestaande 3D objectgerichte leermethoden met een grote marge worden overtroffen. Door middel van uitgebreide ablatie-studies tonen we de effectiviteit van de ontwerpen in SlotLifter aan, wat belangrijke inzichten oplevert voor mogelijke toekomstige richtingen.
Geïnspireerd door Geoffrey Hintons nadruk op generatieve modellering - "Om vormen te herkennen, leer ze eerst te genereren" - onderzoeken we het gebruik van 3D-diffusiemodellen voor objectclassificatie. Door gebruik te maken van de dichtheidsschattingen van deze modellen, maakt onze aanpak, de Diffusion Classifier for 3D Objects (DC3DO), zero-shot classificatie van 3D-vormen mogelijk zonder aanvullende training. Gemiddeld behaalt onze methode een verbetering van 12,5 procent ten opzichte van multiview-tegenhangers, wat superieure multimodale redenering aantoont in vergelijking met discriminerende benaderingen. DC3DO maakt gebruik van een klasse-conditioneel diffusiemodel getraind op ShapeNet, en we voeren inferenties uit op puntenwolken van stoelen en auto's. Dit werk benadrukt het potentieel van generatieve modellen in 3D-objectclassificatie.
Grote taalmodellen (LLMs) hebben hun vaardigheden bewezen in een breed scala aan taken. Veel LLMs vertonen echter aanzienlijke prestatieverschillen tussen hoog- en laag-resourcetalen. Om deze uitdaging te mitigeren, presenteren we FuxiTranyu, een open-source meertalig LLM, dat is ontworpen om te voldoen aan de behoefte van de onderzoeksgemeenschap aan gebalanceerde en hoogpresterende meertalige capaciteiten. FuxiTranyu-8B, het basismodel met 8 miljard parameters, is vanaf nul getraind op een zorgvuldig gebalanceerde meertalige dataverzameling die 600 miljard tokens bevat, afkomstig uit 43 natuurlijke talen en 16 programmeertalen. Naast het basismodel ontwikkelen we ook twee instructie-afgestemde modellen: FuxiTranyu-8B-SFT, dat is verfijnd op een diverse meertalige instructiedataset, en FuxiTranyu-8B-DPO, dat verder is verfijnd met DPO op een voorkeursdataset voor een verbeterde uitlijningscapaciteit. Uitgebreide experimenten op een breed scala aan meertalige benchmarks tonen de competitieve prestaties van FuxiTranyu aan in vergelijking met bestaande meertalige LLMs, zoals BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B en Mistral-7B-Instruct. Interpretatieanalyses op zowel het neuron- als representatieniveau suggereren dat FuxiTranyu consistente meertalige representaties kan leren over verschillende talen heen. Om verder onderzoek naar meertalige LLMs en hun werkingsmechanismen te bevorderen, geven we zowel het basis- als de instructie-afgestemde FuxiTranyu-modellen vrij, samen met 58 pretrainingscheckpoints op HuggingFace en Github.
UniT is een nieuwe benadering voor het leren van tactiele representaties, waarbij VQVAE wordt gebruikt om een compacte latente ruimte te leren en als tactiele representatie te dienen. Het maakt gebruik van tactiele afbeeldingen die zijn verkregen van een enkel eenvoudig object om de representatie te trainen met overdraagbaarheid en generaliseerbaarheid. Deze tactiele representatie kan zonder aanpassing worden overgedragen naar verschillende downstream taken, waaronder perceptietaken en het leren van manipulatiebeleid. Onze benchmark op een in-hand 3D-pose-schattingstaak toont aan dat UniT bestaande methoden voor visuele en tactiele representatieleer overtreft. Daarnaast wordt de effectiviteit van UniT in beleidsleren aangetoond in drie real-world taken met diverse gemanipuleerde objecten en complexe robot-object-omgeving interacties. Door uitgebreide experimenten wordt aangetoond dat UniT een eenvoudig te trainen, plug-and-play, maar breed effectieve methode is voor het leren van tactiele representaties. Voor meer details verwijzen wij naar onze open-source repository https://github.com/ZhengtongXu/UniT en de projectwebsite https://zhengtongxu.github.io/unifiedtactile.github.io/.
Het samenvatten van filmscenario's is een uitdaging, omdat het een begrip vereist van lange invoercontexten en verschillende elementen die uniek zijn voor films. Grote taalmodelen hebben aanzienlijke vooruitgang geboekt in het samenvatten van documenten, maar ze hebben vaak moeite met het verwerken van lange invoercontexten. Bovendien, hoewel televisietranscripten recentelijk aandacht hebben gekregen in studies, blijft het samenvatten van filmscenario's onderbelicht. Om onderzoek op dit gebied te stimuleren, presenteren we een nieuwe dataset, MovieSum, voor abstractieve samenvatting van filmscenario's. Deze dataset bestaat uit 2200 filmscenario's, vergezeld van hun Wikipedia-plotbeschrijvingen. We hebben de filmscenario's handmatig opgemaakt om hun structurele elementen weer te geven. Vergeleken met bestaande datasets heeft MovieSum verschillende onderscheidende kenmerken: (1) Het bevat filmscenario's, die langer zijn dan scripts van tv-afleveringen. (2) Het is twee keer zo groot als eerdere datasets van filmscenario's. (3) Het biedt metadata met IMDb-ID's om de toegang tot aanvullende externe kennis te vergemakkelijken. We laten ook de resultaten zien van recent vrijgegeven grote taalmodelen die zijn toegepast op samenvattingen van onze dataset om een gedetailleerde basislijn te bieden.
Voorgetrainde grote taalmodellen (LLMs) hebben aanzienlijke capaciteiten getoond bij een reeks conventionele taken binnen natuurlijke taalverwerking (NLP), zoals samenvatting en entiteitsherkenning. In dit artikel onderzoeken we de toepassing van LLMs bij het genereren van hoogwaardige eiwitsequenties. Specifiek gebruiken we een reeks voorgetrainde LLMs, waaronder Mistral-7B1, Llama-2-7B2, Llama-3-8B3 en gemma-7B4, om geldige eiwitsequenties te produceren. Al deze modellen zijn publiekelijk beschikbaar. In tegenstelling tot eerder werk op dit gebied, maakt onze aanpak gebruik van een relatief kleine dataset bestaande uit 42.000 verschillende menselijke eiwitsequenties. We trainen deze modellen opnieuw om eiwitgerelateerde gegevens te verwerken, waardoor de generatie van biologisch haalbare eiwitstructuren wordt gegarandeerd. Onze bevindingen tonen aan dat zelfs met beperkte gegevens de aangepaste modellen een efficiëntie vertonen die vergelijkbaar is met gevestigde eiwitgerichte modellen zoals ProGen-varianten, ProtGPT2 en ProLLaMA, die getraind zijn op miljoenen eiwitsequenties. Om de prestaties van onze modellen te valideren en te kwantificeren, voeren we vergelijkende analyses uit met behulp van standaard metrieken zoals pLDDT, RMSD, TM-score en REU. Bovendien verbinden we ons ertoe om de getrainde versies van alle vier de modellen publiekelijk beschikbaar te stellen, wat meer transparantie en samenwerking in het veld van computationele biologie bevordert.
Voor zowel mensen als robots is het gevoel van aanraking, bekend als tactiele waarneming, cruciaal voor het uitvoeren van taken die rijk zijn aan contact. Drie belangrijke uitdagingen bij robotische tactiele waarneming zijn 1) het interpreteren van sensorsignalen, 2) het genereren van sensorsignalen in nieuwe scenario's, en 3) het leren van sensor-gebaseerde beleidsregels. Voor visuotactiele sensoren is interpretatie vergemakkelijkt door hun nauwe relatie met visuele sensoren (bijv. RGB-camera's). Generatie blijft echter moeilijk, aangezien visuotactiele sensoren meestal contact, vervorming, belichting en beeldvorming omvatten, die allemaal duur zijn om te simuleren; op zijn beurt is beleidsleren uitdagend, omdat simulatie niet kan worden benut voor grootschalige gegevensverzameling. Wij presenteren TacSL (taxel), een bibliotheek voor GPU-gebaseerde visuotactiele sensorsimulatie en -leren. TacSL kan worden gebruikt om visuotactiele beelden te simuleren en contactkrachtverdelingen meer dan 200 keer sneller te extraheren dan de vorige state-of-the-art, allemaal binnen de veelgebruikte Isaac Gym-simulator. Bovendien biedt TacSL een leertoolkit met meerdere sensormodellen, contactintensieve trainingsomgevingen en online/offline algoritmen die beleidsleren voor sim-to-real toepassingen kunnen vergemakkelijken. Op algoritmisch gebied introduceren we een nieuw online reinforcement-learning algoritme genaamd asymmetrische actor-critic distillatie (\sysName), ontworpen om tactiel-gebaseerde beleidsregels effectief en efficiënt in simulatie te leren die naar de echte wereld kunnen worden overgedragen. Tot slot demonstreren we het nut van onze bibliotheek en algoritmen door de voordelen van distillatie en multimodale waarneming te evalueren voor taken die rijk zijn aan contact, en vooral door sim-to-real overdracht uit te voeren. Aanvullende video's en resultaten zijn te vinden op https://iakinola23.github.io/tacsl/.
Diffusiegebaseerde tekst-naar-beeld generatiemodellen hebben het veld van kunstmatige inhoudssynthese aanzienlijk vooruitgeholpen. Huidige methoden voor portretstilisering vereisen echter over het algemeen ofwel model fine-tuning op basis van voorbeelden, ofwel het gebruik van DDIM Inversion om afbeeldingen terug te brengen naar de ruisruimte, wat beide het beeldgeneratieproces aanzienlijk vertraagt. Om deze beperkingen te overwinnen, presenteert dit artikel een inversievrij portretstiliseringsraamwerk gebaseerd op diffusiemodellen dat de fusie van inhouds- en stijleigenschappen in slechts vier bemonsteringsstappen bereikt. We hebben waargenomen dat Latent Consistency Models die consistentiedistillatie gebruiken, effectief representatieve Consistentiekenmerken kunnen extraheren uit ruisachtige afbeeldingen. Om de Consistentiekenmerken die uit zowel inhouds- als stijlafbeeldingen zijn geëxtraheerd te combineren, introduceren we een Stijlverbeterings Aandachtcontrole techniek die zorgvuldig inhouds- en stijleigenschappen samenvoegt binnen de aandachtruimte van de doelafbeelding. Bovendien stellen we een kenmerksamenvoegingsstrategie voor om redundante kenmerken in Consistentiekenmerken samen te voegen, waardoor de rekenlast van aandachtcontrole wordt verminderd. Uitgebreide experimenten hebben de effectiviteit van ons voorgestelde raamwerk in het verbeteren van stiliseringsefficiëntie en -trouw gevalideerd. De code is beschikbaar op https://github.com/liujin112/ZePo.
Een algemeen op ontvlechting gebaseerd systeem voor sprekeranonimisering verdeelt spraak doorgaans in inhoud, spreker en prosodiekenmerken met behulp van afzonderlijke encoders. Dit artikel onderzoekt hoe een dergelijk systeem kan worden aangepast wanneer een nieuw spraakkenmerk, bijvoorbeeld emotie, in grotere mate behouden moet blijven. Hoewel bestaande systemen goed zijn in het anonimiseren van spreker-embeddings, zijn ze niet ontworpen om emotie te behouden. Twee strategieën hiervoor worden onderzocht. Ten eerste laten we zien dat het integreren van emotie-embeddings van een vooraf getrainde emotie-encoder kan helpen om emotionele signalen te behouden, hoewel deze aanpak de privacybescherming enigszins in gevaar brengt. Als alternatief stellen we een emotiecompensatiestrategie voor als een post-processing stap die wordt toegepast op geanonimiseerde spreker-embeddings. Dit verbergt de identiteit van de oorspronkelijke spreker en brengt de emotionele kenmerken terug die verloren zijn gegaan tijdens de anonimisering van de spreker-embedding. Specifiek modelleren we het emotiekenmerk met behulp van support vector machines om afzonderlijke grenzen voor elke emotie te leren. Tijdens inferentie wordt de oorspronkelijke spreker-embedding op twee manieren verwerkt: ten eerste door een emotie-indicator om de emotie te voorspellen en de juiste emotie-overeenkomende SVM te selecteren; en ten tweede door een sprekeranonimiseerder om sprekerkenmerken te verbergen. De geanonimiseerde spreker-embedding wordt vervolgens aangepast langs de corresponderende SVM-grens in de richting van een versterkte emotionele richting om de emotionele signalen te behouden. De voorgestelde strategieën worden ook verwacht nuttig te zijn voor het aanpassen van een algemeen op ontvlechting gebaseerd sprekeranonimiseringssysteem om andere doel-paralinguïstische kenmerken te behouden, met potentieel voor een reeks downstream taken.