Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren EnerVerse, een allesomvattend raamwerk voor de generatie van toekomstige ruimtes met lichamen, specifiek ontworpen voor robotmanipulatietaken. EnerVerse integreert naadloos convolutie en bidirectionele aandachtsmechanismen voor het modelleren van ruimte binnen brokken, wat zorgt voor consistentie en continuïteit op laag niveau. Gezien de inherente redundantie in videogegevens, stellen we een spaarzaam geheugencontext voor in combinatie met een op brokken gericht eenrichtingsgeneratieparadigma om de generatie van oneindig lange sequenties mogelijk te maken. Om de robotcapaciteiten verder te vergroten, introduceren we de Free Anchor View (FAV) ruimte, die flexibele perspectieven biedt om observatie en analyse te verbeteren. De FAV ruimte vermindert ambiguïteit bij bewegingsmodellering, verwijdert fysieke beperkingen in beperkte omgevingen en verbetert aanzienlijk de generalisatie en aanpasbaarheid van de robot over verschillende taken en omgevingen. Om de hoge kosten en arbeidsintensiteit van het verkrijgen van multi-camera observaties aan te pakken, presenteren we een gegevensmotorpijplijn die een generatief model integreert met 4D Gaussisch Splatting (4DGS). Deze pijplijn maakt gebruik van de robuuste generalisatiecapaciteiten van het generatieve model en de ruimtelijke beperkingen die 4DGS biedt, waardoor een iteratieve verbetering van de kwaliteit en diversiteit van gegevens mogelijk is, en zo een gegevensvliegwieleffect creëert dat effectief de kloof tussen simulatie en realiteit verkleint. Tenslotte tonen onze experimenten aan dat de vooraf gegenereerde toekomstige ruimte aanzienlijk de voorspellende mogelijkheden van beleid verbetert, wat resulteert in een verbeterde algehele prestatie, met name bij robotmanipulatietaken op lange afstand.
Recente Multimodale Grote Taalmodellen (MLLM's) hebben zich doorgaans gericht op het integreren van visuele en tekstuele modaliteiten, met minder nadruk op de rol van spraak bij het verbeteren van interactie. Echter, spraak speelt een cruciale rol in multimodale dialoogsystemen, en het implementeren van hoogwaardige prestaties in zowel visuele als spraaktaken blijft een aanzienlijke uitdaging vanwege de fundamentele modaliteitsverschillen. In dit artikel stellen we een zorgvuldig ontworpen multi-stage trainingsmethodologie voor die LLM progressief traint om zowel visuele als spraakinformatie te begrijpen, wat uiteindelijk vloeiende visie- en spraakinteractie mogelijk maakt. Onze aanpak behoudt niet alleen sterke visie-taalcapaciteit, maar maakt ook efficiënte spraak-naar-spraak dialoogmogelijkheden mogelijk zonder aparte ASR- en TTS-modules, waardoor de snelheid van multimodale end-to-end reacties aanzienlijk wordt versneld. Door onze methode te vergelijken met state-of-the-art tegenhangers over benchmarks voor afbeeldings-, video- en spraaktaken, tonen we aan dat ons model is uitgerust met zowel sterke visuele als spraakcapaciteiten, waardoor bijna real-time visie- en spraakinteractie mogelijk is.
Recentelijk hebben langzaam-denken redeneringssystemen, gebouwd op grote taalmodellen (LLM's), brede aandacht gekregen door de denktijd tijdens inferentie te vergroten. Er is ook groeiende interesse in het aanpassen van deze capaciteit naar multimodale grote taalmodellen (MLLM's). Aangezien MLLM's complexere gegevenssemantiek over verschillende modaliteiten verwerken, is het intuïtief uitdagender om multimodale langzaam-denken systemen te implementeren. Om dit probleem aan te pakken, onderzoeken we in dit artikel een eenvoudige benadering door een capabel MLLM fijn af te stemmen met een kleine hoeveelheid tekstuele langetermijndenkggevens, resulterend in een multimodaal langzaam-denken systeem, Virgo (Visueel redeneren met lang denken). We ontdekken dat deze langetermijndenkprocessen, uitgedrukt in natuurlijke taal, effectief kunnen worden overgebracht naar MLLM's. Bovendien lijkt het erop dat dergelijke tekstuele redeneergegevens zelfs effectiever kunnen zijn dan visuele redeneergegevens om de langzaam-denken capaciteiten van MLLM's op te roepen. Hoewel dit werk voorlopig is, toont het aan dat langzaam-denken capaciteiten fundamenteel verbonden zijn met het taalmodelcomponent, dat over modaliteiten of domeinen kan worden overgedragen. Deze bevinding kan worden benut om de ontwikkeling van krachtigere langzaam-denken redeneringssystemen te sturen. We stellen onze bronnen beschikbaar op https://github.com/RUCAIBox/Virgo.
Sociale agenten aangedreven door grote taalmodellen (LLM's) kunnen menselijke sociale gedragingen simuleren, maar schieten tekort in het omgaan met complexe doelgerichte sociale dialogen. Directe Voorkeursoptimalisatie (DPO) heeft effectief bewezen om LLM-gedrag in lijn te brengen met menselijke voorkeuren over verschillende agenttaken. Bestaande op DPO gebaseerde benaderingen voor multi-turn interacties zijn verdeeld in turn-niveau en sessie-niveau methoden. De turn-niveau methode is te gedetailleerd, gericht op individuele beurten, terwijl sessie-niveau methoden te grofkorrelig zijn en vaak trainingsruis introduceren. Om deze beperkingen aan te pakken, stellen wij Segment-Niveau Directe Voorkeursoptimalisatie (SDPO) voor, die zich richt op specifieke sleutelsegmenten binnen interacties om multi-turn agentgedrag te optimaliseren en trainingsruis te minimaliseren. Evaluaties op de SOTOPIA benchmark tonen aan dat SDPO-getunede agenten consequent beter presteren dan zowel bestaande DPO-gebaseerde methoden als eigen LLM's zoals GPT-4o, waarbij de potentie van SDPO om de sociale intelligentie van op LLM's gebaseerde agenten te bevorderen wordt benadrukt. Wij stellen onze code en gegevens beschikbaar op https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/SDPO.
Grafiekgeneratie is een cruciale taak in tal van domeinen, waaronder moleculair ontwerp en analyse van sociale netwerken, vanwege het vermogen om complexe relaties en gestructureerde gegevens te modelleren. Terwijl de meeste moderne grafiekgeneratiemodellen gebruikmaken van representaties met adjacentiematrixen, herziet dit werk een alternatieve benadering waarbij grafieken worden voorgesteld als sequenties van knoopverzamelingen en randverzamelingen. Wij pleiten voor deze benadering vanwege de efficiënte codering van grafieken en stellen een nieuw type representatie voor. Op basis van deze representatie introduceren we de Grafiekgenererende Voorgetrainde Transformer (G2PT), een auto-regressief model dat grafiekstructuren leert via voorspelling van het volgende token. Om verder te profiteren van de mogelijkheden van G2PT als een algemeen funderingsmodel, onderzoeken we fine-tuning strategieën voor twee toepassingen: doelgerichte generatie en voorspelling van grafiekeigenschappen. We voeren uitgebreide experimenten uit op meerdere datasets. De resultaten geven aan dat G2PT superieure generatieve prestaties behaalt op zowel generieke grafiek- als moleculaire datasets. Bovendien vertoont G2PT sterke aanpasbaarheid en veelzijdigheid in downstream taken, van moleculair ontwerp tot eigenschapvoorspelling.
We presenteren een algemene strategie om visuele generatiemodellen - zowel beeld- als videogeneratie - af te stemmen op menselijke voorkeur. Om te beginnen bouwen we VisionReward - een fijnmazig en multidimensionaal beloningsmodel. We ontleden menselijke voorkeuren in afbeeldingen en video's in meerdere dimensies, elk vertegenwoordigd door een reeks beoordelingsvragen, lineair gewogen en opgeteld tot een interpreteerbare en nauwkeurige score. Om de uitdagingen van videokwaliteitsbeoordeling aan te pakken, analyseren we systematisch verschillende dynamische kenmerken van video's, wat VisionReward helpt om VideoScore met 17,2% te overtreffen en de beste prestaties te behalen voor videovoorkeursvoorspelling. Op basis van VisionReward ontwikkelen we een multi-objectief voorkeursleer-algoritme dat effectief het probleem van verstorende factoren binnen voorkeursgegevens aanpakt. Onze aanpak presteert aanzienlijk beter dan bestaande methoden voor het scoren van afbeeldingen en video's, zowel op machinemetingen als menselijke evaluatie. Alle code en datasets zijn beschikbaar op https://github.com/THUDM/VisionReward.
Recente ontwikkelingen in grootschalige taalmodellen (LLM's) gebaseerde inbeddingsmodellen hebben nieuwe state-of-the-art benchmarks vastgesteld voor tekstinbeddingstaken, met name in dichtheidvector-gebaseerde ophaling. Echter, deze modellen richten zich voornamelijk op het Engels, waardoor de meertalige inbeddingsmogelijkheden grotendeels onontgonnen blijven. Om deze beperking aan te pakken, presenteren wij LUSIFER, een nieuw zero-shot benadering die LLM-gebaseerde inbeddingsmodellen aanpast voor meertalige taken zonder de noodzaak van meertalig toezicht. De architectuur van LUSIFER combineert een meertalige encoder, die fungeert als een taal-universele leerling, met een LLM-gebaseerd inbeddingsmodel geoptimaliseerd voor inbeddingsspecifieke taken. Deze componenten zijn naadloos geïntegreerd door middel van een minimaal aantal trainbare parameters die fungeren als een connector, waardoor de taalbegripsmogelijkheden van de meertalige encoder effectief worden overgedragen naar het gespecialiseerde inbeddingsmodel. Daarnaast introduceren we een nieuwe benchmark om meertalige inbeddingsprestaties uitgebreid te evalueren, bestaande uit 5 primaire inbeddingstaken, 123 diverse datasets en dekking over 14 talen. Uitgebreide experimentele resultaten tonen aan dat LUSIFER aanzienlijk de meertalige prestaties verbetert over verschillende inbeddingstaken, met name voor talen met middelmatige en lage bronnen, zonder expliciete meertalige trainingsgegevens te vereisen.
Het begrijpen van de wereld en het verklaren ervan met wetenschappelijke theorieën is een centrale ambitie van onderzoek in kunstmatige intelligentie. Het voorstellen van theorieën, het ontwerpen van experimenten om ze te testen, en ze vervolgens te herzien op basis van gegevens zijn fundamenteel voor wetenschappelijke ontdekkingen. Ondanks de aanzienlijke belofte van op LLM gebaseerde wetenschappelijke agenten, zijn er geen benchmarks die systematisch de capaciteit van LLM testen om wetenschappelijke modellen voor te stellen, experimentele gegevens te verzamelen, en deze te herzien in het licht van nieuwe gegevens. Wij introduceren BoxingGym, een benchmark met 10 omgevingen voor het systematisch evalueren van zowel experimenteel ontwerp (bijv. het verzamelen van gegevens om een wetenschappelijke theorie te testen) als modelontdekking (bijv. het voorstellen en herzien van wetenschappelijke theorieën). Om een haalbare en kwantitatieve evaluatie mogelijk te maken, implementeren we elke omgeving als een generatief probabilistisch model waarmee een wetenschappelijke agent interactieve experimenten kan uitvoeren. Deze probabilistische modellen zijn afkomstig uit verschillende wetenschappelijke domeinen variërend van psychologie tot ecologie. Om de capaciteit van een wetenschappelijke agent om informatieve experimentele gegevens te verzamelen kwantitatief te evalueren, berekenen we de verwachte informatiewinst (EIG), een informatie-theoretische grootheid die meet hoeveel een experiment de onzekerheid over de parameters van een generatief model vermindert. Een goede wetenschappelijke theorie is een beknopte en voorspellende verklaring. Daarom vragen we om modelontdekking kwantitatief te evalueren, een wetenschappelijke agent om hun model uit te leggen en vervolgens te beoordelen of deze uitleg een andere wetenschappelijke agent in staat stelt betrouwbare voorspellingen te doen over deze omgeving. Naast deze evaluatie op basis van uitleg, berekenen we standaard model evaluatiemetrics zoals voorspellingsfouten. We constateren dat huidige LLM's, zoals GPT-4o, moeite hebben met zowel experimenteel ontwerp als modelontdekking. We vinden dat het versterken van de LLM-gebaseerde agent met een expliciet statistisch model deze resultaten niet betrouwbaar verbetert.