Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodellen versterkt met informatieopslag kunnen zich beter aanpassen aan veranderingen in de wereldtoestand en kennis uit de lange staart integreren. De meeste bestaande methoden halen echter alleen korte, aaneengesloten fragmenten op uit een opslagcorpus, wat een holistisch begrip van de algemene documentcontext beperkt. Wij introduceren de nieuwe aanpak van het recursief embedden, clusteren en samenvatten van tekstfragmenten, waarbij een boom wordt geconstrueerd met verschillende niveaus van samenvatting van onderaf. Tijdens inferentie haalt ons RAPTOR-model informatie op uit deze boom, waarbij informatie uit uitgebreide documenten op verschillende abstractieniveaus wordt geïntegreerd. Gecontroleerde experimenten tonen aan dat opslag met recursieve samenvattingen aanzienlijke verbeteringen biedt ten opzichte van traditionele taalmodellen versterkt met informatieopslag bij verschillende taken. Bij vraag-antwoordtaken die complexe, meerstaps redeneringen vereisen, laten we state-of-the-art resultaten zien; bijvoorbeeld, door RAPTOR-opslag te combineren met het gebruik van GPT-4, kunnen we de beste prestaties op de QuALITY-benchmark met 20% in absolute nauwkeurigheid verbeteren.
Zijn n-gram taalmodelle nog relevant in dit tijdperk van neurale grote taalmodelle (LLM's)? Ons antwoord is ja, en we tonen hun waarde aan in zowel tekstanalyse als het verbeteren van neurale LLM's. Dit vereist echter een modernisering van n-gram modelle in twee opzichten. Ten eerste trainen we ze op dezelfde dataschaal als neurale LLM's -- 1,4 biljoen tokens. Dit is het grootste n-gram model ooit gebouwd. Ten tweede gebruiken bestaande n-gram modelle kleine n-waarden, wat hun prestaties belemmert; wij laten in plaats daarvan n willekeurig groot zijn door een nieuw infty-gram LM met backoff te introduceren. In plaats van vooraf berekende n-gram frequentietabellen te gebruiken (wat zeer kostbaar zou zijn), ontwikkelen we een engine genaamd infini-gram -- aangedreven door suffix arrays -- die infty-gram (evenals n-gram met willekeurige n) waarschijnlijkheden kan berekenen met een latentie op milliseconde-niveau. Het infty-gram framework en de infini-gram engine stellen ons in staat om veel nieuwe en interessante analyses uit te voeren van door mensen geschreven en door machines gegenereerde tekst: we ontdekken dat het infty-gram LM een redelijk hoge nauwkeurigheid heeft voor voorspelling van het volgende token (47%), en neurale LLM's kan aanvullen om hun taalmodelleringperplexiteiten aanzienlijk te verminderen. Bij het analyseren van door machines gegenereerde tekst observeren we ook onregelmatigheden in de overeenstemmingsniveaus tussen de machine en infty-gram met betrekking tot de suffixlengte, wat tekortkomingen aangeeft in de voorbereiding van neurale LLM's en de positionele embeddings van Transformers. We maken onze infini-gram engine open source in de hoop meer onderzoek mogelijk te maken naar hoe letterlijke informatie uit grote tekstcorpora het beste kan worden gebruikt.
Viervoetige robots die zich voortbewegen in rommelige omgevingen moeten zowel wendbaar zijn voor efficiënte taakuitvoering als veilig om botsingen met obstakels of mensen te voorkomen. Bestaande studies ontwikkelen ofwel conservatieve controllers (< 1,0 m/s) om veiligheid te garanderen, of richten zich op wendbaarheid zonder rekening te houden met potentieel fatale botsingen. Dit artikel introduceert Agile But Safe (ABS), een op leren gebaseerd controleframework dat wendbare en botsingsvrije voortbeweging mogelijk maakt voor viervoetige robots. ABS omvat een wendbaar beleid om wendbare motorische vaardigheden uit te voeren tussen obstakels en een herstelbeleid om fouten te voorkomen, wat gezamenlijk resulteert in snelle en botsingsvrije navigatie. De beleidswisseling in ABS wordt gereguleerd door een geleerd controle-theoretisch reach-avoid waardenetwerk, dat ook het herstelbeleid als doel functie begeleidt, waardoor de robot in een gesloten lijn wordt beschermd. Het trainingsproces omvat het leren van het wendbare beleid, het reach-avoid waardenetwerk, het herstelbeleid en een exteroceptie representatienetwerk, allemaal in simulatie. Deze getrainde modules kunnen direct worden ingezet in de echte wereld met onboard sensoren en berekeningen, wat leidt tot snelle en botsingsvrije navigatie in beperkte binnen- en buitenruimtes met zowel statische als dynamische obstakels.
Het uitbreiden van grote taalmodellen om lange contexten effectief te verwerken vereist instructie-finetuning op invoerreeksen van vergelijkbare lengte. Om dit aan te pakken, presenteren we LongAlign -- een recept voor de instructiedata, training en evaluatie voor lange context-uitlijning. Ten eerste construeren we een lange instructievolgende dataset met behulp van Self-Instruct. Om de diversiteit van de data te waarborgen, bestrijkt deze een breed scala aan taken uit verschillende lange contextbronnen. Ten tweede passen we de strategieën van packing en gesorteerd batching toe om supervised finetuning te versnellen op data met gevarieerde lengteverdelingen. Daarnaast ontwikkelen we een methode voor verliesweging om de bijdrage aan het verlies over verschillende reeksen tijdens packing training in balans te brengen. Ten derde introduceren we de LongBench-Chat benchmark voor het evalueren van instructievolgende capaciteiten op queries van 10k-100k in lengte. Experimenten tonen aan dat LongAlign bestaande recepten voor LLM's in lange context taken met tot wel 30\% overtreft, terwijl het ook hun vaardigheid behoudt in het omgaan met korte, generieke taken. De code, data en lange-uitgelijnde modellen zijn openbaar gemaakt op https://github.com/THUDM/LongAlign.
Video-diffusiemodellen krijgen steeds meer aandacht vanwege hun vermogen om video's te produceren die zowel coherent als van hoge kwaliteit zijn. Het iteratieve denoisingsproces maakt het echter rekenintensief en tijdrovend, wat de toepassingsmogelijkheden beperkt. Geïnspireerd door het Consistency Model (CM) dat voorgetrainde beelddiffusiemodellen destilleert om de sampling te versnellen met minimale stappen, en de succesvolle uitbreiding Latent Consistency Model (LCM) voor conditionele beeldgeneratie, stellen wij AnimateLCM voor, waarmee hoogwaardige videogeneratie mogelijk is in minimale stappen. In plaats van direct consistentieleren toe te passen op de ruwe videodataset, stellen wij een ontkoppelde consistentieleerstrategie voor die de destillatie van beeldgeneratieprioriteiten en beweginggeneratieprioriteiten ontkoppelt, wat de trainings efficiëntie verbetert en de visuele kwaliteit van de generatie verhoogt. Daarnaast stellen wij, om de combinatie van plug-and-play adapters in de stable diffusion-community mogelijk te maken om verschillende functies te bereiken (bijvoorbeeld ControlNet voor controleerbare generatie), een efficiënte strategie voor om bestaande adapters aan te passen aan ons gedestilleerde tekst-geconditioneerde videoconsistentiemodel of adapters vanaf nul te trainen zonder de sampling snelheid te schaden. Wij valideren de voorgestelde strategie in beeld-geconditioneerde videogeneratie en lay-out-geconditioneerde videogeneratie, waarbij allemaal topprestaties worden behaald. Experimentele resultaten valideren de effectiviteit van onze voorgestelde methode. Code en gewichten zullen openbaar worden gemaakt. Meer details zijn beschikbaar op https://github.com/G-U-N/AnimateLCM.
Om betrouwbare redenering te bereiken die aansluit bij menselijke verwachtingen, moeten grote taalmodellen (LLMs) hun redenering verankeren in kennis van de echte wereld (bijv. web-feiten, wiskundige en natuurkundige regels). Tools helpen LLMs om toegang te krijgen tot deze externe kennis, maar er blijven uitdagingen bestaan bij het finetunen van LLM-agents (bijv. Toolformer) om tools aan te roepen in meerstaps redeneerproblemen, waarbij onderling verbonden tool-aanroepen een holistische en efficiënte planning van toolgebruik vereisen. In dit werk stellen we een nieuwe methode voor waarmee LLMs tools beter kunnen benutten in meerstaps redenering. Onze methode, Chain-of-Abstraction (CoA), traint LLMs om eerst redeneerketens te decoderen met abstracte plaatshouders, en vervolgens domeintools aan te roepen om elke redeneerketen te concretiseren door specifieke kennis in te vullen. Deze planning met abstracte ketens stelt LLMs in staat om meer algemene redeneerstrategieën te leren, die robuust zijn tegen verschuivingen in domeinkennis (bijv. wiskundige resultaten) die relevant zijn voor verschillende redeneervragen. Het stelt LLMs ook in staat om het decoderen en aanroepen van externe tools parallel uit te voeren, wat de inferentievertraging vermijdt die wordt veroorzaakt door het wachten op toolresponsen. In wiskundige redeneer- en Wiki QA-domeinen laten we zien dat onze methode consistent beter presteert dan eerdere chain-of-thought en tool-augmented baselines op zowel in-distributie als out-of-distributie test sets, met een gemiddelde ~6% absolute QA-nauwkeurigheidsverbetering. LLM-agents die met onze methode zijn getraind, tonen ook een efficiënter toolgebruik, waarbij de inferentiesnelheid gemiddeld ~1,4x sneller is dan baseline tool-augmented LLMs.
Het genereren van 3D-modellen ligt aan de basis van computergraphics en is al decennialang het onderwerp van onderzoek. Met de opkomst van geavanceerde neurale representaties en generatieve modellen ontwikkelt het veld van 3D-contentgeneratie zich snel, waardoor het mogelijk wordt om steeds hogere kwaliteit en meer diverse 3D-modellen te creëren. De snelle groei van dit veld maakt het moeilijk om op de hoogte te blijven van alle recente ontwikkelingen. In dit overzicht streven we ernaar om de fundamentele methodologieën van 3D-generatiemethoden te introduceren en een gestructureerde roadmap op te stellen, die 3D-representatie, generatiemethoden, datasets en bijbehorende toepassingen omvat. Specifiek introduceren we de 3D-representaties die de ruggengraat vormen voor 3D-generatie. Daarnaast bieden we een uitgebreid overzicht van de snel groeiende literatuur over generatiemethoden, gecategoriseerd op basis van het type algoritmische paradigma's, waaronder feedforward-generatie, optimalisatiegebaseerde generatie, procedurele generatie en generatieve novel view-synthese. Tot slot bespreken we beschikbare datasets, toepassingen en openstaande uitdagingen. We hopen dat dit overzicht lezers zal helpen om dit boeiende onderwerp te verkennen en verdere vooruitgang in het veld van 3D-contentgeneratie te bevorderen.
Realistische videosimulatie heeft aanzienlijk potentieel getoond in diverse toepassingen, van virtual reality tot filmproductie. Dit geldt vooral voor scenario's waarin het vastleggen van video's in realistische omgevingen onpraktisch of kostbaar is. Bestaande benaderingen in videosimulatie slagen er vaak niet in om de lichtomgeving nauwkeurig te modelleren, de objectgeometrie correct weer te geven of een hoog niveau van fotorealisme te bereiken. In dit artikel stellen we Anything in Any Scene voor, een nieuw en generiek raamwerk voor realistische videosimulatie dat naadloos elk object in een bestaande dynamische video plaatst met een sterke nadruk op fysiek realisme. Ons voorgestelde algemene raamwerk omvat drie belangrijke processen: 1) het integreren van een realistisch object in een gegeven scènevideo met de juiste plaatsing om geometrisch realisme te waarborgen; 2) het schatten van de hemel- en omgevingslichtverdeling en het simuleren van realistische schaduwen om het lichtrealisme te verbeteren; 3) het inzetten van een stijloverdrachtsnetwerk dat de uiteindelijke video-output verfijnt om het fotorealisme te maximaliseren. We demonstreren experimenteel dat het Anything in Any Scene-raamwerk gesimuleerde video's produceert met een hoog niveau van geometrisch realisme, lichtrealisme en fotorealisme. Door de uitdagingen die gepaard gaan met videodatageneratie aanzienlijk te verminderen, biedt ons raamwerk een efficiënte en kosteneffectieve oplossing voor het verkrijgen van hoogwaardige video's. Bovendien strekken de toepassingen ervan zich uit tot ver buiten videodata-augmentatie, met veelbelovend potentieel in virtual reality, videobewerking en diverse andere video-gerichte toepassingen. Bezoek onze projectwebsite https://anythinginanyscene.github.io voor toegang tot onze projectcode en meer hoogwaardige videoresultaten.
De snelle evolutie van Large Language Models (LLM's), belichaamd door architecturen zoals GPT-4, heeft het landschap van natuurlijke taalverwerking ingrijpend veranderd. Dit artikel introduceert een baanbrekende aanpak om de efficiëntieproblemen die gepaard gaan met het vooraf trainen van LLM's aan te pakken, waarbij het gebruik van kennisdistillatie voor cross-architectuurtransfer wordt voorgesteld. Door inzichten uit het efficiënte Hyena-mechanisme te benutten, vervangt onze methode aandachtskoppen in transformermodellen door Hyena, wat een kosteneffectief alternatief biedt voor traditionele voorafgaande training, terwijl het de uitdaging van het verwerken van lange contextuele informatie, inherent aan kwadratische aandachtmechanismen, aanpakt. In tegenstelling tot conventionele methoden die zich richten op compressie, verbetert onze techniek niet alleen de inferentiesnelheid, maar overtreft het ook de voorafgaande training wat betreft zowel nauwkeurigheid als efficiëntie. In het tijdperk van evoluerende LLM's draagt ons werk bij aan de zoektocht naar duurzame AI-oplossingen, waarbij een balans wordt gevonden tussen rekenkracht en milieueffect.
We introduceren het ReplaceAnything3D-model (RAM3D), een nieuwe tekstgestuurde methode voor het bewerken van 3D-scènes die het mogelijk maakt om specifieke objecten binnen een scène te vervangen. Gegeven multi-view afbeeldingen van een scène, een tekstprompt die het te vervangen object beschrijft, en een tekstprompt die het nieuwe object beschrijft, kan onze Erase-and-Replace-aanpak objecten in de scène effectief vervangen door nieuw gegenereerde inhoud, terwijl de 3D-consistentie over meerdere gezichtspunten behouden blijft. We demonstreren de veelzijdigheid van ReplaceAnything3D door het toe te passen op verschillende realistische 3D-scènes, waarbij we resultaten tonen van aangepaste voorgrondobjecten die goed geïntegreerd zijn met de rest van de scène zonder de algehele integriteit ervan aan te tasten.
Wij stellen CARFF voor: Conditional Auto-encoded Radiance Field for 3D Scene Forecasting, een methode voor het voorspellen van toekomstige 3D-scènes op basis van eerdere observaties, zoals 2D ego-centrische beelden. Onze methode vertaalt een afbeelding naar een verdeling over plausibele 3D latente scèneconfiguraties met behulp van een probabilistische encoder, en voorspelt de evolutie van de veronderstelde scènes door de tijd heen. Onze latente scènevoorstelling conditioneert een globaal Neural Radiance Field (NeRF) om een 3D-scènemodel te representeren, wat verklaarbare voorspellingen en eenvoudige downstream toepassingen mogelijk maakt. Deze benadering gaat verder dan eerder werk op het gebied van neurale rendering door complexe scenario's van onzekerheid in omgevingsstatussen en dynamiek te overwegen. Wij gebruiken een tweefasige training van Pose-Conditional-VAE en NeRF om 3D-representaties te leren. Daarnaast voorspellen wij auto-regressief latente scènevoorstellingen als een gedeeltelijk waarneembaar Markov-beslissingsproces, waarbij gebruik wordt gemaakt van een mixture density network. Wij demonstreren de bruikbaarheid van onze methode in realistische scenario's met behulp van de CARLA-rijsimulator, waar CARFF kan worden ingezet voor efficiënte traject- en noodplanning in complexe multi-agent autonome rijsituaties met visuele occlusies.