Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren het content deformatieveld CoDeF als een nieuw type videorepresentatie, dat bestaat uit een canoniek contentveld dat de statische inhoud in de gehele video aggregeert en een tijdelijk deformatieveld dat de transformaties vastlegt van de canonieke afbeelding (d.w.z., gerenderd vanuit het canonieke contentveld) naar elk individueel frame langs de tijdas. Gegeven een doelvideo worden deze twee velden gezamenlijk geoptimaliseerd om deze te reconstrueren via een zorgvuldig ontworpen renderpijplijn. We introduceren bewust enkele regularisaties in het optimalisatieproces, waardoor het canonieke contentveld semantiek (bijv. de objectvorm) van de video overneemt. Met een dergelijk ontwerp ondersteunt CoDeF van nature het tillen van beeldalgoritmen voor videoverwerking, in die zin dat men een beeldalgoritme kan toepassen op de canonieke afbeelding en de resultaten moeiteloos kan doorvoeren naar de gehele video met behulp van het tijdelijk deformatieveld. We tonen experimenteel aan dat CoDeF in staat is beeld-naar-beeldvertaling te tillen naar video-naar-videovertaling en sleutelpuntdetectie te tillen naar sleutelpuntvolging zonder enige training. Belangrijker nog, dankzij onze tilstrategie die de algoritmen op slechts één afbeelding implementeert, bereiken we superieure consistentie tussen frames in verwerkte video's in vergelijking met bestaande video-naar-videovertalingsbenaderingen, en slagen we er zelfs in om niet-rigide objecten zoals water en rook te volgen. De projectpagina is te vinden op https://qiuyu96.github.io/CoDeF/.
Recente vooruitgang in grote taalmodellen (LLMs) zoals GPT-4 en PaLM-2 heeft aanzienlijke verbeteringen gebracht in het aanpakken van wiskundige redeneerproblemen. Met name de nieuwste versie van GPT-4 van OpenAI, bekend als GPT-4 Code Interpreter, toont opmerkelijke prestaties op uitdagende wiskundige datasets. In dit artikel onderzoeken we het effect van code op het verbeteren van het redeneervermogen van LLMs door verschillende beperkingen in te voeren op de Code Usage Frequency van GPT-4 Code Interpreter. We ontdekten dat het succes grotendeels kan worden toegeschreven aan de krachtige vaardigheden van het model in het genereren en uitvoeren van code, het evalueren van de uitvoer van code en het corrigeren van de oplossing bij onredelijke uitkomsten. Op basis van dit inzicht stellen we een nieuwe en effectieve promptmethode voor, expliciete code-gebaseerde zelfverificatie (CSV), om het wiskundige redeneerpotentieel van GPT-4 Code Interpreter verder te versterken. Deze methode gebruikt een zero-shot prompt op GPT-4 Code Interpreter om het model aan te moedigen code te gebruiken om zijn antwoorden zelf te verifiëren. In gevallen waar de verificatiestatus "False" aangeeft, past het model automatisch zijn oplossing aan, vergelijkbaar met onze aanpak van het corrigeren van fouten tijdens een wiskunde-examen. Bovendien erkennen we dat de statussen van het verificatieresultaat de betrouwbaarheid van een oplossing aangeven, wat de effectiviteit van majority voting kan verbeteren. Met GPT-4 Code Interpreter en CSV behalen we een indrukwekkende zero-shot nauwkeurigheid op de MATH-dataset (53,9\% tot 84,3\%).
In dit artikel onderzoeken we het in-context leervermogen van retrieval-augmented encoder-decoder taalmodelen. We voeren eerst een uitgebreide analyse uit van het state-of-the-art ATLAS-model en identificeren de beperkingen ervan in in-context leren, voornamelijk door een mismatch tussen pretraining en testen, evenals een beperkte contextlengte. Om deze problemen aan te pakken, stellen we RAVEN voor, een model dat retrieval-augmented gemaskeerd taalmodelen en prefix-taalmodelen combineert. We introduceren verder Fusion-in-Context Learning om de few-shot prestaties te verbeteren door het model in staat te stellen meer in-context voorbeelden te benutten zonder extra training of modelaanpassingen. Door middel van uitgebreide experimenten tonen we aan dat RAVEN ATLAS significant overtreft en in bepaalde scenario's resultaten behaalt die vergelijkbaar zijn met de meest geavanceerde taalmodelen, ondanks aanzienlijk minder parameters. Ons werk benadrukt het potentieel van retrieval-augmented encoder-decoder taalmodelen voor in-context leren en moedigt verder onderzoek in deze richting aan.
Het vermogen om uit context te leren met nieuwe concepten en passende reacties te geven, is essentieel in menselijke gesprekken. Ondanks dat huidige Multimodale Large Language Models (MLLMs) en Large Language Models (LLMs) getraind zijn op megagrote datasets, blijft het herkennen van onbekende afbeeldingen of het begrijpen van nieuwe concepten op een trainingsvrije manier een uitdaging. In-Context Learning (ICL) onderzoekt trainingsvrije few-shot learning, waarbij modellen worden aangemoedigd om "te leren leren" van beperkte taken en te generaliseren naar onbekende taken. In dit werk stellen we link-context learning (LCL) voor, dat de nadruk legt op "redeneren vanuit oorzaak en gevolg" om de leermogelijkheden van MLLMs te vergroten. LCL gaat verder dan traditionele ICL door expliciet de causale relatie tussen de ondersteuningsset en de queryset te versterken. Door demonstraties met causale verbanden te bieden, leidt LCL het model om niet alleen de analogie maar ook de onderliggende causale associaties tussen datapunten te onderscheiden, wat MLLMs in staat stelt om onbekende afbeeldingen te herkennen en nieuwe concepten effectiever te begrijpen. Om de evaluatie van deze nieuwe aanpak te vergemakkelijken, introduceren we de ISEKAI dataset, die uitsluitend bestaat uit onbekende gegenereerde afbeelding-label paren die ontworpen zijn voor link-context learning. Uitgebreide experimenten tonen aan dat onze LCL-MLLM sterke link-context leermogelijkheden vertoont voor nieuwe concepten in vergelijking met standaard MLLMs. Code en data zullen worden vrijgegeven op https://github.com/isekai-portal/Link-Context-Learning.
Dit artikel richt zich op de uitdaging om relightbare en animeerbare neurale avatars te creëren vanuit sparse-view (of zelfs monoscopische) video's van dynamische mensen onder onbekende belichting. Vergeleken met studio-omgevingen is deze setting praktischer en toegankelijker, maar vormt het een extreem uitdagend ill-posed probleem. Eerdere methoden voor neurale menselijke reconstructie kunnen animeerbare avatars reconstrueren vanuit sparse views met behulp van vervormde Signed Distance Fields (SDF), maar zijn niet in staat materiaalparameters te herstellen voor relighting. Hoewel differentieerbare inverse rendering-gebaseerde methoden succesvol zijn geweest in het herstellen van materialen van statische objecten, is het niet eenvoudig om deze uit te breiden naar dynamische mensen, omdat het rekenintensief is om pixel-oppervlakte-intersecties en lichtzichtbaarheid te berekenen op vervormde SDF's voor inverse rendering. Om deze uitdaging op te lossen, stellen we een Hierarchical Distance Query (HDQ)-algoritme voor om de afstanden in de wereldruimte onder willekeurige menselijke poses te benaderen. Specifiek schatten we grove afstanden op basis van een parametrisch menselijk model en berekenen we fijne afstanden door gebruik te maken van de lokale vervormingsinvariantie van SDF. Op basis van het HDQ-algoritme maken we gebruik van sphere tracing om efficiënt de oppervlakte-intersectie en lichtzichtbaarheid te schatten. Dit stelt ons in staat het eerste systeem te ontwikkelen dat animeerbare en relightbare neurale avatars kan herstellen vanuit sparse view (of monoscopische) invoer. Experimenten tonen aan dat onze aanpak superieure resultaten oplevert in vergelijking met state-of-the-art methoden. Onze code zal worden vrijgegeven voor reproduceerbaarheid.
Tekstinjectie voor automatische spraakherkenning (ASR), waarbij ongepaarde tekstgegevens worden gebruikt om gepaarde audio-tekstgegevens aan te vullen, heeft veelbelovende verbeteringen laten zien voor de woordfoutratio. Deze studie onderzoekt het gebruik van tekstinjectie voor hulptaken, dit zijn de niet-ASR-taken die vaak worden uitgevoerd door een end-to-end (E2E) model. In dit werk gebruiken we gezamenlijke end-to-end en interne taalmodeltraining (JEIT) als ons tekstinjectie-algoritme om een ASR-model te trainen dat twee hulptaken uitvoert. De eerste is hoofdlettergebruik, wat een denormalisatietaak is. De tweede is het voorspellen van beurtwisselingen, waarbij wordt geprobeerd te identificeren of een gebruiker zijn conversatiebeurt heeft voltooid in een interactie met een digitale assistent. We laten resultaten zien die aantonen dat onze tekstinjectiemethode de prestaties van hoofdlettergebruik verbetert voor long-tail gegevens, en de recall voor het detecteren van beurtwisselingen verhoogt.
Recent onderzoek naar diepe reinforcement learning (DRL) heeft aangetoond dat algoritmische informatie over goede beleidsstrategieën kan worden geëxtraheerd uit offline data die geen expliciete informatie bevatten over uitgevoerde acties. Zo kunnen video's van mensen of robots veel impliciete informatie bevatten over belonende actiesequenties, maar een DRL-machine die van dergelijke video's wil profiteren, moet eerst zelf leren relevante toestanden/acties/beloningen te identificeren en herkennen. Zonder te vertrouwen op grondwaarheidannotaties leert onze nieuwe methode, genaamd Deep State Identifier, om opbrengsten te voorspellen uit episodes die als video's zijn gecodeerd. Vervolgens gebruikt het een vorm van masker-gebaseerde gevoeligheidsanalyse om belangrijke kritieke toestanden te extraheren/identificeren. Uitgebreide experimenten tonen het potentieel van onze methode aan voor het begrijpen en verbeteren van agentgedrag. De broncode en de gegenereerde datasets zijn beschikbaar op https://github.com/AI-Initiative-KAUST/VideoRLCS.