Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Seed-TTS, een familie van grootschalige autoregressieve tekst-naar-spraak (TTS) modellen die spraak kunnen genereren die vrijwel niet te onderscheiden is van menselijke spraak. Seed-TTS fungeert als een fundamenteel model voor spraakgeneratie en blinkt uit in spraak-in-context leren, waarbij het prestaties bereikt op het gebied van spreker-gelijkenis en natuurlijkheid die overeenkomen met echte menselijke spraak in zowel objectieve als subjectieve evaluaties. Met fine-tuning behalen we nog hogere subjectieve scores op deze metrieken. Seed-TTS biedt superieure beheersbaarheid over verschillende spraakkenmerken zoals emotie en is in staat om zeer expressieve en diverse spraak te genereren voor sprekers in het wild. Daarnaast stellen we een zelf-distillatiemethode voor voor spraakfactorisatie, evenals een reinforcement learning-benadering om de robuustheid, spreker-gelijkenis en beheersbaarheid van het model te verbeteren. We presenteren ook een niet-autoregressieve (NAR) variant van het Seed-TTS model, genaamd Seed-TTS_DiT, dat een volledig op diffusie gebaseerde architectuur gebruikt. In tegenstelling tot eerdere NAR-gebaseerde TTS-systemen, is Seed-TTS_DiT niet afhankelijk van vooraf geschatte foneemduur en voert het spraakgeneratie uit via end-to-end verwerking. We tonen aan dat deze variant vergelijkbare prestaties behaalt als de op taalmodel gebaseerde variant en demonstreren de effectiviteit ervan in spraakbewerking. We moedigen lezers aan om naar de demo's te luisteren op https://bytedancespeech.github.io/seedtts_tech_report.
We onderzoeken onzekerheidskwantificering in grote taalmodellen (LLMs), met als doel te identificeren wanneer de onzekerheid in antwoorden op een vraag groot is. We beschouwen tegelijkertijd zowel epistemische als aleatorische onzekerheden, waarbij de eerste voortkomt uit een gebrek aan kennis over de waarheid (zoals over feiten of de taal), en de laatste voortkomt uit onherleidbare willekeur (zoals meerdere mogelijke antwoorden). In het bijzonder leiden we een informatie-theoretische metriek af die betrouwbaar kan detecteren wanneer alleen de epistemische onzekerheid groot is, in welk geval de uitvoer van het model onbetrouwbaar is. Deze conditie kan worden berekend op basis van alleen de uitvoer van het model, verkregen door middel van een speciale iteratieve prompting gebaseerd op eerdere antwoorden. Zo'n kwantificering maakt het bijvoorbeeld mogelijk om hallucinaties (gevallen waarin de epistemische onzekerheid hoog is) te detecteren in zowel enkelvoudige als meervoudige antwoorden. Dit staat in contrast met veel standaard onzekerheidskwantificeringsstrategieën (zoals het afkappen van de log-waarschijnlijkheid van een antwoord) waarbij hallucinaties in het geval van meerdere antwoorden niet kunnen worden gedetecteerd. We voeren een reeks experimenten uit die het voordeel van onze formulering aantonen. Bovendien werpen onze onderzoeken enig licht op hoe de waarschijnlijkheden die door een LLM aan een bepaalde uitvoer worden toegekend, kunnen worden versterkt door iteratieve prompting, wat mogelijk van onafhankelijk belang is.
Zowel online als offline RLHF-methoden zoals PPO en DPO zijn buitengewoon succesvol geweest in het afstemmen van AI op menselijke voorkeuren. Ondanks hun succes kampen de bestaande methoden met een fundamenteel probleem: hun optimale oplossing is sterk taakafhankelijk (d.w.z. niet robuust tegen taken buiten de verdeling (OOD)). Hier gaan we deze uitdaging aan door Self-Improving Robust Preference Optimization (SRPO) voor te stellen, een praktisch en wiskundig onderbouwd offline RLHF-raamwerk dat volledig robuust is tegen veranderingen in de taak. De kern van SRPO is het formuleren van het probleem van leren van menselijke voorkeuren als een zelfverbeteringsproces, wat wiskundig kan worden uitgedrukt in termen van een min-max-doelstelling die streeft naar gezamenlijke optimalisatie van het zelfverbeteringsbeleid en het generatieve beleid op een adversariële manier. De oplossing voor dit optimalisatieprobleem is onafhankelijk van de trainingstaak en is daarom robuust tegen veranderingen ervan. Vervolgens laten we zien dat deze doelstelling kan worden herschreven in de vorm van een niet-adversariële offline verliesfunctie die op grote schaal kan worden geoptimaliseerd met behulp van standaard supervised optimalisatietechnieken, zonder dat een beloningsmodel of online inferentie nodig is. We tonen de effectiviteit van SRPO aan in termen van AI Win-Rate (WR) tegen menselijke (GOLD) voltooiingen. In het bijzonder, wanneer SRPO wordt geëvalueerd op de OOD XSUM-dataset, overtreft het de geroemde DPO met een duidelijke marge van 15% na 5 zelfrevisies, waarbij een WR van 90% wordt bereikt.
Tekst-naar-video-generatie heeft achtergelopen op tekst-naar-beeld-synthese in kwaliteit en diversiteit vanwege de complexiteit van spatio-temporele modellering en beperkte video-tekst-datasets. Dit artikel presenteert I4VGen, een trainingsvrij en plug-and-play video-diffusie-inferentiekader, dat tekst-naar-video-generatie verbetert door gebruik te maken van robuuste beeldtechnieken. Specifiek volgt I4VGen, na tekst-naar-beeld-naar-video, een decompositie van de tekst-naar-video-generatie in twee fasen: ankerbeeld-synthese en ankerbeeld-gestuurde video-synthese. Daarbij wordt een goed ontworpen generatie-selectie-pipeline gebruikt om een visueel-realistisch en semantisch-getrouw ankerbeeld te bereiken, en wordt een innovatieve Noise-Invariant Video Score Distillation Sampling geïntegreerd om het beeld te animeren tot een dynamische video, gevolgd door een video-regeneratieproces om de video te verfijnen. Deze inferentiestrategie vermindert effectief het veelvoorkomende probleem van een niet-nul eind-signaal-ruisverhouding. Uitgebreide evaluaties tonen aan dat I4VGen niet alleen video's produceert met een hogere visuele realiteit en tekstuele trouw, maar ook naadloos integreert in bestaande beeld-naar-video-diffusiemodellen, waardoor de algehele videokwaliteit wordt verbeterd.
De belangrijkste aandachtspunten bij beeldgenererende diffusiemodellen zijn beeldkwaliteit, de mate van variatie in de resultaten, en hoe goed de resultaten overeenkomen met een gegeven voorwaarde, zoals een klasse-label of een tekstprompt. De populaire classifier-free guidance-benadering gebruikt een onvoorwaardelijk model om een voorwaardelijk model te sturen, wat leidt tot zowel betere promptafstemming als hogere beeldkwaliteit, ten koste van verminderde variatie. Deze effecten lijken inherent verstrengeld en zijn daardoor moeilijk te controleren. We maken de verrassende observatie dat het mogelijk is om ontwarde controle over de beeldkwaliteit te verkrijgen zonder in te leveren op de mate van variatie, door de generatie te sturen met een kleinere, minder getrainde versie van het model zelf in plaats van een onvoorwaardelijk model. Dit leidt tot significante verbeteringen in ImageNet-generatie, waarbij record-FID-scores van 1.01 voor 64x64 en 1.25 voor 512x512 worden behaald, met behulp van publiek beschikbare netwerken. Bovendien is de methode ook toepasbaar op onvoorwaardelijke diffusiemodellen, waardoor hun kwaliteit aanzienlijk verbetert.
Recente vooruitgang in Kunstmatige Intelligentie (AI) is grotendeels aangedreven door schaalvergroting. In de robotica wordt schaalvergroting belemmerd door het gebrek aan toegang tot enorme robotdatasets. Wij pleiten voor het gebruik van realistische fysieke simulatie als middel om omgevingen, taken en datasets voor robotleermethoden op te schalen. Wij presenteren RoboCasa, een grootschalig simulatiekader voor het trainen van generalistische robots in alledaagse omgevingen. RoboCasa beschikt over realistische en diverse scènes met een focus op keukenomgevingen. Wij bieden duizenden 3D-assets in meer dan 150 objectcategorieën en tientallen interactieve meubels en apparaten. Wij verrijken de realiteit en diversiteit van onze simulatie met generatieve AI-tools, zoals objectassets van tekst-naar-3D-modellen en omgevingstexturen van tekst-naar-beeldmodellen. Wij ontwerpen een set van 100 taken voor systematische evaluatie, inclusief samengestelde taken gegenereerd met behulp van grote taalmodellen. Om het leren te vergemakkelijken, bieden wij hoogwaardige menselijke demonstraties en integreren wij geautomatiseerde trajectgeneratiemethoden om onze datasets aanzienlijk uit te breiden met minimale menselijke inspanning. Onze experimenten tonen een duidelijke schaalvergrotingstrend in het gebruik van synthetisch gegenereerde robotdata voor grootschalige imitatieleren en laten veelbelovende resultaten zien in het benutten van simulatiegegevens voor taken in de echte wereld. Video's en open-source code zijn beschikbaar op https://robocasa.ai/.
Op het gebied van portretvideogeneratie is het gebruik van enkele afbeeldingen om portretvideo's te genereren steeds gebruikelijker geworden. Een veelgebruikte aanpak is het inzetten van generatieve modellen om adapters te verbeteren voor gecontroleerde generatie. Controlesignalen (bijv. tekst, audio, referentieafbeelding, pose, dieptekaart, enz.) kunnen echter variëren in sterkte. Onder deze signalen hebben zwakkere condities vaak moeite om effectief te zijn vanwege interferentie door sterkere condities, wat een uitdaging vormt bij het balanceren van deze condities. In ons werk aan portretvideogeneratie identificeerden we audiosignalen als bijzonder zwak, vaak overschaduwd door sterkere signalen zoals gezichtspose en referentieafbeelding. Direct trainen met zwakke signalen leidt echter vaak tot problemen bij convergentie. Om dit aan te pakken, stellen we V-Express voor, een eenvoudige methode die verschillende controlesignalen balanceert door middel van progressieve training en de conditionele dropout-operatie. Onze methode maakt geleidelijk effectieve controle door zwakke condities mogelijk, waardoor generatiecapaciteiten worden bereikt die tegelijkertijd rekening houden met de gezichtspose, referentieafbeelding en audio. De experimentele resultaten tonen aan dat onze methode effectief portretvideo's kan genereren die door audio worden gecontroleerd. Bovendien wordt een mogelijke oplossing geboden voor het gelijktijdige en effectieve gebruik van condities van uiteenlopende sterkte.
Onlangs zijn videodiffusiemodellen naar voren gekomen als expressieve generatieve tools voor het maken van hoogwaardige videocontent die gemakkelijk toegankelijk is voor algemene gebruikers. Deze modellen bieden echter vaak geen nauwkeurige controle over cameraposities voor videogeneratie, wat de expressie van cinematische taal en gebruikerscontrole beperkt. Om dit probleem aan te pakken, introduceren we CamCo, dat fijnmazige controle over cameraposities mogelijk maakt voor beeld-naar-videogeneratie. We voorzien een vooraf getrainde beeld-naar-videogenerator van nauwkeurig geparametriseerde camerapositie-invoer met behulp van Plücker-coördinaten. Om de 3D-consistentie in de geproduceerde video's te verbeteren, integreren we een epipolaire aandachtmodule in elk aandachtblok die epipolaire beperkingen oplegt aan de kenmerkkaarten. Daarnaast fine-tunen we CamCo op real-world video's met cameraposities geschat via structure-from-motion-algoritmen om de beweging van objecten beter te synthetiseren. Onze experimenten tonen aan dat CamCo de 3D-consistentie en cameracontrolecapaciteiten aanzienlijk verbetert in vergelijking met eerdere modellen, terwijl het tegelijkertijd plausibele objectbeweging effectief genereert. Projectpagina: https://ir1d.github.io/CamCo/