Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren een nieuwe aanpak om systematisch kenmerken in kaart te brengen die ontdekt zijn door schaarse auto-encoder over opeenvolgende lagen van grote taalmodellen, waarbij eerder werk wordt uitgebreid dat inter-laag kenmerkverbindingen onderzocht. Door gebruik te maken van een data-vrije cosinusgelijkheidstechniek, traceren we hoe specifieke kenmerken aanhouden, veranderen of voor het eerst verschijnen in elke fase. Deze methode levert gedetailleerde stroomdiagrammen van kenmerkevolutie op, waardoor fijnkorrelige interpreteerbaarheid en mechanistische inzichten in modelberekeningen mogelijk worden. Cruciaal is dat we aantonen hoe deze cross-laag kenmerkkaarten directe sturing van modelgedrag mogelijk maken door gekozen kenmerken te versterken of te onderdrukken, waardoor gerichte thematische controle wordt bereikt in tekstgeneratie. Samen benadrukken onze bevindingen het nut van een causaal, cross-laag interpreteerbaarheidskader dat niet alleen verduidelijkt hoe kenmerken zich ontwikkelen via voorwaartse passes, maar ook nieuwe middelen biedt voor transparante manipulatie van grote taalmodellen.
Wij presenteren AlphaGeometry2, een aanzienlijk verbeterde versie van AlphaGeometry geïntroduceerd in Trinh et al. (2024), die nu een gemiddelde gouden medaillewinnaar heeft overtroffen in het oplossen van Olympische meetkundeproblemen. Om dit te bereiken, breiden we eerst de oorspronkelijke AlphaGeometry-taal uit om moeilijkere problemen aan te pakken die bewegingen van objecten omvatten, en problemen met lineaire vergelijkingen van hoeken, verhoudingen en afstanden. Dit, samen met andere toevoegingen, heeft aanzienlijk de dekkingsgraad van de AlphaGeometry-taal voor meetkundeproblemen van de International Math Olympiads (IMO) 2000-2024 verbeterd van 66% naar 88%. Het zoekproces van AlphaGeometry2 is ook aanzienlijk verbeterd door het gebruik van de Gemini-architectuur voor een betere taalmodellering, en een nieuw kennisdelingsmechanisme dat meerdere zoekbomen combineert. Samen met verdere verbeteringen aan de symbolische engine en synthetische gegevensgeneratie hebben we de algehele oplossingsgraad van AlphaGeometry2 aanzienlijk verhoogd tot 84% voor alle meetkundeproblemen van de afgelopen 25 jaar, in vergelijking met 54% eerder. AlphaGeometry2 maakte ook deel uit van het systeem dat de standaard voor de zilveren medaille behaalde op IMO 2024 https://dpmd.ai/imo-zilver. Last but not least, rapporteren we voortgang in het gebruik van AlphaGeometry2 als onderdeel van een volledig geautomatiseerd systeem dat meetkundeproblemen betrouwbaar oplost rechtstreeks vanuit natuurlijke taalinvoer.
Vertonen de rijke representaties van multimodale diffusietransformatoren (DiTs) unieke eigenschappen die hun interpreteerbaarheid verbeteren? We introduceren ConceptAttention, een nieuw methodiek die gebruikmaakt van de expressieve kracht van DiT-aandachtlagen om hoogwaardige saliency maps te genereren die tekstuele concepten nauwkeurig lokaliseren binnen afbeeldingen. Zonder extra training te vereisen, hergebruikt ConceptAttention de parameters van DiT-aandachtlagen om zeer gecontextualiseerde concept-embeddings te produceren, waarbij de belangrijke ontdekking wordt gedaan dat lineaire projecties in de uitvoerruimte van DiT-aandachtlagen aanzienlijk scherpere saliency maps opleveren in vergelijking met veelgebruikte cross-aandachtmechanismen. Opmerkelijk genoeg behaalt ConceptAttention zelfs state-of-the-art prestaties op zero-shot beeldsegmentatie-benchmarks, waarbij het 11 andere zero-shot interpreteerbaarheidsmethoden overtreft op de ImageNet-Segmentatiedataset en op een subset met één klasse van PascalVOC. Ons werk levert het eerste bewijs dat de representaties van multimodale DiT-modellen zoals Flux zeer overdraagbaar zijn naar visuele taken zoals segmentatie, waarbij ze zelfs multimodale basismodellen zoals CLIP overtreffen.
Naarmate de mogelijkheden van Taalmodellen (TM) toenemen, wordt het voor mensen steeds moeilijker om ze op grote schaal te evalueren en te controleren. Er is hoop dat andere taalmodellen beide taken kunnen automatiseren, wat we "AI-toezicht" noemen. We onderzoeken hoe de gelijkenis tussen modellen beide aspecten van AI-toezicht beïnvloedt door een probabilistische metriek voor TM-gelijkheid voor te stellen op basis van overlap in modelfouten. Met behulp van deze metriek tonen we eerst aan dat scores van TM-als-rechter modellen die lijken op de rechter bevoordelen, waarbij recente resultaten van zelfvoorkeur worden gegeneraliseerd. Vervolgens bestuderen we training op TM-annotaties en vinden we aanvullende kennis tussen de zwakke toezichthouder en het sterke studentenmodel speelt een cruciale rol bij de winst van "zwak-naar-sterk generalisatie". Naarmate de mogelijkheden van modellen toenemen, wordt het moeilijker om hun fouten te vinden, en zouden we meer kunnen vertrouwen op AI-toezicht. We observeren echter een zorgwekkende trend - modelfouten worden meer gelijkend bij toenemende mogelijkheden, wat wijst op risico's van gecorreleerde mislukkingen. Ons werk benadrukt het belang van het rapporteren en corrigeren van modelgelijkenis, vooral in het opkomende paradigma van AI-toezicht.
Recente ontwikkelingen in grote taalmodellen, met name na GPT-4o, hebben een toenemende interesse aangewakkerd in het ontwikkelen van omni-modale modellen die in staat zijn om meer modaliteiten te begrijpen. Hoewel er enkele open-source alternatieven zijn ontstaan, is er nog steeds een opmerkelijke achterstand op gespecialiseerde single-modality modellen wat betreft prestaties. In dit artikel presenteren we Ola, een omni-modaal taalmodel dat concurrerende prestaties behaalt op het gebied van beeld-, video- en audio begrip in vergelijking met gespecialiseerde tegenhangers. De kern van het ontwerp van Ola ligt in zijn progressieve modaliteitsuitlijningsstrategie die de ondersteunende modaliteit van het taalmodel progressief uitbreidt. Ons trainingsproces begint met de meest onderscheidende modaliteiten: beeld en tekst, waarna we geleidelijk de vaardigheden van het model uitbreiden met spraakgegevens die taal- en audiokennis verbinden, en videogegevens die alle modaliteiten verbinden. Het progressieve leerproces stelt ons ook in staat om een relatief kleine hoeveelheid cross-modale uitlijningsgegevens te behouden, waardoor het ontwikkelen van omni-modale modellen van bestaande visie-taalmodellen gemakkelijk en minder kostbaar wordt. Bovendien hebben we, om een geavanceerde interactieve ervaring zoals GPT-4o te ontsluiten, een oplossing op zinsniveau ontworpen voor het genereren van spraak tijdens het streamen. Uitgebreide experimenten tonen aan dat Ola bestaande open omni-modale LLMs overtreft op alle modaliteiten, terwijl het zeer concurrerende prestaties behaalt in vergelijking met gespecialiseerde modellen van vergelijkbare grootte. We streven ernaar om van Ola een volledig open omni-modale begripoplossing te maken om toekomstig onderzoek op dit opkomende gebied te bevorderen. Modelgewichten, code en gegevens zijn open-source beschikbaar op https://github.com/Ola-Omni/Ola.
We presenteren een methode voor het verrijken van real-world video's met nieuw gegenereerde dynamische inhoud. Gegeven een invoervideo en een eenvoudige door de gebruiker verstrekte tekstinstructie die de gewenste inhoud beschrijft, synthetiseert onze methode dynamische objecten of complexe scène-effecten die op natuurlijke wijze interacteren met de bestaande scène in de loop van de tijd. De positie, verschijning en beweging van de nieuwe inhoud worden naadloos geïntegreerd in de originele beelden, waarbij rekening wordt gehouden met camerabeweging, occlusies en interacties met andere dynamische objecten in de scène, resulterend in een samenhangende en realistische uitvoervideo. We bereiken dit via een zero-shot, training-vrij raamwerk dat gebruikmaakt van een vooraf getrainde tekst-naar-video diffusie transformer om de nieuwe inhoud te synthetiseren en een vooraf getraind Vision Language Model om de verrijkte scène gedetailleerd voor te stellen. Specifiek introduceren we een nieuwe op inferentie gebaseerde methode die kenmerken binnen het aandachtsmechanisme manipuleert, waardoor nauwkeurige lokaliseren en naadloze integratie van de nieuwe inhoud mogelijk is terwijl de integriteit van de originele scène behouden blijft. Onze methode is volledig geautomatiseerd en vereist slechts een eenvoudige gebruikersinstructie. We tonen de effectiviteit ervan aan op een breed scala van bewerkingen toegepast op real-world video's, met diverse objecten en scenario's die zowel camerabeweging als objectbeweging omvatten.
Recente ontwikkelingen in op tekst gebaseerde grote taalmodellen (LLM's), met name in de GPT-serie en het o1-model, hebben de effectiviteit aangetoond van het schalen van zowel trainings- als inferentie-tijd berekeningen. Echter, huidige state-of-the-art TTS-systemen die gebruikmaken van LLM's zijn vaak meertraps, waarbij aparte modellen nodig zijn (bijv. diffusiemodellen na LLM), wat de beslissing bemoeilijkt of een bepaald model moet worden geschaald tijdens training of testen. Dit werk levert de volgende bijdragen: Ten eerste onderzoeken we het schalen van trainings- en inferentie-tijd berekeningen voor spraaksynthese. Ten tweede stellen we een eenvoudig raamwerk Llasa voor spraaksynthese voor dat een enkelvoudige vectorquantizer (VQ) codec en een enkele Transformer-architectuur gebruikt om volledig aan te sluiten bij standaard LLM's zoals Llama. Onze experimenten tonen aan dat het schalen van trainingsberekeningen voor Llasa consequent de natuurlijkheid van gesynthetiseerde spraak verbetert en het genereren van complexere en nauwkeurigere prosodiepatronen mogelijk maakt. Bovendien, vanuit het perspectief van het schalen van inferentie-tijd berekeningen, gebruiken we spraakbegrijpingsmodellen als verificatoren tijdens de zoektocht, waarbij we constateren dat het schalen van inferentie-tijd berekeningen de bemonsteringsmodi verschuift naar de voorkeuren van specifieke verificatoren, waardoor de emotionele expressiviteit, timbreconsistentie en inhoudsnauwkeurigheid worden verbeterd. Daarnaast hebben we de checkpoint en trainingscode voor ons TTS-model (1B, 3B, 8B) en codec-model openbaar beschikbaar gesteld.
Het volgen van instructies heeft moderne grote taalmodellen (LLM's) nuttige assistenten gemaakt. Echter, de sleutel tot het temmen van LLM's op complexe instructies blijft mysterieus, omdat er grote verschillen zijn tussen modellen die zijn getraind door de open-source gemeenschap en die welke zijn getraind door toonaangevende bedrijven. Om de kloof te overbruggen, stellen wij een eenvoudige en schaalbare aanpak voor genaamd UltraIF voor het bouwen van LLM's die complexe instructies kunnen volgen met open-source gegevens. UltraIF decomposeert eerst gebruikersopdrachten uit de echte wereld in eenvoudigere vragen, beperkingen en bijbehorende evaluatievragen voor de beperkingen. Vervolgens trainen we een UltraComposer om beperking-geassocieerde opdrachten te componeren met evaluatievragen. Deze opdrachtcomponist stelt ons in staat om ingewikkelde instructies te synthetiseren en antwoorden te filteren met evaluatievragen. In ons experiment hebben we voor het eerst met succes LLaMA-3.1-8B-Base afgestemd op zijn instructieversie op 5 instructie-volg benchmarks zonder enige benchmarkinformatie, enkel gebruikmakend van het 8B-model als responsgenerator en evaluator. Het afgestemde model behaalde ook concurrerende scores op andere benchmarks. Bovendien tonen we aan dat UltraIF LLaMA-3.1-8B-Instruct verder kon verbeteren door zelfafstemming, wat bredere toepassingsmogelijkheden voor de methode motiveert. Onze code zal beschikbaar zijn op https://github.com/kkk-an/UltraIF.
Grote taalmodellen (LLM's), zoals o1 van OpenAI, hebben opmerkelijke redeneervermogens aangetoond. o1 genereert een lange keten-van-denken (LongCoT) voordat het een vraag beantwoordt. LongCoT stelt LLM's in staat om problemen te analyseren, plannen te bedenken, te reflecteren en effectief terug te gaan. Deze acties stellen LLM's in staat om complexe problemen op te lossen. Na de release van o1 hebben veel teams geprobeerd om zijn LongCoT en redeneervermogens te repliceren. Wat betreft methoden vertrouwen ze voornamelijk op kennisdestillatie met gegevens van bestaande modellen met LongCoT-capaciteiten (bijv. OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), wat aanzienlijke onzekerheden met zich meebrengt bij het systematisch ontwikkelen van dergelijke redeneervermogens. Wat betreft datadomeinen richten deze werken zich voornamelijk op wiskunde, terwijl enkelen ook codering omvatten, waardoor hun generaliseerbaarheid beperkt is. Dit artikel introduceert een nieuwe benadering om de LongCoT-capaciteit van LLM's mogelijk te maken zonder destillatie van o1-achtige modellen of dure menselijke annotaties, waarbij we LongCoT (BOLT) bootstrappen vanuit een standaardinstructiemodel. BOLT omvat drie fasen: 1) Bootstrappen van LongCoT-gegevens met in-context leren op een standaardinstructiemodel; 2) Onder toezicht finetunen van LongCoT; 3) Online training om de LongCoT-capaciteiten verder te verfijnen. Bij BOLT hoeven slechts een paar in-context voorbeelden te worden gemaakt tijdens de bootstrappingfase; in onze experimenten hebben we 10 voorbeelden gecreëerd, waarbij we de haalbaarheid van deze benadering hebben aangetoond. We gebruiken Llama-3.1-70B-Instruct om LongCoT te bootstrappen en passen onze methode toe op verschillende modelgroottes (7B, 8B, 70B). We behalen indrukwekkende prestaties op verschillende benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, die diverse taakoplossings- en redeneervermogens evalueren.
Het doel van diffusie generatieve modellen is om de geleerde verdeling af te stemmen op de werkelijke gegevensverdeling door middel van gradient score matching. Echter, inherente beperkingen in de kwaliteit van trainingsgegevens, modelleringsstrategieën en architectonisch ontwerp leiden tot een onvermijdelijke kloof tussen gegenereerde resultaten en echte gegevens. Om deze kloof te verkleinen, stellen we Weak-to-Strong Diffusion (W2SD) voor, een nieuw raamwerk dat gebruikmaakt van het geschatte verschil tussen bestaande zwakke en sterke modellen (d.w.z. zwak-naar-sterk verschil) om de kloof tussen een ideaal model en een sterk model te benaderen. Door het gebruik van een reflectieve operatie die afwisselt tussen denoising en inversie met zwak-naar-sterk verschil, begrijpen we theoretisch dat W2SD latente variabelen langs bemonsteringstrajecten stuurt naar regio's van de werkelijke gegevensverdeling. W2SD is zeer flexibel en breed toepasbaar, waardoor diverse verbeteringen mogelijk zijn door de strategische selectie van zwak-naar-sterk modelparen (bijv. DreamShaper vs. SD1.5, goede experts vs. slechte experts in MoE). Uitgebreide experimenten tonen aan dat W2SD aanzienlijke verbeteringen oplevert in menselijke voorkeur, esthetische kwaliteit en prompt naleving, met SOTA-prestaties op verschillende modaliteiten (bijv. afbeelding, video), architecturen (bijv. op UNet gebaseerd, DiT-gebaseerd, MoE) en benchmarks. Bijvoorbeeld kan Juggernaut-XL met W2SD de winst van HPSv2 tot 90% verbeteren ten opzichte van de oorspronkelijke resultaten. Bovendien wegen de prestatiewinsten die met W2SD worden behaald aanzienlijk op tegen de extra rekenkundige overhead, terwijl de cumulatieve verbeteringen van verschillende zwak-naar-sterk verschillen de praktische bruikbaarheid en implementeerbaarheid verder versterken.
Ondanks de opmerkelijke capaciteiten van grote taalmodellen bij verschillende taken, staat hun voortdurende schaalvergroting voor een kritieke uitdaging: het gebrek aan hoogwaardige pretraining data. Terwijl modelarchitecturen blijven evolueren, worstelt de natuurlijke taaldata om op te schalen. Om dit knelpunt aan te pakken, stellen we de MAssive Genre-Audience (MAGA) hervormingsmethode voor, die systematisch diverse, contextueel rijke pretraining data synthetiseert uit bestaande corpora. Dit werk levert drie belangrijke bijdragen: (1) We stellen de MAGA hervormingsmethode voor, een lichtgewicht en schaalbare benadering voor de uitbreiding van pretraining corpora, en bouwen een 770 miljard tokens MAGACorpus. (2) We evalueren MAGACorpus met verschillende schalingsstrategieën voor databudget, waarbij consistente verbeteringen worden aangetoond bij verschillende modelgroottes (134M-13B), waarmee de noodzaak voor grootschalige synthetische pretraining taalmodellen van de volgende generatie wordt vastgesteld. (3) Door uitgebreide analyse onderzoeken we de impact van prompt engineering op het ineenstorten van synthetische training en onthullen we beperkingen in conventionele detectiemetrieken voor ineenstorting door het gebruik van validatieverliezen. Ons werk toont aan dat MAGA training datasets aanzienlijk kan uitbreiden met behoud van kwaliteit, en zo een betrouwbare weg biedt voor het schalen van modellen voorbij de beperkingen van data.
Recent onderzoek heeft grote taalmodel multi-agent systemen ingezet voor complex probleemoplossing, terwijl geprobeerd wordt de handmatige inspanning die nodig is om ze te bouwen te verminderen, wat de ontwikkeling van geautomatiseerde agent workflow optimalisatiemethoden stimuleert. Bestaande methoden blijven echter inflexibel vanwege representatiebeperkingen, een gebrek aan aanpasbaarheid en slechte schaalbaarheid bij het vertrouwen op discrete optimalisatietechnieken. We pakken deze uitdagingen aan met ScoreFlow, een eenvoudig maar hoogwaardig framework dat efficiënte op gradienten gebaseerde optimalisatie in een continue ruimte benut. ScoreFlow omvat Score-DPO, een nieuwe variant van de directe voorkeurs optimalisatiemethode die rekening houdt met kwantitatieve feedback. Over zes benchmarks die vraagbeantwoording, codering en wiskundig redeneren omvatten, behaalt ScoreFlow een verbetering van 8,2% ten opzichte van bestaande baselines. Bovendien stelt het kleinere modellen in staat om grotere modellen te overtreffen met lagere inferentiekosten. Project: https://github.com/Gen-Verse/ScoreFlow
Dit artikel presenteert een methode waarmee gebruikers cinematografische videoshots kunnen ontwerpen in de context van beeld-naar-video generatie. Shotontwerp, een cruciaal aspect van filmmaken, omvat het zorgvuldig plannen van zowel camerabewegingen als objectbewegingen in een scène. Het mogelijk maken van intuïtief shotontwerp in moderne beeld-naar-video generatiesystemen brengt echter twee belangrijke uitdagingen met zich mee: ten eerste, het effectief vastleggen van de gebruikersintenties op het bewegingsontwerp, waarbij zowel camerabewegingen als objectbewegingen in de scène gezamenlijk moeten worden gespecificeerd; en ten tweede, het representeren van bewegingsinformatie die effectief kan worden gebruikt door een video diffusie model om de beeldanimaties te synthetiseren. Om deze uitdagingen aan te pakken, introduceren we MotionCanvas, een methode die door gebruikers gestuurde controles integreert in beeld-naar-video (I2V) generatiemodellen, waardoor gebruikers zowel object- als camerabewegingen op een scène-bewuste manier kunnen regelen. Door inzichten uit de klassieke computergraphics en hedendaagse videogeneratietechnieken te combineren, tonen we de mogelijkheid om 3D-bewuste bewegingscontrole te bereiken in I2V synthese zonder dat er kostbare 3D-gerelateerde trainingsgegevens nodig zijn. MotionCanvas stelt gebruikers in staat om intuïtief scène-ruimte bewegingsintenties weer te geven en vertaalt deze naar ruimtelijk-temporele bewegingsconditioneringssignalen voor video diffusiemodellen. We tonen de effectiviteit van onze methode aan op een breed scala aan echte beeldinhoud en shot-ontwerpscenario's, waarbij we de potentie benadrukken om de creatieve workflows in digitale contentcreatie te verbeteren en aan te passen aan verschillende beeld- en video-bewerkingsapplicaties.
Het genereren en bewerken van menselijke bewegingen zijn essentiële onderdelen van computergraphics en visie. Echter, de huidige benaderingen in dit vakgebied neigen geïsoleerde oplossingen te bieden die zijn afgestemd op specifieke taken, wat inefficiënt en onpraktisch kan zijn voor praktische toepassingen. Hoewel sommige inspanningen gericht zijn op het verenigen van bewegingsgerelateerde taken, maken deze methoden eenvoudigweg gebruik van verschillende modaliteiten als voorwaarden om bewegingsgeneratie te sturen. Als gevolg hiervan ontbreken bewerkingsmogelijkheden, fijnmazige controle en falen ze in het vergemakkelijken van kennisdeling tussen taken. Om deze beperkingen aan te pakken en een veelzijdig, verenigd kader te bieden dat zowel het genereren als bewerken van menselijke bewegingen aankan, introduceren we een nieuw paradigma: Motion-Condition-Motion, dat de verenigde formulering van diverse taken mogelijk maakt met drie concepten: bronbeweging, voorwaarde en doelbeweging. Op basis van dit paradigma stellen we een verenigd kader voor, MotionLab, dat gecorrigeerde stromen incorporeert om de mapping van bronbeweging naar doelbeweging te leren, geleid door de gespecificeerde voorwaarden. In MotionLab introduceren we de 1) MotionFlow Transformer om conditionele generatie en bewerking te verbeteren zonder taakspecifieke modules; 2) Aligned Rotational Position Encoding om de tijdsynchronisatie tussen bronbeweging en doelbeweging te garanderen; 3) Taakspecifieke Instructie Modulatie; en 4) Motion Curriculum Learning voor effectief multi-task leren en kennisdeling tussen taken. Opmerkelijk is dat ons MotionLab veelbelovende generalisatiecapaciteiten en inferentie-efficiëntie aantoont over meerdere benchmarks voor menselijke bewegingen. Onze code en aanvullende videorresultaten zijn beschikbaar op: https://diouo.github.io/motionlab.github.io/.
Grote Taalmodellen (LLM's) hebben aanzienlijke capaciteiten getoond bij verschillende taken, waarbij hun effectiviteit in de praktijk vaak wordt bepaald door de vormgeving van de instructie. Terwijl recent onderzoek zich heeft gericht op het optimaliseren van de inhoud van de instructie, heeft de rol van de vormgeving van de instructie, een kritische maar vaak over het hoofd geziene dimensie, beperkte systematische aandacht gekregen. In dit artikel introduceren we Content-Format Geïntegreerde Instructieoptimalisatie (CFPO), een innovatieve methodologie die zowel de inhoud als de vormgeving van de instructie gezamenlijk optimaliseert door middel van een iteratief verfijningsproces. CFPO maakt gebruik van natuurlijke taalmutaties om inhoudsvariaties te verkennen en past een dynamische vormverkenningstrategie toe die diverse vormopties systematisch evalueert. Onze uitgebreide evaluaties over meerdere taken en open-source LLM's tonen aan dat CFPO meetbare prestatieverbeteringen laat zien in vergelijking met methoden die alleen de inhoud optimaliseren. Dit benadrukt het belang van geïntegreerde inhoud-vorm optimalisatie en biedt een praktische, model-agnostische benadering om de prestaties van LLM's te verbeteren. De code zal beschikbaar zijn op https://github.com/HenryLau7/CFPO.
Nu grote taalmodellen steeds meer echte toepassingen aansturen, wordt het van cruciaal belang om ze af te stemmen op menselijke waarden. Versterkend Leren van Menselijke Feedback (RLHF) is naar voren gekomen als een belangrijke techniek, waarbij voorkeursgegevens worden omgezet in beloningsmodellen wanneer de menselijke waarden van het orakel niet toegankelijk zijn. In de praktijk vertrouwt RLHF voornamelijk op benaderende beloningsmodellen, die de beleidslijn mogelijk niet consequent sturen naar het maximaliseren van de onderliggende menselijke waarden. Wij stellen Policy-Interpolated Learning for Aligned Feedback (PILAF) voor, een nieuwe responssteekproefstrategie voor voorkeurslabeling die de voorkeurslering expliciet afstemt op het maximaliseren van de onderliggende orakelbeloning. PILAF is theoretisch gefundeerd en toont optimaliteit vanuit zowel een optimalisatie- als een statistisch perspectief. De methode is eenvoudig te implementeren en vertoont sterke prestaties in iteratieve en online RLHF-instellingen waar feedbackcuratie cruciaal is.
We presenteren een nieuw kader voor videogeneratie dat 3-dimensionale geometrie en dynamisch bewustzijn integreert. Om dit te bereiken, verrijken we 2D-video's met 3D-punttrajecten en alignen ze in pixelruimte. Het resulterende 3D-bewuste videodataset, PointVid, wordt vervolgens gebruikt om een latent diffusiemodel fijn af te stemmen, waardoor het in staat is om 2D-objecten te volgen met 3D-Cartesische coördinaten. Voortbouwend hierop reguleren we de vorm en beweging van objecten in de video om ongewenste artefacten te elimineren, zoals niet-fysieke vervorming. Als gevolg hiervan verbeteren we de kwaliteit van gegenereerde RGB-video's en verminderen we veelvoorkomende problemen zoals objectvervorming, die veel voorkomen in huidige videomodellen vanwege een gebrek aan vormbewustzijn. Met onze 3D-verrijking en regulering is ons model in staat om contactrijke scenario's zoals taakgerichte video's aan te pakken. Deze video's omvatten complexe interacties van vaste stoffen, waarbij 3D-informatie essentieel is voor het waarnemen van vervorming en contact. Bovendien verbetert ons model de algehele kwaliteit van videogeneratie door de 3D-consistentie van bewegende objecten te bevorderen en abrupte veranderingen in vorm en beweging te verminderen.
Grote Taalmodellen (LLM's) kunnen complexe vraag-antwoordtaken uitvoeren, maar genereren vaak ongeverifieerde gehallucineerde antwoorden. Bestaande methoden voor antwoordtoewijzing hebben moeite om antwoorden te verankeren in brondiagrammen vanwege beperkte visueel-semantische context, complexe visueel-tekstuele uitlijningsvereisten en moeilijkheden bij het voorspellen van begrenzingskaders over complexe lay-outs. We presenteren ChartCitor, een multi-agent framework dat gedetailleerde begrenzingskadercitaten biedt door ondersteunend bewijs te identificeren binnen diagramafbeeldingen. Het systeem coördineert LLM-agenten om diagram-naar-tabel extractie, antwoordherformulering, tabeluitbreiding, bewijsopvraging via voorfiltering en opnieuw rangschikken, en tabel-naar-diagram mapping uit te voeren. ChartCitor presteert beter dan bestaande baselines over verschillende diagramtypen. Kwalitatieve gebruikersstudies tonen aan dat ChartCitor helpt het vertrouwen van gebruikers in Generatieve AI te vergroten door verbeterde verklaringsmogelijkheden te bieden voor LLM-ondersteunde diagram QA en professionals in staat stelt productiever te zijn.
Wij stellen Heterogene Gemaskeerde Autoregressie (HMA) voor om de dynamiek van actievideo's te modelleren voor het genereren van hoogwaardige gegevens en evaluatie bij het schalen van robotleren. Het bouwen van interactieve videowereldmodellen en beleidslijnen voor robotica is moeilijk vanwege de uitdaging om diverse instellingen te hanteren terwijl de computationele efficiëntie behouden blijft om in realtime te draaien. HMA maakt gebruik van heterogene voorafgaande training van observaties en actiesequenties over verschillende robotachtige verschijningsvormen, domeinen en taken. HMA maakt gebruik van gemaskeerde autoregressie om gekwantiseerde of zachte tokens te genereren voor videovoorspellingen. HMA bereikt een betere visuele geloofwaardigheid en controleerbaarheid dan de vorige modellen voor het genereren van robotachtige video's, met een snelheid die 15 keer sneller is in de echte wereld. Na post-training kan dit model worden gebruikt als een videosimulator vanuit laag-niveau actie-invoer om beleidslijnen te evalueren en synthetische gegevens te genereren. Zie deze link https://liruiw.github.io/hma voor meer informatie.
Wetenschappelijke gegevensvisualisatie is essentieel voor het omzetten van ruwe data in begrijpelijke visuele representaties, waardoor patroonherkenning, voorspellingen en de presentatie van op data gebaseerde inzichten mogelijk worden. Echter, beginnende gebruikers ondervinden vaak moeilijkheden vanwege de complexiteit van het selecteren van geschikte tools en het beheersen van visualisatietechnieken. Grote Taalmodellen (GTM's) hebben onlangs potentieel aangetoond bij het assisteren bij codegeneratie, hoewel ze worstelen met nauwkeurigheid en iteratief debuggen. In dit artikel stellen we PlotGen voor, een nieuw multi-agent framework gericht op het automatiseren van de creatie van nauwkeurige wetenschappelijke visualisaties. PlotGen coördineert meerdere op GTM's gebaseerde agenten, waaronder een Query Planning Agent die complexe gebruikersverzoeken opsplitst in uitvoerbare stappen, een Code Generatie Agent die pseudocode omzet in uitvoerbare Python-code, en drie feedbackagenten voor terugkoppeling - een Numerieke Feedback Agent, een Lexicale Feedback Agent en een Visuele Feedback Agent - die multimodale GTM's benutten om iteratief de data-accuraatheid, tekstuele labels en visuele correctheid van gegenereerde plots te verfijnen via zelfreflectie. Uitgebreide experimenten tonen aan dat PlotGen sterke baselines overtreft, met een verbetering van 4-6 procent op de MatPlotBench dataset, wat leidt tot verbeterd vertrouwen van gebruikers in door GTM's gegenereerde visualisaties en verbeterde productiviteit van beginners door een vermindering van de benodigde debugtijd voor plotfouten.
De opkomst van Grote Taalmodellen (LLM's) heeft het vakgebied van geautomatiseerde codegeneratie aanzienlijk vooruit geholpen. LLM's vertrouwen op grote en diverse datasets om de syntaxis, semantiek en gebruikspatronen van programmeertalen te leren. Voor talen met beperkte bronnen (d.w.z. niche programmeertalen gekenmerkt door de schaarste aan trainingsgegevens) belemmert de beperkte beschikbaarheid van dergelijke gegevens het vermogen van de modellen om effectief te generaliseren, resulterend in een mindere prestatie van codegeneratie in vergelijking met talen met veel bronnen. Om deze reden is er een zoektocht naar technieken die in staat zijn om deze prestatiekloof te dichten. We presenteren een empirische studie die de effectiviteit onderzoekt van verschillende benaderingen om de prestaties van LLM's op talen met beperkte bronnen te verbeteren, namelijk: (i) een klassieke fine-tuning, die echter beperkt is in omvang door de schaarste aan trainingsgegevens; (ii) drie varianten van in-context leren, met prompts die zijn ontworpen om het LLM van aanvullende informatie te voorzien over de taal met beperkte bronnen (bijv. voorbeelden met weinig opnames die kenmerken van de doeltaal laten zien); en (iii) een pre-trainingsdoelstelling die het model leert hoe te vertalen tussen talen met veel en weinig bronnen. De context van onze studie zijn twee talen met beperkte bronnen (R en Racket) en zes LLM's met verschillende architecturen en groottes. Onze bevindingen tonen aan dat fine-tuning meestal de beste keuze is voor kleinere LLM's, mogelijk omdat zelfs een kleine dataset voldoende is om hun beperkte aantal parameters te trainen. Met de toename van de omvang van de modellen wordt in-context leren steeds effectiever, wat een veilige en goedkope gok vertegenwoordigt (d.w.z. het helpt altijd, maar met verschillende mate). Daarentegen kunnen zeer grote LLM's hun prestaties op talen met beperkte bronnen verslechteren wanneer fine-tuning wordt uitgevoerd, mogelijk door het gebrek aan voldoende gegevens die nodig zijn om hun gewichten effectief bij te werken.
Ondanks uitgebreide inspanningen op het gebied van veiligheidsafstemming blijven grote taalmodellen (LLM's) kwetsbaar voor jailbreak-aanvallen die schadelijk gedrag uitlokken. Terwijl bestaande studies voornamelijk gericht zijn op aanvalsmethoden die technische expertise vereisen, blijven twee cruciale vragen onderbelicht: (1) Zijn jailbreak-reacties daadwerkelijk nuttig om gemiddelde gebruikers in staat te stellen schadelijke acties uit te voeren? (2) Bestaan er veiligheidskwetsbaarheden in meer gangbare, eenvoudige mens-LLM-interacties? In dit artikel tonen we aan dat LLM-reacties het meest effectief schadelijke acties faciliteren wanneer ze zowel uitvoerbaar als informatief zijn - twee eigenschappen die gemakkelijk kunnen worden uitgelokt in meerstaps, meertalige interacties. Met behulp van deze inzichten stellen we HarmScore voor, een jailbreak-metriek die meet hoe effectief een LLM-reactie schadelijke acties mogelijk maakt, en Speak Easy, een eenvoudig meerstaps, meertalig aanvalskader. Opmerkelijk is dat door Speak Easy op te nemen in directe verzoeken en jailbreak-baselines, we een gemiddelde absolute toename zien van 0.319 in Aanvalssuccespercentage en 0.426 in HarmScore in zowel open-source als eigendoms-LLM's over vier veiligheidsbenchmarks. Ons werk onthult een kritieke maar vaak over het hoofd geziene kwetsbaarheid: kwaadwillende gebruikers kunnen gemakkelijk gangbare interactiepatronen exploiteren voor schadelijke bedoelingen.