Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in generatieve modellering maken nu de creatie van 4D-inhoud (bewegende 3D-objecten) mogelijk die wordt aangestuurd met tekstprompts. 4D-generatie heeft veel potentieel in toepassingen zoals virtuele werelden, media en gaming, maar bestaande methoden bieden beperkte controle over het uiterlijk en de geometrie van gegenereerde inhoud. In dit werk introduceren we een methode voor het animeren van door de gebruiker verstrekte 3D-objecten door te conditioneren op tekstuele prompts om 4D-generatie te begeleiden, waardoor aangepaste animaties mogelijk zijn terwijl de identiteit van het oorspronkelijke object behouden blijft. We zetten eerst een 3D-mesh om in een "statische" 4D Neural Radiance Field (NeRF) die de visuele kenmerken van het invoerobject behoudt. Vervolgens animeren we het object met behulp van een Image-to-Video-diffusiemodel aangestuurd door tekst. Om de bewegingsrealiteit te verbeteren, introduceren we een incrementeel gezichtspuntselectieprotocol voor het monsteren van perspectieven om levensechte beweging te bevorderen, en een gemaskerd Score Distillation Sampling (SDS) verlies, dat aandachtskaarten benut om optimalisatie te richten op relevante regio's. We evalueren ons model op het gebied van temporele coherentie, naleving van prompts en visuele getrouwheid en constateren dat onze methode beter presteert dan baselines die zijn gebaseerd op andere benaderingen, met tot wel drievoudige verbeteringen in identiteitsbehoud gemeten met LPIPS-scores, en effectief balanceren van visuele kwaliteit met dynamische inhoud.
De opmerkelijke prestaties van modellen zoals de OpenAI o1 kunnen worden toegeschreven aan hun vermogen om mensachtig langdurig denken na te bootsen tijdens inferentie. Deze modellen maken gebruik van uitgebreide ketens-van-denkprocessen (CoT), waarbij meerdere strategieën worden verkend om de probleemoplossende capaciteiten te verbeteren. Een cruciale vraag blijft echter: Hoe kunnen computationele middelen tijdens testen intelligent en efficiënt worden geschaald. Dit artikel presenteert de eerste uitgebreide studie over het veelvoorkomende probleem van overmatig nadenken in deze modellen, waarbij overmatige computationele middelen worden toegewezen voor eenvoudige problemen met minimale voordelen. We introduceren nieuwe efficiëntiemetingen van zowel uitkomst- als procesperspectieven om het rationele gebruik van computationele middelen door o1-achtige modellen te evalueren. Met behulp van een zelf-trainingsparadigma stellen we strategieën voor om overmatig nadenken te verminderen, waarbij redeneerprocessen worden gestroomlijnd zonder de nauwkeurigheid in gevaar te brengen. Experimentele resultaten tonen aan dat onze aanpak met succes de computationele overhead vermindert, terwijl de modelprestaties behouden blijven over een reeks testsets met variërende moeilijkheidsgraden, zoals GSM8K, MATH500, GPQA en AIME.
We introduceren TangoFlux, een efficiënt Tekst-naar-Audio (TNA) generatief model met 515 miljoen parameters, in staat om tot 30 seconden 44,1 kHz audio te genereren in slechts 3,7 seconden op een enkele A40 GPU. Een belangrijke uitdaging bij het afstemmen van TNA-modellen ligt in de moeilijkheid om voorkeursparen te creëren, aangezien TNA geen gestructureerde mechanismen heeft zoals controleerbare beloningen of goudstandaard antwoorden die beschikbaar zijn voor Grote Taalmodellen (GTM's). Om dit aan te pakken, stellen we CLAP-Gerangschikte VoorkeursOptimalisatie (CRVO) voor, een nieuw raamwerk dat iteratief voorkeursgegevens genereert en optimaliseert om de afstemming van TNA te verbeteren. We tonen aan dat de audiopreferentiedataset die is gegenereerd met CRVO beter presteert dan bestaande alternatieven. Met dit raamwerk behaalt TangoFlux state-of-the-art prestaties op zowel objectieve als subjectieve benchmarks. We stellen alle code en modellen open source om verder onderzoek naar TNA-generatie te ondersteunen.
Wij presenteren SWE-Gym, de eerste omgeving voor het trainen van software engineering (SWE) agenten in de echte wereld. SWE-Gym bevat 2.438 real-world Python taakvoorbeelden, elk bestaande uit een codebase met een uitvoerbaar runtime-omgeving, unit tests, en een taak gespecificeerd in natuurlijke taal. We gebruiken SWE-Gym om op taalmodel gebaseerde SWE agenten te trainen, waarbij we tot 19% absolute winst behalen in oplossingssnelheid op de populaire SWE-Bench Verified en Lite testsets. We experimenteren ook met schaalvergroting op inferentietijd door verifiers te trainen op agenttrajecten afkomstig van SWE-Gym. Wanneer gecombineerd met onze fijn afgestemde SWE agenten, behalen we respectievelijk 32,0% en 26,0% op SWE-Bench Verified en Lite, wat een nieuwe state-of-the-art weerspiegelt voor open-weight SWE agenten. Om verder onderzoek te vergemakkelijken, stellen we SWE-Gym, modellen en agenttrajecten openbaar beschikbaar.