Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We onderzoeken een evolutionaire zoekstrategie voor het schalen van de rekentijd voor inferentie in Grote Taalmodellen. De voorgestelde aanpak, Mind Evolution, maakt gebruik van een taalmodel om kandidaatreacties te genereren, recombineren en verfijnen. De voorgestelde aanpak vermijdt de noodzaak om het onderliggende inferentieprobleem te formaliseren wanneer een oplossingsevaluator beschikbaar is. Door te controleren op inferentiekosten, vinden we dat Mind Evolution aanzienlijk beter presteert dan andere inferentiestrategieën zoals Best-of-N en Sequentiële Revisie bij natuurlijke taalplanningstaken. In de benchmarks TravelPlanner en Natural Plan lost Mind Evolution meer dan 98% van de probleemgevallen op met behulp van Gemini 1.5 Pro zonder een formele oplosser te gebruiken.
We introduceren PaSa, een geavanceerde Paper Search-agent aangedreven door grote taalmodellen. PaSa kan autonoom een reeks beslissingen nemen, waaronder het oproepen van zoekhulpmiddelen, het lezen van papers en het selecteren van relevante referenties, om uiteindelijk uitgebreide en nauwkeurige resultaten te verkrijgen voor complexe wetenschappelijke vragen. We optimaliseren PaSa met behulp van reinforcement learning met een synthetische dataset, AutoScholarQuery, die 35k fijnmazige academische vragen en bijbehorende papers bevat afkomstig van toptijdschriftpublicaties over kunstmatige intelligentie. Daarnaast ontwikkelen we RealScholarQuery, een benchmark die echte academische vragen verzamelt om de prestaties van PaSa in realistischere scenario's te beoordelen. Ondanks dat PaSa is getraind op synthetische gegevens, presteert het aanzienlijk beter dan bestaande baselines op RealScholarQuery, waaronder Google, Google Scholar, Google met GPT-4 voor geherformuleerde vragen, chatGPT (zoekmogelijkheden ingeschakeld GPT-4o), GPT-o1, en PaSa-GPT-4o (PaSa geïmplementeerd door GPT-4o te activeren). Opmerkelijk genoeg overtreft PaSa-7B de beste op Google gebaseerde baseline, Google met GPT-4o, met 37.78% in recall@20 en 39.90% in recall@50. Het overtreft ook PaSa-GPT-4o met 30.36% in recall en 4.25% in precisie. Het model, de datasets en de code zijn beschikbaar op https://github.com/bytedance/pasa.
Een van de meest gebruikte methoden om LLM's te evalueren zijn Meerkeuzevragen (MCV) tests. MCV-benchmarks maken het mogelijk om op grote schaal de kennis van LLM's over bijna elk onderwerp te testen, aangezien de resultaten automatisch verwerkt kunnen worden. Om de LLM te helpen bij het beantwoorden, kunnen enkele voorbeelden genaamd 'few shots' in de opdracht worden opgenomen. Bovendien kan de LLM worden gevraagd om de vraag direct te beantwoorden met de geselecteerde optie of eerst de redenering te geven en vervolgens het geselecteerde antwoord, wat bekend staat als 'chain of thought'. Naast het controleren of het geselecteerde antwoord juist is, kan de evaluatie kijken naar de door de LLM geschatte waarschijnlijkheid van zijn reactie als een indicatie van het vertrouwen van de LLM in het antwoord. In dit artikel bestuderen we hoe het vertrouwen van de LLM in zijn antwoord afhangt van of het model is gevraagd om direct te antwoorden of eerst de redenering te geven voordat het antwoordt. De resultaten van de evaluatie van vragen over een breed scala aan onderwerpen in zeven verschillende modellen tonen aan dat LLM's meer vertrouwen hebben in hun antwoorden wanneer ze eerst de redenering geven voordat ze antwoorden. Dit gebeurt ongeacht of het geselecteerde antwoord juist is. Onze hypothese is dat dit gedrag te wijten is aan de redenering die de waarschijnlijkheid van het geselecteerde antwoord wijzigt, aangezien de LLM het antwoord voorspelt op basis van de inputvraag en de redenering die de gemaakte selectie ondersteunt. Daarom lijken de geschatte waarschijnlijkheden van LLM's intrinsieke beperkingen te hebben die moeten worden begrepen om ze te gebruiken in evaluatieprocedures. Interessant genoeg is hetzelfde gedrag waargenomen bij mensen, voor wie het uitleggen van een antwoord het vertrouwen in de juistheid ervan vergroot.
De 2D-cartoonstijl is een prominente kunstvorm in de digitale personagecreatie, vooral populair bij jongere doelgroepen. Terwijl vooruitgang in digitale mensentechnologie uitgebreid onderzoek heeft aangewakkerd naar fotorealistische digitale mensen en 3D-personages, hebben interactieve 2D-cartoonpersonages relatief minder aandacht gekregen. In tegenstelling tot 3D-tegenhangers, die geavanceerde constructie en resource-intensieve rendering vereisen, biedt Live2D, een veelgebruikt formaat voor 2D-cartoonpersonages, een efficiënter alternatief, waarmee 2D-personages geanimeerd kunnen worden op een manier die 3D-beweging simuleert zonder de noodzaak van het bouwen van een volledig 3D-model. Bovendien maakt Live2D gebruik van lichtgewicht HTML5 (H5) rendering, waardoor zowel de toegankelijkheid als de efficiëntie verbeterd worden. In dit technisch rapport introduceren we Textoon, een innovatieve methode voor het genereren van diverse 2D-cartoonpersonages in het Live2D-formaat op basis van tekstbeschrijvingen. De Textoon maakt gebruik van geavanceerde taal- en visiemodellen om tekstuele bedoelingen te begrijpen en 2D-uitingen te genereren, die in staat zijn om binnen één minuut een breed scala aan verbluffende en interactieve 2D-personages te creëren. De projecthomepage is https://human3daigc.github.io/Textoon_webpage/.
Het verbeteren van grote taalmodellen (LLM's) met real-time API's kan helpen bij het genereren van nauwkeurigere en actuelere antwoorden. Het evalueren van de functie-oproepmogelijkheden van LLM's in real-world scenario's blijft echter onderbelicht vanwege de complexiteit van gegevensverzameling en evaluatie. In dit werk introduceren we ComplexFuncBench, een benchmark voor complexe functie-oproepen in vijf real-world scenario's. In vergelijking met bestaande benchmarks omvat ComplexFuncBench multi-step en beperkte functie-oproepen, die lang-parameter invulling, redenering over parameterwaarden en een context van 128k lang vereisen. Daarnaast stellen we een automatisch framework voor, ComplexEval, voor het kwantitatief evalueren van complexe functie-oproep taken. Door uitgebreide experimenten tonen we de tekortkomingen van state-of-the-art LLM's in functie-oproepen aan en suggereren we toekomstige richtingen voor het optimaliseren van deze mogelijkheden. De gegevens en code zijn beschikbaar op https://github.com/THUDM/ComplexFuncBench.
We introduceren X-Dyna, een innovatieve zero-shot, diffusie-gebaseerde pipeline voor het animeren van een enkele afbeelding van een mens met behulp van gezichtsuitdrukkingen en lichaamsbewegingen afgeleid van een sturende video, die realistische, contextbewuste dynamiek genereert voor zowel het onderwerp als de omgeving eromheen. Voortbouwend op eerdere benaderingen gericht op menselijke posebesturing, adresseert X-Dyna belangrijke tekortkomingen die leiden tot het verlies van dynamische details, en verbetert daarmee de levensechte kwaliteiten van menselijke video-animaties. Centraal in onze benadering staat de Dynamics-Adapter, een lichtgewicht module die referentie-uitelijk context effectief integreert in de ruimtelijke aandacht van de diffusie-backbone, terwijl de capaciteit van bewegingsmodules behouden blijft om vloeiende en complexe dynamische details te synthetiseren. Naast lichaamshoudingbesturing verbinden we een lokaal besturingsmodule met ons model om identiteit-ontwarde gezichtsuitdrukkingen vast te leggen, wat nauwkeurige overdracht van expressie mogelijk maakt voor verbeterde realisme in geanimeerde scènes. Samen vormen deze componenten een verenigd raamwerk dat in staat is fysieke menselijke beweging en natuurlijke scènedynamiek te leren van een diverse mix van menselijke en scènevideo's. Uitgebreide kwalitatieve en kwantitatieve evaluaties tonen aan dat X-Dyna beter presteert dan state-of-the-art methoden, en zeer levensechte en expressieve animaties creëert. De code is beschikbaar op https://github.com/bytedance/X-Dyna.
Deze paper onderzoekt de uitdagingen bij het ontwikkelen van grote taalmodellen (TMs) die bedreven zijn in zowel multilinguaal begrip als medische kennis. We tonen aan dat het eenvoudigweg vertalen van medische gegevens geen sterke prestaties op klinische taken in de doeltaal garandeert. Onze experimenten onthullen dat de optimale taalmix in trainingsgegevens aanzienlijk varieert tussen verschillende medische taken. We ontdekken dat grotere modellen met zorgvuldig gekalibreerde taalverhoudingen superieure prestaties behalen op klinische taken in de moedertaal. Bovendien suggereren onze resultaten dat uitsluitend vertrouwen op fine-tuning mogelijk niet de meest effectieve benadering is voor het opnemen van nieuwe taalkennis in TMs. In plaats daarvan zijn data- en rekenintensieve pretrainingmethoden mogelijk nog steeds noodzakelijk om optimale prestaties te behalen in multilinguale medische omgevingen. Deze bevindingen bieden waardevolle richtlijnen voor het bouwen van effectieve en inclusieve medische AI-systemen voor diverse taalgemeenschappen.
De toepassing van generatieve tegenstandernetwerken (GAN's) heeft onlangs de spraak-superresolutie (SR) verbeterd op basis van tussenliggende representaties zoals mel-spectrogrammen. Bestaande SR-methoden die doorgaans afhankelijk zijn van onafhankelijk getrainde en geconcateneerde netwerken kunnen echter leiden tot inconsistente representaties en een slechte spraakkwaliteit, vooral in out-of-domain scenario's. In dit werk stellen we HiFi-SR voor, een verenigd netwerk dat end-to-end tegenstanderstraining benut om een hoogwaardige spraak-superresolutie te bereiken. Ons model bevat een verenigde transformer-convolutionele generator die is ontworpen om zowel de voorspelling van latente representaties als hun conversie naar tijddomeingolven naadloos te verwerken. Het transformer-netwerk fungeert als een krachtige encoder, die lage-resolutie mel-spectrogrammen omzet in latente ruimtereferenties, terwijl het convolutionele netwerk deze representaties opschalen naar hoogwaardige golven in het tijddomein. Om de hoge-frequentiegetrouwheid te verbeteren, nemen we een multi-band, multi-schaal tijd-frequentie discriminator op, samen met een multi-schaal mel-reconstructieverlies in het tegenstanderstrainingproces. HiFi-SR is veelzijdig en in staat om elk invoerspraaksignaal tussen 4 kHz en 32 kHz op te schalen naar een bemonsteringsfrequentie van 48 kHz. Experimentele resultaten tonen aan dat HiFi-SR aanzienlijk beter presteert dan bestaande spraak-SR-methoden op zowel objectieve metingen als ABX-voorkeurstests, zowel in in-domain als out-of-domain scenario's (https://github.com/modelscope/ClearerVoice-Studio).
We introduceren GaussianAvatar-Editor, een innovatief framework voor tekstgestuurde bewerking van animeerbare Gaussische hoofdavatars die volledig kunnen worden gecontroleerd in expressie, houding en gezichtspunt. In tegenstelling tot statische 3D Gaussische bewerking, brengt het bewerken van animeerbare 4D Gaussische avatars uitdagingen met zich mee met betrekking tot bewegingsocclusie en ruimtelijk-temporele inconsistentie. Om deze problemen aan te pakken, stellen we de Weighted Alpha Blending Equation (WABE) voor. Deze functie verbetert het menggewicht van zichtbare Gaussians terwijl het de invloed op niet-zichtbare Gaussians onderdrukt, waardoor bewegingsocclusie tijdens het bewerken effectief wordt afgehandeld. Bovendien, om de bewerkingskwaliteit te verbeteren en 4D consistentie te waarborgen, nemen we conditioneel adversariële training op in het bewerkingsproces. Deze strategie helpt om de bewerkte resultaten te verfijnen en consistentie gedurende de animatie te behouden. Door deze methoden te integreren, behaalt onze GaussianAvatar-Editor fotorealistische en consistente resultaten in animeerbare 4D Gaussische bewerking. We voeren uitgebreide experimenten uit over verschillende onderwerpen om de effectiviteit van onze voorgestelde technieken te valideren, wat de superioriteit van onze aanpak ten opzichte van bestaande methoden aantoont. Meer resultaten en code zijn beschikbaar op: [Project Link](https://xiangyueliu.github.io/GaussianAvatar-Editor/).