Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Bielik v3, een reeks parameter-efficiënte generatieve tekstmodellen (1,5B en 4,5B) die zijn geoptimaliseerd voor de verwerking van de Poolse taal. Deze modellen laten zien dat kleinere, goed geoptimaliseerde architecturen prestaties kunnen bereiken die vergelijkbaar zijn met veel grotere tegenhangers, terwijl ze aanzienlijk minder rekenbronnen vereisen. Onze aanpak omvat verschillende belangrijke innovaties: een aangepaste Poolse tokenizer (APT4) die de token-efficiëntie aanzienlijk verbetert, Weighted Instruction Cross-Entropy Loss om het leren over verschillende instructietypen in balans te brengen, en een Adaptieve Leersnelheid die dynamisch wordt aangepast op basis van de trainingsvoortgang. Getraind op een zorgvuldig samengesteld corpus van 292 miljard tokens uit 303 miljoen documenten, presteren deze modellen uitstekend op meerdere benchmarks, waaronder de Open PL LLM Leaderboard, het Complex Polish Text Understanding Benchmark, de Poolse EQ-Bench en de Poolse Medical Leaderboard. Het 4,5B-parametermodel behaalt resultaten die concurrerend zijn met modellen die 2-3 keer zo groot zijn, terwijl het 1,5B-model sterke prestaties levert ondanks zijn extreem compacte profiel. Deze vooruitgang stelt nieuwe benchmarks voor parameter-efficiënte taalmodellering in minder vertegenwoordigde talen, waardoor hoogwaardige AI voor de Poolse taal toegankelijker wordt voor toepassingen met beperkte middelen.
We presenteren Bielik 11B v2, een state-of-the-art taalmodel geoptimaliseerd voor de verwerking van Poolse tekst. Gebouwd op de Mistral 7B v0.2-architectuur en opgeschaald naar 11B parameters met behulp van depth up-scaling, toont dit model uitzonderlijke prestaties op Poolse taalbenchmarks terwijl het sterke cross-linguale capaciteiten behoudt. We introduceren twee belangrijke technische innovaties: Weighted Instruction Cross-Entropy Loss, dat het leren over diverse instructietypen optimaliseert door kwaliteitsgebaseerde gewichten toe te kennen aan trainingsvoorbeelden, en Adaptive Learning Rate, dat dynamisch wordt aangepast op basis van contextlengte. Uitgebreide evaluatie over meerdere benchmarks toont aan dat Bielik 11B v2 veel grotere modellen overtreft, inclusief modellen met 2-6 keer meer parameters, en andere gespecialiseerde Poolse taalmodellen aanzienlijk overstijgt op taken variërend van linguïstisch begrip tot complex redeneren. De parameter-efficiëntie van het model en uitgebreide kwantiseringsopties maken implementatie mogelijk op diverse hardwareconfiguraties, wat de Poolse taal-AI-mogelijkheden vooruithelpt en nieuwe benchmarks vestigt voor resource-efficiënt taalmodeleren in minder vertegenwoordigde talen.
Een generalistische robot zou effectief moeten presteren in diverse omgevingen. De meeste bestaande benaderingen zijn echter sterk afhankelijk van het schalen van actie-geannoteerde data om hun capaciteiten te verbeteren. Hierdoor zijn ze vaak beperkt tot een enkele fysieke specificatie en hebben ze moeite om overdraagbare kennis te leren over verschillende belichamingen en omgevingen. Om deze beperkingen aan te pakken, stellen we UniVLA voor, een nieuw raamwerk voor het leren van cross-embodiment vision-language-action (VLA) beleidsregels. Onze belangrijkste innovatie is het afleiden van taakgerichte actie-representaties uit video's met een latent actiemodel. Hierdoor kunnen we uitgebreide data benutten over een breed spectrum van belichamingen en perspectieven. Om het effect van taak-irrelevante dynamiek te verminderen, integreren we taalinstructies en vestigen we een latent actiemodel binnen de DINO-featureruimte. Het generalistische beleid, geleerd van internet-schaal video's, kan worden ingezet op verschillende robots door efficiënte decodering van latente acties. We behalen state-of-the-art resultaten op meerdere manipulatie- en navigatiebenchmarks, evenals bij echte robotimplementaties. UniVLA bereikt superieure prestaties ten opzichte van OpenVLA met minder dan 1/20 van de pretrainingsrekenkracht en 1/10 van de downstream data. Continue prestatieverbeteringen worden waargenomen wanneer heterogene data, inclusief menselijke video's, worden opgenomen in de trainingspijplijn. De resultaten onderstrepen het potentieel van UniVLA om schaalbaar en efficiënt robotbeleidsleren te faciliteren.
Het evalueren van de effectiviteit van user interface (UI) ontwerp gaat verder dan esthetiek en beïnvloedt ook gebruikersgedrag, een principe dat centraal staat in Design Persuasiveness. A/B-testen is de meest gebruikte methode om te bepalen welke UI-varianten een hogere gebruikersbetrokkenheid stimuleren, maar het is kostbaar en tijdrovend. Hoewel recente Vision-Language Models (VLMs) geautomatiseerde UI-analyse kunnen uitvoeren, richten huidige benaderingen zich op geïsoleerde ontwerpkenmerken in plaats van op vergelijkende persuasiviteit – de sleutelfactor in het optimaliseren van gebruikersinteracties. Om dit aan te pakken, introduceren we WiserUI-Bench, een benchmark ontworpen voor de Pairwise UI Design Persuasiveness Assessment taak, met 300 real-world UI-beeldparen gelabeld met A/B-testresultaten en expertredeneringen. Daarnaast stellen we G-FOCUS voor, een nieuwe inferentie-tijd redeneerstrategie die de persuasiviteitsbeoordeling op basis van VLM verbetert door positiebias te verminderen en de evaluatienauwkeurigheid te verhogen. Experimentele resultaten tonen aan dat G-FOCUS bestaande inferentiestrategieën overtreft in consistentie en nauwkeurigheid voor pairwise UI-evaluatie. Door VLM-gestuurde evaluatie van UI-persuasiviteit te bevorderen, biedt ons werk een benadering om A/B-testen aan te vullen, wat vooruitgang stimuleert in schaalbare UI-voorkeursmodellering en ontwerpoptimalisatie. Code en data zullen openbaar worden vrijgegeven.
Recente ontwikkelingen in Large Language Models (LLM's) zijn verschoven van pre-training schaalvergroting naar post-training en testtijd schaalvergroting. In deze ontwikkelingen is een belangrijk verenigd paradigma ontstaan: Leren van Beloningen, waarbij beloningssignalen fungeren als gidsende sterren om het gedrag van LLM's te sturen. Dit heeft een breed scala aan gangbare technieken ondersteund, zoals reinforcement learning (in RLHF, DPO en GRPO), beloningsgestuurde decodering en post-hoc correctie. Cruciaal is dat dit paradigma de overgang mogelijk maakt van passief leren van statische data naar actief leren van dynamische feedback. Hierdoor worden LLM's uitgerust met afgestemde voorkeuren en diepgaande redeneervaardigheden. In dit overzicht bieden we een uitgebreid overzicht van het paradigma van leren van beloningen. We categoriseren en analyseren de strategieën onder dit paradigma tijdens de trainings-, inferentie- en post-inferentiefasen. We bespreken verder de benchmarks voor beloningsmodellen en de primaire toepassingen. Tot slot belichten we de uitdagingen en toekomstige richtingen. We onderhouden een verzameling van papers op https://github.com/bobxwu/learning-from-rewards-llm-papers.
Naarmate Large Language Models (LLMs) breed toegankelijk worden, is een gedetailleerd begrip van hun kennis binnen specifieke domeinen noodzakelijk voor succesvolle toepassingen in de praktijk. Dit is vooral cruciaal in de volksgezondheid, waar het niet kunnen ophalen van relevante, accurate en actuele informatie een aanzienlijke impact kan hebben op inwoners van het VK. Er is echter momenteel weinig bekend over de kennis van LLMs met betrekking tot overheidsinformatie over volksgezondheid in het VK. Om dit probleem aan te pakken, introduceert dit artikel een nieuwe benchmark, PubHealthBench, met meer dan 8000 vragen voor het evalueren van Multiple Choice Question Answering (MCQA) en vrije antwoorden van LLMs op vragen over volksgezondheid, gecreëerd via een geautomatiseerde pijplijn. We publiceren ook een nieuwe dataset van de geëxtraheerde overheidsdocumenten over volksgezondheid die als brontekst voor PubHealthBench zijn gebruikt. Na het beoordelen van 24 LLMs op PubHealthBench, constateren we dat de nieuwste private LLMs (GPT-4.5, GPT-4.1 en o1) een hoge mate van kennis hebben, met scores van >90% in de MCQA-opstelling, en ze presteren beter dan mensen die oppervlakkig gebruik maken van zoekmachines. In de vrije antwoordopstelling zien we echter lagere prestaties, waarbij geen enkel model een score van >75% behaalt. Hoewel er dus veelbelovende tekenen zijn dat state-of-the-art (SOTA) LLMs een steeds nauwkeurigere bron van informatie over volksgezondheid zijn, kunnen aanvullende veiligheidsmaatregelen of tools nog steeds nodig zijn bij het verstrekken van vrije antwoorden over onderwerpen op het gebied van volksgezondheid.
Het GPT-4o-model van OpenAI, dat multi-modale invoer en uitvoer integreert binnen een autoregressieve architectuur, heeft een ongekende prestatie getoond in beeldgeneratie. In dit werk onderzoeken we het potentiële effect ervan op de gemeenschap voor beeldrestauratie. We presenteren de eerste systematische evaluatie van GPT-4o over diverse restauratietaken. Onze experimenten tonen aan dat, hoewel de restauratie-uitvoer van GPT-4o visueel aantrekkelijk is, deze vaak lijdt onder pixel-niveau structurele trouw in vergelijking met grondwaarheidbeelden. Veelvoorkomende problemen zijn variaties in beeldverhoudingen, verschuivingen in objectposities en -aantallen, en veranderingen in gezichtspunten. Om dit aan te pakken, nemen we beeldontsmetting, ontregening en verbetering van weinig licht als representatieve casestudies, en tonen we aan dat de uitvoer van GPT-4o kan dienen als krachtige visuele prior, die de prestaties van bestaande ontsmettingsnetwerken aanzienlijk verbetert. Het biedt praktische richtlijnen en een basisraamwerk om de integratie van GPT-4o in toekomstige beeldrestauratiepijplijnen te vergemakkelijken. We hopen dat de studie naar GPT-4o-beeldrestauratie innovatie zal versnellen in het bredere veld van beeldgeneratiegebieden. Om verder onderzoek te ondersteunen, zullen we GPT-4o-gerestaureerde beelden vrijgeven van meer dan 10 veelgebruikte beeldrestauratiedatasets.
Puntwolk-rigide registratie is een fundamenteel probleem in 3D-computervisie. In het multiview-geval streven we ernaar een set van 6D-posities te vinden om een set objecten uit te lijnen. Methoden gebaseerd op paarsgewijze registratie vertrouwen op een daaropvolgend synchronisatie-algoritme, wat ze slecht schaalbaar maakt met het aantal views. Generatieve benaderingen overkomen deze beperking, maar zijn gebaseerd op Gaussische Mengselmodellen en gebruiken een Expectation-Maximization-algoritme. Daardoor zijn ze niet goed geschikt om grote transformaties te verwerken. Bovendien kunnen de meeste bestaande methoden geen hoge niveaus van degradatie aan. In dit artikel introduceren we POLAR (POint cloud LAtent Registration), een multiview-registratiemethode die efficiënt omgaat met een groot aantal views, terwijl ze robuust is tegen een hoog niveau van degradatie en grote initiële hoeken. Om dit te bereiken, vertalen we het registratieprobleem naar de latente ruimte van een vooraf getrainde auto-encoder, ontwerpen we een verliesfunctie die degradatie in acht neemt, en ontwikkelen we een efficiënte multistart-optimalisatiestrategie. Onze voorgestelde methode overtreft aanzienlijk de state-of-the-art benaderingen op synthetische en echte data. POLAR is beschikbaar op github.com/pypolar/polar of als een standalone pakket dat kan worden geïnstalleerd met pip install polaregistration.