papers.description
Wir stellen Bielik v3 vor, eine Reihe von parameter-effizienten generativen Textmodellen (1,5B und 4,5B), die für die Verarbeitung der polnischen Sprache optimiert sind. Diese Modelle zeigen, dass kleinere, gut optimierte Architekturen eine Leistung erzielen können, die mit viel größeren Modellen vergleichbar ist, während sie erheblich weniger Rechenressourcen benötigen. Unser Ansatz integriert mehrere Schlüsselinnovationen: einen maßgeschneiderten polnischen Tokenizer (APT4), der die Token-Effizienz deutlich verbessert, Weighted Instruction Cross-Entropy Loss, um das Lernen über verschiedene Instruktionstypen hinweg auszugleichen, und Adaptive Learning Rate, die sich dynamisch basierend auf dem Trainingsfortschritt anpasst. Trainiert auf einem sorgfältig kuratierten Korpus von 292 Milliarden Tokens, die sich über 303 Millionen Dokumente erstrecken, übertreffen diese Modelle in mehreren Benchmarks, darunter dem Open PL LLM Leaderboard, dem Complex Polish Text Understanding Benchmark, dem Polish EQ-Bench und dem Polish Medical Leaderboard. Das 4,5B-Parameter-Modell erzielt Ergebnisse, die mit Modellen konkurrieren, die zwei- bis dreimal so groß sind, während das 1,5B-Modell trotz seines äußerst kompakten Profils eine starke Leistung liefert. Diese Fortschritte setzen neue Maßstäbe für parameter-effizientes Sprachmodellieren in weniger repräsentierten Sprachen und machen hochwertige KI für die polnische Sprache für ressourcenbeschränkte Anwendungen zugänglicher.
Wir präsentieren Bielik 11B v2, ein modernstes Sprachmodell, das für die Verarbeitung polnischer Texte optimiert ist. Basierend auf der Mistral 7B v0.2-Architektur und durch Tiefen-Skalierung auf 11 Milliarden Parameter erweitert, zeigt dieses Modell außergewöhnliche Leistungen in polnischen Sprachbenchmarks bei gleichzeitiger Beibehaltung starker mehrsprachiger Fähigkeiten. Wir führen zwei wesentliche technische Innovationen ein: Weighted Instruction Cross-Entropy Loss, das das Lernen über verschiedene Anweisungstypen hinweg optimiert, indem es qualitätsbasierte Gewichtungen für Trainingsbeispiele zuweist, und Adaptive Learning Rate, die sich dynamisch basierend auf der Kontextlänge anpasst. Eine umfassende Bewertung über mehrere Benchmarks hinweg zeigt, dass Bielik 11B v2 viele größere Modelle, einschließlich solcher mit 2- bis 6-fach mehr Parametern, übertrifft und andere spezialisierte polnische Sprachmodelle bei Aufgaben von linguistischem Verständnis bis hin zu komplexem Denken deutlich übertrifft. Die Parameter-Effizienz des Modells und die umfangreichen Quantisierungsoptionen ermöglichen den Einsatz in verschiedenen Hardware-Konfigurationen, wodurch die KI-Fähigkeiten für die polnische Sprache vorangetrieben und neue Maßstäbe für ressourceneffizientes Sprachmodellieren in weniger repräsentierten Sprachen gesetzt werden.
Ein generalistischer Roboter sollte effektiv in verschiedenen Umgebungen agieren können. Die meisten bestehenden Ansätze stützen sich jedoch stark auf die Skalierung von handlungsannotierten Daten, um ihre Fähigkeiten zu erweitern. Dadurch sind sie oft auf eine einzige physikalische Spezifikation beschränkt und haben Schwierigkeiten, übertragbares Wissen über verschiedene Ausführungen und Umgebungen hinweg zu erlernen. Um diese Einschränkungen zu überwinden, schlagen wir UniVLA vor, ein neues Framework für das Erlernen von Vision-Sprache-Handlung (VLA)-Policies über verschiedene Ausführungen hinweg. Unsere zentrale Innovation besteht darin, aufgabenbezogene Handlungsrepräsentationen aus Videos mit einem latenten Handlungsmodell abzuleiten. Dies ermöglicht es uns, umfangreiche Daten über ein breites Spektrum von Ausführungen und Perspektiven zu nutzen. Um den Einfluss von aufgabenirrelevanten Dynamiken zu minimieren, integrieren wir Sprachanweisungen und etablieren ein latentes Handlungsmodell im DINO-Feature-Raum. Die aus internetweiten Videos erlernte generalistische Policy kann durch effiziente Dekodierung latenter Handlungen auf verschiedene Roboter übertragen werden. Wir erzielen state-of-the-art Ergebnisse in mehreren Manipulations- und Navigations-Benchmarks sowie in realen Roboter-Einsätzen. UniVLA übertrifft OpenVLA mit weniger als 1/20 des Vorab-Trainingsrechenaufwands und 1/10 der nachgelagerten Daten. Kontinuierliche Leistungssteigerungen werden beobachtet, wenn heterogene Daten, einschließlich menschlicher Videos, in den Trainingsprozess integriert werden. Die Ergebnisse unterstreichen das Potenzial von UniVLA, skalierbares und effizientes Lernen von Roboter-Policies zu ermöglichen.
Die Bewertung der Effektivität von Benutzeroberflächen (UI) geht über Ästhetik hinaus und beeinflusst das Benutzerverhalten, ein Prinzip, das zentral für Design Persuasion ist. A/B-Tests sind die vorherrschende Methode, um festzustellen, welche UI-Varianten eine höhere Benutzerbindung fördern, aber sie sind kostspielig und zeitaufwendig. Während aktuelle Vision-Language-Modelle (VLMs) automatisierte UI-Analysen durchführen können, konzentrieren sich bestehende Ansätze auf isolierte Designattribute anstatt auf vergleichende Persuasion – den Schlüsselfaktor zur Optimierung von Benutzerinteraktionen. Um dies zu adressieren, führen wir WiserUI-Bench ein, einen Benchmark für die paarweise Bewertung der UI-Persuasion, der 300 reale UI-Bildpaare mit A/B-Test-Ergebnissen und Expertenbegründungen enthält. Zusätzlich schlagen wir G-FOCUS vor, eine neuartige Inferenzzeit-Strategie, die die Persuasion-Bewertung auf VLM-Basis verbessert, indem sie Positionsverzerrungen reduziert und die Bewertungsgenauigkeit erhöht. Experimentelle Ergebnisse zeigen, dass G-FOCUS bestehende Inferenzstrategien in Konsistenz und Genauigkeit bei der paarweisen UI-Bewertung übertrifft. Indem wir die VLM-gestützte Bewertung der UI-Persuasion fördern, bietet unsere Arbeit einen Ansatz, um A/B-Tests zu ergänzen und den Fortschritt in der skalierbaren Modellierung von UI-Präferenzen und Designoptimierung voranzutreiben. Code und Daten werden öffentlich zugänglich gemacht.
Jüngste Entwicklungen bei Large Language Models (LLMs) haben sich von der Skalierung im Vorab-Training hin zur Skalierung nach dem Training und zur Skalierung zur Testzeit verlagert. In diesen Entwicklungen hat sich ein zentrales, einheitliches Paradigma herausgebildet: das Lernen aus Belohnungen, bei dem Belohnungssignale als Leitsterne fungieren, um das Verhalten von LLMs zu steuern. Dieses Paradigma hat eine Vielzahl verbreiteter Techniken untermauert, wie Reinforcement Learning (in RLHF, DPO und GRPO), belohnungsgesteuertes Decoding und nachträgliche Korrektur. Entscheidend ist, dass dieses Paradigma den Übergang vom passiven Lernen aus statischen Daten zum aktiven Lernen aus dynamischem Feedback ermöglicht. Dies verleiht LLMs ausgerichtete Präferenzen und tiefgreifende Fähigkeiten zur logischen Schlussfolgerung. In dieser Übersichtsarbeit präsentieren wir eine umfassende Darstellung des Paradigmas des Lernens aus Belohnungen. Wir kategorisieren und analysieren die Strategien unter diesem Paradigma über die Phasen des Trainings, der Inferenz und der Nach-Inferenz hinweg. Weiterhin diskutieren wir die Benchmarks für Belohnungsmodelle und die primären Anwendungen. Abschließend beleuchten wir die Herausforderungen und zukünftigen Richtungen. Wir pflegen eine Sammlung von Forschungsarbeiten unter https://github.com/bobxwu/learning-from-rewards-llm-papers.
Da Large Language Models (LLMs) immer breiter zugänglich werden, ist ein detailliertes Verständnis ihres Wissens in spezifischen Domänen für eine erfolgreiche Anwendung in der realen Welt notwendig. Dies ist insbesondere im Bereich der öffentlichen Gesundheit von entscheidender Bedeutung, da das Versagen, relevante, genaue und aktuelle Informationen abzurufen, erhebliche Auswirkungen auf die Bewohner des Vereinigten Königreichs haben könnte. Bislang ist jedoch wenig über das Wissen von LLMs in Bezug auf die öffentlichen Gesundheitsinformationen der britischen Regierung bekannt. Um dieses Problem zu adressieren, stellt dieses Papier einen neuen Benchmark, PubHealthBench, vor, der über 8000 Fragen zur Bewertung der Multiple-Choice-Fragebeantwortung (MCQA) und der freien Antworten von LLMs auf Fragen zur öffentlichen Gesundheit enthält, die über eine automatisierte Pipeline erstellt wurden. Wir veröffentlichen zudem einen neuen Datensatz der extrahierten öffentlichen Gesundheitsleitlinien der britischen Regierung, die als Quelltexte für PubHealthBench verwendet wurden. Bei der Bewertung von 24 LLMs auf PubHealthBench stellen wir fest, dass die neuesten privaten LLMs (GPT-4.5, GPT-4.1 und o1) über ein hohes Maß an Wissen verfügen und im MCQA-Setup >90 % erreichen, wobei sie Menschen mit oberflächlicher Nutzung von Suchmaschinen übertreffen. Im freien Antwortsetup sehen wir jedoch eine geringere Leistung, wobei kein Modell >75 % erreicht. Daher gibt es zwar vielversprechende Anzeichen dafür, dass state-of-the-art (SOTA) LLMs eine zunehmend genaue Quelle für Informationen zur öffentlichen Gesundheit darstellen, könnten jedoch zusätzliche Sicherheitsvorkehrungen oder Werkzeuge erforderlich sein, wenn freie Antworten zu Themen der öffentlichen Gesundheit bereitgestellt werden.
OpenAIs GPT-4o-Modell, das multimodale Ein- und Ausgaben in einer autoregressiven Architektur integriert, hat beispiellose Leistungen in der Bildgenerierung gezeigt. In dieser Arbeit untersuchen wir sein potenzielles Auswirken auf die Bildrestaurierungs-Community. Wir präsentieren die erste systematische Evaluierung von GPT-4o über diverse Restaurierungsaufgaben hinweg. Unsere Experimente zeigen, dass, obwohl die Restaurierungsausgaben von GPT-4o visuell ansprechend sind, sie oft unter einer mangelnden pixelgenauen strukturellen Treue im Vergleich zu Ground-Truth-Bildern leiden. Häufige Probleme sind Variationen in den Bildproportionen, Verschiebungen in Objektpositionen und -mengen sowie Änderungen im Blickwinkel. Um dies zu adressieren, zeigen wir anhand von repräsentativen Fallstudien zur Bildentnebelung, Entregnung und Low-Light-Verbesserung, dass die Ausgaben von GPT-4o als leistungsstarke visuelle Priors dienen können, die die Leistung bestehender Entnebelungsnetzwerke erheblich verbessern. Es bietet praktische Richtlinien und ein Baseline-Framework, um die Integration von GPT-4o in zukünftige Bildrestaurierungs-Pipelines zu erleichtern. Wir hoffen, dass die Studie zur Bildrestaurierung mit GPT-4o Innovationen im breiteren Feld der Bildgenerierung beschleunigen wird. Um weitere Forschungen zu unterstützen, werden wir GPT-4o-restaurierte Bilder aus über 10 weit verbreiteten Bildrestaurierungsdatensätzen veröffentlichen.
Die starre Registrierung von Punktwolken ist ein grundlegendes Problem in der 3D-Computervision. Im multiview-Fall besteht das Ziel darin, eine Menge von 6D-Posen zu finden, um eine Menge von Objekten auszurichten. Methoden, die auf paarweiser Registrierung basieren, verlassen sich auf einen nachgeschalteten Synchronisationsalgorithmus, was sie schlecht skalierbar mit der Anzahl der Ansichten macht. Generative Ansätze überwinden diese Einschränkung, basieren jedoch auf Gaußschen Mischmodellen und verwenden einen Expectation-Maximization-Algorithmus. Daher sind sie nicht gut geeignet, um große Transformationen zu handhaben. Darüber hinaus können die meisten bestehenden Methoden keine hohen Degradationsgrade bewältigen. In diesem Artikel stellen wir POLAR (POint cloud LAtent Registration) vor, eine multiview-Registrierungsmethode, die effizient mit einer großen Anzahl von Ansichten umgehen kann, während sie robust gegenüber einem hohen Grad an Degradationen und großen Anfangsdrehwinkeln ist. Um dies zu erreichen, übertragen wir das Registrierungsproblem in den latenten Raum eines vortrainierten Autoencoders, entwerfen eine Verlustfunktion, die Degradationen berücksichtigt, und entwickeln eine effiziente Multistart-Optimierungsstrategie. Unsere vorgeschlagene Methode übertrifft deutlich den Stand der Technik auf synthetischen und realen Daten. POLAR ist unter github.com/pypolar/polar verfügbar oder als eigenständiges Paket, das mit pip install polaregistration installiert werden kann.