papers.description
Die OCR von arabischen Dokumenten bleibt aufgrund der kursiven Schrift, der vielfältigen Schriftarten, der Diakritika und der rechts-nach-links-Ausrichtung eine herausfordernde Aufgabe. Während moderne Multimodale Große Sprachmodelle (MLLMs) das Verständnis von Dokumenten für hochressourcenreiche Sprachen vorangetrieben haben, bleibt ihre Leistung bei Arabisch begrenzt. In dieser Arbeit stellen wir Baseer vor, ein Vision-Sprache-Modell, das speziell für die OCR von arabischen Dokumenten feinabgestimmt wurde. Durch die Nutzung eines groß angelegten Datensatzes, der synthetische und reale Dokumente kombiniert, wird Baseer mit einer nur-Decoder-Feinabstimmungsstrategie trainiert, um ein vortrainiertes MLLM anzupassen, während allgemeine visuelle Merkmale erhalten bleiben. Wir präsentieren auch Misraj-DocOCR, einen hochwertigen, von Experten verifizierten Benchmark, der für die strenge Bewertung von arabischen OCR-Systemen entwickelt wurde. Unsere Experimente zeigen, dass Baseer bestehende Open-Source- und kommerzielle Lösungen deutlich übertrifft, mit einer WER von 0,25 und setzt damit einen neuen Maßstab im Bereich der arabischen Dokumenten-OCR. Unsere Ergebnisse unterstreichen die Vorteile der domänenspezifischen Anpassung von allgemeinen MLLMs und etablieren eine starke Basis für hochpräzise OCR bei morphologisch reichen Sprachen wie Arabisch.
Die zunehmende Diskrepanz zwischen dem exponentiellen Wachstum von Rechenressourcen und dem begrenzten Anstieg hochwertiger Textdaten schränkt nun konventionelle Skalierungsansätze für große Sprachmodelle (LLMs) ein. Um diese Herausforderung zu bewältigen, führen wir Reinforcement Learning on Pre-Training Data (RLPT) ein, ein neues Paradigma zur Skalierung von LLMs während des Trainings. Im Gegensatz zu früheren Ansätzen, die das Training hauptsächlich durch überwachtes Lernen skalieren, ermöglicht RLPT der Policy, eigenständig sinnvolle Trajektorien zu erkunden, um aus den Pre-Training-Daten zu lernen und ihre Fähigkeiten durch Reinforcement Learning (RL) zu verbessern. Während bestehende RL-Strategien wie Reinforcement Learning from Human Feedback (RLHF) und Reinforcement Learning with Verifiable Rewards (RLVR) auf menschliche Annotationen für die Konstruktion von Belohnungssignalen angewiesen sind, beseitigt RLPT diese Abhängigkeit, indem es Belohnungssignale direkt aus den Pre-Training-Daten ableitet. Konkret verfolgt es ein Next-Segment-Reasoning-Ziel, bei dem die Policy für die präzise Vorhersage nachfolgender Textsegmente basierend auf dem vorherigen Kontext belohnt wird. Diese Formulierung ermöglicht die Skalierung von RL auf Pre-Training-Daten, fördert die Erkundung reichhaltigerer Trajektorien über breitere Kontexte hinweg und stärkt dadurch generalisierbare Denkfähigkeiten. Umfangreiche Experimente auf allgemeinen und mathematischen Reasoning-Benchmarks über mehrere Modelle hinweg bestätigen die Wirksamkeit von RLPT. Beispielsweise führt die Anwendung von RLPT auf Qwen3-4B-Base zu absoluten Verbesserungen von 3,0, 5,1, 8,1, 6,0, 6,6 und 5,3 auf MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 und AIME25. Die Ergebnisse zeigen zudem ein günstiges Skalierungsverhalten, was auf ein starkes Potenzial für weitere Fortschritte mit mehr Rechenleistung hindeutet. Darüber hinaus bietet RLPT eine solide Grundlage, die die Reasoning-Grenzen von LLMs erweitert und die Leistung von RLVR verbessert.
Imitation-Learning-basierte visuomotorische Strategien werden häufig in der Roboter-Manipulation eingesetzt, wobei typischerweise sowohl visuelle Beobachtungen als auch propriozeptive Zustände gemeinsam für eine präzise Steuerung verwendet werden. In dieser Studie stellen wir jedoch fest, dass diese gängige Praxis dazu führt, dass die Strategie übermäßig auf den propriozeptiven Zustandseingang angewiesen ist, was zu einer Überanpassung an die Trainingspfade führt und eine schlechte räumliche Generalisierung zur Folge hat. Im Gegensatz dazu schlagen wir die State-free Policy vor, bei der der propriozeptive Zustandseingang entfernt wird und Aktionen ausschließlich auf der Grundlage visueller Beobachtungen vorhergesagt werden. Die State-free Policy wird im relativen Endeffektor-Aktionsraum aufgebaut und sollte die vollständigen aufgabenrelevanten visuellen Beobachtungen sicherstellen, die hier durch zwei Weitwinkel-Handgelenkkameras bereitgestellt werden. Empirische Ergebnisse zeigen, dass die State-free Policy eine deutlich stärkere räumliche Generalisierung erreicht als die zustandsbasierte Strategie: Bei realen Aufgaben wie Pick-and-Place, anspruchsvollem Hemdfalten und komplexer Ganzkörper-Manipulation über mehrere Roboter-Implementierungen hinweg verbessert sich die durchschnittliche Erfolgsrate von 0 % auf 85 % bei der Höhen-Generalisierung und von 6 % auf 64 % bei der horizontalen Generalisierung. Darüber hinaus zeigen sie auch Vorteile in Bezug auf Dateneffizienz und Cross-Embodiment-Anpassung, was ihre Praxistauglichkeit für den realen Einsatz erhöht.
Multimodale Large Language Models (MLLMs) machen rasante Fortschritte und repräsentieren die Spitze der KI-Entwicklung. Allerdings haben sich ihre Trainings- und Inferenzeffizienz als zentrale Engpässe erwiesen, die die Zugänglichkeit und Skalierbarkeit von MLLMs einschränken. Um diese Herausforderungen zu bewältigen, präsentieren wir MiniCPM-V 4.5, ein 8B-Parameter-Modell, das für hohe Effizienz und starke Leistung entwickelt wurde. Wir führen drei Kernverbesserungen in der Modellarchitektur, der Datenstrategie und der Trainingsmethode ein: eine einheitliche 3D-Resampler-Modellarchitektur für eine hochkompakte Kodierung von Bildern und Videos, ein einheitliches Lernparadigma für Dokumentenwissen und Texterkennung ohne aufwendige Datenaufbereitung sowie eine hybride Reinforcement-Learning-Strategie für Kompetenz in kurzen und langen Denkmodi. Umfassende experimentelle Ergebnisse in der OpenCompass-Evaluierung zeigen, dass MiniCPM-V 4.5 weit verbreitete proprietäre Modelle wie GPT-4o-latest und deutlich größere Open-Source-Modelle wie Qwen2.5-VL 72B übertrifft. Bemerkenswert ist, dass diese starke Leistung mit bemerkenswerter Effizienz erreicht wird. Beispielsweise erzielt MiniCPM-V 4.5 auf dem weit verbreiteten VideoMME-Benchmark die beste Leistung unter Modellen mit weniger als 30B Parametern, wobei nur 46,7 % des GPU-Speichers und 8,7 % der Inferenzzeit von Qwen2.5-VL 7B benötigt werden.
Das Verständnis und die Analyse ganzer Software-Repositorys ist eine wesentliche Fähigkeit für intelligente Softwareentwicklungswerkzeuge. Während bestehende Benchmarks wie CoSQA und CodeQA das Feld vorangebracht haben, konzentrieren sie sich überwiegend auf kleine, eigenständige Codeausschnitte. Diese Ansätze erfassen nicht die Komplexität realer Repositorys, bei denen effektives Verständnis und Analyse oft das Navigieren durch mehrere Dateien, das Verstehen der Softwarearchitektur und die Verankerung von Antworten in langreichweitigen Codeabhängigkeiten erfordern. In diesem Artikel stellen wir SWE-QA vor, einen Repository-Level-Code-Frage-Antwort (QA)-Benchmark, der die Forschung an automatisierten QA-Systemen in realistischen Codeumgebungen fördern soll. SWE-QA umfasst 576 hochwertige Frage-Antwort-Paare, die verschiedene Kategorien abdecken, darunter Intention-Verständnis, dateiübergreifende Analyse und mehrstufige Abhängigkeitsanalyse. Um SWE-QA zu erstellen, haben wir zunächst 77.100 GitHub-Issues aus 11 beliebten Repositorys gesammelt. Basierend auf einer Analyse natürlich auftretender Entwicklerfragen, die aus diesen Issues extrahiert wurden, entwickelten wir eine zweistufige Taxonomie von Repository-Level-Fragen und erstellten für jede Kategorie eine Reihe von Ausgangsfragen. Für jede Kategorie haben wir Fragen manuell kuratiert und validiert sowie die entsprechenden Antworten gesammelt. Als Prototypanwendung entwickeln wir weiterhin SWE-QA-Agent, ein agentenbasiertes Framework, in dem LLM-Agenten automatisch Antworten durch logisches Denken und Handeln finden. Wir evaluieren sechs fortschrittliche LLMs auf SWE-QA unter verschiedenen Kontextverstärkungsstrategien. Die experimentellen Ergebnisse unterstreichen das Potenzial von LLMs, insbesondere unseres SWE-QA-Agent-Frameworks, bei der Bewältigung von Repository-Level-QA, zeigen aber auch offene Herausforderungen auf und weisen auf zukünftige Forschungsrichtungen hin.
Visuell-räumliches Denken (Visual Spatial Reasoning, VSR) ist eine zentrale menschliche kognitive Fähigkeit und eine entscheidende Voraussetzung für die Weiterentwicklung verkörperter Intelligenz und autonomer Systeme. Trotz jüngster Fortschritte bei Vision-Language-Modellen (VLMs) bleibt die Erreichung eines menschenähnlichen VSR aufgrund der Komplexität der Darstellung und des Denkens in dreidimensionalen Räumen äußerst herausfordernd. In diesem Artikel präsentieren wir eine systematische Untersuchung von VSR in VLMs, die eine Überprüfung bestehender Methoden in Bezug auf Eingabemodalitäten, Modellarchitekturen, Trainingsstrategien und Denkmechanismen umfasst. Darüber hinaus kategorisieren wir räumliche Intelligenz in drei Fähigkeitsstufen, nämlich grundlegende Wahrnehmung, räumliches Verständnis und räumliche Planung, und stellen SIBench vor, einen Benchmark für räumliche Intelligenz, der nahezu 20 Open-Source-Datensätze über 23 Aufgabenstellungen umfasst. Experimente mit state-of-the-art VLMs zeigen eine deutliche Lücke zwischen Wahrnehmung und Denken, da Modelle zwar Kompetenz bei grundlegenden Wahrnehmungsaufgaben zeigen, jedoch durchweg bei Verständnis- und Planungsaufgaben, insbesondere bei numerischer Schätzung, Multi-View-Denken, zeitlicher Dynamik und räumlicher Vorstellungskraft, unterdurchschnittlich abschneiden. Diese Ergebnisse unterstreichen die erheblichen Herausforderungen, die bei der Erreichung räumlicher Intelligenz bestehen, und bieten gleichzeitig einen systematischen Fahrplan sowie einen umfassenden Benchmark, um zukünftige Forschung in diesem Bereich voranzutreiben. Die zugehörigen Ressourcen dieser Studie sind unter https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/ zugänglich.
Jüngste Fortschritte im Bereich des Reinforcement Learning für Foundation-Modelle, wie beispielsweise die Group Relative Policy Optimization (GRPO), haben die Leistung von Foundation-Modellen bei Reasoning-Aufgaben erheblich verbessert. Insbesondere fungiert die Advantage-Funktion als zentraler Mechanismus in GRPO, um die Bedeutung von Trajektorien zu bewerten. Allerdings stoßen bestehende Ansätze auf die Probleme der Advantage-Revertion und des Advantage-Mirroring, die eine sinnvolle Zuweisung von Vorteilen über verschiedene Abfragebeispiele hinweg behindern. In dieser Arbeit schlagen wir eine einfache, aber effektive GRPO-Strategie vor, die Mixed Advantage Policy Optimization (MAPO). Wir zeigen, dass Trajektorien mit unterschiedlicher Sicherheit auftreten und führen die prozentuale Abweichung des Vorteils für Beispiele mit hochsicheren Trajektorien ein. Darüber hinaus gewichten wir die Advantage-Funktion dynamisch für Beispiele mit unterschiedlicher Trajektoriensicherheit neu, wodurch die Advantage-Funktion adaptiv an die spezifischen Merkmale der Beispiele angepasst wird. Vergleiche mit verwandten State-of-the-Art-Methoden sowie Ablationsstudien zu verschiedenen Advantage-Varianten bestätigen die Wirksamkeit unseres Ansatzes.
Feed-forward 3D Gaussian Splatting (3DGS) hat sich als äußerst effektive Lösung für die Synthese neuer Ansichten etabliert. Bestehende Methoden stützen sich hauptsächlich auf ein pixelausgerichtetes Gauß-Prädiktionsparadigma, bei dem jedes 2D-Pixel einem 3D-Gauß zugeordnet wird. Wir überdenken diese weit verbreitete Formulierung und identifizieren mehrere inhärente Einschränkungen: Sie macht die rekonstruierten 3D-Modelle stark abhängig von der Anzahl der Eingabeansichten, führt zu ansichtsverzerrten Dichteverteilungen und führt Ausrichtungsfehler ein, insbesondere wenn die Quellansichten Verdeckungen oder geringe Textur aufweisen. Um diese Herausforderungen zu bewältigen, führen wir VolSplat ein, ein neues Multi-View-Feed-forward-Paradigma, das die Pixelausrichtung durch voxelausgerichtete Gaußsche ersetzt. Durch die direkte Vorhersage von Gaußschen aus einem vorhergesagten 3D-Voxelgitter überwindet es die Abhängigkeit der Pixelausrichtung von fehleranfälliger 2D-Feature-Matching, was eine robuste Multi-View-Konsistenz gewährleistet. Darüber hinaus ermöglicht es eine adaptive Kontrolle über die Gaußsche Dichte basierend auf der 3D-Szenenkomplexität, was zu treueren Gaußschen Punktwolken, verbesserter geometrischer Konsistenz und einer gesteigerten Qualität der Ansichtssynthese führt. Experimente auf weit verbreiteten Benchmarks wie RealEstate10K und ScanNet zeigen, dass VolSplat state-of-the-art Leistungen erzielt und dabei plausiblere und ansichtskonsistentere Gaußsche Rekonstruktionen erzeugt. Neben überlegenen Ergebnissen etabliert unser Ansatz ein skalierbares Framework für die Feed-forward-3D-Rekonstruktion mit dichteren und robusteren Repräsentationen, was den Weg für weitere Forschungen in breiteren Gemeinschaften ebnet. Die Videoergebnisse, der Code und die trainierten Modelle sind auf unserer Projektseite verfügbar: https://lhmd.top/volsplat.
Große Reasoning-Modelle (LRMs) verwenden erhebliche Rechenleistung zur Testzeit für lange Chain-of-Thought (CoT)-Spuren, doch was eine effektive CoT *charakterisiert*, bleibt unklar. Während frühere Arbeiten Verbesserungen durch die Verlängerung von CoTs und verstärktes Überprüfen (Rückgriff auf frühere Schritte) durch angehängte *Wait*-Tokens berichten, deuten neuere Studien darauf hin, dass kürzeres Denken längere Spuren übertreffen kann. Daher führen wir eine systematische Auswertung über zehn LRMs in mathematischem und wissenschaftlichem Reasoning durch. Im Gegensatz zur „länger ist besser“-Erzählung stellen wir fest, dass sowohl naive CoT-Verlängerung als auch verstärktes Überprüfen mit *niedrigerer* Genauigkeit verbunden sind. Während sich CoT Schritt für Schritt entfaltet, können Token-Level-Metriken Weitschweifigkeit mit Prozessqualität vermischen. Wir führen eine Graph-Ansicht von CoT ein, um die Struktur zu extrahieren und identifizieren eine einzelne Kennzahl – den *Failed-Step Fraction (FSF)*, den Anteil der Schritte in abgebrochenen Zweigen –, der durchgängig Länge und Überprüfungsverhältnis bei der Vorhersage der Korrektheit über Modelle hinweg übertrifft. Um Kausalität zu untersuchen, entwerfen wir zwei Interventionen. Erstens ordnen wir Kandidaten-CoTs zur Testzeit nach jeder Metrik, wobei FSF die größten Pass@1-Gewinne liefert; zweitens bearbeiten wir CoTs, um fehlgeschlagene Zweige zu entfernen, was die Genauigkeit signifikant verbessert, was darauf hindeutet, dass fehlgeschlagene Zweige nachfolgendes Reasoning beeinflussen. Zusammengenommen charakterisieren diese Ergebnisse effektive CoTs als solche, die *weniger scheitern*, und unterstützen *strukturbewusstes* Skalieren zur Testzeit gegenüber dem wahllosen Generieren langer CoTs.
Die Fähigkeit, virtuelle Umgebungen zu generieren, ist entscheidend für Anwendungen, die von Gaming bis hin zu physischen KI-Domänen wie Robotik, autonomes Fahren und industrielle KI reichen. Aktuelle lernbasierte 3D-Rekonstruktionsmethoden setzen die Verfügbarkeit von erfassten Multi-View-Daten aus der realen Welt voraus, die nicht immer leicht zugänglich sind. Jüngste Fortschritte in Video-Diffusionsmodellen haben bemerkenswerte Vorstellungskraft gezeigt, doch ihre 2D-Natur beschränkt die Anwendungen auf Simulationen, in denen ein Roboter navigieren und mit der Umgebung interagieren muss. In diesem Artikel schlagen wir ein Selbst-Distillations-Framework vor, das darauf abzielt, das implizite 3D-Wissen in den Video-Diffusionsmodellen in eine explizite 3D-Gaussian-Splatting (3DGS)-Darstellung zu destillieren, wodurch die Notwendigkeit von Multi-View-Trainingsdaten entfällt. Konkret erweitern wir den typischen RGB-Decoder um einen 3DGS-Decoder, der durch die Ausgabe des RGB-Decoders überwacht wird. In diesem Ansatz kann der 3DGS-Decoder ausschließlich mit synthetischen Daten trainiert werden, die von Video-Diffusionsmodellen generiert werden. Zum Zeitpunkt der Inferenz kann unser Modell 3D-Szenen entweder aus einem Text-Prompt oder einem einzelnen Bild für das Echtzeit-Rendering synthetisieren. Unser Framework erweitert sich weiterhin auf die dynamische 3D-Szenengenerierung aus einem monokularen Eingabevideo. Experimentelle Ergebnisse zeigen, dass unser Framework Spitzenleistungen in der statischen und dynamischen 3D-Szenengenerierung erreicht.
Einheitliche multimodale Modelle haben in letzter Zeit beträchtliche Aufmerksamkeit für ihre bemerkenswerten Fähigkeiten erregt, diverse Inhalte gemeinsam zu verstehen und zu generieren. Da Kontexte jedoch zunehmend zahlreiche verschachtelte multimodale Tokens integrieren, verursachen die iterativen Prozesse der Diffusionsentrauschung und des autoregressiven Decodings erheblichen Rechenaufwand. Um dies zu adressieren, schlagen wir Hyper-Bagel vor, ein einheitliches Beschleunigungsframework, das darauf abzielt, sowohl multimodale Verstehens- als auch Generierungsaufgaben gleichzeitig zu beschleunigen. Unser Ansatz verwendet eine Divide-and-Conquer-Strategie, die spekulatives Decoding für die Vorhersage des nächsten Tokens und einen mehrstufigen Destillationsprozess für die Diffusionsentrauschung einsetzt. Das Framework erzielt erhebliche Leistungssteigerungen und erreicht eine mehr als 2-fache Beschleunigung beim multimodalen Verstehen. Für generative Aufgaben liefert unser resultierendes verlustfreies 6-NFE-Modell eine 16,67-fache Beschleunigung bei der Text-zu-Bild-Generierung und eine 22-fache Beschleunigung bei der Bildbearbeitung, wobei die hohe Qualität des ursprünglichen Modells erhalten bleibt. Wir entwickeln weiterhin ein hocheffizientes 1-NFE-Modell, das nahezu Echtzeit-interaktive Bearbeitung und Generierung ermöglicht. Durch die Kombination von fortschrittlicher adversarieller Destillation mit Lernen durch menschliches Feedback erreicht dieses Modell ultimative Kosteneffizienz und Reaktionsfähigkeit, wodurch komplexe multimodale Interaktionen nahtlos und unmittelbar werden.
Die Verwendung kontinuierlicher anstelle diskreter Tokens während der Chain-of-Thought (CoT)-Phase des Denkens in LLMs hat in letzter Zeit Aufmerksamkeit erregt, basierend auf der Intuition, dass eine kontinuierliche Mischung diskreter Tokens eine Überlagerung mehrerer Denkpfade gleichzeitig simulieren könnte. Theoretische Ergebnisse haben formal bewiesen, dass kontinuierliche Tokens eine deutlich größere Ausdruckskraft besitzen und spezifische Probleme effizienter lösen können. Die praktische Anwendung kontinuierlicher Tokens wurde jedoch durch erhebliche Trainingsschwierigkeiten eingeschränkt: Frühere Arbeiten verwenden kontinuierliche Tokens entweder nur zur Inferenzzeit auf einem vortrainierten Modell mit diskreten Tokens oder müssen den kontinuierlichen CoT aus Referenz-CoTs mit diskreten Tokens destillieren und stehen dabei vor Rechenkosten, die den CoT auf sehr wenige Tokens beschränken. Dies ist die erste Arbeit, die eine skalierbare Methode zur Erstellung kontinuierlicher CoTs mittels Reinforcement Learning (RL) einführt, ohne dabei auf Referenz-CoTs mit diskreten Tokens zurückzugreifen. Wir verwenden „weiche“ Tokens: Mischungen von Tokens zusammen mit Rauschen auf der Eingabeeinbettung, um die RL-Exploration zu ermöglichen. Der Rechenaufwand ist minimal, was es uns ermöglicht, kontinuierliche CoTs mit Hunderten von Tokens zu erlernen. Bei mathematischen Denkbenchmarks mit Llama- und Qwen-Modellen bis zu 8B erreicht das Training mit kontinuierlichen CoTs die Leistung von CoTs mit diskreten Tokens bei pass@1 und übertrifft sie bei pass@32, was auf eine größere Vielfalt der CoTs hinweist. In systematischen Vergleichen erweist sich das beste Szenario darin, mit kontinuierlichen CoT-Tokens zu trainieren und dann diskrete Tokens für die Inferenz zu verwenden, was bedeutet, dass die „weichen“ Modelle auf standardisierte Weise eingesetzt werden können. Schließlich zeigen wir, dass das RL-Training mit kontinuierlichen CoTs die Vorhersagen des Basismodells bei Aufgaben außerhalb des Trainingsbereichs besser bewahrt und somit einen sanfteren Eingriff in das Basismodell ermöglicht.
Kürzlich hat 3D Gaussian Splatting (3DGS) als leistungsstarke Alternative zu NeRF-basierten Ansätzen Aufmerksamkeit erregt, da es eine Echtzeit-Synthese hochwertiger neuer Ansichten durch explizite, optimierbare 3D-Gaußsche ermöglicht. Allerdings leidet 3DGS unter einem erheblichen Speicheraufwand, da es auf pro-Gaußsche Parameter angewiesen ist, um sichtabhängige Effekte und anisotrope Formen zu modellieren. Obwohl neuere Arbeiten die Komprimierung von 3DGS mit neuronalen Feldern vorschlagen, haben diese Methoden Schwierigkeiten, hochfrequente räumliche Variationen in Gaußschen Eigenschaften zu erfassen, was zu einer verschlechterten Rekonstruktion feiner Details führt. Wir stellen Hybrid Radiance Fields (HyRF) vor, eine neuartige Szenendarstellung, die die Stärken expliziter Gaußscher und neuronaler Felder kombiniert. HyRF zerlegt die Szene in (1) eine kompakte Menge expliziter Gaußscher, die nur kritische hochfrequente Parameter speichern, und (2) gitterbasierte neuronale Felder, die die verbleibenden Eigenschaften vorhersagen. Um die Darstellungskapazität zu verbessern, führen wir eine entkoppelte Architektur für neuronale Felder ein, die Geometrie (Skalierung, Opazität, Rotation) und sichtabhängige Farbe separat modelliert. Zusätzlich schlagen wir ein hybrides Rendering-Schema vor, das Gaußsches Splatting mit einem durch neuronale Felder vorhergesagten Hintergrund kombiniert und so die Einschränkungen bei der Darstellung entfernter Szenen adressiert. Experimente zeigen, dass HyRF eine state-of-the-art Rendering-Qualität erreicht, während die Modellgröße im Vergleich zu 3DGS um mehr als das 20-fache reduziert wird und die Echtzeit-Leistung erhalten bleibt. Unsere Projektseite ist unter https://wzpscott.github.io/hyrf/ verfügbar.
Dialekte stellen einen bedeutenden Bestandteil der menschlichen Kultur dar und sind in allen Regionen der Welt verbreitet. In Deutschland spricht mehr als 40 % der Bevölkerung einen regionalen Dialekt (Adler und Hansen, 2022). Trotz ihrer kulturellen Bedeutung sehen sich Personen, die Dialekte sprechen, oft mit negativen gesellschaftlichen Stereotypen konfrontiert. Wir untersuchen, ob sich solche Stereotype in großen Sprachmodellen (Large Language Models, LLMs) widerspiegeln. Wir stützen uns auf die soziolinguistische Literatur zur Wahrnehmung von Dialekten, um Eigenschaften zu analysieren, die häufig mit Dialektsprechern assoziiert werden. Basierend auf diesen Eigenschaften bewerten wir den Dialekt-Namensbias und den Dialekt-Nutzungsbias, den LLMs in zwei Aufgaben zeigen: einer Assoziationsaufgabe und einer Entscheidungsaufgabe. Um den Dialekt-Nutzungsbias eines Modells zu bewerten, erstellen wir ein neuartiges Evaluationskorpus, das Sätze aus sieben regionalen deutschen Dialekten (z. B. Alemannisch und Bairisch) mit ihren standarddeutschen Entsprechungen kombiniert. Wir stellen fest, dass: (1) in der Assoziationsaufgabe alle untersuchten LLMs einen signifikanten Dialekt-Namensbias und Dialekt-Nutzungsbias gegenüber deutschen Dialektsprechern aufweisen, der sich in negativen Adjektivassoziationen widerspiegelt; (2) alle Modelle reproduzieren diese Dialekt-Namens- und Dialekt-Nutzungsbiases in ihren Entscheidungen; und (3) im Gegensatz zu früheren Arbeiten, die einen minimalen Bias bei expliziten demografischen Erwähnungen zeigen, stellen wir fest, dass die explizite Kennzeichnung linguistischer Demografien – deutsche Dialektsprecher – den Bias stärker verstärkt als implizite Hinweise wie die Nutzung von Dialekten.
Das konditionale generative Modellieren zielt darauf ab, eine konditionale Datenverteilung aus Stichproben zu lernen, die Daten-Konditions-Paare enthalten. Hierfür haben Diffusions- und flussbasierte Methoden überzeugende Ergebnisse erzielt. Diese Methoden verwenden ein gelerntes (Fluss-)Modell, um ein anfängliches Standard-Gaußsches Rauschen, das die Bedingung ignoriert, in die konditionale Datenverteilung zu transportieren. Das Modell muss somit sowohl den Massentransport als auch die konditionale Injektion erlernen. Um die Anforderungen an das Modell zu verringern, schlagen wir die Condition-Aware Reparameterization for Flow Matching (CAR-Flow) vor – eine leichtgewichtige, gelernte Verschiebung, die die Quell-, die Ziel- oder beide Verteilungen konditioniert. Durch die Verlagerung dieser Verteilungen verkürzt CAR-Flow den Wahrscheinlichkeitspfad, den das Modell lernen muss, was in der Praxis zu schnellerem Training führt. Bei niedrigdimensionalen synthetischen Daten visualisieren und quantifizieren wir die Effekte von CAR. Bei höherdimensionalen natürlichen Bilddaten (ImageNet-256) reduziert die Ausstattung von SiT-XL/2 mit CAR-Flow den FID von 2,07 auf 1,68, während weniger als 0,6 % zusätzliche Parameter eingeführt werden.
Datenknappheit bleibt einer der größten limitierenden Faktoren für den Fortschritt in der Robotik. Allerdings wächst die Menge der verfügbaren Robotikdaten in der realen Welt exponentiell, was neue Möglichkeiten für die großflächige Nutzung von Daten eröffnet. Eine zuverlässige Vorhersage des zeitlichen Aufgabenabschlusses könnte helfen, diese Daten automatisch in großem Maßstab zu annotieren und zu kuratieren. Der Generative Value Learning (GVL)-Ansatz wurde kürzlich vorgeschlagen, der das in Vision-Language-Models (VLMs) eingebettete Wissen nutzt, um den Aufgabenfortschritt aus visuellen Beobachtungen vorherzusagen. Aufbauend auf GVL schlagen wir OpenGVL vor, einen umfassenden Benchmark zur Schätzung des Aufgabenfortschritts über verschiedene anspruchsvolle Manipulationsaufgaben hinweg, die sowohl robotische als auch menschliche Verkörperungen betreffen. Wir bewerten die Fähigkeiten öffentlich verfügbarer Open-Source-Foundation-Models und zeigen, dass Open-Source-Modellfamilien deutlich schlechter abschneiden als ihre Closed-Source-Pendants und nur etwa 70 % ihrer Leistung bei der Vorhersage des zeitlichen Fortschritts erreichen. Darüber hinaus demonstrieren wir, wie OpenGVL als praktisches Werkzeug für die automatisierte Datenkuratierung und -filterung dienen kann, um eine effiziente Qualitätsbewertung großflächiger Robotikdatensätze zu ermöglichen. Wir veröffentlichen den Benchmark zusammen mit dem vollständigen Codebase unter github.com/budzianowski/opengvl{OpenGVL}.
Jüngste Fortschritte bei multimodalen großen Sprachmodellen (MLLMs) haben die Fähigkeiten zur Videoverständnis erheblich verbessert und neue Möglichkeiten für praktische Anwendungen eröffnet. Dennoch konzentrieren sich aktuelle Video-Benchmarks weitgehend auf Innenraumszenen oder kurzfristige Outdoor-Aktivitäten, wodurch die Herausforderungen im Zusammenhang mit Langstreckenreisen weitgehend unerforscht bleiben. Die Beherrschung von erweiterten georäumlich-zeitlichen Trajektorien ist entscheidend für die nächste Generation von MLLMs, da sie reale Aufgaben wie die Planung und Navigation von Embodied-AI unterstützt. Um diese Lücke zu schließen, präsentieren wir VIR-Bench, einen neuartigen Benchmark, der aus 200 Reisevideos besteht und die Rekonstruktion von Reiserouten als anspruchsvolle Aufgabe formuliert, um die georäumlich-zeitliche Intelligenz von MLLMs zu bewerten und voranzutreiben. Experimentelle Ergebnisse zeigen, dass state-of-the-art MLLMs, einschließlich proprietärer Modelle, Schwierigkeiten haben, hohe Punktzahlen zu erreichen, was die Schwierigkeit bei der Verarbeitung von Videos, die erweiterte räumliche und zeitliche Skalen umfassen, unterstreicht. Darüber hinaus führen wir eine detaillierte Fallstudie durch, in der wir einen Prototyp eines Reiseplanungsagenten entwickeln, der die Erkenntnisse aus VIR-Bench nutzt. Die deutlich verbesserten Reiseempfehlungen des Agenten bestätigen, dass unser Bewertungsprotokoll nicht nur Modelle effektiv benchmarket, sondern auch in konkrete Leistungssteigerungen bei nutzerorientierten Anwendungen übersetzt wird.
Die Rekonstruktion präziser Oberflächen mit Radiance Fields hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Allerdings werden vorherrschende Ansätze, die hauptsächlich auf Gaussian Splatting basieren, zunehmend durch Repräsentationsengpässe eingeschränkt. In diesem Artikel stellen wir GeoSVR vor, ein explizites voxelbasiertes Framework, das das bisher wenig erforschte Potenzial von spärlichen Voxeln für die Erzielung präziser, detaillierter und vollständiger Oberflächenrekonstruktionen untersucht und erweitert. Als Stärken unterstützen spärliche Voxel die Bewahrung der Abdeckungsvollständigkeit und geometrischen Klarheit, während sich entsprechende Herausforderungen aus fehlenden Szenenbeschränkungen und der Lokalität bei der Oberflächenverfeinerung ergeben. Um eine korrekte Szenenkonvergenz zu gewährleisten, schlagen wir zunächst eine Voxel-Unsicherheits-Tiefenbeschränkung vor, die die Wirkung monokularer Tiefenhinweise maximiert, während eine voxelorientierte Unsicherheit präsentiert wird, um Qualitätsverschlechterungen zu vermeiden. Dies ermöglicht effektive und robuste Szenenbeschränkungen bei gleichzeitiger Bewahrung hochpräziser Geometrien. Anschließend wird eine Sparse-Voxel-Oberflächenregularisierung entwickelt, um die geometrische Konsistenz für winzige Voxel zu verbessern und die voxelbasierte Bildung scharfer und präziser Oberflächen zu erleichtern. Umfangreiche Experimente demonstrieren unsere überlegene Leistung im Vergleich zu bestehenden Methoden in verschiedenen anspruchsvollen Szenarien, wobei wir in geometrischer Genauigkeit, Detailerhaltung und Rekonstruktionsvollständigkeit hervorstechen, während gleichzeitig eine hohe Effizienz gewährleistet wird. Der Code ist verfügbar unter https://github.com/Fictionarry/GeoSVR.
Simultane Sprach-zu-Text-Übersetzungssysteme (SimulST) müssen eine Balance zwischen Übersetzungsqualität und Latenz – der Verzögerung zwischen Spracheingabe und übersetzter Ausgabe – herstellen. Während die Qualitätsbewertung gut etabliert ist, bleibt die genaue Messung der Latenz eine Herausforderung. Bestehende Metriken liefern oft inkonsistente oder irreführende Ergebnisse, insbesondere im weit verbreiteten Kurzform-Setting, bei dem Sprache künstlich vorsegmentiert wird. In diesem Artikel präsentieren wir die erste umfassende Analyse von SimulST-Latenzmetriken über Sprachpaare, Systeme sowie Kurz- und Langform-Regime hinweg. Wir decken eine strukturelle Verzerrung in aktuellen Metriken auf, die mit der Segmentierung zusammenhängt und faire und aussagekräftige Vergleiche untergräbt. Um dies zu beheben, führen wir YAAL (Yet Another Average Lagging) ein, eine verfeinerte Latenzmetrik, die genauere Bewertungen im Kurzform-Regime liefert. Wir erweitern YAAL zu LongYAAL für unsegmentierte Audiodaten und schlagen SoftSegmenter vor, ein neuartiges Resegmentierungswerkzeug, das auf wortbasierter Ausrichtung beruht. Unsere Experimente zeigen, dass YAAL und LongYAAL gängige Latenzmetriken übertreffen, während SoftSegmenter die Ausrichtungsqualität in der Langform-Bewertung verbessert. Zusammen ermöglichen sie zuverlässigere Bewertungen von SimulST-Systemen.
Dieses Papier stellt CommonForms vor, ein web-skaliges Datenset für die Erkennung von Formularfeldern. Es formuliert das Problem der Formularfelderkennung als Objekterkennung: Gegeben ein Bild einer Seite, sollen die Position und der Typ (Texteingabe, Auswahlschaltfläche, Unterschrift) von Formularfeldern vorhergesagt werden. Das Datenset wurde durch die Filterung von Common Crawl erstellt, um PDFs mit ausfüllbaren Elementen zu finden. Ausgehend von 8 Millionen Dokumenten wurde der Filterungsprozess verwendet, um ein finales Datenset von etwa 55.000 Dokumenten mit über 450.000 Seiten zu erhalten. Analysen zeigen, dass das Datenset eine vielfältige Mischung von Sprachen und Domänen enthält; ein Drittel der Seiten ist nicht in Englisch, und unter den 14 klassifizierten Domänen macht keine Domäne mehr als 25 % des Datensets aus. Zusätzlich präsentiert dieses Papier eine Familie von Formularfelderkennern, FFDNet-Small und FFDNet-Large, die eine sehr hohe durchschnittliche Präzision auf dem CommonForms-Testset erreichen. Jedes Modell kostete weniger als 500 US-Dollar für das Training. Ablationsergebnisse zeigen, dass hochauflösende Eingaben entscheidend für eine hochwertige Formularfelderkennung sind und dass der Bereinigungsprozess die Dateneffizienz im Vergleich zur Verwendung aller PDFs mit ausfüllbaren Feldern in Common Crawl verbessert. Eine qualitative Analyse zeigt, dass sie einen beliebten, kommerziell erhältlichen PDF-Reader, der Formulare vorbereiten kann, übertreffen. Im Gegensatz zu den bekanntesten kommerziell erhältlichen Lösungen kann FFDNet zusätzlich zu Text- und Unterschriftfeldern auch Kontrollkästchen vorhersagen. Dies ist, unseres Wissens nach, das erste groß angelegte Datenset, das für die Formularfelderkennung veröffentlicht wurde, sowie die ersten Open-Source-Modelle. Das Datenset, die Modelle und der Code werden unter https://github.com/jbarrow/commonforms veröffentlicht.
Multispektrale Bilddaten spielen eine entscheidende Rolle in verschiedenen Anwendungen der Fernerkundung, einschließlich der Landnutzungsklassifizierung, Umweltüberwachung und Stadtplanung. Diese Bilder werden häufig verwendet, da ihre zusätzlichen Spektralbänder stark mit physischen Materialien auf der Erde korrelieren, wie beispielsweise Eis, Wasser und Vegetation. Dies ermöglicht eine genauere Identifikation, und ihre öffentliche Verfügbarkeit durch Missionen wie Sentinel-2 und Landsat erhöht ihren Wert zusätzlich. Derzeit wird die automatische Analyse solcher Daten hauptsächlich durch speziell für multispektrale Eingaben trainierte maschinelle Lernmodelle durchgeführt, deren Training und Unterstützung jedoch kostspielig ist. Darüber hinaus können diese zusätzlichen Eingaben, obwohl sie für die Fernerkundung sehr nützlich sind, nicht mit leistungsstarken generalistischen multimodalen Großmodellen verwendet werden, die zwar viele visuelle Probleme lösen können, aber nicht in der Lage sind, spezialisierte multispektrale Signale zu verstehen. Um dies zu adressieren, schlagen wir einen trainingsfreien Ansatz vor, der neue multispektrale Daten in einem reinen Zero-Shot-Modus als Eingaben für generalistische multimodale Modelle einführt, die ausschließlich auf RGB-Eingaben trainiert wurden. Unser Ansatz nutzt das Verständnis der multimodalen Modelle für den visuellen Raum und schlägt vor, die Eingaben an diesen Raum anzupassen und domänenspezifische Informationen als Anweisungen in das Modell zu injizieren. Wir veranschaulichen diese Idee mit dem Gemini2.5-Modell und beobachten deutliche Leistungssteigerungen im Zero-Shot-Betrieb auf populären Fernerkundungs-Benchmarks für die Landbedeckungs- und Landnutzungsklassifizierung. Zudem demonstrieren wir die einfache Anpassungsfähigkeit von Gemini2.5 an neue Eingaben. Diese Ergebnisse unterstreichen das Potenzial für Geodatenexperten, die mit nicht-standardisierten spezialisierten Eingaben arbeiten, leistungsstarke multimodale Modelle wie Gemini2.5 einfach zu nutzen, um ihre Arbeit zu beschleunigen und von deren umfangreichen Schlussfolgerungs- und Kontextfähigkeiten zu profitieren, die auf den spezialisierten Sensordaten basieren.
Roboter-Manipulationsstrategien scheitern oft an der Generalisierung, da sie gleichzeitig lernen müssen, worauf sie achten sollen, welche Aktionen sie ausführen sollen und wie sie diese ausführen sollen. Wir argumentieren, dass hochrangige Überlegungen darüber, wo und was zu tun ist, an Vision-Sprach-Modelle (VLMs) ausgelagert werden können, wodurch die Strategien darauf spezialisiert werden, wie sie handeln sollen. Wir präsentieren PEEK (Policy-agnostic Extraction of Essential Keypoints), das VLMs feinabstimmt, um eine einheitliche punktbasierte Zwischendarstellung vorherzusagen: 1. Endeffektor-Pfade, die angeben, welche Aktionen ausgeführt werden sollen, und 2. aufgabenrelevante Masken, die angeben, wo der Fokus liegen soll. Diese Annotationen werden direkt auf Roboterbeobachtungen überlagert, wodurch die Darstellung strategieunabhängig und übertragbar über verschiedene Architekturen hinweg wird. Um skalierbares Training zu ermöglichen, führen wir eine automatische Annotationspipeline ein, die beschriftete Daten über 20+ Roboterdatensätze hinweg erzeugt, die 9 verschiedene Ausführungen umfassen. In realen Evaluierungen verbessert PEEK durchweg die Null-Shot-Generalisierung, einschließlich einer 41,4-fachen Verbesserung in der realen Welt für eine 3D-Strategie, die nur in der Simulation trainiert wurde, sowie 2-3,5-fache Gewinne sowohl für große VLAs als auch für kleine Manipulationsstrategien. Indem VLMs die semantische und visuelle Komplexität übernehmen, stattet PEEK Manipulationsstrategien mit den minimalen Hinweisen aus, die sie benötigen – wo, was und wie. Website unter https://peek-robot.github.io/.
Wir stellen RadEval vor, ein einheitliches, Open-Source-Framework zur Bewertung von Radiologietexten. RadEval vereint eine Vielzahl von Metriken, von klassischen n-Gramm-Überlappungen (BLEU, ROUGE) und kontextbasierten Maßnahmen (BERTScore) über klinische konzeptbasierte Bewertungen (F1CheXbert, F1RadGraph, RaTEScore, SRR-BERT, TemporalEntityF1) bis hin zu fortschrittlichen LLM-basierten Evaluatoren (GREEN). Wir verfeinern und standardisieren die Implementierungen, erweitern GREEN zur Unterstützung mehrerer Bildgebungsmodalitäten mit einem leichteren Modell und trainieren einen domänenspezifischen Radiologie-Encoder vor, der eine starke Zero-Shot-Retrieval-Leistung demonstriert. Zudem veröffentlichen wir einen umfangreich annotierten Experten-Datensatz mit über 450 klinisch relevanten Fehlerkennzeichnungen und zeigen, wie verschiedene Metriken mit der Beurteilung von Radiologen korrelieren. Schließlich bietet RadEval statistische Testwerkzeuge und Baseline-Modellbewertungen über mehrere öffentlich verfügbare Datensätze hinweg, was die Reproduzierbarkeit und robuste Benchmarking in der Generierung von Radiologieberichten erleichtert.
Wir stellen DRISHTIKON vor, einen einzigartigen multimodalen und mehrsprachigen Benchmark, der ausschließlich auf die indische Kultur ausgerichtet ist und entwickelt wurde, um das kulturelle Verständnis generativer KI-Systeme zu bewerten. Im Gegensatz zu bestehenden Benchmarks mit einem generischen oder globalen Fokus bietet DRISHTIKON eine tiefgehende, feingranulare Abdeckung der vielfältigen Regionen Indiens, die 15 Sprachen umfasst, alle Bundesstaaten und Unionsterritorien abdeckt und über 64.000 ausgerichtete Text-Bild-Paare integriert. Der Datensatz erfasst reiche kulturelle Themen wie Feste, Kleidung, Küchen, Kunstformen und historisches Erbe, um nur einige zu nennen. Wir evaluieren eine breite Palette von Vision-Sprache-Modellen (VLMs), darunter Open-Source-Modelle in kleiner und großer Ausführung, proprietäre Systeme, auf logisches Denken spezialisierte VLMs und auf Indien fokussierte Modelle, sowohl in Zero-Shot- als auch in Chain-of-Thought-Szenarien. Unsere Ergebnisse zeigen wesentliche Einschränkungen in der Fähigkeit aktueller Modelle, über kulturell verankerte, multimodale Eingaben zu schlussfolgern, insbesondere bei ressourcenarmen Sprachen und weniger dokumentierten Traditionen. DRISHTIKON schließt eine wichtige Lücke in der inklusiven KI-Forschung und bietet eine robuste Testumgebung, um kulturell bewusste, multimodal kompetente Sprachtechnologien voranzutreiben.