papers.description
Die Verankerung von grafischen Benutzeroberflächen (GUI) in natürlicher Sprache bildet natürliche Sprachbefehle auf präzise Schnittstellenpositionen für autonome Interaktionen ab. Aktuelle Ansätze des Reinforcement Learning verwenden binäre Belohnungen, die Elemente als Treffer-oder-Fehler-Ziele behandeln, wodurch spärliche Signale entstehen, die den kontinuierlichen Charakter räumlicher Interaktionen ignorieren. Inspiriert vom menschlichen Klickverhalten, das natürlicherweise Gaußsche Verteilungen um Ziellemente herum bildet, führen wir GUI-Gaußsche Verankerungsbelohnungen (GUI-G^2) ein, ein prinzipielles Belohnungsframework, das GUI-Elemente als kontinuierliche Gaußsche Verteilungen über die Schnittstellenebene modelliert. GUI-G^2 integriert zwei synergetische Mechanismen: Gaußsche Punktbelohnungen modellieren präzise Lokalisierung durch exponentiell abfallende Verteilungen, die auf den Schwerpunkten der Elemente zentriert sind, während Abdeckungsbelohnungen die räumliche Ausrichtung bewerten, indem sie die Überlappung zwischen vorhergesagten Gaußschen Verteilungen und Zielregionen messen. Um unterschiedliche Elementgrößen zu handhaben, entwickeln wir einen adaptiven Varianzmechanismus, der die Belohnungsverteilungen basierend auf den Elementdimensionen kalibriert. Dieses Framework transformiert die GUI-Verankerung von einer spärlichen binären Klassifikation zu einer dichten kontinuierlichen Optimierung, bei der Gaußsche Verteilungen reichhaltige Gradientensignale erzeugen, die Modelle zu optimalen Interaktionspositionen führen. Umfangreiche Experimente über die Benchmarks ScreenSpot, ScreenSpot-v2 und ScreenSpot-Pro zeigen, dass GUI-G^2 den state-of-the-art Ansatz UI-TARS-72B deutlich übertrifft, mit der signifikantesten Verbesserung von 24,7 % auf ScreenSpot-Pro. Unsere Analyse zeigt, dass die kontinuierliche Modellierung eine überlegene Robustheit gegenüber Schnittstellenvariationen und eine verbesserte Generalisierung auf unbekannte Layouts bietet, wodurch ein neues Paradigma für räumliches Denken in GUI-Interaktionsaufgaben etabliert wird.
Große Sprachmodelle haben sich in jüngster Zeit von der flüssigen Texterzeugung hin zu fortgeschrittenem Denken über verschiedene Domänen hinweg entwickelt, was zur Entstehung von Reasoning-Sprachmodellen (RLMs) geführt hat. Unter diesen Domänen dient das mathematische Denken als repräsentativer Benchmark, da es präzise mehrstufige Logik und abstraktes Denken erfordert, was auf andere Aufgaben verallgemeinert werden kann. Während Closed-Source-RLMs wie GPT-o3 beeindruckende Denkfähigkeiten demonstrieren, schränkt ihre proprietäre Natur die Transparenz und Reproduzierbarkeit ein. Obwohl viele Open-Source-Projekte diese Lücke schließen wollen, fehlt den meisten ausreichende Offenheit, da kritische Ressourcen wie Datensätze und detaillierte Trainingskonfigurationen weggelassen werden, was die Reproduzierbarkeit behindert. Um zu einer größeren Transparenz in der Entwicklung von RLMs beizutragen, stellen wir die MiroMind-M1-Serie vor, eine Reihe vollständig Open-Source-basierter RLMs, die auf dem Qwen-2.5-Backbone aufbauen und die Leistung bestehender Open-Source-RLMs erreichen oder übertreffen. Konkret werden unsere Modelle in zwei Stufen trainiert: SFT auf einem sorgfältig kuratierten Korpus von 719K mathematischen Denkproblemen mit verifizierten CoT-Trajektorien, gefolgt von RLVR auf 62K herausfordernden und verifizierbaren Problemen. Um die Robustheit und Effizienz des RLVR-Prozesses zu verbessern, führen wir Context-Aware Multi-Stage Policy Optimization ein, einen Algorithmus, der längenprogressive Trainingsmethoden mit einer adaptiven Wiederholungsstrafe kombiniert, um kontextbewusstes RL-Training zu fördern. Unser Modell erreicht state-of-the-art oder wettbewerbsfähige Leistung und überlegene Token-Effizienz unter den auf Qwen-2.5 basierenden Open-Source-7B- und 32B-Modellen auf den Benchmarks AIME24, AIME25 und MATH. Um die Reproduzierbarkeit zu erleichtern, veröffentlichen wir den vollständigen Stack: Modelle (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B); Datensätze (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K); sowie alle Trainings- und Evaluierungskonfigurationen. Wir hoffen, dass diese Ressourcen weitere Forschungen unterstützen und die Fortschritte der Gemeinschaft fördern werden.
Jüngste Fortschritte bei großen Reasoning-Modellen heben Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als vielversprechende Methode zur Verbesserung der Fähigkeiten von KI hervor, insbesondere bei der Lösung komplexer logischer Aufgaben. Es bleibt jedoch unklar, ob RLVR tatsächlich die Reasoning-Grenzen eines Modells erweitert oder lediglich hoch bewertete Ausgaben verstärkt, die das Basismodell bereits kennt, um die Präzision zu verbessern. Diese Studie präsentiert eine theoretische und empirische Untersuchung, die neue Einblicke in die potenziellen Grenzen von RLVR bietet. Zunächst bieten wir eine neue theoretische Perspektive, dass RLVR durch den Support des Basismodells eingeschränkt ist – unfähig, Lösungen mit einer anfänglichen Wahrscheinlichkeit von Null zu sammeln – und als konservativer Gewichtungsmechanismus fungiert, der die Entdeckung völlig originärer Lösungen einschränken kann. Wir identifizieren auch einen Entropie-Belohnungs-Kompromiss: Während RLVR die Präzision zuverlässig verbessert, kann es die Exploration zunehmend einschränken und potenziell korrekte, aber unterrepräsentierte Lösungen übersehen. Umfangreiche empirische Experimente bestätigen, dass RLVR zwar konsistent pass@1 verbessert, die Schrumpfung des empirischen Supports im Allgemeinen die Ausweitung des empirischen Supports bei größeren Sampling-Budgets überwiegt und somit korrekte Antworten, die dem Basismodell zuvor zugänglich waren, nicht wiederhergestellt werden. Interessanterweise beobachten wir auch, dass RLVR manchmal die Token-Level-Entropie erhöht, was zu größerer Unsicherheit bei jedem Generierungsschritt führt, während die Antwort-Level-Entropie abnimmt, was darauf hindeutet, dass diese scheinbar unsichereren Pfade letztendlich auf eine kleinere Menge unterschiedlicher Antworten konvergieren. Zusammengenommen offenbaren diese Erkenntnisse potenzielle Grenzen von RLVR bei der Erweiterung von Reasoning-Horizonten. Das Durchbrechen dieser unsichtbaren Leine könnte zukünftige algorithmische Innovationen erfordern, wie explizite Explorationsmechanismen oder hybride Strategien, die Wahrscheinlichkeitsmasse in unterrepräsentierte Lösungsregionen einbringen.
Jüngste Fortschritte in der generativen Modellierung ermöglichen Bildbearbeitungsassistenten, die natürlichen Sprachanweisungen folgen, ohne zusätzliche Benutzereingaben zu benötigen. Ihr überwachtes Training erfordert Millionen von Tripeln: Originalbild, Anweisung, bearbeitetes Bild. Die Gewinnung pixelgenauer Beispiele ist jedoch schwierig. Jede Bearbeitung muss nur die durch die Anweisung spezifizierten Regionen beeinflussen, stilistische Kohärenz bewahren, physikalische Plausibilität respektieren und visuelle Attraktivität erhalten. Das Fehlen robuster automatisierter Metriken zur Bearbeitungsqualität behindert eine zuverlässige Automatisierung in großem Maßstab. Wir präsentieren eine automatisierte, modulare Pipeline, die hochwertige Tripel über Domänen, Auflösungen, Anweisungskomplexitäten und Stile hinweg gewinnt. Basierend auf öffentlichen generativen Modellen und ohne menschliches Eingreifen nutzt unser System einen aufgabenoptimierten Gemini-Validator, um die Einhaltung der Anweisungen und die Ästhetik direkt zu bewerten, wodurch die Notwendigkeit von Segmentierungs- oder Grounding-Modellen entfällt. Inversion und kompositionelles Bootstrapping vergrößern den gewonnenen Datensatz um etwa das 2,2-fache und ermöglichen so groß angelegte, hochwertige Trainingsdaten. Durch die Automatisierung der repetitivsten Annotationsschritte ermöglicht der Ansatz ein neues Maß an Training ohne menschlichen Labelaufwand. Um die Forschung in diesem ressourcenintensiven Bereich zu demokratisieren, veröffentlichen wir NHR-Edit: einen offenen Datensatz mit 358k hochwertigen Tripeln. In der größten datensatzübergreifenden Evaluation übertrifft er alle öffentlichen Alternativen. Wir veröffentlichen auch Bagel-NHR-Edit, ein Open-Source-Bagel-Modell, das in unseren Experimenten state-of-the-art Metriken erreicht.
Die Einführung von Agenten, die durch große Sprachmodelle (LLMs) angetrieben werden, hat die künstliche Intelligenz revolutioniert, indem sie Lösungen für komplexe, offene Aufgaben durch webbasierte Informationssuche (IS) ermöglicht. Die Knappheit hochwertiger Trainingsdaten hat die Entwicklung von IS-Agenten jedoch eingeschränkt. Bestehende Ansätze folgen typischerweise einem informationsgetriebenen Paradigma, bei dem zunächst Webdaten gesammelt und dann Fragen basierend auf der Retrieval-Ergebnisse generiert werden. Dies kann jedoch zu Inkonsistenzen zwischen Informationsstruktur und Argumentationsstruktur sowie zwischen Frage und Antwort führen. Um dies zu mildern, schlagen wir ein formalisierungsgetriebenes IS-Datensynthese-Framework namens WebShaper vor, um einen Datensatz zu erstellen. WebShaper formalisiert IS-Aufgaben systematisch durch die Mengenlehre. Kern der Formalisierung ist das Konzept der Wissensprojektionen (KP), das eine präzise Kontrolle über die Argumentationsstruktur durch KP-Operationskompositionen ermöglicht. Während der Synthese beginnen wir mit der Erstellung von Ausgangsaufgaben und verwenden dann einen mehrstufigen Erweiterungsprozess. In jedem Schritt erweitert ein agentenbasierter Expander die aktuelle formale Frage komplexer mit Retrieval- und Validierungswerkzeugen, basierend auf unserer Formalisierung. Wir trainieren unser Modell auf dem synthetisierten Datensatz. Experimentelle Ergebnisse zeigen, dass WebShaper bei Open-Source-IS-Agenten auf den Benchmarks GAIA und WebWalkerQA Spitzenleistungen erzielt.
Wir berichten über unsere jüngsten Fortschritte bei der Entwicklung von generalistischen Roboterpolitiken, insbesondere die Entwicklung von GR-3. GR-3 ist ein großskaliges Vision-Language-Action (VLA)-Modell. Es zeigt außergewöhnliche Fähigkeiten bei der Generalisierung auf neue Objekte, Umgebungen und Anweisungen, die abstrakte Konzepte beinhalten. Darüber hinaus kann es effizient mit minimalen menschlichen Trajektoriedaten feinabgestimmt werden, was eine schnelle und kosteneffiziente Anpassung an neue Umgebungen ermöglicht. GR-3 zeichnet sich auch bei der Bewältigung langfristiger und geschickter Aufgaben aus, einschließlich solcher, die bimanuelle Manipulation und mobile Bewegung erfordern, und zeigt dabei eine robuste und zuverlässige Leistung. Diese Fähigkeiten werden durch ein vielseitiges Trainingsrezept erreicht, das Co-Training mit web-skaligen Vision-Language-Daten, effizientes Feinabstimmen aus menschlichen Trajektoriedaten, die über VR-Geräte gesammelt wurden, und effektives Imitationslernen mit Roboter-Trajektoriedaten umfasst. Zusätzlich stellen wir ByteMini vor, einen vielseitigen bimanuellen mobilen Roboter, der mit außergewöhnlicher Flexibilität und Zuverlässigkeit entwickelt wurde und in der Lage ist, eine Vielzahl von Aufgaben zu erfüllen, wenn er mit GR-3 integriert wird. Durch umfangreiche Experimente in der realen Welt zeigen wir, dass GR-3 die state-of-the-art Baseline-Methode pi_0 bei einer Vielzahl von anspruchsvollen Aufgaben übertrifft. Wir hoffen, dass GR-3 als Schritt hin zur Entwicklung von generalistischen Robotern dienen kann, die in der Lage sind, Menschen im täglichen Leben zu unterstützen.
Video Object Segmentation (VOS) ist eine Kernaufgabe in der Computer Vision, bei der Modelle Zielobjekte über Videoframes hinweg verfolgen und segmentieren müssen. Trotz bemerkenswerter Fortschritte durch aktuelle Bemühungen hinken die derzeitigen Techniken den menschlichen Fähigkeiten bei der Bewältigung drastischer visueller Variationen, Verdeckungen und komplexer Szenenveränderungen noch hinterher. Diese Einschränkung ergibt sich aus ihrer Abhängigkeit von der Erscheinungsbildabgleichung, wobei das menschliche konzeptuelle Verständnis von Objekten, das eine robuste Identifikation über zeitliche Dynamiken hinweg ermöglicht, vernachlässigt wird. Motiviert durch diese Lücke schlagen wir Segment Concept (SeC) vor, ein konzeptgetriebenes Segmentierungsframework, das von der herkömmlichen Merkmalsabgleichung zur progressiven Konstruktion und Nutzung von hochwertigen, objektzentrierten Repräsentationen übergeht. SeC setzt Large Vision-Language Models (LVLMs) ein, um visuelle Hinweise über verschiedene Frames hinweg zu integrieren und robuste konzeptuelle Prioritäten zu konstruieren. Während der Inferenz bildet SeC eine umfassende semantische Repräsentation des Ziels basierend auf verarbeiteten Frames, wodurch eine robuste Segmentierung nachfolgender Frames realisiert wird. Darüber hinaus balanciert SeC adaptiv die LVLM-basierte semantische Argumentation mit verbesserter Merkmalsabgleichung und passt die Rechenaufwand dynamisch basierend auf der Szenenkomplexität an. Um VOS-Methoden rigoros in Szenarien zu bewerten, die hochwertige konzeptuelle Argumentation und robustes semantisches Verständnis erfordern, führen wir den Semantic Complex Scenarios Video Object Segmentation Benchmark (SeCVOS) ein. SeCVOS umfasst 160 manuell annotierte Multiszenario-Videos, die darauf ausgelegt sind, Modelle mit erheblichen Erscheinungsbildvariationen und dynamischen Szenentransformationen herauszufordern. Insbesondere erzielt SeC eine Verbesserung von 11,8 Punkten gegenüber SAM 2.1 auf SeCVOS und setzt damit einen neuen Maßstab in der konzeptbewussten Video Object Segmentation.
Jüngste Fortschritte in 3D-Neuronalen Repräsentationen und Modellen zur Bearbeitung auf Instanzebene haben die effiziente Erstellung hochwertiger 3D-Inhalte ermöglicht. Das Erzielen präziser lokaler 3D-Bearbeitungen bleibt jedoch eine Herausforderung, insbesondere für Gaussian Splatting, aufgrund inkonsistenter Multi-View-2D-Teilesegmentierungen und der inhärenten Mehrdeutigkeit des Score Distillation Sampling (SDS)-Verlusts. Um diese Einschränkungen zu überwinden, schlagen wir RoMaP vor, ein neuartiges Framework zur lokalen 3D-Gaussian-Bearbeitung, das präzise und drastische Bearbeitungen auf Teilebene ermöglicht. Zunächst führen wir ein robustes 3D-Maskengenerierungsmodul mit unserer 3D-Geometry Aware Label Prediction (3D-GALP) ein, das sphärische Harmonische (SH)-Koeffizienten verwendet, um sichtabhängige Label-Variationen und Soft-Label-Eigenschaften zu modellieren, wodurch genaue und konsistente Teilesegmentierungen über verschiedene Blickwinkel hinweg erzielt werden. Zweitens schlagen wir einen regularisierten SDS-Verlust vor, der den Standard-SDS-Verlust mit zusätzlichen Regularisierern kombiniert. Insbesondere wird ein L1-Ankerverlust durch unsere Scheduled Latent Mixing and Part (SLaMP)-Bearbeitungsmethode eingeführt, die hochwertige, teilbearbeitete 2D-Bilder erzeugt und die Modifikationen auf die Zielregion beschränkt, während die kontextuelle Kohärenz erhalten bleibt. Zusätzliche Regularisierer, wie die Entfernung des Gaussian-Priors, verbessern die Flexibilität weiter, indem sie Änderungen über den bestehenden Kontext hinaus ermöglichen, und robuste 3D-Maskierung verhindert unbeabsichtigte Bearbeitungen. Experimentelle Ergebnisse zeigen, dass unser RoMaP sowohl qualitativ als auch quantitativ state-of-the-art lokale 3D-Bearbeitungen auf rekonstruierten und generierten Gaussian-Szenen und -Objekten erreicht, wodurch eine robustere und flexiblere Teilebene-3D-Gaussian-Bearbeitung möglich wird. Der Code ist verfügbar unter https://janeyeon.github.io/romap.
Wir stellen Being-H0 vor, ein geschicktes Vision-Language-Action-Modell (VLA), das auf groß angelegten menschlichen Videos trainiert wurde. Bestehende VLAs haben Schwierigkeiten mit komplexen Manipulationsaufgaben, die hohe Geschicklichkeit erfordern, und generalisieren schlecht auf neue Szenarien und Aufgaben, hauptsächlich aufgrund ihrer Abhängigkeit von synthetischen Daten mit erheblichen Sim-to-Real-Lücken oder teleoperierten Demonstrationen, denen es an Umfang und Vielfalt mangelt. Um diesen Datenengpass zu überwinden, schlagen wir vor, die menschliche Hand als grundlegenden Manipulator zu nutzen und die reiche Geschicklichkeit und Skalierbarkeit in Webdaten auszunutzen. Unser Ansatz konzentriert sich auf das physikalische Instruction Tuning, ein neuartiges Trainingsparadigma, das groß angelegtes VLA-Pretraining aus menschlichen Videos, physikalische Raumausrichtung für 3D-Argumentation und Post-Training-Anpassung für robotische Aufgaben kombiniert. Zusätzlich führen wir eine Methode zur Tokenisierung von Bewegungen auf Teilebene ein, die eine Rekonstruktionsgenauigkeit auf Millimeter-Niveau erreicht, um präzise Handtrajektorien für das Aktionslernen zu modellieren. Um unser vorgeschlagenes Paradigma zu unterstützen, entwickeln wir weiterhin eine umfassende Datenkuratierungspipeline, die heterogene Quellen – einschließlich Motion Capture, VR und RGB-Videos – in einen groß angelegten Datensatz mit Millionen von bewegungsbasierten Instruktionsinstanzen integriert. Wir zeigen empirisch die Exzellenz von Being-H0 in der Handbewegungsgenerierung und Instruktionsbefolgung, und es skaliert auch gut mit Modell- und Datengrößen. Wichtig ist, dass wir die erwarteten Gewinne von Being-H0 in der realen robotischen Manipulation beobachten, wenn physikalisches Instruction Tuning angewendet wird. Weitere Details sind verfügbar unter https://beingbeyond.github.io/Being-H0.
Sprachmodelle für gesprochene Sprache (Spoken Language Models, SLMs) sind darauf ausgelegt, Spracheingaben zu verarbeiten und gesprochene Antworten zu generieren. Allerdings fehlt aktuellen SLMs die Fähigkeit, einen internen, unausgesprochenen Denkprozess durchzuführen, bevor sie antworten. Im Gegensatz dazu führen Menschen typischerweise komplexe mentale Überlegungen intern durch, was es ihnen ermöglicht, Ideen klar und präzise zu kommunizieren. Daher ist die Integration eines unausgesprochenen Denkprozesses in SLMs äußerst wünschenswert. Während das naive Generieren einer vollständigen Kette von Gedanken (Chain-of-Thought, CoT) vor dem Sprechen ein Denken für SLMs ermöglichen kann, führt dies zu zusätzlicher Latenz bei der Sprachantwort, da die CoT-Argumentation beliebig lang sein kann. Um dieses Problem zu lösen, schlagen wir Stitch vor, eine neuartige Generierungsmethode, die zwischen der Generierung von unausgesprochenen Denkabschnitten und gesprochenen Antwortabschnitten wechselt. Da die Audiobearbeitungszeit eines gesprochenen Antwortabschnitts deutlich länger ist als die Zeit, die für die Generierung der Token in einem gesprochenen Antwortabschnitt benötigt wird, nutzen wir die verbleibende freie Zeit, um die unausgesprochenen Denk-Token zu generieren. Während ein Audioabschnitt dem Benutzer vorgespielt wird, generiert das Modell weiterhin den nächsten unausgesprochenen Denkabschnitt und erreicht so gleichzeitiges Denken und Sprechen. Bemerkenswerterweise erreicht Stitch die Latenz von Baseline-Modellen, die von Natur aus keine unausgesprochene CoT generieren können, während es diese Baseline-Modelle auf mathematischen Argumentationsdatensätzen um 15 % übertrifft; Stitch schneidet auch auf nicht-argumentativen Datensätzen genauso gut ab wie diese Baseline-Modelle. Einige Animationen und Demonstrationen finden sich auf der Projektseite: https://d223302.github.io/STITCH.
Wir konstruieren Evaluierungsaufgaben, bei denen die Verlängerung der Schlussfolgerungslänge von Large Reasoning Models (LRMs) die Leistung verschlechtert, was eine umgekehrte Skalierungsbeziehung zwischen Testzeit-Rechenleistung und Genauigkeit zeigt. Unsere Evaluierungsaufgaben umfassen vier Kategorien: einfache Zählaufgaben mit Ablenkern, Regressionsaufgaben mit irreführenden Merkmalen, Deduktionsaufgaben mit Einschränkungsverfolgung und fortgeschrittene KI-Risiken. Wir identifizieren fünf verschiedene Fehlermodi, wenn Modelle länger schlussfolgern: 1) Claude-Modelle werden zunehmend durch irrelevante Informationen abgelenkt; 2) OpenAI o-Serie-Modelle widerstehen Ablenkern, aber overfitten Problemformulierungen; 3) Modelle wechseln von vernünftigen Prioritäten zu irreführenden Korrelationen; 4) alle Modelle zeigen Schwierigkeiten, den Fokus auf komplexe deduktive Aufgaben aufrechtzuerhalten; und 5) verlängertes Schlussfolgern kann besorgniserregende Verhaltensweisen verstärken, wobei Claude Sonnet 4 verstärkte Ausdrücke von Selbsterhaltung zeigt. Diese Ergebnisse deuten darauf hin, dass die Skalierung der Testzeit-Rechenleistung zwar vielversprechend für die Verbesserung der Modellfähigkeiten bleibt, jedoch unbeabsichtigt problematische Schlussfolgerungsmuster verstärken kann. Unsere Ergebnisse demonstrieren die Bedeutung der Bewertung von Modellen über verschiedene Schlussfolgerungslängen hinweg, um diese Fehlermodi in LRMs zu identifizieren und zu adressieren.
3D-Gauß-Splatting (3DGS) hat seine detaillierte Ausdrucksfähigkeit und hohe Rendering-Geschwindigkeit in der Aufgabe der neuartigen Ansichtssynthese (Novel View Synthesis, NVS) unter Beweis gestellt. Die Anwendung auf das inverse Rendering steht jedoch vor mehreren Herausforderungen, da die diskrete Natur von Gauß-Primitiven die Anwendung geometrischer Beschränkungen erschwert. Neuere Arbeiten führen das Signed Distance Field (SDF) als zusätzliche kontinuierliche Darstellung ein, um die durch Gauß-Primitive definierte Geometrie zu regularisieren. Dies verbessert die Dekompositionsqualität, allerdings auf Kosten eines erhöhten Speicherverbrauchs und einer komplexeren Trainingsphase. Im Gegensatz zu diesen Ansätzen führen wir ein diskretisiertes SDF ein, das das kontinuierliche SDF in diskreter Form darstellt, indem es innerhalb jedes Gauß-Primitivs durch einen abgetasteten Wert kodiert wird. Dieser Ansatz ermöglicht es uns, das SDF über eine SDF-zu-Opazität-Transformation mit der Gauß-Opazität zu verknüpfen, wodurch das SDF durch Splatting gerendert werden kann und die rechenintensive Ray-Marching-Methode vermieden wird. Die zentrale Herausforderung besteht darin, die diskreten Stichproben so zu regularisieren, dass sie mit dem zugrunde liegenden SDF konsistent sind, da die diskrete Darstellung kaum gradientenbasierte Beschränkungen (z. B. Eikonal-Verlust) anwenden kann. Dazu projizieren wir Gauß-Primitive auf die Null-Level-Set des SDF und erzwingen eine Ausrichtung mit der Oberfläche aus dem Splatting, nämlich einen projektionsbasierten Konsistenzverlust. Dank des diskretisierten SDF erreicht unsere Methode eine höhere Qualität bei der Neubeleuchtung, während sie keinen zusätzlichen Speicher über das GS hinaus benötigt und komplexe manuell gestaltete Optimierungen vermeidet. Die Experimente zeigen, dass unsere Methode bestehende inverse Rendering-Methoden auf Gauß-Basis übertrifft. Unser Code ist unter https://github.com/NK-CS-ZZL/DiscretizedSDF verfügbar.
Menschliche Intelligenz erfordert Korrektheit und Robustheit, wobei erstere die Grundlage für letztere bildet. Im Bereich des Videoverständnisses gewährleistet Korrektheit die präzise Interpretation visueller Inhalte, während Robustheit eine konsistente Leistung unter herausfordernden Bedingungen sicherstellt. Trotz Fortschritten bei Video-Large-Language-Modellen (Video-LLMs) spiegeln bestehende Benchmarks die Kluft zwischen diesen Modellen und menschlicher Intelligenz in Bezug auf die Aufrechterhaltung von Korrektheit und Robustheit bei der Videointerpretation unzureichend wider. Wir führen den Video Thinking Test (Video-TT) ein, um zu bewerten, ob Video-LLMs reale Videos ebenso effektiv wie Menschen interpretieren können. Video-TT deckt echte Lücken im Verständnis komplexer visueller Erzählungen auf und bewertet die Robustheit gegenüber natürlichen adversarischen Fragen. Video-TT umfasst 1.000 YouTube Shorts-Videos, jeweils mit einer offenen Frage und vier adversarischen Fragen, die visuelle und narrative Komplexität untersuchen. Unsere Auswertung zeigt eine signifikante Lücke zwischen der Leistung von Video-LLMs und der menschlichen Leistung.
Reinforcement Learning with Verifiable Rewards (RLVR) hat sich als effektive Methode nach dem Training erwiesen, um die Fähigkeiten von Large Language Models (LLMs) zur logischen Schlussfolgerung zu verbessern, insbesondere durch die Formung höherer Verhaltensweisen wie Reflexion und Planung. Bisherige RLVR-Algorithmen wenden jedoch oft einheitliche Trainingssignale auf alle Tokens an, ohne die unterschiedlichen Rollen von Tokens mit niedriger Entropie, die Wissen repräsentieren, und Tokens mit hoher Entropie, die logisches Denken betreffen, zu berücksichtigen. Einige neuere Methoden versuchen, diese Token-Typen durch Gradient Masking oder asynchrone Updates zu trennen, doch diese Ansätze können semantische Abhängigkeiten in der Modellausgabe unterbrechen und effektives Lernen behindern. In dieser Arbeit schlagen wir Archer vor, einen entropiebewussten RLVR-Ansatz mit dualen Token-Beschränkungen und synchronen Updates. Konkret wendet unsere Methode schwächere KL-Regularisierung und höhere Clipping-Schwellenwerte auf logische Tokens an, um Exploration zu fördern, während stärkere Beschränkungen auf Wissens-Tokens verwendet werden, um faktisches Wissen zu bewahren. Experimentelle Ergebnisse auf mehreren Benchmarks für mathematisches Denken und Code-Generierung zeigen, dass unser Ansatz frühere RLVR-Methoden deutlich übertrifft und die Leistung von Modellen vergleichbarer Größe erreicht oder sogar übertrifft. Der Code ist verfügbar unter https://github.com/wizard-III/ArcherCodeR.
Der rasche Aufstieg von intelligenten Agenten, die auf großen Sprachmodellen (Large Language Models, LLMs) basieren, unterstreicht die Notwendigkeit robuster und skalierbarer Evaluierungsrahmen. Bisherige Methoden stützen sich auf statische Benchmarks und arbeitsintensive Datenerhebungen, was die praktische Bewertung einschränkt. Wir stellen \oursystemname vor, ein Open-Source-Framework, das auf dem Model Context Protocol (MCP) basiert und die automatisierte End-to-End-Aufgabengenerierung sowie die tiefgehende Evaluierung von LLM-Agenten über verschiedene Domänen hinweg ermöglicht. MCPEval standardisiert Metriken, integriert sich nahtlos in native Agenten-Tools und eliminiert den manuellen Aufwand beim Aufbau von Evaluierungspipelines. Empirische Ergebnisse aus fünf realen Anwendungsbereichen zeigen seine Effektivität bei der Aufdeckung nuancenreicher, domänenspezifischer Leistungen. Wir veröffentlichen MCPEval öffentlich unter https://github.com/SalesforceAIResearch/MCPEval, um reproduzierbare und standardisierte Evaluierungen von LLM-Agenten zu fördern.
Videogenerationsmodelle haben bemerkenswerte Fortschritte bei der Erstellung hochwertiger, fotorealistischer Inhalte erzielt. Ihre Fähigkeit, physikalische Phänomene präzise zu simulieren, bleibt jedoch eine kritische und ungelöste Herausforderung. Dieses Papier stellt PhyWorldBench vor, einen umfassenden Benchmark, der entwickelt wurde, um Videogenerationsmodelle anhand ihrer Einhaltung der physikalischen Gesetze zu bewerten. Der Benchmark deckt mehrere Ebenen physikalischer Phänomene ab, von grundlegenden Prinzipien wie Objektbewegung und Energieerhaltung bis hin zu komplexeren Szenarien, die starre Körperinteraktionen sowie menschliche oder tierische Bewegungen umfassen. Zusätzlich führen wir eine neue Kategorie namens „Anti-Physik“ ein, in der Prompts bewusst die physikalischen Gesetze der realen Welt verletzen, um zu bewerten, ob Modelle solchen Anweisungen folgen können, während sie logische Konsistenz bewahren. Neben einer groß angelegten menschlichen Bewertung entwickeln wir auch eine einfache, aber effektive Methode, die aktuelle MLLM (Multimodale Large Language Models) nutzt, um die physikalische Realismusbewertung in einem Zero-Shot-Verfahren durchzuführen. Wir evaluieren 12 state-of-the-art Text-zu-Video-Generationsmodelle, darunter fünf Open-Source- und fünf proprietäre Modelle, mit einer detaillierten Vergleichs- und Analyse. Wir identifizieren zentrale Herausforderungen, denen Modelle bei der Einhaltung der physikalischen Gesetze der realen Welt gegenüberstehen. Durch systematische Tests ihrer Ausgaben über 1.050 sorgfältig ausgewählte Prompts – die grundlegende, zusammengesetzte und Anti-Physik-Szenarien abdecken – identifizieren wir entscheidende Schwierigkeiten, die diese Modelle bei der Einhaltung der physikalischen Realität haben. Anschließend untersuchen wir ihre Leistung bei verschiedenen physikalischen Phänomenen mit unterschiedlichen Prompt-Typen rigoros und leiten gezielte Empfehlungen für die Gestaltung von Prompts ab, die die Treue zu physikalischen Prinzipien verbessern.
Die Wahrnehmung und Rekonstruktion von 4D räumlich-zeitlicher Geometrie aus Videos ist eine grundlegende, aber herausfordernde Aufgabe der Computer Vision. Um interaktive und Echtzeitanwendungen zu ermöglichen, schlagen wir einen Streaming-4D-Visual-Geometry-Transformer vor, der eine ähnliche Philosophie wie autoregressive große Sprachmodelle verfolgt. Wir untersuchen ein einfaches und effizientes Design und verwenden eine kausale Transformer-Architektur, um die Eingabesequenz in Echtzeit zu verarbeiten. Wir nutzen zeitlich kausale Aufmerksamkeit und speichern historische Schlüssel und Werte als implizites Gedächtnis, um eine effiziente Streaming-Langzeit-4D-Rekonstruktion zu ermöglichen. Dieses Design kann Echtzeit-4D-Rekonstruktion durch inkrementelle Integration historischer Informationen bewältigen, während gleichzeitig eine hohe räumliche Konsistenz gewährleistet wird. Für ein effizientes Training schlagen wir vor, Wissen aus dem dichten bidirektionalen Visual-Geometry-Grounded-Transformer (VGGT) in unser kausales Modell zu destillieren. Für die Inferenz unterstützt unser Modell die Migration von optimierten effizienten Aufmerksamkeitsoperatoren (z. B. FlashAttention) aus dem Bereich der großen Sprachmodelle. Umfangreiche Experimente auf verschiedenen 4D-Geometrie-Wahrnehmungs-Benchmarks zeigen, dass unser Modell die Inferenzgeschwindigkeit in Online-Szenarien erhöht, während es wettbewerbsfähige Leistung beibehält, und ebnet so den Weg für skalierbare und interaktive 4D-Visionsysteme. Der Code ist verfügbar unter: https://github.com/wzzheng/StreamVGGT.
Mehrschrittiges Problemlösen ist entscheidend, aber auch herausfordernd für Large Reasoning Models (LRMs), um ihre Argumentation zu reflektieren und auf Feedback zu reagieren. Bisherige Reinforcement Learning (RL)-Methoden trainieren große Reasoning-Modelle in einem Einzelschritt-Paradigma mit überprüfbaren Belohnungen. Wir beobachten jedoch, dass Modelle, die mit bestehenden RL-Paradigmen trainiert werden, oft ihre Fähigkeit verlieren, Probleme über mehrere Schritte hinweg zu lösen, und Schwierigkeiten haben, Antworten basierend auf kontextuellem Feedback zu überarbeiten, was zu repetitiven Antworten führt. Wir stellen die Frage: Können LRMs lernen, ihre Antworten in einem mehrschrittigen Kontext zu reflektieren? In dieser Arbeit zeigen wir, dass das Training von Modellen mit mehrschrittigem RL unter Verwendung von unärem Feedback (z. B. „Versuchen wir es noch einmal“) nach falschen Antworten sowohl die Einzelschritt-Leistung als auch das mehrschrittige Reasoning verbessern kann. Wir führen Unary Feedback as Observation (UFO) für Reinforcement Learning ein, das minimales, aber gängiges unäres Benutzerfeedback während des iterativen Problemlösens nutzt. Es kann problemlos in bestehende Einzelschritt-RL-Trainingssetups integriert werden. Experimentelle Ergebnisse zeigen, dass RL-Training mit UFO die Einzelschritt-Leistung beibehält und die Genauigkeit des mehrschrittigen Reasonings um bis zu 14 % verbessert, wodurch Sprachmodelle besser auf Feedback im mehrschrittigen Problemlösen reagieren können. Um die Anzahl der benötigten Schritte für eine korrekte Antwort weiter zu minimieren und gleichzeitig vielfältiges Reasoning bei Fehlern zu fördern, entwerfen wir Belohnungsstrukturen, die Modelle dazu anleiten, in jedem Schritt sorgfältige und durchdachte Antworten zu liefern. Code: https://github.com/lichengliu03/unary-feedback
Trotz ihrer grundlegenden Rolle bleibt unklar, welche Eigenschaften visuelle Tokenizer effektiver für die generative Modellierung machen könnten. Wir beobachten, dass moderne generative Modelle ein konzeptionell ähnliches Trainingsziel teilen – die Rekonstruktion sauberer Signale aus verrauschten Eingaben wie Gaußschem Rauschen oder Maskierungen – einen Prozess, den wir als Entrauschen bezeichnen. Motiviert durch diese Erkenntnis schlagen wir vor, die Einbettungen des Tokenizers direkt mit dem nachgelagerten Entrauschungsziel abzustimmen, wodurch latente Einbettungen leichter rekonstruiert werden können, selbst wenn sie stark verrauscht sind. Um dies zu erreichen, führen wir den Latent Denoising Tokenizer (l-DeTok) ein, einen einfachen, aber effektiven Tokenizer, der darauf trainiert ist, saubere Bilder aus latenten Einbettungen zu rekonstruieren, die durch interpolatives Rauschen und zufällige Maskierung verrauscht wurden. Umfangreiche Experimente auf ImageNet 256x256 zeigen, dass unser Tokenizer durchweg Standard-Tokenizer in sechs repräsentativen generativen Modellen übertrifft. Unsere Ergebnisse unterstreichen das Entrauschen als grundlegendes Designprinzip für die Entwicklung von Tokenizern, und wir hoffen, dass es neue Perspektiven für zukünftige Tokenizer-Designs anregen könnte.
Während das maschinelle Lernen durch massive Parallelisierung vorangeschritten ist, identifizieren wir einen kritischen blinden Fleck: Einige Probleme sind grundsätzlich sequenzieller Natur. Diese „inhärent seriellen“ Probleme – von mathematischem Denken über physikalische Simulationen bis hin zu sequenzieller Entscheidungsfindung – erfordern voneinander abhängige Berechnungsschritte, die nicht parallelisiert werden können. Ausgehend von der Komplexitätstheorie formalisieren wir diese Unterscheidung und zeigen, dass aktuelle parallelzentrierte Architekturen bei solchen Aufgaben grundlegende Grenzen aufweisen. Wir argumentieren, dass die Anerkennung der seriellen Natur der Berechnung tiefgreifende Auswirkungen auf das maschinelle Lernen, das Modelldesign und die Hardwareentwicklung hat. Da die KI zunehmend komplexe Denkprozesse bewältigt, ist die gezielte Skalierung serieller Berechnungen – nicht nur paralleler Berechnungen – entscheidend für den weiteren Fortschritt.
Wir präsentieren den LLM Economist, ein neuartiges Framework, das agentenbasierte Modellierung verwendet, um Wirtschaftspolitiken in strategischen Umgebungen mit hierarchischer Entscheidungsfindung zu entwerfen und zu bewerten. Auf der unteren Ebene wählen begrenzt rationale Arbeitnehmer-Agenten – instanziiert als persona-bedingte Prompts, die aus US-Zensus-kalibrierten Einkommens- und demografischen Statistiken stammen – ihr Arbeitsangebot, um textbasierte Nutzenfunktionen zu maximieren, die kontextuell gelernt wurden. Auf der oberen Ebene verwendet ein Planer-Agent kontextuelles Reinforcement Learning, um stückweise lineare marginale Steuersätze vorzuschlagen, die an die aktuellen US-Bundessteuerklassen angelehnt sind. Diese Konstruktion verleiht den ökonomischen Simulakren drei Fähigkeiten, die für glaubwürdige fiskalische Experimente erforderlich sind: (i) die Optimierung heterogener Nutzenfunktionen, (ii) die prinzipielle Generierung großer, demografisch realistischer Agentenpopulationen und (iii) das Mechanismusdesign – das ultimative Nudging-Problem – vollständig in natürlicher Sprache ausgedrückt. Experimente mit Populationen von bis zu hundert interagierenden Agenten zeigen, dass der Planer nahe an Stackelberg-Gleichgewichte konvergiert, die das aggregierte Sozialwohl im Vergleich zu Saez-Lösungen verbessern, während ein periodisches, persona-basiertes Abstimmungsverfahren diese Gewinne unter dezentraler Governance weiter steigert. Diese Ergebnisse demonstrieren, dass auf großen Sprachmodellen basierende Agenten gemeinsam komplexe Wirtschaftssysteme modellieren, simulieren und regieren können, wodurch sie ein handhabbares Testfeld für die Politikbewertung auf gesellschaftlicher Ebene bieten, um bessere Zivilisationen zu schaffen.
Die Erzeugung konsistenter langer Videos stellt eine komplexe Herausforderung dar: Während diffusionsbasierte generative Modelle visuell beeindruckende Kurzclips erzeugen, führt ihre Erweiterung auf längere Dauer oft zu Speicherengpässen und langfristigen Inkonsistenzen. In diesem Artikel schlagen wir TokensGen vor, ein neuartiges zweistufiges Framework, das kondensierte Tokens nutzt, um diese Probleme zu adressieren. Unser Ansatz zerlegt die Erzeugung langer Videos in drei Kernaufgaben: (1) semantische Steuerung innerhalb von Clips, (2) langfristige Konsistenzkontrolle und (3) nahtlose Übergänge zwischen Clips. Zunächst trainieren wir To2V (Token-to-Video), ein Kurzvideo-Diffusionsmodell, das durch Text- und Video-Tokens gesteuert wird, mit einem Video-Tokenizer, der kurze Clips in semantisch reiche Tokens kondensiert. Zweitens führen wir T2To (Text-to-Token) ein, einen Video-Token-Diffusionstransformer, der alle Tokens auf einmal erzeugt und so die globale Konsistenz über Clips hinweg sicherstellt. Schließlich verbindet während der Inferenz eine adaptive FIFO-Diffusion-Strategie benachbarte Clips nahtlos, reduziert Grenzartefakte und verbessert die Übergänge. Experimentelle Ergebnisse zeigen, dass unser Ansatz die langfristige zeitliche und inhaltliche Kohärenz signifikant verbessert, ohne prohibitive Rechenkosten zu verursachen. Durch die Nutzung kondensierter Tokens und vortrainierter Kurzvideo-Modelle bietet unsere Methode eine skalierbare, modulare Lösung für die Erzeugung langer Videos und eröffnet neue Möglichkeiten für Geschichtenerzählung, Filmproduktion und immersive Simulationen. Weitere Informationen finden Sie auf unserer Projektseite unter https://vicky0522.github.io/tokensgen-webpage/.
Kontinuierliches Vortraining auf kleinen, aufgabenspezifischen Datensätzen ist eine effektive Methode, um große Sprachmodelle in neuen Zielbereichen zu verbessern, birgt jedoch das Risiko eines katastrophalen Vergessens ihrer ursprünglichen Fähigkeiten. Eine gängige Lösung besteht darin, die Mischungen von Trainingsdaten aus Quell- und Zielbereichen in einem Domänenraum neu zu gewichten, um eine ausgewogene Leistung zu erzielen. Bisherige Strategien zur Domänen-Neugewichtung stützen sich auf manuelle Festlegungen mit bestimmten Heuristiken, die auf menschlicher Intuition oder empirischen Ergebnissen basieren. In dieser Arbeit zeigen wir, dass allgemeinere Heuristiken parametrisiert werden können, indem wir den Data Mixing Agent vorschlagen, das erste modellbasierte, end-to-end Framework, das lernt, Domänen neu zu gewichten. Der Agent lernt generalisierbare Heuristiken durch Reinforcement Learning auf großen Mengen von Datenmischungspfaden mit entsprechendem Feedback aus einer Evaluationsumgebung. Experimente zum kontinuierlichen Vortraining im Bereich des mathematischen Denkens zeigen, dass der Data Mixing Agent starke Baselines in der Erzielung einer ausgewogenen Leistung über Quell- und Zielbereichs-Benchmarks übertrifft. Darüber hinaus generalisiert er gut über ungesehene Quellbereiche, Zielmodelle und Domänenräume hinweg, ohne erneut trainiert zu werden. Die direkte Anwendung im Bereich der Code-Generierung zeigt ebenfalls seine Anpassungsfähigkeit über verschiedene Zielbereiche hinweg. Weitere Analysen zeigen, dass die Heuristiken des Agents gut mit menschlichen Intuitionen übereinstimmen und dass sie effizient eine überlegene Modellleistung mit weniger Daten aus dem Quellbereich erreichen.
Die Bewertung der wissenschaftlichen Entdeckungsfähigkeiten von Agenten, die auf großen Sprachmodellen basieren, insbesondere wie sie mit unterschiedlicher Umweltkomplexität umgehen und Vorwissen nutzen, erfordert spezialisierte Benchmarks, die derzeit in der Landschaft fehlen. Um diese Lücke zu schließen, stellen wir PhysGym vor, eine neuartige Benchmark-Suite und Simulationsplattform zur rigorosen Bewertung des wissenschaftlichen Denkens von LLM-basierten Agenten in interaktiven physikalischen Umgebungen. Der Hauptbeitrag von PhysGym liegt in der präzisen Kontrolle des Niveaus des dem Agenten zur Verfügung gestellten Vorwissens. Dies ermöglicht es Forschern, die Leistung des Agenten entlang von Achsen wie der Komplexität des Problems und den Vorwissensniveaus zu analysieren. Die Benchmark umfasst eine Reihe interaktiver Simulationen, in denen Agenten aktiv Umgebungen untersuchen, Daten sequenziell unter Einschränkungen sammeln und Hypothesen über zugrunde liegende physikalische Gesetze formulieren müssen. PhysGym bietet standardisierte Evaluierungsprotokolle und Metriken zur Bewertung der Hypothesengenauigkeit und Modelltreue. Wir demonstrieren den Nutzen der Benchmark, indem wir Ergebnisse von Baseline-LLMs präsentieren, die ihre Fähigkeit zeigen, Leistungen basierend auf unterschiedlichem Vorwissen und Aufgabenkomplexität zu differenzieren.
Cross-View-Lokalisierung, die Aufgabe, die 3-Freiheitsgrade-Position (3-DoF) einer Kamera durch die Ausrichtung von Bodenbildern mit Satellitenbildern zu schätzen, ist entscheidend für groß angelegte Outdoor-Anwendungen wie autonome Navigation und Augmented Reality. Bestehende Methoden stützen sich oft auf vollständig überwachtes Lernen, das kostspielige Ground-Truth-Positionsannotationen erfordert. In dieser Arbeit schlagen wir GeoDistill vor, ein geometriegeführtes, schwach überwachtes Selbst-Distillations-Framework, das Lehrer-Schüler-Lernen mit Field-of-View (FoV)-basierter Maskierung verwendet, um das lokale Merkmal-Lernen für robuste Cross-View-Lokalisierung zu verbessern. In GeoDistill lokalisiert das Lehrer-Modell ein Panoramabild, während das Schüler-Modell Positionen aus einem begrenzten FoV-Gegenstück vorhersagt, das durch FoV-basierte Maskierung erstellt wird. Durch die Ausrichtung der Vorhersagen des Schülers mit denen des Lehrers konzentriert sich der Schüler auf Schlüsselmerkmale wie Fahrspurmarkierungen und ignoriert texturlose Regionen wie Straßen. Dies führt zu genaueren Vorhersagen und reduzierter Unsicherheit, unabhängig davon, ob die Abfragebilder Panoramen oder begrenzte FoV-Bilder sind. Unsere Experimente zeigen, dass GeoDistill die Lokalisierungsleistung über verschiedene Frameworks hinweg erheblich verbessert. Zusätzlich führen wir ein neuartiges Orientierungsschätzungsnetzwerk ein, das die relative Orientierung ohne präzise Ground-Truth-Planarposition vorhersagt. GeoDistill bietet eine skalierbare und effiziente Lösung für reale Cross-View-Lokalisierungsherausforderungen. Code und Modell sind unter https://github.com/tongshw/GeoDistill verfügbar.
Eine präzise Klassifizierung von Computertomographie (CT)-Bildern ist entscheidend für die Diagnose und Behandlungsplanung, doch bestehende Methoden haben oft Schwierigkeiten mit der subtilen und räumlich diversen Natur pathologischer Merkmale. Aktuelle Ansätze verarbeiten Bilder in der Regel einheitlich, was ihre Fähigkeit einschränkt, lokalisierte Anomalien zu erkennen, die eine gezielte Analyse erfordern. Wir stellen UGPL vor, ein unsicherheitsgeführtes progressives Lernframework, das eine globale bis lokale Analyse durchführt, indem es zunächst Regionen mit diagnostischer Unklarheit identifiziert und dann eine detaillierte Untersuchung dieser kritischen Bereiche vornimmt. Unser Ansatz nutzt evidenzbasiertes Deep Learning, um die Vorhersageunsicherheit zu quantifizieren, und leitet die Extraktion informativer Bildausschnitte durch einen Non-Maximum-Suppression-Mechanismus, der die räumliche Diversität bewahrt. Diese progressive Verfeinerungsstrategie, kombiniert mit einem adaptiven Fusionsmechanismus, ermöglicht es UGPL, sowohl kontextuelle Informationen als auch fein abgestufte Details zu integrieren. Experimente mit drei CT-Datensätzen zeigen, dass UGPL durchweg state-of-the-art-Methoden übertrifft und Verbesserungen von 3,29 %, 2,46 % und 8,08 % in der Genauigkeit bei der Erkennung von Nierenanomalien, Lungenkrebs und COVID-19 erzielt. Unsere Analyse zeigt, dass die unsicherheitsgeführte Komponente erhebliche Vorteile bietet, wobei die Leistung deutlich steigt, wenn die gesamte progressive Lernpipeline implementiert wird. Unser Code ist verfügbar unter: https://github.com/shravan-18/UGPL.
Große Sprachmodelle (LLMs) haben bei Programmieraufgaben starke Leistungen gezeigt, aber können sie Code wie echte Studierende erzeugen – unvollkommen, iterativ und stilistisch vielfältig? Wir präsentieren ParaStudent, eine systematische Studie zur LLM-basierten „studentenähnlichen“ Code-Generierung in einem Einführungskurs für Programmierung. Unter Verwendung eines Datensatzes von zeitgestempelten Studierendenabgaben über mehrere Semester entwerfen wir Experimente mit niedriger und hoher Auflösung, um den Fortschritt der Studierenden zu modellieren und die Code-Ergebnisse entlang semantischer, funktionaler und stilistischer Dimensionen zu bewerten. Unsere Ergebnisse zeigen, dass Feinabstimmung die Übereinstimmung mit realen Lernverläufen der Studierenden signifikant verbessert und Fehlermuster, inkrementelle Verbesserungen sowie stilistische Variationen treffender erfasst. Diese Studie zeigt, dass die Modellierung realistischen Studentencodes das Erfassen von Lernprozessen durch kontextbewusste Generierung, zeitliche Modellierung und mehrdimensionale Bewertung erfordert. Der Code für Experimente und Auswertungen ist verfügbar unter https://github.com/mmiroyan/ParaStudent.