papers.description
In real-worlden Videoszenarien zur Fragebeantwortung bieten Videos oft nur lokalisierte visuelle Hinweise, während verifizierbare Antworten über das offene Web verteilt sind; Modelle müssen daher gleichzeitig extrahierung von Hinweisen über Bildsequenzen hinweg, iteratives Retrieval und mehrstufige verifikationsbasierte Schlussfolgerungen durchführen. Um diese Lücke zu schließen, entwickeln wir den ersten Benchmark für tiefgehende Videoanalyse, VideoDR. VideoDR konzentriert sich auf videobasierte, offene Video-Fragebeantwortung, die Extraktion visueller Ankerpunkte über Bildsequenzen hinweg, interaktive Websuche und mehrstufiges Reasoning über kombinierte Video-Web-Evidenz erfordert; durch rigorose menschliche Annotation und Qualitätskontrolle erhalten wir hochwertige Proben tiefgehender Videoanalyse, die sechs semantische Domänen abdecken. Wir evaluieren mehrere proprietäre und open-source multimodale Großsprachmodelle unter sowohl Workflow- als auch Agenten-Paradigmen, und die Ergebnisse zeigen, dass Agenten nicht durchgängig überlegen gegenüber Workflows sind: ihre Vorteile hängen von der Fähigkeit eines Modells ab, anfängliche Videoankerpunkte über lange Retrieval-Ketten beizubehalten. Weitere Analysen zeigen, dass Zielabweichung und langfristige Konsistenz die Kernengpässe darstellen. Zusammenfassend bietet VideoDR einen systematischen Benchmark zur Untersuchung von Video-Agenten in offenen Webumgebungen und identifiziert die Schlüsselherausforderungen für Agenten der nächsten Generation zur tiefgehenden Videoanalyse.
Während Menschen grundlegende visuelle Fähigkeiten lange vor dem Spracherwerb entwickeln, stützen sich zeitgenössische Multimodale LLMs (MLLMs) nach wie vor stark auf sprachliche Priors, um ihr fragiles visuelles Verständnis zu kompensieren. Wir haben eine entscheidende Tatsache aufgedeckt: State-of-the-Art MLLMs versagen konsequent bei einfachen visuellen Aufgaben, die Menschen, sogar Dreijährige, mühelos lösen können. Um diese Lücke systematisch zu untersuchen, führen wir BabyVision ein, einen Benchmark, der entwickelt wurde, um kernvisuelle Fähigkeiten von MLLMs unabhängig von linguistischem Wissen zu bewerten. BabyVision umfasst eine breite Palette von Aufgaben mit 388 Items, unterteilt in 22 Unterklassen über vier Schlüsselkategorien hinweg. Empirische Ergebnisse und humanevaluation zeigen, dass führende MLLMs signifikant unter menschlichen Referenzwerten abschneiden. Gemini3-Pro-Preview erzielt 49,7 Punkte, liegt damit hinter Sechsjährigen zurück und bleibt deutlich unter dem Erwachsenendurchschnitt von 94,1 Punkten. Diese Ergebnisse zeigen, dass aktuelle MLLMs trotz guter Leistungen in wissensbasierten Evaluationen immer noch grundlegende visuelle Primitive vermissen lassen. Fortschritte bei BabyVision stellen einen Schritt hin zu menschenähnlichen visuellen Wahrnehmungs- und Reasoning-Fähigkeiten dar. Wir erforschen zudem das Lösen visueller Reasoning-Aufgaben mit Generativmodellen durch den Vorschlag von BabyVision-Gen und einem automatischen Evaluations-Toolkit. Unser Code und Benchmark-Daten sind unter https://github.com/UniPat-AI/BabyVision zur Reproduktion veröffentlicht.
Wir stellen Parallel Coordinated Reasoning (PaCoRe) vor, ein Trainings- und Inferenz-Framework, das entwickelt wurde, um eine zentrale Einschränkung aktueller Sprachmodelle zu überwinden: ihre Unfähigkeit, den Test-Time Compute (TTC) weit über sequenzielles Reasoning unter einem festen Kontextfenster hinaus zu skalieren. PaCoRe verlässt das traditionelle sequenzielle Paradigma, indem es den TTC durch massive parallele Erkundung antreibt, die über eine Nachrichtenübertragungsarchitektur in mehreren Runden koordiniert wird. Jede Runde startet viele parallele Reasoning-Pfade, verdichtet deren Erkenntnisse in kontextbegrenzte Nachrichten und synthetisiert diese Nachrichten, um die nächste Runde zu steuern und letztendlich die endgültige Antwort zu erzeugen. Das Modell wird end-to-end mit large-scale, ergebnisbasiertem Reinforcement Learning trainiert, beherrscht die für PaCoRe erforderlichen Synthesefähigkeiten und skaliert auf einen effektiven TTC im Bereich von mehreren Millionen Tokens, ohne die Kontextgrenzen zu überschreiten. Der Ansatz führt zu deutlichen Verbesserungen in verschiedenen Domänen und treibt das Reasoning insbesondere in der Mathematik über die Fähigkeiten von Frontier-Systemen hinaus: Ein 8B-Modell erreicht 94,5 % auf HMMT 2025 und übertrifft damit GPT-5 mit 93,2 %, indem es den effektiven TTC auf etwa zwei Millionen Tokens skaliert. Wir veröffentlichen Modell-Checkpoints, Trainingsdaten und die vollständige Inferenz-Pipeline als Open Source, um Folgearbeiten zu beschleunigen.
Während die Transformer-Architektur in vielen Bereichen dominiert, behindert ihre quadratische Selbstaufmerksamkeitskomplexität den Einsatz in großmaßstäblichen Anwendungen. Lineare Aufmerksamkeit bietet eine effiziente Alternative, doch ihre direkte Anwendung führt oft zu Leistungseinbußen, wobei bestehende Lösungsansätze typischerweise durch zusätzliche Module (z.B. tiefenweise separierbare Faltungen) erneut Rechenaufwand verursachen, der den ursprünglichen Zweck zunichtemacht. In dieser Arbeit identifizieren wir einen zentralen Schwachpunkt dieser Methoden: den Kollaps des globalen Kontexts, bei dem das Modell seine Repräsentationsvielfalt verliert. Um dies zu beheben, schlagen wir Multi-Head Linear Attention (MHLA) vor, das diese Vielfalt durch die Berechnung von Aufmerksamkeit innerhalb aufgeteilter Köpfe entlang der Token-Dimension erhält. Wir beweisen, dass MHLA bei linearem Komplexitätsaufwand einen Großteil der Ausdruckskraft der Softmax-Aufmerksamkeit zurückgewinnen kann, und bestätigen seine Wirksamkeit in mehreren Domänen: Es erzielt eine Verbesserung von 3,6 % bei der ImageNet-Klassifikation, einen Zuwachs von 6,3 % im NLP-Bereich, eine Steigerung von 12,6 % bei der Bildgenerierung und eine Verbesserung von 41 % bei der Videogenerierung bei gleicher Zeitkomplexität.
Competitive Programming stellt aufgrund seines hohen Anspruchs an schlussfolgerndes Denken und seiner hohen logischen Komplexität eine große Herausforderung für Code-LLMs dar. Allerdings sind aktuelle Code-LLMs nach wie vor stark auf reale Daten angewiesen, was ihre Skalierbarkeit einschränkt. In diesem Beitrag untersuchen wir einen vollständig synthetischen Ansatz: das Trainieren von Code-LLMs mit vollständig generierten Aufgaben, Lösungen und Testfällen, um Modelle für das Code-Verständnis zu stärken, ohne auf reale Daten zurückgreifen zu müssen. Um dies zu ermöglichen, nutzen wir feature-basierte Synthese und schlagen eine neuartige Daten-Synthese-Pipeline namens SynthSmith vor. SynthSmith zeigt ein starkes Potenzial, vielfältige und anspruchsvolle Aufgaben zusammen mit verifizierten Lösungen und Tests zu erzeugen, und unterstützt sowohl überwachtes Fein-Tuning als auch Reinforcement Learning. Basierend auf den vorgeschlagenen synthetischen SFT- und RL-Datensätzen führen wir die X-Coder-Modellreihe ein, die eine bemerkenswerte Pass-Rate von 62,9 avg@8 auf LiveCodeBench v5 und 55,8 auf v6 erreicht und damit DeepCoder-14B-Preview und AReal-boba2-14B übertrifft, obwohl sie nur 7B Parameter hat. Eine eingehende Analyse zeigt, dass Skalierungsgesetze auf unserem synthetischen Datensatz gelten, und wir untersuchen, welche Dimensionen effektiver zu skalieren sind. Wir liefern weiterhin Einblicke in code-zentriertes Reinforcement Learning und heben die Schlüsselfaktoren hervor, die die Leistung durch detaillierte Ablationen und Analysen prägen. Unsere Ergebnisse zeigen, dass die Skalierung hochwertiger synthetischer Daten und die Einführung eines gestaffelten Trainings das Code-Verständnis erheblich voranbringen können, während die Abhängigkeit von realen Programmierdaten verringert wird.
Jüngste Fortschritte bei Reasoning-Modellen und agentenbasierten KI-Systemen haben zu einer verstärkten Nutzung diverser externer Informationen geführt. Dieser Wandel führt jedoch zu Eingabekontexten, die inhärent verrauscht sind – eine Realität, die aktuelle bereinigte Benchmarks nicht erfassen. Wir stellen NoisyBench vor, einen umfassenden Benchmark, der die Robustheit von Modellen systematisch über 11 Datensätze in RAG-, Reasoning-, Alignment- und Tool-Use-Aufgaben gegenüber verschiedenen Rauschtypen evaluiert, darunter zufällige Dokumente, irrelevante Chatverläufe und schwierige negative Ablenkungen. Unsere Auswertung zeigt einen katastrophalen Leistungseinbruch von bis zu 80 % bei state-of-the-art Modellen im Umgang mit kontextuellen Ablenkungen. Entscheidend ist, dass wir feststellen, dass agentenbasierte Workflows diese Fehler oft verstärken, indem sie verrauschten Tool-Ausgaben zu stark vertrauen, und dass Ablenkungen emergentes Fehlverhalten auslösen können, selbst ohne adversäre Absicht. Wir zeigen, dass Prompting, Context Engineering, SFT und ergebnisbasierte RL-Verfahren keine Robustheit gewährleisten; im Gegensatz dazu stärkt unser vorgeschlagener Rationale-Aware Reward (RARE) die Resilienz signifikant, indem er die Identifikation hilfreicher Informationen innerhalb des Rauschens belohnt. Schließlich decken wir einen inversen Skalierungstrend auf, bei dem erhöhte Rechenleistung zur Testzeit zu schlechterer Leistung in verrauschten Umgebungen führt, und demonstrieren mittels Attention-Visualisierung, dass Modelle sich überproportional auf Stör-Tokens konzentrieren – wesentliche Erkenntnisse für die Entwicklung der nächsten Generation robuster, reasoning-fähiger Agenten.
Große Reasoning-Modelle (LRMs) erzielen bemerkenswerte Leistungen durch das explizite Generieren mehrstufiger Gedankenketten, doch diese Fähigkeit verursacht erhebliche Inferenzlatenz und Rechenkosten. Kollaborative Inferenz bietet eine vielversprechende Lösung, indem Arbeit selektiv zwischen leichtgewichtigen und großen Modellen verteilt wird, doch eine grundlegende Herausforderung bleibt bestehen: zu bestimmen, wann ein Reasoning-Schritt die Kapazität eines großen Modells oder die Effizienz eines kleinen Modells erfordert. Bestehende Routing-Strategien verlassen sich entweder auf lokale Token-Wahrscheinlichkeiten oder nachträgliche Verifikation, was erheblichen Inferenz-Overhead verursacht. In dieser Arbeit schlagen wir eine neuartige Perspektive für schrittweise Kollaboration vor: Die Schwierigkeit eines Reasoning-Schritts lässt sich bereits anhand seines allerersten Tokens ableiten. Inspiriert durch das "Aha-Moment"-Phänomen in LRMs zeigen wir, dass die Entropie des initialen Tokens ein starker Prädiktor für die Schritt-Schwierigkeit ist. Aufbauend auf dieser Erkenntnis stellen wir GlimpRouter vor, ein trainierungsfreies, schrittweises Kollaborationsframework. GlimpRouter verwendet ein leichtgewichtiges Modell, um nur den ersten Token jedes Reasoning-Schritts zu generieren, und leitet den Schritt nur dann an ein größeres Modell weiter, wenn die anfängliche Token-Entropie einen Schwellenwert überschreitet. Experimente auf mehreren Benchmarks demonstrieren, dass unser Ansatz die Inferenzlatenz signifikant reduziert und gleichzeitig die Genauigkeit erhält. Beispielsweise erzielt GlimpRouter auf AIME25 eine substantielle Verbesserung der Genauigkeit um 10,7 % bei gleichzeitiger Reduzierung der Inferenzlatenz um 25,9 % im Vergleich zu einem eigenständigen großen Modell. Diese Ergebnisse deuten auf einen einfachen, aber effektiven Mechanismus für Reasoning hin: Die Zuteilung von Rechenressourcen basierend auf einem flüchtigen Eindruck des Gedankens anstelle einer vollständigen Schrittbewertung.
Während Vision-Language-Modelle (VLMs) Computer-Using Agents (CUAs) erheblich vorangebracht haben, kämpfen aktuelle Frameworks mit Robustheit in langfristigen Workflows und Generalisierung in neuartigen Domänen. Diese Einschränkungen resultieren aus einem Mangel an granularer Kontrolle über die Kuratierung historischer visueller Kontexte und dem Fehlen einer visuell-bewussten Tutorial-Retrieval. Um diese Lücken zu schließen, stellen wir OS-Symphony vor, ein holistisches Framework, das einen Orchestrator umfasst, der zwei zentrale Innovationen für robuste Automatisierung koordiniert: (1) einen Reflection-Memory-Agenten, der meilenstein-gesteuertes Langzeitgedächtnis nutzt, um Trajektorien-basierte Selbstkorrektur zu ermöglichen und so den Verlust visueller Kontexte in langfristigen Aufgaben effektiv abmildert; (2) vielseitige Tool-Agenten mit einem Multimodal-Searcher, der ein SeeAct-Paradigma anwendet, um in einer browserbasierten Sandbox zu navigieren und live, visuell abgestimmte Tutorials zu synthetisieren, wodurch Treueprobleme in ungesehenen Szenarien gelöst werden. Experimentelle Ergebnisse demonstrieren, dass OS-Symphony substantiale Leistungssteigerungen über verschiedene Modellskalen hinweg erzielt und neue State-of-the-Art-Ergebnisse auf drei Online-Benchmarks etabliert, insbesondere mit 65,84 % auf OSWorld.
Diffusions-Sprachmodelle (DLMs) bieten eine vielversprechende Alternative für Sprachmodellierung, indem sie parallele Decodierung durch iterative Verfeinerung ermöglichen. Die meisten DLMs beruhen jedoch auf harten binären Maskierungen und diskreten Token-Zuweisungen, was die Revision früher Entscheidungen behindert und Zwischenrepräsentationen mit probabilistischem Charakter unzureichend nutzt. In diesem Artikel stellen wir EvoToken-DLM vor, einen neuartigen diffusionsbasierten Sprachmodellierungsansatz, der harte binäre Masken durch sich entwickelnde weiche Token-Verteilungen ersetzt. EvoToken-DLM ermöglicht einen progressiven Übergang von maskierten Zuständen zu diskreten Ausgaben und unterstützt revidierbare Decodierung. Um diese Entwicklung effektiv zu unterstützen, führen wir kontinuierliche Trajektorienüberwachung ein, die die Trainingsziele mit iterativen probabilistischen Aktualisierungen in Einklang bringt. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass EvoToken-DLM durchweg eine überlegene Leistung erzielt und starke diffusionsbasierte sowie maskierte DLM-Baselines übertrifft. Projektwebseite: https://aim-uofa.github.io/EvoTokenDLM.
Da LLM-basierte Agenten zunehmend in langfristigen Interaktionen eingesetzt werden, ist kumulatives Gedächtnis entscheidend für Personalisierung und die Beibehaltung stilistischer Konsistenz. Allerdings verwenden die meisten bestehenden Systeme einen „Alles-oder-nichts“-Ansatz zur Gedächtnisnutzung: Die Einbeziehung aller relevanten Vergangenheitsinformationen kann zu „Memory Anchoring“ führen, bei dem der Agent in vergangenen Interaktionen gefangen ist, während der vollständige Ausschluss des Gedächtnisses zu Unterauslastung und Verlust wichtiger Interaktionshistorie führt. Wir zeigen, dass die Abhängigkeit eines Agenten vom Gedächtnis als explizite und benutzerkontrollierbare Dimension modelliert werden kann. Wir führen zunächst eine behavioralistische Metrik der Gedächtnisabhängigkeit ein, um den Einfluss vergangener Interaktionen auf aktuelle Outputs zu quantifizieren. Anschließend schlagen wir den Steerable Memory Agent (SteeM) vor – ein Framework, das Benutzern ermöglicht, die Gedächtnisabhängigkeit dynamisch zu regulieren, von einem Neustart-Modus, der Innovation fördert, bis zu einem Hochpräzisions-Modus, der eng der Interaktionshistorie folgt. Experimente in verschiedenen Szenarien zeigen, dass unser Ansatz konventionelle Prompting-Strategien und rigide Gedächtnismaskierung durchgängig übertrifft und eine differenziertere und effektivere Steuerung für personalisierte Mensch-Agent-Kollaboration ermöglicht.
Die rasante Entwicklung interaktiver und autonomer KI-Systeme markiert unseren Eintritt in die Ära der Agenten. Das Training und die Evaluierung von Agenten für komplexe agentenbasierte Aufgaben wie Softwareentwicklung und Computernutzung erfordert nicht nur effiziente Modellberechnungen, sondern auch eine ausgeklügelte Infrastruktur, die umfangreiche Agenten-Umgebungs-Interaktionen koordinieren kann. Bislang existiert jedoch keine Open-Source-Infrastruktur, die Training und Evaluierung in großem Maßstab für derart komplexe agentenbasierte Aufgaben effektiv unterstützen kann. Um diese Herausforderung zu bewältigen, stellen wir MegaFlow vor – ein großskaliges verteiltes Orchestrierungssystem, das effizientes Scheduling, Ressourcenzuteilung und feingranulare Aufgabenverwaltung für Agenten-Umgebungs-Workloads ermöglicht. MegaFlow abstrahiert die Agenten-Trainingsinfrastruktur in drei unabhängige Dienste (Model Service, Agent Service und Environment Service), die über einheitliche Schnittstellen interagieren und unabhängige Skalierung sowie flexible Ressourcenzuteilung über verschiedene Agenten-Umgebungs-Konfigurationen hinweg ermöglichen. In unseren Agenten-Trainingsdeployments orchestriert MegaFlow erfolgreich zehntausende gleichzeitige Agentenaufgaben bei hoher Systemstabilität und effizienter Ressourcennutzung. Durch die Ermöglichung solch großskaliger Agenten-Trainings schließt MegaFlow eine kritische Infrastrukturlücke in der aufstrebenden Landschaft agentenbasierter KI.
Da hochwertige Daten zunehmend schwerer zu beschaffen sind, hat sich die datenfreie Selbstevolution als vielversprechendes Paradigma etabliert. Dieser Ansatz ermöglicht es großen Sprachmodellen (LLMs), autonom komplexe Probleme zu generieren und zu lösen, wodurch ihre Fähigkeiten zum logischen Schlussfolgern verbessert werden. Allerdings haben Such-Agenten mit Mehrschritt-Interaktionen in datenfreier Selbstevolution Schwierigkeiten, was auf die begrenzte Fragenvielfalt und den erheblichen Rechenaufwand für mehrstufiges Schlussfolgern und Werkzeugeinsatz zurückzuführen ist. In dieser Arbeit stellen wir Dr. Zero vor, ein Framework, das Such-Agenten eine effektive Selbstevolution ohne jegliche Trainingsdaten ermöglicht. Insbesondere entwerfen wir eine Selbstevolutions-Rückkopplungsschleife, in der ein Vorschlagender (Proposer) diverse Fragen generiert, um einen Löser (Solver) zu trainieren, der aus demselben Basismodell initialisiert wird. Während der Löser sich weiterentwickelt, incentiviert er den Vorschlagenden, zunehmend schwierige, aber lösbare Aufgaben zu produzieren, und etabliert so einen automatisierten Lehrplan zur Verfeinerung beider Agenten. Um die Trainingseffizienz zu steigern, führen wir außerdem eine hop-gruppierte relative Optimierung der Strategie (Hop-grouped Relative Policy Optimization, HRPO) ein. Diese Methode clustert strukturell ähnliche Fragen, um gruppenweite Vergleichsbaselines zu konstruieren, und minimiert so effektiv den Stichprobenaufwand bei der Bewertung der individuellen Schwierigkeit und Lösbarkeit jeder Anfrage. Folglich reduziert HRPO den Rechenbedarf für das Training des Lösers erheblich, ohne Leistung oder Stabilität zu beeinträchtigen. Umfangreiche Experimente zeigen, dass der datenfreie Dr. Zero vollständig überwachte Such-Agenten erreicht oder übertrifft, was beweist, dass komplexe Schlussfolgerungs- und Suchfähigkeiten allein durch Selbstevolution entstehen können.
Videogenerationsmodelle als eine Form von Weltmodellen haben sich zu einer der spannendsten Grenzen der KI entwickelt, indem sie Agenten die Fähigkeit verleihen, die Zukunft zu imaginieren, indem sie die zeitliche Entwicklung komplexer Szenen modellieren. Im autonomen Fahren führt diese Vision zu Fahr-Weltmodellen: generative Simulatoren, die Ego- und Agenten-Zukünfte imaginieren und damit skalierbare Simulation, sichere Tests von Grenzfällen und umfangreiche synthetische Datengenerierung ermöglichen. Trotz schnell wachsender Forschungsaktivitäten fehlt dem Feld jedoch ein rigoroser Benchmark, um Fortschritte zu messen und Prioritäten zu setzen. Bestehende Evaluationen bleiben begrenzt: generische Videometriken übersehen sicherheitskritische Bildfaktoren; Trajektorienplausibilität wird selten quantifiziert; zeitliche und agentenbezogene Konsistenz wird vernachlässigt; und Kontrollierbarkeit bezüglich Ego-Konditionierung bleibt unberücksichtigt. Zudem decken aktuelle Datensätze nicht die für den Realbetrieb erforderliche Vielfalt an Bedingungen ab. Um diese Lücken zu schließen, präsentieren wir DrivingGen, den ersten umfassenden Benchmark für generative Fahr-Weltmodelle. DrivingGen kombiniert einen diversen Evaluationsdatensatz – kuratiert aus Fahrzeugdatensätzen und internetweiten Videoquellen, der verschiedene Wetterbedingungen, Tageszeiten, geografische Regionen und komplexe Manöver abdeckt – mit einer Reihe neuer Metriken, die gemeinsam visuelle Realitätstreue, Trajektorienplausibilität, zeitliche Kohärenz und Kontrollierbarkeit bewerten. Das Benchmarking von 14 State-of-the-Art-Modellen zeigt klare Zielkonflikte: Allgemeine Modelle sehen besser aus, verletzen jedoch physikalische Gesetze, während fahrspezifische Modelle Bewegungen realistisch erfassen, aber in der visuellen Qualität zurückfallen. DrivingGen bietet einen einheitlichen Evaluationsrahmen, um zuverlässige, kontrollierbare und einsatzfähige Fahr-Weltmodelle zu fördern, die skalierbare Simulation, Planung und datengestützte Entscheidungsfindung ermöglichen.
Latente Diffusionsmodelle (LDMs) erzeugen hochwertige Bilder, indem sie in einem komprimierten latenten Raum operieren, der typischerweise durch Bild-Tokenizer wie Variational Autoencoder (VAEs) gewonnen wird. Um einen generierungsfreundlichen VAE zu entwickeln, haben neuere Studien untersucht, Vision Foundation Models (VFMs) als Repräsentationsausrichtungsziele für VAEs zu nutzen, ähnlich dem Ansatz, der üblicherweise für LDMs verwendet wird. Obwohl dies gewisse Leistungssteigerungen bringt, übersieht die Verwendung desselben Ausrichtungsziels für sowohl VAEs als auch LDMs deren grundlegend unterschiedliche Repräsentationsanforderungen. Wir vertreten die Ansicht, dass VAEs, während LDMs von latenten Räumen profitieren, die hochlevelige semantische Konzepte beibehalten, sich durch semantische Entflechtung auszeichnen sollten, um Attribut-Informationen auf strukturierte Weise kodieren zu können. Um dies zu adressieren, schlagen wir den Semantic Disentangled VAE (Send-VAE) vor, der explizit für entflochtenes Repräsentationslernen optimiert ist, indem sein latenter Raum mit der semantischen Hierarchie vortrainierter VFMs ausgerichtet wird. Unser Ansatz verwendet ein nichtlineares Mapper-Netzwerk, um VAE-latente Räume zu transformieren und sie mit VFMs abzugleichen, um die Lücke zwischen attributbasierter Entflechtung und hochleveliger Semantik zu überbrücken und so eine effektive Lenkung für das VAE-Lernen zu ermöglichen. Wir evaluieren die semantische Entflechtung durch Linear Probing bei Attributvorhersageaufgaben, was eine starke Korlation mit verbesserter Generierungsleistung zeigt. Abschließend trainieren wir mit Send-VAE flow-basierte Transformer (SiTs); Experimente zeigen, dass Send-VAE das Training deutlich beschleunigt und einen state-of-the-art FID von 1.21 bzw. 1.75 mit und ohne Classifier-Free Guidance auf ImageNet 256x256 erreicht.
Aktuelle Vision-Language-Benchmarks bestehen überwiegend aus wohlstrukturierten Fragen mit klaren, expliziten Prompt-Formulierungen. Reale Nutzeranfragen sind jedoch häufig informell und unterbestimmt. Nutzer lassen natürlicherweise vieles unausgesprochen und verlassen sich auf Bilder, um den Kontext zu vermitteln. Wir stellen HAERAE-Vision vor, einen Benchmark mit 653 realen visuellen Fragen aus koreanischen Online-Communities (0,76 % Überlebensrate aus 86.000 Kandidaten), die jeweils mit einer expliziten Neufassung gepaart sind, was insgesamt 1.306 Abfragevarianten ergibt. Bei der Evaluation von 39 VLMs stellen wir fest, dass selbst State-of-the-Art-Modelle (GPT-5, Gemini 2.5 Pro) bei den ursprünglichen Anfragen unter 50 % erreichen. Entscheidend ist, dass die alleinige Explizitmachung der Abfrage Verbesserungen von 8 bis 22 Prozentpunkten bringt, wobei kleinere Modelle am meisten profitieren. Wir zeigen weiter, dass selbst mit Websuche unterbestimmte Anfragen schlechter abschneiden als explizite Anfragen ohne Suche, was offenbart, dass aktuelle Retrieval-Verfahren nicht kompensieren können, was Nutzer unausgesprochen lassen. Unsere Ergebnisse belegen, dass ein erheblicher Teil der Schwierigkeiten von VLMs auf der natürlichen Unterbestimmtheit von Anfragen beruht und nicht auf den Modellfähigkeiten, was eine kritische Lücke zwischen Benchmark-Evaluation und realem Einsatz aufzeigt.
Große Sprachmodelle (LLMs) können ihre parametrischen Wissensgrenzen durch die Übernahme des Tool-Integrated Reasoning (TIR)-Paradigmas erweitern. Allerdings konzentrieren sich bestehende LLM-basierte Agenten-Trainingsframeworks oft auf die Genauigkeit der Antworten und übersehen dabei eine spezifische Ausrichtung auf Verhaltensmuster. Folglich zeigen Agenten bei TIR-Aufgaben häufig ineffektive Aktionen, wie redundante und unzureichende Tool-Aufrufe. Wie fehlerhafte Verhaltensmuster bei der Ausführung von TIR-Aufgaben kalibriert werden können, um effektive Trajektorien zu erkunden, bleibt ein offenes Problem. In diesem Artikel schlagen wir ET-Agent vor, ein Trainingsframework zur Kalibrierung des Tool-Nutzungsverhaltens von Agenten durch zwei synergetische Perspektiven: Selbst-evolvierendes Data Flywheel und Behavior Calibration Training. Konkret führen wir ein selbst-evolvierendes Data Flywheel ein, um verbesserte Daten zu generieren, die zur Feinabstimmung des LLM verwendet werden, um dessen Explorationsfähigkeit zu verbessern. Darauf aufbauend implementieren wir ein zweiphasiges Behavior-Calibration-Training-Framework. Dieses ist darauf ausgelegt, fehlerhafte Verhaltensmuster schrittweise auf optimale Verhaltensweisen zu kalibrieren. Weitere vertiefte Experimente bestätigen die Überlegenheit unseres Ansatzes in mehreren Dimensionen, einschließlich Korrektheit, Effizienz, Schlüssigkeit der Argumentation und Genauigkeit der Tool-Ausführung. Unser ET-Agent-Framework liefert praktische Erkenntnisse für die Forschung im TIR-Bereich. Der Code ist unter https://github.com/asilverlight/ET-Agent verfügbar.
Während Chain-of-Thought große visuell-sprachliche Modelle mit mehrstufigem Reasoning befähigt, leiden explizite textuelle Begründungen unter einem Informationsbandbreiten-Engpass, bei dem kontinuierliche visuelle Details während der diskreten Tokenisierung verloren gehen. Jüngste latente Reasoning-Methoden versuchen, diese Herausforderung zu bewältigen, unterliegen jedoch oft einem vorzeitigen semantischen Kollaps aufgrund starrer autoregressiver Zielvorgaben. In diesem Artikel schlagen wir Laser vor, ein neuartiges Paradigma, das visuelles Deduzieren durch Dynamic Windowed Alignment Learning (DWAL) neu formuliert. Anstatt eine punktgenaue Vorhersage zu erzwingen, richtet Laser den latenten Zustand an einem dynamischen Gültigkeitsfenster zukünftiger Semantik aus. Dieser Mechanismus erzwingt eine kognitive Hierarchie nach dem "Wald-vor-Bäume"-Prinzip, die es dem Modell ermöglicht, eine probabilistische Superposition globaler Merkmale beizubehalten, bevor es sich auf lokale Details eingrenzt. Entscheidend ist, dass Laser die Interpretierbarkeit durch decodierbare Trajektorien bewahrt, während es unbegrenztes Lernen durch Self-Refined Superposition stabilisiert. Umfangreiche Experimente auf 6 Benchmarks zeigen, dass Laser state-of-the-art Leistung unter latenten Reasoning-Methoden erreicht und die starke Baseline Monet im Durchschnitt um 5,03% übertrifft. Bemerkenswerterweise erzielt es diese Gewinne mit extremer Effizienz, reduziert Inferenz-Tokens um mehr als 97% und zeigt gleichzeitig robuste Generalisierung in Out-of-Distribution-Domänen.
Reiseplanung ist ein anspruchsvoller Entscheidungsprozess, der die Synthese vielschichtiger Informationen zur Erstellung von Reiserouten erfordert. Bestehende Ansätze zur Reiseplanung stehen jedoch vor mehreren Herausforderungen: (1) Die Reduzierung von Kandidaten für Points of Interest (POIs) bei gleichzeitiger Aufrechterhaltung einer hohen Recall-Rate; (2) Ein einzelner Reasoning-Pfad schränkt die Erschließungsfähigkeit innerhalb des zulässigen Lösungsraums für die Reiseplanung ein; (3) Die gleichzeitige Optimierung harter und weicher Constraints bleibt eine große Schwierigkeit. Um diese Herausforderungen zu bewältigen, schlagen wir TourPlanner vor, einen umfassenden Rahmen mit Multi-Path-Reasoning und Constraint-gesteuertem Reinforcement Learning. Konkret führen wir zunächst einen Workflow zur personalisierten Recall- und räumlichen Optimierung (PReSO) ein, um einen räumlich optimierten Kandidaten-POI-Satz zu konstruieren. Anschließend schlagen wir Competitive Consensus Chain-of-Thought (CCoT) vor, ein Multi-Path-Reasoning-Paradigma, das die Fähigkeit verbessert, den zulässigen Lösungsraum zu erkunden. Um den Plan weiter zu verfeinern, integrieren wir einen sigmoidbasierten Gating-Mechanismus in die Reinforcement-Learning-Phase, der die Erfüllung weicher Constraints dynamisch priorisiert, sobald harte Constraints erfüllt sind. Experimentelle Ergebnisse auf Reiseplanungs-Benchmarks zeigen, dass TourPlanner state-of-the-art Leistung erzielt und bestehende Methoden sowohl in Bezug auf Machbarkeit als auch Benutzerpräferenz-Abgleich signifikant übertrifft.
Da sich große Sprachmodelle (LLMs) von statischen Dialogoberflächen zu autonomen allgemeinen Agenten entwickeln, ist ein effektives Gedächtnis von entscheidender Bedeutung, um langfristige Konsistenz zu gewährleisten. Allerdings konzentrieren sich bestehende Benchmarks primär auf lockere Konversationen oder aufgabenorientierte Dialoge und erfassen nicht **"langfristige projektorientierte"** Interaktionen, bei denen Agenten sich entwickelnde Ziele verfolgen müssen. Um diese Lücke zu schließen, stellen wir **RealMem** vor, den ersten Benchmark, der auf realistischen Projektszenarien basiert. RealMem umfasst über 2.000 sitzungsübergreifende Dialoge in elf Szenarien und nutzt natürliche Nutzeranfragen zur Evaluation. Wir schlagen eine Synthese-Pipeline vor, die Projektgrundlagenerstellung, Multi-Agenten-Dialoggenerierung sowie Gedächtnis- und Terminplanungsmanagement integriert, um die dynamische Entwicklung des Gedächtnisses zu simulieren. Experimente zeigen, dass aktuelle Gedächtnissysteme erhebliche Schwierigkeiten bei der Verwaltung langfristiger Projektzustände und dynamischer Kontextabhängigkeiten haben, die realen Projekten inhärent sind. Unser Code und unsere Datensätze sind verfügbar unter [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Wir stellen OpenTinker vor, eine Infrastruktur für Reinforcement Learning (RL) von Agenten auf Basis großer Sprachmodelle (LLM), die auf einer Trennung der Zuständigkeiten in den Bereichen Algorithmusdesign, Ausführung und Agenten-Umgebungs-Interaktion aufbaut. Anstatt auf monolithische, end-to-end RL-Pipelines zu setzen, zerlegt OpenTinker lernende agentenbasierte Systeme in leichtgewichtige, komponierbare Komponenten mit klar definierten Abstraktionsgrenzen. Benutzer definieren Agenten, Umgebungen und Interaktionsprotokolle, während Inferenz und Training einer verwalteten Laufzeitumgebung zur Ausführung delegiert werden. OpenTinker führt einen zentralen Scheduler ein, der Trainings- und Inferenz-Workloads – einschließlich RL auf LoRA-Basis und mit vollständigen Parametern, supervised Fine-Tuning und Inferenz – über gemeinsame Ressourcen verwaltet. Wir erörtern zudem Designprinzipien zur Erweiterung von OpenTinker für Multi-Agenten-Training. Abschließend präsentieren wir eine Reihe von RL-Anwendungsfällen, die die Wirksamkeit des Frameworks in praktischen agentenbasierten Lernszenarien demonstrieren.
Menschen verstehen die Welt primär durch Konzepte (z.B. Hund) – abstrakte mentale Repräsentationen, die Wahrnehmung, Denken und Lernen strukturieren. Wie große Sprachmodelle (LLMs) solche Konzepte während kontinuierlichen Vortrainings erwerben, behalten und vergessen, ist jedoch noch weitgehend unverstanden. In dieser Arbeit untersuchen wir, wie einzelne Konzepte erlernt und vergessen werden sowie wie mehrere Konzepte durch Interferenz und Synergie interagieren. Wir verknüpfen diese Verhaltensdynamiken mit internen Konzeptschaltkreisen der LLMs – rechnerische Teilgraphen, die mit spezifischen Konzepten assoziiert sind – und integrieren Graphmetriken zur Charakterisierung der Schaltkreisstruktur. Unsere Analyse zeigt: (1) Konzeptschaltkreise von LLMs liefern ein nicht-triviales, statistisch signifikantes Signal für Konzeptlernen und -vergessen; (2) Konzeptschaltkreise zeigen während kontinuierlichen Vortrainings ein stufenweises zeitliches Muster mit frühem Anstieg, gefolgt von gradueller Abnahme und Stabilisierung; (3) Konzepte mit größeren Lernzuwächsen neigen zu stärkerem Vergessen bei nachfolgendem Training; (4) semantisch ähnliche Konzepte verursachen stärkere Interferenz als schwach verwandte; (5) konzeptuelles Wissen unterscheidet sich in seiner Übertragbarkeit, wobei einige Konzepte das Lernen anderer signifikant erleichtern. Zusammengenommen bieten unsere Ergebnisse eine schaltkreisebene Sicht auf die Dynamik des Konzeptlernens und liefern Grundlagen für die Gestaltung interpretierbarerer und robusterer konzeptbewusster Trainingsstrategien für LLMs.
Große Sprachmodelle (LLMs) können überraschend differenzierte Einschätzungen ihrer eigenen Unsicherheit liefern. Es bleibt jedoch unklar, inwieweit dieses artikulierte Vertrauen mit der Denkweise, dem Wissen oder der Entscheidungsfindung des Modells verbunden ist. Um dies zu testen, führen wir RiskEval ein: einen Rahmen zur Bewertung, ob Modelle ihre Ablehnungsstrategien an variierende Fehlerkosten anpassen. Unsere Auswertung mehrerer führender Modelle zeigt eine kritische Dissoziation: Modelle zeigen weder Kostenbewusstsein bei der Formulierung ihres verbalen Vertrauens noch strategische Anpassungsfähigkeit bei der Entscheidung, unter hohen Strafkosten zu antworten oder abzulehnen. Selbst wenn extreme Strafen häufige Ablehnung zur mathematisch optimalen Strategie machen, verweigern Modelle die Antwort fast nie, was zu einem Nutzenkollaps führt. Dies deutet darauf hin, dass kalibrierte verbale Vertrauenswerte allein möglicherweise nicht ausreichen, um vertrauenswürdige und interpretierbare KI-Systeme zu schaffen, da heutigen Modellen die strategische Fähigkeit fehlt, Unsicherheitssignale in optimale und risikosensitive Entscheidungen umzusetzen.
Aktuelle Ansätze für das Gedächtnis in Large Language Models (LLMs) stützen sich überwiegend auf statisches Retrieval-Augmented Generation (RAG), was häufig zu verstreutem Abruf führt und die strukturellen Abhängigkeiten, die für komplexes Schlussfolgern erforderlich sind, nicht erfassen kann. Für autonome Agenten mangelt es diesen passiven und flachen Architekturen an der kognitiven Organisation, die notwendig ist, um die dynamische und assoziative Natur langfristiger Interaktionen zu modellieren. Um dies zu adressieren, schlagen wir Structured Episodic Event Memory (SEEM) vor, einen hierarchischen Rahmen, der eine Graph-Gedächtnisschicht für relationale Fakten mit einer dynamischen episodischen Gedächtnisschicht für den narrativen Fortgang synergetisch verbindet. Basierend auf der kognitiven Frame-Theorie transformiert SEEM Interaktionsströme in strukturierte Episodic Event Frames (EEFs), die durch präzise Herkunftsnachweise verankert sind. Darüber hinaus führen wir einen agentenbasierten assoziativen Fusionsmechanismus und Reverse Provenance Expansion (RPE) ein, um kohärente narrative Kontexte aus fragmentarischen Belegen zu rekonstruieren. Experimentelle Ergebnisse auf den Benchmarks LoCoMo und LongMemEval demonstrieren, dass SEEM die Baseline-Modelle signifikant übertrifft und es Agenten ermöglicht, eine überlegene narrative Kohärenz und logische Konsistenz beizubehalten.
Während die KI-Innovation rasant voranschreitet, bleibt der intellektuelle Prozess hinter Durchbrüchen – wie Forscher Lücken identifizieren, vorherige Arbeiten synthetisieren und Erkenntnisse gewinnen – kaum verstanden. Der Mangel an strukturierten Daten zum wissenschaftlichen Denken behindert eine systematische Analyse und die Entwicklung von KI-Forschungssystemen. Wir stellen Sci-Reasoning vor, den ersten Datensatz, der die intellektuelle Synthese hochwertiger KI-Forschung erfasst. Mithilfe von community-validierten Qualitätssignalen und einer LLM-beschleunigten, menschlich verifizierten Pipeline verfolgen wir Oral- und Spotlight-Papers von NeurIPS, ICML und ICLR (2023-2025) bis zu ihren wichtigsten Vorläufern und artikulieren spezifische Denkverbindungen in einem strukturierten Format. Unsere Analyse identifiziert 15 verschiedene Denkmuster, wobei drei dominante Strategien 52,7 % ausmachen: Lückengetriebene Neurahmung (24,2 %), domänenübergreifende Synthese (18,0 %) und Repräsentationsverschiebung (10,5 %). Die wirkungsvollsten Innovationsrezepte kombinieren mehrere Muster: Lückengetriebene Neurahmung + Repräsentationsverschiebung, domänenübergreifende Synthese + Repräsentationsverschiebung sowie Lückengetriebene Neurahmung + domänenübergreifende Synthese. Dieser Datensatz ermöglicht quantitative Studien des wissenschaftlichen Fortschritts und liefert strukturierte Denkpfade für das Training der näch Generation von KI-Forschungssystemen.
Moderne Informationssysteme beinhalten oft verschiedene Arten von Elementen, z. B. eine Textanfrage, ein Bild, ein Videoclip oder ein Audiosegment. Dies motiviert die Entwicklung omni-modaler Einbettungsmodelle, die heterogene Modalitäten in einen gemeinsamen Raum abbilden, um einen direkten Vergleich zu ermöglichen. Die meisten aktuellen omni-modalen Einbettungen stützen sich jedoch nach wie vor stark auf die implizite Ausrichtung, die von vortrainierten Vision-Language-Model (VLM)-Backbones geerbt wird. In der Praxis führt dies zu drei häufigen Problemen: (i) Ähnlichkeitslogits haben eine modalitätsabhängige Schärfe, sodass die Werte nicht auf einer konsistenten Skala liegen; (ii) Negative Stichproben innerhalb eines Batches werden mit der Zeit weniger effektiv, da Batches mit gemischten Modalitäten eine unausgeglichene Verteilung der Schwierigkeitsgrade erzeugen; infolgedessen werden viele Negative schnell trivial und tragen wenig zum Gradienten bei; und (iii) Einbettungen über verschiedene Modalitäten hinweg weisen nicht übereinstimmende Statistiken erster und zweiter Ordnung auf, was Rankings weniger stabil macht. Um diese Probleme zu lösen, schlagen wir e5-omni vor, ein leichtgewichtiges Rezept zur expliziten Ausrichtung, das handelsübliche VLMs in robuste omni-modale Einbettungsmodelle adaptiert. e5-omni kombiniert drei einfache Komponenten: (1) modalitätsbewusste Temperaturkalibrierung zur Angleichung der Ähnlichkeitsskalen, (2) ein kontrollierbarer Negative-Curriculum-Ansatz mit Entzerrung, um sich auf verwirrende Negative zu konzentrieren und gleichzeitig den Einfluss falscher Negative zu reduzieren, und (3) Batch-Whitening mit Kovarianzregularisierung, um die cross-modale Geometrie im gemeinsamen Einbettungsraum besser anzugleichen. Experimente mit MMEB-V2 und AudioCaps zeigen konsistente Verbesserungen gegenüber starken bi-modalen und omni-modalen Baseline-Modellen, und das gleiche Rezept überträgt sich auch gut auf andere VLM-Backbones. Wir veröffentlichen unseren Modell-Checkpoint unter https://huggingface.co/Haon-Chen/e5-omni-7B.
Große Sprachmodelle (LLMs) können mittels parameter-effizientem Feinabgleich (PEFT) an neue Aufgaben angepasst werden, wobei nur eine geringe Anzahl trainierbarer Parameter modifiziert wird, häufig durch Low-Rank-Updates. In dieser Arbeit nehmen wir eine quanteninformationstheoretisch inspirierte Perspektive ein, um deren Wirksamkeit zu verstehen. Aus dieser Perspektive entsprechen Low-Rank-Parametrisierungen natürlich niedrigdimensionalen Matrix Product States (MPS)-Darstellungen, die verschränkungsbasierte Charakterisierungen der Parameterstruktur ermöglichen. Daher bezeichnen und messen wir "Künstliche Verschränkung", definiert als die Verschränkungsentropie der Parameter in künstlichen neuronalen Netzen (insbesondere in LLMs). Wir untersuchen zunächst die repräsentative Low-Rank-Adaptation (LoRA)-PEFT-Methode zusammen mit vollständigem Feinabgleich (FFT) an LLaMA-Modellen der Größenordnungen 1B und 8B, die auf den Datensätzen Tulu3 und OpenThoughts3 trainiert wurden, und decken auf: (i) Die interne künstliche Verschränkung in den Updates der Query- und Value-Projektionsmatrizen in LoRA folgt einem Volumengesetz mit einer zentralen Unterdrückung (bezeichnet als "Verschränkungstal"), das hyperparameterempfindlich ist und sich von dem bei FFT unterscheidet; (ii) Die externe künstliche Verschränkung in Attention-Matrizen, die Token-Token-Korrelationen im Repräsentationsraum entspricht, folgt einem Flächengesetz mit logarithmischen Korrekturen und bleibt robust gegenüber LoRA-Hyperparametern und Trainingsschritten. In Anlehnung an das No-Hair-Theorem aus der Schwarze-Loch-Physik schlagen wir vor, dass, obwohl LoRA und FFT unterschiedliche interne Verschränkungssignaturen induzieren, sich solche Unterschiede nicht in den Attention-Ausgaben manifestieren, was auf eine "No-Hair"-Eigenschaft hindeutet, die die Wirksamkeit von Low-Rank-Updates erklärt. Wir liefern ferner theoretische Unterstützung auf Basis der Theorie zufälliger Matrizen und erweitern unsere Analyse auf eine MPS-Adaptation-PEFT-Methode, die qualitativ ähnliche Verhaltensweisen zeigt.
Vorausdeutung und Einlösung sind allgegenwärtige narrative Mittel, mit denen Autoren bereits zu Beginn einer Geschichte gemachte Versprechungen einführen und diese durch konkrete, beobachtbare Ergebnisse auflösen. Trotz Fortschritten in der Geschichtengenerierung gelingt es großen Sprachmodellen (LLMs) jedoch häufig nicht, diese langreichweitigen narrativen Abhängigkeiten zu überbrücken; oft bleiben "Tschechows Gewehre" ungefeuert, selbst wenn der notwendige Kontext vorhanden ist. Bestehende Evaluationen übersehen weitgehend dieses strukturelle Versagen und konzentrieren sich eher auf oberflächliche Kohärenz als auf die logische Erfüllung narrativer Vorbereitungen. In diesem Artikel stellen wir Codified Foreshadowing-Payoff Generation (CFPG) vor, einen neuartigen Rahmen, der narrative Qualität durch die Linse der Einlösungsrealisierung neu definiert. Da LLMs bekanntermaßen Schwierigkeiten haben, den "Auslösemechanismus" eines vorausgedeuteten Ereignisses intuitiv zu erfassen, transformiert CFPG narrative Kontinuität in eine Reihe ausführbarer kausaler Prädikate. Durch die Extraktion und Kodierung von Vorausdeutungs-Auslöser-Einlösungs-Tripeln aus dem BookSum-Korpus bieten wir eine strukturierte Supervision, die sicherstellt, dass vorausgedeutete Versprechungen nicht nur erwähnt, sondern auch zeitlich und logisch erfüllt werden. Experimente zeigen, dass CFPG Standard-Prompting-Baselines in Bezug auf Einlösungsgenauigkeit und narrative Ausrichtung signifikant übertrifft. Unsere Ergebnisse legen nahe, dass die explizite Kodierung narrativer Mechanismen entscheidend ist, um LLMs von oberflächlicher Flüssigkeit zu echter narrativer Kompetenz zu bewegen.
Grafische Benutzeroberflächen (GUIs) sind zentral für die Mensch-Computer-Interaktion, doch die Automatisierung komplexer GUI-Aufgaben bleibt eine große Herausforderung für autonome Agenten, hauptsächlich aufgrund eines Mangels an skalierbaren, hochwertigen Trainingsdaten. Obwohl Aufzeichnungen menschlicher Demonstrationen eine reichhaltige Datenquelle darstellen, sind diese typischerweise lang, unstrukturiert und ohne Annotationen, was es Agenten erschwert, daraus zu lernen. Um dieses Problem zu lösen, stellen wir ShowUI-Aloha vor, eine umfassende Pipeline, die unstrukturierte, natürlich aufgenommene Bildschirmvideos von Desktop-Umgebungen in strukturierte, ausführbare Aufgaben umwandelt. Unser Framework umfasst vier Schlüsselkomponenten: Einen Rekorder, der den Bildschirm sowie präzise Benutzerinteraktionen wie Mausklicks, Tastenanschläge und Scrollbewegungen aufzeichnet. Einen Interpreter, der diese Rohinteraktionen und den visuellen Kontext semantisch analysiert und in beschreibende natürliche Sprachbeschreibungen übersetzt. Einen Planer, der die analysierten Demonstrationen verarbeitet, Aufgabenstatus verwaltet und dynamisch den nächsten hochleveligen Aktionsplan auf Basis kontextueller Schlussfolgerungen erstellt. Einen Ausführungsmodul, der diese Aktionspläne auf Betriebssystemebene zuverlässig ausführt und präzise Klicks, Ziehbewegungen, Texteingaben sowie Fensteroperationen mit Sicherheitsprüfungen und Echtzeit-Feedback durchführt. Zusammen bieten diese Komponenten eine skalierbare Lösung zur Erfassung und Analyse realer menschlicher Daten und zeigen einen praktikablen Weg zum Aufbau universeller GUI-Agenten auf, die effektiv durch reine Beobachtung menschlicher Handlungen lernen können.
Da große Sprachmodelle (LLMs) wie ChatGPT, Copilot, Claude und Gemini zunehmend in Softwareentwicklungsprozesse integriert werden, hinterlassen Entwickler vermehrt Spuren von KI-Nutzung in ihren Code-Kommentaren. Unter diesen befinden sich Kommentare, die ausdrücklich sowohl den Einsatz generativer KI als auch das Vorhandensein technischer Mängel anerkennen. Durch die Analyse von 6.540 LLM-bezogenen Code-Kommentaren aus öffentlichen Python- und JavaScript-basierten GitHub-Repositories (November 2022–Juli 2025) identifizierten wir 81 Kommentare, die ebenfalls selbst eingestandenes technisches Schulden (SATD) enthalten. Entwickler beschreiben am häufigsten aufgeschobene Tests, unvollständige Anpassungen und ein begrenztes Verständnis von KI-generiertem Code, was darauf hindeutet, dass KI-Unterstützung sowohl beeinflusst, wann als auch warum technische Schulden entstehen. Wir prägen den Begriff "durch generative KI induziertes selbst eingestandenes technisches Schulden" (GIST) als konzeptionelle Betrachtungsweise, um wiederkehrende Fälle zu beschreiben, in denen Entwickler KI-generierten Code integrieren und gleichzeitig explizit Unsicherheit über sein Verhalten oder seine Korrektheit äußern.
Das Post-Training großer Sprachmodelle verknüpft routinemäßig supervidiertes Finetuning (SFT) mit Reinforcement Learning (RL). Diese beiden Methoden verfolgen unterschiedliche Ziele: SFT minimiert den Kreuzentropieverlust zwischen Modellausgaben und Expert:innenantworten, während RL Belohnungssignale maximiert, die aus menschlichen Präferenzen oder regelbasierten Verifikationssystemen abgeleitet werden. Moderne Reasoning-Modelle haben die Praxis der abwechselnden SFT- und RL-Trainingsphasen weitgehend übernommen. Es existiert jedoch keine theoretische Grundlage dafür, ob diese Methoden entkoppelt werden können. Wir beweisen, dass eine Entkopplung in beiden Reihenfolgen unmöglich ist: (1) SFT-then-RL-Kopplung: RL erhöht den SFT-Verlust unter SFT-Optimalität und (2) RL-then-SFT-Kopplung: SFT verringert die durch RL erreichte Belohnung. Experimente mit Qwen3-0.6B bestätigen den vorhergesagten Leistungsabfall und verifizieren, dass SFT und RL nicht ohne Verlust vorheriger Leistungsfähigkeit im Post-Training getrennt werden können.
Während multimodale große Sprachmodelle (MLLMs) bemerkenswerte Fortschritte im visuellen Verständnis erzielt haben, stoßen sie oft an ihre Grenzen, wenn sie mit der unstrukturierten und mehrdeutigen Natur von handgezeichneten Skizzen konfrontiert werden. Diese Einschränkung zeigt sich besonders bei der bisher wenig erforschten Aufgabe des visuellen Bewertens, bei der Modelle nicht nur ein Problem lösen, sondern auch Fehler in handgezeichneten Diagrammen diagnostizieren sollen. Solche diagnostischen Fähigkeiten hängen von komplexem strukturellem, semantischem und metakognitivem Denken ab. Um diese Lücke zu schließen, stellen wir SketchJudge vor, einen neuartigen Benchmark, der speziell für die Bewertung von MLLMs als Prüfer handgezeichneter MINT-Diagramme entwickelt wurde. SketchJudge umfasst 1.015 handgezeichnete Schülerantworten aus vier Bereichen: Geometrie, Physik, Diagramme und Flussdiagramme, mit unterschiedlichen stilistischen Variationen und eindeutigen Fehlertypen. Evaluierungen auf SketchJudge zeigen, dass selbst fortschrittliche MLLMs deutlich hinter menschlichen Leistungen zurückbleiben, was die Wirksamkeit des Benchmarks bei der Aufdeckung der Fragilität aktueller Vision-Sprache-Abgleichung in symbolischen und verrauschten Kontexten bestätigt. Alle Daten, Codes und Auswertungsskripte sind öffentlich unter https://github.com/yuhangsu82/SketchJudge verfügbar.
Die Entwicklung eines einheitlichen neuronalen Netzwerks, das sequentielle Daten beliebiger Länge effizient und inhärent verarbeiten kann, ist ein zentrales und herausforderndes Problem in der Sequenzmodellierung. Die Designentscheidungen beim Transformer – einschließlich quadratischer Komplexität und schwacher Längenextrapolation – haben dessen Skalierbarkeit auf lange Sequenzen begrenzt. In dieser Arbeit stellen wir Gecko vor, eine neuronale Architektur, die das Design von Mega und Megalodon (exponentiell gleitender Durchschnitt mit gated Attention) erbt und durch mehrere technische Komponenten erweitert, um die Erfassung langreichweitiger Abhängigkeiten zu verbessern. Dazu gehören Timestep Decay Normalization, ein Sliding-Chunk-Attention-Mechanismus und adaptiver Arbeitspeicher. In einem kontrollierten Vortrainingsvergleich mit Llama2 und Megalodon im Maßstab von 7 Milliarden Parametern und 2 Billionen Trainingstokens erzielt Gecko eine bessere Effizienz und Skalierbarkeit für lange Kontexte. Gecko erreicht einen Trainingsverlust von 1,68 und übertrifft damit Llama2-7B (1,75) und Megalodon-7B (1,70) signifikant, wobei es nahe an Llama2-13B (1,67) heranreicht. Bemerkenswerterweise zeigt Gecko ohne Verwendung von Kontextverlängerungstechniken inhärente Fähigkeiten zur Verarbeitung und Abfrage langer Kontexte, verarbeitet stabil Sequenzen von bis zu 4 Millionen Tokens und ruft Informationen aus Kontexten ab, die bis zu 4-mal länger sind als sein Attention-Fenster. Code: https://github.com/XuezheMax/gecko-llm
Selbstkonsistenz hat sich als beliebte Technik zur Verbesserung der Genauigkeit großer Sprachmodelle bei Reasoning-Aufgaben etabliert. Der Ansatz ist einfach: Es werden mehrere Reasoning-Pfade generiert und die häufigste Antwort durch Mehrheitsabstimmung ausgewählt. Obwohl dies die Genauigkeit zuverlässig steigert, bleibt unklar, ob diese Gewinne echte Verbesserungen der Reasoning-Qualität widerspiegeln. Wir untersuchen eine grundlegende Frage, die bisher nicht erforscht wurde: Verbessert die Skalierung des Inferenzprozesses die Zuverlässigkeit des Reasonings? Wir führen eine umfassende empirische Studie mit vier führenden Modellen (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview und DeepSeek-v3.2) an 100 mathematischen Reasoning-Problemen aus GSM8K durch. Unsere Analyse verwendet Bootstrap-Konfidenzintervalle, McNemar-Tests für gepaarte Vergleiche und Cohen's d-Effektstärken, um die Effekte rigoros zu quantifizieren. Die Ergebnisse zeigen auffällige Unterschiede zwischen den Modellen, die gängige Annahmen über Selbstkonsistenz infrage stellen. GPT-5.2 zeigt das erwartete Muster: Die Genauigkeit verbessert sich von 78 % auf 90 % bei N=5, während die Zuverlässigkeit relativ stabil bleibt (0,540 zu 0,510). Claude Opus 4.5 zeigt ein völlig anderes Bild. Seine Genauigkeit sinkt tatsächlich von 78 % auf 74,3 %, während die Zuverlässigkeit bei N=5 dramatisch von 0,270 auf 0,891 ansteigt. DeepSeek-v3.2, das bereits bei 98 % Genauigkeit liegt, zeigt Deckeneffekte mit moderaten Zuverlässigkeitsgewinnen (0,440 zu 0,541). Gemini-3-flash verbessert sich von 81 % auf 86 % Genauigkeit bei einem leichten Rückgang der Zuverlässigkeit (0,260 zu 0,212). Eine Analyse der Problem-Schwierigkeit zeigt, dass GPT-5.2 82 % der schwierigen Probleme löst, während es nur bei 13 % der einfachen Probleme versagt. Claude hingegen versagt bei 23 % der einfachen Probleme, was seinen Genauigkeitsrückgang erklärt. Diese Erkenntnisse sind für Praktiker relevant: Selbstkonsistenz ist nicht universell vorteilhaft, und Teams sollten ihre spezifischen Modelle vor dem Einsatz testen. Wir veröffentlichen unseren Code und geben praktische Empfehlungen für den Umgang mit diesen Zielkonflikten.
Generative Sprachmodelle, die auf umfangreichen Rohaudiodaten vortrainiert wurden, können eine Sprachaufforderung mit passendem Inhalt fortsetzen und dabei Eigenschaften wie Sprecheridentität und Emotion bewahren. Sie fungieren somit als Basismodelle für gesprochene Dialoge. In der bisherigen Literatur werden diese Modelle häufig anhand der „globalen Token-Perplexität“ bewertet, bei der die Formulierung der Text-Perplexität direkt auf Sprach-Tokens angewendet wird. Diese Praxis übersieht jedoch fundamentale Unterschiede zwischen den Modalitäten Sprache und Text, was möglicherweise zu einer Unterschätzung der Sprachcharakteristika führt. In dieser Arbeit schlagen wir eine Reihe von bewertungsbasierten und generativen Evaluierungsmethoden vor, die anstelle der naiven globalen Token-Perplexität verwendet werden können. Wir zeigen, dass die vorgeschlagenen Evaluationen die wahrgenommene Generierungsqualität genauer widerspiegeln, was sich in stärkeren Korrelationen mit menschlich bewerteten Mean Opinion Scores (MOS) zeigt. Bei der Bewertung mit den neuen Metriken verändert sich das relative Leistungsbild der Sprachmodelle erheblich, wobei sich die Kluft zwischen dem leistungsstärksten Modell und der menschlichen Topline deutlich verringert. Zusammengenommen deuten diese Ergebnisse darauf hin, dass eine angemessene Evaluation entscheidend ist, um Fortschritte in der Sprachmodellierung genau zu bewerten.
System-Protokolle sind entscheidend für die Überwachung und Diagnose moderner IT-Infrastrukturen, doch ihr Umfang und ihre Komplexität erfordern eine zuverlässige und effiziente automatische Interpretation. Da Schweregrade vordefinierte Metadaten in Systemprotokollnachrichten sind, bietet ein Modell, das diese lediglich klassifiziert, nur begrenzten eigenständigen praktischen Nutzen und gibt wenig Aufschluss über dessen grundlegende Fähigkeit, Systemprotokolle zu interpretieren. Wir vertreten die Auffassung, dass die Schweregradklassifizierung informativer ist, wenn sie als Benchmark zur Untersuchung des Runtime-Protokollverständnisses dient, anstatt als Endaufgabe. Anhand realer journalctl-Daten von Linux-Produktionsservern evaluieren wir neun Small Language Models (SLMs) und Small Reasoning Language Models (SRLMs) mittels Zero-Shot-, Few-Shot- und Retrieval-Augmented Generation (RAG)-Prompting. Die Ergebnisse zeigen eine starke Schichtung. Qwen3-4B erzielt mit RAG die höchste Genauigkeit von 95,64 %, während Gemma3-1B sich von 20,25 % unter Few-Shot-Prompting auf 85,28 % mit RAG verbessert. Bemerkenswerterweise erreicht das winzige Qwen3-0.6B eine Genauigkeit von 88,12 %, trotz schwacher Leistung ohne Retrieval. Im Gegensatz dazu verschlechtern sich mehrere SRLMs, einschließlich Qwen3-1.7B und DeepSeek-R1-Distill-Qwen-1.5B, erheblich in Kombination mit RAG. Effizienzmessungen trennen die Modelle weiter: Die meisten Gemma- und Llama-Varianten schließen Inferenzen in unter 1,2 Sekunden pro Protokoll ab, während Phi-4-Mini-Reasoning über 228 Sekunden pro Protokoll benötigt und dabei <10 % Genauigkeit erreicht. Diese Ergebnisse legen nahe, dass (1) Architekturdesign, (2) Trainingsziele und (3) die Fähigkeit, abgerufenen Kontext unter strengen Ausgabebeschränkungen zu integrieren, gemeinsam die Leistung bestimmen. Indem dieser Benchmark kleine, einsetzbare Modelle betont, entspricht er den Echtzeitanforderungen von Digital Twin (DT)-Systemen und zeigt, dass die Schweregradklassifizierung als Linse zur Bewertung von Modellkompetenz und Echtzeitfähigkeit dient, mit Implikationen für Root Cause Analysis (RCA) und breitere DT-Integration.
Deterministische Inferenz ist ein beruhigendes Ideal in klassischer Software: Dasselbe Programm mit derselben Eingabe sollte stets dieselbe Ausgabe produzieren. Während große Sprachmodelle in den realen Einsatz übergehen, wurde dieses Ideal unverändert in Inferenz-Stacks übernommen. Jüngste Arbeiten des Thinking Machines Lab haben eine detaillierte Analyse der Nichtdeterminiertheit in der LLM-Inferenz vorgelegt und gezeigt, wie batch-invariante Kernel und deterministische Attention bitweise identische Ausgaben erzwingen können, wobei deterministische Inferenz als Voraussetzung für Reproduzierbarkeit und unternehmerische Zuverlässigkeit positioniert wird. In diesem Papier vertreten wir die gegenteilige Position. Wir argumentieren, dass deterministische Inferenz für LLMs deren Fähigkeiten abtötet. Sie tötet die Fähigkeit ab, Unsicherheit zu modellieren, unterdrückt emergente Fähigkeiten, zwingt das Reasoning auf einen einzigen spröden Pfad und schwächt die Sicherheitsausrichtung (Safety Alignment), indem sie Tail Risks verbirgt. LLMs implementieren bedingte Verteilungen über Ausgaben, keine festen Funktionen. Diese Verteilungen auf eine einzige kanonische Vervollständigung zu reduzieren, mag beruhigend wirken, verschleiert aber systematisch Eigenschaften, die für künstliche Kognition zentral sind. Stattdessen befürworten wir Stochastic CHAOS, bei dem die Verteilungsvariabilität als ein zu messendes und zu kontrollierendes Signal behandelt wird. Empirisch zeigen wir, dass deterministische Inferenz systematisch irreführend ist. Die deterministische Auswertung mit einer einzelnen Stichprobe unterschätzt sowohl die Fähigkeiten als auch die Fragilität der Modelle und verschleiert die Ausfallwahrscheinlichkeit unter Paraphrasen und Rauschen. Phasenübergänge, die mit emergenten Fähigkeiten verbunden sind, verschwinden unter greedy Decoding. Mehrpfad-Reasoning verschlechtert sich, wenn es auf deterministische Backbones gezwungen wird, was die Genauigkeit und diagnostische Einsicht verringert. Schließlich unterschätzt die deterministische Bewertung das Sicherheitsrisiko, indem sie seltene, aber gefährliche Verhaltensweisen verbirgt, die nur bei einer Auswertung mit mehreren Stichproben auftreten.
Multimodale große Sprachmodelle (MLLMs) zeigen starke Allzweckfähigkeiten, haben aber nach wie vor Schwierigkeiten mit der feingranularen visuellen Klassifikation (FGVC), einer zentralen Wahrnehmungsaufgabe, die subtile visuelle Unterscheidung erfordert und für viele reale Anwendungen entscheidend ist. Eine weit verbreitete Strategie zur Steigerung der Leistung bei anspruchsvollen Aufgaben wie Mathematik und Programmieren ist die Chain-of-Thought (CoT)-Argumentation. Mehrere frühere Arbeiten haben jedoch berichtet, dass CoT die Leistung bei visuellen Wahrnehmungsaufgaben tatsächlich beeinträchtigen kann. Diese Studien betrachten das Problem jedoch aus relativ engen Blickwinkeln und lassen offen, warum CoT die leistungsintensive Wahrnehmung verschlechtert. Wir untersuchen die Rolle von CoT in FGVC systematisch neu durch die Linse der Zero-Shot-Evaluierung und mehrerer Trainingsparadigmen. In diesen Settings decken wir ein zentrales Paradoxon auf: Die durch CoT verursachte Verschlechterung wird maßgeblich durch die Argumentationslänge vorangetrieben, wobei längere textuelle Argumentation konsequent die Klassifikationsgenauigkeit verringert. Wir bezeichnen dieses Phänomen als die „Kosten des Denkens“ (Cost of Thinking). Aufbauend auf dieser Erkenntnis leisten wir zwei zentrale Beiträge: (1) \alg, eine einfache und allgemeine Plug-and-Play-Normalisierungsmethode für die Multi-Reward-Optimierung, die heterogene Belohnungssignale ausbalanciert, und (2) ReFine-RFT, ein Framework, das Ensemble-Belohnungen mit \alg kombiniert, um die Argumentationslänge zu begrenzen und gleichzeitig dichte, auf Genauigkeit ausgerichtete Rückmeldungen zu liefern. Umfangreiche Experimente belegen die Wirksamkeit unserer Erkenntnisse und des vorgeschlagenen ReFine-RFT, das state-of-the-art Leistung über FGVC-Benchmarks hinweg erzielt. Code und Modelle sind verfügbar unter https://github.com/jiezhu23/ReFine-RFT{Projektlink}.
Unbemannte Luftfahrzeuge (UAVs) werden zunehmend in unmittelbarer Nähe zu Menschen für Anwendungen wie Paketzustellung, Verkehrsüberwachung, Katastrophenhilfe und Infrastrukturinspektionen eingesetzt. Um einen sicheren und zuverlässigen Betrieb in diesen von Menschen bevölkerten Umgebungen zu gewährleisten, ist eine genaue Erfassung menschlicher Körperhaltungen und Handlungen aus der Luftperspektive erforderlich. Diese Perspektive stellt bestehende Methoden aufgrund geringer Auflösung, steiler Betrachtungswinkel und (Selbst-)Verdeckungen vor Herausforderungen, insbesondere wenn die Anwendung echtzeitfähige Modelle erfordert. Wir trainieren und implementieren FlyPose, eine schlanke "Top-Down"-Pipeline zur Schätzung menschlicher Körperhaltung für Luftaufnahmen. Durch Multi-Dataset-Training erreichen wir eine durchschnittliche Steigerung von 6,8 mAP bei der Personenerkennung über die Testsets von Manipal-UAV, VisDrone, HIT-UAV sowie unserem eigenen benutzerdefinierten Datensatz. Für die 2D-Schätzung menschlicher Körperhaltung verzeichnen wir eine Verbesserung von 16,3 mAP auf dem anspruchsvollen UAV-Human-Datensatz. FlyPose läuft mit einer Inferenzlatenz von ~20 Millisekunden inklusive Vorverarbeitung auf einem Jetson Orin AGX Developer Kit und wird onboard eines Quadrokopter-UAVs während Flugexperimenten eingesetzt. Wir veröffentlichen ebenfalls FlyPose-104, einen kleinen aber anspruchsvollen Datensatz zur Schätzung menschlicher Körperhaltung aus der Luft, der manuelle Annotationen aus schwierigen Luftperspektiven enthält: https://github.com/farooqhassaan/FlyPose.
Räumliche Intelligenz bezeichnet die Fähigkeit, Objekte und ihre Beziehungen in dreidimensionalen Umgebungen wahrzunehmen, zu begreifen und zu beschreiben, was eine Grundlage für verkörperte Wahrnehmung und Szenenverständnis bildet. 3D-Bildbeschreibung zielt darauf ab, 3D-Szenen in natürlicher Sprache zu beschreiben; dies bleibt jedoch aufgrund der Sparsamkeit und Unregelmäßigkeit von Punktwolken und, noch entscheidender, der schwachen Verankerung und begrenzten Out-of-Distribution (OOD)-Generalisierung bestehender Beschreibungssysteme über stark unterschiedliche Umgebungen hinweg, einschließlich Innen- und Außen-3D-Szenen, eine Herausforderung. Um diese Herausforderung zu bewältigen, schlagen wir 3D CoCa v2 vor, ein generalisierbares 3D-Beschreibungsframework, das kontrastives Vision-Language-Lernen mit 3D-Beschreibungsgenerierung vereint und die Robustheit durch Test-Time-Search (TTS) weiter verbessert, ohne die Parameter des Beschreibungssystems zu aktualisieren. 3D CoCa v2 baut auf einer eingefrorenen CLIP-basierten semantischen Priorität, einem raumbewussten 3D-Szenenencoder für Geometrie und einem multimodalen Decoder auf, der gemeinsam mit kontrastiven und Beschreibungszielen optimiert wird, ohne externe Detektoren oder handgefertigte Vorschläge zu benötigen. Bei der Inferenz erzeugt TTS diverse Beschreibungskandidaten und führt eine belohnungsgesteuerte Auswahl unter Verwendung einer kompakten Szenenzusammenfassung durch. Experimente zeigen Verbesserungen gegenüber 3D CoCa von +1,50 CIDEr@0,5IoU auf ScanRefer und +1,61 CIDEr@0,5IoU auf Nr3D sowie +3,8 CIDEr@0,25 in der Zero-Shot-OOD-Evaluierung auf TOD3Cap. Der Code wird unter https://github.com/AIGeeksGroup/3DCoCav2 veröffentlicht.
Direct Preference Optimization (DPO) ist eine prinzipiengeleitete, skalierbare Alternative zu RLHF für die Ausrichtung großer Sprachmodelle anhand paarweiser Präferenzen, doch ihr interner geometrischer Fußabdruck bleibt unterbestimmt, was Audits, Checkpoint-Vergleiche und Fehlervorhersagen einschränkt. Wir stellen SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) vor, eine Diagnosetechnik, die misst, wie die Ausrichtung Repräsentationen über die Tiefe hinweg verändert, indem sie lokalisierten strukturellen Wandel Schicht für Schicht nachverfolgt. Über Modellfamilien hinweg erzeugt DPO einen schichtweisen Kalibrierungseffekt, der in den letzten Decoder-Blöcken konzentriert ist (oft Schichten 21-30), wo Präferenzgradienten die Next-Token-Verteilung am direktesten beeinflussen. SPINAL kodiert jeden Checkpoint als eine Tiefenspur über (Schichtindex, Kontraktionsscore, Transportscore). Der Kontraktionsscore fasst zusammen, wie schnell das Ende des Spektrums einer Schicht abklingt (wie schnell kleine Modi verschwinden); höhere Werte zeigen eine stärkere Kontraktion in weniger effektive Richtungen an. Der Transportscore fasst zusammen, wie stark sich die Tokenverteilung zwischen benachbarten Schichten unter Verwendung eines beschränkten Überlappungsmaßes verschiebt; niedrigere Werte zeigen kürzere, glattere Schritte durch den Repräsentationsraum an. Ausgerichtete Checkpoints zeigen einen spätschichtigen Anstieg der Kontraktion und eine glatte Reduktion des Transports, was mit einer gestrafften und stabilisierten Policy-Masse konsistent ist, während nicht-ausgerichtete Modelle Tiefenpfade mit höherer Krümmung, höherer Entropie und geometrisch inkohärente Pfade aufweisen. Insgesamt ist die Ausrichtung geometrisch lokalisiert: Die letzten Schichten kodieren die dominanten, präferenzinduzierten Korrekturen. SPINAL macht diese Lokalisierung zu einem praktischen Audit-Signal, das quantifiziert, wo sich die Ausrichtung konzentriert, wie stark sie sich manifestiert und wann sie während des Trainings zu destabilisieren beginnt.
Nicht-kompositionelle Ausdrücke (z.B. Idiome, Sprichwörter und Metaphern) stellen erhebliche Herausforderungen für neuronale maschinelle Übersetzungssysteme dar, da ihre Bedeutung nicht aus einzelnen Wörtern allein abgeleitet werden kann. Diese Ausdrücke kodieren reiche, kulturelle Bedeutung und haben sowohl figurative als auch wörtliche Bedeutungen, was eine genaue Übersetzung erschwert. Da Modelle recht gut darin sind, kompositionelle Texte zu übersetzen, untersuchen wir GRPO-artiges Fine-Tuning unter Verwendung von Machine Translation Quality Estimation (MTQE)-Modellen als Belohnungsfunktionen, um Modelle darin zu trainieren, Idiome besser zu übersetzen. Unter Verwendung von chinesischen und hindi Idiom-Datensätzen stellen wir fest, dass sich die Idiom-Übersetzungsfähigkeiten um ~14 Punkte verbessern, die allgemeine, nicht-idiomatische Übersetzung sich implizit um ~8 Punkte verbessert und die cross-lingualen Übersetzungsfähigkeiten (trainiert in einer Sprache, evaluiert in einer anderen) um ~6 Punkte zulegen. Insgesamt quantifiziert unsere Arbeit die nicht-kompositionelle Übersetzungslücke und bietet Erkenntnisse für die Entwicklung von LLMs mit einem stärkeren cross-kulturellen und figurativen Sprachverständnis.
Die Bewertung von Sprachmodellen (LMs) in spezialisierten, hochriskanten Domänen wie der Finanzwelt bleibt eine große Herausforderung, was vor allem auf den Mangel an offenen, hochwertigen und domänenspezifischen Datensätzen zurückzuführen ist. Bestehende allgemeine Benchmarks bieten zwar eine breite Abdeckung, mangelt es ihnen jedoch an der Tiefe und Domänentreue, die erforderlich sind, um die Fähigkeiten von LMs für realistische Finanzanalysen zu bewerten, die sowohl konzeptionelles Verständnis als auch quantitative Strenge erfordern. Um diese Lücke zu schließen, stellen wir FinForge vor: eine skalierbare, halbsynthetische Pipeline zur Erstellung finanzspezifischer Evaluierungs-Benchmarks durch eine Kombination aus expertengeleiteter Datenkuratierung und kontrollierter, LM-basierter Synthese. FinForge verbindet manuelle und programmatische Korpus-Erstellung aus autoritativen Finanzquellen mit strukturierter Fragengenerierung und Validierung unter Verwendung von Gemini 2.5 Flash. Um die Wirksamkeit der Pipeline zu demonstrieren, erstellen wir FinForge-5k, einen Benchmark-Snapshot mit über 5.000 menschlich validierten Frage-Antwort-Paaren aus 11 Finanzteilgebieten, der aus einem kuratierten Korpus von 100.000 verifizierten Dokumenten mit insgesamt 143 Millionen Tokens abgeleitet ist. Die Evaluierung modernster Open-Source- und Closed-Source-Modelle anhand von FinForge-5k zeigt erhebliche Unterschiede in der finanziellen Reasoning-Fähigkeit auf, wobei führende Modelle Genauigkeitswerte von nahezu 80 % erreichen. Diese Ergebnisse unterstreichen den Nutzen des Frameworks für die Diagnose aktueller Modellgrenzen und die Steuerung zukünftiger Verbesserungen der finanziellen Domänenkompetenz. Der gesamte Code und die Daten sind unter https://github.com/gtfintechlab/FinForge verfügbar.