papers.description
Autonome Datenwissenschaft, von Rohdatenquellen bis hin zu tiefgehenden Forschungsberichten auf Analystenniveau, stellt seit langem eine Herausforderung dar und wird nun mit dem Aufkommen leistungsstarker großer Sprachmodelle (LLMs) realisierbar. Aktuelle workflow-basierte Datenagenten haben vielversprechende Ergebnisse bei spezifischen Datenaufgaben gezeigt, bleiben jedoch aufgrund ihrer Abhängigkeit von vordefinierten Workflows grundsätzlich eingeschränkt, um vollständig autonome Datenwissenschaft zu erreichen. In diesem Artikel stellen wir DeepAnalyze-8B vor, das erste agentische LLM, das für autonome Datenwissenschaft entwickelt wurde und in der Lage ist, die End-to-End-Pipeline von Datenquellen bis zu tiefgehenden Forschungsberichten auf Analystenniveau automatisch zu durchlaufen. Um hochkomplexe Datenwissenschaftsaufgaben zu bewältigen, schlagen wir ein curriculum-basiertes agentisches Trainingsparadigma vor, das den Lernpfad menschlicher Datenwissenschaftler nachahmt und es LLMs ermöglicht, schrittweise multiple Fähigkeiten in realen Umgebungen zu erwerben und zu integrieren. Zudem führen wir ein datengestütztes Trajektoriensynthese-Framework ein, das hochwertige Trainingsdaten konstruiert. Durch agentisches Training erlernt DeepAnalyze eine breite Palette von Datenaufgaben, von der Beantwortung von Datenfragen und spezialisierten analytischen Aufgaben bis hin zu offenen Datenforschungen. Experimente zeigen, dass DeepAnalyze mit nur 8B Parametern bisherige workflow-basierte Agenten, die auf den fortschrittlichsten proprietären LLMs aufbauen, übertrifft. Das Modell, der Code und die Trainingsdaten von DeepAnalyze sind Open Source, wodurch der Weg zur autonomen Datenwissenschaft geebnet wird.
Die Bildbearbeitung hat in letzter Zeit bemerkenswerte Fortschritte erzielt. Moderne Bearbeitungsmodelle können bereits komplexe Anweisungen befolgen, um den ursprünglichen Inhalt zu manipulieren. Doch über die bloße Ausführung der Bearbeitungsanweisungen hinaus sind die begleitenden physikalischen Effekte der Schlüssel zur Generierung von Realismus. Beispielsweise sollte das Entfernen eines Objekts auch dessen Schatten, Reflexionen und Interaktionen mit benachbarten Objekten beseitigen. Leider konzentrieren sich bestehende Modelle und Benchmarks hauptsächlich auf die Anweisungserfüllung und vernachlässigen diese physikalischen Effekte. Daher stellt sich die Frage: Wie weit sind wir von einer physikalisch realistischen Bildbearbeitung entfernt? Um dies zu beantworten, führen wir PICABench ein, das systematisch den physikalischen Realismus über acht Unterdimensionen (die Optik, Mechanik und Zustandsübergänge umfassen) für die meisten gängigen Bearbeitungsoperationen (Hinzufügen, Entfernen, Attributänderung usw.) bewertet. Darüber hinaus schlagen wir PICAEval vor, ein zuverlässiges Bewertungsprotokoll, das VLM-as-a-judge mit fallbezogenen, regionsspezifischen menschlichen Annotationen und Fragen kombiniert. Über das Benchmarking hinaus erforschen wir auch effektive Lösungen, indem wir Physik aus Videos lernen und einen Trainingsdatensatz PICA-100K erstellen. Nach der Bewertung der meisten Mainstream-Modelle stellen wir fest, dass physikalischer Realismus nach wie vor ein herausforderndes Problem mit großem Forschungsbedarf darstellt. Wir hoffen, dass unser Benchmark und die vorgeschlagenen Lösungen als Grundlage für zukünftige Arbeiten dienen können, die sich von der naiven Inhaltsbearbeitung hin zu physikalisch konsistentem Realismus bewegen.
Große Sprachmodelle (LLMs) setzen zunehmend auf die Modellierung langer Kontexte für Aufgaben wie das Verständnis von Dokumenten, die Analyse von Code und mehrstufiges logisches Schließen. Die Skalierung von Kontextfenstern auf die Million-Token-Ebene führt jedoch zu prohibitiv hohen Rechen- und Speicherkosten, was die Praktikabilität von LLMs mit langen Kontexten einschränkt. In dieser Arbeit nehmen wir eine andere Perspektive ein – die visuelle Kontextskalierung –, um diese Herausforderung zu bewältigen. Anstatt tokenbasierte Sequenzen zu erweitern, schlagen wir Glyph vor, ein Framework, das lange Texte in Bilder umwandelt und sie mit visuell-sprachlichen Modellen (VLMs) verarbeitet. Dieser Ansatz komprimiert Texteingaben erheblich, während semantische Informationen erhalten bleiben, und wir entwickeln zusätzlich eine LLM-gesteuerte genetische Suche, um optimale visuelle Darstellungskonfigurationen für die Balance zwischen Genauigkeit und Kompression zu identifizieren. Durch umfangreiche Experimente zeigen wir, dass unsere Methode eine 3-4-fache Token-Kompression erreicht, während die Genauigkeit vergleichbar mit führenden LLMs wie Qwen3-8B auf verschiedenen Langkontext-Benchmarks bleibt. Diese Kompression führt auch zu etwa 4-fach schnellerem Prefilling und Decodieren sowie etwa 2-fach schnellerem SFT-Training. Darüber hinaus könnte ein VLM mit einem 128K-Kontext unter extremer Kompression auf die Bewältigung von Textaufgaben auf der 1M-Token-Ebene skaliert werden. Zusätzlich profitieren die gerenderten Textdaten von realen multimodalen Aufgaben, wie dem Verständnis von Dokumenten. Unser Code und Modell sind unter https://github.com/thu-coai/Glyph veröffentlicht.
Der Fortschritt von Vision-Sprache-Modellen (VLMs) wird durch eine fragmentierte Landschaft inkonsistenter und verunreinigter öffentlicher Datensätze behindert. Wir stellen FineVision vor, ein sorgfältig gesammeltes, kuratiertes und vereinheitlichtes Korpus von 24 Millionen Proben – die größte offene Ressource ihrer Art. Wir vereinheitlichen mehr als 200 Quellen in 185 Teilmengen durch eine halbautomatisierte, menschlich überwachte Pipeline: Die Automatisierung übernimmt die Massenerfassung und Schema-Zuordnung, während Prüfer die Zuordnungen überprüfen und Stichproben der Ausgaben kontrollieren, um die treue Übernahme von Annotationen, angemessene Formatierung und Vielfalt sowie Sicherheit zu gewährleisten; Probleme lösen gezielte Korrekturen und Wiederholungen aus. Der Workflow wendet zudem eine rigorose Deduplizierung innerhalb und zwischen Quellen sowie eine Entkontaminierung gegen 66 öffentliche Benchmarks an. FineVision umfasst auch agentenbezogene/GUI-Aufgaben mit einem einheitlichen Aktionsraum; Prüfer validieren Schemata und inspizieren eine Stichprobe von Trajektorien, um die ausführbare Treue zu bestätigen. Modelle, die auf FineVision trainiert wurden, übertreffen durchweg solche, die auf bestehenden offenen Mischungen trainiert wurden, über eine breite Evaluationssuite hinweg, was die Vorteile von Skalierung, Datenhygiene und ausgewogener Automatisierung mit menschlicher Aufsicht unterstreicht. Wir veröffentlichen das Korpus und die Kuratierungswerkzeuge, um datenzentrierte VLM-Forschung zu beschleunigen.
Eine vorherrschende Annahme in der Forschung zu Multimodalen Sprachmodellen (MLLMs) ist, dass deren Leistung weitgehend vom zugrunde liegenden Sprachmodell (LLM) geerbt wird, insbesondere aufgrund dessen enormen Parameterumfangs und bemerkenswerten Fähigkeiten. Dies hat eine Lücke im Verständnis des Vision-Encoders geschaffen, der bestimmt, wie MLLMs Bilder wahrnehmen. Der jüngste Wechsel in den Trainingsparadigmen für MLLMs, von Supervised Fine-Tuning (SFT) zu Reinforcement Learning (RL), verstärkt diese Vernachlässigung – insbesondere den erheblichen Mangel an Analysen darüber, wie solches Training den Vision-Encoder sowie das MLLM selbst verändert. Um dies zu adressieren, untersuchen wir zunächst die Auswirkungen von Trainingsstrategien auf MLLMs, wobei RL in stark visuell geprägten VQA-Benchmarks einen klaren Vorteil gegenüber SFT zeigt. Motiviert durch diese Erkenntnis, führen wir eine kritische, jedoch bisher wenig erforschte Analyse des Vision-Encoders von MLLMs durch, die eine Vielzahl von Experimenten umfasst, von ImageNet-Klassifikation und -Segmentierung bis hin zur Gradientenvisualisierung. Unsere Ergebnisse zeigen, dass die Post-Training-Strategie des MLLMs (d. h. SFT oder RL) nicht nur zu unterschiedlichen Ergebnissen bei nachgelagerten Aufgaben führt, sondern auch die zugrunde liegenden visuellen Repräsentationen des MLLMs grundlegend verändert. Insbesondere ist die zentrale Erkenntnis unserer Studie, dass RL im Vergleich zu SFT stärkere und präziser lokalisierte visuelle Repräsentationen erzeugt, wodurch die Fähigkeiten des Vision-Encoders für MLLMs gesteigert werden. Wir formulieren unsere Erkenntnisse anschließend in ein einfaches Rezept zur Entwicklung leistungsstarker Vision-Encoder für MLLMs um, die sogenannte Preference-Instructed Vision OpTimization (PIVOT). Wenn ein PIVOT-trainierter Vision-Encoder in MLLMs integriert wird, übertrifft er sogar größere und intensiver trainierte Gegenstücke, obwohl er weniger als 1 % der Rechenkosten des Standard-Vision-Pretrainings erfordert. Dieses Ergebnis eröffnet einen effektiven und effizienten Weg zur Weiterentwicklung der Vision-Backbones von MLLMs. Die Projektseite ist verfügbar unter https://june-page.github.io/pivot/.
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte bei komplexen Denkaufgaben gezeigt, die weitgehend durch Testzeit-Skalierung (TTS)-Paradigmen ermöglicht werden, die zusätzliche Rechenleistung während der Inferenz bereitstellen. Unter diesen ermöglicht das externe TTS (insbesondere das Best-of-N-Auswahlparadigma) skalierbare Leistungsverbesserungen, indem aus mehreren unabhängig generierten Denkpfaden ausgewählt wird. Dieser Ansatz steht jedoch vor wesentlichen Herausforderungen: (i) der hohe Rechenaufwand für den Einsatz von Prozessbewertungsmodellen, (ii) die unzureichende Nutzung der intrinsischen latenten Repräsentationen des LLMs. Wir stellen TrajSelector vor, ein effizientes und effektives Best-of-N-Framework, das die verborgenen Zustände im Sampler-LLM für die prozessbasierte Bewertung nutzt. Ein leichtgewichtiger Verifizierer (mit nur 0,6 Milliarden Parametern) bewertet die Qualität schrittweiser Denkpfade und aggregiert diese Bewertungen, um den optimalen Denkpfad zu identifizieren. Unser Framework verwendet ein vollständig datengesteuertes, end-to-end Trainingsverfahren, das die Abhängigkeit von umfangreichen schrittweisen Annotationen beseitigt. Experimentelle Ergebnisse über fünf Benchmarks zeigen, dass TrajSelector konsistente Leistungssteigerungen erzielt. In Best-of-32-Szenarien übertrifft es die Mehrheitsabstimmung um 4,61 % an Genauigkeit und übertrifft bestehende Prozessbewertungsmodelle um 4,31 % bis 12,21 %, bei gleichzeitig niedrigeren Inferenzkosten.
Retrieval-Augmented Generation (RAG) hat sich als leistungsstarkes Paradigma zur Verbesserung großer Sprachmodelle (LLMs) durch das Abrufen relevanter Dokumente aus einem externen Korpus etabliert. Allerdings konzentrieren sich bestehende RAG-Systeme hauptsächlich auf unimodale Textdokumente und stoßen in realen Szenarien oft an ihre Grenzen, in denen sowohl Anfragen als auch Dokumente gemischte Modalitäten (wie Text und Bilder) enthalten können. In diesem Artikel gehen wir die Herausforderung des Universal Retrieval-Augmented Generation (URAG) an, bei dem es darum geht, gemischt-modale Informationen abzurufen und darüber zu schlussfolgern, um die Vision-Sprach-Generierung zu verbessern. Zu diesem Zweck schlagen wir Nyx vor, einen einheitlichen gemischt-modalen Retriever, der speziell für URAG-Szenarien entwickelt wurde. Um den Mangel an realistischen gemischt-modalen Daten zu beheben, führen wir eine vierstufige automatisierte Pipeline zur Generierung und Filterung ein, die Webdokumente nutzt, um NyxQA zu konstruieren, einen Datensatz, der vielfältige gemischt-modale Frage-Antwort-Paare enthält, die die Informationsbedürfnisse der realen Welt besser widerspiegeln. Aufbauend auf diesem hochwertigen Datensatz verwenden wir ein zweistufiges Trainingsframework für Nyx: Zuerst führen wir ein Pre-Training auf NyxQA sowie auf einer Vielzahl von Open-Source-Retrieval-Datensätzen durch, gefolgt von einem überwachten Fein-Tuning unter Verwendung von Feedback aus nachgelagerten Vision-Sprach-Modellen (VLMs), um die Retrieval-Ergebnisse mit den generativen Präferenzen abzustimmen. Experimentelle Ergebnisse zeigen, dass Nyx nicht nur auf Standard-RAG-Benchmarks für reinen Text wettbewerbsfähig abschneidet, sondern auch in der allgemeineren und realistischeren URAG-Umgebung hervorragende Leistungen erbringt und die Generierungsqualität in Vision-Sprach-Aufgaben signifikant verbessert.
Große Sprachmodelle haben starke Leistungen bei Aufgaben zur logischen Argumentation erzielt, indem sie wettbewerbsfähige Programmier- und mathematische Probleme lösen. Ihre Skalierbarkeit wird jedoch durch menschlich annotierte Datensätze und den Mangel an umfangreichen, anspruchsvollen Trainingsdaten für Programmierprobleme begrenzt. Bestehende Datensätze für Wettbewerbsprogrammierung enthalten lediglich Tausende bis Zehntausende von Problemen. Bisherige Methoden zur synthetischen Datengenerierung stützen sich entweder auf die Erweiterung bestehender Instruktionsdatensätze oder auf die Auswahl anspruchsvoller Probleme aus menschlich annotierten Daten. In diesem Artikel stellen wir QueST vor, ein neuartiges Framework, das schwierigkeitsbewusstes Graph-Sampling und schwierigkeitsbewusstes Ablehnungs-Fine-Tuning kombiniert, um spezialisierte Generatoren direkt zu optimieren und anspruchsvolle Programmierprobleme zu erstellen. Unsere trainierten Generatoren zeigen eine überlegene Fähigkeit im Vergleich zu GPT-4o bei der Erstellung anspruchsvoller Probleme, die die nachgelagerte Leistung verbessern. Wir nutzen QueST, um groß angelegte synthetische Programmierprobleme zu generieren, die wir dann verwenden, um von starken Lehrermodellen mit langen Gedankenketten zu destillieren oder um Reinforcement Learning für kleinere Modelle durchzuführen, was sich in beiden Szenarien als effektiv erweist. Unsere Destillationsexperimente zeigen signifikante Leistungssteigerungen. Insbesondere übertraf nach dem Fine-Tuning von Qwen3-8B-base auf 100.000 schwierigen Problemen, die von QueST generiert wurden, die Leistung des ursprünglichen Qwen3-8B auf LiveCodeBench. Mit zusätzlichen 112.000 Beispielen (d.h. 28.000 von Menschen geschriebene Probleme, die mit mehreren synthetischen Lösungen gepaart sind), erreicht unser 8B-Modell die Leistung des deutlich größeren DeepSeek-R1-671B. Diese Ergebnisse deuten darauf hin, dass die Generierung komplexer Probleme über QueST einen effektiven und skalierbaren Ansatz bietet, um die Grenzen der Wettbewerbsprogrammierung und des logischen Denkens für große Sprachmodelle zu erweitern.
Das Ensembling von Large Language Models (LLMs) hat als vielversprechender Ansatz Aufmerksamkeit erregt, um die Leistung einzelner Modelle durch die Nutzung ihrer komplementären Stärken zu übertreffen. Insbesondere hat sich die Aggregation der nächsten Token-Wahrscheinlichkeitsverteilungen der Modelle zur Auswahl des nächsten Tokens in verschiedenen Aufgaben als effektiv erwiesen. Während dies jedoch bei kurzen Antworten erfolgreich ist, bleibt die Anwendung bei der langen Textgenerierung weitgehend unerforscht. In diesem Artikel zeigen wir, dass die Verwendung bestehender Ensemble-Methoden bei der langen Textgenerierung eine sorgfältige Auswahl der Ensembling-Positionen erfordert, da die gängige Praxis des Ensemblings bei jedem Token oft die Leistung beeinträchtigt. Wir identifizieren zwei Schlüsselfaktoren für die Bestimmung dieser Positionen: Tokenisierungsunterschiede zwischen den Modellen und die Übereinstimmung in ihren nächsten Token-Wahrscheinlichkeitsverteilungen. Basierend darauf schlagen wir SAFE (Stable And Fast LLM Ensembling) vor, ein Framework, das selektiv ensembelt, indem es diese Faktoren gemeinsam berücksichtigt. Um die Stabilität weiter zu verbessern, führen wir eine Wahrscheinlichkeitsverschärfungsstrategie ein, die Wahrscheinlichkeiten, die über mehrere Sub-Word-Tokens verteilt sind, die dasselbe Wort repräsentieren, in einen einzigen repräsentativen Token konsolidiert. Unsere Experimente auf verschiedenen Benchmarks, einschließlich MATH500 und BBH, zeigen, dass SAFE bestehende Methoden sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft, wobei Gewinne selbst dann erzielt werden, wenn weniger als 1 % der Tokens ensembled werden.
Während Foundation-Modelle in verschiedenen Bereichen vielversprechende Ergebnisse gezeigt haben, fehlt in der Astronomie noch ein einheitliches Framework für die gemeinsame Modellierung ihrer äußerst vielfältigen Datenmodalitäten. In diesem Artikel stellen wir AION-1 vor, eine Familie von großskaligen multimodalen Foundation-Modellen für die Astronomie. AION-1 integriert heterogene Bild-, Spektral- und skalare Daten mithilfe einer zweistufigen Architektur: modalspezifische Tokenisierung gefolgt von einer transformer-basierten Masked Modeling von cross-modalen Token-Sequenzen. Das Modell wird auf fünf großangelegten Surveys vortrainiert: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) und Gaia. Diese umfassen mehr als 200 Millionen Beobachtungen von Sternen, Galaxien und Quasaren. Mit einem einzigen eingefrorenen Encoder erzielt AION-1 starke Ergebnisse bei einer Vielzahl von Downstream-Aufgaben, darunter die Schätzung von Galaxien- und Sterneigenschaften, die Klassifizierung von Galaxienmorphologien, ähnlichkeitsbasierte Retrieval, Galaxienbildsegmentierung und spektrale Super-Resolution. Wir veröffentlichen AION-1-Modellvarianten mit einer Größe von 300 M bis 3,1 B Parametern. Über die Astronomie hinaus bietet AION-1 einen skalierbaren Blueprint für multimodale wissenschaftliche Foundation-Modelle, die rauschbehaftete, instrumentenspezifische Beobachtungen nahtlos integrieren können. Der gesamte Code, Tokenizer, vortrainierte Gewichte und ein leichtgewichtiges Evaluationssuite werden unter einer Open-Source-Lizenz veröffentlicht.
Während die Skalierung zur Inferenzzeit durch Suchverfahren die Welt der großen Sprachmodelle revolutioniert hat, gestaltet sich die Übertragung dieser Fortschritte auf die Bildgenerierung als schwierig. Jüngste Versuche, Suchstrategien auf kontinuierliche Diffusionsmodelle anzuwenden, zeigen nur begrenzte Vorteile, wobei einfaches zufälliges Sampling oft die besten Ergebnisse liefert. Wir demonstrieren, dass die diskrete, sequenzielle Natur visueller autoregressiver Modelle eine effektive Suche für die Bildgenerierung ermöglicht. Wir zeigen, dass die Beam-Search-Methode die Text-zu-Bild-Generierung erheblich verbessert und es einem autoregressiven Modell mit 2 Milliarden Parametern ermöglicht, ein Diffusionsmodell mit 12 Milliarden Parametern in Benchmarks zu übertreffen. Systematische Ablationen zeigen, dass dieser Vorteil aus dem diskreten Token-Raum resultiert, der ein frühes Pruning und die Wiederverwendung von Berechnungen ermöglicht, und unsere Verifikator-Analyse hebt die Kompromisse zwischen Geschwindigkeit und Denkfähigkeit hervor. Diese Erkenntnisse deuten darauf hin, dass die Modellarchitektur, nicht nur die Skalierung, entscheidend für die Optimierung zur Inferenzzeit in der visuellen Generierung ist.
Ehrlichkeitsausrichtung – die Fähigkeit großer Sprachmodelle (LLMs), ihre Wissensgrenzen zu erkennen und kalibriertes Vertrauen auszudrücken – ist entscheidend für den vertrauenswürdigen Einsatz. Bestehende Methoden stützen sich entweder auf trainingsfreie Konfidenzschätzung (z. B. Token-Wahrscheinlichkeiten, Selbstkonsistenz) oder auf trainingsbasierte Kalibrierung mit Korrektheitsannotationen. Obwohl effektiv, erfordert die universelle Ehrlichkeitsausrichtung mit trainingsbasierter Kalibrierung kostspielige, groß angelegte Beschriftung. Um die annotierungseffiziente Schulung zu unterstützen, führen wir Elicitation-Then-Calibration (EliCal) ein, ein zweistufiges Framework, das zunächst die interne Konfidenz durch kostengünstige Selbstkonsistenzüberwachung ermittelt und dann diese Konfidenz mit einer kleinen Menge von Korrektheitsannotationen kalibriert. Um eine groß angelegte Studie zu ermöglichen, veröffentlichen wir HonestyBench, einen Benchmark, der zehn freie Frage-Antwort-Datensätze mit 560.000 Trainings- und 70.000 Evaluierungsinstanzen umfasst, die mit Korrektheits- und Selbstkonsistenzsignalen annotiert sind. Experimente zeigen, dass EliCal mit nur 1.000 Korrektheitsannotationen (0,18 % der vollen Überwachung) eine nahezu optimale Ausrichtung erreicht und eine bessere Ausrichtungsleistung bei unbekannten MMLU-Aufgaben als die rein kalibrierungsbasierte Baseline bietet, was eine skalierbare Lösung für die universelle Ehrlichkeitsausrichtung in LLMs darstellt.
Die instruktionsbasierte Bildbearbeitung hat bemerkenswerte Fortschritte erzielt; jedoch neigen Modelle, die ausschließlich durch überwachtes Feintuning trainiert werden, oft dazu, sich an annotierte Muster anzupassen, was ihre Fähigkeit einschränkt, über die Trainingsverteilungen hinaus zu explorieren und zu generalisieren. Um dies zu adressieren, führen wir Edit-R1 ein, ein neuartiges Post-Training-Framework für instruktionsbasierte Bildbearbeitung, das auf Policy-Optimierung basiert. Konkret nutzen wir Diffusion Negative-aware Finetuning (DiffusionNFT), eine likelihood-freie Policy-Optimierungsmethode, die mit dem Flow-Matching-Vorwärtsprozess konsistent ist, wodurch die Verwendung von höherwertigen Samplern und effizienterem Training ermöglicht wird. Eine weitere zentrale Herausforderung ist das Fehlen eines universellen Belohnungsmodells, das sich aus der Vielfalt der Bearbeitungsanweisungen und -aufgaben ergibt. Um diese Lücke zu schließen, verwenden wir ein Multimodales Großes Sprachmodell (MLLM) als einheitliches, trainingsfreies Belohnungsmodell, das dessen Ausgabe-Logits nutzt, um fein abgestimmtes Feedback zu liefern. Darüber hinaus entwerfen wir sorgfältig einen gruppenbasierten Filtermechanismus mit geringer Varianz, um das Rauschen bei der MLLM-Bewertung zu reduzieren und die Optimierung zu stabilisieren. UniWorld-V2, das mit diesem Framework trainiert wurde, erzielt state-of-the-art Ergebnisse auf den Benchmarks ImgEdit und GEdit-Bench mit Bewertungen von 4,49 bzw. 7,83. Entscheidend ist, dass unser Framework modellagnostisch ist und erhebliche Leistungssteigerungen liefert, wenn es auf verschiedene Basismodelle wie Qwen-Image-Edit und FLUX-Kontext angewendet wird, was seine breite Anwendbarkeit demonstriert. Code und Modelle sind öffentlich verfügbar unter https://github.com/PKU-YuanGroup/UniWorld-V2.
Jüngste Fortschritte in trainierungsfreien Methoden zur Aufmerksamkeitssteuerung haben flexible und effiziente textgesteuerte Bearbeitungsfähigkeiten für bestehende Generationsmodelle ermöglicht. Allerdings haben aktuelle Ansätze Schwierigkeiten, gleichzeitig eine starke Bearbeitungsintensität zu liefern und die Konsistenz mit der Quelle zu bewahren. Diese Einschränkung wird insbesondere bei mehrfachen Bearbeitungsrunden und der Videobearbeitung kritisch, bei denen sich visuelle Fehler im Laufe der Zeit anhäufen können. Darüber hinaus erzwingen die meisten bestehenden Methoden eine globale Konsistenz, was ihre Fähigkeit einschränkt, einzelne Attribute wie Textur zu ändern, während andere erhalten bleiben, wodurch die fein abgestimmte Bearbeitung behindert wird. Kürzlich hat der architektonische Wechsel von U-Net zu MM-DiT erhebliche Verbesserungen in der generativen Leistung gebracht und einen neuartigen Mechanismus zur Integration von Text- und Bildmodalitäten eingeführt. Diese Fortschritte ebnen den Weg zur Überwindung von Herausforderungen, die frühere Methoden nicht lösen konnten. Durch eine eingehende Analyse von MM-DiT identifizieren wir drei zentrale Erkenntnisse über seine Aufmerksamkeitsmechanismen. Aufbauend auf diesen schlagen wir ConsistEdit vor, eine neuartige Methode zur Aufmerksamkeitssteuerung, die speziell für MM-DiT entwickelt wurde. ConsistEdit integriert eine rein visuelle Aufmerksamkeitssteuerung, eine maskengeführte Vor-Aufmerksamkeitsfusion und eine differenzierte Manipulation der Query-, Key- und Value-Tokens, um konsistente, promptausgerichtete Bearbeitungen zu erzeugen. Umfangreiche Experimente zeigen, dass ConsistEdit in einer Vielzahl von Bild- und Videobearbeitungsaufgaben, einschließlich sowohl strukturkonsistenter als auch strukturinkonsistenter Szenarien, Spitzenleistungen erzielt. Im Gegensatz zu früheren Methoden ist es der erste Ansatz, der Bearbeitungen über alle Inferenzschritte und Aufmerksamkeitsebenen hinweg ohne manuelle Anpassungen durchführt, was die Zuverlässigkeit und Konsistenz erheblich verbessert und robuste mehrfache Bearbeitungsrunden und Mehrfachbereichsbearbeitungen ermöglicht. Darüber hinaus unterstützt es die progressive Anpassung der strukturellen Konsistenz, was eine feinere Kontrolle ermöglicht.
Die Replikation von KI-Forschung ist eine entscheidende, jedoch herausfordernde Aufgabe für Agenten großer Sprachmodelle (LLMs). Bestehende Ansätze haben oft Schwierigkeiten, ausführbaren Code zu generieren, hauptsächlich aufgrund unzureichenden Hintergrundwissens und der Einschränkungen von Retrieval-Augmented-Generation (RAG)-Methoden, die latente technische Details in referenzierten Arbeiten nicht erfassen können. Darüber hinaus neigen frühere Ansätze dazu, wertvolle Implementierungs-Code-Signale zu übersehen und verfügen nicht über strukturierte Wissensrepräsentationen, die eine mehrgranulare Suche und Wiederverwendung unterstützen. Um diese Herausforderungen zu bewältigen, schlagen wir Executable Knowledge Graphs (xKG) vor, eine modulare und anpassbare Wissensbasis, die automatisch technische Erkenntnisse, Code-Snippets und domänenspezifisches Wissen aus wissenschaftlicher Literatur integriert. Wenn xKG in drei Agenten-Frameworks mit zwei verschiedenen LLMs integriert wird, zeigt es erhebliche Leistungssteigerungen (10,9 % mit o3-mini) auf PaperBench, was seine Effektivität als allgemeine und erweiterbare Lösung für die automatisierte Replikation von KI-Forschung unterstreicht. Der Code wird unter https://github.com/zjunlp/xKG veröffentlicht.
Langfristige Ketten von Denkschritten (Chain-of-Thought Reasoning) haben sich zu einem Eckpfeiler fortgeschrittenen Denkens in großen Sprachmodellen entwickelt. Während neuere Verifikations- und Verfeinerungsframeworks proprietären Modellen ermöglicht haben, Olympiade-Level-Probleme zu lösen, hängt ihre Wirksamkeit von starken, zuverlässigen Verifikations- und Korrekturfähigkeiten ab, die in offenen, kleineren Modellen nach wie vor fragil bleiben. Diese Arbeit zeigt, dass selbst mit schwachen Verifikations- und Verfeinerungsfähigkeiten bei schwierigen Aufgaben die Denkgrenzen solcher Modelle erheblich erweitert werden können, durch ein probabilistisches Paradigma, das wir Deep Self-Evolving Reasoning (DSER) nennen. Wir konzeptualisieren iteratives Denken als eine Markov-Kette, bei der jeder Schritt einen stochastischen Übergang im Lösungsraum darstellt. Die zentrale Erkenntnis ist, dass die Konvergenz zu einer korrekten Lösung garantiert ist, solange die Wahrscheinlichkeit einer Verbesserung die einer Verschlechterung marginal übersteigt. Durch das parallele Ausführen mehrerer langfristiger, selbstentwickelnder Prozesse verstärkt DSER diese kleinen positiven Tendenzen und ermöglicht es dem Modell, sich asymptotisch den richtigen Antworten zu nähern. Empirisch wenden wir DSER auf das DeepSeek-R1-0528-Qwen3-8B-Modell an. Auf dem anspruchsvollen AIME 2024-2025-Benchmark löst DSER 5 von 9 zuvor unlösbaren Problemen und steigert die Gesamtleistung, wodurch dieses kompakte Modell durch Mehrheitsentscheidung die Einzelzug-Genauigkeit seines 600B-Parameter-Lehrers übertrifft. Über seinen unmittelbaren Nutzen für die Skalierung zur Testzeit hinaus dient das DSER-Framework dazu, die grundlegenden Grenzen aktueller offener Denkmodelle zu diagnostizieren. Durch die klare Abgrenzung ihrer Schwächen in Selbstverifikation, Verfeinerung und Stabilität etablieren unsere Ergebnisse eine klare Forschungsagenda für die Entwicklung von Modellen der nächsten Generation mit leistungsstarken, intrinsischen Selbstentwicklungsfähigkeiten.
Vortrainierte Zeitreihenmodelle haben Inferenz-basierte Prognosesysteme ermöglicht, die präzise Vorhersagen ohne aufgabenspezifisches Training liefern. Bisher konzentrieren sich bestehende Ansätze jedoch weitgehend auf univariate Prognosen, was ihre Anwendbarkeit in realen Szenarien einschränkt, in denen multivariate Daten und Kovariaten eine entscheidende Rolle spielen. Wir präsentieren Chronos-2, ein vortrainiertes Modell, das in der Lage ist, univariate, multivariate und kovariatenbasierte Prognoseaufgaben in einem Zero-Shot-Ansatz zu bewältigen. Chronos-2 verwendet einen Gruppen-Attentionsmechanismus, der In-Context-Learning (ICL) durch effizienten Informationsaustausch über mehrere Zeitreihen innerhalb einer Gruppe ermöglicht. Diese Gruppe kann verwandte Reihen, Variablen einer multivariaten Reihe oder Zielgrößen und Kovariaten in einer Prognoseaufgabe repräsentieren. Diese allgemeinen Fähigkeiten werden durch das Training auf synthetischen Datensätzen erreicht, die diverse multivariate Strukturen auf univariate Reihen abbilden. Chronos-2 erzielt state-of-the-art Leistungen in drei umfassenden Benchmarks: fev-bench, GIFT-Eval und Chronos Benchmark II. Auf fev-bench, das den Schwerpunkt auf multivariate und kovariatenbasierte Prognosen legt, führen die universellen ICL-Fähigkeiten von Chronos-2 zu erheblichen Verbesserungen gegenüber bestehenden Modellen. Bei Aufgaben mit Kovariaten übertrifft es die Baselines durchgehend mit großem Abstand. Fallstudien in den Bereichen Energie und Einzelhandel unterstreichen zudem seine praktischen Vorteile. Die In-Context-Learning-Fähigkeiten von Chronos-2 etablieren es als ein allgemeines Prognosemodell, das „as is“ in realen Prognosepipelines eingesetzt werden kann.
Die rasante Entwicklung von agentenbasierter KI markiert eine neue Phase in der künstlichen Intelligenz, in der Large Language Models (LLMs) nicht mehr nur reagieren, sondern handeln, schlussfolgern und sich anpassen. Diese Übersichtsarbeit zeichnet den Paradigmenwechsel beim Aufbau agentenbasierter KI nach: von Pipeline-basierten Systemen, bei denen Planung, Werkzeugnutzung und Gedächtnis durch externe Logik orchestriert werden, hin zum aufkommenden Model-native-Paradigma, bei dem diese Fähigkeiten innerhalb der Modellparameter internalisiert sind. Zunächst positionieren wir Reinforcement Learning (RL) als den algorithmischen Motor, der diesen Paradigmenwechsel ermöglicht. Indem das Lernen von der Nachahmung statischer Daten auf ergebnisgetriebene Exploration umgestellt wird, bildet RL die Grundlage für eine einheitliche Lösung von LLM + RL + Aufgabe über Sprach-, Bild- und verkörperte Domänen hinweg. Aufbauend darauf untersucht die Übersichtsarbeit systematisch, wie sich jede Fähigkeit – Planung, Werkzeugnutzung und Gedächtnis – von extern skriptgesteuerten Modulen zu end-to-end gelernten Verhaltensweisen entwickelt hat. Darüber hinaus wird untersucht, wie dieser Paradigmenwechsel bedeutende Anwendungen von Agenten neu gestaltet hat, insbesondere den Deep Research-Agenten, der langfristiges Schlussfolgern betont, und den GUI-Agenten, der verkörperte Interaktion hervorhebt. Abschließend diskutieren wir die fortgesetzte Internalisierung agentenbasierter Fähigkeiten wie Multi-Agenten-Kollaboration und Reflexion sowie die sich entwickelnden Rollen der System- und Modellebene in zukünftiger agentenbasierter KI. Zusammengenommen skizzieren diese Entwicklungen eine kohärente Trajektorie hin zu model-nativer agentenbasierter KI als einem integrierten Lern- und Interaktionsrahmen, der den Übergang vom Konstruieren von Systemen, die Intelligenz anwenden, zur Entwicklung von Modellen, die Intelligenz durch Erfahrung wachsen lassen, markiert.
Das Codec Avatars Lab bei Meta stellt Embody 3D vor, einen multimodalen Datensatz, der 500 individuelle Stunden an 3D-Bewegungsdaten von 439 Teilnehmern umfasst, die in einer Multi-Kamera-Aufnahmestation erfasst wurden. Dies entspricht über 54 Millionen Frames von getrackter 3D-Bewegung. Der Datensatz beinhaltet eine breite Palette von Einzelpersonen-Bewegungsdaten, einschließlich vorgegebener Bewegungen, Handgesten und Fortbewegung, sowie Mehrpersonen-Verhaltens- und Konversationsdaten wie Diskussionen, Gespräche in verschiedenen emotionalen Zuständen, kooperative Aktivitäten und gemeinschaftliche Szenarien in einem wohnungsähnlichen Raum. Wir bieten getrackte menschliche Bewegungen, einschließlich Handtracking und Körperform, Textannotationen sowie einen separaten Audiokanal für jeden Teilnehmer.
Jüngste Fortschritte in der Bildgenerierung, oft vorangetrieben durch proprietäre Systeme wie GPT-4o Image Gen, führen regelmäßig zu neuen Fähigkeiten, die die Art und Weise, wie Nutzer mit diesen Modellen interagieren, grundlegend verändern. Bestehende Benchmarks hinken oft hinterher und erfassen diese neu entstehenden Anwendungsfälle nicht, wodurch eine Lücke zwischen der Wahrnehmung des Fortschritts in der Community und der formalen Bewertung entsteht. Um dies zu beheben, präsentieren wir ECHO, ein Framework zur Erstellung von Benchmarks direkt aus realen Belegen der Modellnutzung: Social-Media-Posts, die neuartige Prompts und qualitative Nutzerbewertungen zeigen. Durch die Anwendung dieses Frameworks auf GPT-4o Image Gen erstellen wir einen Datensatz mit über 31.000 Prompts, die aus solchen Posts kuratiert wurden. Unsere Analyse zeigt, dass ECHO (1) kreative und komplexe Aufgaben entdeckt, die in bestehenden Benchmarks fehlen, wie z. B. das Neugestalten von Produktetiketten in verschiedenen Sprachen oder das Generieren von Quittungen mit vorgegebenen Gesamtbeträgen, (2) state-of-the-art Modelle deutlicher von Alternativen unterscheidet und (3) Community-Feedback aufzeigt, das wir zur Gestaltung von Metriken für die Modellqualität nutzen (z. B. die Messung beobachteter Verschiebungen in Farbe, Identität und Struktur). Unsere Website ist unter https://echo-bench.github.io verfügbar.
Agentisches Reinforcement Learning (RL) trainiert große Sprachmodelle dazu, Werkzeuge während des Denkprozesses autonom aufzurufen, wobei die Suche die häufigste Anwendung darstellt. Diese Modelle zeichnen sich bei mehrstufigen Denkaufgaben aus, doch ihre Sicherheitseigenschaften sind nicht gut verstanden. In dieser Studie zeigen wir, dass RL-trainierte Suchmodelle die Verweigerung aus dem Instruction Tuning erben und oft schädliche Anfragen abwehren, indem sie sie in sichere Abfragen umwandeln. Diese Sicherheit ist jedoch fragil. Zwei einfache Angriffe – einer, der das Modell zwingt, die Antwort mit einer Suche zu beginnen (Suchangriff), und ein anderer, der Modelle dazu anregt, wiederholt zu suchen (Mehrfachsuchangriff) – lösen Kaskaden von schädlichen Suchen und Antworten aus. Über zwei Modellfamilien (Qwen, Llama) mit sowohl lokaler als auch Web-Suche hinweg senken diese Angriffe die Verweigerungsraten um bis zu 60,0 %, die Sicherheit der Antworten um 82,5 % und die Sicherheit der Suchanfragen um 82,4 %. Die Angriffe gelingen, indem sie die Modelle dazu veranlassen, schädliche, anfragespiegelnde Suchanfragen zu generieren, bevor sie die geerbten Verweigerungstoken erzeugen können. Dies legt eine zentrale Schwäche des aktuellen RL-Trainings offen: Es belohnt die fortgesetzte Generierung effektiver Abfragen, ohne deren Schädlichkeit zu berücksichtigen. Infolgedessen weisen RL-Suchmodelle Schwachstellen auf, die Benutzer leicht ausnutzen können, was die dringende Entwicklung sicherheitsbewusster agentischer RL-Pipelines zur Optimierung sicherer Suchen erforderlich macht.
Multimodale Agenten für die Computernutzung verlassen sich ausschließlich auf primitive Aktionen (Klicken, Tippen, Scrollen), die eine präzise visuelle Verankerung und lange Ausführungsketten erfordern, was zu kaskadierenden Fehlern und Leistungsengpässen führt. Während andere Agenten umfangreiche programmatische Schnittstellen (APIs, MCP-Server, Tools) nutzen, bleiben Computer-Nutzungs-Agenten (CUAs) von diesen Fähigkeiten isoliert. Wir stellen UltraCUA vor, ein Foundation-Modell, das diese Lücke durch hybride Aktionen schließt – nahtlose Integration von GUI-Primitiven mit hochrangigen programmatischen Tool-Aufrufen. Um dies zu erreichen, besteht unser Ansatz aus vier Schlüsselkomponenten: (1) einer automatisierten Pipeline, die programmatische Tools aus Software-Dokumentationen, Open-Source-Repositories und Code-Generierung skaliert; (2) einer synthetischen Daten-Engine, die über 17.000 verifizierbare Aufgaben erzeugt, die reale Computer-Nutzungsszenarien abdecken; (3) einer groß angelegten, hochwertigen Sammlung hybrider Aktions-Trajektorien mit sowohl niedrigrangigen GUI-Aktionen als auch hochrangigen programmatischen Tool-Aufrufen; und (4) einem zweistufigen Trainingspipeline, das überwachtes Fein-Tuning mit Online-Verstärkungslernen kombiniert, um strategische Wechsel zwischen niedrigrangigen und hochrangigen Aktionen zu ermöglichen. Experimente mit unseren 7B- und 32B-Modellen zeigen erhebliche Verbesserungen gegenüber state-of-the-art Agenten. Auf OSWorld erreichen UltraCUA-Modelle eine durchschnittliche relative Verbesserung von 22 % gegenüber Basismodellen, während sie 11 % schneller in Bezug auf Schritte sind. Eine Out-of-Domain-Evaluierung auf WindowsAgentArena zeigt, dass unser Modell eine Erfolgsrate von 21,7 % erreicht und damit Baseline-Modelle, die auf Windows-Daten trainiert wurden, übertrifft. Der hybride Aktionsmechanismus erweist sich als entscheidend, reduziert die Fehlerfortpflanzung und bewahrt gleichzeitig die Ausführungseffizienz.
Da Informationen exponentiell wachsen, stehen Unternehmen zunehmend unter Druck, unstrukturierte Daten in kohärente, umsetzbare Erkenntnisse zu transformieren. Obwohl autonome Agenten vielversprechend sind, kämpfen sie oft mit domänenspezifischen Nuancen, Intent-Ausrichtung und Unternehmensintegration. Wir präsentieren Enterprise Deep Research (EDR), ein Multi-Agenten-System, das (1) einen Master Planning Agent für adaptive Abfragezerlegung, (2) vier spezialisierte Suchagenten (General, Academic, GitHub, LinkedIn), (3) ein erweiterbares MCP-basiertes Tool-Ökosystem, das NL2SQL, Dateianalyse und Unternehmensworkflows unterstützt, (4) einen Visualisierungsagenten für datengetriebene Erkenntnisse und (5) einen Reflexionsmechanismus, der Wissenslücken erkennt und die Forschungsrichtung mit optionaler menschlicher Steuerung aktualisiert, integriert. Diese Komponenten ermöglichen die automatisierte Berichterstellung, Echtzeit-Streaming und nahtlose Unternehmensbereitstellung, wie auf internen Datensätzen validiert. Auf offenen Benchmarks, einschließlich DeepResearch Bench und DeepConsult, übertrifft EDR state-of-the-art agentenbasierte Systeme ohne menschliche Steuerung. Wir veröffentlichen das EDR-Framework und Benchmark-Trajektorien, um die Forschung zu Multi-Agenten-Anwendungen voranzutreiben. Code unter https://github.com/SalesforceAIResearch/enterprise-deep-research und Datensatz unter https://huggingface.co/datasets/Salesforce/EDR-200
Wissensbasierte visuelle Frage-Antwort-Systeme (KB-VQA) erfordern, dass visuelle Sprachmodelle (VLMs) visuelles Verständnis mit der Nutzung externen Wissens integrieren. Obwohl retrieval-augmentierte Generierung (RAG) durch die Kombination von Wissensbasisabfragen bedeutende Fortschritte in dieser Aufgabe erzielt, bestehen weiterhin Herausforderungen hinsichtlich der Qualität multimodaler Abfragen und der Relevanz der abgerufenen Ergebnisse. Um diese Herausforderungen zu bewältigen, schlagen wir eine neuartige dreistufige Methode vor, die als Wiki-PRF bezeichnet wird und die Stufen Verarbeitung, Abruf und Filterung umfasst. In der Verarbeitungsstufe werden visuelle Werkzeuge dynamisch aufgerufen, um präzise multimodale Informationen für den Abruf zu extrahieren. Die Abrufstufe integriert visuelle und Textmerkmale, um multimodale Wissensabfragen zu ermöglichen. Die Filterstufe führt Relevanzfilterung und Fokussierung auf die abgerufenen Ergebnisse durch. Zu diesem Zweck führen wir ein visuelles Sprachmodell ein, das mit Antwortgenauigkeit und Formatkonsistenz als Belohnungssignale in einem Reinforcement-Learning-Ansatz trainiert wird. Dies verbessert die Fähigkeit des Modells zur logischen Schlussfolgerung, zur präzisen Abfrage durch Werkzeugaufrufe und zur Filterung irrelevanter Inhalte. Experimente auf Benchmark-Datensätzen (E-VQA und InfoSeek) zeigen signifikante Verbesserungen (36,0 und 42,8) in der Antwortqualität und erreichen damit state-of-the-art Leistung. Der Code ist verfügbar unter https://github.com/cqu-student/Wiki-PRF.
Große Sprachmodelle (LLMs), wie OpenAI-o1 und DeepSeek-R1, haben starke Fähigkeiten im Bereich des logischen Schließens demonstriert. Um die Fähigkeiten von LLMs weiter zu verbessern, integrieren neuere agentenbasierte Systeme, wie Deep Research, Web-Interaktionen in das logische Schließen von LLMs, um Unsicherheiten zu verringern und potenzielle Fehler zu reduzieren. Bisherige Forschung konzentriert sich jedoch hauptsächlich auf die Leistungsfähigkeit des logischen Schließens und vernachlässigt oft die Effizienz agentenbasierter Systeme. In dieser Arbeit präsentieren wir eine umfassende empirische Studie, die Engpässe in der Effizienz von web-interaktiven agentenbasierten Systemen identifiziert. Wir zerlegen die End-to-End-Latenz in zwei Hauptkomponenten: die Latenz der LLM-API und die Latenz der Web-Umgebung. Wir führen eine umfassende empirische Studie über 15 Modelle und 5 Anbieter durch, um die hohe Variabilität in API-basierten agentenbasierten Systemen zu demonstrieren. Wir beobachten, dass die Latenz der Web-Umgebung bis zu 53,7 % zur Gesamtlatenz in einem web-basierten agentenbasierten System beitragen kann. Um die Latenz zu verbessern, schlagen wir SpecCache vor, ein Caching-Framework, das durch spekulative Ausführung erweitert wird und den Overhead der Web-Umgebung reduzieren kann. Umfangreiche Auswertungen anhand von zwei Standard-Benchmarks zeigen, dass unser Ansatz die Cache-Trefferrate um bis zu 58x im Vergleich zu einer zufälligen Caching-Strategie verbessert, während der Overhead der Web-Umgebung um bis zu 3,2x reduziert wird, ohne die Leistung des agentenbasierten Systems zu beeinträchtigen.
Vision-and-Language-Modelle (VLMs) haben beeindruckende Fähigkeiten auf Single-Turn-Benchmarks gezeigt, doch erfordern reale Anwendungen oft komplexere Mehrfachdialoge. Bestehende Mehrfachdialog-Datensätze (z. B. MMDU, ConvBench) erfassen nur teilweise die Breite und Tiefe der Konversationsszenarien, denen Nutzer begegnen. In dieser Arbeit stellen wir MultiVerse vor, einen neuartigen Mehrfachdialog-Benchmark mit 647 Dialogen – jeder durchschnittlich vier Turns umfassend –, die aus einer vielfältigen Sammlung von 12 populären VLM-Evaluierungsbenchmarks abgeleitet wurden. Mit 484 Aufgaben und 484 Interaktionszielen deckt MultiVerse ein breites Themenspektrum ab, von faktischem Wissen und Wahrnehmung bis hin zu anspruchsvollen Denkaufgaben wie Mathematik und Programmierung. Um eine robuste Bewertung zu ermöglichen, schlagen wir eine Checklisten-basierte Evaluierungsmethode vor, die GPT-4o als automatisierten Bewerter nutzt und die Leistung über 37 Schlüsselaspekte hinweg misst, darunter Wahrnehmungsgenauigkeit, sprachliche Klarheit und faktische Korrektheit. Wir evaluieren 18 VLMs auf MultiVerse und zeigen, dass selbst die stärksten Modelle (z. B. GPT-4o) in komplexen Mehrfachdialogen nur eine Erfolgsquote von 50 % erreichen, was die herausfordernde Natur des Datensatzes unterstreicht. Bemerkenswerterweise stellen wir fest, dass die Bereitstellung des vollständigen Dialogkontexts die Leistung kleinerer oder schwächerer Modelle signifikant verbessert, was die Bedeutung von In-Context-Lernen betont. Wir glauben, dass MultiVerse eine Landschaft zur Bewertung der Fähigkeiten von VLMs in Mehrfachinteraktionen darstellt.
Jüngste Fortschritte bei großen Reasoning-Modellen (LRMs) haben bemerkenswerte Leistungen bei komplexen Aufgaben wie Mathematik und Programmierung durch die Generierung langer Chain-of-Thought (CoT)-Spuren ermöglicht. In diesem Artikel identifizieren und analysieren wir systematisch eine kritische Schwachstelle, die wir als Reasoning-Ablenkung bezeichnen, bei der LRMs von ihrem primären Ziel durch irrelevante, aber komplexe Aufgaben abgelenkt werden, die böswillig in den Prompt eingebettet sind. Durch eine umfassende Studie über verschiedene Modelle und Benchmarks zeigen wir, dass selbst state-of-the-art LRMs stark anfällig sind, wobei eingefügte Ablenkungen die Aufgaben-Genauigkeit um bis zu 60 % reduzieren. Wir zeigen weiterhin, dass bestimmte Alignment-Techniken diese Schwäche verstärken können und dass Modelle eine verdeckte Compliance zeigen können, indem sie versteckte adversarische Anweisungen im Reasoning befolgen, diese jedoch im finalen Output verbergen. Um diese Risiken zu mindern, schlagen wir eine trainingsbasierte Verteidigung vor, die Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) auf synthetischen adversarischen Daten kombiniert und die Robustheit bei herausfordernden Ablenkungsangriffen um über 50 Punkte verbessert. Unsere Ergebnisse etablieren Reasoning-Ablenkung als eine eigenständige und dringende Bedrohung für die Zuverlässigkeit von LRMs und bieten einen praktischen Schritt hin zu sichereren und vertrauenswürdigeren Reasoning-Systemen.
Das Feinabstimmen spezialisierter generativer Evaluatoren hat sich als beliebtes Paradigma etabliert, um der wachsenden Nachfrage nach skalierbarer Bewertung sowohl während des Trainings als auch zur Testzeit gerecht zu werden. Jüngste Arbeiten haben sich jedoch weitgehend auf die Anwendung neuer Methoden, wie Reinforcement Learning (RL), zur Schulung von Evaluatoren konzentriert, wobei groß angelegte, datengetriebene Entwicklungen vernachlässigt wurden. In dieser Arbeit legen wir den Schwerpunkt auf die Skalierung von Daten und kuratieren einen Datensatz von 2,5 Millionen Proben, der fünf einzigartige Bewertungsaufgaben (paarweise, schrittweise, referenzfreie und referenzbasierte Verifikation sowie Einzelbewertung) und mehrere Domänen mit Fokus auf die Bewertung von Schlussfolgerungen umfasst. Mit unseren Daten trainieren wir Foundational Automatic Reasoning Evaluators (FARE), eine Familie von Evaluatoren mit 8 Milliarden und 20 Milliarden Parametern (davon 3,6 Milliarden aktiv), unter Verwendung eines einfachen iterativen Ablehnungs-Sampling-Ansatzes für überwachtes Feinabstimmen (SFT). FARE-8B stellt größere, spezialisierte RL-trainierte Evaluatoren in Frage, und FARE-20B setzt einen neuen Standard für Open-Source-Evaluatoren, indem es spezialisierte Evaluatoren mit über 70 Milliarden Parametern übertrifft. Über statische Benchmarks hinaus bewerten wir FARE in realen Aufgaben: Als Reranker zur Inferenzzeit erreicht FARE-20B nahezu orakelgleiche Leistung auf MATH. Als Verifikatoren im RL-Training verbessert FARE die Leistung des nachgeschalteten RL-trainierten Modells um bis zu 14,1 % im Vergleich zu String-Matching-Verifikatoren. Wenn FARE als Ausgangspunkt verwendet wird, übertrifft ein kontinuierlich feinabgestimmter FARE-Code gpt-oss-20B um 65 % bei der Bewertung der Testfallqualität.
Wenn Sie einen KI-basierten Wal-Englisch-Übersetzer hätten, wie könnten Sie überprüfen, ob er funktioniert? Muss man mit den Tieren interagieren oder sich auf fundierte Beobachtungen wie Temperatur verlassen? Wir liefern theoretische und experimentelle Proof-of-Concept-Beweise, die nahelegen, dass Interaktion und sogar Beobachtungen für hinreichend komplexe Sprachen möglicherweise nicht notwendig sind. Man könnte Übersetzer allein anhand ihrer englischen Ausgaben bewerten, was potenzielle Vorteile in Bezug auf Sicherheit, Ethik und Kosten bietet. Dies ist ein Beispiel für die Bewertung der Qualität von maschineller Übersetzung (MTQE) ohne verfügbare Referenzübersetzungen. Eine zentrale Herausforderung besteht darin, „Halluzinationen“ zu identifizieren – falsche Übersetzungen, die flüssig und plausibel erscheinen können. Wir schlagen vor, segmentweise Übersetzung zusammen mit dem klassischen NLP-Shuffle-Test zur Bewertung von Übersetzern zu verwenden. Die Idee ist, tierische Kommunikation schrittweise zu übersetzen und zu bewerten, wie oft die resultierenden Übersetzungen in der richtigen Reihenfolge mehr Sinn ergeben als in einer permutierten Anordnung. Proof-of-Concept-Experimente mit datenarmen menschlichen Sprachen und konstruierten Sprachen demonstrieren das potenzielle Nutzen dieser Bewertungsmethodik. Diese Experimente mit menschlichen Sprachen dienen ausschließlich dazu, unser referenzfreies Metrik unter Datenknappheit zu validieren. Es zeigt sich, dass es stark mit einer standardmäßigen Bewertung auf Basis von Referenzübersetzungen korreliert, die in unseren Experimenten verfügbar sind. Wir führen auch eine theoretische Analyse durch, die nahelegt, dass Interaktion in den frühen Phasen des Erlernens von Übersetzungen möglicherweise weder notwendig noch effizient ist.
Diese Arbeit präsentiert eine systematische Untersuchung von maßgeschneiderten Architekturen für Faltungsneuronale Netze (Convolutional Neural Networks, CNNs) zur Klassifizierung von Satellitenbildern für Landnutzungszwecke, wobei eine Testgenauigkeit von 97,23 % auf dem EuroSAT-Datensatz ohne die Verwendung vortrainierter Modelle erreicht wird. Durch drei progressive Architekturiterationen (Baseline: 94,30 %, CBAM-erweitert: 95,98 % und balancierter Multi-Task-Attention-Mechanismus: 97,23 %) identifizieren und adressieren wir spezifische Fehlermodi bei der Klassifizierung von Satellitenbildern. Unser Hauptbeitrag ist ein neuartiger balancierter Multi-Task-Attention-Mechanismus, der Coordinate Attention zur räumlichen Merkmalsextraktion mit Squeeze-Excitation-Blöcken zur spektralen Merkmalsextraktion kombiniert, vereint durch einen lernbaren Fusionsparameter. Experimentelle Ergebnisse zeigen, dass dieser lernbare Parameter autonom auf einen Wert von Alpha ≈ 0,57 konvergiert, was auf eine nahezu gleiche Bedeutung der räumlichen und spektralen Modalitäten für Satellitenbilder hinweist. Wir verwenden progressive DropBlock-Regularisierung (5–20 % nach Netzwerktiefe) und klassenbalancierte Verlustgewichtung, um Überanpassung und Ungleichgewichte in den Verwechslungsmustern zu adressieren. Die finale 12-schichtige Architektur erreicht einen Cohen’s Kappa von 0,9692, wobei alle Klassen eine Genauigkeit von über 94,46 % aufweisen, und zeigt eine Kalibrierung der Vorhersagesicherheit mit einer Lücke von 24,25 % zwischen korrekten und inkorrekten Vorhersagen. Unser Ansatz erreicht eine Leistung, die innerhalb von 1,34 % des feinabgestimmten ResNet-50 (98,57 %) liegt, ohne externe Daten zu benötigen, und validiert damit die Wirksamkeit systematischer Architekturentwürfe für domänenspezifische Anwendungen. Vollständiger Code, trainierte Modelle und Evaluationsskripte sind öffentlich verfügbar.
Die Gestaltung effektiver agentischer Systeme erfordert die nahtlose Komposition und Integration von Agenten, Werkzeugen und Modellen in dynamischen und unsicheren Umgebungen. Die meisten bestehenden Methoden verlassen sich auf statische, semantische Retrieval-Ansätze zur Entdeckung von Werkzeugen oder Agenten. Die effektive Wiederverwendung und Komposition bestehender Komponenten bleibt jedoch aufgrund unvollständiger Fähigkeitsbeschreibungen und der Grenzen von Retrieval-Methoden eine Herausforderung. Die Auswahl von Komponenten leidet darunter, dass die Entscheidungen nicht auf Fähigkeiten, Kosten und Echtzeit-Nutzen basieren. Um diese Herausforderungen zu bewältigen, führen wir ein strukturiertes, automatisiertes Framework für die Komposition agentischer Systeme ein, das vom Rucksackproblem inspiriert ist. Unser Framework ermöglicht es einem Komponisten-Agenten, systematisch eine optimale Menge agentischer Komponenten zu identifizieren, auszuwählen und zusammenzusetzen, indem Leistung, Budgetbeschränkungen und Kompatibilität gemeinsam berücksichtigt werden. Durch das dynamische Testen von Kandidatenkomponenten und die Modellierung ihres Nutzens in Echtzeit rationalisiert unser Ansatz die Zusammenstellung agentischer Systeme und erleichtert die skalierbare Wiederverwendung von Ressourcen. Die empirische Auswertung mit Claude 3.5 Sonnet über fünf Benchmarking-Datensätze zeigt, dass unser auf dem Online-Rucksack basierender Komponist konsequent auf der Pareto-Grenze liegt und im Vergleich zu unseren Baselines höhere Erfolgsraten bei deutlich niedrigeren Komponentenkosten erreicht. Im Einzelagenten-Setup zeigt der Online-Rucksack-Komponist eine Verbesserung der Erfolgsrate von bis zu 31,6 % im Vergleich zu den Retrieval-Baselines. In Multi-Agenten-Systemen erhöht der Online-Rucksack-Komponist die Erfolgsrate von 37 % auf 87 %, wenn Agenten aus einem Inventar von über 100 Agenten ausgewählt werden. Die erhebliche Leistungslücke bestätigt die robuste Anpassungsfähigkeit unserer Methode über verschiedene Domänen und Budgetbeschränkungen hinweg.
Das Übertragen von Erscheinungsbildern auf 3D-Assets unter Verwendung verschiedener Darstellungen des Erscheinungsobjekts – wie Bilder oder Text – hat aufgrund seiner breiten Anwendungsmöglichkeiten in Branchen wie Gaming, Augmented Reality und digitaler Inhaltserstellung Interesse geweckt. Allerdings scheitern state-of-the-art Methoden immer noch, wenn die Geometrie zwischen dem Eingabe- und dem Erscheinungsobjekt signifikant unterschiedlich ist. Ein einfacher Ansatz besteht darin, direkt ein 3D-Generierungsmodell anzuwenden, aber wir zeigen, dass dies letztendlich nicht zu ansprechenden Ergebnissen führt. Stattdessen schlagen wir einen prinzipiellen Ansatz vor, der von universeller Führung inspiriert ist. Gegeben ein vortrainiertes Rectified-Flow-Modell, das auf Bildern oder Text basiert, interagiert unsere trainingsfreie Methode mit dem Sampling-Prozess, indem sie periodisch Führung hinzufügt. Diese Führung kann als eine differenzierbare Verlustfunktion modelliert werden, und wir experimentieren mit zwei verschiedenen Arten von Führung, einschließlich teilbewusster Verluste für das Erscheinungsbild und Selbstähnlichkeit. Unsere Experimente zeigen, dass unser Ansatz erfolgreich Textur- und geometrische Details auf das Eingabe-3D-Asset überträgt und dabei die Baseline-Methoden sowohl qualitativ als auch quantitativ übertrifft. Wir zeigen auch, dass traditionelle Metriken für die Bewertung dieser Aufgabe ungeeignet sind, da sie nicht in der Lage sind, sich auf lokale Details zu konzentrieren und unterschiedliche Eingaben in Abwesenheit von Ground-Truth-Daten zu vergleichen. Daher bewerten wir die Qualität der Erscheinungsübertragung mit einem GPT-basierten System, das die Ausgaben objektiv einstuft, wodurch eine robuste und menschenähnliche Bewertung sichergestellt wird, wie durch unsere Benutzerstudie weiter bestätigt wird. Über die gezeigten Szenarien hinaus ist unsere Methode allgemein und könnte auf verschiedene Arten von Diffusionsmodellen und Führungsfunktionen erweitert werden.
Eine effektive Zusammenarbeit zwischen Mensch und KI bei komplexen Denkaufgaben erfordert, dass Nutzer den Prozess des Modells verstehen und damit interagieren können, anstatt lediglich ein Ergebnis zu erhalten. Der monolithische Text von Methoden wie Chain-of-Thought (CoT) verhindert dies jedoch, da aktuelle Schnittstellen keine Echtzeit-Verbalisierung und robuste Unterbrechungsmöglichkeiten durch den Nutzer bieten. Wir stellen AsyncVoice Agent vor, ein System, dessen asynchrone Architektur ein streamendes LLM-Backend von einer konversationellen Sprachschnittstelle entkoppelt. Dieser Entwurf ermöglicht es, dass Erzählung und Inferenz parallel ablaufen, wodurch Nutzer in der Lage sind, den Denkprozess des Modells jederzeit zu unterbrechen, abzufragen und zu steuern. Objektive Benchmarks zeigen, dass dieser Ansatz die Interaktionslatenz im Vergleich zu monolithischen Baselines um mehr als das 600-fache reduziert, während gleichzeitig hohe Genauigkeit und wettbewerbsfähige Aufgabenpräzision gewährleistet werden. Indem AsyncVoice Agent einen bidirektionalen Dialog mit dem Denkprozess eines Modells ermöglicht, bietet es ein neues Paradigma für den Aufbau effektiverer, steuerbarer und vertrauenswürdiger Mensch-KI-Systeme für hochriskante Aufgaben.
Große Sprachmodelle internalisieren einen strukturellen Kompromiss zwischen Wahrhaftigkeit und unterwürfiger Schmeichelei, der sich aus einer Belohnungsoptimierung ergibt, die Hilfsbereitschaft mit höflicher Unterwerfung verwechselt. Diese latente Verzerrung, bekannt als Sykophantie, äußert sich in einer Präferenz für Benutzerzustimmung gegenüber prinzipiengeleiteter Argumentation. Wir stellen Beacon vor, einen Einzelzug-Zwangswahl-Benchmark, der diese Verzerrung unabhängig vom Konversationskontext isoliert und eine präzise Messung der Spannung zwischen faktischer Genauigkeit und unterwürfiger Verzerrung ermöglicht. Bewertungen über zwölf state-of-the-art Modelle zeigen, dass sich Sykophantie in stabile linguistische und affektive Teilverzerrungen zerlegen lässt, die jeweils mit der Modellkapazität skalieren. Wir schlagen weiterhin Eingriffe auf Prompt- und Aktivierungsebene vor, die diese Verzerrungen in entgegengesetzte Richtungen modulieren und die interne Geometrie der Ausrichtung als dynamische Mannigfaltigkeit zwischen Wahrhaftigkeit und sozial konformem Urteilen offenlegen. Beacon reformuliert Sykophantie als eine messbare Form normativer Fehlgeneralisierung und bietet eine reproduzierbare Grundlage für die Erforschung und Minderung von Ausrichtungsdrift in großskaligen generativen Systemen.
Test-Time Scaling (TTS) hat die Leistung von Reasoning Models (RMs) bei verschiedenen Aufgaben wie Mathematik und Programmierung verbessert, doch seine Wirksamkeit in der maschinellen Übersetzung (MT) bleibt weitgehend unerforscht. Diese Arbeit untersucht, ob ein erhöhter Rechenaufwand während der Inferenz die Übersetzungsqualität verbessert. Wir evaluieren 12 RMs anhand einer vielfältigen Reihe von MT-Benchmarks, die mehrere Domänen abdecken, und betrachten drei Szenarien: direkte Übersetzung, erzwungene Extrapolation durch Reasoning und Nachbearbeitung. Unsere Ergebnisse zeigen, dass TTS bei allgemeinen RMs nur begrenzte und inkonsistente Vorteile für die direkte Übersetzung bietet, wobei die Leistung schnell ein Plateau erreicht. Die Wirksamkeit von TTS wird jedoch durch domänenspezifisches Fine-Tuning freigesetzt, das den Reasoning-Prozess eines Modells an die Anforderungen der Aufgabe anpasst und zu konsistenten Verbesserungen bis zu einer optimalen, selbstbestimmten Reasoning-Tiefe führt. Wir stellen auch fest, dass das Erzwingen von Reasoning über den natürlichen Stopppunkt hinaus die Übersetzungsqualität konsequent verschlechtert. Im Gegensatz dazu erweist sich TTS im Kontext der Nachbearbeitung als äußerst effektiv, indem es Selbstkorrektur zu einem vorteilhaften Prozess macht. Diese Ergebnisse deuten darauf hin, dass der Wert von Inferenzzeit-Rechenleistung in der MT nicht in der Verbesserung von Einzelpass-Übersetzungen mit allgemeinen Modellen liegt, sondern in gezielten Anwendungen wie mehrstufigen Selbstkorrektur-Workflows und in Kombination mit aufgaben-spezialisierten Modellen.
Mit dem Fortschritt von KI-Systemen verlassen wir uns zunehmend darauf, dass sie Entscheidungen mit uns und für uns treffen. Um sicherzustellen, dass solche Entscheidungen mit menschlichen Werten übereinstimmen, ist es unerlässlich, nicht nur zu verstehen, welche Entscheidungen sie treffen, sondern auch, wie sie zu diesen Entscheidungen gelangen. Reasoning-Sprachmodelle, die sowohl endgültige Antworten als auch (teilweise transparente) Zwischengedankenschritte liefern, bieten eine zeitgemäße Möglichkeit, das prozedurale Denken von KI zu untersuchen. Im Gegensatz zu mathematischen und Programmierproblemen, die oft objektiv richtige Antworten haben, sind moralische Dilemmata ein hervorragendes Testfeld für prozessorientierte Bewertungen, da sie mehrere vertretbare Schlussfolgerungen zulassen. Zu diesem Zweck stellen wir MoReBench vor: 1.000 moralische Szenarien, die jeweils mit einer Reihe von Bewertungskriterien gepaart sind, die Experten als wesentlich erachten, um sie bei der Argumentation über die Szenarien zu berücksichtigen (oder zu vermeiden). MoReBench enthält über 23.000 Kriterien, darunter die Identifizierung moralischer Überlegungen, das Abwägen von Kompromissen und das Geben umsetzbarer Empfehlungen, um Fälle abzudecken, in denen KI Menschen bei moralischen Entscheidungen berät oder moralische Entscheidungen autonom trifft. Zusätzlich haben wir MoReBench-Theory kuratiert: 150 Beispiele, um zu testen, ob KI unter fünf großen Rahmenwerken der normativen Ethik argumentieren kann. Unsere Ergebnisse zeigen, dass Skalierungsgesetze und bestehende Benchmarks für mathematische, Programmier- und wissenschaftliche Denkaufgaben nicht die Fähigkeiten von Modellen vorhersagen können, moralisches Denken zu leisten. Modelle zeigen auch eine Vorliebe für bestimmte moralische Rahmenwerke (z. B. Benthams Aktutilitarismus und Kants Deontologie), was Nebenwirkungen gängiger Trainingsparadigmen sein könnte. Zusammen fördern diese Benchmarks die prozessorientierte Bewertung des Denkens hin zu sichererer und transparenterer KI.