papers.description
Wir präsentieren LongLive, ein autoregressives (AR) Framework auf Frame-Ebene für die Echtzeit- und interaktive Generierung langer Videos. Die Generierung langer Videos stellt Herausforderungen in Bezug auf Effizienz und Qualität dar. Diffusions- und Diffusion-Forcing-Modelle können hochwertige Videos erzeugen, leiden jedoch unter geringer Effizienz aufgrund bidirektionaler Aufmerksamkeit. Kausale Aufmerksamkeits-AR-Modelle unterstützen KV-Caching für schnellere Inferenz, verlieren jedoch oft an Qualität bei langen Videos aufgrund von Speicherproblemen während des Trainings langer Videos. Darüber hinaus sind über die statische promptbasierte Generierung hinaus interaktive Fähigkeiten, wie Streaming-Prompt-Eingaben, entscheidend für die dynamische Inhaltserstellung, die es Benutzern ermöglicht, Erzählungen in Echtzeit zu steuern. Diese interaktive Anforderung erhöht die Komplexität erheblich, insbesondere bei der Sicherstellung visueller Konsistenz und semantischer Kohärenz während der Prompt-Übergänge. Um diese Herausforderungen zu bewältigen, setzt LongLive ein kausales, frame-level AR-Design ein, das einen KV-Recache-Mechanismus integriert, der zwischengespeicherte Zustände mit neuen Prompts aktualisiert, um nahtlose, anhaftende Wechsel zu ermöglichen; Streaming-Long-Tuning, um das Training langer Videos zu ermöglichen und Training und Inferenz abzustimmen (train-long-test-long); sowie kurze Fensteraufmerksamkeit gepaart mit einem Frame-Level-Attention-Sink, abgekürzt als Frame-Sink, der die langfristige Konsistenz bewahrt und gleichzeitig eine schnellere Generierung ermöglicht. Mit diesen Schlüsseldesigns feintunt LongLive ein 1,3-Milliarden-Parameter-Kurzclip-Modell in nur 32 GPU-Tagen auf die Generierung von Minuten-langen Videos. Bei der Inferenz hält LongLive 20,7 FPS auf einer einzelnen NVIDIA H100 aufrecht und erzielt starke Leistungen auf VBench sowohl bei kurzen als auch bei langen Videos. LongLive unterstützt Videos von bis zu 240 Sekunden auf einer einzelnen H100-GPU. LongLive unterstützt weiterhin INT8-quantisierte Inferenz mit nur marginalem Qualitätsverlust.
Das Training von LLM-Agenten in Umgebungen mit mehreren Interaktionsschritten und spärlichen Belohnungen, bei denen die Erfüllung einer einzelnen Aufgabe 30 oder mehr Interaktionen innerhalb einer Episode erfordert, stellt eine grundlegende Herausforderung für das Reinforcement Learning dar. Wir identifizieren einen kritischen Fehlermodus, der spezifisch für diese Konfiguration ist: den Exploration-Exploitation-Kaskadenfehler. Diese Kaskade beginnt mit einer vorzeitigen Konvergenz der Politik in der Anfangsphase, bei der spärliches Feedback dazu führt, dass Agenten sich auf fehlerhafte, niedrig-entropische Strategien festlegen. Anschließend geraten die Agenten in eine späte Phase des Politikzusammenbruchs, bei der herkömmliche Entropie-Regularisierung kontraproduktiv wird und chaotische Exploration fördert, die das Training destabilisiert. Wir schlagen Entropy-regularized Policy Optimization (EPO) vor, ein allgemeines Framework, das diesen Fehlerzyklus durch drei synergetische Mechanismen durchbricht: (1) die Einführung von Entropie-Regularisierung in Umgebungen mit mehreren Interaktionsschritten zur Verbesserung der Exploration, (2) einen Entropie-Glättungsregularisierer, der die Entropie der Politik innerhalb historischer Durchschnittswerte begrenzt, um abrupte Schwankungen zu verhindern, und (3) eine adaptive, phasenbasierte Gewichtung, die Exploration und Exploitation während des Trainings ausbalanciert. Unsere Analyse zeigt, dass EPO eine monoton abnehmende Entropie-Varianz garantiert, während die Konvergenz erhalten bleibt. EPO erzielt eine Leistungssteigerung von bis zu 152 % auf ScienceWorld und bis zu 19,8 % auf ALFWorld. Unsere Arbeit zeigt, dass Umgebungen mit mehreren Interaktionsschritten und spärlichen Belohnungen eine grundlegend andere Entropie-Kontrolle erfordern als traditionelles RL, mit weitreichenden Implikationen für das Training von LLM-Agenten.
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) stärkt das logische Denken von LLMs, doch das Training oszilliert häufig zwischen {Entropiekollaps} und {Entropieexplosion}. Wir führen beide Risiken auf den Mittelwert-Baseline zurück, der im wertfreien RL (z.B. GRPO und DAPO) verwendet wird und negative Vorteilsproben unter Belohnungsausreißern unangemessen bestraft. Wir schlagen {Quantile Advantage Estimation} (QAE) vor, bei dem der Mittelwert durch einen gruppenweisen K-Quantil-Baseline ersetzt wird. QAE induziert ein responsbezogenes, zweiregimiges Gate: Bei schwierigen Anfragen (p <= 1 - K) verstärkt es seltene Erfolge, während es bei einfachen Anfragen (p > 1 - K) verbleibende Fehler anvisiert. Unter Updates erster Ordnung mit Softmax beweisen wir {zweiseitige Entropiesicherheit}, die untere und obere Grenzen für die Entropieänderung in einem Schritt liefert, um Explosionen zu begrenzen und Kollaps zu verhindern. Empirisch stabilisiert diese minimale Modifikation die Entropie, sparsifiziert die Kreditzuweisung (bei abgestimmtem K erhalten etwa 80 % der Antworten keinen Vorteil) und erzielt nachhaltige Pass@1-Gewinne bei Qwen3-8B/14B-Base über AIME 2024/2025 und AMC 2023. Diese Ergebnisse identifizieren das {Baseline-Design} – und nicht tokenbezogene Heuristiken – als den primären Mechanismus zur Skalierung von RLVR.
Wir stellen MinerU2.5 vor, ein 1,2-Milliarden-Parameter-Vision-Sprache-Modell zur Dokumentenanalyse, das eine state-of-the-art Erkennungsgenauigkeit erreicht und dabei eine außergewöhnliche Recheneffizienz beibehält. Unser Ansatz verwendet eine grob-zu-fein, zweistufige Analysestrategie, die die globale Layoutanalyse von der lokalen Inhaltserkennung entkoppelt. In der ersten Stufe führt das Modell eine effiziente Layoutanalyse auf heruntergerechneten Bildern durch, um strukturelle Elemente zu identifizieren und so den Rechenaufwand für die Verarbeitung hochauflösender Eingaben zu umgehen. In der zweiten Stufe führt es, geleitet durch das globale Layout, eine gezielte Inhaltserkennung auf nativen Auflösungsausschnitten durch, die aus dem Originalbild extrahiert wurden, wodurch feine Details in dichtem Text, komplexen Formeln und Tabellen erhalten bleiben. Um diese Strategie zu unterstützen, entwickelten wir eine umfassende Daten-Engine, die diverse, groß angelegte Trainingskorpora sowohl für das Vorabtraining als auch für die Feinabstimmung generiert. Letztendlich zeigt MinerU2.5 eine starke Fähigkeit zur Dokumentenanalyse, erreicht state-of-the-art Leistung in mehreren Benchmarks, übertrifft sowohl allgemeine als auch domänenspezifische Modelle bei verschiedenen Erkennungsaufgaben und behält dabei einen deutlich geringeren Rechenaufwand bei.
Wir stellen ein variationsbasiertes Rahmenwerk für Sprachmodelle vor, das Denkspuren als latente Variablen behandelt und sie durch Variationsinferenz optimiert. Ausgehend von der unteren Schranke der Evidenz (ELBO) erweitern wir diese zu einem Multi-Spur-Ziel, um engere Schranken zu erreichen, und schlagen eine Forward-KL-Formulierung vor, die das Training des variationsbasierten Posterior stabilisiert. Wir zeigen weiterhin, dass Feinabstimmung durch Ablehnungsstichproben und Reinforcement Learning mit binären Belohnungen, einschließlich GRPO, als lokale Forward-KL-Ziele interpretiert werden können, wobei eine implizite Gewichtung durch die Modellgenauigkeit aus der Herleitung resultiert und eine bisher unbemerkte Verzerrung hin zu einfacheren Fragen offenbart. Wir validieren unsere Methode empirisch an den Modellfamilien Qwen 2.5 und Qwen 3 über eine breite Palette von Denkaufgaben. Insgesamt bietet unsere Arbeit eine prinzipielle probabilistische Perspektive, die Variationsinferenz mit RL-ähnlichen Methoden vereint und stabile Ziele zur Verbesserung der Denkfähigkeit von Sprachmodellen liefert. Unser Code ist unter https://github.com/sail-sg/variational-reasoning verfügbar.
Peer Review bildet das Rückgrat der akademischen Forschung, doch bei den meisten KI-Konferenzen verschlechtert sich die Qualität der Gutachten, während die Anzahl der Einreichungen explodiert. Um qualitativ minderwertige Gutachten zuverlässig zu identifizieren, definieren wir fehlinformierte Gutachtenpunkte entweder als „Schwächen“ in einem Gutachten, die auf falschen Prämissen beruhen, oder als „Fragen“ in einem Gutachten, die bereits durch den Beitrag beantwortet werden können. Wir bestätigen, dass 15,2 % der Schwächen und 26,4 % der Fragen fehlinformiert sind, und führen den ReviewScore ein, der anzeigt, ob ein Gutachtenpunkt fehlinformiert ist. Um die Faktizität jeder Prämisse von Schwächen zu bewerten, schlagen wir eine automatisierte Engine vor, die jede explizite und implizite Prämisse aus einer Schwäche rekonstruiert. Wir erstellen einen von menschlichen Experten annotierten ReviewScore-Datensatz, um die Fähigkeit von LLMs (Large Language Models) zur Automatisierung der ReviewScore-Bewertung zu überprüfen. Anschließend messen wir die Übereinstimmung zwischen Mensch und Modell beim ReviewScore unter Verwendung von acht aktuellen state-of-the-art LLMs und bestätigen moderate Übereinstimmungen. Wir zeigen außerdem, dass die Bewertung der Faktizität auf Prämissenebene signifikant höhere Übereinstimmungen aufweist als die Bewertung der Faktizität auf Schwächenebene. Eine umfassende Analyse von Unstimmigkeiten unterstützt weiterhin das Potenzial einer vollständig automatisierten ReviewScore-Bewertung.
LLMs werden häufig mit Reinforcement Learning (RL) aus menschlichem oder KI-Feedback trainiert, doch solche Methoden komprimieren typischerweise differenziertes Feedback in skalare Belohnungen, wodurch ein Großteil ihrer Vielfalt verloren geht und Skalenungleichgewichte entstehen. Wir schlagen vor, verbales Feedback als Konditionierungssignal zu behandeln. Inspiriert von Sprachpriors in der Text-zu-Bild-Generierung, die neuartige Ausgaben aus unbekannten Eingabeaufforderungen ermöglichen, führen wir die feedback-konditionierte Policy (FCP) ein. FCP lernt direkt aus Antwort-Feedback-Paaren und approximiert das feedback-konditionierte Posterior durch Maximum-Likelihood-Training auf Offline-Daten. Wir entwickeln weiterhin eine Online-Bootstrapping-Phase, in der die Policy unter positiven Bedingungen generiert und neues Feedback erhält, um sich selbst zu verfeinern. Dies formuliert feedback-gesteuertes Lernen als bedingte Generierung anstelle von Belohnungsoptimierung um und bietet eine ausdrucksstärkere Möglichkeit für LLMs, direkt aus verbalem Feedback zu lernen. Unser Code ist verfügbar unter https://github.com/sail-sg/feedback-conditional-policy.
Bildbeschriftung ist eine grundlegende Aufgabe, die die visuelle und linguistische Domäne verbindet und eine entscheidende Rolle beim Vortraining großer visuell-sprachlicher Modelle (Large Vision-Language Models, LVLMs) spielt. Aktuelle state-of-the-art Beschriftungsmodelle werden typischerweise mit Supervised Fine-Tuning (SFT) trainiert, einem Paradigma, das auf teuren, nicht skalierbaren Daten basiert, die von Menschen oder proprietären Modellen annotiert wurden. Dieser Ansatz führt oft dazu, dass Modelle spezifische Ground-Truth-Antworten auswendig lernen, was ihre Allgemeingültigkeit und Fähigkeit zur Erzeugung vielfältiger, kreativer Beschreibungen einschränkt. Um die Grenzen von SFT zu überwinden, schlagen wir vor, das Paradigma des Reinforcement Learning mit verifizierbaren Belohnungen (Reinforcement Learning with Verifiable Rewards, RLVR) auf die offene Aufgabe der Bildbeschriftung anzuwenden. Eine primäre Herausforderung besteht jedoch darin, eine objektive Belohnungsfunktion für die inhärent subjektive Natur dessen zu entwerfen, was eine „gute“ Beschreibung ausmacht. Wir führen Captioning Reinforcement Learning (CapRL) ein, ein neuartiges Trainingsframework, das die Qualität von Beschreibungen durch ihren Nutzen neu definiert: Eine hochwertige Beschreibung sollte es einem nicht-visuellen Sprachmodell ermöglichen, Fragen zum entsprechenden Bild genau zu beantworten. CapRL verwendet eine entkoppelte zweistufige Pipeline, bei der ein LVLM eine Beschreibung generiert und die objektive Belohnung aus der Genauigkeit eines separaten, visuell freien LLM abgeleitet wird, das Multiple-Choice-Fragen ausschließlich basierend auf dieser Beschreibung beantwortet. Als erste Studie, die RLVR auf die subjektive Aufgabe der Bildbeschriftung anwendet, zeigen wir, dass CapRL mehrere Einstellungen signifikant verbessert. Das Vortraining auf dem CapRL-5M-Beschriftungsdatensatz, der von CapRL-3B annotiert wurde, führt zu erheblichen Verbesserungen über 12 Benchmarks hinweg. Darüber hinaus erreicht CapRL innerhalb des Prism-Frameworks zur Bewertung der Beschreibungsqualität eine Leistung, die mit Qwen2.5-VL-72B vergleichbar ist, während es die Baseline durchschnittlich um 8,4 % übertrifft. Der Code ist hier verfügbar: https://github.com/InternLM/CapRL.
Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) ist ein leistungsstarkes Framework zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens. Allerdings stützen sich aktuelle Methoden wie GRPO nur auf Probleme, bei denen die Modellantworten auf denselben Eingang in ihrer Korrektheit variieren, während sie solche ignorieren, bei denen alle Antworten dieselbe Belohnung erhalten – sogenannte Null-Varianz-Prompts. In dieser Arbeit argumentieren wir, dass solche Prompts nicht nutzlos sind, sondern tatsächlich sinnvolles Feedback für die Politikoptimierung liefern können. Zu diesem Zweck führen wir RL mit Null-Varianz-Prompts (RL-ZVP) ein, einen neuartigen Algorithmus, der Lernsignale aus Null-Varianz-Prompts extrahiert. RL-ZVP belohnt Korrektheit direkt und bestraft Fehler, selbst ohne kontrastierende Antworten, und moduliert das Feedback mit Token-spezifischen Eigenschaften, um informative, differenzierte Signale zu bewahren. Über sechs mathematische Denkbenchmarks hinweg erzielt RL-ZVP signifikante Verbesserungen von bis zu 8,61 Punkten in der Genauigkeit und 7,77 Punkten in der Erfolgsquote gegenüber GRPO, während es andere Baseline-Methoden, die Null-Varianz-Prompts aussortieren, konsequent übertrifft. Diese Ergebnisse unterstreichen das ungenutzte Potenzial des Lernens aus Null-Varianz-Prompts in RLVR.
Große Sprachmodelle (LLMs) entwickeln sich von konversationellen Systemen zu leistungsstarken Problemlösern für Aufgaben wie Mathematik-Olympiaden und Wettbewerbsprogrammierung. Während die Skalierung von Parametern und die Berechnung zur Testzeit den Fortschritt vorantreiben, stellt der Mangel an hochwertigen Trainingsproblemen einen zentralen Engpass dar: von Menschen kuratierte Datensätze sind kostspielig und begrenzt, während bestehende synthetische Korpora oft zu einfach oder zu spezifisch sind. PromptCoT 1.0 zeigte, dass die Einbettung von Begründungen in die Prompt-Synthese die Problemkomplexität erhöht. Aufbauend darauf präsentieren wir PromptCoT 2.0, ein skalierbares Framework, das manuell erstellte Heuristiken durch einen Expectation-Maximization (EM)-Zyklus ersetzt, in dem Begründungen iterativ verfeinert werden, um die Prompt-Konstruktion zu steuern. Dies erzeugt Probleme, die sowohl schwieriger als auch vielfältiger sind als bisherige Korpora. Die synthetischen Prompts unterstützen zwei Post-Training-Regime: (1) Selbstspiel, bei dem starke Modelle autonom durch überprüfbares Feedback ohne stärkere Lehrer verbessert werden, und (2) Supervised Fine-Tuning (SFT), bei dem schwächere Modelle aus von Lehrern destillierten Spuren lernen. Umfangreiche Experimente demonstrieren die Wirksamkeit dieses Ansatzes. Im Selbstspiel setzt die Anwendung von PromptCoT 2.0 auf Qwen3-30B-A3B-Thinking-2507 neue Maßstäbe auf der 30B-Skala mit Verbesserungen von +4,4, +4,8 und +5,3 bei AIME 24/25 und HMMT 25, +6,1 und +5,0 bei LiveCodeBench v5/v6 sowie +35 Elo auf Codeforces. Im SFT steigert das Training von Qwen2.5-7B-Instruct ausschließlich auf synthetischen Prompts die Genauigkeit auf 73,1 (AIME 24), 65,6 (AIME 25) und 53,4 (LiveCodeBench v5), womit Modelle übertroffen werden, die auf menschlichen oder hybriden Daten trainiert wurden. Analysen bestätigen weiterhin, dass PromptCoT 2.0 grundlegend schwierigere und verteilungsmäßig unterschiedliche Probleme erzeugt. Diese Ergebnisse etablieren die Prompt-Synthese als eine neue Achse zur Skalierung von Problemlösungsfähigkeiten und positionieren PromptCoT 2.0 als skalierbare Grundlage für zukünftige Open-Source-Modelle. Die Implementierung ist verfügbar unter https://github.com/inclusionAI/PromptCoT.
Die Fähigkeit von Robotern, menschliche Anweisungen zu interpretieren und Manipulationsaufgaben auszuführen, erfordert die Verfügbarkeit von aufgabenrelevanten Tischszenen für das Training. Traditionelle Methoden zur Erstellung dieser Szenen beruhen jedoch auf zeitaufwändigem manuellem Layout-Design oder rein zufälligen Anordnungen, die in Bezug auf Plausibilität oder Aufgabenausrichtung begrenzt sind. In diesem Artikel formulieren wir eine neuartige Aufgabe, nämlich die aufgabenorientierte Tischszenengenerierung, die aufgrund der erheblichen Lücke zwischen hochrangigen Aufgabenanweisungen und den Tischszenen erhebliche Herausforderungen darstellt. Um die Forschung zu einer solch anspruchsvollen Aufgabe zu unterstützen, stellen wir MesaTask-10K vor, einen umfangreichen Datensatz, der etwa 10.700 synthetische Tischszenen mit manuell gestalteten Layouts umfasst, die realistische Anordnungen und komplexe Inter-Objekt-Beziehungen gewährleisten. Um die Lücke zwischen Aufgaben und Szenen zu überbrücken, schlagen wir eine Spatial Reasoning Chain vor, die den Generierungsprozess in Objektinferenz, räumliche Interrelationsanalyse und Szenengraphenkonstruktion für das finale 3D-Layout unterteilt. Wir präsentieren MesaTask, ein LLM-basiertes Framework, das diese Reasoning Chain nutzt und durch DPO-Algorithmen weiter verbessert wird, um physikalisch plausible Tischszenen zu generieren, die gut mit gegebenen Aufgabenbeschreibungen übereinstimmen. Umfangreiche Experimente demonstrieren die überlegene Leistung von MesaTask im Vergleich zu Baseline-Methoden bei der Generierung von aufgabenkonformen Tischszenen mit realistischen Layouts. Die Projektseite befindet sich unter https://mesatask.github.io/.
Wir präsentieren LLaVA-OneVision-1.5, eine neuartige Familie von Large Multimodal Models (LMMs), die Spitzenleistungen bei deutlich reduzierten Rechen- und Finanzkosten erzielen. Im Gegensatz zu bestehenden Arbeiten bietet LLaVA-OneVision-1.5 ein offenes, effizientes und reproduzierbares Framework für den Aufbau hochwertiger Vision-Language-Modelle von Grund auf. Die Veröffentlichung von LLaVA-OneVision-1.5 umfasst drei Hauptkomponenten: (1) Groß angelegte kuratierte Datensätze: Wir haben einen 85M konzeptausgewogenen Pretraining-Datensatz LLaVA-OneVision-1.5-Mid-Training und einen sorgfältig kuratierten 26M Instruktionsdatensatz LLaVA-OneVision-1.5-Instruct erstellt, die zusammen 64B komprimierte multimodale Tokens umfassen. (2) Effizientes Trainingsframework: Wir entwickeln ein vollständiges End-to-End-effizientes Trainingsframework, das eine Offline-Parallel-Datenpackungsstrategie nutzt, um das Training von LLaVA-OneVision-1.5 innerhalb eines Budgets von 16.000 US-Dollar zu ermöglichen. (3) Spitzenleistungen: Experimentelle Ergebnisse zeigen, dass LLaVA-OneVision-1.5 über eine breite Palette von Downstream-Aufgaben hinweg außerordentlich wettbewerbsfähige Leistungen erzielt. Insbesondere übertrifft LLaVA-OneVision-1.5-8B Qwen2.5-VL-7B auf 18 von 27 Benchmarks, und LLaVA-OneVision-1.5-4B übertrifft Qwen2.5-VL-3B auf allen 27 Benchmarks. Wir planen, LLaVA-OneVision-1.5-RL in Kürze zu veröffentlichen und ermutigen die Community, auf weitere Updates zu warten.
Autonome Agenten haben in letzter Zeit bemerkenswerte Fortschritte in verschiedenen Domänen erzielt, doch konzentrieren sich die meisten Bewertungen auf kurzzeitige, vollständig beobachtbare Aufgaben. Im Gegensatz dazu entfalten sich viele kritische reale Aufgaben, wie die groß angelegte Softwareentwicklung, kommerzielle Investitionen und wissenschaftliche Entdeckungen, in langfristigen und teilweise beobachtbaren Szenarien, in denen der Erfolg von anhaltendem Denken, Planung, Speicherverwaltung und Werkzeuggebrauch abhängt. Bestehende Benchmarks erfassen diese langfristigen Herausforderungen selten, was eine Lücke in der systematischen Bewertung hinterlässt. Um diese Lücke zu schließen, stellen wir UltraHorizon vor, einen neuartigen Benchmark, der die grundlegenden Fähigkeiten misst, die für komplexe reale Herausforderungen unerlässlich sind. Wir verwenden Exploration als eine einheitliche Aufgabe in drei verschiedenen Umgebungen, um diese Kernkompetenzen zu validieren. Agenten werden in langfristigen Entdeckungsaufgaben entworfen, in denen sie versteckte Regeln durch anhaltendes Denken, Planung, Speicher- und Werkzeugverwaltung sowie Interaktion mit der Umgebung iterativ aufdecken müssen. Unter der anspruchsvollsten Skaleneinstellung betragen die Trajektorien im Durchschnitt über 200.000 Token und über 400 Werkzeugaufrufe, während sie in Standardkonfigurationen immer noch 35.000 Token überschreiten und im Durchschnitt mehr als 60 Werkzeugaufrufe umfassen. Unsere umfangreichen Experimente zeigen, dass LLM-Agenten in diesen Settings durchweg schlechter abschneiden, während menschliche Teilnehmer höhere Punktzahlen erreichen, was eine anhaltende Lücke in den langfristigen Fähigkeiten der Agenten unterstreicht. Wir beobachten auch, dass einfache Skalierung in unserer Aufgabe versagt. Um das Versagen der Agenten besser zu veranschaulichen, führen wir eine detaillierte Analyse der gesammelten Trajektorien durch. Wir identifizieren acht Fehlertypen und führen sie auf zwei Hauptursachen zurück: In-Context-Locking und grundlegende funktionale Fähigkeitslücken. https://github.com/StarDewXXX/UltraHorizon{Unser Code wird hier verfügbar sein.}
Wir präsentieren See, Point, Fly (SPF), ein trainingsfreies Framework für die visuelle und sprachliche Navigation in der Luft (AVLN), das auf Vision-Language-Modellen (VLMs) basiert. SPF ist in der Lage, basierend auf beliebigen freiformulierten Anweisungen in jeder Art von Umgebung zu einem Ziel zu navigieren. Im Gegensatz zu bestehenden VLM-basierten Ansätzen, die die Aktionsvorhersage als Textgenerierungsaufgabe behandeln, betrachten wir die Aktionsvorhersage für AVLN als eine 2D-räumliche Verankerungsaufgabe. SPF nutzt VLMs, um vage Sprachanweisungen in iterative Annotationen von 2D-Wegpunkten im Eingabebild zu zerlegen. Zusammen mit der vorhergesagten Reisedistanz transformiert SPF die vorhergesagten 2D-Wegpunkte in 3D-Verschiebungsvektoren als Aktionsbefehle für UAVs. Darüber hinaus passt SPF die Reisedistanz adaptiv an, um eine effizientere Navigation zu ermöglichen. Bemerkenswert ist, dass SPF die Navigation in einer geschlossenen Regelkreissteuerung durchführt, wodurch UAVs in der Lage sind, dynamische Ziele in dynamischen Umgebungen zu verfolgen. SPF setzt einen neuen Maßstab im DRL-Simulationsbenchmark und übertrifft die bisher beste Methode mit einem absoluten Vorsprung von 63 %. In umfangreichen realen Evaluierungen übertrifft SPF starke Baseline-Methoden deutlich. Wir führen auch umfassende Ablationsstudien durch, um die Wirksamkeit unserer Designentscheidungen hervorzuheben. Schließlich zeigt SPF eine bemerkenswerte Generalisierungsfähigkeit gegenüber verschiedenen VLMs. Projektseite: https://spf-web.pages.dev
Die Kompression großer Sprachmodelle (LLMs) nach dem Training basiert weitgehend auf der Niedrigrang-Approximation von Gewichten, bei der jede Spalte einer Gewichtsmatrix in einem gemeinsamen niedrigdimensionalen Unterraum dargestellt wird. Obwohl dies eine recheneffiziente Strategie ist, ist die auferlegte strukturelle Einschränkung starr und kann zu einem merklichen Genauigkeitsverlust des Modells führen. In dieser Arbeit schlagen wir CoSpaDi (Compression via Sparse Dictionary Learning) vor, ein neuartiges trainingsfreies Kompressionsframework, das die Niedrigrang-Zerlegung durch eine flexiblere strukturierte spärliche Faktorisierung ersetzt, bei der jede Gewichtsmatrix mit einem dichten Wörterbuch und einer spalten-spärlichen Koeffizientenmatrix dargestellt wird. Diese Formulierung ermöglicht eine Vereinigung-von-Unterräumen-Darstellung: Verschiedene Spalten der ursprünglichen Gewichtsmatrix werden in unterschiedlichen Unterräumen approximiert, die durch adaptiv ausgewählte Wörterbuchatome aufgespannt werden, was eine größere Ausdruckskraft als eine einzige invariante Basis bietet. Entscheidend ist, dass CoSpaDi einen kleinen Kalibrierungsdatensatz nutzt, um die Faktorisierung so zu optimieren, dass die Ausgabeaktivitäten der komprimierten Projektionsschichten eng mit denen der ursprünglichen übereinstimmen, wodurch der funktionale Rekonstruktionsfehler anstelle einer bloßen Gewichtsapproximation minimiert wird. Diese datenbewusste Strategie bewahrt eine bessere Modelltreue ohne jegliche Feinabstimmung bei angemessenen Kompressionsraten. Darüber hinaus ermöglicht die resultierende strukturierte Sparsität eine effiziente spärlich-dichte Matrixmultiplikation und ist mit der Post-Training-Quantisierung für weitere Speicher- und Latenzgewinne kompatibel. Wir evaluieren CoSpaDi an mehreren Llama- und Qwen-Modellen unter Einstellungen pro Schicht und pro Gruppe bei Kompressionsraten von 20-50\% und zeigen eine durchgängige Überlegenheit gegenüber state-of-the-art datenbewussten Niedrigrang-Methoden sowohl in Bezug auf Genauigkeit als auch auf Perplexität. Unsere Ergebnisse etablieren das strukturierte spärliche Wörterbuchlernen als eine leistungsstarke Alternative zu konventionellen Niedrigrang-Ansätzen für die effiziente Bereitstellung von LLMs.
Die wachsenden Fähigkeiten großer Sprachmodelle und multimodaler Systeme haben das Interesse an sprachgesteuerten KI-Assistenten geweckt, doch die bestehenden Benchmarks sind unzureichend, um das gesamte Spektrum der Fähigkeiten dieser Systeme zu bewerten. Wir stellen VoiceAssistant-Eval vor, einen umfassenden Benchmark, der entwickelt wurde, um KI-Assistenten in den Bereichen Hören, Sprechen und Sehen zu bewerten. VoiceAssistant-Eval umfasst 10.497 sorgfältig ausgewählte Beispiele, die 13 Aufgabenkategorien abdecken. Diese Aufgaben beinhalten natürliche Geräusche, Musik und gesprochene Dialoge für das Hören; mehrschrittige Dialoge, Rollenspiel-Nachahmung und verschiedene Szenarien für das Sprechen; sowie hochgradig heterogene Bilder für das Sehen. Um seinen Nutzen zu demonstrieren, bewerten wir 21 Open-Source-Modelle und GPT-4o-Audio, wobei wir die Qualität der Antwortinhalte und der Sprache sowie deren Konsistenz messen. Die Ergebnisse zeigen drei zentrale Erkenntnisse: (1) proprietäre Modelle übertreffen Open-Source-Modelle nicht durchgängig; (2) die meisten Modelle glänzen bei Sprechaufgaben, liegen aber beim Audioverständnis zurück; und (3) gut konzipierte kleinere Modelle können mit viel größeren Modellen mithalten. Bemerkenswerterweise erreicht das mittelgroße Step-Audio-2-mini (7B) mehr als die doppelte Hörgenauigkeit von LLaMA-Omni2-32B-Bilingual. Dennoch bestehen weiterhin Herausforderungen: multimodale (Audio plus visuelle) Eingaben und Rollenspiel-Stimmennachahmungsaufgaben sind für aktuelle Modelle schwierig, und es gibt erhebliche Lücken in Bezug auf Robustheit und Sicherheitsausrichtung. VoiceAssistant-Eval identifiziert diese Lücken und schafft einen rigorosen Rahmen für die Bewertung und Weiterentwicklung von KI-Assistenten der nächsten Generation. Code und Daten werden unter https://mathllm.github.io/VoiceAssistantEval/ veröffentlicht.
Wir schlagen einen neuartigen Ansatz vor, um visuelle und semantische Merkmale aus den Backbones vortrainierter Diffusionsmodelle zu entflechten, wodurch visuelle Korrespondenz in Analogie zur etablierten semantischen Korrespondenz ermöglicht wird. Während bekannt ist, dass die Backbones von Diffusionsmodellen semantisch reichhaltige Merkmale kodieren, müssen sie auch visuelle Merkmale enthalten, um ihre Bildsynthesefähigkeiten zu unterstützen. Die Isolierung dieser visuellen Merkmale ist jedoch aufgrund des Fehlens annotierter Datensätze eine Herausforderung. Um dies zu adressieren, führen wir eine automatisierte Pipeline ein, die Bildpaare mit annotierten semantischen und visuellen Korrespondenzen auf Basis bestehender, subjektgetriebener Bildgenerierungsdatensätze konstruiert, und entwerfen eine kontrastive Architektur, um die beiden Merkmalstypen zu trennen. Durch die Nutzung der entflochtenen Repräsentationen schlagen wir eine neue Metrik vor, das Visual Semantic Matching (VSM), das visuelle Inkonsistenzen in der subjektgetriebenen Bildgenerierung quantifiziert. Empirische Ergebnisse zeigen, dass unser Ansatz globale, merkmalsbasierte Metriken wie CLIP, DINO und Vision-Language-Modelle bei der Quantifizierung visueller Inkonsistenzen übertrifft und gleichzeitig die räumliche Lokalisierung inkonsistenter Regionen ermöglicht. Unseres Wissens ist dies die erste Methode, die sowohl die Quantifizierung als auch die Lokalisierung von Inkonsistenzen in der subjektgetriebenen Generierung unterstützt, und bietet somit ein wertvolles Werkzeug zur Weiterentwicklung dieser Aufgabe. Projektseite: https://abdo-eldesokey.github.io/mind-the-glitch/
Universelle Bildrestaurierung (Universal Image Restoration, UIR) zielt darauf ab, Bilder, die durch unbekannte Mischungen von Degradationen beeinträchtigt sind, wiederherzustellen, während die Semantik erhalten bleibt – Bedingungen, unter denen diskriminative Restaurierungsverfahren und UNet-basierte Diffusions-Priors oft übermäßig glätten, Halluzinationen erzeugen oder abweichen. Wir stellen LucidFlux vor, ein beschriftungsfreies UIR-Framework, das einen großen Diffusionstransformer (Flux.1) ohne Bildbeschriftungen adaptiert. LucidFlux führt einen leichtgewichtigen Dual-Branch-Conditioner ein, der Signale aus dem degradierten Eingabebild und einem leicht restaurierten Proxy injiziert, um jeweils die Geometrie zu verankern und Artefakte zu unterdrücken. Anschließend wird ein zeitstufen- und schichtenadaptiver Modulationsplan entworfen, um diese Hinweise durch die Hierarchie des Backbones zu leiten, um grob- bis feinabgestufte und kontextbewusste Aktualisierungen zu erzeugen, die die globale Struktur schützen, während Texturen wiederhergestellt werden. Um die Latenz und Instabilität von Textprompts oder MLLM-Beschriftungen zu vermeiden, erzwingen wir eine beschriftungsfreie semantische Ausrichtung über SigLIP-Features, die aus dem Proxy extrahiert werden. Eine skalierbare Kuratierungspipeline filtert zusätzlich groß angelegte Daten für eine strukturreiche Überwachung. In synthetischen und realen Benchmarks übertrifft LucidFlux durchweg starke Open-Source- und kommerzielle Baselines, und Ablationsstudien bestätigen die Notwendigkeit jeder Komponente. LucidFlux zeigt, dass für große DiTs die Frage, wann, wo und worauf konditioniert wird – anstatt Parameter hinzuzufügen oder auf Textprompts angewiesen zu sein – der entscheidende Hebel für robuste und beschriftungsfreie universelle Bildrestaurierung in realen Szenarien ist.
Fine-Tuning, eine grundlegende Methode zur Anpassung großer Sprachmodelle, wurde lange Zeit als unwirksam für die Modellbearbeitung angesehen. Hier stellen wir diese Annahme in Frage und argumentieren, dass das berichtete Scheitern nicht auf eine inhärente Beschränkung des Fine-Tunings selbst zurückzuführen ist, sondern auf dessen Anpassung an die sequenzielle Natur der Bearbeitungsaufgabe, eine Single-Pass-Tiefensuche-Pipeline, die jede Probe bis zur Konvergenz optimiert, bevor sie zur nächsten übergeht. Obwohl intuitiv, führt diese Tiefensuche-Pipeline in Kombination mit einer probenbasierten Aktualisierung zu einer Überoptimierung jeder Bearbeitung und verursacht Interferenzen zwischen den Bearbeitungen. Unsere kontrollierten Experimente zeigen, dass die einfache Rückkehr des Fine-Tunings zur Standard-Breitensuche-Pipeline (d. h. epochenbasiert) mit Mini-Batch-Optimierung dessen Wirksamkeit für die Modellbearbeitung erheblich verbessert. Darüber hinaus leidet das Fine-Tuning bei der Bearbeitung auch unter suboptimalen Tuning-Parameterpositionen, die von früheren Methoden übernommen wurden. Durch eine systematische Analyse der Tuning-Positionen entwickeln wir LocFT-BF, eine einfache und effektive lokalisierte Bearbeitungsmethode, die auf dem wiederhergestellten Fine-Tuning-Framework basiert. Umfangreiche Experimente über verschiedene LLMs und Datensätze hinweg zeigen, dass LocFT-BF die derzeit besten Methoden mit großem Abstand übertrifft. Bemerkenswerterweise ist es, soweit uns bekannt ist, die erste Methode, die 100.000 Bearbeitungen und 72-Milliarden-Parameter-Modelle bewältigt, was das Zehnfache der bisherigen Praxis darstellt, ohne dabei die allgemeinen Fähigkeiten zu beeinträchtigen. Indem wir ein langjähriges Missverständnis aufklären und eine prinzipielle lokalisierte Tuning-Strategie einführen, heben wir das Fine-Tuning von einer unterschätzten Baseline zu einer führenden Methode für die Modellbearbeitung und schaffen so eine solide Grundlage für zukünftige Forschung.
Agentensysteme, die von großen Sprachmodellen (LLMs) angetrieben werden, haben beeindruckende Leistungen bei Aufgaben zur Code-Generierung auf Repository-Ebene gezeigt. Für Aufgaben wie die Generierung von Website-Codebasen, die stark von visuellen Effekten und Benutzerinteraktions-Feedback abhängen, verlassen sich aktuelle Code-Agenten jedoch nur auf einfache Code-Ausführung für Feedback und Verifizierung. Dieser Ansatz erfasst nicht die tatsächliche Qualität des generierten Codes. In diesem Artikel schlagen wir WebGen-Agent vor, einen neuartigen Website-Generierungs-Agenten, der umfassendes und mehrstufiges visuelles Feedback nutzt, um die Website-Codebasis iterativ zu generieren und zu verfeinern. Detaillierte und ausdrucksstarke Textbeschreibungen und Vorschläge bezüglich der Screenshots und GUI-Agent-Tests der Websites werden von einem visuellen Sprachmodell (VLM) generiert, zusammen mit Bewertungen, die deren Qualität quantifizieren. Die Screenshot- und GUI-Agent-Bewertungen werden weiterhin mit einem Backtracking- und Select-Best-Mechanismus integriert, wodurch die Leistung des Agenten verbessert wird. Durch die Nutzung der präzisen visuellen Bewertungen, die im WebGen-Agent-Workflow enthalten sind, führen wir Step-GRPO mit Screenshot- und GUI-Agent-Feedback ein, um die Fähigkeit von LLMs zu verbessern, als Reasoning-Engine von WebGen-Agent zu fungieren. Indem wir die Screenshot- und GUI-Agent-Bewertungen in jedem Schritt als Belohnung in Step-GRPO verwenden, bieten wir ein dichtes und zuverlässiges Prozessüberwachungssignal, das die Website-Generierungsfähigkeit des Modells effektiv verbessert. Auf dem WebGen-Bench-Datensatz erhöht WebGen-Agent die Genauigkeit von Claude-3.5-Sonnet von 26,4 % auf 51,9 % und dessen Erscheinungsbewertung von 3,0 auf 3,9, womit er das bisherige state-of-the-art Agentensystem übertrifft. Zusätzlich erhöht unser Step-GRPO-Trainingsansatz die Genauigkeit von Qwen2.5-Coder-7B-Instruct von 38,9 % auf 45,4 % und steigert die Erscheinungsbewertung von 3,4 auf 3,7.
Aktuelle Large Language Models (LLMs) und Large Vision-Language Models (LVLMs) setzen zunehmend Reinforcement Learning (RL) für das Post-Pretraining ein, wie beispielsweise RL mit verifizierbaren Belohnungen (RLVR) für objektive Aufgaben und RL basierend auf menschlichem Feedback (RLHF) für subjektive Aufgaben. Allerdings verursacht RLHF hohe Kosten und birgt das Risiko einer Belohnungs-Policy-Diskrepanz aufgrund der Abhängigkeit von menschlichen Präferenzen, während RLVR weiterhin wertvolle Überwachungsinformationen verschwendet, indem Rollouts und Korrektheitssignale nach jedem Update verworfen werden. Um diese Herausforderungen zu bewältigen, führen wir das Synergistic Policy And Reward Co-Evolving Framework (SPARK) ein, eine effiziente, on-policy und stabile Methode, die auf RLVR aufbaut. Anstatt Rollouts und Korrektheitsdaten zu verwerfen, recycelt SPARK diese wertvollen Informationen, um gleichzeitig das Modell selbst als ein generatives Belohnungsmodell zu trainieren. Dieses zusätzliche Training verwendet eine Mischung von Zielen, wie punktuelle Belohnungswerte, paarweise Vergleiche und Bewertungen, die auf weiterführende Reflexionsantworten konditioniert sind, um dem Modell beizubringen, seine eigenen Antworten zu bewerten und zu verbessern. Unser Prozess eliminiert die Notwendigkeit eines separaten Belohnungsmodells und kostspieliger menschlicher Präferenzdaten. SPARK schafft eine positive, sich gemeinsam entwickelnde Feedback-Schleife: verbesserte Belohnungsgenauigkeit führt zu besseren Policy-Gradienten, die wiederum höherwertige Rollouts erzeugen, die das Belohnungsmodell weiter verfeinern. Unser einheitliches Framework unterstützt die Skalierung zur Testzeit durch Selbstreflexion ohne externe Belohnungsmodelle und deren damit verbundene Kosten. Wir zeigen, dass SPARK signifikante Leistungssteigerungen bei mehreren LLM- und LVLM-Modellen sowie bei mehreren Reasoning-, Belohnungsmodell- und allgemeinen Benchmarks erzielt. Beispielsweise erreicht SPARK-VL-7B durchschnittliche Verbesserungen von 9,7 % auf 7 Reasoning-Benchmarks, 12,1 % auf 2 Belohnungs-Benchmarks und 1,5 % auf 8 allgemeinen Benchmarks im Vergleich zu den Baselines, was Robustheit und breite Generalisierungsfähigkeit demonstriert.
Retrieval-Augmented Generation (RAG) und Graph-basiertes RAG haben sich zu einem wichtigen Paradigma für die Erweiterung von Large Language Models (LLMs) mit externem Wissen entwickelt. Bestehende Ansätze stehen jedoch vor einem grundlegenden Zielkonflikt. Während graph-basierte Methoden inhärent von hochwertigen Graphstrukturen abhängig sind, stoßen sie auf erhebliche praktische Einschränkungen: Manuell erstellte Wissensgraphen sind in der Skalierung prohibitv teuer, während automatisch aus Korpora extrahierte Graphen durch die Leistung der zugrunde liegenden LLM-Extraktoren begrenzt sind, insbesondere bei der Verwendung kleinerer, lokal eingesetzter Modelle. Dieses Papier stellt Think-on-Graph 3.0 (ToG-3) vor, ein neuartiges Framework, das den Multi-Agent Context Evolution and Retrieval (MACER)-Mechanismus einführt, um diese Einschränkungen zu überwinden. Unsere Kerninnovation ist die dynamische Konstruktion und Verfeinerung eines Chunk-Triplets-Community heterogenen Graphindex, der erstmals einen Dual-Evolutionsmechanismus aus Evolving Query und Evolving Sub-Graph für die präzise Beweisabfrage integriert. Dieser Ansatz adressiert eine kritische Schwäche früherer Graph-basierter RAG-Methoden, die typischerweise einen statischen Graphindex in einem einzigen Durchlauf erstellen, ohne sich an die tatsächliche Abfrage anzupassen. Ein Multi-Agenten-System, bestehend aus Constructor-, Retriever-, Reflector- und Responser-Agenten, arbeitet kollaborativ in einem iterativen Prozess der Beweisabfrage, Antwortgenerierung, Suffizienzreflexion und, entscheidend, der Entwicklung von Abfrage und Subgraph. Dieses dual-evolvierende Multi-Agenten-System ermöglicht es ToG-3, während des Schlussfolgerns einen zielgerichteten Graphindex adaptiv aufzubauen, wodurch die inhärenten Nachteile der statischen, einmaligen Graphkonstruktion gemildert werden und tiefes, präzises Schlussfolgern auch mit leichten LLMs ermöglicht wird. Umfangreiche Experimente zeigen, dass ToG-3 die Vergleichsbaselines sowohl bei tiefen als auch breiten Schlussfolgerungsbenchmarks übertrifft, und Ablationsstudien bestätigen die Wirksamkeit der Komponenten des MACER-Frameworks.
Layout-Schätzung und 3D-Objekterkennung sind zwei grundlegende Aufgaben im Bereich des Verständnisses von Innenraumszenen. In Kombination ermöglichen sie die Erstellung einer kompakten, aber semantisch reichhaltigen räumlichen Darstellung einer Szene. Bisherige Ansätze stützen sich typischerweise auf Punktwolken als Eingabe, was eine erhebliche Einschränkung darstellt, da die meisten Verbraucherkameras keine Tiefensensoren besitzen und rein visuelle Daten weitaus häufiger vorkommen. Wir adressieren dieses Problem mit TUN3D, der ersten Methode, die die gemeinsame Layout-Schätzung und 3D-Objekterkennung in realen Scans mit Multi-View-Bildern als Eingabe bewältigt und dabei weder Ground-Truth-Kameraposen noch Tiefeninformationen benötigt. Unser Ansatz basiert auf einem leichtgewichtigen, sparsen konvolutionalen Backbone und verwendet zwei spezialisierte Köpfe: einen für die 3D-Objekterkennung und einen für die Layout-Schätzung, wobei eine neuartige und effektive parametrische Wandrepräsentation genutzt wird. Umfangreiche Experimente zeigen, dass TUN3D state-of-the-art Leistungen in drei anspruchsvollen Benchmarks für das Szenenverständnis erzielt: (i) unter Verwendung von Ground-Truth-Punktwolken, (ii) unter Verwendung von positionierten Bildern und (iii) unter Verwendung von nicht positionierten Bildern. Während TUN3D mit spezialisierten Methoden zur 3D-Objekterkennung gleichzieht, verbessert es die Layout-Schätzung erheblich und setzt damit einen neuen Maßstab für das ganzheitliche Verständnis von Innenraumszenen. Der Code ist verfügbar unter https://github.com/col14m/tun3d.
Große Sprachmodelle, die auf umfangreichen Korpora trainiert wurden, vereinen erfolgreich diverse linguistische Aufgaben innerhalb eines einzigen generativen Frameworks. Inspiriert davon erweitern neuere Arbeiten wie das Large Vision Model (LVM) dieses Paradigma auf den Bereich der Vision, indem sie Aufgaben in sequenzielle visuelle Sätze organisieren, wobei visuelle Prompts als Kontext dienen, um die Ausgaben zu steuern. Eine solche Modellierung erfordert jedoch aufgaben-spezifisches Pre-Training über verschiedene Modalitäten und Quellen hinweg, was kostspielig ist und die Skalierbarkeit auf unbekannte Aufgaben einschränkt. Da vortrainierte Videogenerationsmodelle inhärent Abhängigkeiten in zeitlichen Sequenzen erfassen, untersuchen wir eine einheitlichere und skalierbarere Alternative: Kann ein vortrainiertes Videogenerationsmodell sich an diverse Bild- und Videoaufgaben anpassen? Um dies zu beantworten, schlagen wir UniVid vor, ein Framework, das ein Video-Diffusion-Transformer-Modell feinabstimmt, um verschiedene Vision-Aufgaben ohne aufgaben-spezifische Modifikationen zu bewältigen. Aufgaben werden als visuelle Sätze dargestellt, wobei die Kontextsequenz sowohl die Aufgabe als auch die erwartete Ausgabemodalität definiert. Wir bewerten die Generalisierung von UniVid aus zwei Perspektiven: (1) Cross-modale Inferenz mit Kontexten, die sowohl Bilder als auch Videos umfassen, was über LVM's uni-modale Einstellung hinausgeht; (2) Cross-Quellen-Aufgaben von natürlichen zu annotierten Daten, ohne Multi-Quellen-Pre-Training. Obwohl UniVid ausschließlich auf natürlichen Videodaten trainiert wurde, generalisiert es gut in beiden Settings. Bemerkenswerterweise können Verstehens- und Generierungsaufgaben einfach durch Umkehrung der Reihenfolge der visuellen Sätze in diesem Paradigma gewechselt werden. Diese Erkenntnisse unterstreichen das Potenzial vortrainierter Videogenerationsmodelle, als skalierbare und einheitliche Grundlage für die Vision-Modellierung zu dienen. Unser Code wird unter https://github.com/CUC-MIPG/UniVid veröffentlicht.
Graphical User Interface (GUI)-Agenten zielen darauf ab, ein breites Spektrum menschlicher Aufgaben durch die Emulation von Benutzerinteraktionen zu automatisieren. Trotz rasanter Fortschritte werden aktuelle Ansätze durch mehrere kritische Herausforderungen behindert: den Datenengpass beim End-to-End-Training, die hohen Kosten verzögerter Fehlererkennung und das Risiko widersprüchlicher Anweisungen. Inspiriert durch den menschlichen kognitiven Kreislauf aus Denken, Ausrichtung und Reflexion präsentieren wir in diesem Artikel D-Artemis – ein neuartiges deliberatives Framework. D-Artemis nutzt einen feingranularen, app-spezifischen Tipp-Retrieval-Mechanismus, um seinen Entscheidungsprozess zu informieren. Es setzt zudem eine proaktive Pre-execution Alignment-Phase ein, in der das Thought-Action Consistency (TAC)-Check-Modul und der Action Correction Agent (ACA) zusammenwirken, um das Risiko von Ausführungsfehlern zu minimieren. Ein post-execution Status Reflection Agent (SRA) vervollständigt den kognitiven Kreislauf und ermöglicht strategisches Lernen aus Erfahrungen. Entscheidend ist, dass D-Artemis die Fähigkeiten allgemeiner Multimodaler großer Sprachmodelle (MLLMs) für GUI-Aufgaben erweitert, ohne dass ein Training auf komplexen Trajektorien-Datensätzen erforderlich ist, und dabei eine starke Generalisierung demonstriert. D-Artemis setzt neue State-of-the-Art (SOTA)-Ergebnisse in beiden wichtigen Benchmarks, mit einer Erfolgsrate von 75,8 % auf AndroidWorld und 96,8 % auf ScreenSpot-V2. Umfangreiche Ablationsstudien zeigen weiterhin den signifikanten Beitrag jeder Komponente zum Framework.
Reinforcement Fine-Tuning (RFT) leidet häufig unter einer Überoptimierung der Belohnung, bei der ein Policy-Modell die Belohnungssignale manipuliert, um hohe Punktzahlen zu erreichen, während es gleichzeitig qualitativ minderwertige Ausgaben erzeugt. Unsere theoretische Analyse zeigt, dass der Schlüssel in einer Fehlspezifikation der Belohnung im Bereich hoher Belohnungen liegt: die Unfähigkeit, exzellente Antworten zuverlässig von lediglich guten zu unterscheiden. Dies motiviert uns, uns auf den Bereich hoher Belohnungen zu konzentrieren. Allerdings sind solche Beispiele im Tail-Bereich unter dem Basis-LLM selten. Während Off-Policy-Beispiele (z. B. von stärkeren Modellen oder Überarbeitungen) leichter zu beschaffen sind, führt ein naives Training mit diesen zu einer fehlspezifizierten Belohnung für die Policy, die wir ausrichten möchten. Um dies zu adressieren, untersuchen wir rubrikbasierte Belohnungen. Durch ihre Konstruktion können Rubriken Off-Policy-Beispiele nutzen, während sie gleichzeitig unempfindlich gegenüber deren Artefakten bleiben. Um Rubriken zu entwickeln, die den Bereich hoher Belohnungen erfassen, betonen wir die Bedeutung der Unterscheidung zwischen guten und vielfältigen Antworten und führen einen Workflow ein, um diese Idee umzusetzen. Wir zeigen empirisch, dass rubrikbasierte Belohnungen die Überoptimierung der Belohnung erheblich reduzieren und effektive Verbesserungen im Post-Training von LLMs liefern. Unser Code ist unter https://github.com/Jun-Kai-Zhang/rubrics.git verfügbar.
Menschen entwickeln ein Verständnis für intuitive Physik durch aktive Interaktion mit der Welt. Dieser Ansatz steht in starkem Kontrast zu aktuellen Videomodellen, wie Sora, die auf passive Beobachtung angewiesen sind und daher Schwierigkeiten haben, physikalische Kausalität zu erfassen. Diese Beobachtung führt zu unserer zentralen Hypothese: Eine authentische physikalische Intuition des Weltmodells muss auf umfangreichen, kausal reichhaltigen Interaktionen mit der realen Welt basieren. Um diese Hypothese zu testen, präsentieren wir WoW, ein 14-Milliarden-Parameter generatives Weltmodell, das auf 2 Millionen Roboterinteraktions-Trajektorien trainiert wurde. Unsere Ergebnisse zeigen, dass das physikalische Verständnis des Modells eine probabilistische Verteilung plausibler Ergebnisse darstellt, was zu stochastischen Instabilitäten und physikalischen Halluzinationen führt. Darüber hinaus demonstrieren wir, dass diese emergente Fähigkeit durch SOPHIA aktiv in Richtung physikalischer Realität eingeschränkt werden kann, wobei Vision-Sprach-Modell-Agenten die DiT-generierten Ausgaben bewerten und deren Verfeinerung durch iterative Weiterentwicklung der Sprachanweisungen leiten. Zusätzlich übersetzt ein mitentwickeltes inverses Dynamikmodell diese verfeinerten Pläne in ausführbare Roboteraktionen und schließt somit die Schleife von der Imagination zur Aktion. Wir etablieren WoWBench, einen neuen Benchmark, der sich auf physikalische Konsistenz und kausales Denken in Videos konzentriert, wo WoW sowohl in der menschlichen als auch in der autonomen Bewertung Spitzenleistungen erzielt und starke Fähigkeiten in physikalischer Kausalität, Kollisionsdynamik und Objektpermanenz demonstriert. Unsere Arbeit liefert systematische Beweise dafür, dass groß angelegte, reale Interaktionen ein Grundpfeiler für die Entwicklung physikalischer Intuition in der KI sind. Modelle, Daten und Benchmarks werden Open-Source zur Verfügung gestellt.
Verstärkungslernen (Reinforcement Learning, RL) ist das dominierende Paradigma zur Verbesserung der strategischen Fähigkeiten von großen Sprachmodellen (LLMs) bei langfristigen, spärlich belohnten Agentenaufgaben. Es steht jedoch vor der grundlegenden Herausforderung des Exploration-Exploitation-Trade-offs. Bisherige Studien fördern die Exploration durch die Linse der Policy-Entropie, doch eine solche mechanische Entropiemaximierung neigt aufgrund von mehrstufigen Verteilungsverschiebungen zu Instabilität im RL-Training. In diesem Artikel zielen wir auf eine progressive Balance zwischen Exploration und Exploitation unter der Leitung der eigenen Erfahrungen des Agenten ab, ohne in Entropiekollaps oder unkontrollierte Divergenz zu verfallen. Wir schlagen SPEAR vor, ein curriculum-basiertes Selbstimitationslernverfahren (Self-Imitation Learning, SIL) für das Training von agentenbasierten LLMs. Es erweitert das herkömmliche SIL-Framework, bei dem ein Replay-Puffer selbstgenerierte vielversprechende Trajektorien für Off-Policy-Updates speichert, indem es die Policy-Entwicklung schrittweise innerhalb eines ausgewogenen Entropiebereichs über verschiedene Phasen hinweg steuert. Konkret integriert unser Ansatz ein Curriculum zur Steuerung des Explorationsprozesses, nutzt intrinsische Belohnungen zur Förderung der Fähigkeitsebene der Exploration und ermöglicht Aktionsebenen-Exploration durch SIL. Anfangs spielt die zusätzliche Werkzeugaufrufbelohnung eine entscheidende Rolle bei der Anhäufung von Werkzeugnutzungsfähigkeiten, wodurch eine breite Exposition gegenüber den unbekannten Verteilungen der Umweltrückmeldungen mit einem ansteigenden Entropietrend ermöglicht wird. Mit fortschreitendem Training wird die Selbstimitation verstärkt, um bestehende erfolgreiche Muster aus den wiedergegebenen Erfahrungen für vergleichende Aktionsebenen-Exploitation zu nutzen, wodurch die Lösungsiteration beschleunigt wird, ohne dass die Entropie unbegrenzt wächst. Um das Training weiter zu stabilisieren, kalibrieren wir die Vorteile der Erfahrungen im Replay-Puffer neu, um potenzielle Policy-Drift zu adressieren. Regularisierungen wie das Clipping von Tokens mit hoher Kovarianz zwischen Wahrscheinlichkeit und Vorteil werden in die Trajektorienebenen-Entropiekontrolle eingeführt, um Überzuversicht einzudämmen.
Dank der Einfachheit und Effektivität von Dense O2O und MAL hat sich DEIM als das vorherrschende Trainingsframework für Echtzeit-DETRs etabliert und übertrifft die YOLO-Serie deutlich. In dieser Arbeit erweitern wir es mit DINOv3-Features, was zu DEIMv2 führt. DEIMv2 umfasst acht Modellgrößen von X bis Atto und deckt GPU-, Edge- und Mobile-Bereitstellungen ab. Für die Varianten X, L, M und S verwenden wir DINOv3-vortrainierte oder destillierte Backbones und führen einen Spatial Tuning Adapter (STA) ein, der die einstufige Ausgabe von DINOv3 effizient in mehrstufige Features umwandelt und starke Semantik mit feinkörnigen Details ergänzt, um die Erkennung zu verbessern. Für ultraleichte Modelle (Nano, Pico, Femto und Atto) setzen wir HGNetv2 mit Tiefen- und Breitenbeschneidung ein, um strenge Ressourcenbudgets einzuhalten. Zusammen mit einem vereinfachten Decoder und einem verbesserten Dense O2O ermöglicht dieses einheitliche Design DEIMv2, eine überlegene Leistungs-Kosten-Balance in verschiedenen Szenarien zu erreichen und neue State-of-the-Art-Ergebnisse zu etablieren. Bemerkenswerterweise erreicht unser größtes Modell, DEIMv2-X, 57,8 AP mit nur 50,3 Millionen Parametern und übertrifft damit frühere X-Modelle, die über 60 Millionen Parameter für lediglich 56,5 AP benötigen. Auf der kompakten Seite ist DEIMv2-S das erste Modell mit weniger als 10 Millionen Parametern (9,71 Millionen), das die 50-AP-Marke auf COCO überschreitet und 50,9 AP erreicht. Selbst das ultraleichte DEIMv2-Pico mit nur 1,5 Millionen Parametern liefert 38,5 AP und entspricht damit YOLOv10-Nano (2,3 Millionen) mit etwa 50 Prozent weniger Parametern. Unser Code und vortrainierte Modelle sind unter https://github.com/Intellindust-AI-Lab/DEIMv2 verfügbar.
Wir stellen X-Streamer vor, ein end-to-end multimodales Framework zur Modellierung der menschlichen Welt, das die Erstellung digitaler menschlicher Agenten ermöglicht, die in der Lage sind, unendliche Interaktionen über Text, Sprache und Video innerhalb einer einzigen einheitlichen Architektur durchzuführen. Ausgehend von einem einzelnen Porträt ermöglicht X-Streamer Echtzeit-Videoanrufe mit offenem Ende, die durch Streaming multimodaler Eingaben gesteuert werden. Im Kern befindet sich eine Thinker-Actor-Dual-Transformer-Architektur, die multimodales Verständnis und Generierung vereint und ein statisches Porträt in persistente und intelligente audiovisuelle Interaktionen verwandelt. Das Thinker-Modul nimmt Streaming-Benutzereingaben wahr und verarbeitet sie, während seine verborgenen Zustände vom Actor-Modul in Echtzeit in synchronisierte multimodale Streams übersetzt werden. Konkret nutzt der Thinker ein vortrainiertes großes Sprach-Sprach-Modell, während der Actor ein chunkweise autoregressives Diffusionsmodell verwendet, das die verborgenen Zustände des Thinkers durch Cross-Attention berücksichtigt, um zeitlich abgestimmte multimodale Antworten mit verschachtelten diskreten Text- und Audio-Tokens sowie kontinuierlichen Video-Latents zu erzeugen. Um die Stabilität über lange Zeiträume zu gewährleisten, entwerfen wir inter- und intra-chunk Aufmerksamkeitsmechanismen mit zeitlich abgestimmten multimodalen Positions-Einbettungen für eine fein abgestimmte cross-modale Ausrichtung und Kontextbewahrung, die durch chunkweise Diffusionserzwingung und globale Identitätsreferenzierung weiter verstärkt wird. X-Streamer läuft in Echtzeit auf zwei A100-GPUs und ermöglicht stundenlange konsistente Video-Chat-Erlebnisse aus beliebigen Porträts, wodurch der Weg zur einheitlichen Weltmodellierung interaktiver digitaler Menschen geebnet wird.
Die effiziente Verarbeitung von hochauflösenden Bildern ist entscheidend für reale Vision-Sprache-Anwendungen. Allerdings verursachen bestehende Large Vision-Language Models (LVLMs) erheblichen Rechenaufwand aufgrund der großen Anzahl von Vision-Tokens. Mit dem Aufkommen von „Denken mit Bildern“-Modellen erstreckt sich das Schlussfolgern nun über den Text hinaus in den visuellen Bereich. Diese Fähigkeit motiviert unsere zweistufige „grob-zu-fein“-Schlussfolgerungspipeline: Zuerst wird ein heruntergerechnetes Bild analysiert, um aufgabenrelevante Regionen zu identifizieren; dann werden nur diese Regionen in voller Auflösung zugeschnitten und in einer nachfolgenden Schlussfolgerungsstufe verarbeitet. Dieser Ansatz reduziert die Rechenkosten, während feinkörnige visuelle Details dort erhalten bleiben, wo sie notwendig sind. Eine große Herausforderung besteht darin, zu bestimmen, welche Regionen für eine bestimmte Anfrage wirklich relevant sind. Aktuelle verwandte Methoden scheitern oft in der ersten Stufe nach der Herunterrechnung des Eingabebildes, aufgrund von wahrnehmungsgesteuertem Schlussfolgern, bei dem klare visuelle Informationen für effektives Schlussfolgern erforderlich sind. Um dieses Problem zu lösen, schlagen wir ERGO (Efficient Reasoning & Guided Observation) vor, das wahrnehmungsgesteuertes Schlussfolgern durch multimodalen Kontext nutzt, um zu bestimmen, wo der Fokus liegen soll. Unser Modell kann wahrnehmungsbezogene Unsicherheiten berücksichtigen, indem es die zugeschnittene Region erweitert, um visuell mehrdeutige Bereiche für die Beantwortung von Fragen abzudecken. Zu diesem Zweck entwickeln wir einfache, aber effektive Belohnungskomponenten in einem Reinforcement-Learning-Framework für die grob-zu-fein-Wahrnehmung. Über mehrere Datensätze hinweg liefert unser Ansatz eine höhere Genauigkeit als das ursprüngliche Modell und konkurrierende Methoden, bei größerer Effizienz. Beispielsweise übertrifft ERGO Qwen2.5-VL-7B auf dem V*-Benchmark um 4,7 Punkte, während nur 23 % der Vision-Tokens verwendet werden, was eine 3-fache Beschleunigung der Inferenz ermöglicht. Der Code und die Modelle sind verfügbar unter: https://github.com/nota-github/ERGO.
Die meisten bestehenden Ansätze zur referenziellen Segmentierung erzielen hohe Leistung nur durch Feinabstimmung oder durch die Kombination mehrerer vortrainierter Modelle, oft auf Kosten zusätzlicher Trainings- und Architekturmodifikationen. Gleichzeitig kodieren großskalige generative Diffusionsmodelle reichhaltige semantische Informationen, was sie als allgemeine Merkmalsextraktoren attraktiv macht. In dieser Arbeit stellen wir eine neue Methode vor, die direkt Merkmale und Aufmerksamkeitswerte aus Diffusions-Transformatoren für nachgelagerte Aufgaben nutzt, ohne Architekturmodifikationen oder zusätzliches Training zu erfordern. Um diese Merkmale systematisch zu bewerten, erweitern wir Benchmarks um Vision-Sprache-Grounding-Aufgaben, die sowohl Bilder als auch Videos umfassen. Unsere zentrale Erkenntnis ist, dass Stoppwörter als Aufmerksamkeitsmagnete wirken: Sie akkumulieren überschüssige Aufmerksamkeit und können gefiltert werden, um Rauschen zu reduzieren. Darüber hinaus identifizieren wir globale Aufmerksamkeits-Senken (GAS), die in tieferen Schichten entstehen, und zeigen, dass sie sicher unterdrückt oder auf Hilfstoken umgeleitet werden können, was zu schärferen und präziseren Grounding-Karten führt. Wir schlagen weiterhin eine Strategie zur Umverteilung der Aufmerksamkeit vor, bei der angehängte Stoppwörter Hintergrundaktivierungen in kleinere Cluster aufteilen, was schärfere und stärker lokalisierte Heatmaps ergibt. Aufbauend auf diesen Erkenntnissen entwickeln wir RefAM, ein einfaches, trainingsfreies Grounding-Framework, das Cross-Attention-Karten, GAS-Behandlung und Umverteilung kombiniert. In Zero-Shot-Referenzsegmentierungs-Benchmarks für Bilder und Videos übertrifft unser Ansatz durchweg frühere Methoden und etabliert einen neuen Stand der Technik ohne Feinabstimmung oder zusätzliche Komponenten.
Text-gesteuerte Bildbearbeitung mit Diffusionsmodellen hat bemerkenswerte Qualität erreicht, leidet jedoch unter prohibitiv hoher Latenz, was reale Anwendungen behindert. Wir stellen FlashEdit vor, ein neuartiges Framework, das hochwertige Echtzeit-Bildbearbeitung ermöglicht. Seine Effizienz ergibt sich aus drei Schlüsselinnovationen: (1) eine One-Step Inversion-and-Editing (OSIE)-Pipeline, die kostspielige iterative Prozesse umgeht; (2) eine Background Shield (BG-Shield)-Technik, die die Hintergrundbewahrung gewährleistet, indem sie Merkmale selektiv nur innerhalb des Bearbeitungsbereichs modifiziert; und (3) ein Sparsified Spatial Cross-Attention (SSCA)-Mechanismus, der präzise, lokalisierte Bearbeitungen sicherstellt, indem semantische Leckagen in den Hintergrund unterdrückt werden. Umfangreiche Experimente zeigen, dass FlashEdit eine überlegene Hintergrundkonsistenz und strukturelle Integrität beibehält, während Bearbeitungen in weniger als 0,2 Sekunden durchgeführt werden, was eine über 150-fache Beschleunigung im Vergleich zu früheren mehrstufigen Methoden darstellt. Unser Code wird unter https://github.com/JunyiWuCode/FlashEdit öffentlich verfügbar gemacht.
Die Entwicklung von KI-Systemen, die effektiv über Sprachen hinweg arbeiten und dabei kulturell verankert bleiben, stellt eine langjährige Herausforderung dar, insbesondere in ressourcenarmen Umgebungen. Synthetische Daten bieten einen vielversprechenden Ansatz, doch ihre Wirksamkeit in mehrsprachigen und multikulturellen Kontexten bleibt weitgehend unerforscht. Wir untersuchen die Erstellung und Auswirkung von synthetischen, kulturell kontextualisierten Datensätzen für indische Sprachen durch eine Bottom-up-Generierungsstrategie, die große Open-Source-LLMs (≥ 235B Parameter) dazu anregt, die Datengenerierung in sprachspezifischen Wikipedia-Inhalten zu verankern. Dieser Ansatz ergänzt das dominante Top-down-Paradigma der Übersetzung synthetischer Datensätze aus ressourcenreichen Sprachen wie Englisch. Wir stellen Updesh vor, einen hochwertigen, groß angelegten synthetischen Datensatz zur Befolgung von Anweisungen, der 9,5 Millionen Datenpunkte in 13 indischen Sprachen umfasst und vielfältige Denk- und Generierungsaufgaben mit Schwerpunkt auf langfristigen Kontexten, Mehrfachinteraktionen und Ausrichtung auf indische kulturelle Kontexte abdeckt. Eine umfassende Bewertung, die sowohl automatisierte Metriken als auch menschliche Annotationen über 10.000 Bewertungen hinweg einbezieht, zeigt, dass die generierten Daten von hoher Qualität sind; allerdings weist die menschliche Bewertung auf Bereiche hin, die weiter verbessert werden können. Zusätzlich führen wir Downstream-Bewertungen durch, indem wir Modelle auf unserem Datensatz feinabstimmen und deren Leistung über 15 verschiedene mehrsprachige Datensätze hinweg bewerten. Modelle, die auf Updesh trainiert wurden, erzielen durchweg signifikante Verbesserungen bei Generierungsaufgaben und bleiben bei Multiple-Choice-NLU-Aufgaben wettbewerbsfähig. Bemerkenswerterweise sind die relativen Verbesserungen in ressourcenarmen und mittelressourcenstarken Sprachen am deutlichsten, wodurch die Lücke zu ressourcenreichen Sprachen verringert wird. Diese Ergebnisse liefern empirische Belege dafür, dass effektive mehrsprachige KI vielschichtige Datenkuratierungs- und Generierungsstrategien erfordert, die kontextbewusste, kulturell verankerte Methoden einbeziehen.
Autoregressive (AR) Transformer haben sich als leistungsstarkes Paradigma für die visuelle Generierung etabliert, vor allem aufgrund ihrer Skalierbarkeit, Recheneffizienz und einheitlichen Architektur für Sprache und Vision. Unter ihnen hat die nächste Skalenprädiktion mit Visual Autoregressive Generation (VAR) kürzlich bemerkenswerte Leistungen gezeigt und sogar diffusionsbasierte Modelle übertroffen. In dieser Arbeit untersuchen wir VAR erneut und decken eine theoretische Erkenntnis auf: Wenn VAR mit einer Markovschen Aufmerksamkeitsmaske ausgestattet ist, ist es mathematisch äquivalent zu einer diskreten Diffusion. Diese Neuinterpretation bezeichnen wir als Scalable Visual Refinement with Discrete Diffusion (SRDD) und schaffen damit eine prinzipielle Brücke zwischen AR-Transformern und Diffusionsmodellen. Indem wir diese neue Perspektive nutzen, zeigen wir, wie man die Vorteile der Diffusion, wie iterative Verfeinerung und die Reduzierung architektonischer Ineffizienzen, direkt in VAR integrieren kann, was zu schnellerer Konvergenz, geringeren Inferenzkosten und verbesserter Zero-Shot-Rekonstruktion führt. Über mehrere Datensätze hinweg demonstrieren wir, dass die diffusionsbasierte Perspektive auf VAR zu konsistenten Gewinnen in Effizienz und Generierung führt.
Multimodale große Sprachmodelle (MLLMs) haben bemerkenswerte Fähigkeiten bei der Ausrichtung visueller Eingaben an natürliche Sprachausgaben gezeigt. Dennoch ist das Ausmaß, in dem generierte Tokens von visuellen Modalitäten abhängen, noch weitgehend unverstanden, was die Interpretierbarkeit und Zuverlässigkeit einschränkt. In dieser Arbeit präsentieren wir EAGLE, ein leichtgewichtiges Black-Box-Framework zur Erklärung der autoregressiven Token-Generierung in MLLMs. EAGLE ordnet ausgewählte Tokens kompakten Wahrnehmungsregionen zu und quantifiziert den relativen Einfluss von Sprachpriors und Wahrnehmungsbeweisen. Das Framework führt eine Zielfunktion ein, die Suffizienz (Insight-Score) und Unverzichtbarkeit (Notwendigkeits-Score) vereint und durch eine gierige Suche über sparsifizierte Bildregionen für eine treue und effiziente Attribution optimiert wird. Über die räumliche Attribution hinaus führt EAGLE eine modalitätsbewusste Analyse durch, die aufschlüsselt, worauf Tokens angewiesen sind, und so eine feinkörnige Interpretierbarkeit von Modellentscheidungen bietet. Umfangreiche Experimente mit Open-Source-MLLMs zeigen, dass EAGLE bestehende Methoden in Bezug auf Treue, Lokalisierung und Halluzinationsdiagnose konsequent übertrifft, während er deutlich weniger GPU-Speicher benötigt. Diese Ergebnisse unterstreichen seine Effektivität und Praktikabilität für die Verbesserung der Interpretierbarkeit von MLLMs. Der Code ist unter https://github.com/RuoyuChen10/EAGLE verfügbar.
Während Diffusionsmodelle bemerkenswerte Fortschritte in der Bildgenerierung erzielt haben, können ihre Ausgaben immer noch unrealistisch wirken und feine Details vermissen, insbesondere bei der Verwendung einer geringeren Anzahl von neuronalen Funktionsauswertungen (NFEs) oder niedrigeren Leitwerten. Um dieses Problem zu adressieren, schlagen wir eine neuartige, momentum-basierte Sampling-Technik vor, die als history-guided sampling (HiGS) bezeichnet wird und die Qualität und Effizienz des Diffusionssamplings verbessert, indem sie aktuelle Modellvorhersagen in jeden Inferenzschritt integriert. Konkret nutzt HiGS die Differenz zwischen der aktuellen Vorhersage und einem gewichteten Durchschnitt vergangener Vorhersagen, um den Sampling-Prozess in Richtung realistischerer Ausgaben mit besserer Detailtreue und Struktur zu lenken. Unser Ansatz führt praktisch keine zusätzliche Berechnung ein und integriert sich nahtlos in bestehende Diffusionsframeworks, ohne zusätzliches Training oder Feinabstimmung zu erfordern. Umfangreiche Experimente zeigen, dass HiGS die Bildqualität über verschiedene Modelle und Architekturen hinweg sowie unter variierenden Sampling-Budgets und Leitwerten konsequent verbessert. Darüber hinaus erreicht HiGS mit einem vortrainierten SiT-Modell einen neuen State-of-the-art-FID von 1,61 für ungeleitete ImageNet-Generierung bei 256×256 mit nur 30 Sampling-Schritten (anstelle der standardmäßigen 250). Wir präsentieren HiGS somit als eine Plug-and-Play-Erweiterung des Standard-Diffusionssamplings, das eine schnellere Generierung mit höherer Detailtreue ermöglicht.
Eine präzise Texterkennung für historische Dokumente kann die Erforschung und Bewahrung des kulturellen Erbes erheblich vorantreiben. Bestehende Vision-Language-Modelle (VLMs) sind jedoch für moderne, standardisierte Texte konzipiert und nicht darauf ausgelegt, die vielfältigen Sprachen und Schriften, unregelmäßigen Layouts und häufigen Beschädigungen zu lesen, die in historischen Materialien vorkommen. Dieses Papier stellt CHURRO vor, ein 3B-Parameter Open-Weight-VLM, das speziell für die historische Texterkennung entwickelt wurde. Das Modell wird auf CHURRO-DS trainiert, dem bisher größten Datensatz für historische Texterkennung. CHURRO-DS vereint 155 historische Korpora mit 99.491 Seiten, die 22 Jahrhunderte textuellen Erbes in 46 Sprachgruppen umfassen, einschließlich historischer Varianten und ausgestorbener Sprachen. Wir evaluieren mehrere Open-Weight- und Closed-VLMs sowie optische Zeichenerkennungssysteme (OCR) auf CHURRO-DS und stellen fest, dass CHURRO alle anderen VLMs übertrifft. Auf dem CHURRO-DS-Testset erreicht CHURRO eine normalisierte Levenshtein-Ähnlichkeit von 82,3 % (gedruckt) und 70,1 % (handschriftlich) und übertrifft damit das zweitbeste Modell, Gemini 2.5 Pro, um 1,4 % bzw. 6,5 %, während es gleichzeitig 15,5-mal kosteneffizienter ist. Durch die Veröffentlichung des Modells und des Datensatzes möchten wir community-getriebene Forschung ermöglichen, um die Lesbarkeit historischer Texte zu verbessern und die wissenschaftliche Arbeit zu beschleunigen.
Während Transformer-basierte Modelle bemerkenswerte Leistungen im Sprachmodellieren gezeigt haben, führen ihre hohen Komplexitäten zu hohen Kosten bei der Verarbeitung langer Kontexte. Im Gegensatz dazu haben rekurrente neuronale Netze (RNNs) wie lineare Attention und State-Space-Modelle aufgrund ihrer konstanten Komplexität pro Token an Popularität gewonnen. Diese rekurrenten Modelle haben jedoch Schwierigkeiten mit Aufgaben, die ein präzises Abrufen von Kontextinformationen aus langen Kontexten erfordern, da alle Kontextinformationen in einen konstant großen rekurrenten Zustand komprimiert werden. Frühere Arbeiten haben gezeigt, dass die Fähigkeit zum Abrufen positiv mit der Größe des rekurrenten Zustands korreliert, doch führt das direkte Training von RNNs mit größeren rekurrenten Zuständen zu hohen Trainingskosten. In diesem Artikel stellen wir StateX vor, eine Trainingspipeline zur effizienten Erweiterung der Zustände vortrainierter RNNs durch Nachschulung. Für zwei beliebte Klassen von RNNs, lineare Attention und State-Space-Modelle, entwerfen wir architektonische Modifikationen für die Nachschulung, um die Zustandsgröße zu skalieren, ohne oder mit nur geringfügiger Erhöhung der Modellparameter. Experimente mit Modellen bis zu 1,3 Milliarden Parametern zeigen, dass StateX die Abruf- und In-Context-Lernfähigkeit von RNNs effizient verbessert, ohne hohe Nachschulungskosten zu verursachen oder andere Fähigkeiten zu beeinträchtigen.
Vorherrschende Text-zu-Video-Retrieval-Systeme verwenden hauptsächlich Embedding-Modelle zur Merkmalsextraktion und berechnen Kosinus-Ähnlichkeiten für das Ranking. Dieses Design weist jedoch zwei Einschränkungen auf. Niedrigqualitative Text-Video-Datenpaare könnten das Retrieval beeinträchtigen, sind jedoch schwer zu identifizieren und zu überprüfen. Die Kosinus-Ähnlichkeit allein bietet keine Erklärung für die Ranking-Ergebnisse, was die Interpretierbarkeit einschränkt. Wir fragen uns, ob wir die Ranking-Ergebnisse interpretieren können, um die Retrieval-Modelle zu bewerten und die Text-Video-Daten zu untersuchen. Diese Arbeit schlägt X-CoT vor, ein erklärbares Retrieval-Framework, das auf dem CoT-Reasoning (Chain-of-Thought) von LLMs (Large Language Models) basiert und das Embedding-Modell-basierte Ähnlichkeitsranking ersetzt. Wir erweitern zunächst die bestehenden Benchmarks mit zusätzlichen Video-Annotationen, um das semantische Verständnis zu unterstützen und Datenverzerrungen zu reduzieren. Wir entwickeln auch ein Retrieval CoT, das aus paarweisen Vergleichsschritten besteht und detaillierte Begründungen sowie ein vollständiges Ranking liefert. X-CoT verbessert empirisch die Retrieval-Leistung und erzeugt detaillierte Begründungen. Es erleichtert auch die Analyse des Modellverhaltens und der Datenqualität. Code und Daten sind verfügbar unter: https://github.com/PrasannaPulakurthi/X-CoT.
Reinforcement Learning with Human Feedback (RLHF) und Reinforcement Learning with Verifiable Rewards (RLVR) sind die wichtigsten RL-Paradigmen, die im Post-Training von LLMs eingesetzt werden, wobei jedes spezifische Vorteile bietet. Allerdings kämpft RLHF mit Interpretierbarkeit und Reward Hacking, da es auf menschliche Urteile angewiesen ist, denen in der Regel explizite Kriterien fehlen, während RLVR in seinem Anwendungsbereich durch den Fokus auf korrektheitsbasierte Verifizierer eingeschränkt ist. Wir schlagen Reinforcement Learning with Binary Flexible Feedback (RLBFF) vor, das die Vielseitigkeit menschlich gesteuerter Präferenzen mit der Präzision regelbasierter Verifikation kombiniert und es Belohnungsmodellen ermöglicht, nuancenreiche Aspekte der Antwortqualität über bloße Korrektheit hinaus zu erfassen. RLBFF extrahiert Prinzipien, die binär beantwortet werden können (z. B. Genauigkeit der Informationen: ja, oder Lesbarkeit des Codes: nein) aus natürlichem Sprachfeedback. Solche Prinzipien können dann verwendet werden, um das Training von Belohnungsmodellen als eine Entailment-Aufgabe zu fundieren (Antwort erfüllt oder erfüllt nicht ein beliebiges Prinzip). Wir zeigen, dass auf diese Weise trainierte Belohnungsmodelle Bradley-Terry-Modelle übertreffen können, wenn sie in Bezug auf die Daten verglichen werden, und Spitzenleistungen auf RM-Bench (86,2 %) und JudgeBench (81,4 %, Platz 1 in der Bestenliste zum 24. September 2025) erzielen. Darüber hinaus können Benutzer zum Zeitpunkt der Inferenz Prinzipien von Interesse angeben, um den Fokus unserer Belohnungsmodelle anzupassen, im Gegensatz zu Bradley-Terry-Modellen. Schließlich präsentieren wir ein vollständig quelloffenes Rezept (einschließlich Daten), um Qwen3-32B mit RLBFF und unserem Belohnungsmodell auszurichten, um die Leistung von o3-mini und DeepSeek R1 auf allgemeinen Ausrichtungs-Benchmarks wie MT-Bench, WildBench und Arena Hard v2 zu erreichen oder zu übertreffen (bei <5 % der Inferenzkosten).
Computer-Aided Design (CAD) ist ein grundlegender Bestandteil des industriellen Prototypings, bei dem Modelle nicht durch Rohkoordinaten, sondern durch Konstruktionssequenzen wie Skizzen und Extrusionen definiert werden. Diese sequenzielle Struktur ermöglicht sowohl eine effiziente Initialisierung von Prototypen als auch deren nachträgliche Bearbeitung. Textgesteuertes CAD-Prototyping, das Text-zu-CAD-Generierung und CAD-Bearbeitung vereint, hat das Potenzial, den gesamten Designprozess zu optimieren. Bisherige Arbeiten haben diesen Ansatz jedoch nicht untersucht, vor allem weil Standard-Tokenizer für große Sprachmodelle (LLMs) CAD-Sequenzen in natürliche Sprachsegmente zerlegen, wodurch die semantische Bedeutung auf Primitiv-Ebene nicht erfasst wird und die Aufmerksamkeitsmodule daran gehindert werden, geometrische Strukturen zu modellieren. Wir vermuten, dass eine multimodale Tokenisierungsstrategie, die mit der primitiven und strukturellen Natur von CAD übereinstimmt, effektivere Repräsentationen liefern kann. Zu diesem Zweck schlagen wir CAD-Tokenizer vor, ein Framework, das CAD-Daten mit modalitätsspezifischen Token repräsentiert, indem es eine sequenzbasierte VQ-VAE mit Primitiv-Ebenen-Pooling und eingeschränkter Dekodierung verwendet. Dieser Entwurf erzeugt kompakte, primitivbewusste Repräsentationen, die mit der strukturellen Natur von CAD übereinstimmen. Angewandt auf textgesteuertes CAD-Prototyping verbessert CAD-Tokenizer die Befolgung von Anweisungen und die Generierungsqualität signifikant und erzielt sowohl quantitativ als auch qualitativ bessere Ergebnisse im Vergleich zu allgemeinen LLMs und aufgabenbezogenen Baselines.
Die Lokalisierung von 3D-Objekten basierend auf einer Sequenz von Kameramessungen ist entscheidend für sicherheitsrelevante Überwachungsaufgaben, wie beispielsweise die Überwachung von Waldbränden mittels Drohnen. Die Lokalisierung von Objekten, die mit einer Kamera erfasst werden, kann typischerweise durch dichte Tiefenschätzung oder 3D-Szenenrekonstruktion gelöst werden. Im Kontext von entfernten Objekten oder Aufgaben, die durch die verfügbaren Rechenressourcen begrenzt sind, ist jedoch keine dieser Lösungen praktikabel. In diesem Artikel zeigen wir, dass die Aufgabe mithilfe von Partikelfiltern sowohl für Einzel- als auch für Mehrfachzielszenarien gelöst werden kann. Die Methode wurde anhand einer 3D-Simulation und einer drohnenbasierten Bildsegmentierungssequenz mit kamerapositionsbasierten Schätzungen des globalen Navigationssatellitensystems (GNSS) untersucht. Die Ergebnisse zeigten, dass ein Partikelfilter zur Lösung praktischer Lokalisierungsaufgaben basierend auf Kamerapositionen und Bildsegmenten in Situationen eingesetzt werden kann, in denen andere Lösungen versagen. Der Partikelfilter ist unabhängig von der Detektionsmethode, was ihn flexibel für neue Aufgaben macht. Die Studie zeigt zudem, dass die Überwachung von Waldbränden mittels Drohnen mit der vorgeschlagenen Methode in Kombination mit einem bestehenden Bildsegmentierungsmodell durchgeführt werden kann.
Funktionsaufrufe sind eine Kernfähigkeit großer Sprachmodelle und essenziell für KI-Agenten. Bestehende Benchmarks wie das Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) und ACEBench (arXiv:2501.12851) bewerten die Korrektheit von Argumenten, testen jedoch nicht die Einhaltung von Formatierungsanweisungen, die in Parameterbeschreibungen eingebettet sind, wie z. B. das Einschließen von Werten in doppelte Anführungszeichen oder die Verwendung von ISO-Datumsformaten. Wir stellen IFEval-FC vor, einen Benchmark, der von IFEval (arXiv:2311.07911) inspiriert ist und die präzise Befolgung von Anweisungen bei Funktionsaufrufen bewertet. IFEval-FC kodiert überprüfbare Formate direkt in JSON-Schema-Beschreibungen, indem beispielsweise festgelegt wird, dass ein Wert keine Satzzeichen enthalten darf. Es umfasst 750 Testfälle, die jeweils aus einer Funktion mit einem eingebetteten Format für einen ihrer Eingabeparameter und einer entsprechenden Benutzeranfrage bestehen. Die Auswertung erfolgt vollständig algorithmisch, wodurch Objektivität, Reproduzierbarkeit und Skalierbarkeit gewährleistet werden. Unsere Ergebnisse zeigen, dass selbst proprietäre Modelle auf dem neuesten Stand der Technik, einschließlich GPT-5 und Claude 4.1 Opus, häufig grundlegende Formatierungsregeln nicht einhalten, was eine praktische Einschränkung für reale Agentensysteme verdeutlicht. Der vollständige Code und die Daten sind öffentlich unter https://github.com/Skripkon/IFEval-FC verfügbar.