Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir untersuchen eine Methode zur Verbesserung der Leistung großer Sprachmodelle durch Selbstreflexion und bestärkendes Lernen. Indem wir das Modell dazu anregen, bessere Selbstreflexionen zu generieren, wenn es eine Frage falsch beantwortet, zeigen wir, dass die Fähigkeit eines Modells, komplexe, überprüfbare Aufgaben zu lösen, selbst dann verbessert werden kann, wenn die Erzeugung synthetischer Daten nicht möglich ist und nur binäres Feedback verfügbar ist. Unser Framework arbeitet in zwei Phasen: Zuerst generiert das Modell, nachdem es eine gegebene Aufgabe nicht gelöst hat, einen selbstreflexiven Kommentar, der den vorherigen Versuch analysiert; anschließend erhält das Modell einen weiteren Versuch, die Aufgabe zu lösen, wobei die Selbstreflexion im Kontext berücksichtigt wird. Wenn der nachfolgende Versuch erfolgreich ist, werden die während der Selbstreflexionsphase generierten Tokens belohnt. Unsere experimentellen Ergebnisse zeigen erhebliche Leistungssteigerungen über eine Vielzahl von Modellarchitekturen hinweg, mit Verbesserungen von bis zu 34,7 % beim Schreiben mathematischer Gleichungen und 18,1 % beim Aufrufen von Funktionen. Bemerkenswerterweise übertreffen kleinere, feinabgestimmte Modelle (1,5 bis 7 Milliarden Parameter) Modelle derselben Familie, die zehnmal größer sind. Unser neuartiges Paradigma ist somit ein vielversprechender Weg zu nützlicheren und zuverlässigeren Sprachmodellen, die sich selbst bei anspruchsvollen Aufgaben mit begrenztem externem Feedback verbessern können.
Obwohl bestehende einheitliche Modelle eine starke Leistung bei der visuell-sprachlichen Verarbeitung und der Text-zu-Bild-Generierung liefern, sind sie in der Erforschung von Bildwahrnehmungs- und Bildbearbeitungsaufgaben eingeschränkt, die dringend für breite Anwendungen benötigt werden. Kürzlich hat OpenAI sein leistungsstarkes GPT-4o-Image-Modell für umfassende Bildwahrnehmung und -bearbeitung veröffentlicht, das eine ausdrucksstarke Fähigkeit aufweist und das Interesse der Community geweckt hat. Durch die Beobachtung der Leistung von GPT-4o-Image in unseren sorgfältig konstruierten Experimenten schließen wir, dass GPT-4o-Image Merkmale nutzt, die von semantischen Encodern extrahiert werden, anstatt von VAEs, während VAEs als wesentliche Komponenten in vielen Bildbearbeitungsmodellen betrachtet werden. Motiviert durch diese inspirierenden Beobachtungen präsentieren wir ein einheitliches generatives Framework namens UniWorld, das auf semantischen Merkmalen basiert, die von leistungsstarken visuell-sprachlichen Modellen und kontrastiven semantischen Encodern bereitgestellt werden. Als Ergebnis bauen wir ein starkes einheitliches Modell mit nur 1 % der Datenmenge von BAGEL, das BAGEL auf Bildbearbeitungs-Benchmarks konsequent übertrifft. UniWorld behält auch wettbewerbsfähige Fähigkeiten in der Bildverarbeitung und -generierung bei und erzielt starke Leistungen in mehreren Bildwahrnehmungsaufgaben. Wir stellen unsere Modelle vollständig als Open Source zur Verfügung, einschließlich Modellgewichten, Trainings- und Evaluierungsskripten sowie Datensätzen.
Jüngste Fortschritte in Vision-Language-Modellen (VLMs) haben deren Fähigkeiten auf interaktive Agentenaufgaben erweitert, doch bestehende Benchmarks beschränken sich weiterhin auf Einzelagenten- oder textbasierte Umgebungen. Im Gegensatz dazu umfassen reale Szenarien oft mehrere Agenten, die in reichhaltigen visuellen und linguistischen Kontexten interagieren, was Herausforderungen sowohl bei multimodalen Beobachtungen als auch bei strategischen Interaktionen mit sich bringt. Um diese Lücke zu schließen, führen wir Visual Strategic Bench (VS-Bench) ein, einen multimodalen Benchmark, der VLMs hinsichtlich strategischer Argumentation und Entscheidungsfindung in Multi-Agenten-Umgebungen bewertet. VS-Bench umfasst acht visuell basierte Umgebungen, die kooperative, kompetitive und gemischt motivierte Interaktionen abdecken und darauf ausgelegt sind, die Fähigkeit der Agenten zu bewerten, zukünftige Handlungen anderer vorherzusagen und langfristige Ziele zu optimieren. Wir betrachten zwei komplementäre Bewertungsdimensionen, darunter die Offline-Bewertung der strategischen Argumentation anhand der Genauigkeit der nächsten Handlungsvorhersage und die Online-Bewertung der Entscheidungsfindung anhand des normalisierten Episodenergebnisses. Umfangreiche Experimente mit vierzehn führenden VLMs zeigen eine erhebliche Lücke zwischen den aktuellen Modellen und der optimalen Leistung, wobei die besten Modelle eine Vorhersagegenauigkeit von 47,8 % und einen normalisierten Ertrag von 24,3 % erreichen. Wir führen weiterhin vertiefte Analysen zu multimodalen Beobachtungen, Skalierung zur Testzeit, sozialen Verhaltensweisen und Fehlerfällen von VLM-Agenten durch. Durch die Standardisierung der Bewertung und die Hervorhebung der Grenzen bestehender Modelle sehen wir VS-Bench als Grundlage für zukünftige Forschung zu strategischen multimodalen Agenten. Code und Daten sind unter https://vs-bench.github.io verfügbar.
Vision-Language-Modelle (VLMs), die durch Reinforcement Learning mit verifizierbarer Belohnung (RLVR) trainiert werden, haben bemerkenswerte Fortschritte bei der effektiven Skalierung der Rechenleistung zur Testzeit gezeigt. In dieser Arbeit untersuchen wir, wie synthetisierte RL-Daten RLVR weiter verbessern können. Zu diesem Zweck schlagen wir SynthRL vor – eine skalierbare und garantierte Pipeline zur automatischen Datenskalierung im reasoning-orientierten RL-Training. SynthRL umfasst drei Schlüsselphasen: (1) die Auswahl von Ausgangsfragen mit geeigneter Verteilung, (2) deren Erweiterung zu anspruchsvolleren Varianten unter Beibehaltung der ursprünglichen Antworten und (3) eine garantierte Verifizierungsphase, die nahezu perfekte Korrektheit und eine Steigerung der Schwierigkeit sicherstellt. Unsere empirischen Experimente demonstrieren die Skalierbarkeit und Effektivität von SynthRL. Bei Anwendung auf den MMK12-Datensatz synthetisiert SynthRL über 3.300 zusätzliche verifizierbare, anspruchsvolle Fragen aus etwa 8.000 Ausgangsbeispielen. Modelle, die mit unseren synthetisierten Daten trainiert werden, erzielen konsistente Verbesserungen in fünf out-of-domain Benchmarks für visuelles mathematisches Reasoning, mit einer signifikanten Steigerung gegenüber Baseline-Modellen, die nur mit Ausgangsdaten trainiert wurden. Insbesondere zeigt eine detaillierte Analyse, dass die Verbesserungen bei den anspruchsvollsten Evaluierungsbeispielen deutlicher ausfallen, was die Effektivität von SynthRL bei der Förderung tieferer und komplexerer Reasoning-Muster unterstreicht.
Vision-Language Models (VLMs) haben bemerkenswerte Fortschritte im multimodalen Verständnis gezeigt, doch ihre Fähigkeiten zur wissenschaftlichen Argumentation bleiben unzureichend bewertet. Aktuelle multimodale Benchmarks bewerten hauptsächlich generelles Bildverständnis oder textgesteuerte Argumentation und mangeln an authentischen wissenschaftlichen Kontexten, die die Integration von domänenspezifischem Wissen mit der Analyse visueller Beweise erfordern. Um diese Lücke zu schließen, präsentieren wir CSVQA, einen diagnostischen multimodalen Benchmark, der speziell zur Bewertung wissenschaftlicher Argumentation durch domänenbezogenes visuelles Frage-Antworten entwickelt wurde. Unser Benchmark umfasst 1.378 sorgfältig konstruierte Frage-Antwort-Paare aus verschiedenen MINT-Disziplinen, die jeweils Domänenwissen, die Integration visueller Beweise und höhere Argumentationsfähigkeiten erfordern. Im Vergleich zu früheren multimodalen Benchmarks legt CSVQA größeren Wert auf realistische wissenschaftliche Inhalte und komplexe Argumentation. Zusätzlich schlagen wir ein rigoroses Evaluationsprotokoll vor, um systematisch zu bewerten, ob Modellvorhersagen durch gültige Zwischenschritte der Argumentation gestützt werden, basierend auf kuratierten Erklärungen. Unsere umfassende Bewertung von 15 VLMs anhand dieses Benchmarks zeigt bemerkenswerte Leistungsunterschiede, da selbst das bestplatzierte proprietäre Modell nur eine Genauigkeit von 49,6\% erreicht. Diese empirischen Belege unterstreichen den dringenden Bedarf an Fortschritten in den wissenschaftlichen Argumentationsfähigkeiten von VLMs. Unser CSVQA ist unter https://huggingface.co/datasets/Skywork/CSVQA veröffentlicht.
Eine der Hauptherausforderungen beim Aufbau von GUI-Agenten, die auf visuellen Sprachmodellen (VLM) basieren, ist die visuelle Verankerung, d.h. die Lokalisierung des geeigneten Bildschirmbereichs für die Ausführung von Aktionen basierend auf dem visuellen Inhalt und den textuellen Plänen. Die meisten bestehenden Arbeiten formulieren dies als eine textbasierte Koordinatengenerierungsaufgabe. Diese Ansätze leiden jedoch unter mehreren Einschränkungen: schwache räumlich-semantische Ausrichtung, Unfähigkeit, mehrdeutige Überwachungsziele zu handhaben, und eine Diskrepanz zwischen der dichten Natur von Bildschirmkoordinaten und der groben, patch-basierten Granularität der visuellen Merkmale, die von Modellen wie Vision Transformern extrahiert werden. In diesem Artikel schlagen wir GUI-Actor vor, eine VLM-basierte Methode für die koordinatenfreie GUI-Verankerung. Kernstück von GUI-Actor ist ein aufmerksamkeitsbasiertes Aktionsmodul, das lernt, einen dedizierten <ACTOR>-Token mit allen relevanten visuellen Patch-Tokens auszurichten, wodurch das Modell in der Lage ist, einen oder mehrere Aktionsbereiche in einem einzigen Vorwärtsdurchlauf vorzuschlagen. In diesem Zusammenhang entwerfen wir weiterhin einen Verankerungsprüfer, um den plausibelsten Aktionsbereich aus den vorgeschlagenen Kandidaten für die Aktionsausführung zu bewerten und auszuwählen. Umfangreiche Experimente zeigen, dass GUI-Actor bisherige state-of-the-art Methoden auf mehreren GUI-Aktionsverankerungs-Benchmarks übertrifft, mit verbesserter Generalisierung auf ungesehene Bildschirmauflösungen und -layouts. Bemerkenswerterweise übertrifft GUI-Actor-7B sogar UI-TARS-72B (38.1) auf ScreenSpot-Pro, mit Werten von 40.7 bei Verwendung von Qwen2-VL und 44.6 mit Qwen2.5-VL als Backbone. Darüber hinaus stellen wir fest, dass durch die Einbindung des Prüfers das Feinabstimmen nur des neu eingeführten Aktionsmoduls (~100M Parameter für das 7B-Modell) bei gleichzeitigem Einfrieren des VLM-Backbones ausreicht, um eine Leistung zu erzielen, die mit früheren state-of-the-art Modellen vergleichbar ist. Dies unterstreicht, dass GUI-Actor dem zugrunde liegenden VLM effektive Verankerungsfähigkeiten verleihen kann, ohne dessen allgemeine Stärken zu beeinträchtigen.
Räumliches Denken ist ein zentraler Aspekt der kognitiven Psychologie und bleibt ein wesentlicher Engpass für aktuelle Vision-Language-Modelle (VLMs). Während umfangreiche Forschung darauf abzielt, das Verständnis von VLMs für grundlegende räumliche Beziehungen zu bewerten oder zu verbessern, wie beispielsweise die Unterscheidung von links und rechts, nah und fern sowie das Zählen von Objekten, repräsentieren diese Aufgaben lediglich die grundlegendste Ebene des räumlichen Denkens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Denken, der in der kognitiven Psychologie verankert ist. OmniSpatial deckt vier Hauptkategorien ab: dynamisches Denken, komplexe räumliche Logik, räumliche Interaktion und Perspektivenübernahme, mit 50 fein abgestuften Unterkategorien. Durch das Crawlen von Internetdaten und sorgfältige manuelle Annotation konstruieren wir über 1.500 Frage-Antwort-Paare. Umfangreiche Experimente zeigen, dass sowohl Open-Source- als auch Closed-Source-VLMs sowie bestehende Modelle für logisches und räumliches Verständnis erhebliche Einschränkungen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren weiterhin Fehlerfälle und schlagen potenzielle Richtungen für zukünftige Forschung vor.
Aktuelle fortschrittliche große Denkmodelle (Large Reasoning Models, LRMs) nutzen erweiterte Ketten von Gedanken (Chain-of-Thought, CoT), um komplexe Aufgaben zu lösen und dabei Spitzenleistungen zu erzielen. Trotz ihres Erfolgs identifizieren wir ein kritisches Problem: Ein erheblicher Teil der einfachen Aufgaben, die von LRMs gelöst werden, kann auch von nicht-reasoning LLMs (Large Language Models) mit deutlich weniger Tokens bewältigt werden, was darauf hindeutet, dass komplexes Denken nicht immer notwendig ist. Um dies zu adressieren, analysieren wir systematisch die Denkpfade von LRMs und stellen eine Methode vor, die identifizierte Paradigmen und LLM-Judge nutzt, um diese Pfade als entweder Redundantes Denken oder Essenzielles Denken zu klassifizieren. Zudem führen wir OThink-R1 ein, eine Methode, die redundante Denkschritte entfernt, während die logische Gültigkeit erhalten bleibt. OThink-R1 setzt dynamisch den Nicht-Denk-Modus (schnelles Denken) für einfache Probleme ein, während es für komplexe Probleme bewusstes Denken (langsames Denken) aktiviert. Experimente in mathematischen und Frage-Antwort-Aufgaben zeigen, dass OThink-R1 die Redundanz im Denken im Durchschnitt um fast 23 % reduziert, ohne die Genauigkeit zu beeinträchtigen, und bietet praktische Leitlinien für effiziente Denkmodelle. Der Code ist verfügbar unter https://github.com/AgenticIR-Lab/OThink-R1.
Multimodale Large Language Models (MLLMs) haben in den letzten Jahren eine rasante Entwicklung erfahren. Im Finanzbereich besteht jedoch ein bemerkenswerter Mangel an effektiven und spezialisierten multimodalen Evaluierungsdatensätzen. Um die Entwicklung von MLLMs im Finanzbereich voranzutreiben, stellen wir FinMME vor, das mehr als 11.000 hochwertige Finanzforschungsproben aus 18 Finanzbereichen und 6 Anlageklassen umfasst und 10 Haupttypen sowie 21 Untertypen von Diagrammen beinhaltet. Wir sichern die Datenqualität durch 20 Annotatoren und sorgfältig gestaltete Validierungsmechanismen. Zudem entwickeln wir FinScore, ein Bewertungssystem, das Halluzinationsstrafen und mehrdimensionale Fähigkeitsbewertungen integriert, um eine unvoreingenommene Bewertung zu ermöglichen. Umfangreiche experimentelle Ergebnisse zeigen, dass selbst state-of-the-art Modelle wie GPT-4o auf FinMME unbefriedigende Leistungen erbringen, was dessen anspruchsvolle Natur unterstreicht. Der Benchmark weist eine hohe Robustheit auf, wobei die Vorhersagevariationen unter verschiedenen Prompts unter 1 % bleiben, was eine überlegene Zuverlässigkeit im Vergleich zu bestehenden Datensätzen demonstriert. Unser Datensatz und das Evaluierungsprotokoll sind verfügbar unter https://huggingface.co/datasets/luojunyu/FinMME und https://github.com/luo-junyu/FinMME.
Die bemerkenswerten Fortschritte von Multimodalen Großen Sprachmodellen (MLLMs) haben zunehmend Aufmerksamkeit darauf gelenkt, diese auf physische Entitäten wie Laufroboter zu erweitern. Dies erfordert typischerweise, dass MLLMs nicht nur multimodale Verständnisfähigkeiten erlangen, sondern auch visuell-räumliches Denken und Fähigkeiten zur physischen Interaktion integrieren. Dennoch haben bestehende Methoden Schwierigkeiten, diese Fähigkeiten aufgrund ihrer grundlegenden Unterschiede zu vereinheitlichen. In diesem Artikel stellen wir das Visuelle Verkörperte Gehirn (VeBrain) vor, ein einheitliches Framework für Wahrnehmung, Denken und Steuerung in der realen Welt. VeBrain formuliert die Robotersteuerung in gängige textbasierte MLLM-Aufgaben im 2D-Visualraum um und vereinheitlicht so die Ziele und Abbildungsräume verschiedener Aufgaben. Anschließend wird ein neuartiger Roboter-Adapter vorgeschlagen, um textbasierte Steuersignale von MLLMs in Bewegungsrichtlinien für echte Roboter umzuwandeln. Aus der Datenperspektive führen wir weiterhin VeBrain-600k ein, einen hochwertigen Instruktionsdatensatz, der verschiedene Fähigkeiten von VeBrain umfasst. In VeBrain-600k haben wir hunderte Stunden darauf verwendet, die Daten zu sammeln, zu kuratieren und zu annotieren, und haben multimodale Ketten des Denkens (CoT) verwendet, um die verschiedenen Fähigkeiten in eine einzige Konversation zu integrieren. Umfangreiche Experimente auf 13 multimodalen Benchmarks und 5 räumlichen Intelligenz-Benchmarks demonstrieren die überlegene Leistung von VeBrain im Vergleich zu bestehenden MLLMs wie Qwen2.5-VL. Bei der Implementierung auf Laufrobotern und Roboterarmen zeigt VeBrain im Vergleich zu bestehenden Methoden starke Anpassungsfähigkeit, Flexibilität und kompositionelle Fähigkeiten. Beispielsweise erzielt VeBrain im Vergleich zu Qwen2.5-VL nicht nur erhebliche Verbesserungen auf MMVet um +5,6 %, sondern übertrifft auch in Aufgaben mit Laufrobotern mit durchschnittlichen Gewinnen von +50 %.
Diffusions-LLMs haben sich als vielversprechende Alternative zu konventionellen autoregressiven LLMs erwiesen und bieten ein erhebliches Potenzial für verbesserte Laufzeiteffizienz. Allerdings fehlt es bestehenden Diffusionsmodellen an der Fähigkeit, vom Benutzer spezifizierte formale Einschränkungen, wie reguläre Ausdrücke, nachweislich durchzusetzen, was sie für Aufgaben, die strukturierte Ausgaben erfordern, wie z. B. die Generierung von JSON mit festem Schema, unzuverlässig macht. Im Gegensatz zu autoregressiven Modellen, die Token sequenziell generieren, sagen Diffusions-LLMs einen Block von Token parallel vorher. Dieser Parallelismus macht traditionelle Algorithmen für eingeschränkte Dekodierung, die für die sequenzielle Token-Vorhersage entwickelt wurden, unwirksam bei der Bewahrung der wahren Ausgabeverteilung. Um diese Einschränkung zu überwinden, schlagen wir DINGO vor, eine auf dynamischer Programmierung basierende Strategie für eingeschränkte Dekodierung, die sowohl effizient als auch nachweislich verteilungserhaltend ist. DINGO ermöglicht die Stichprobenziehung von Ausgabezeichenfolgen mit der höchsten Wahrscheinlichkeit unter der vom Modell vorhergesagten Verteilung, während gleichzeitig alle vom Benutzer spezifizierten regulären Ausdrücke strikt erfüllt werden. Bei standardisierten Benchmarks für symbolische Mathematik und JSON-Generierung erreicht DINGO eine Verbesserung von bis zu 68 Prozentpunkten gegenüber unbegrenzter Inferenz.
Große Vision-Sprach-Modelle (Large Vision-Language Models, LVLMs) haben kürzlich großes Potenzial gezeigt, um die Robotik voranzutreiben, indem sie verkörpertes Denken mit der Robotersteuerung kombinieren. Ein gängiger Ansatz besteht darin, Modelle an verkörperten Denkaufgaben im Zusammenhang mit der Robotersteuerung mittels Supervised Fine-Tuning (SFT) zu trainieren. Allerdings werden SFT-Datensätze oft heuristisch konstruiert und nicht explizit für die Verbesserung der Robotersteuerung optimiert. Darüber hinaus führt SFT häufig zu Problemen wie katastrophalem Vergessen und reduzierter Generalisierungsleistung. Um diese Einschränkungen zu überwinden, stellen wir Robot-R1 vor, ein neuartiges Framework, das Verstärkungslernen nutzt, um verkörpertes Denken speziell für die Robotersteuerung zu verbessern. Robot-R1 lernt, den nächsten Schlüsselpunktzustand vorherzusagen, der zur Aufgabenbewältigung erforderlich ist, basierend auf dem aktuellen Szenenbild und Umgebungsmetadaten, die aus Experten-Demonstrationen abgeleitet werden. Inspiriert vom DeepSeek-R1-Lernansatz, generiert Robot-R1 denkbasierte Antworten und verstärkt solche, die zu genaueren Vorhersagen führen. Unsere Experimente zeigen, dass mit Robot-R1 trainierte Modelle SFT-Methoden bei verkörperten Denkaufgaben übertreffen. Trotz nur 7B Parametern übertrifft Robot-R1 sogar GPT-4o bei Denkaufgaben im Zusammenhang mit der Steuerung von Low-Level-Aktionen, wie z. B. räumlichem und primitivem Bewegungsdenken.
Während Diffusion Transformer (DiTs) Durchbrüche in der Videogenerierung erzielt haben, bleibt diese Aufgabe der langen Sequenzgenerierung durch die quadratische Komplexität von Aufmerksamkeitsmechanismen eingeschränkt, was zu erheblicher Inferenzlatenz führt. Durch eine detaillierte Analyse der Aufmerksamkeitskarten in Video Diffusion Transformer (vDiT) identifizieren wir drei wiederkehrende Sparsamkeitsmuster: diagonale, multi-diagonale und vertikal-streifige Strukturen. Selbst 3-6\% der Aufmerksamkeitsköpfe können übersprungen werden. Entscheidend ist, dass diese Muster starke Korrelationen mit der Schichttiefe und der Kopfposition aufweisen, aber nur begrenzt vom Eingabeinhalt abhängen. Basierend auf diesen Erkenntnissen schlagen wir Sparse-vDiT vor, ein Sparsamkeitsbeschleunigungsframework für vDiT, das Folgendes umfasst: 1) Musteroptimierte spärliche Kernel, die die dichte Aufmerksamkeit durch recheneffiziente Implementierungen für jedes identifizierte Sparsamkeitsmuster ersetzen. 2) Ein offline spärlicher Diffusionssuchalgorithmus, der die optimale spärliche Berechnungsstrategie pro Schicht und Kopf über hardwarebewusste Kostenmodellierung auswählt. Nach der Bestimmung der optimalen Konfiguration fusionieren wir Köpfe innerhalb derselben Schicht, die dieselbe Aufmerksamkeitsstrategie teilen, um die Inferenzeffizienz zu steigern. In state-of-the-art vDiT-Modellen (CogVideoX1.5, HunyuanVideo und Wan2.1) integriert, erreicht Sparse-vDiT eine theoretische FLOP-Reduktion um das 2,09-fache, 2,38-fache und 1,67-fache sowie tatsächliche Inferenzbeschleunigungen um das 1,76-fache, 1,85-fache und 1,58-fache, während eine hohe visuelle Qualität mit PSNR-Werten von 24,13, 27,09 und 22,59 erhalten bleibt. Unsere Arbeit zeigt, dass latente strukturelle Sparsamkeit in vDiTs systematisch für die Synthese langer Videos genutzt werden kann.
Trotz Fortschritten bei Multimodalen Großen Sprachmodellen (MLLMs) bleibt ihre Fähigkeit zum feinkörnigen Verständnis von Videobewegungen kritisch eingeschränkt. Oft fehlt ihnen die Differenzierung zwischen Bildern, und sie neigen dazu, subtile visuelle Hinweise zu mitteln oder zu ignorieren. Darüber hinaus hat sich visuelles Prompting zwar bei statischen Bildern als vielversprechend erwiesen, seine Anwendung auf die zeitlichen Komplexitäten von Videos, insbesondere für das feinkörnige Verständnis von Bewegung, ist jedoch weitgehend unerforscht. Wir untersuchen, ob inhärente Fähigkeiten freigesetzt werden können, um die Bewegungswahrnehmung von MLLMs zu verbessern und spezifische visuelle Signaturen zu ermöglichen, die dazu dienen, Objekt- und Kamerabewegungshinweise zu entkoppeln. In dieser Studie stellen wir MotionSight vor, eine neuartige Zero-Shot-Methode, die objektzentrierte visuelle Spotlight- und Bewegungsunschärfe als visuelle Prompts nutzt, um das feinkörnige Bewegungsverständnis effektiv ohne Training zu verbessern. Um dies in wertvolle Datenbestände umzuwandeln, haben wir MotionVid-QA kuratiert, den ersten groß angelegten Datensatz für das feinkörnige Verständnis von Videobewegungen, mit hierarchischen Annotationen, einschließlich SFT- und Präferenzdaten, {\Theta}(40K) Videoclips und {\Theta}(87K) Fragen und Antworten (QAs). Experimente zeigen, dass MotionSight state-of-the-art Open-Source-Leistungen erreicht und mit kommerziellen Modellen wettbewerbsfähig ist. Insbesondere für das feinkörnige Bewegungsverständnis präsentieren wir eine neuartige Zero-Shot-Technik und einen groß angelegten, hochwertigen Datensatz. Der gesamte Code und die Annotationen werden öffentlich zugänglich sein.
Wir präsentieren Subject Fidelity Optimization (SFO), ein neuartiges vergleichendes Lernframework für die null-Shot-subjektgesteuerte Generierung, das die Subjekttreue verbessert. Im Gegensatz zu überwachten Feinabstimmungsmethoden, die sich ausschließlich auf positive Ziele verlassen und den Diffusionsverlust wie in der Vorabtrainingsphase verwenden, führt SFO synthetische negative Ziele ein und leitet das Modell explizit an, positive gegenüber negativen Zielen durch paarweisen Vergleich zu bevorzugen. Für negative Ziele schlagen wir Condition-Degradation Negative Sampling (CDNS) vor, das automatisch unterscheidbare und informative Negative erzeugt, indem visuelle und textuelle Hinweise absichtlich verschlechtert werden, ohne kostspielige menschliche Annotationen. Darüber hinaus gewichten wir die Diffusionszeitpunkte neu, um die Feinabstimmung auf Zwischenschritte zu konzentrieren, in denen Subjektdetails entstehen. Umfangreiche Experimente zeigen, dass SFO mit CDNS die Baselines sowohl in Bezug auf die Subjekttreue als auch auf die Textausrichtung auf einem Benchmark für subjektgesteuerte Generierung deutlich übertrifft. Projektseite: https://subjectfidelityoptimization.github.io/
Wir stellen CURE vor, ein neuartiges Reinforcement-Learning-Framework mit einem speziellen Reward-Design, das die Fähigkeiten zur Code- und Unit-Test-Generierung basierend auf ihren Interaktionsergebnissen ko-evolviert, ohne dabei auf Ground-Truth-Code als Supervision angewiesen zu sein. Dieser Ansatz ermöglicht ein flexibles und skalierbares Training und erlaubt es dem Unit-Tester, direkt aus den Fehlern des Coders zu lernen. Unsere abgeleiteten ReasonFlux-Coder-7B- und 14B-Modelle verbessern die Code-Generierungsgenauigkeit um 5,3 % und die Best-of-N-Genauigkeit um 9,0 % nach der Optimierung auf Qwen2.5-Instruct-Modellen und übertreffen damit ähnlich große Modelle wie Qwen-Coder, DeepSeek-Coder und Seed-Coder. Sie lassen sich natürlich auf nachgelagerte Aufgaben wie Test-Time-Scaling und agentenbasiertes Codieren erweitern – mit einer Verbesserung von 8,1 % gegenüber dem Basismodell. Beim Long-CoT-Modell übertrifft unser ReasonFlux-Coder-4B durchgehend Qwen3-4B und erreicht dabei eine Inferenzeffizienz von 64,8 % bei der Unit-Test-Generierung. Bemerkenswerterweise stellen wir auch fest, dass unser Modell als effektives Reward-Modell für Reinforcement-Learning auf Basismodellen dienen kann. Projekt: https://github.com/Gen-Verse/CURE
Jüngste Fortschritte bei KI-generierten Inhalten (AIGC) haben die Animationproduktion erheblich beschleunigt. Um ansprechende Animationen zu erstellen, ist es entscheidend, kohärente Mehrfach-Szenen-Videoclips mit narrativen Skripten und Charakterreferenzen zu generieren. Bisher konzentrieren sich öffentlich verfügbare Datensätze jedoch hauptsächlich auf reale Szenarien mit globalen Beschreibungen und bieten keine Referenzbilder für eine konsistente Charakterführung. Um diese Lücke zu schließen, präsentieren wir AnimeShooter, einen referenzgesteuerten Mehrfach-Szenen-Animation-Datensatz. AnimeShooter zeichnet sich durch umfassende hierarchische Annotationen und eine starke visuelle Konsistenz über Szenen hinweg durch einen automatisierten Prozess aus. Story-Level-Annotationen bieten einen Überblick über die Erzählung, einschließlich der Handlung, Schlüsselszenen und Hauptcharakterprofile mit Referenzbildern, während Shot-Level-Annotationen die Geschichte in aufeinanderfolgende Szenen zerlegen, die jeweils mit Szene, Charakteren sowie narrativen und beschreibenden visuellen Beschriftungen annotiert sind. Zusätzlich bietet ein spezieller Subset, AnimeShooter-audio, synchronisierte Audiospuren für jede Szene sowie Audiobeschreibungen und Soundquellen. Um die Effektivität von AnimeShooter zu demonstrieren und eine Baseline für die referenzgesteuerte Mehrfach-Szenen-Videogenerierung zu etablieren, führen wir AnimeShooterGen ein, das Multimodale Große Sprachmodelle (MLLMs) und Video-Diffusionsmodelle nutzt. Das Referenzbild und zuvor generierte Szenen werden zunächst von MLLM verarbeitet, um repräsentationsfähige Informationen zu erzeugen, die sowohl die Referenz als auch den Kontext berücksichtigen. Diese werden dann als Bedingung für das Diffusionsmodell verwendet, um die nachfolgende Szene zu dekodieren. Experimentelle Ergebnisse zeigen, dass das auf AnimeShooter trainierte Modell eine überlegene visuelle Konsistenz über Szenen hinweg und eine hohe Übereinstimmung mit der visuellen Referenzführung erreicht, was den Wert unseres Datensatzes für die kohärente animierte Videogenerierung unterstreicht.
Wir stellen die native Auflösungsbildsynthese vor, ein neuartiges Paradigma der generativen Modellierung, das die Synthese von Bildern in beliebigen Auflösungen und Seitenverhältnissen ermöglicht. Dieser Ansatz überwindet die Einschränkungen herkömmlicher Methoden mit festen Auflösungen und quadratischen Bildern, indem er nativ mit variablen visuellen Tokens umgeht, einer zentralen Herausforderung für traditionelle Techniken. Zu diesem Zweck führen wir den Native-resolution Diffusion Transformer (NiT) ein, eine Architektur, die explizit darauf ausgelegt ist, unterschiedliche Auflösungen und Seitenverhältnisse innerhalb ihres Denoising-Prozesses zu modellieren. Frei von den Beschränkungen fester Formate lernt NiT intrinsische visuelle Verteilungen aus Bildern, die eine breite Palette von Auflösungen und Seitenverhältnissen abdecken. Bemerkenswerterweise erreicht ein einzelnes NiT-Modell gleichzeitig die state-of-the-art Leistung auf den Benchmarks ImageNet-256x256 und 512x512. Überraschenderweise zeigt NiT, ähnlich wie die robusten Zero-Shot-Fähigkeiten fortschrittlicher großer Sprachmodelle, eine hervorragende Zero-Shot-Generalisierungsleistung, obwohl es ausschließlich auf ImageNet trainiert wurde. Es generiert erfolgreich hochauflösende Bilder in zuvor ungesehenen hohen Auflösungen (z. B. 1536 x 1536) und vielfältigen Seitenverhältnissen (z. B. 16:9, 3:1, 4:3), wie in Abbildung 1 dargestellt. Diese Ergebnisse deuten auf das erhebliche Potenzial der nativen Auflösungsmodellierung als Brücke zwischen visueller generativer Modellierung und fortgeschrittenen LLM-Methodologien hin.
Die Erzeugung langer Videos hat aufgrund ihrer weit verbreiteten Anwendungen in Bereichen wie Unterhaltung und Simulation zunehmend an Bedeutung gewonnen. Trotz Fortschritten bleibt die Synthese zeitlich kohärenter und visuell ansprechender langer Sequenzen eine große Herausforderung. Herkömmliche Ansätze erzeugen lange Videos oft durch sequenzielle Generierung und Verkettung kurzer Clips oder durch die Generierung von Schlüsselbildern und anschließende Interpolation der Zwischenbilder in hierarchischer Weise. Beide Ansätze bergen jedoch weiterhin erhebliche Herausforderungen, die zu Problemen wie zeitlicher Wiederholung oder unnatürlichen Übergängen führen. In diesem Beitrag untersuchen wir den hierarchischen Prozess zur Erzeugung langer Videos erneut und stellen LumosFlow vor, ein Framework, das explizit Bewegungsführung einführt. Konkret verwenden wir zunächst das Large Motion Text-to-Video Diffusion Model (LMTV-DM), um Schlüsselbilder mit größeren Bewegungsintervallen zu generieren und so die Inhaltsvielfalt in den erzeugten langen Videos sicherzustellen. Angesichts der Komplexität der Interpolation kontextueller Übergänge zwischen Schlüsselbildern zerlegen wir die Interpolation der Zwischenbilder weiter in Bewegungsgenerierung und nachträgliche Verfeinerung. Für jedes Paar von Schlüsselbildern synthetisiert das Latent Optical Flow Diffusion Model (LOF-DM) komplexe und großräumige optische Flüsse, während MotionControlNet anschließend die verzerrten Ergebnisse verfeinert, um die Qualität zu verbessern und die Generierung der Zwischenbilder zu steuern. Im Vergleich zur traditionellen Video-Interpolation erreichen wir eine 15-fache Interpolation und gewährleisten so eine sinnvolle und kontinuierliche Bewegung zwischen benachbarten Bildern. Experimente zeigen, dass unsere Methode lange Videos mit konsistenter Bewegung und Erscheinung erzeugen kann. Code und Modelle werden nach der Annahme öffentlich zugänglich gemacht. Unsere Projektseite: https://jiahaochen1.github.io/LumosFlow/
Inspiriert vom In-Context-Learning-Mechanismus großer Sprachmodelle (LLMs) entsteht ein neues Paradigma für generalisierbare, visuelle prompt-basierte Bildbearbeitung. Bestehende Single-Reference-Methoden konzentrieren sich typischerweise auf Stil- oder Erscheinungsanpassungen und haben Schwierigkeiten mit nicht-starren Transformationen. Um diese Einschränkungen zu überwinden, schlagen wir vor, Quell-Ziel-Bildpaare zu nutzen, um inhaltsbewusste Bearbeitungsabsichten zu extrahieren und auf neue Anfragebilder zu übertragen. Zu diesem Zweck führen wir RelationAdapter ein, ein leichtgewichtiges Modul, das Diffusion-Transformer (DiT)-basierte Modelle befähigt, visuelle Transformationen aus minimalen Beispielen effektiv zu erfassen und anzuwenden. Zudem stellen wir Relation252K vor, einen umfassenden Datensatz, der 218 verschiedene Bearbeitungsaufgaben umfasst, um die Modellgeneralisierung und Anpassungsfähigkeit in visuellen prompt-gesteuerten Szenarien zu bewerten. Experimente auf Relation252K zeigen, dass RelationAdapter die Fähigkeit des Modells, Bearbeitungsabsichten zu verstehen und zu übertragen, signifikant verbessert, was zu bemerkenswerten Fortschritten in der Generierungsqualität und der Gesamtleistung der Bearbeitung führt.
Diffusionsmodelle haben bemerkenswerte Ergebnisse in der Videosynthese erzielt, erfordern jedoch iterative Denoising-Schritte, was zu einem erheblichen Rechenaufwand führt. Konsistenzmodelle haben bedeutende Fortschritte bei der Beschleunigung von Diffusionsmodellen gemacht. Die direkte Anwendung auf Video-Diffusionsmodelle führt jedoch oft zu einer erheblichen Verschlechterung der zeitlichen Konsistenz und der Erscheinungsdetails. In dieser Arbeit analysieren wir die Trainingsdynamik von Konsistenzmodellen und identifizieren einen zentralen Konflikt in der Lern dynamik während des Destillationsprozesses: Es gibt eine erhebliche Diskrepanz in den Optimierungsgradienten und den Verlustbeiträgen über verschiedene Zeitschritte hinweg. Diese Diskrepanz verhindert, dass das destillierte Schülermodell einen optimalen Zustand erreicht, was zu einer beeinträchtigten zeitlichen Konsistenz und einer Verschlechterung der Erscheinungsdetails führt. Um dieses Problem zu lösen, schlagen wir ein parameter effizientes Dual-Expert-Konsistenzmodell (DCM) vor, bei dem ein semantischer Experte sich auf das Lernen von semantischer Anordnung und Bewegung konzentriert, während ein Detail-Experte sich auf die Verfeinerung feiner Details spezialisiert. Darüber hinaus führen wir den Temporal Coherence Loss ein, um die Bewegungskonsistenz für den semantischen Experten zu verbessern, und wenden GAN- und Feature-Matching-Loss an, um die Synthesequalität des Detail-Experten zu steigern. Unser Ansatz erreicht eine erstklassige visuelle Qualität bei deutlich reduzierten Sampling-Schritten und demonstriert die Wirksamkeit der Experten-Spezialisierung in der Destillation von Video-Diffusionsmodellen. Unser Code und unsere Modelle sind verfügbar unter https://github.com/Vchitect/DCM{https://github.com/Vchitect/DCM}.
Text-to-Video-Diffusionsmodelle sind bekanntlich in ihrer Fähigkeit eingeschränkt, zeitliche Aspekte wie Bewegung, Physik und dynamische Interaktionen zu modellieren. Bestehende Ansätze adressieren diese Einschränkung, indem sie das Modell neu trainieren oder externe Konditionierungssignale einführen, um zeitliche Konsistenz zu erzwingen. In dieser Arbeit untersuchen wir, ob eine sinnvolle zeitliche Repräsentation direkt aus den Vorhersagen eines vortrainierten Modells extrahiert werden kann, ohne zusätzliches Training oder Hilfseingaben. Wir stellen FlowMo vor, eine neuartige, trainingsfreie Leitmethode, die die Bewegungskohärenz allein durch die eigenen Vorhersagen des Modells in jedem Diffusionsschritt verbessert. FlowMo leitet zunächst eine erscheinungsentlastete zeitliche Repräsentation ab, indem es den Abstand zwischen Latents, die aufeinanderfolgenden Frames entsprechen, misst. Dadurch wird die implizite zeitliche Struktur, die das Modell vorhersagt, hervorgehoben. Anschließend schätzt es die Bewegungskohärenz, indem es die patchweise Varianz über die zeitliche Dimension misst, und leitet das Modell an, diese Varianz während des Samplings dynamisch zu reduzieren. Umfangreiche Experimente mit mehreren Text-to-Video-Modellen zeigen, dass FlowMo die Bewegungskohärenz signifikant verbessert, ohne die visuelle Qualität oder die Prompt-Ausrichtung zu beeinträchtigen, und bietet somit eine effektive Plug-and-Play-Lösung zur Verbesserung der zeitlichen Treue vortrainierter Video-Diffusionsmodelle.
Hochwertige Datensätze sind grundlegend für das Training und die Bewertung von maschinellen Lernmodellen, doch ihre Erstellung – insbesondere mit präzisen menschlichen Annotationen – bleibt eine erhebliche Herausforderung. Viele Einreichungen von Datensatzpapers mangelt es an Originalität, Vielfalt oder strenger Qualitätskontrolle, und diese Mängel werden oft während des Peer-Review-Prozesses übersehen. Einreichungen lassen zudem häufig wesentliche Details zur Konstruktion und den Eigenschaften der Datensätze aus. Obwohl bestehende Tools wie Datasheets darauf abzielen, Transparenz zu fördern, sind sie weitgehend deskriptiv und bieten keine standardisierten, messbaren Methoden zur Bewertung der Datenqualität. Ebenso fördern Metadatenanforderungen auf Konferenzen die Rechenschaftspflicht, werden jedoch inkonsequent durchgesetzt. Um diese Einschränkungen zu adressieren, plädiert dieses Positionspapier für die Integration systematischer, kriterienbasierter Bewertungsmetriken in den Datensatz-Review-Prozess – insbesondere angesichts der weiter steigenden Einreichungszahlen. Wir untersuchen auch skalierbare, kosteneffiziente Methoden zur synthetischen Datengenerierung, einschließlich spezialisierter Tools und LLM-as-a-Judge-Ansätze, um eine effizientere Bewertung zu unterstützen. Als Aufruf zum Handeln stellen wir DataRubrics vor, ein strukturiertes Framework zur Bewertung der Qualität sowohl menschlich als auch modellgenerierter Datensätze. Durch die Nutzung jüngster Fortschritte in der LLM-basierten Bewertung bietet DataRubrics eine reproduzierbare, skalierbare und umsetzbare Lösung für die Bewertung der Datensatzqualität, die es sowohl Autoren als auch Gutachtern ermöglicht, höhere Standards in der datenzentrierten Forschung einzuhalten. Wir veröffentlichen zudem Code zur Unterstützung der Reproduzierbarkeit von LLM-basierten Bewertungen unter https://github.com/datarubrics/datarubrics.
Video-Diffusionstechniken haben in den letzten Jahren erhebliche Fortschritte gemacht; jedoch haben sie Schwierigkeiten, realistische Darstellungen von Autounfällen zu erzeugen, da Unfallereignisse in den meisten Fahrzeugdatensätzen nur selten vorkommen. Die Verbesserung der Verkehrssicherheit erfordert realistische und steuerbare Unfallsimulationen. Um dieses Problem zu lösen, schlagen wir Ctrl-Crash vor, ein steuerbares Modell zur Generierung von Autounfallvideos, das auf Signale wie Begrenzungsrahmen, Unfalltypen und ein initiales Bildframe konditioniert. Unser Ansatz ermöglicht die Generierung kontrafaktischer Szenarien, bei denen geringfügige Variationen in den Eingaben zu dramatisch unterschiedlichen Unfallergebnissen führen können. Um eine fein abgestimmte Steuerung zur Inferenzzeit zu unterstützen, nutzen wir eine klassifikatorfreie Führung mit unabhängig einstellbaren Skalen für jedes Konditionierungssignal. Ctrl-Crash erreicht Spitzenleistungen in quantitativen Videoqualitätsmetriken (z. B. FVD und JEDi) sowie in qualitativen Messungen, die auf einer menschlichen Bewertung des physikalischen Realismus und der Videoqualität im Vergleich zu früheren Diffusions-basierten Methoden basieren.
Die Codegenerierung mit großen Sprachmodellen (LLMs), oft auch als "Vibe Coding" bezeichnet, wird zunehmend in der Produktion eingesetzt, gewährleistet jedoch keine Codequalität, insbesondere in Bezug auf Sicherheit (z. B. SQL-Injection-Schwachstellen) und Wartbarkeit (z. B. fehlende Typannotationen). Bestehende Methoden, wie überwachtes Feinabstimmen und regelbasierte Nachbearbeitung, stützen sich auf arbeitsintensive Annotationen oder fragwürdige Heuristiken, was ihre Skalierbarkeit und Effektivität einschränkt. Wir schlagen REAL vor, ein Reinforcement-Learning-Framework, das LLMs dazu anregt, produktionsreifen Code mithilfe von programmanalysengeleitetem Feedback zu generieren. Konkret integriert REAL zwei automatisierte Signale: (1) Programmanalyse, die Sicherheits- oder Wartbarkeitsmängel erkennt, und (2) Unit-Tests, die die funktionale Korrektheit sicherstellen. Im Gegensatz zu früheren Arbeiten ist unser Framework prompt-agnostisch und referenzfrei, was eine skalierbare Überwachung ohne manuellen Eingriff ermöglicht. Experimente über mehrere Datensätze und Modellgrößen hinweg zeigen, dass REAL bei gleichzeitiger Bewertung von Funktionalität und Codequalität state-of-the-art-Methoden übertrifft. Unsere Arbeit schließt die Lücke zwischen schnellem Prototyping und produktionsreifem Code und ermöglicht es LLMs, sowohl Geschwindigkeit als auch Qualität zu liefern.
Knowledge Distillation (KD) ist ein weit verbreitetes Framework, das kompakte, aufgaben-spezifische Modelle durch die Nutzung des Wissens von Lehrer-Modellen trainiert. Seine Anwendung auf Active Learning (AL), das darauf abzielt, Annotationkosten durch iterative Stichprobenauswahl zu minimieren, bleibt jedoch weitgehend unerforscht. Diese Lücke ergibt sich aus der Tatsache, dass KD typischerweise den Zugriff auf ausreichend gelabelte Daten voraussetzt, während AL in datenarmen Szenarien operiert, in denen aufgaben-spezifische Lehrer-Modelle oft nicht verfügbar sind. In diesem Artikel stellen wir ActiveKD vor, ein Framework, das AL mit KD integriert, indem es die Zero- und Few-Shot-Fähigkeiten großer Vision-Language-Modelle (VLMs) nutzt. Ein zentraler Aspekt von ActiveKD ist die strukturierte Vorhersageverzerrung von VLMs – d.h., ihre Vorhersagen bilden Cluster im Wahrscheinlichkeitsraum. Wir betrachten diese Struktur als einen induktiven Bias des Lehrer-Modells, der generalisierbare Ausgabemuster erfasst, die für das Lernen des Schülers vorteilhaft sind. Um diesen Bias zu nutzen, schlagen wir Probabilistic CoreSet (PCoreSet) vor, eine Auswahlstrategie, die die Abdeckung im Wahrscheinlichkeitsraum anstelle des Merkmalsraums maximiert. PCoreSet wählt strategisch kategorial diverse ungelabelte Stichproben aus und ermöglicht so einen effizienteren Transfer des Lehrerwissens unter begrenzten Annotationbudgets. Evaluierungen auf 11 Datensätzen zeigen, dass PCoreSet bestehende Auswahlmethoden innerhalb des ActiveKD-Frameworks konsequent übertrifft und die Forschung an der Schnittstelle von AL und KD vorantreibt.
Große Sprachmodelle werden zunehmend zur Grundlage für intelligente Agenten, die in der Lage sind, Werkzeuge zu nutzen. Die Ausbildung solcher Agenten ist jedoch eine Herausforderung, da sie die menschliche Erstellung und Annotation einer Vielzahl von Aufgaben, Werkzeugen und Bewertungskriterien erfordert. In diesem Artikel schlagen wir das Self-Challenging-Framework vor, um einen Agenten an hochwertigen Aufgaben zu trainieren, die er selbst generiert. Der Agent übernimmt zunächst die Rolle des Herausforderers und erstellt eine Aufgabe nach der Interaktion mit den gegebenen Werkzeugen. Die Aufgaben nehmen die Form einer neuartigen allgemeinen Problemklasse an, die als Code-as-Task bezeichnet wird und durch eine Anweisung, eine Verifizierungsfunktion sowie Lösungs- und Fehlerfälle definiert ist, die als Tests dienen und es ermöglichen, nur hochwertige Aufgaben zu filtern. Anschließend übernimmt der Agent die Rolle des Ausführers und trainiert an diesen Aufgaben mit Verstärkungslernen, wobei das Bewertungsfeedback als Belohnung dient. Die Evaluierung auf zwei bestehenden Benchmarks für mehrstufige Werkzeugnutzung, M3ToolEval und TauBench, zeigt, dass das Self-Challenging-Framework eine mehr als zweifache Verbesserung in Llama-3.1-8B-Instruct erreicht, obwohl nur selbstgenerierte Trainingsdaten verwendet werden.
Wir stellen MoCA-Video (Motion-Aware Concept Alignment in Video) vor, ein trainingsfreies Framework, das die Lücke zwischen semantischem Mischen im Bildbereich und Video schließt. Gegeben ein generiertes Video und ein vom Benutzer bereitgestelltes Referenzbild, injiziert MoCA-Video die semantischen Merkmale des Referenzbildes in ein spezifisches Objekt innerhalb des Videos, während die ursprüngliche Bewegung und der visuelle Kontext erhalten bleiben. Unser Ansatz nutzt einen diagonalen Entrauschungsplan und klassenagnostische Segmentierung, um Objekte im latenten Raum zu erkennen und zu verfolgen und die räumliche Position der gemischten Objekte präzise zu steuern. Um zeitliche Kohärenz zu gewährleisten, integrieren wir momentum-basierte semantische Korrekturen und Gamma-Restrauschstabilisierung für flüssige Übergänge zwischen den Bildern. Wir bewerten die Leistung von MoCA mit den Standardmetriken SSIM, bildbasiertem LPIPS, temporalem LPIPS und führen eine neue Metrik CASS (Conceptual Alignment Shift Score) ein, um die Konsistenz und Effektivität der visuellen Verschiebungen zwischen dem Quell-Prompt und den modifizierten Videobildern zu bewerten. Mit einem selbst erstellten Datensatz übertrifft MoCA-Video aktuelle Baselines und erreicht überlegene räumliche Konsistenz, kohärente Bewegung und einen signifikant höheren CASS-Wert, obwohl kein Training oder Fine-Tuning durchgeführt wurde. MoCA-Video demonstriert, dass strukturierte Manipulation in der Diffusionsrauschtrajektorie kontrollierbare, hochwertige Videosynthese ermöglicht.
Die Erfassung von realen Robotersimulationsdaten durch Teleoperation ist bekanntlich zeitaufwendig und arbeitsintensiv. In jüngster Zeit haben aktionsgetriebene generative Modelle in der Roboterlern- und Simulationsforschung breite Anwendung gefunden, da sie Sicherheitsbedenken beseitigen und den Wartungsaufwand reduzieren. Allerdings führen die in diesen Methoden verwendeten Aktionssequenzen oft zu begrenzter Kontrollpräzision und schlechter Generalisierung aufgrund ihrer global groben Ausrichtung. Um diese Einschränkungen zu überwinden, schlagen wir ORV, ein Occupancy-zentriertes Robotervideo-Generierungsframework vor, das 4D-semantische Occupancy-Sequenzen als feinkörnige Repräsentation nutzt, um präzisere semantische und geometrische Anleitungen für die Videogenerierung zu bieten. Durch die Nutzung von Occupancy-basierten Repräsentationen ermöglicht ORV die nahtlose Übersetzung von Simulationsdaten in fotorealistische Robotervideos, während gleichzeitig hohe zeitliche Konsistenz und präzise Steuerbarkeit gewährleistet werden. Darüber hinaus unterstützt unser Framework die gleichzeitige Generierung von Multi-View-Videos von Roboter-Greifoperationen – eine wichtige Fähigkeit für nachgelagerte Roboterlernaufgaben. Umfangreiche experimentelle Ergebnisse zeigen, dass ORV bestehende Baseline-Methoden über verschiedene Datensätze und Teilaufgaben hinweg konsequent übertrifft. Demo, Code und Modell: https://orangesodahub.github.io/ORV
Die Generierungsgeschwindigkeit von LLMs wird durch das autoregressive Decoding begrenzt, bei dem Token sequenziell nacheinander vorhergesagt werden. Alternativ ermöglichen Diffusion Large Language Models (dLLMs) theoretisch die parallele Token-Generierung, haben jedoch in der Praxis Schwierigkeiten, die Geschwindigkeit autoregressiver Modelle zu erreichen, ohne die Qualität erheblich zu beeinträchtigen. Daher führen wir das adaptive parallele Decoding (APD) ein, eine neuartige Methode, die die Anzahl der parallel abgetasteten Token dynamisch anpasst. Dies erreichen wir, indem wir eine multiplikative Mischung zwischen den marginalen Wahrscheinlichkeiten des dLLM und der gemeinsamen Wahrscheinlichkeit von Sequenzen unter einem kleinen, zusätzlichen autoregressiven Modell definieren. Dies kehrt das Standard-Setup des spekulativen Decodings um, bei dem das Ziel darin besteht, aus einem großen autoregressiven Verifizierer zu sampeln, indem Entwürfe aus einem kleineren Modell erstellt werden. Wir optimieren APD weiter, indem wir KV-Caching aktivieren und die Größe der maskierten Eingabe begrenzen. Insgesamt stellt unsere Methode drei einstellbare Parameter zur Verfügung, um flexibel zwischen Durchsatz und Qualität abzuwägen. Wir zeigen, dass APD einen deutlich höheren Durchsatz bei minimalen Qualitätseinbußen in nachgelagerten Benchmarks bietet.
Aktuelle Selbstkorrekturansätze in Text-zu-SQL stehen vor zwei kritischen Einschränkungen: 1) Konventionelle Selbstkorrekturmethoden stützen sich auf rekursive Selbstaufrufe von LLMs (Large Language Models), was zu einem multiplikativen Rechenaufwand führt, und 2) LLMs haben Schwierigkeiten, effektive Fehlererkennung und -korrektur für deklarative SQL-Abfragen zu implementieren, da sie den zugrunde liegenden Denkpfad nicht aufzeigen können. In dieser Arbeit schlagen wir SHARE vor, einen SLM-basierten hierarchischen Aktionskorrekturassistenten, der es LLMs ermöglicht, präzisere Fehlerlokalisierung und effiziente Korrektur durchzuführen. SHARE orchestriert drei spezialisierte Small Language Models (SLMs) in einer sequenziellen Pipeline, bei der zunächst deklarative SQL-Abfragen in schrittweise Aktionspfade transformiert werden, die den zugrunde liegenden Denkprozess offenlegen, gefolgt von einer zweiphasigen granularen Verfeinerung. Wir schlagen außerdem eine neuartige hierarchische Selbstentwicklungsstrategie für dateneffizientes Training vor. Experimentelle Ergebnisse zeigen, dass SHARE die Selbstkorrekturfähigkeiten effektiv verbessert und sich gleichzeitig robust über verschiedene LLMs hinweg erweist. Darüber hinaus zeigt unsere umfassende Analyse, dass SHARE auch in ressourcenarmen Trainingsumgebungen eine starke Leistung beibehält, was besonders für Text-zu-SQL-Anwendungen mit Datenschutzbeschränkungen wertvoll ist.
Visualisierungen spielen eine entscheidende Rolle bei der effektiven Kommunikation von Konzepten und Informationen. Jüngste Fortschritte im Bereich des schlussfolgernden und abrufgestützten Generierens haben es großen Sprachmodellen (Large Language Models, LLMs) ermöglicht, tiefgehende Recherchen durchzuführen und umfassende Berichte zu erstellen. Trotz dieser Fortschritte konzentrieren sich bestehende Frameworks für tiefgehende Recherchen hauptsächlich auf die Generierung von rein textbasierten Inhalten, wodurch die automatische Erstellung von verschachtelten Texten und Visualisierungen weitgehend unerforscht bleibt. Diese neuartige Aufgabe stellt zentrale Herausforderungen bei der Gestaltung informativer Visualisierungen und deren effektiver Integration in Textberichte dar. Um diese Herausforderungen zu bewältigen, schlagen wir die Formale Beschreibung von Visualisierungen (Formal Description of Visualization, FDV) vor, eine strukturierte textuelle Darstellung von Diagrammen, die es LLMs ermöglicht, aus diversen, hochwertigen Visualisierungen zu lernen und diese zu generieren. Aufbauend auf dieser Darstellung führen wir Multimodal DeepResearcher ein, ein agentenbasiertes Framework, das die Aufgabe in vier Phasen unterteilt: (1) Recherche, (2) Textualisierung von Beispielberichten, (3) Planung und (4) multimodale Berichterstellung. Zur Bewertung der generierten multimodalen Berichte entwickeln wir MultimodalReportBench, das 100 verschiedene Themen als Eingaben sowie fünf spezifische Metriken enthält. Umfangreiche Experimente über verschiedene Modelle und Evaluierungsmethoden hinweg demonstrieren die Effektivität von Multimodal DeepResearcher. Bemerkenswerterweise erreicht Multimodal DeepResearcher unter Verwendung desselben Claude 3.7 Sonnet-Modells eine Gesamterfolgsquote von 82 % gegenüber der Baseline-Methode.
Mit der Veröffentlichung von R1, einem öffentlich zugänglichen großen Reasoning-Modell (LRM), trainieren Forscher häufig neue LRMs, indem sie Sprachmodelle auf den langen Chain-of-Thought (CoT)-Schlussfolgerungen von R1 trainieren. Während frühere Arbeiten zeigen, dass die Fähigkeiten von LRMs durch direkte Destillation reproduziert werden können, bleibt die fortgesetzte Abhängigkeit von bestehenden Modellen (z. B. R1) eine kritische Einschränkung für den Fortschritt in diesem Bereich. Als ersten Schritt zur unabhängigen Entwicklung von LRMs untersucht dieses Papier die Möglichkeit, einen langen CoT-Datensatz mit LLMs zu konstruieren, die nicht für Inferenzzeit-Skalierung trainiert sind. Zu diesem Zweck präsentieren wir die Long CoT Collection, einen Datensatz von 100K CoT-Begründungen, die mit bestehenden kurzen CoT-LLMs annotiert wurden. Wir entwickeln eine Pipeline, die die neuartigen Reasoning-Strategien von o1 in kurze CoT-LLMs einbringt, wodurch diese länger denken können und eine Kontrolle über das Gedankenbudget eingeführt wird, um das Problem des Überdenkens besser zu bewältigen. Unsere umfangreichen Analysen bestätigen, dass unser Datensatz eine Qualität erreicht, die vergleichbar mit – oder leicht unter – der von R1 liegt. Darüber hinaus zeigen unsere Experimente, dass das Training auf unserem Datensatz nicht nur die allgemeinen Reasoning-Fähigkeiten stärkt, sondern auch eine solide Grundlage für Reinforcement Learning bietet – Modelle, die auf unseren Daten initialisiert werden, erzielen 2-3 Mal größere Gewinne mit RLVR.
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben deren Fähigkeiten zur logischen Schlussfolgerung effektiv verbessert, insbesondere bei mathematischen und logischen Problemen mit überprüfbaren Antworten, durch Techniken wie überwachtes Feinabstimmen (SFT) und bestärkendes Lernen (RL). Frühere Forschungen zeigen, dass RL Suchstrategien effektiv verinnerlicht, was lange Ketten von Gedankengängen (CoT) ermöglicht, wobei das Rückverfolgen (Backtracking) natürlich als erlernte Fähigkeit auftritt. Die genauen Vorteile des Rückverfolgens, insbesondere wie signifikant es zur Verbesserung der Schlussfolgerungen beiträgt und das optimale Ausmaß seiner Nutzung, bleiben jedoch weitgehend unverstanden. In dieser Arbeit untersuchen wir systematisch die Dynamik zwischen SFT und RL bei acht Aufgaben zur logischen Schlussfolgerung: Countdown, Sudoku, Arc 1D, Geometrie, Farbwürfelrotation, Listenfunktionen, Zebrarätsel und Selbstreferenz. Unsere Ergebnisse zeigen, dass kurze CoT-Sequenzen, die in SFT als Aufwärmphase verwendet werden, einen moderaten Beitrag zum RL-Training leisten, verglichen mit einem Kaltstart-RL; dieser Beitrag nimmt jedoch ab, wenn die Aufgaben zunehmend schwieriger werden. Motiviert durch diese Beobachtung erstellen wir synthetische Datensätze, die systematisch in der Anzahl der Rückverfolgungsschritte variieren, und führen kontrollierte Experimente durch, um den Einfluss entweder der Korrektheit (Inhalt) oder der Struktur (d. h. Rückverfolgungshäufigkeit) zu isolieren. Wir finden heraus, dass (1) längere CoT mit Rückverfolgungen im Allgemeinen ein besseres und stabileres RL-Training induzieren, (2) anspruchsvollere Probleme mit größerem Suchraum tendenziell eine höhere Anzahl von Rückverfolgungen während der SFT-Phase benötigen. Zusätzlich zeigen wir durch Experimente mit destillierten Daten, dass das RL-Training weitgehend unbeeinflusst von der Korrektheit langer CoT-Sequenzen bleibt, was darauf hindeutet, dass RL strukturelle Muster über die inhaltliche Korrektheit priorisiert. Insgesamt bieten unsere Ergebnisse praktische Einblicke in die Gestaltung optimaler Trainingsstrategien, um die logische Schlussfolgerung in LLMs effektiv zu skalieren.
Das Verständnis von Langform-Videos stellt aufgrund der umfangreichen zeitlich-räumlichen Komplexität und der Schwierigkeit der Fragebeantwortung in solch ausgedehnten Kontexten erhebliche Herausforderungen dar. Obwohl Large Language Models (LLMs) erhebliche Fortschritte in den Fähigkeiten zur Videoanalyse und der Handhabung langer Kontexte gezeigt haben, weisen sie weiterhin Einschränkungen bei der Verarbeitung von informationsdichten, stundenlangen Videos auf. Um diese Einschränkungen zu überwinden, schlagen wir den Deep Video Discovery-Agenten vor, der eine agentenbasierte Suchstrategie über segmentierte Videoclips nutzt. Im Gegensatz zu früheren Video-Agenten, die manuell einen starren Arbeitsablauf entwerfen, betont unser Ansatz die autonome Natur von Agenten. Indem wir eine Reihe von suchzentrierten Werkzeugen auf einer mehrgranularen Videodatenbank bereitstellen, nutzt unser DVD-Agent die fortgeschrittene Denkfähigkeit des LLM, um basierend auf seinem aktuellen Beobachtungszustand zu planen, strategisch Werkzeuge auszuwählen, geeignete Parameter für Aktionen zu formulieren und seine interne Argumentation iterativ anhand der gesammelten Informationen zu verfeinern. Wir führen eine umfassende Bewertung auf mehreren Benchmarks für das Verständnis von Langform-Videos durch, die den Vorteil des gesamten Systemdesigns demonstriert. Unser DVD-Agent erreicht SOTA-Leistungen und übertrifft frühere Arbeiten auf dem anspruchsvollen LVBench-Datensatz deutlich. Umfassende Ablationsstudien und detaillierte Werkzeuganalysen werden ebenfalls bereitgestellt, die Einblicke bieten, um intelligente Agenten weiter voranzutreiben, die speziell für Aufgaben zum Verständnis von Langform-Videos entwickelt wurden. Der Code wird später veröffentlicht.
Semantische Retrieval ist entscheidend für moderne Anwendungen, bleibt jedoch in der aktuellen Forschung untererforscht. Bestehende Datensätze beschränken sich auf einzelne Sprachen, einzelne Bilder oder singuläre Retrieval-Bedingungen und nutzen oft nicht die volle Ausdruckskraft visueller Informationen aus, wie durch die aufrechterhaltene Leistung belegt wird, wenn Bilder durch Beschreibungen ersetzt werden. Praktische Retrieval-Szenarien beinhalten jedoch häufig verschachtelte Mehrfachbedingungen-Abfragen mit mehreren Bildern. Daher stellt dieses Papier MERIT vor, den ersten mehrsprachigen Datensatz für verschachteltes semantisches Retrieval unter Mehrfachbedingungen, der 320.000 Abfragen mit 135.000 Produkten in 5 Sprachen umfasst und 7 verschiedene Produktkategorien abdeckt. Umfangreiche Experimente mit MERIT identifizieren die Beschränkungen bestehender Modelle: Sie konzentrieren sich ausschließlich auf globale semantische Informationen, während sie spezifische Bedingungselemente in Abfragen vernachlässigen. Folglich schlagen wir Coral vor, ein neuartiges Feinabstimmungs-Framework, das vortrainierte MLLMs anpasst, indem es Einbettungsrekonstruktion integriert, um feinkörnige Bedingungselemente zu bewahren, und kontrastives Lernen, um umfassende globale Semantik zu extrahieren. Experimente zeigen, dass Coral eine Leistungssteigerung von 45,9 % gegenüber konventionellen Ansätzen auf MERIT erreicht, mit starken Generalisierungsfähigkeiten, die über 8 etablierte Retrieval-Benchmarks validiert wurden. Zusammengefasst legen unsere Beiträge – ein neuartiger Datensatz, die Identifikation kritischer Beschränkungen bestehender Ansätze und ein innovatives Feinabstimmungs-Framework – die Grundlage für zukünftige Forschung im Bereich des verschachtelten semantischen Retrievals unter Mehrfachbedingungen.
Kontrastives Sprach-Bild-Vortraining richtet die Merkmale von Text-Bild-Paaren in einem gemeinsamen latenten Raum aus, wobei für jede Modalität separate Encoder verwendet werden. Während dieser Ansatz beeindruckende Leistungen in mehreren Zero-Shot-Aufgaben erzielt, kann er multimodale Eingaben nicht nativ verarbeiten, d.h. das Kodieren von Bild und Text in einen einzigen Merkmalsvektor. Als Abhilfe ist es gängige Praxis, zusätzliche Module zu verwenden, um die von den unimodalen Encodern extrahierten Merkmale zu fusionieren. In dieser Arbeit präsentieren wir FuseLIP, eine alternative Architektur für multimodale Einbettungen. Unter Ausnutzung der jüngsten Fortschritte bei diskreten Bild-Tokenizern schlagen wir vor, ein einziges Transformer-Modell zu verwenden, das auf einem erweiterten Vokabular von Text- und Bild-Token arbeitet. Dieser Ansatz der frühen Fusion ermöglicht es den verschiedenen Modalitäten, auf jeder Ebene der Kodierung zu interagieren und im Vergleich zur gängigen späten Fusion reichhaltigere Repräsentationen zu erhalten. Wir sammeln neue Datensätze für multimodales Vortraining und Evaluation, indem wir anspruchsvolle Aufgaben für multimodale Encoder-Modelle entwerfen. Wir zeigen, dass FuseLIP andere Ansätze in multimodalen Einbettungsaufgaben wie VQA und textgesteuerter Bildtransformations-Retrieval übertrifft, während es bei unimodalen Aufgaben vergleichbar mit den Baselines ist.
Große Sprachmodelle (LLMs) haben in letzter Zeit bemerkenswerte Fortschritte erzielt, indem sie Verstärkungslernen und erweiterte Chain-of-Thought (CoT)-Techniken nutzen. Die Herausforderung, effiziente Sprachschlussfolgerungen durchzuführen – insbesondere während der Inferenz mit extrem langen Ausgaben – hat jedoch zunehmend die Aufmerksamkeit der Forschungsgemeinschaft auf sich gezogen. In dieser Arbeit schlagen wir eine dynamische, verhältnisbasierte Trainingspipeline vor, die nicht auf aufwendige Datenannotationen oder Interpolationen zwischen mehreren Modellen angewiesen ist. Wir balancieren kontinuierlich die Gewichte zwischen den System-1- und System-2-Daten des Modells, um redundante Schlussfolgerungsprozesse zu eliminieren, während die Schlussfolgerungsfähigkeit des Modells erhalten bleibt. Wir validieren unseren Ansatz an Modellen wie DeepSeek-R1-Distill-7B und DeepSeek-R1-Distill-14B sowie an einer Vielzahl von Benchmarks mit unterschiedlichen Schwierigkeitsgraden. Unsere Methode reduziert die Anzahl der Ausgabetoken signifikant um fast 40 %, während die Genauigkeit der Schlussfolgerungen erhalten bleibt. Unser Code und unsere Daten werden in Kürze verfügbar sein.
Jüngste Durchbrüche bei großen Sprachmodellen (LLMs) haben zur Entwicklung neuer Benchmarks für die Bewertung ihrer Leistung im Finanzbereich geführt. Allerdings stützen sich aktuelle Finanzbenchmarks oft auf Nachrichtenartikel, Gewinnberichte oder Ankündigungen, was es schwierig macht, die realen Dynamiken von Finanzmeetings zu erfassen. Um diese Lücke zu schließen, schlagen wir einen neuartigen Benchmark namens M^3FinMeeting vor, ein mehrsprachiger, multisektoraler und multitaskfähiger Datensatz, der für das Verständnis von Finanzmeetings entwickelt wurde. Erstens unterstützt M^3FinMeeting Englisch, Chinesisch und Japanisch, wodurch das Verständnis von Finanzdiskussionen in verschiedenen sprachlichen Kontexten verbessert wird. Zweitens umfasst es verschiedene Industriesektoren, die durch den Global Industry Classification Standard (GICS) definiert sind, und stellt sicher, dass der Benchmark eine breite Palette von Finanzaktivitäten abdeckt. Schließlich beinhaltet M^3FinMeeting drei Aufgaben: Zusammenfassung, Extraktion von Frage-Antwort-Paaren (QA) und Fragebeantwortung, was eine realistischere und umfassendere Bewertung des Verständnisses ermöglicht. Experimentelle Ergebnisse mit sieben populären LLMs zeigen, dass selbst die fortschrittlichsten Langkontextmodelle noch erheblichen Verbesserungsbedarf haben, was die Wirksamkeit von M^3FinMeeting als Benchmark zur Bewertung der Finanzmeeting-Verständnisfähigkeiten von LLMs unterstreicht.
Aktuelle Paradigmen für Reinforcement Fine-Tuning (RFT) von Large Language Models (LLMs) leiden unter einer ineffizienten Stichprobenverarbeitung, da identische Anfragen durch einheitliche Datenstichproben redundant ausgesetzt werden. Während frühere Arbeiten Curriculum Learning über heuristische Schwierigkeitsmetriken untersucht haben, weisen diese Strategien Einschränkungen auf, indem sie die intrinsischen Lernsignale, die vom Modell selbst generiert werden, vernachlässigen, was zu suboptimalen Trainingsregimen führt. In diesem Artikel identifizieren wir ein modellinternes Signal, das als Winkelkonzentration bezeichnet wird und effektiv die Fähigkeit eines LLMs widerspiegelt, aus spezifischen Daten zu lernen. Wir demonstrieren theoretisch und empirisch eine Korrelation zwischen der Winkelverteilung der verborgenen Zustandsvektoren von Tokens und dem resultierenden Gradienten, was eine Lernpräferenz für Daten mit höherer Winkelkonzentration offenbart. Inspiriert von dieser Erkenntnis schlagen wir GAIN-RL vor, ein Gradientengetriebenes, Winkelinformiertes Navigiertes RL-Framework. Indem GAIN-RL das intrinsische Winkelkonzentrationssignal des Modells nutzt, wählt es in jeder Epoche dynamisch Trainingsdaten aus, um kontinuierlich wirkungsvolle Gradientenaktualisierungen zu gewährleisten und somit die Gesamttrainings effizienz erheblich zu steigern. Empirische Auswertungen zeigen, dass GAIN-RL (GRPO) eine über 2,5-fache Beschleunigung der Trainings effizienz über diverse mathematische und Programmieraufgaben sowie verschiedene Modellgrößen hinweg erreicht. Darüber hinaus ermöglicht die effiziente Stichprobenauswahl von GAIN-RL (GRPO) ein dateneffizientes Training, das mit der Hälfte der ursprünglichen Daten eine bessere Leistung erzielt als das herkömmliche GRPO mit vollständigen Trainingsdaten. Der Code ist unter https://github.com/wangqinsi1/GAINRL/tree/main verfügbar.
Kultur ist ein reiches und dynamisches Feld, das sich sowohl geografisch als auch zeitlich entwickelt. Bisherige Studien zum kulturellen Verständnis mit Vision-Language-Modellen (VLMs) betonen jedoch vor allem die geografische Vielfalt und vernachlässigen oft die entscheidenden zeitlichen Dimensionen. Um diese Lücke zu schließen, stellen wir Hanfu-Bench vor, einen neuartigen, von Experten kuratierten multimodalen Datensatz. Hanfu, ein traditionelles Gewand, das sich über alte chinesische Dynastien erstreckt, dient als repräsentatives Kulturerbe, das die tiefgreifenden zeitlichen Aspekte der chinesischen Kultur widerspiegelt und gleichzeitig in der chinesischen Gegenwartsgesellschaft äußerst beliebt ist. Hanfu-Bench umfasst zwei Kernaufgaben: kulturelles visuelles Verständnis und kulturelle Bildtranskreation. Die erste Aufgabe untersucht die Erkennung zeitlich-kultureller Merkmale basierend auf Einzel- oder Mehrfachbild-Eingaben durch Multiple-Choice-Fragen zur visuellen Beantwortung, während die zweite Aufgabe darauf abzielt, traditionelle Kleidung durch die Übernahme kultureller Elemente und die Anpassung an moderne Kontexte in moderne Designs zu transformieren. Unsere Auswertung zeigt, dass geschlossene VLMs beim visuellen kulturellen Verständnis ähnlich abschneiden wie Laien, jedoch um 10\% hinter menschlichen Experten zurückbleiben, während offene VLMs noch weiter hinter Laien zurückliegen. Für die Transkreationsaufgabe zeigt eine vielschichtige menschliche Bewertung, dass das leistungsstärkste Modell nur eine Erfolgsquote von 42\% erreicht. Unser Benchmark bietet eine wesentliche Testumgebung, die erhebliche Herausforderungen in dieser neuen Richtung des zeitlichen kulturellen Verständnisses und der kreativen Anpassung aufzeigt.
Jüngste Fortschritte bei großen multimodalen Modellen (Large Multi-modal Models, LMMs) haben effektives visuell-sprachliches Schließen ermöglicht, doch die Fähigkeit, Videoinhalte zu verstehen, bleibt durch suboptimale Strategien zur Bildauswahl eingeschränkt. Bestehende Ansätze verlassen sich oft auf statische Heuristiken oder externe Retrieval-Module, um Bildinformationen in Video-LLMs einzuspeisen, was möglicherweise nicht die abfragerelevanten Informationen liefert. In dieser Arbeit stellen wir ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding) vor, ein neuartiges Framework zur Optimierung von Bildauswahlrichtlinien auf Bildebene, das das Optimierungsziel von textuellen Antworten auf die Auswahl visueller Eingaben verlagert. ReFoCUS erlernt eine Bildauswahlrichtlinie durch Reinforcement Learning, wobei Belohnungssignale verwendet werden, die von einem Referenz-LMM abgeleitet werden, um die intrinsischen Präferenzen des Modells für Bilder widerzuspiegeln, die zeitlich fundierte Antworten am besten unterstützen. Um den großen kombinatorischen Bildraum effizient zu erkunden, verwenden wir eine autoregressive, bedingte Auswahlarchitektur, die zeitliche Kohärenz sicherstellt und gleichzeitig die Komplexität reduziert. Unser Ansatz erfordert keine explizite Überwachung auf Bildebene und verbessert kontinuierlich die Schließleistung über mehrere Video-QA-Benchmarks hinweg, was die Vorteile der Ausrichtung der Bildauswahl auf die modellinterne Nützlichkeit unterstreicht.
Dieses Papier zielt darauf ab, die Herausforderungen von Unterdenken und Überdenken in langen Ketten von Denkprozessen (Chain-of-Thought, CoT) für große Denkmodelle (Large Reasoning Models, LRMs) zu adressieren, indem es Reasoning Control Fields (RCF) einführt – einen neuartigen Ansatz zur Laufzeit, der strukturierte Kontrollsignale injiziert, um das Denken aus einer Baum-Such-Perspektive zu steuern. RCF ermöglicht es Modellen, den Denkaufwand gemäß vorgegebener Kontrollbedingungen bei der Lösung komplexer Aufgaben anzupassen. Zusätzlich stellen wir den Control-R-4K-Datensatz vor, der herausfordernde Probleme mit detaillierten Denkprozessen und entsprechenden Kontrollfeldern enthält. Um die Denkkontrolle weiter zu verbessern, schlagen wir eine Conditional Distillation Finetuning (CDF)-Methode vor, die Modelle – insbesondere Control-R-32B – trainiert, um den Denkaufwand während der Laufzeit effektiv anzupassen. Experimentelle Ergebnisse auf Benchmarks wie AIME2024 und MATH500 zeigen, dass unser Ansatz auf dem 32B-Maßstab state-of-the-art Leistung erzielt und gleichzeitig einen kontrollierbaren langen Denkprozess (Long CoT, L-CoT) ermöglicht. Insgesamt führt diese Arbeit ein effektives Paradigma für kontrollierbares Skalieren von Denkprozessen zur Laufzeit ein.
Bestehende Interpolationsmethoden verwenden vortrainierte Video-Diffusions-Priors, um Zwischenbilder zwischen spärlich abgetasteten Keyframes zu generieren. Ohne 3D-geometrische Anleitung haben diese Methoden Schwierigkeiten, plausible Ergebnisse für komplexe, artikulierte menschliche Bewegungen zu erzeugen, und bieten nur begrenzte Kontrolle über die synthetisierten Dynamiken. In diesem Artikel stellen wir den PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI) vor, ein neuartiges Framework, das 3D-menschliche Führungssignale in den Diffusionsprozess für eine kontrollierbare, menschzentrierte Keyframe-Interpolation (CHKI) integriert. Um reichhaltige räumliche und strukturelle Hinweise für die Interpolation zu liefern, verfügt unser PoseFuse3D, ein 3D-informiertes Kontrollmodell, über einen neuartigen SMPL-X-Encoder, der 3D-Geometrie und -Form in den 2D-latenten Konditionierungsraum transformiert, sowie über ein Fusionsnetzwerk, das diese 3D-Hinweise mit 2D-Pose-Embeddings integriert. Zur Bewertung haben wir CHKI-Video, einen neuen Datensatz, der sowohl mit 2D-Posen als auch mit 3D-SMPL-X-Parametern annotiert ist, erstellt. Wir zeigen, dass PoseFuse3D-KI auf CHKI-Video durchweg state-of-the-art Baselines übertrifft und eine Verbesserung von 9 % in PSNR sowie eine Reduktion von 38 % in LPIPS erreicht. Umfassende Ablationen demonstrieren, dass unser PoseFuse3D-Modell die Interpolationsgenauigkeit verbessert.
Die inhärenten Komplexitäten der arabischen Schrift; ihre kursivartige Natur, diakritische Zeichen (Tashkeel) und vielfältige Typografie stellen anhaltende Herausforderungen für die optische Zeichenerkennung (OCR) dar. Wir präsentieren Qari-OCR, eine Reihe von Vision-Language-Modellen, die aus Qwen2-VL-2B-Instruct abgeleitet und durch iteratives Feinabstimmen auf spezialisierten synthetischen Datensätzen schrittweise für Arabisch optimiert wurden. Unser führendes Modell, QARI v0.2, etabliert einen neuen Open-Source-Standard mit einer Wortfehlerrate (WER) von 0,160, einer Zeichenfehlerrate (CER) von 0,061 und einem BLEU-Score von 0,737 bei Texten mit reichhaltigen Diakritika. Qari-OCR zeigt eine überlegene Handhabung von Tashkeel, diversen Schriftarten und Dokumentlayouts sowie beeindruckende Leistungen bei niedrigauflösenden Bildern. Weitere Untersuchungen (QARI v0.3) demonstrieren ein starkes Potenzial für das strukturelle Dokumentverständnis und handschriftliche Texte. Diese Arbeit liefert eine deutliche Verbesserung in der Genauigkeit und Effizienz der arabischen OCR, wobei alle Modelle und Datensätze veröffentlicht werden, um weitere Forschungen zu fördern.
Wir untersuchen, ob der Erfolg eines Zero-Shot Chain-of-Thought (CoT)-Prozesses vor dessen Abschluss vorhergesagt werden kann. Wir entdecken, dass ein Klassifikator, der auf LLM-Repräsentationen basiert, bereits vor der Generierung eines einzigen Tokens gute Leistungen erbringt, was darauf hindeutet, dass entscheidende Informationen über den Denkprozess bereits in den Anfangsphasen der Repräsentationen vorhanden sind. Im Gegensatz dazu schneidet ein starker BERT-basierter Ansatz, der sich ausschließlich auf die generierten Tokens stützt, schlechter ab, wahrscheinlich weil er sich auf oberflächliche linguistische Hinweise und nicht auf tiefere Denkdynamiken verlässt. Überraschenderweise verbessert die Verwendung späterer Denkschritte die Klassifikation nicht immer. Wenn zusätzlicher Kontext nicht hilfreich ist, ähneln frühere Repräsentationen den späteren stärker, was darauf hindeutet, dass LLMs Schlüsselinformationen frühzeitig kodieren. Dies impliziert, dass der Denkprozess oft frühzeitig beendet werden kann, ohne dass Informationen verloren gehen. Um dies zu testen, führen wir Experimente zum frühzeitigen Stoppen durch, die zeigen, dass das Kürzen des CoT-Denkprozesses die Leistung im Vergleich zur vollständigen Vermeidung von CoT immer noch verbessert, obwohl eine Lücke im Vergleich zum vollständigen Denkprozess bleibt. Ansätze wie überwachtes Lernen oder bestärkendes Lernen, die darauf abzielen, CoT-Ketten zu verkürzen, könnten jedoch die Anleitung unseres Klassifikators nutzen, um zu identifizieren, wann ein frühzeitiges Stoppen effektiv ist. Unsere Erkenntnisse liefern Einblicke, die solche Methoden unterstützen könnten, um die Effizienz von CoT zu optimieren und gleichzeitig dessen Vorteile zu bewahren.
Große Empfehlungsmodelle haben LLMs (Large Language Models) als leistungsstarke Empfehlungssysteme erweitert, indem sie Kodierung oder Item-Generierung nutzen, und jüngste Durchbrüche im Bereich des LLM-Reasonings motivieren synchron die Erforschung des Reasonings in der Empfehlung. Aktuelle Studien positionieren LLMs meist als externe Reasoning-Module, um zusätzliche Gedanken zur Verbesserung konventioneller Empfehlungspipelines zu liefern. Solche entkoppelten Designs sind jedoch durch hohe Ressourcenkosten und suboptimale gemeinsame Optimierung begrenzt. Um diese Probleme zu adressieren, schlagen wir \name vor, ein einheitliches großes Empfehlungsmodell mit intrinsischen Reasoning-Fähigkeiten. Zunächst rekonzeptualisieren wir die Modellarchitektur, um verschränktes Reasoning und Empfehlungen im autoregressiven Prozess zu ermöglichen. Anschließend schlagen wir RecPO vor, ein entsprechendes Reinforcement-Learning-Framework, das \name sowohl in seinen Reasoning- als auch Empfehlungsfähigkeiten gleichzeitig in einer einzigen Policy-Aktualisierung optimiert; RecPO führt ein fusioniertes Belohnungsschema ein, das ausschließlich Empfehlungslabels nutzt, um die Reasoning-Fähigkeit zu simulieren und so die Abhängigkeit von spezialisierten Reasoning-Annotationen zu eliminieren. Experimente auf drei Datensätzen mit verschiedenen Baselines bestätigen die Wirksamkeit von \name und zeigen relative Verbesserungen von 68,67 % in Hit@5 und 45,21 % in NDCG@20. Der Code ist verfügbar unter https://github.com/YRYangang/RRec.
Das Bearbeiten von Bildern mit Anweisungen, um nicht starre Bewegungen, Kameraperspektivenwechsel, Objektverformungen, menschliche Gelenkbewegungen und komplexe Interaktionen widerzuspiegeln, stellt ein herausforderndes und bisher wenig erforschtes Problem in der Computer Vision dar. Bestehende Ansätze und Datensätze konzentrieren sich überwiegend auf statische Szenen oder starre Transformationen, was ihre Fähigkeit einschränkt, ausdrucksstarke Bearbeitungen mit dynamischen Bewegungen zu bewältigen. Um diese Lücke zu schließen, stellen wir ByteMorph vor, ein umfassendes Framework für anweisungsbasiertes Bildbearbeiten mit einem Schwerpunkt auf nicht starren Bewegungen. ByteMorph besteht aus einem groß angelegten Datensatz, ByteMorph-6M, und einem leistungsstarken Basismodell, das auf dem Diffusion Transformer (DiT) basiert und ByteMorpher genannt wird. ByteMorph-6M umfasst über 6 Millionen hochauflösende Bildbearbeitungspaare für das Training sowie einen sorgfältig kuratierten Evaluierungsbenchmark, ByteMorph-Bench. Beide erfassen eine Vielzahl von nicht starren Bewegungstypen in verschiedenen Umgebungen, menschlichen Figuren und Objektkategorien. Der Datensatz wurde mithilfe von bewegungsgesteuerter Datengenerierung, geschichteten Compositing-Techniken und automatischer Beschriftung erstellt, um Vielfalt, Realismus und semantische Kohärenz zu gewährleisten. Darüber hinaus führen wir eine umfassende Bewertung aktueller anweisungsbasierter Bildbearbeitungsmethoden aus akademischen und kommerziellen Bereichen durch.
Die Entwicklung effektiver Erklärbarkeitstools für Transformer ist ein entscheidendes Ziel in der Deep-Learning-Forschung. Einer der vielversprechendsten Ansätze in diesem Bereich ist die Layer-wise Relevance Propagation (LRP), die Relevanzwerte rückwärts durch das Netzwerk in den Eingaberaum propagiert, indem Aktivierungswerte basierend auf vordefinierten Regeln neu verteilt werden. Allerdings übersehen bestehende LRP-basierte Methoden zur Erklärbarkeit von Transformatoren eine kritische Komponente der Transformer-Architektur: die Positionskodierung (Positional Encoding, PE). Dies führt zu einer Verletzung der Erhaltungseigenschaft und zum Verlust einer wichtigen und einzigartigen Art von Relevanz, die auch mit strukturellen und positionsbezogenen Merkmalen verbunden ist. Um diese Einschränkung zu beheben, formulieren wir den Eingaberaum für die Erklärbarkeit von Transformatoren als eine Menge von Positions-Token-Paaren neu. Dies ermöglicht es uns, spezialisierte, theoretisch fundierte LRP-Regeln vorzuschlagen, die darauf ausgelegt sind, Attributionen über verschiedene Positionskodierungsmethoden hinweg zu propagieren, einschließlich Rotary, Learnable und Absolute PE. Umfangreiche Experimente mit sowohl feinabgestimmten Klassifikatoren als auch Zero-Shot-Foundation-Modellen wie LLaMA 3 zeigen, dass unsere Methode den State-of-the-Art in Erklärbarkeitsaufgaben sowohl in der Bildverarbeitung als auch im NLP-Bereich deutlich übertrifft. Unser Code ist öffentlich verfügbar.
In-Context-Learning (ICL) ist eine wichtige, aber noch nicht vollständig verstandene Fähigkeit vortrainierter großer Sprachmodelle (LLMs). Es kann die Aufgabenleistung erheblich steigern, indem es einige Beispiele, sogenannte Demonstrationen, verwendet, ohne dass eine Feinabstimmung erforderlich ist. Obwohl ICL bei der Beantwortung von Fragen effektiv ist, schneidet es oft bei langen Generierungsaufgaben wie der Zusammenfassung schlechter ab. Unter angemessen realistischen Annahmen zeigen wir sowohl empirisch als auch theoretisch, dass ICL-Demonstrationen allein nicht ausreichen, um LLMs die Aufgaben- und Formatverteilungen für die Generierung beizubringen. Wir plädieren für eine explizite Exposition gegenüber den Aufgabenverteilungen und stellen die Hypothese auf, dass deren Definition durch Prompting die Modellleistung verbessert. Zu diesem Zweck stellen wir LongGuide vor, das effizient zwei parallele Leitfadenstränge erzeugt, die die Aufgaben- und Formateigenschaften erfassen: (i) Metrik-Leitfäden (MGs), die Modelle anweisen, selbstbewertete Metriken zu optimieren; und (ii) Ausgabebeschränkungs-Leitfäden (OCGs), die die Generierung sowohl auf Token- als auch auf Satzebene einschränken. LongGuide wählt automatisch die beste Kombination von Leitfäden aus und verbessert sowohl starke Open-Source- als auch Closed-Source-LLMs um über 5 % in Zero- und Few-Shot-Szenarien. Wir zeigen, dass LongGuide verallgemeinerbar ist, von schwachen Modellen erlernt werden kann, um starke zu verbessern, und sich synergetisch mit automatischen Prompt-Optimierern integrieren lässt.