papers.description
Scalable Vector Graphics (SVG) ist ein wichtiges Bildformat, das aufgrund seiner Auflösungsunabhängigkeit und Bearbeitbarkeit weit verbreitet in der Grafikdesign-Branche eingesetzt wird. Die Erzeugung hochwertiger SVGs hat kontinuierlich die Aufmerksamkeit von Designern und Forschern in der AIGC-Community auf sich gezogen. Bisherige Methoden erzeugen jedoch entweder unstrukturierte Ausgaben mit hohem Rechenaufwand oder sind auf die Generierung monochromer Icons mit stark vereinfachten Strukturen beschränkt. Um hochwertige und komplexe SVGs zu erzeugen, schlagen wir OmniSVG vor, ein einheitliches Framework, das vortrainierte Vision-Language-Modelle (VLMs) für die end-to-end multimodale SVG-Generierung nutzt. Durch die Parametrisierung von SVG-Befehlen und Koordinaten in diskrete Tokens entkoppelt OmniSVG die strukturelle Logik von der niedrigstufigen Geometrie, um ein effizientes Training bei gleichzeitiger Beibehaltung der Ausdrucksfähigkeit komplexer SVG-Strukturen zu ermöglichen. Um die Entwicklung der SVG-Synthese weiter voranzutreiben, führen wir MMSVG-2M ein, einen multimodalen Datensatz mit zwei Millionen reich annotierten SVG-Assets, zusammen mit einem standardisierten Bewertungsprotokoll für bedingte SVG-Generierungsaufgaben. Umfangreiche Experimente zeigen, dass OmniSVG bestehende Methoden übertrifft und sein Potenzial für die Integration in professionelle SVG-Design-Workflows unterstreicht.
Große Sprachmodelle (LLMs) haben die Fähigkeit demonstriert, zunehmend komplexe Aufgaben durch fortgeschrittenes Denken, die Erstellung von langen Inhalten und den Einsatz von Werkzeugen zu bewältigen. Die Lösung dieser Aufgaben erfordert oft langwierige Berechnungen während der Inferenz. Bei der menschlichen Problemlösung ist eine gängige Strategie zur Beschleunigung der Arbeit die Zusammenarbeit: indem das Problem in Teilaufgaben unterteilt wird, verschiedene Strategien parallel erkundet werden usw. Jüngste Forschungen haben gezeigt, dass LLMs ebenfalls parallel arbeiten können, indem sie explizite Kooperationsrahmen implementieren, wie z. B. Abstimmungsmechanismen oder die explizite Erstellung unabhängiger Teilaufgaben, die parallel ausgeführt werden können. Allerdings ist jeder dieser Rahmen möglicherweise nicht für alle Arten von Aufgaben geeignet, was ihre Anwendbarkeit einschränken kann. In dieser Arbeit schlagen wir einen anderen Designansatz vor: Wir lassen LLM-"Arbeiter" parallel laufen und ermöglichen ihnen, sich über einen gleichzeitig aktualisierten Aufmerksamkeitscache zu synchronisieren und diese Arbeiter dazu anzuregen, zu entscheiden, wie sie am besten zusammenarbeiten können. Unser Ansatz ermöglicht es den Instanzen, ihre eigene Zusammenarbeitsstrategie für das vorliegende Problem zu entwickeln, während sie gleichzeitig den teilweisen Fortschritt der anderen im parallelen Cache "sehen". Wir implementieren diesen Ansatz über Hogwild! Inference: eine parallele LLM-Inferenz-Engine, bei der mehrere Instanzen desselben LLM parallel mit demselben Aufmerksamkeitscache laufen und "sofortigen" Zugriff auf die generierten Tokens der anderen haben. Hogwild! Inference nutzt Rotary Position Embeddings (RoPE), um Neuberechnungen zu vermeiden und gleichzeitig die parallele Hardwareauslastung zu verbessern. Wir stellen fest, dass moderne, vernunftsfähige LLMs die Inferenz mit gemeinsam genutztem Key-Value-Cache ohne zusätzliches Fine-Tuning durchführen können.
Wir stellen Skywork R1V vor, ein multimodales Reasoning-Modell, das die R1-Serie von Large Language Models (LLM) durch eine effiziente multimodale Transfermethode auf visuelle Modalitäten erweitert. Durch die Nutzung eines leichtgewichtigen visuellen Projektors ermöglicht Skywork R1V eine nahtlose multimodale Anpassung, ohne dass eine erneute Trainierung des zugrunde liegenden Sprachmodells oder des Vision-Encoders erforderlich ist. Um die visuell-textuelle Ausrichtung zu stärken, schlagen wir eine hybride Optimierungsstrategie vor, die Iterative Supervised Fine-Tuning (SFT) mit Group Relative Policy Optimization (GRPO) kombiniert und dadurch die Effizienz der cross-modalen Integration erheblich verbessert. Zusätzlich führen wir einen adaptiven Chain-of-Thought-Destillationsansatz zur Generierung von Reasoning-Daten ein. Dieser Ansatz optimiert die Längen der Reasoning-Ketten dynamisch, wodurch die Inferenzeffizienz gesteigert und übermäßiges „Overthinking“ im Reasoning-Prozess verhindert wird. Empirische Auswertungen zeigen, dass Skywork R1V mit nur 38B Parametern eine wettbewerbsfähige Leistung erzielt, mit einer Bewertung von 69,0 auf dem MMMU-Benchmark und 67,5 auf MathVista. Gleichzeitig behält es eine robuste textuelle Reasoning-Leistung bei, was durch beeindruckende Bewertungen von 72,0 auf AIME und 94,0 auf MATH500 belegt wird. Die Modellgewichte von Skywork R1V wurden öffentlich freigegeben, um Offenheit und Reproduzierbarkeit zu fördern.
Die Landschaft der Bildgenerierung hat sich rasant weiterentwickelt, von frühen GAN-basierten Ansätzen über Diffusionsmodelle bis hin zu jüngsten, vereinheitlichten generativen Architekturen, die Verständnis- und Generierungsaufgaben miteinander verbinden möchten. Jüngste Fortschritte, insbesondere GPT-4o, haben die Machbarkeit hochwertiger multimodaler Generierung demonstriert, doch ihr architektonisches Design bleibt rätselhaft und unveröffentlicht. Dies wirft die Frage auf, ob Bild- und Textgenerierung bereits erfolgreich in einen einheitlichen Rahmen für diese Methoden integriert wurden. In dieser Arbeit führen wir eine empirische Studie zu den Bildgenerierungsfähigkeiten von GPT-4o durch und vergleichen es mit führenden Open-Source- und kommerziellen Modellen. Unsere Bewertung umfasst vier Hauptkategorien, darunter Text-zu-Bild, Bild-zu-Bild, Bild-zu-3D und Bild-zu-X-Generierung, mit mehr als 20 Aufgaben. Unsere Analyse hebt die Stärken und Grenzen von GPT-4o unter verschiedenen Bedingungen hervor und verortet es innerhalb der breiteren Entwicklung des generativen Modellierens. Durch diese Untersuchung identifizieren wir vielversprechende Richtungen für zukünftige vereinheitlichte generative Modelle, wobei wir die Rolle des architektonischen Designs und der Datenskalierung betonen.
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen hat bemerkenswerte Erfolge erzielt. Allerdings sind bestehende chinesische Präferenzdatensätze durch ihren geringen Umfang, begrenzte Domänenabdeckung und mangelnde rigorose Datenvalidierung eingeschränkt. Zudem behindert die Abhängigkeit von menschlichen Annotatoren für die Beschriftung von Anweisungen und Antworten die Skalierbarkeit von Präferenzdatensätzen erheblich. Um diese Herausforderungen zu bewältigen, haben wir eine auf LLMs basierende Pipeline zur Annotation chinesischer Präferenzdatensätze ohne menschliches Eingreifen entwickelt. Konkret haben wir 92.000 hochwertige chinesische Anfragen gesammelt und sorgfältig gefiltert sowie 15 gängige LLMs eingesetzt, um ausgewählte-verworfene Antwortpaare zu generieren und zu bewerten. Darauf aufbauend stellen wir COIG-P (Chinese Open Instruction Generalist - Preference) vor, einen hochwertigen, groß angelegten chinesischen Präferenzdatensatz, der 1.009.000 chinesische Präferenzpaare aus 6 verschiedenen Domänen umfasst: Chat, Code, Mathematik, Logik, Roman und Rolle. Basierend auf COIG-P haben wir, um den Aufwand für die Bewertung durch LLMs zu reduzieren, ein 8B-großes chinesisches Belohnungsmodell (CRM) trainiert und sorgfältig ein chinesisches Belohnungs-Benchmark (CRBench) erstellt. Evaluierungsergebnisse basierend auf AlignBench liu2024alignbenchbenchmarkingchinesealignment zeigen, dass COIG-P andere chinesische Präferenzdatensätze deutlich übertrifft und signifikante Leistungssteigerungen von 2% bis 12% für die Qwen2/2.5- und Infinity-Instruct-3M-0625-Modellreihen bringt. Die Ergebnisse auf CRBench demonstrieren, dass unser CRM eine starke und robuste Bewertungsfähigkeit besitzt. Wir wenden es an, um ausgewählte-verworfene Antwortpaare in einem Test-Split von COIG-P zu filtern, und unsere Experimente zeigen, dass es bei der Identifizierung von minderwertigen Proben mit GPT-4o vergleichbar ist, während es Effizienz und Kosteneffektivität beibehält. Unsere Codes und Daten sind unter https://github.com/multimodal-art-projection/COIG-P veröffentlicht.
Obwohl die subjektgesteuerte Generierung in der Bildgenerierung aufgrund ihrer vielfältigen Anwendungen intensiv erforscht wurde, bestehen weiterhin Herausforderungen in Bezug auf die Daten-Skalierbarkeit und die Erweiterbarkeit von Subjekten. Für die erste Herausforderung ist der Übergang von der Erstellung von Einzel-Subjekt-Datensätzen zu Mehrfach-Subjekt-Datensätzen und deren Skalierung besonders schwierig. Für die zweite Herausforderung konzentrieren sich die meisten aktuellen Methoden auf die Einzel-Subjekt-Generierung, was die Anwendung bei Mehrfach-Subjekt-Szenarien erschwert. In dieser Studie schlagen wir eine hochkonsistente Daten-Synthese-Pipeline vor, um diese Herausforderung zu bewältigen. Diese Pipeline nutzt die intrinsischen In-Context-Generierungsfähigkeiten von Diffusionstransformern und erzeugt hochkonsistente, mehrfach-Subjekt-gepaarte Daten. Zusätzlich führen wir UNO ein, das aus progressiver cross-modaler Ausrichtung und universellem Rotary-Position-Embedding besteht. Es handelt sich um ein mehrfach-bildgesteuertes Subjekt-zu-Bild-Modell, das iterativ aus einem Text-zu-Bild-Modell trainiert wird. Umfangreiche Experimente zeigen, dass unsere Methode hohe Konsistenz erreichen kann, während gleichzeitig die Kontrollierbarkeit sowohl bei der Einzel-Subjekt- als auch bei der Mehrfach-Subjekt-gesteuerten Generierung gewährleistet wird.
Die Mixture-of-Experts (MoE)-Architektur hat erhebliche Vorteile gezeigt, da sie es ermöglicht, die Modellkapazität zu erhöhen, ohne den Rechenaufwand proportional zu steigern. Allerdings führt die große Modellgröße von MoE immer noch zu erheblichen Speicheranforderungen, was in der Regel ein Auslagern von Experten auf ressourcenbeschränkten Plattformen erfordert und erheblichen Overhead verursacht. Hybrides CPU-GPU-Inferenz wurde vorgeschlagen, um die CPU-Berechnung zu nutzen und den Overhead beim Laden von Experten zu reduzieren, steht jedoch vor großen Herausforderungen: Einerseits sind die Expertenaktivierungsmuster von MoE-Modellen äußerst instabil, was die festen Zuordnungsstrategien in bestehenden Arbeiten ineffizient macht; andererseits ist der hybride CPU-GPU-Zeitplan für MoE aufgrund der unterschiedlichen Expertengrößen, -strukturen und ungleichmäßigen Arbeitslastverteilung von Natur aus komplex. Um diese Herausforderungen zu bewältigen, schlagen wir in diesem Artikel HybriMoE vor, ein hybrides CPU-GPU-Inferenz-Framework, das die Ressourcennutzung durch ein neuartiges CPU-GPU-Zeitplanungs- und Cache-Management-System verbessert. HybriMoE führt (i) eine dynamische Intra-Layer-Zeitplanungsstrategie ein, um die Arbeitslast zwischen CPU und GPU auszugleichen, (ii) einen impact-gesteuerten Inter-Layer-Prefetching-Algorithmus und (iii) einen score-basierten Caching-Algorithmus, um die Instabilität der Expertenaktivierung zu mildern. Wir implementieren HybriMoE auf Basis des kTransformers-Frameworks und evaluieren es an drei weit verbreiteten MoE-basierten LLMs. Die experimentellen Ergebnisse zeigen, dass HybriMoE im Vergleich zum state-of-the-art hybriden MoE-Inferenz-Framework eine durchschnittliche Beschleunigung von 1,33x in der Prefill-Phase und 1,70x in der Decode-Phase erreicht. Unser Code ist verfügbar unter: https://github.com/PKU-SEC-Lab/HybriMoE.
Text-to-Image (T2I) Diffusions-/Flussmodelle haben in letzter Zeit aufgrund ihrer bemerkenswerten Fähigkeit, flexible visuelle Kreationen zu liefern, erhebliche Aufmerksamkeit erregt. Dennoch stellt die Synthese hochauflösender Bilder aufgrund der Knappheit und Komplexität hochauflösender Inhalte eine enorme Herausforderung dar. Zu diesem Zweck präsentieren wir HiFlow, ein trainingsfreies und modellagnostisches Framework, um das Auflösungspotenzial vortrainierter Flussmodelle freizusetzen. Konkret etabliert HiFlow einen virtuellen Referenzfluss im hochauflösenden Raum, der effektiv die Merkmale von niedrigauflösenden Flussinformationen erfasst und eine Anleitung für die hochauflösende Generierung durch drei Schlüsselaspekte bietet: Initialisierungsausrichtung für niederfrequente Konsistenz, Richtungsausrichtung für Strukturerhaltung und Beschleunigungsausrichtung für Detailtreue. Durch die Nutzung dieser flussausgerichteten Anleitung verbessert HiFlow die Qualität der hochauflösenden Bildsynthese von T2I-Modellen erheblich und zeigt Vielseitigkeit über deren personalisierte Varianten hinweg. Umfangreiche Experimente bestätigen die Überlegenheit von HiFlow bei der Erzielung überlegener hochauflösender Bildqualität gegenüber aktuellen State-of-the-Art-Methoden.
Da leistungsstarke große Sprachmodelle (LLMs) übermenschliche Fähigkeiten im Bereich des logischen Denkens demonstrieren, stellt sich eine entscheidende Frage: Denken LLMs tatsächlich, oder rufen sie lediglich Antworten aus ihren umfangreichen, aus dem Web extrahierten Trainingsdatensätzen ab? Öffentlich verfügbare Benchmarks werden unweigerlich kontaminiert, sobald sie in nachfolgende LLM-Trainingsdatensätze integriert werden, was ihre Zuverlässigkeit als treue Bewertungsinstrumente untergräbt. Um dies zu adressieren, stellen wir KUMO vor, ein generatives Evaluationsframework, das speziell zur Bewertung des logischen Denkens in LLMs entwickelt wurde. KUMO kombiniert synergetisch LLMs mit symbolischen Engines, um dynamisch vielfältige, mehrstufige Denkaufgaben zu erzeugen, die teilweise beobachtbar und in ihrer Schwierigkeit anpassbar sind. Durch einen automatisierten Prozess generiert KUMO kontinuierlich neue Aufgaben in offenen Domänen, wodurch Modelle gezwungen werden, echte Generalisierung statt bloßer Memorierung zu demonstrieren. Wir haben 23 state-of-the-art LLMs an 5.000 Aufgaben in 100 Domänen, die von KUMO erstellt wurden, evaluiert und ihre Denkfähigkeiten mit denen von Universitätsstudenten verglichen. Unsere Ergebnisse zeigen, dass viele LLMs bei einfachen Denkaufgaben die Leistung von Universitätsstudenten übertroffen haben und dass LLMs, die auf logisches Denken skaliert sind, bei komplexen Denkherausforderungen auf Universitätsniveau abschneiden. Darüber hinaus korreliert die Leistung von LLMs bei KUMO-Aufgaben stark mit den Ergebnissen auf neu veröffentlichten realen Denkbenchmarks, was den Wert von KUMO als robustes, langfristiges Bewertungsinstrument für echte Denkfähigkeiten von LLMs unterstreicht.
Jüngste Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) haben zu erheblichen Verbesserungen in verschiedenen multimodalen Benchmarks geführt. Da sich die Evaluierungen jedoch von statischen Datensätzen hin zu offenen, dynamischen Umgebungen verschieben, bleiben aktuelle spielbasierte Benchmarks unzureichend, da sie visuell zentrierte Aufgaben vermissen und die vielfältigen Denkfähigkeiten, die für die Entscheidungsfindung in der realen Welt erforderlich sind, nicht bewerten. Um dies zu beheben, führen wir Visual-centric Multiple Abilities Game Evaluation (V-MAGE) ein, ein spielbasiertes Evaluierungsframework, das darauf abzielt, die visuellen Denkfähigkeiten von MLLMs zu bewerten. V-MAGE umfasst fünf verschiedene Spiele mit über 30 handgefertigten Levels, die Modelle auf Kernfähigkeiten wie Positionierung, Bahnverfolgung, Timing und visuelles Gedächtnis sowie höhere Denkfähigkeiten wie langfristige Planung und Überlegung testen. Wir verwenden V-MAGE, um führende MLLMs zu evaluieren, und decken dabei erhebliche Herausforderungen in ihrer visuellen Wahrnehmung und Denkfähigkeit auf. In allen Spielumgebungen zeigen die leistungsstärksten MLLMs, gemessen an Elo-Rating-Vergleichen, eine erhebliche Leistungslücke im Vergleich zu Menschen. Unsere Ergebnisse verdeutlichen kritische Einschränkungen, einschließlich verschiedener Arten von Wahrnehmungsfehlern, die von den Modellen gemacht werden, und legen potenzielle Verbesserungsmöglichkeiten aus einer agentenzentrierten Perspektive nahe, wie die Verfeinerung von Agentenstrategien und die Behebung von Wahrnehmungsungenauigkeiten. Der Code ist verfügbar unter https://github.com/CSU-JPG/V-MAGE.
Die Balance zwischen Treue und Bearbeitbarkeit ist entscheidend bei der textbasierten Bildbearbeitung (TIE), bei der Fehler häufig zu Über- oder Unterbearbeitung führen. Bestehende Methoden stützen sich typischerweise auf Attention-Injektionen zur Strukturerhaltung und nutzen die inhärenten Textausrichtungsfähigkeiten vortrainierter Text-zu-Bild (T2I)-Modelle für die Bearbeitbarkeit, ihnen fehlen jedoch explizite und einheitliche Mechanismen, um diese beiden Ziele angemessen auszubalancieren. In dieser Arbeit stellen wir UnifyEdit vor, eine tuningfreie Methode, die eine Diffusion-Latent-Optimierung durchführt, um eine ausgewogene Integration von Treue und Bearbeitbarkeit innerhalb eines einheitlichen Frameworks zu ermöglichen. Im Gegensatz zu direkten Attention-Injektionen entwickeln wir zwei Attention-basierte Beschränkungen: eine Self-Attention (SA)-Erhaltungsbeschränkung für strukturelle Treue und eine Cross-Attention (CA)-Ausrichtungsbeschränkung zur Verbesserung der Textausrichtung für eine gesteigerte Bearbeitbarkeit. Die gleichzeitige Anwendung beider Beschränkungen kann jedoch zu Gradientenkonflikten führen, bei denen die Dominanz einer Beschränkung zu Über- oder Unterbearbeitung führt. Um diese Herausforderung zu bewältigen, führen wir einen adaptiven Zeitschritt-Scheduler ein, der den Einfluss dieser Beschränkungen dynamisch anpasst und das Diffusion-Latent in Richtung eines optimalen Gleichgewichts lenkt. Umfangreiche quantitative und qualitative Experimente bestätigen die Wirksamkeit unseres Ansatzes und demonstrieren seine Überlegenheit bei der Erreichung einer robusten Balance zwischen Strukturerhaltung und Textausrichtung über verschiedene Bearbeitungsaufgaben hinweg, wobei er andere state-of-the-art Methoden übertrifft. Der Quellcode wird unter https://github.com/CUC-MIPG/UnifyEdit verfügbar sein.
Jüngste Fortschritte bei Reasoning-Modellen haben signifikante Verbesserungen in der Genauigkeit gezeigt, insbesondere bei komplexen Aufgaben wie mathematischem Reasoning, durch den Einsatz detaillierter und umfassender Reasoning-Prozesse. Die Generierung dieser langen Reasoning-Sequenzen ist jedoch rechenintensiv und zeitaufwendig. Um diese Ineffizienz zu beheben, nutzen wir die inhärente Parallelisierbarkeit bestimmter Aufgaben, um den Reasoning-Prozess zu beschleunigen. Insbesondere wenn mehrere parallele Reasoning-Zweige existieren, dekodieren wir mehrere Tokens pro Schritt unter Verwendung einer spezialisierten Attention-Maske und verarbeiten sie innerhalb einer einzigen Sequenz, wodurch zusätzlicher Speicherbedarf vermieden wird. Experimentelle Ergebnisse zeigen, dass unsere Methode eine Beschleunigung der Dekodierzeit von über 100 % erreicht, während die Antwortqualität erhalten bleibt.
Reinforcement Finetuning (RFT) hat großes Potenzial gezeigt, um die mathematischen Fähigkeiten großer Sprachmodelle (LLMs) zu verbessern, ist jedoch oft proben- und rechenineffizient und erfordert umfangreiches Training. In dieser Arbeit stellen wir AdaRFT (Adaptive Curriculum Reinforcement Finetuning) vor, eine Methode, die sowohl die Effizienz als auch die finale Genauigkeit von RFT durch adaptives Curriculum Learning erheblich verbessert. AdaRFT passt den Schwierigkeitsgrad der Trainingsprobleme dynamisch basierend auf den aktuellen Belohnungssignalen des Modells an und stellt sicher, dass das Modell kontinuierlich an Aufgaben trainiert, die herausfordernd, aber lösbar sind. Diese adaptive Stichprobenstrategie beschleunigt das Lernen, indem sie einen optimalen Schwierigkeitsbereich aufrechterhält und vermeidet, dass Rechenressourcen für Probleme verschwendet werden, die entweder zu einfach oder zu schwer sind. AdaRFT erfordert nur eine leichte Erweiterung standardmäßiger RFT-Algorithmen wie Proximal Policy Optimization (PPO), ohne die Belohnungsfunktion oder die Modellarchitektur zu verändern. Experimente mit Wettbewerbs-Level-Mathematikdatensätzen – einschließlich AMC-, AIME- und IMO-artiger Probleme – zeigen, dass AdaRFT sowohl die Trainingseffizienz als auch die logische Leistung signifikant verbessert. Wir evaluieren AdaRFT über mehrere Datenverteilungen und Modellgrößen hinweg und zeigen, dass es die Anzahl der Trainingsschritte um bis zu das 2-fache reduziert und die Genauigkeit beträchtlich steigert, wodurch ein skalierbareres und effektiveres RFT-Framework bereitgestellt wird.
Bestehende Bewertungsrahmen für die Schlussfolgerungsfähigkeiten von Large Language Models (LLMs) und Large Vision-Language Models (LVLMs) konzentrieren sich überwiegend entweder auf textbasierte Schlussfolgerungen oder auf das Verständnis von visuell-sprachlichen Zusammenhängen, wobei die dynamische Wechselwirkung zwischen textuellen und visuellen Einschränkungen nur begrenzt berücksichtigt wird. Um diese Einschränkung zu überwinden, stellen wir CrossWordBench vor, einen Benchmark, der die Schlussfolgerungsfähigkeiten sowohl von LLMs als auch von LVLMs durch das Medium von Kreuzworträtseln bewertet – eine Aufgabe, die die Einhaltung multimodaler semantischer Einschränkungen aus textbasierten Hinweisen und intersektionaler Einschränkungen aus visuellen Rasterstrukturen erfordert. CrossWordBench nutzt ein kontrollierbares Puzzle-Generierungsframework, das Rätsel in mehreren Formaten (Text und Bild) erzeugt und verschiedene Bewertungsstrategien bietet, die vom direkten Lösen von Rätseln bis hin zu interaktiven Modi reichen. Unsere umfangreiche Evaluierung von über 20 Modellen zeigt, dass schlussfolgernde LLMs nicht-schlussfolgernde Modelle deutlich übertreffen, indem sie effektiv die Einschränkungen durch sich kreuzende Buchstaben nutzen. Wir zeigen weiterhin, dass LVLMs mit der Aufgabe kämpfen und eine starke Korrelation zwischen ihrer Rätsellösungsleistung und der Genauigkeit der Rasteranalyse besteht. Unsere Erkenntnisse bieten Einblicke in die Grenzen der Schlussfolgerungsfähigkeiten aktueller LLMs und LVLMs und liefern einen effektiven Ansatz zur Erstellung multimodaler, eingeschränkter Aufgaben für zukünftige Bewertungen.
Jüngste Fortschritte im Bereich des automatisierten Theorembeweises (ATP) durch LLMs haben das Potenzial des formalen Schließens mit Lean 4-Codes aufgezeigt. Allerdings wurde ATP noch nicht durch das kürzlich demonstrierte Posttraining-Scaling, wie es von Open AI O1/O3 und Deepseek R1 gezeigt wurde, revolutioniert. In dieser Arbeit untersuchen wir das gesamte Posttraining von ATP, mit dem Ziel, es mit den Durchbrüchen in den Schließmodellen für natürliche Sprachen in Einklang zu bringen. Zunächst trainieren wir aktuelle ATP-Modelle kontinuierlich mit einem hybriden Datensatz, der aus zahlreichen Aussage-Beweis-Paaren sowie zusätzlichen Daten besteht, die darauf abzielen, kognitive Verhaltensweisen zu integrieren, die menschliches Schließen und Hypothesenverfeinerung nachahmen. Anschließend untersuchen wir Verstärkungslernen unter Verwendung der Ergebnisbelohnung, die vom Lean 4-Compiler zurückgegeben wird. Durch unsere entwickelten kontinuierlichen Trainings- und Verstärkungslernprozesse haben wir bestehende formale Beweiser, einschließlich DeepSeek-Prover-v1.5 und Goedel-Prover, erfolgreich verbessert und Spitzenleistungen im Bereich der gesamten Beweisgenerierung erzielt. Beispielsweise erreichen wir eine Erfolgsquote von 59,8 % (pass@32) bei MiniF2F. Dies ist ein laufendes Projekt, und wir werden unsere Erkenntnisse kontinuierlich aktualisieren sowie unsere Daten und Trainingsdetails veröffentlichen.
Imitation Learning hat sich als vielversprechender Ansatz für die Entwicklung von Generalisten-Robotern erwiesen. Die Skalierung von Imitation Learning für große Robot-Foundation-Modelle bleibt jedoch aufgrund der Abhängigkeit von hochwertigen Experten-Demonstrationen eine Herausforderung. Gleichzeitig sind große Mengen an Videodaten, die eine Vielzahl von Umgebungen und unterschiedliche Verhaltensweisen abbilden, leicht verfügbar. Diese Daten bieten eine reichhaltige Informationsquelle über reale Dynamiken und Interaktionen zwischen Agenten und ihrer Umgebung. Die direkte Nutzung dieser Daten für Imitation Learning hat sich jedoch aufgrund des Mangels an Aktionsannotationen, die für die meisten zeitgenössischen Methoden erforderlich sind, als schwierig erwiesen. In dieser Arbeit präsentieren wir Unified World Models (UWM), ein Framework, das die Nutzung von Video- und Aktionsdaten für das Policy-Learning ermöglicht. Konkret integriert ein UWM einen Aktions-Diffusionsprozess und einen Video-Diffusionsprozess innerhalb einer einheitlichen Transformer-Architektur, wobei unabhängige Diffusions-Zeitschritte jede Modalität steuern. Wir zeigen, dass UWM durch die einfache Kontrolle jedes Diffusions-Zeitschritts flexibel eine Policy, eine Vorwärtsdynamik, eine inverse Dynamik und einen Video-Generator darstellen kann. Durch Simulationen und reale Experimente zeigen wir, dass: (1) UWM ein effektives Pretraining auf groß angelegten Multitask-Roboterdatensätzen mit sowohl Dynamik- als auch Aktionsvorhersagen ermöglicht, was zu generalisierbareren und robusteren Policies führt als Imitation Learning, (2) UWM das Lernen aus aktionsfreien Videodaten durch unabhängige Steuerung modalitätsspezifischer Diffusions-Zeitschritte natürlich erleichtert und die Leistung feinabgestimmter Policies weiter verbessert. Unsere Ergebnisse deuten darauf hin, dass UWM einen vielversprechenden Schritt darstellt, um große, heterogene Datensätze für skalierbares Robot-Learning zu nutzen, und eine einfache Vereinigung zwischen den oft disparaten Paradigmen von Imitation Learning und World Modeling bietet. Videos und Code sind verfügbar unter https://weirdlabuw.github.io/uwm/.
Die generalisierte Kategorienentdeckung (GCD) ist ein pragmatisches, aber bisher wenig erforschtes Problem, bei dem Modelle automatisch Cluster bilden und neue Kategorien entdecken müssen, indem sie beschriftete Beispiele aus alten Klassen nutzen. Die Herausforderung besteht darin, dass unmarkierte Daten sowohl alte als auch neue Klassen enthalten. Frühere Ansätze, die Pseudolabeling mit parametrischen Klassifikatoren verwenden, behandeln alte und neue Klassen separat, was zu einer unausgewogenen Genauigkeit zwischen ihnen führt. Neuere Methoden, die kontrastives Lernen einsetzen, vernachlässigen potenzielle positive Beispiele und sind vom Clustering-Ziel entkoppelt, was zu verzerrten Darstellungen und suboptimalen Ergebnissen führt. Um diese Probleme zu lösen, führen wir ein einheitliches und unvoreingenommenes Prototypen-Lernframework namens ProtoGCD ein, in dem alte und neue Klassen mit gemeinsamen Prototypen und einheitlichen Lernzielen modelliert werden, wodurch eine einheitliche Modellierung zwischen alten und neuen Klassen ermöglicht wird. Konkret schlagen wir einen zweistufigen adaptiven Pseudolabeling-Mechanismus vor, um Bestätigungsverzerrungen zu mildern, sowie zwei Regularisierungsterme, die gemeinsam dazu beitragen, geeignetere Darstellungen für GCD zu lernen. Darüber hinaus entwickeln wir aus praktischen Erwägungen ein Kriterium zur Schätzung der Anzahl neuer Klassen. Zusätzlich erweitern wir ProtoGCD, um nicht gesehene Ausreißer zu erkennen, wodurch eine Aufgabenebenen-Vereinheitlichung erreicht wird. Umfassende Experimente zeigen, dass ProtoGCD auf generischen und feinkörnigen Datensätzen state-of-the-art Leistungen erzielt. Der Code ist unter https://github.com/mashijie1028/ProtoGCD verfügbar.