Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Grafische Benutzeroberfläche (GUI)-Agenten, die von Vision-Sprachmodellen (VLMs) betrieben werden, haben eine computergesteuerte Fähigkeit gezeigt, die menschenähnlich ist. Trotz ihres Nutzens zur Förderung der digitalen Automatisierung besteht weiterhin ein kritischer Engpass: die Sammlung hochwertiger Trajektoriendaten für das Training. Gängige Praktiken zur Sammlung solcher Daten beruhen auf menschlicher Überwachung oder der Erzeugung synthetischer Daten durch die Ausführung vordefinierter Aufgaben, die entweder ressourcenintensiv sind oder die Datenqualität nicht garantieren können. Darüber hinaus leiden diese Methoden unter begrenzter Datenvielfalt und signifikanten Unterschieden zwischen synthetischen Daten und realen Umgebungen. Um diese Herausforderungen anzugehen, schlagen wir OS-Genesis vor, eine neuartige GUI-Datensynthesepipeline, die den herkömmlichen Prozess der Trajektoriensammlung umkehrt. Anstatt auf vordefinierten Aufgaben zu beruhen, ermöglicht OS-Genesis den Agenten zunächst, Umgebungen wahrzunehmen und schrittweise Interaktionen durchzuführen, um dann retrospektiv hochwertige Aufgaben abzuleiten, die eine Erkundung auf Trajektorienebene ermöglichen. Ein Trajektorienbelohnungsmodell wird dann eingesetzt, um die Qualität der generierten Trajektorien zu gewährleisten. Wir zeigen, dass das Training von GUI-Agenten mit OS-Genesis ihre Leistung auf hoch anspruchsvollen Online-Benchmarks signifikant verbessert. Eine eingehende Analyse bestätigt weiterhin die Effizienz von OS-Genesis sowie deren überlegene Datenqualität und -vielfalt im Vergleich zu bestehenden Synthesemethoden. Unsere Codes, Daten und Checkpoints sind verfügbar unter https://qiushisun.github.io/OS-Genesis-Home/ {OS-Genesis Homepage}.
Xmodel-2 ist ein 1,2-Milliarden-Parameter großes Sprachmodell, das speziell für Aufgaben des logischen Denkens entwickelt wurde. Seine Architektur ermöglicht es verschiedenen Modellgrößen, einen einheitlichen Satz von Hyperparametern zu teilen, was umfangreiche Experimente mit kleineren Modellen und nahtlose Übertragung optimaler Konfigurationen auf größere Modelle ermöglicht. Um die Trainingseffizienz und -stabilität zu maximieren, verwendet Xmodel-2 den WSD-Lernratenplaner aus MiniCPM. Mit einem Training auf 1,5 Billionen Tokens aus verschiedenen Quellen erzielt Xmodel-2 Spitzenleistungen bei komplexen Denk- und agentenbasierten Aufgaben, bei gleichzeitig niedrigen Trainingskosten. Diese Ergebnisse verdeutlichen das Potenzial effizienter Modellgestaltung und Trainingsstrategien zur Weiterentwicklung der Denkfähigkeiten. Modell-Checkpoints und Code sind öffentlich auf GitHub unter https://github.com/XiaoduoAILab/Xmodel-2 verfügbar.
Groß angelegte Vision-Sprach-Modelle (VLMs) haben sich durch die Ausrichtung von visuellen Eingaben mit Text weiterentwickelt und die Leistung bei Computer-Vision-Aufgaben signifikant verbessert. Darüber hinaus ist es für die effektive Nutzung von VLMs in realen Anwendungen entscheidend, ein Verständnis für vielfältige Multivisionssensordaten wie thermische, Tiefen- und Röntgeninformationen zu haben. Allerdings stellen wir fest, dass aktuelle VLMs Multivisionssensorbilder ohne tiefgreifendes Verständnis der Sensordaten verarbeiten, wodurch die einzigartigen physikalischen Eigenschaften jedes Sensors vernachlässigt werden. Diese Einschränkung begrenzt ihre Fähigkeit, komplexe Fragen zu interpretieren und zu beantworten, die Multivisionssensor-Argumentation erfordern. Um dies zu lösen, schlagen wir ein neuartiges Benchmark-Modell für Multivisionssensor-Wahrnehmung und -Argumentation (MS-PR) vor, das die Fähigkeit von VLMs zur sensorenspezifischen Argumentation bewertet. Darüber hinaus führen wir die Optimierung mit Diversen Negativen Attributen (DNA) ein, um VLMs zu ermöglichen, tiefgreifende Argumentation bei Multivisionssensor-Aufgaben durchzuführen und die Kerninformationslücke zwischen Bildern und Sensordaten zu überbrücken. Umfangreiche experimentelle Ergebnisse bestätigen, dass die vorgeschlagene DNA-Methode die Multivisionssensor-Argumentation für VLMs signifikant verbessern kann.
Wir stellen HunyuanProver vor, ein Sprachmodell, das vom Hunyuan 7B für interaktives automatisches Beweisen von Theoremen mit LEAN4 feinabgestimmt wurde. Um das Problem der Datenknappheit zu mildern, entwerfen wir ein skalierbares Framework zur iterativen Synthese von Daten mit geringen Kosten. Darüber hinaus wurden geleitete Baum-Suchalgorithmen entwickelt, um ein effektives "System 2-Denken" des Beweisers zu ermöglichen. HunyuanProver erzielt Spitzenleistungen (SOTA) auf wichtigen Benchmarks. Speziell erreicht es eine Erfolgsquote von 68,4% im miniF2F-Test im Vergleich zu 65,9%, den aktuellen SOTA-Ergebnissen. Es beweist 4 IMO-Aussagen (imo_1960_p2, imo_1962_p2, imo_1964_p2 und imo_1983_p6) im miniF2F-Test. Um der Gemeinschaft zu nutzen, werden wir einen Datensatz von 30.000 synthetisierten Instanzen als Open Source veröffentlichen, wobei jede Instanz die ursprüngliche Frage in natürlicher Sprache, die umgewandelte Aussage durch Autoformalisierung und den Beweis durch HunyuanProver enthält.
Obwohl Diffusionsmodelle außergewöhnliche Fähigkeiten bei der Text-zu-Bild-Erzeugung zeigen, können sie dennoch daran scheitern, äußerst ästhetische Bilder zu generieren. Genauer gesagt besteht immer noch eine Kluft zwischen den generierten Bildern und den ästhetischen Bildern der realen Welt in feineren Dimensionen wie Farbe, Beleuchtung, Komposition usw. In diesem Paper schlagen wir den Cross-Attention Value Mixing Control (VMix) Adapter vor, einen Plug-and-Play-Ästhetik-Adapter, um die Qualität der generierten Bilder zu verbessern, während die Allgemeinheit über visuelle Konzepte erhalten bleibt, indem wir (1) den Eingabetextprompt in die Inhaltsbeschreibung und ästhetische Beschreibung aufteilen durch die Initialisierung der ästhetischen Einbettung und (2) ästhetische Bedingungen in den Denoising-Prozess durch wertgemischte Cross-Attention integrieren, wobei das Netzwerk durch nullinitialisierte lineare Schichten verbunden ist. Unser Schlüsselerkenntnis besteht darin, die ästhetische Präsentation bestehender Diffusionsmodelle zu verbessern, indem wir eine überlegene Bedingungssteuerungsmethode entwerfen, während wir die Bild-Text-Ausrichtung beibehalten. Durch unser sorgfältiges Design ist VMix flexibel genug, um auf Community-Modelle angewendet zu werden, um eine bessere visuelle Leistung ohne erneutes Training zu erzielen. Um die Wirksamkeit unserer Methode zu validieren, führten wir umfangreiche Experimente durch, die zeigten, dass VMix andere State-of-the-Art-Methoden übertrifft und mit anderen Community-Modulen (z. B. LoRA, ControlNet und IPAdapter) für die Bildgenerierung kompatibel ist. Die Projektseite ist https://vmix-diffusion.github.io/VMix/.