Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Bisher haben vorherige Methoden zur Vorabtrainierung von Sprachmodellen einheitlich einen Verlust für die Vorhersage des nächsten Tokens auf alle Trainings-Token angewendet. In Frage stellend, dass "Nicht alle Tokens in einem Korpus gleichermaßen wichtig für das Training von Sprachmodellen sind", postulieren wir. Unsere anfängliche Analyse taucht in die Trainingsdynamik auf Token-Ebene des Sprachmodells ein und zeigt unterschiedliche Verlustmuster für verschiedene Tokens auf. Unter Nutzung dieser Erkenntnisse führen wir ein neues Sprachmodell namens Rho-1 ein. Im Gegensatz zu traditionellen Sprachmodellen, die lernen, jedes nächste Token in einem Korpus vorherzusagen, verwendet Rho-1 Selektives Sprachmodellieren (SLM), das selektiv auf nützliche Tokens trainiert, die mit der gewünschten Verteilung übereinstimmen. Dieser Ansatz beinhaltet das Bewerten von Vorabtrainierungs-Tokens unter Verwendung eines Referenzmodells und anschließend das Training des Sprachmodells mit einem fokussierten Verlust auf Tokens mit höherem Überschussverlust. Bei kontinuierlicher Vorabtrainierung auf dem 15B OpenWebMath-Korpus erzielt Rho-1 eine absolute Verbesserung der Few-Shot-Genauigkeit von bis zu 30% in 9 mathematischen Aufgaben. Nach Feinabstimmung erreichten Rho-1-1B und 7B Spitzenwerte von 40,6% bzw. 51,8% im MATH-Datensatz, was DeepSeekMath mit nur 3% der Vorabtrainierungs-Tokens entspricht. Darüber hinaus erzielt Rho-1 bei der Vorabtrainierung auf 80B allgemeinen Tokens eine durchschnittliche Verbesserung von 6,8% über 15 verschiedene Aufgaben, was sowohl die Effizienz als auch die Leistung der Vorabtrainierung von Sprachmodellen steigert.
Autonome Agenten, die komplexe Computer-Aufgaben mit minimalen menschlichen Eingriffen erledigen, haben das Potenzial, die Mensch-Computer-Interaktion zu transformieren und die Zugänglichkeit und Produktivität erheblich zu verbessern. Allerdings fehlt es bestehenden Benchmarks entweder an einer interaktiven Umgebung oder sie sind auf Umgebungen beschränkt, die spezifisch für bestimmte Anwendungen oder Domänen sind. Dadurch spiegeln sie nicht die vielfältige und komplexe Natur der Computer-Nutzung im echten Leben wider und begrenzen somit den Umfang der Aufgaben und die Skalierbarkeit der Agenten. Um dieses Problem anzugehen, führen wir OSWorld ein, die skalierbare, reale Computer-Umgebung für multimodale Agenten, die Aufgabenkonfiguration, ausführungsbasierte Bewertung und interaktives Lernen über verschiedene Betriebssysteme wie Ubuntu, Windows und macOS unterstützt. OSWorld kann als vereinheitlichte, integrierte Computer-Umgebung dienen, um offene Computer-Aufgaben zu bewerten, die beliebige Anwendungen beinhalten. Basierend auf OSWorld erstellen wir einen Benchmark von 369 Computer-Aufgaben, die reale Web- und Desktop-Anwendungen in offenen Domänen, OS-Datei-E/A und Workflows über mehrere Anwendungen umfassen. Jedes Aufgabenbeispiel stammt aus realen Computer-Nutzungsszenarien und enthält eine detaillierte anfängliche Zustandskonfiguration sowie ein benutzerdefiniertes, ausführungsbasiertes Bewertungsskript für eine zuverlässige, reproduzierbare Bewertung. Eine umfassende Bewertung von State-of-the-Art LLM/VLM-basierten Agenten auf OSWorld zeigt signifikante Mängel in ihrer Fähigkeit, als Computerassistenten zu dienen. Während Menschen über 72,36% der Aufgaben bewältigen können, erreicht das beste Modell nur einen Erfolg von 12,24%, hauptsächlich aufgrund von Schwierigkeiten mit der GUI-Verankerung und dem operativen Wissen. Eine umfassende Analyse mit OSWorld liefert wertvolle Erkenntnisse für die Entwicklung von multimodalen Generalisten-Agenten, die mit früheren Benchmarks nicht möglich waren. Unser Code, die Umgebung, Basismodelle und Daten sind öffentlich unter https://os-world.github.io verfügbar.
Um die Steuerbarkeit von Text-zu-Bild-Diffusionsmodellen zu verbessern, haben bestehende Bemühungen wie ControlNet bildbasierte bedingte Steuerungen integriert. In diesem Paper enthüllen wir, dass bestehende Methoden nach wie vor erheblichen Herausforderungen gegenüberstehen, Bilder zu generieren, die mit den bildbasierten bedingten Steuerungen übereinstimmen. Zu diesem Zweck schlagen wir ControlNet++ vor, einen neuartigen Ansatz, der die steuerbare Generierung verbessert, indem er explizit die Pixel-Ebenen-Zykluskonsistenz zwischen generierten Bildern und bedingten Steuerungen optimiert. Speziell für eine Eingabebedingung nutzen wir ein vortrainiertes diskriminatives Belohnungsmodell, um die entsprechende Bedingung der generierten Bilder zu extrahieren, und optimieren dann den Konsistenzverlust zwischen der Eingabebedingung und der extrahierten Bedingung. Eine einfache Implementierung würde darin bestehen, Bilder aus zufälligem Rauschen zu generieren und dann den Konsistenzverlust zu berechnen, aber ein solcher Ansatz erfordert das Speichern von Gradienten für mehrere Abtastzeitpunkte, was zu erheblichen Zeit- und Speicherkosten führt. Um dies zu lösen, führen wir eine effiziente Belohnungsstrategie ein, die die Eingabebilder gezielt stört, indem Rauschen hinzugefügt wird, und dann die rauschbereinigten Bilder für die Feinabstimmung der Belohnung verwendet. Dies vermeidet die umfangreichen Kosten, die mit der Bildabtastung verbunden sind, und ermöglicht eine effizientere Feinabstimmung der Belohnung. Umfangreiche Experimente zeigen, dass ControlNet++ die Steuerbarkeit unter verschiedenen bedingten Steuerungen signifikant verbessert. Beispielsweise erzielt es Verbesserungen gegenüber ControlNet von 7,9% mIoU, 13,4% SSIM und 7,6% RMSE für Segmentierungsmasken, Linienkunst-Kanten und Tiefenbedingungen.
Wir stellen RecurrentGemma vor, ein offenes Sprachmodell, das die neuartige Griffin-Architektur von Google verwendet. Griffin kombiniert lineare Rekurrenzen mit lokaler Aufmerksamkeit, um eine ausgezeichnete Leistung in der Sprachverarbeitung zu erzielen. Es hat einen festen Zustand, der den Speicherverbrauch reduziert und effiziente Inferenz auf langen Sequenzen ermöglicht. Wir stellen ein vorab trainiertes Modell mit 2 Milliarden nicht-einbettenden Parametern und eine anweisungsgesteuerte Variante bereit. Beide Modelle erreichen eine vergleichbare Leistung wie Gemma-2B, obwohl sie mit weniger Token trainiert wurden.
Während Ferret regionales Verständnis nahtlos in das Large Language Model (LLM) integriert, um seine Verweis- und Verankerungsfähigkeiten zu erleichtern, stellt es bestimmte Einschränkungen dar: Es ist durch den vortrainierten festen visuellen Encoder begrenzt und konnte nicht gut bei umfassenderen Aufgaben abschneiden. In dieser Arbeit enthüllen wir Ferret-v2, ein bedeutendes Upgrade zu Ferret, mit drei Schlüsselkonzepten. (1) Bodenung und Verweisung in jeder Auflösung: Ein flexibler Ansatz, der mühelos mit höherer Bildauflösung umgeht und die Fähigkeit des Modells verbessert, Bilder im Detail zu verarbeiten und zu verstehen. (2) Multi-Granularitäts-Visuelle Kodierung: Durch die Integration des zusätzlichen DINOv2 Encoders lernt das Modell bessere und vielfältigere zugrunde liegende Kontexte für globale und feinkörnige visuelle Informationen. (3) Ein dreistufiges Schulungsschema: Neben der Bildunterschrift-Abstimmung wird eine zusätzliche Stufe für hochauflösende dichte Ausrichtung vor der endgültigen Anweisungsabstimmung vorgeschlagen. Experimente zeigen, dass Ferret-v2 signifikante Verbesserungen gegenüber Ferret und anderen State-of-the-Art-Methoden bietet, dank seiner hochauflösenden Skalierung und feinkörnigen visuellen Verarbeitung.
Der Erfolg von KI-Modellen hängt von der Verfügbarkeit großer, vielfältiger und hochwertiger Datensätze ab, die aufgrund von Datenknappheit, Datenschutzbedenken und hohen Kosten schwierig zu beschaffen sein können. Synthetische Daten haben sich als vielversprechende Lösung herausgestellt, indem sie künstliche Daten generieren, die reale Muster nachahmen. Dieser Artikel gibt einen Überblick über die Forschung zu synthetischen Daten, diskutiert deren Anwendungen, Herausforderungen und zukünftige Richtungen. Wir präsentieren empirische Belege aus der Vorliteratur, um deren Wirksamkeit zu demonstrieren und betonen die Bedeutung der Gewährleistung von Faktizität, Treue und Unvoreingenommenheit. Wir heben die Notwendigkeit des verantwortungsbewussten Einsatzes von synthetischen Daten hervor, um leistungsstärkere, inklusivere und vertrauenswürdigere Sprachmodelle zu entwickeln.
Die Verarbeitung langer Kontexte bleibt für große Sprachmodelle (LLMs) aufgrund des quadratischen Rechenaufwands und des Speicherbedarfs des Self-Attention-Mechanismus sowie der beträchtlichen KV-Cache-Größen während der Generierung eine Herausforderung. Wir schlagen einen neuartigen Ansatz vor, um dieses Problem zu lösen, indem wir Kontexte offline durch Kontextkompression und parameter-effizientes Feintuning im jeweiligen Bereich erlernen. Unsere Methode ermöglicht es einem LLM, eine prägnante Darstellung des ursprünglichen Kontexts zu erstellen und relevante Informationen effizient abzurufen, um Fragen genau zu beantworten. Wir stellen LLoCO vor, eine Technik, die Kontextkompression, Abruf und parameter-effizientes Feintuning unter Verwendung von LoRA kombiniert. Unser Ansatz erweitert das effektive Kontextfenster eines 4k-Token LLaMA2-7B-Modells, um bis zu 128k Tokens zu verarbeiten. Wir evaluieren unseren Ansatz anhand mehrerer Datensätze für Fragen und Antworten zu langen Kontexten und zeigen, dass LLoCO signifikant besser abschneidet als das Lernen im Kontext, während es während der Inferenz 30-mal weniger Tokens verwendet. LLoCO erreicht eine bis zu 7,62-fache Beschleunigung und reduziert erheblich die Kosten für das Beantworten von Fragen zu langen Dokumenten, was es zu einer vielversprechenden Lösung für die effiziente Verarbeitung langer Kontexte macht. Unser Code ist öffentlich unter https://github.com/jeffreysijuntan/lloco verfügbar.
Im Bereich der Web-Agentenforschung bleibt es eine herausfordernde Aufgabe, sowohl Generalisierung als auch Genauigkeit zu erreichen. Aufgrund der hohen Varianz in der Struktur von Websites scheitern bestehende Ansätze oft. Darüber hinaus gelingt es bestehenden Feinabstimmungs- und In-Context-Lerntechniken nicht, über mehrere Websites hinweg zu generalisieren. Wir stellen Wilbur vor, einen Ansatz, der ein differenzierbares Ranking-Modell und eine neuartige Anleitungssynthesetechnik verwendet, um eine Black-Box eines großen Sprachmodells optimal mit Aufgaben-Demonstrationen aus früheren Durchläufen zu füllen. Um den Gesamterfolg zu maximieren, schlagen wir auch einen intelligenten Backtracking-Mechanismus vor, der aus Fehlern lernt und sich davon erholt. Schließlich zeigen wir, dass unser Ranking-Modell mit Daten aus einem generativen Auto-Lehrplan trainiert werden kann, der repräsentative Ziele aus einem LLM auswählt, den Agenten ausführt und automatisch bewertet, ohne manuelle Annotationen. Wilbur erzielt Spitzenleistungsergebnisse im WebVoyager-Benchmark, indem es Textmodelle insgesamt um 8% übertrifft und auf bestimmten Websites um bis zu 36% übertrifft. Im selben Benchmark liegt Wilbur trotz nur textueller Eingaben innerhalb von 5% eines starken multimodalen Modells, und weitere Analysen zeigen, dass eine beträchtliche Anzahl von Fehlern auf technische Herausforderungen beim Betrieb des Webs zurückzuführen ist.
Das hierarchisch gesteuerte lineare RNN (HGRN, Qin et al. 2023) hat eine wettbewerbsfähige Trainingsschnelligkeit und Leistung bei der Sprachmodellierung gezeigt, während es eine effiziente Inferenz bietet. Allerdings bleibt die rekurrente Zustandsgröße des HGRN relativ klein, was seine Ausdruckskraft einschränkt. Um dieses Problem anzugehen, führen wir inspiriert von linearer Aufmerksamkeit einen einfachen Mechanismus zur Zustandserweiterung auf Basis von äußeren Produkten ein, so dass die rekurrente Zustandsgröße signifikant vergrößert werden kann, ohne zusätzliche Parameter einzuführen. Die Form der linearen Aufmerksamkeit ermöglicht auch ein hardwareeffizientes Training. Unsere umfangreichen Experimente bestätigen den Vorteil von HGRN2 gegenüber HGRN1 bei der Sprachmodellierung, der Bildklassifizierung und der Long Range Arena. Unser größtes 3B HGRN2-Modell übertrifft leicht Mamba und die LLaMa-Architektur-Transformer bei der Sprachmodellierung in einem kontrollierten Experiment; und konkurriert wettbewerbsfähig mit vielen Open-Source-3B-Modellen bei der nachgelagerten Evaluation, während es deutlich weniger Gesamttrainings-Token verwendet.
Die Anleitung ist eine entscheidende Technik, um die beste Leistung aus bildgenerierenden Diffusionsmodellen zu extrahieren. Traditionell wurde ein konstantes Anleitungsgewicht während der gesamten Abtastkette eines Bildes angewendet. Wir zeigen, dass Anleitung zu Beginn der Kette (hohe Rauschniveaus) deutlich schädlich ist, gegen Ende (niedrige Rauschniveaus) weitgehend unnötig ist und nur in der Mitte vorteilhaft ist. Daher beschränken wir es auf einen spezifischen Bereich von Rauschniveaus, was sowohl die Inferenzgeschwindigkeit als auch die Ergebnisqualität verbessert. Dieses begrenzte Anleitungsinvervall verbessert den Rekord-FID in ImageNet-512 signifikant, von 1,81 auf 1,40. Wir zeigen, dass es quantitativ und qualitativ vorteilhaft ist, unabhängig von verschiedenen Abtastparameter, Netzwerkarchitekturen und Datensätzen, einschließlich des groß angelegten Stable Diffusion XL. Daher schlagen wir vor, das Anleitungsinvervall als Hyperparameter in allen Diffusionsmodellen, die Anleitung verwenden, freizulegen.
Die Spurerkennung ist eine grundlegende Aufgabe beim autonomen Fahren und hat mit dem Aufkommen des Deep Learning große Fortschritte erzielt. Frühere ankerbasierte Methoden entwerfen oft dichte Anker, die stark vom Trainingsdatensatz abhängen und während der Inferenz unverändert bleiben. Wir analysieren, dass dichte Anker für die Spurerkennung nicht notwendig sind, und schlagen ein auf Transformer basierendes Spurerkennungs-Framework vor, das auf einem spärlichen Ankermechanismus basiert. Zu diesem Zweck generieren wir spärliche Anker mit positionsbewussten Spurabfragen und Winkelabfragen anstelle von traditionellen expliziten Ankern. Wir übernehmen die horizontale perzeptive Aufmerksamkeit (HPA), um die Spurmerkmale entlang der horizontalen Richtung zu aggregieren, und übernehmen die Spur-Winkel-Kreuz-Aufmerksamkeit (LACA), um Interaktionen zwischen Spurabfragen und Winkelabfragen durchzuführen. Wir schlagen auch die Spurperzeptive Aufmerksamkeit (LPA) basierend auf deformierbarer Kreuz-Aufmerksamkeit vor, um die Spurvorhersagen weiter zu verfeinern. Unsere Methode, genannt Sparse Laneformer, ist einfach umzusetzen und end-to-end trainierbar. Umfangreiche Experimente zeigen, dass Sparse Laneformer gegenüber den State-of-the-Art-Methoden günstig abschneidet, z. B. übertrifft er Laneformer um 3,0% F1-Score und O2SFormer um 0,7% F1-Score mit weniger MACs auf CULane mit dem gleichen ResNet-34-Backbone.