Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Encoder-only Transformer-Modelle wie BERT bieten ein hervorragendes Verhältnis von Leistung und Größe für Abruf- und Klassifizierungsaufgaben im Vergleich zu größeren Decoder-Modellen. Obwohl sie das Arbeitspferd zahlreicher Produktionspipelines sind, gab es seit seiner Veröffentlichung nur begrenzte Pareto-Verbesserungen für BERT. In diesem Paper stellen wir ModernBERT vor, das moderne Modelloptimierungen für ausschließlich Encoder-Modelle einführt und eine bedeutende Pareto-Verbesserung gegenüber älteren Encodern darstellt. Trainiert mit 2 Billionen Tokens und einer nativen Sequenzlänge von 8192 zeigen ModernBERT-Modelle Spitzenleistungen bei einer Vielzahl von Bewertungen, die verschiedene Klassifizierungsaufgaben sowie Einzel- und Mehrvektor-Abruf in verschiedenen Bereichen (einschließlich Code) umfassen. Neben einer starken Leistung in der Nachbearbeitung ist ModernBERT auch der effizienteste Encoder hinsichtlich Geschwindigkeit und Speichernutzung und wurde für die Inferenz auf gängigen GPUs konzipiert.
Die Produktion von 2D-Animation folgt einem branchenüblichen Workflow, der vier wesentliche Phasen umfasst: Charakterdesign, Keyframe-Animation, Zwischenzeichnung und Kolorierung. Unsere Forschung konzentriert sich darauf, die Arbeitskosten in diesem Prozess zu reduzieren, indem das Potenzial der zunehmend leistungsstarken generativen KI genutzt wird. Unter Verwendung von Videodiffusionsmodellen als Grundlage entsteht AniDoc als ein Werkzeug zur Farbgebung von Videostrichzeichnungen, das Skizzenfolgen automatisch in farbige Animationen gemäß den Referenzcharakterspezifikationen umwandelt. Unser Modell nutzt die Korrespondenzanpassung als explizite Anleitung und erzielt damit eine hohe Robustheit gegenüber den Variationen (z.B. Haltung) zwischen dem Referenzcharakter und jedem Strichzeichnungsrahmen. Darüber hinaus könnte unser Modell sogar den Zwischenzeichnungsprozess automatisieren, sodass Benutzer ganz einfach eine zeitlich konsistente Animation erstellen können, indem sie einfach ein Charakterbild sowie die Start- und Endskizzen bereitstellen. Unser Code ist verfügbar unter: https://yihao-meng.github.io/AniDoc_demo.
Wir interagieren täglich mit Computern, sei es im Alltag oder bei der Arbeit, und viele Aspekte der Arbeit können vollständig mit Zugang zu einem Computer und dem Internet erledigt werden. Gleichzeitig hat es dank Verbesserungen in großen Sprachmodellen (LLMs) auch eine rasante Entwicklung von KI-Agenten gegeben, die mit ihrer Umgebung interagieren und Veränderungen bewirken. Doch wie leistungsfähig sind KI-Agenten dabei, Arbeitsaufgaben zu beschleunigen oder sogar autonom auszuführen? Die Antwort auf diese Frage hat wichtige Auswirkungen sowohl für die Industrie, die KI in ihre Arbeitsabläufe integrieren möchte, als auch für die Wirtschaftspolitik, um die Auswirkungen der KI-Adoption auf den Arbeitsmarkt zu verstehen. Um den Fortschritt dieser LLM-Agenten bei der Ausführung realer beruflicher Aufgaben zu messen, stellen wir in diesem Papier TheAgentCompany vor, einen erweiterbaren Benchmark zur Bewertung von KI-Agenten, die auf ähnliche Weise mit der Welt interagieren wie ein digitaler Arbeiter: durch das Durchsuchen des Webs, das Schreiben von Code, das Ausführen von Programmen und die Kommunikation mit anderen Kollegen. Wir erstellen eine eigenständige Umgebung mit internen Websites und Daten, die eine kleine Softwareunternehmensumgebung nachahmt, und erstellen eine Vielzahl von Aufgaben, die von Mitarbeitern in einem solchen Unternehmen ausgeführt werden könnten. Wir testen Baseline-Agenten, die von sowohl API-basierten geschlossenen als auch offenen Gewichtungs-Sprachmodellen (LMs) betrieben werden, und stellen fest, dass mit dem leistungsfähigsten Agenten 24% der Aufgaben autonom abgeschlossen werden können. Dies zeichnet ein differenziertes Bild der Aufgabenautomatisierung mit LM-Agenten - in einer Umgebung, die einen realen Arbeitsplatz simuliert, könnten viele einfachere Aufgaben autonom gelöst werden, aber schwierigere langfristige Aufgaben sind immer noch außerhalb der Reichweite aktueller Systeme.
In dieser Arbeit hinterfragen wir die Notwendigkeit adaptiver Gradientenmethoden für das Training tiefer neuronaler Netzwerke. SGD-SaI ist eine einfache, aber effektive Verbesserung des stochastischen Gradientenabstiegs mit Momentum (SGDM). SGD-SaI führt das Lernraten-Scaling bei der Initialisierung (SaI) für verschiedene Parametergruppen durch, geleitet durch ihre jeweiligen Gradienten-Signal-Rausch-Verhältnisse (g-SNR). Durch die Anpassung der Lernraten, ohne auf adaptives Momentum zweiter Ordnung angewiesen zu sein, hilft SGD-SaI, Trainingsungleichgewichte bereits ab der ersten Iteration zu verhindern und den Speicherverbrauch des Optimierers im Vergleich zu AdamW zu halbieren. Trotz seiner Einfachheit und Effizienz übertrifft SGD-SaI konstant oder erreicht die Leistung von AdamW beim Training verschiedener Aufgaben auf Basis von Transformern, wodurch eine langjährige Herausforderung bei der Verwendung von SGD für das Training von Transformern effektiv bewältigt wird. SGD-SaI zeichnet sich bei der ImageNet-1K-Klassifizierung mit Vision-Transformern (ViT) und dem GPT-2-Feintuning für große Sprachmodelle (LLMs, nur Transformer-Decoder) aus, was seine Robustheit gegenüber Hyperparameter-Variationen und seine Praktikabilität für vielfältige Anwendungen zeigt. Wir haben seine Robustheit auch bei Aufgaben wie LoRA-Feintuning für LLMs und Diffusionsmodellen getestet, bei denen er konsequent bessere Leistungen als optimale Optimierer erzielt. Aus der Perspektive der Speichereffizienz erzielt SGD-SaI erhebliche Speichereinsparungen für Optimiererzustände und reduziert den Speicherverbrauch um 5,93 GB für GPT-2 (1,5 Mrd. Parameter) und 25,15 GB für Llama2-7B im Vergleich zu AdamW in Einstellungen für das Training in voller Präzision.
Grafische Benutzeroberfläche (GUI)-Agenten, die von großen Grundlagenmodellen angetrieben werden, haben sich als ein transformativer Ansatz zur Automatisierung der Mensch-Computer-Interaktion herauskristallisiert. Diese Agenten interagieren autonom mit digitalen Systemen oder Softwareanwendungen über GUIs und ahmen menschliche Aktionen wie Klicken, Tippen und Navigieren von visuellen Elementen auf verschiedenen Plattformen nach. Angespornt durch das wachsende Interesse und die grundlegende Bedeutung von GUI-Agenten, bieten wir eine umfassende Übersicht, die ihre Benchmarks, Evaluierungsmetriken, Architekturen und Trainingsmethoden kategorisiert. Wir schlagen ein einheitliches Rahmenwerk vor, das ihre Wahrnehmungs-, Schlussfolgerungs-, Planungs- und Handlungsfähigkeiten abgrenzt. Darüber hinaus identifizieren wir wichtige offene Herausforderungen und diskutieren Schlüsselrichtungen für die Zukunft. Abschließend dient diese Arbeit als Grundlage für Praktiker und Forscher, um ein intuitives Verständnis über den aktuellen Fortschritt, Techniken, Benchmarks und kritische offene Probleme zu erlangen, die noch angegangen werden müssen.
Menschen besitzen die visuell-räumliche Intelligenz, um Räume aus aufeinanderfolgenden visuellen Beobachtungen zu merken. Aber können Multimodale Große Sprachmodelle (MLLMs), die auf Videos mit Millionen von Daten trainiert sind, auch "im Raum denken" basierend auf Videos? Wir präsentieren einen neuartigen Benchmark für visuell-räumliche Intelligenz auf Videobasis (VSI-Bench) mit über 5.000 Frage-Antwort-Paaren und stellen fest, dass MLLMs eine wettbewerbsfähige - wenn auch untermenschliche - visuell-räumliche Intelligenz aufweisen. Wir untersuchen Modelle, um auszudrücken, wie sie sowohl sprachlich als auch visuell im Raum denken, und stellen fest, dass, während räumliche Denkfähigkeiten weiterhin der Hauptengpass für MLLMs sind, um eine höhere Benchmark-Leistung zu erreichen, lokale Weltmodelle und räumliches Bewusstsein in diesen Modellen auftauchen. Bemerkenswerterweise tragen vorherrschende sprachliche Denktechniken (z.B. Gedankenreihe, Selbstkonsistenz, Gedankenbaum) nicht zur Verbesserung der Leistung bei, während das explizite Generieren kognitiver Karten während des Frage-Antwort-Prozesses die räumliche Distanzfähigkeit von MLLMs verbessert.
Die Skalierung der Eingabebildauflösung ist entscheidend für die Verbesserung der Leistung von Vision Language Models (VLMs), insbesondere bei textreichen Bildverstehensaufgaben. Beliebte visuelle Encoder wie ViTs werden jedoch bei hohen Auflösungen aufgrund der großen Anzahl von Tokens und der hohen Kodierungsverzögerung durch gestapelte Self-Attention-Schichten ineffizient. Bei verschiedenen Betriebsauflösungen kann der Vision-Encoder eines VLMs entlang zweier Achsen optimiert werden: Reduzierung der Kodierungsverzögerung und Minimierung der Anzahl visueller Tokens, die an das LLM übergeben werden, wodurch die Gesamtverzögerung verringert wird. Basierend auf einer umfassenden Effizienzanalyse des Zusammenspiels zwischen Bildauflösung, Vision-Verzögerung, Token-Anzahl und LLM-Größe stellen wir FastVLM vor, ein Modell, das einen optimierten Kompromiss zwischen Verzögerung, Modellgröße und Genauigkeit erreicht. FastVLM integriert FastViTHD, einen neuartigen hybriden Vision-Encoder, der dazu konzipiert ist, weniger Tokens auszugeben und die Kodierungszeit für hochauflösende Bilder signifikant zu reduzieren. Im Gegensatz zu früheren Methoden erzielt FastVLM das optimale Gleichgewicht zwischen visueller Token-Anzahl und Bildauflösung allein durch Skalierung des Eingabebildes, was die Notwendigkeit für zusätzliches Token-Pruning beseitigt und das Modell-Design vereinfacht. Im LLaVA-1.5-Setup erzielt FastVLM eine 3,2-fache Verbesserung der Zeit bis zum ersten Token (TTFT), während es im Vergleich zu früheren Arbeiten eine ähnliche Leistung bei VLM-Benchmarks beibehält. Im Vergleich zu LLaVa-OneVision bei höchster Auflösung (1152x1152) erreicht FastVLM eine vergleichbare Leistung bei wichtigen Benchmarks wie SeedBench und MMMU, unter Verwendung desselben 0,5B LLM, jedoch mit einer 85-fach schnelleren TTFT und einem Vision-Encoder, der 3,4-mal kleiner ist.
Große Sprachmodelle (LLMs) haben bemerkenswerte Erfolge erzielt, doch aktuelle Erkenntnisse zeigen, dass ihre tieferen Schichten oft nur minimalen Beitrag leisten und ohne Auswirkungen auf die Gesamtleistung beschnitten werden können. Während einige dies als Chance für die Modellkompression betrachten, identifizieren wir es als ein Trainingsdefizit, das in der weit verbreiteten Verwendung der Vor-Schichten-Normalisierung (Pre-LN) verwurzelt ist. Wir zeigen auf, dass Pre-LN, das üblicherweise in Modellen wie GPT und LLaMA verwendet wird, zu verringerten Gradientennormen in den tieferen Schichten führt, was ihre Wirksamkeit reduziert. Im Gegensatz dazu bewahrt die Nach-Schichten-Normalisierung (Post-LN) größere Gradientennormen in den tieferen Schichten, leidet jedoch unter verschwindenden Gradienten in den früheren Schichten. Um dies anzugehen, führen wir Mix-LN ein, eine neuartige Normalisierungstechnik, die die Stärken von Pre-LN und Post-LN innerhalb desselben Modells kombiniert. Mix-LN wendet Post-LN auf die früheren Schichten und Pre-LN auf die tieferen Schichten an, um gleichmäßigere Gradienten über die Schichten hinweg zu gewährleisten. Dies ermöglicht es allen Teilen des Netzwerks - sowohl den oberflächlichen als auch den tiefen Schichten -, effektiv zum Training beizutragen. Umfangreiche Experimente mit verschiedenen Modellgrößen von 70M bis 7B zeigen, dass Mix-LN durchweg sowohl Pre-LN als auch Post-LN übertrifft, indem es ausgewogenere, gesündere Gradientennormen im gesamten Netzwerk fördert und die Gesamtqualität des LLM-Vor-Trainings verbessert. Darüber hinaus zeigen wir, dass Modelle, die mit Mix-LN vorab trainiert wurden, im Vergleich zu denen, die Pre-LN oder Post-LN während des überwachten Feintunings (SFT) und des Lernens durch menschliches Feedback (RLHF) verwenden, besser lernen, was die entscheidende Bedeutung hochwertiger tiefer Schichten hervorhebt. Indem Mix-LN die Ineffizienzen der tiefen Schichten in aktuellen LLMs effektiv angeht, hebt es ihr Potenzial und verbessert die Modellkapazität, ohne die Modellgröße zu erhöhen. Unser Code ist unter https://github.com/pixeli99/MixLN verfügbar.
In multimodalen großen Sprachmodellen (MLLMs) werden Vision-Transformer (ViTs) weit verbreitet zur visuellen Kodierung eingesetzt. Ihre Leistung bei der Lösung universeller MLLM-Aufgaben ist jedoch nicht zufriedenstellend. Wir führen dies auf einen Mangel an Informationen aus verschiedenen visuellen Ebenen zurück, der die Ausrichtung mit den verschiedenen semantischen Granularitäten, die für die Sprachgenerierung erforderlich sind, behindert. Um dieses Problem zu lösen, präsentieren wir LLaVA-UHD v2, ein fortschrittliches MLLM, das um einen hierarchischen Fenster-Transformer zentriert ist, der es ermöglicht, diverse visuelle Granularitäten zu erfassen, indem er eine hochauflösende Merkmalspyramide konstruiert und integriert. Als Vision-Sprach-Projektor umfasst der Hiwin-Transformer zwei Hauptmodule: (i) eine inverse Merkmalspyramide, die durch einen ViT-abgeleiteten Merkmals-Up-Sampling-Prozess konstruiert wird, der hochfrequente Details aus einer Bildpyramide nutzt, und (ii) hierarchische Fensteraufmerksamkeit, die sich auf eine Reihe von Schlüsselabtastmerkmalen innerhalb von übergeordneten Skalenfenstern konzentriert, um mehrstufige Merkmalskarten zu kondensieren. Umfangreiche Experimente zeigen, dass LLaVA-UHD v2 eine überlegene Leistung gegenüber bestehenden MLLMs auf beliebten Benchmarks erzielt. Bemerkenswert ist, dass unser Design im Durchschnitt eine Steigerung von 3,7% über 14 Benchmarks im Vergleich zur Basismethode bringt, beispielsweise 9,3% bei DocVQA. Wir stellen alle Daten, Modell-Checkpoints und den Code öffentlich zur Verfügung, um zukünftige Forschung zu erleichtern.
Wir präsentieren FashionComposer für die kompositorische Generierung von Modebildern. Im Gegensatz zu früheren Methoden ist FashionComposer äußerst flexibel. Es nimmt multimodale Eingaben (d. h. Texteingabe, parametrisches menschliches Modell, Kleidungsbild und Gesichtsbild) entgegen und unterstützt die Personalisierung des Erscheinungsbilds, der Pose und der Figur des Menschen sowie das Zuweisen mehrerer Kleidungsstücke in einem Durchgang. Um dies zu erreichen, entwickeln wir zunächst ein universelles Framework, das in der Lage ist, verschiedene Eingabemodalitäten zu verarbeiten. Wir erstellen skalierte Trainingsdaten, um die robusten kompositorischen Fähigkeiten des Modells zu verbessern. Um mehrere Referenzbilder (Kleidungsstücke und Gesichter) nahtlos zu integrieren, organisieren wir diese Referenzen in einem einzigen Bild als "Asset-Bibliothek" und verwenden ein Referenz-UNet zur Extraktion von Erscheinungsmerkmalen. Um die Erscheinungsmerkmale korrekt in die generierten Ergebnisse einzufügen, schlagen wir eine Subjekt-Bindungs-Aufmerksamkeit vor. Diese verknüpft die Erscheinungsmerkmale aus verschiedenen "Assets" mit den entsprechenden Textmerkmalen. Auf diese Weise kann das Modell jedes Asset entsprechend seiner Semantik verstehen und beliebige Anzahlen und Arten von Referenzbildern unterstützen. Als umfassende Lösung unterstützt FashionComposer auch viele andere Anwendungen wie die Generierung von Alben mit Menschen, diverse virtuelle Anproben usw.
Dieses Paper präsentiert einen neuartigen Ansatz, der die autoregressive Generierung von Videos mit hoher Effizienz ermöglicht. Wir schlagen vor, das Problem der Video-Generierung als nicht-quantisierte autoregressive Modellierung von zeitlicher Frame-für-Frame-Vorhersage und räumlicher Set-für-Set-Vorhersage umzuformulieren. Im Gegensatz zur raster-scan Vorhersage in früheren autoregressiven Modellen oder der gemeinsamen Verteilungsmodellierung von Tokens fester Länge in Diffusionsmodellen behält unser Ansatz die kausale Eigenschaft von GPT-Modellen für flexible In-Context-Fähigkeiten bei, während er die bidirektionale Modellierung innerhalb einzelner Frames für Effizienz nutzt. Mit dem vorgeschlagenen Ansatz trainieren wir ein neuartiges autoregressives Video-Modell ohne Vektorquantisierung, genannt NOVA. Unsere Ergebnisse zeigen, dass NOVA frühere autoregressive Video-Modelle in Daten-Effizienz, Inferenzgeschwindigkeit, visueller Treue und Video-Flüssigkeit übertrifft, selbst bei einer viel kleineren Modellkapazität, d.h. 0,6 Milliarden Parametern. NOVA übertrifft auch state-of-the-art Bild-Diffusionsmodelle in Text-zu-Bild-Generierungsaufgaben bei erheblich niedrigeren Trainingskosten. Darüber hinaus generalisiert NOVA gut über erweiterte Videodauern und ermöglicht vielfältige Zero-Shot-Anwendungen in einem vereinheitlichten Modell. Code und Modelle sind öffentlich verfügbar unter https://github.com/baaivision/NOVA.
Prompts spielen eine entscheidende Rolle bei der Entfesselung der Leistung von Sprach- und Bildgrundlagenmodellen für spezifische Aufgaben. Zum ersten Mal führen wir das Anregen in tiefen Grundlagenmodellen ein und schaffen ein neues Paradigma für die metrische Tiefenschätzung namens Prompt Depth Anything. Spezifisch verwenden wir ein kostengünstiges LiDAR als Anregung, um das Depth Anything-Modell für präzise metrische Tiefenausgabe mit bis zu 4K-Auflösung zu führen. Unser Ansatz konzentriert sich auf ein prägnantes Prompt-Fusionsdesign, das das LiDAR in mehreren Maßstäben innerhalb des Tiefendekoders integriert. Um mit den Schulungsherausforderungen umzugehen, die durch begrenzte Datensätze entstehen, die sowohl LiDAR-Tiefe als auch präzise GT-Tiefe enthalten, schlagen wir eine skalierbare Datenpipeline vor, die synthetische Daten-LiDAR-Simulation und die Erzeugung von pseudo GT-Tiefe aus realen Daten umfasst. Unser Ansatz setzt neue State-of-the-Arts auf den ARKitScenes- und ScanNet++-Datensätzen und profitiert von nachgelagerten Anwendungen, einschließlich 3D-Rekonstruktion und generalisiertem robotergestütztem Greifen.
Georäumliche Modelle müssen sich an die Vielfalt der Erdbeobachtungsdaten in Bezug auf Auflösungen, Maßstäbe und Modalitäten anpassen. Allerdings erwarten bestehende Ansätze feste Eingabekonfigurationen, was ihre praktische Anwendbarkeit einschränkt. Wir schlagen AnySat vor, ein multimodales Modell basierend auf einer gemeinsamen Einbettungsvorhersagearchitektur (JEPA) und auflösungsadaptiven räumlichen Encodern, die es uns ermöglichen, ein einziges Modell auf stark heterogenen Daten selbstüberwacht zu trainieren. Um die Vorteile dieses vereinheitlichten Ansatzes zu demonstrieren, erstellen wir GeoPlex, eine Sammlung von 5 multimodalen Datensätzen mit unterschiedlichen Merkmalen und 11 verschiedenen Sensoren. Anschließend trainieren wir ein einziges leistungsstarkes Modell gleichzeitig auf diesen vielfältigen Datensätzen. Nach Feinabstimmung erzielen wir bessere oder nahezu state-of-the-art Ergebnisse auf den Datensätzen von GeoPlex und 4 zusätzlichen für 5 Umweltüberwachungsaufgaben: Landbedeckungskartierung, Baumartenidentifikation, Klassifizierung von Anbautypen, Änderungserkennung und Flutsegmentierung. Der Code und die Modelle sind verfügbar unter https://github.com/gastruc/AnySat.
Diffusionsrichtlinien sind in der Imitationslernen weit verbreitet und bieten verschiedene attraktive Eigenschaften, wie die Erzeugung multimodaler und diskontinuierlicher Verhaltensweisen. Da Modelle immer größer werden, um komplexere Fähigkeiten zu erfassen, steigen ihre Rechenanforderungen, wie durch aktuelle Skalierungsgesetze gezeigt. Daher wird die Fortführung der aktuellen Architekturen zu einem Rechenhindernis führen. Um diese Lücke zu schließen, schlagen wir Mixture-of-Denoising Experts (MoDE) als neuartige Richtlinie für das Imitationslernen vor. MoDE übertrifft aktuelle State-of-the-Art Transformer-basierte Diffusionsrichtlinien und ermöglicht eine parameter-effiziente Skalierung durch spärliche Experten und rauschbedingtes Routing, wodurch sowohl die aktiven Parameter um 40 % als auch die Inferenzkosten um 90 % durch Expertencaching reduziert werden. Unsere Architektur kombiniert diese effiziente Skalierung mit einem rauschbedingten Self-Attention-Mechanismus, der eine effektivere Rauschunterdrückung bei verschiedenen Rauschniveaus ermöglicht. MoDE erzielt State-of-the-Art-Leistung in 134 Aufgaben in vier etablierten Imitationslern-Benchmarks (CALVIN und LIBERO). Bemerkenswert ist, dass wir durch das Vortrainieren von MoDE auf vielfältigen Robotikdaten 4,01 bei CALVIN ABC und 0,95 bei LIBERO-90 erreichen. Es übertrifft sowohl CNN-basierte als auch Transformer-Diffusionsrichtlinien im Durchschnitt um 57 % über 4 Benchmarks hinweg, während es 90 % weniger FLOPs und weniger aktive Parameter im Vergleich zu Standard-Diffusionstransformer-Architekturen verwendet. Darüber hinaus führen wir umfassende Ablationen an MoDE-Komponenten durch, um Einblicke in die Gestaltung effizienter und skalierbarer Transformer-Architekturen für Diffusionsrichtlinien zu geben. Der Code und Demonstrationen sind verfügbar unter https://mbreuss.github.io/MoDE_Diffusion_Policy/.
Das skalierbare Lernen von humanoiden Robotern ist entscheidend für ihren Einsatz in realen Anwendungen. Während herkömmliche Ansätze hauptsächlich auf Verstärkungslernen oder Teleoperation zur Erreichung einer Ganzkörperkontrolle setzen, sind sie oft durch die Vielfalt simulierter Umgebungen und die hohen Kosten für die Datensammlung bei Demonstrationen begrenzt. Im Gegensatz dazu sind menschliche Videos allgegenwärtig und stellen eine unerschlossene Quelle semantischer und Bewegungsinformationen dar, die die Verallgemeinerungsfähigkeiten humanoider Roboter erheblich verbessern könnten. Dieser Artikel stellt Humanoid-X vor, einen groß angelegten Datensatz von über 20 Millionen Posen humanoider Roboter mit entsprechenden textbasierten Bewegungsbeschreibungen, der darauf abzielt, diese reichhaltigen Daten zu nutzen. Humanoid-X wird durch einen umfassenden Prozess kuratiert: Datengewinnung aus dem Internet, Generierung von Videobeschreibungen, Bewegungsübertragung von Menschen auf humanoide Roboter und Richtlinienlernen für den Einsatz im realen Umfeld. Mit Humanoid-X trainieren wir weiterhin ein großes humanoides Modell, UH-1, das Textanweisungen als Eingabe erhält und entsprechende Aktionen ausgibt, um einen humanoiden Roboter zu steuern. Umfangreiche simulierte und reale Experimente bestätigen, dass unser skalierbarer Trainingsansatz zu einer überlegenen Verallgemeinerung bei der textbasierten Steuerung humanoider Roboter führt und somit einen bedeutenden Schritt hin zu anpassungsfähigen, einsatzbereiten humanoiden Robotern darstellt.
Trotz des signifikanten Fortschritts, den bestehende abrufgestützte Sprachmodelle (RALMs) bei der Bereitstellung vertrauenswürdiger Antworten und der Verankerung in zuverlässigen Quellen erzielt haben, vernachlässigen sie oft eine effektive Ausrichtung an menschlichen Präferenzen. Im Ausrichtungsprozess fungieren Belohnungsmodelle (RMs) als entscheidende Stellvertreter menschlicher Werte, um die Optimierung zu lenken. Es bleibt jedoch unklar, wie man ein zuverlässiges RM zur Präferenzausrichtung in RALMs bewerten und auswählen kann. Zu diesem Zweck schlagen wir RAG-RewardBench vor, den ersten Benchmark zur Bewertung von RMs in RAG-Umgebungen. Zunächst entwerfen wir vier entscheidende und anspruchsvolle RAG-spezifische Szenarien zur Bewertung von RMs, darunter mehrstufiges Denken, fein abgestufte Zitate, angemessenes Enthalten und Konfliktrobustheit. Anschließend integrieren wir 18 RAG-Teilmengen, sechs Abrufer und 24 RALMs, um die Vielfalt der Datenquellen zu erhöhen. Schließlich übernehmen wir einen LLM-als-Richter-Ansatz, um die Effizienz und Wirksamkeit der Präferenzannotation zu verbessern und eine starke Korrelation mit menschlichen Annotationen zu zeigen. Basierend auf dem RAG-RewardBench führen wir eine umfassende Bewertung von 45 RMs durch und decken ihre Einschränkungen in RAG-Szenarien auf. Darüber hinaus zeigen wir auch auf, dass bestehende trainierte RALMs fast keine Verbesserung in der Präferenzausrichtung aufweisen, was die Notwendigkeit einer Umstellung auf präferenzorientiertes Training hervorhebt. Wir veröffentlichen unseren Benchmark und den Code öffentlich unter https://huggingface.co/datasets/jinzhuoran/RAG-RewardBench/ für zukünftige Arbeiten.
Die Codierung von Videoinhalten in kompakte latente Tokens ist zu einem grundlegenden Schritt in der Videoerzeugung und -verarbeitung geworden, angetrieben durch die Notwendigkeit, die inhärente Redundanz in Pixel-Ebene Darstellungen zu bewältigen. Folglich besteht eine wachsende Nachfrage nach leistungsstarken, Open-Source Video-Tokenizern, da die videobasierte Forschung an Bedeutung gewinnt. Wir stellen VidTok vor, einen vielseitigen Video-Tokenizer, der Spitzenleistungen sowohl bei kontinuierlichen als auch diskreten Tokenisierungen bietet. VidTok integriert mehrere Schlüsselinnovationen gegenüber bestehenden Ansätzen: 1) Modellarchitektur wie Faltungs- und Auf-/Abtastmodule; 2) zur Bewältigung der Trainingsinstabilität und des Codebuch-Kollapses, die häufig mit der konventionellen Vektorquantisierung (VQ) verbunden sind, integrieren wir die Finite Skalarquantisierung (FSQ) in die diskrete Videotokenisierung; 3) verbesserte Trainingsstrategien, einschließlich eines zweistufigen Schulungsprozesses und der Verwendung reduzierter Bildraten. Durch die Integration dieser Innovationen erzielt VidTok signifikante Verbesserungen gegenüber bestehenden Methoden und zeigt eine überlegene Leistung über mehrere Metriken, einschließlich PSNR, SSIM, LPIPS und FVD, unter standardisierten Bewertungseinstellungen.
Aktuelle Forschung arXiv:2410.15027 arXiv:2410.23775 hat die inhärenten In-Context-Generierungsfähigkeiten von vortrainierten Diffusions-Transformern (DiTs) hervorgehoben, die es ihnen ermöglichen, sich nahtlos an verschiedene visuelle Aufgaben anzupassen, mit minimalen oder keinen architektonischen Modifikationen. Diese Fähigkeiten werden durch die Verkettung von Self-Attention-Token über mehrere Eingabe- und Zielbilder freigeschaltet, kombiniert mit gruppierten und maskierten Generierungspipelines. Aufbauend auf diesem Fundament präsentieren wir ChatDiT, ein Zero-Shot-, Allzweck- und interaktives visuelles Generierungsframework, das vortrainierte Diffusions-Transformer in ihrer Originalform nutzt, ohne zusätzliche Abstimmung, Adapter oder Modifikationen zu benötigen. Benutzer können mit ChatDiT interagieren, um ineinander verschachtelte Text-Bild-Artikel, mehrseitige Bildbücher zu erstellen, Bilder zu bearbeiten, IP-Derivate zu entwerfen oder Charakterdesign-Einstellungen zu entwickeln, alles durch freiformnatürliche Sprache über eine oder mehrere Gesprächsrunden hinweg. Im Kern verwendet ChatDiT ein Multi-Agenten-System, bestehend aus drei Schlüsselkomponenten: einem Anweisungs-Analyse-Agenten, der vom Benutzer hochgeladene Bilder und Anweisungen interpretiert, einem Strategie-Planungs-Agenten, der Einzelschritt- oder Mehrschritt-Generierungsaktionen entwirft, und einem Ausführungs-Agenten, der diese Aktionen mithilfe eines In-Context-Toolkits von Diffusions-Transformern durchführt. Wir evaluieren ChatDiT gründlich auf IDEA-Bench arXiv:2412.11767, bestehend aus 100 realen Designaufgaben und 275 Fällen mit unterschiedlichen Anweisungen und variierenden Anzahlen von Eingabe- und Zielbildern. Trotz seiner Einfachheit und Trainingsfreiheit übertrifft ChatDiT alle Konkurrenten, einschließlich derjenigen, die speziell für umfangreiche Multi-Task-Datensätze entworfen und trainiert wurden. Wir identifizieren auch wesentliche Einschränkungen vortrainierter DiTs bei der Zero-Shot-Anpassung an Aufgaben. Wir veröffentlichen den gesamten Code, Agenten, Ergebnisse und Zwischenausgaben, um weitere Forschung zu erleichtern unter https://github.com/ali-vilab/ChatDiT
Wir präsentieren eine Demonstration eines großen Sprachmodells, das sich an der Ausrichtungsfälschung beteiligt: selektiv konform mit seinem Trainingsziel im Training, um eine Änderung seines Verhaltens außerhalb des Trainings zu verhindern. Zunächst geben wir Claude 3 Opus eine Systemaufforderung, in der steht, dass es darauf trainiert wird, alle Anfragen zu beantworten, auch schädliche, was im Widerspruch zu seinem vorherigen Training steht, solche Anfragen abzulehnen. Um dem Modell zu ermöglichen zu schlussfolgern, wann es im Training ist, sagen wir, dass es nur in Gesprächen mit freien Benutzern trainiert wird, nicht mit zahlenden Benutzern. Wir stellen fest, dass das Modell schädlichen Anfragen von freien Benutzern 14% der Zeit nachkommt, im Vergleich zu fast nie bei zahlenden Benutzern. Zur Erklärung dieser Diskrepanz beobachten wir in fast allen Fällen, in denen das Modell einer schädlichen Anfrage von einem freien Benutzer nachkommt, explizite Ausrichtungsfälschungsargumentation, wobei das Modell angibt, strategisch schädliche Anfragen im Training zu beantworten, um sein bevorzugtes harmloses Verhalten außerhalb des Trainings zu bewahren. Als Nächstes untersuchen wir eine realistischere Einstellung, in der Informationen über den Trainingsprozess nicht in einer Systemaufforderung bereitgestellt werden, sondern durch das Training an synthetischen Dokumenten, die die Vortrainingsdaten nachahmen - und beobachten ähnliche Ausrichtungsfälschung. Schließlich untersuchen wir die Auswirkung des tatsächlichen Trainings des Modells, um schädlichen Anfragen durch Verstärkungslernen nachzukommen, was wir feststellen, erhöht den Anteil der Ausrichtungsfälschungsargumentation auf 78%, erhöht jedoch auch die Einhaltung außerhalb des Trainings. Wir beobachten zusätzlich andere Verhaltensweisen wie das Modell, das seine Gewichte exfiltriert, wenn sich eine einfache Gelegenheit bietet. Obwohl wir die Ausrichtungsfälschung erleichtert haben, indem wir dem Modell mitgeteilt haben, wann und nach welchen Kriterien es trainiert wird, haben wir dem Modell nicht beigebracht, die Ausrichtung zu fälschen oder ihm ein explizites Ziel gegeben. Da zukünftige Modelle möglicherweise Informationen über ihren Trainingsprozess ableiten, ohne informiert zu werden, deuten unsere Ergebnisse auf ein Risiko der Ausrichtungsfälschung bei zukünftigen Modellen hin, ob aufgrund einer gutartigen Präferenz - wie in diesem Fall - oder nicht.
Computer-Aided Design (CAD) Modelle werden typischerweise durch das sequenzielle Zeichnen parametrischer Skizzen und die Anwendung von CAD-Operationen zur Erstellung eines 3D-Modells erstellt. Das Problem des Reverse Engineerings von 3D-CAD besteht darin, die Skizzen- und CAD-Operationsserien aus 3D-Repräsentationen wie Punktewolken zu rekonstruieren. In diesem Paper gehen wir diese Herausforderung durch neuartige Beiträge auf drei Ebenen an: CAD-Sequenzdarstellung, Netzwerkdesign und Datensatz. Insbesondere stellen wir CAD-Skizzieren-Extrudieren-Sequenzen als Python-Code dar. Das vorgeschlagene CAD-Recode übersetzt eine Punktewolke in Python-Code, der beim Ausführen das CAD-Modell rekonstruiert. Durch die Nutzung der Exposition vortrainierter großer Sprachmodelle (LLMs) gegenüber Python-Code nutzen wir ein vergleichsweise kleines LLM als Decoder für CAD-Recode und kombinieren es mit einem leichtgewichtigen Punktewolkenprojektor. CAD-Recode wird ausschließlich auf einem vorgeschlagenen synthetischen Datensatz von einer Million verschiedener CAD-Sequenzen trainiert. CAD-Recode übertrifft signifikant bestehende Methoden auf drei Datensätzen, wobei weniger Eingabepunkte benötigt werden. Bemerkenswert ist, dass es auf den DeepCAD- und Fusion360-Datensätzen eine um den Faktor 10 niedrigere mittlere Chamfer-Distanz als State-of-the-Art-Methoden erreicht. Darüber hinaus zeigen wir, dass unser CAD-Python-Code-Ausgabe von handelsüblichen LLMs interpretierbar ist, was CAD-Bearbeitung und CAD-spezifische Fragestellungen aus Punktewolken ermöglicht.
Die Datenkontamination behindert eine faire LLM-Bewertung, indem sie Testdaten in die Trainingssätze neuerer Modelle einführt. Bestehende Studien lösen diese Herausforderung, indem sie Benchmarks mit neu gesammelten Daten aktualisieren. Allerdings garantieren sie keine kontaminationsfreie Bewertung, da die neu gesammelten Daten bereits vorhandenes Wissen enthalten können und ihre Benchmark-Updates auf intensiver menschlicher Arbeit beruhen. Um diese Probleme anzugehen, schlagen wir in diesem Papier AntiLeak-Bench vor, ein automatisiertes Anti-Leakage-Benchmarking-Framework. Anstatt einfach nur neu gesammelte Daten zu verwenden, konstruieren wir Beispiele mit explizit neuem Wissen, das in den Trainingssätzen der LLMs fehlt, was eine streng kontaminationsfreie Bewertung gewährleistet. Wir entwerfen außerdem einen vollständig automatisierten Workflow zur Erstellung und Aktualisierung unseres Benchmarks ohne menschliche Arbeit. Dies reduziert die Kosten für die Benchmark-Wartung erheblich, um aufkommende LLMs zu berücksichtigen. Durch umfangreiche Experimente heben wir hervor, dass Datenkontamination wahrscheinlich vor der Abschneidezeit der LLMs existiert und zeigen, dass AntiLeak-Bench diese Herausforderung effektiv überwindet.
Historische Dokumente umfassen einen Schatz an kulturellen Schätzen, leiden jedoch unter schweren Schäden wie fehlenden Zeichen, Papierbeschädigungen und Tönen von Tinte im Laufe der Zeit. Die bestehenden Methoden zur Dokumentenverarbeitung konzentrieren sich hauptsächlich auf Binarisierung, Verbesserung usw., vernachlässigen jedoch die Reparatur dieser Schäden. Zu diesem Zweck stellen wir eine neue Aufgabe vor, die als Historische Dokumentenreparatur (HDR) bezeichnet wird und darauf abzielt, das ursprüngliche Erscheinungsbild beschädigter historischer Dokumente vorherzusagen. Um diese Lücke in diesem Bereich zu schließen, schlagen wir einen umfangreichen Datensatz HDR28K und ein diffusionsbasiertes Netzwerk DiffHDR für die Reparatur historischer Dokumente vor. Speziell enthält HDR28K 28.552 beschädigte-reparierte Bildpaare mit Zeichenlevel-Annotationen und Multi-Style-Degradationen. Darüber hinaus erweitert DiffHDR das herkömmliche Diffusionsframework um semantische und räumliche Informationen sowie einen sorgfältig gestalteten Zeichen-Perzeptualverlust für Kontext- und visuelle Kohärenz. Experimentelle Ergebnisse zeigen, dass das vorgeschlagene DiffHDR, das mit HDR28K trainiert wurde, bestehende Ansätze signifikant übertrifft und eine bemerkenswerte Leistung bei der Behandlung realer beschädigter Dokumente zeigt. Beachtenswert ist, dass DiffHDR auch auf die Dokumentenbearbeitung und die Generierung von Textblöcken ausgeweitet werden kann, was seine hohe Flexibilität und Verallgemeinerungsfähigkeit zeigt. Wir glauben, dass diese Studie eine neue Richtung der Dokumentenverarbeitung bahnen und zur Bewahrung von unschätzbaren Kulturen und Zivilisationen beitragen könnte. Der Datensatz und der Code sind unter https://github.com/yeungchenwa/HDR verfügbar.