Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Jüngste Fortschritte in der Videogenerierung haben beeindruckende Bewegungsrealismus erreicht, doch sie vernachlässigen oft die charaktergetriebene Erzählung, eine entscheidende Aufgabe für die automatisierte Film- und Animationserstellung. Wir stellen Talking Characters vor, eine realistischere Aufgabe, die darauf abzielt, Animationen von sprechenden Charakteren direkt aus Sprache und Text zu generieren. Im Gegensatz zu Talking Head zielt Talking Characters darauf ab, das vollständige Porträt eines oder mehrerer Charaktere über den Gesichtsbereich hinaus zu erzeugen. In diesem Artikel präsentieren wir MoCha, das erste System seiner Art, das sprechende Charaktere generiert. Um eine präzise Synchronisation zwischen Video und Sprache zu gewährleisten, schlagen wir einen Sprach-Video-Fenster-Attentionsmechanismus vor, der Sprach- und Video-Tokens effektiv ausrichtet. Um den Mangel an groß angelegten, sprachbeschrifteten Videodatensätzen zu beheben, führen wir eine gemeinsame Trainingsstrategie ein, die sowohl sprachbeschriftete als auch textbeschriftete Videodaten nutzt und die Generalisierung über diverse Charakteraktionen deutlich verbessert. Wir entwerfen auch strukturierte Prompt-Vorlagen mit Charakter-Tags, die erstmals Mehrfachcharakter-Konversationen mit turn-basiertem Dialog ermöglichen – wodurch KI-generierte Charaktere in kontextbewusste Gespräche mit filmischer Kohärenz eintreten können. Umfangreiche qualitative und quantitative Bewertungen, einschließlich menschlicher Präferenzstudien und Benchmark-Vergleiche, zeigen, dass MoCha einen neuen Standard für KI-generiertes filmisches Storytelling setzt und dabei überlegene Realismus, Ausdruckskraft, Steuerbarkeit und Generalisierung erreicht.
Dieses Papier untersucht die Aufgabe der komplexen visuellen Textgenerierung (Complex Visual Text Generation, CVTG), die sich auf die Erzeugung von anspruchsvollem Textinhalt konzentriert, der über verschiedene Bereiche innerhalb von visuellen Bildern verteilt ist. Bei CVTG erzeugen Bildgenerierungsmodelle oft verzerrten und unscharfen visuellen Text oder lassen Teile des visuellen Texts aus. Um diese Herausforderungen zu bewältigen, schlagen wir TextCrafter vor, eine neuartige Methode zur Darstellung von mehrfachem visuellen Text. TextCrafter verwendet eine progressive Strategie, um komplexen visuellen Text in verschiedene Komponenten zu zerlegen, während gleichzeitig eine robuste Ausrichtung zwischen dem Textinhalt und seinem visuellen Träger sichergestellt wird. Zusätzlich integriert es einen Token-Fokus-Verstärkungsmechanismus, um die Sichtbarkeit des visuellen Texts während des Generierungsprozesses zu erhöhen. TextCrafter adressiert effektiv zentrale Herausforderungen in CVTG-Aufgaben, wie Textverwirrung, Auslassungen und Unschärfe. Darüber hinaus stellen wir einen neuen Benchmark-Datensatz, CVTG-2K, vor, der speziell dafür entwickelt wurde, die Leistung von Generierungsmodellen bei CVTG-Aufgaben rigoros zu bewerten. Umfangreiche Experimente zeigen, dass unsere Methode state-of-the-art Ansätze übertrifft.
Wir stellen Open-Reasoner-Zero vor, die erste Open-Source-Implementierung von groß angelegtem, auf Reasoning ausgerichtetem RL-Training, das auf Skalierbarkeit, Einfachheit und Zugänglichkeit abzielt. Durch umfangreiche Experimente zeigen wir, dass ein minimalistischer Ansatz – einfaches PPO mit GAE (lambda=1, gamma=1) und direkten regelbasierten Belohnungen, ohne jegliche KL-Regularisierung – ausreicht, um sowohl die Antwortlänge als auch die Benchmark-Leistung zu steigern, ähnlich dem Phänomen, das bei DeepSeek-R1-Zero beobachtet wurde. Mit demselben Basismodell wie DeepSeek-R1-Zero-Qwen-32B erreicht unsere Implementierung überlegene Leistungen auf AIME2024, MATH500 und dem GPQA Diamond Benchmark, während sie eine bemerkenswerte Effizienz zeigt – sie benötigt nur ein Zehntel der Trainingsschritte im Vergleich zur DeepSeek-R1-Zero-Pipeline. Im Geiste von Open Source veröffentlichen wir unseren Quellcode, Parameter-Einstellungen, Trainingsdaten und Modellgewichte in verschiedenen Größen.
Als die Begeisterung für die Skalierung von Rechenleistung (Daten und Parameter) in der Vor-Trainings-Ära allmählich nachließ, hat sich das sogenannte „Test-Time Scaling“ (TTS), auch als „Test-Time Computing“ bezeichnet, als ein zentraler Forschungsschwerpunkt etabliert. Jüngste Studien zeigen, dass TTS die Problemlösungsfähigkeiten großer Sprachmodelle (LLMs) weiter verbessern kann, was nicht nur in spezialisierten Aufgaben wie Mathematik und Programmierung, sondern auch in allgemeinen Aufgaben wie offenen Frage-Antwort-Szenarien zu bedeutenden Durchbrüchen führt. Trotz der Vielzahl aktueller Bemühungen in diesem Bereich besteht jedoch ein dringender Bedarf an einer umfassenden Übersicht, die ein systematisches Verständnis bietet. Um diese Lücke zu schließen, schlagen wir ein einheitliches, mehrdimensionales Framework vor, das entlang vier Kernaspekte der TTS-Forschung strukturiert ist: was skaliert wird, wie skaliert wird, wo skaliert wird und wie gut skaliert wird. Aufbauend auf dieser Taxonomie führen wir eine umfangreiche Überprüfung von Methoden, Anwendungsszenarien und Bewertungsaspekten durch und präsentieren eine strukturierte Zerlegung, die die einzigartigen funktionalen Rollen einzelner Techniken im breiteren TTS-Kontext hervorhebt. Aus dieser Analyse destillieren wir die wichtigsten Entwicklungslinien von TTS bis heute und bieten praktische Leitlinien für die Implementierung. Darüber hinaus identifizieren wir mehrere offene Herausforderungen und geben Einblicke in vielversprechende Zukunftsperspektiven, darunter weitere Skalierung, Klärung der funktionalen Essenz von Techniken, Verallgemeinerung auf mehr Aufgaben und zusätzliche Attributionsmöglichkeiten.
Große Reasoning-Modelle (LRMs) verbessern die Fähigkeit zur logischen Schlussfolgerung von großen Sprachmodellen (LLMs) erheblich, indem sie das logische Denken erlernen und vielversprechende Leistungen bei der Lösung komplexer Aufgaben zeigen. Ihr deliberativer Reasoning-Prozess führt jedoch zu Ineffizienzen bei der Token-Nutzung, dem Speicherverbrauch und der Inferenzzeit. Daher bietet diese Übersicht eine Zusammenfassung von effizienten Inferenzmethoden, die speziell für LRMs entwickelt wurden, mit dem Fokus darauf, die Token-Ineffizienz zu verringern, während die Qualität des logischen Denkens erhalten bleibt. Zunächst führen wir eine Taxonomie ein, um die aktuellen Methoden in zwei Hauptkategorien zu gruppieren: (a) explizit kompakte Chain-of-Thought (CoT), die die Anzahl der Token reduziert, während die explizite Reasoning-Struktur beibehalten wird, und (b) implizite latente CoT, die die Reasoning-Schritte in verborgenen Repräsentationen statt in expliziten Tokens kodiert. Gleichzeitig diskutieren wir ihre Stärken und Schwächen. Anschließend führen wir empirische Analysen zu bestehenden Methoden aus den Perspektiven von Leistung und Effizienz durch. Darüber hinaus präsentieren wir offene Herausforderungen in diesem Bereich, darunter menschenzentriertes kontrollierbares Reasoning, den Kompromiss zwischen Interpretierbarkeit und Effizienz des logischen Denkens, die Sicherstellung der Sicherheit von effizientem Reasoning und die breitere Anwendung von effizientem Reasoning. Zusätzlich heben wir wichtige Erkenntnisse zur Steigerung der Inferenz-Effizienz von LRMs durch Techniken wie Modellfusion, neue Architekturen und Agenten-Router hervor. Wir hoffen, dass diese Arbeit als wertvoller Leitfaden dient und Forschern dabei hilft, die Herausforderungen in diesem lebendigen Feld zu bewältigen.https://github.com/yueliu1999/Awesome-Efficient-Inference-for-LRMs.
Die Synthese vielfältiger und physikalisch plausibler Mensch-Umgebungs-Interaktionen (Human-Scene Interactions, HSI) ist sowohl für die Computeranimation als auch für verkörperte KI von zentraler Bedeutung. Trotz ermutigender Fortschritte konzentrieren sich aktuelle Methoden hauptsächlich auf die Entwicklung separater Controller, die jeweils auf eine spezifische Interaktionsaufgabe spezialisiert sind. Dies behindert erheblich die Fähigkeit, eine Vielzahl anspruchsvoller HSI-Aufgaben zu bewältigen, die die Integration mehrerer Fähigkeiten erfordern, z. B. das Hinsetzen während des Tragens eines Objekts. Um dieses Problem zu lösen, präsentieren wir TokenHSI, eine einzige, vereinheitlichte Transformer-basierte Policy, die Multi-Skill-Vereinheitlichung und flexible Anpassung ermöglicht. Der Schlüsselansatz besteht darin, die propriozeptive Wahrnehmung des Humanoiden als separaten gemeinsamen Token zu modellieren und diesen über einen Maskierungsmechanismus mit verschiedenen Aufgaben-Tokens zu kombinieren. Eine solche vereinheitlichte Policy ermöglicht eine effektive Wissensweitergabe über Fähigkeiten hinweg und erleichtert so das Multi-Task-Training. Darüber hinaus unterstützt unsere Policy-Architektur variable Längeneingaben, was eine flexible Anpassung erlernter Fähigkeiten an neue Szenarien ermöglicht. Durch das Training zusätzlicher Aufgaben-Tokenizer können wir nicht nur die Geometrien der Interaktionsziele anpassen, sondern auch mehrere Fähigkeiten koordinieren, um komplexe Aufgaben zu bewältigen. Die Experimente zeigen, dass unser Ansatz die Vielseitigkeit, Anpassungsfähigkeit und Erweiterbarkeit in verschiedenen HSI-Aufgaben erheblich verbessern kann. Website: https://liangpan99.github.io/TokenHSI/
Das Training von Vision-Language-Modellen (VLMs) erfordert typischerweise groß angelegte, hochwertige Bild-Text-Paare, doch die Sammlung oder Synthese solcher Daten ist kostspielig. Im Gegensatz dazu sind Textdaten reichlich vorhanden und kostengünstig, was die Frage aufwirft: Kann hochwertiges multimodales Trainingsdatenmaterial ausschließlich aus Text synthetisiert werden? Um dies zu bewältigen, schlagen wir ein dreistufiges, cross-integriertes multimodales Datensynthese-Framework vor, das zwei Datensätze generiert: Unicorn-1.2M und Unicorn-471K-Instruction. In Stufe 1: Diverse Caption Data Synthesis konstruieren wir 1,2 Millionen semantisch vielfältige, hochwertige Bildbeschreibungen, indem wir spärliche Beschreibungsansätze mithilfe von Large Language Models (LLMs) erweitern. In Stufe 2: Instruction-Tuning Data Generation verarbeiten wir weitere 471.000 Bildbeschreibungen in mehrstufige Instruction-Tuning-Aufgaben, um komplexes logisches Denken zu unterstützen. Schließlich werden in Stufe 3: Modality Representation Transfer diese textuellen Beschreibungsrepräsentationen in visuelle Repräsentationen umgewandelt, was zu vielfältigen synthetischen Bildrepräsentationen führt. Dieser dreistufige Prozess ermöglicht es uns, Unicorn-1.2M für das Pretraining und Unicorn-471K-Instruction für das Instruction-Tuning zu erstellen, ohne auf reale Bilder angewiesen zu sein. Indem wir die Abhängigkeit von realen Bildern eliminieren und gleichzeitig die Datenqualität und -vielfalt bewahren, bietet unser Framework eine kosteneffiziente und skalierbare Lösung für das Training von VLMs. Der Code ist verfügbar unter https://github.com/Yu-xm/Unicorn.git.
Handeln nach vorheriger Überlegung und das Vorstellen möglicher Ergebnisse (d.h. Weltmodelle) sind entscheidend für verkörperte Agenten, die in komplexen, offenen Umgebungen operieren. Bisherige Arbeiten integrieren jedoch entweder nur eine dieser Fähigkeiten in einen End-to-End-Agenten oder kombinieren mehrere spezialisierte Modelle in einem Agentensystem, was die Lerneffizienz und Generalisierung der Policy einschränkt. Daher unternimmt diese Arbeit den ersten Versuch, Überlegung und Vorstellungskraft in einer End-to-End-Generalist-Policy, genannt RIG, zu vereinen. Um RIG auf End-to-End-Basis zu trainieren, konstruieren wir eine Datenpipeline, die den Inhalt von Vorstellungskraft und Überlegung in den von bestehenden Agenten gesammelten Trajektorien schrittweise integriert und anreichert. Das gemeinsame Lernen von Überlegung und der Generierung des nächsten Bildes modelliert explizit die inhärente Korrelation zwischen Überlegung, Handlung und der Dynamik der Umgebung und zeigt somit eine mehr als 17-fache Verbesserung der Stichprobeneffizienz und Generalisierung im Vergleich zu früheren Arbeiten. Während der Inferenz überlegt RIG zunächst die nächste Handlung, erzeugt potenzielle Aktionen und prognostiziert dann die Handlungsergebnisse, was dem Agenten die Möglichkeit bietet, basierend auf der Vorstellungskraft zu überprüfen und sich selbst zu korrigieren, bevor reale Handlungen ausgeführt werden. Experimentelle Ergebnisse zeigen, dass die Synergie von Überlegung und Vorstellungskraft nicht nur die Robustheit, Generalisierung und Interoperabilität der Generalist-Policy verbessert, sondern auch eine Skalierung zur Laufzeit ermöglicht, um die Gesamtleistung zu steigern.
Reinforcement Learning (RL) mit verifizierbaren Belohnungen (RLVR) hat vielversprechende Ergebnisse in mathematischen Denkaufgaben und Programmieraufgaben gezeigt, bei denen gut strukturierte Referenzantworten verfügbar sind. Die Anwendbarkeit auf breitere Domänen bleibt jedoch weitgehend unerforscht. In dieser Arbeit untersuchen wir die Erweiterung von RLVR auf vielfältigere Domänen wie Medizin, Chemie, Psychologie und Wirtschaftswissenschaften. Wir beobachten eine hohe Übereinstimmung bei binären Bewertungen zwischen verschiedenen großen Sprachmodellen (LLMs), wenn objektive Referenzantworten vorhanden sind, was die Notwendigkeit groß angelegter Annotationen für das Training domänenspezifischer Belohnungsmodelle infrage stellt. Um die Einschränkungen binärer Belohnungen bei der Verarbeitung unstrukturierter Referenzantworten zu überwinden, integrieren wir zusätzlich modellbasierte Soft-Scoring in RLVR, um dessen Flexibilität zu verbessern. Unsere Experimente zeigen, dass ein destilliertes generatives Belohnungsmodell als effektiver domänenübergreifender Verifizierer dienen kann, der zuverlässige Belohnungssignale für RL liefert, ohne domänenspezifische Annotationen zu benötigen. Durch das Feinabstimmen eines Basismodells mit 7B Parametern mithilfe verschiedener RL-Algorithmen gegen unser Belohnungsmodell erhalten wir Strategien, die state-of-the-art Open-Source-LLMs wie Qwen2.5-72B-Instruct und DeepSeek-R1-Distill-Qwen-32B in freiformulierten Antwortsettings domänenübergreifend deutlich übertreffen. Dies stärkt auch die Robustheit und Skalierbarkeit von RLVR und unterstreicht dessen Potenzial für reale Anwendungen mit verrauschten oder schwachen Labels.
Die Generierung und Bearbeitung von Videos, die auf Textprompts oder Bildern basieren, haben bedeutende Fortschritte erzielt. Dennoch bestehen weiterhin Herausforderungen bei der präzisen Steuerung des globalen Layouts und geometrischer Details allein durch Texte sowie bei der Unterstützung von Bewegungssteuerung und lokaler Modifikation durch Bilder. In diesem Artikel streben wir eine skizzenbasierte räumliche und Bewegungssteuerung für die Videogenerierung an und unterstützen die fein abgestimmte Bearbeitung von realen oder synthetischen Videos. Basierend auf dem DiT-Videogenerierungsmodell schlagen wir eine speichereffiziente Steuerungsstruktur mit Skizzensteuerungsblöcken vor, die Restmerkmale von übersprungenen DiT-Blöcken vorhersagen. Skizzen werden auf einem oder zwei Keyframes (zu beliebigen Zeitpunkten) gezeichnet, um eine einfache Interaktion zu ermöglichen. Um diese zeitlich spärlichen Skizzenbedingungen über alle Frames hinweg zu propagieren, schlagen wir einen Inter-Frame-Attentionsmechanismus vor, der die Beziehung zwischen den Keyframes und jedem Videoframe analysiert. Für die skizzenbasierte Videobearbeitung entwerfen wir ein zusätzliches Videoeinfügemodul, das die Konsistenz zwischen dem neu bearbeiteten Inhalt und den räumlichen Merkmalen sowie der dynamischen Bewegung des Originalvideos gewährleistet. Während der Inferenz verwenden wir latente Fusion, um unveränderte Bereiche präzise zu erhalten. Umfangreiche Experimente zeigen, dass unser SketchVideo eine überlegene Leistung bei der kontrollierbaren Videogenerierung und -bearbeitung erzielt.
Vernunftgesteuerte große Sprachmodelle (LLMs) erzeugen explizit Zwischenschritte der Argumentation, bevor sie endgültige Antworten generieren, was dem Modell hilft, bei komplexen Problemlösungen zu glänzen. In diesem Artikel zeigen wir, dass dieser aufkommende Generierungsrahmen eine einzigartige Gelegenheit für eine feinere Kontrolle des Modellverhaltens bietet. Wir schlagen Thinking Intervention vor, ein neuartiges Paradigma, das darauf abzielt, die internen Argumentationsprozesse von LLMs explizit zu steuern, indem strategisch spezifische Denk-Tokens eingefügt oder überarbeitet werden. Wir führen umfassende Bewertungen über mehrere Aufgaben hinweg durch, einschließlich der Befolgung von Anweisungen auf IFEval, der Hierarchie von Anweisungen auf SEP und der Sicherheitsausrichtung auf XSTest und SORRY-Bench. Unsere Ergebnisse zeigen, dass Thinking Intervention die Baseline-Prompting-Ansätze deutlich übertrifft, mit Genauigkeitssteigerungen von bis zu 6,7 % in Szenarien der Anweisungsbefolgung, Verbesserungen von 15,4 % bei der Argumentation über Anweisungshierarchien und einer Steigerung der Ablehnungsraten um 40,0 % für unsichere Prompts unter Verwendung der Open-Source-Modelle DeepSeek R1. Insgesamt eröffnet unsere Arbeit einen vielversprechenden neuen Forschungsweg zur Steuerung von argumentationsfähigen LLMs.
Wir schlagen einen neuartigen Ansatz zur Erzeugung komplexer Ausgaben vor, der die Genauigkeit bei Text-zu-SQL-Aufgaben erheblich verbessert. Unsere Methode nutzt Ausführungsergebnisse, um die semantisch konsistenteste Abfrage aus mehreren Kandidaten auszuwählen, wodurch kleinere, kosteneffiziente Modelle rechenintensive Reasoning-Methoden wie o1, o3-mini und DeepSeek R1 übertreffen können, während die Inferenzkosten um bis zu das 30-fache reduziert werden. Sie lässt sich nahtlos in bestehende Modelle integrieren und bietet einen praktischen und skalierbaren Weg zur Erzeugung von SQL-Abfragen auf dem neuesten Stand der Technik.
Es ist äußerst wünschenswert, ein Modell zu erhalten, das in der Lage ist, hochwertige 3D-Meshes aus Textprompts in nur wenigen Sekunden zu generieren. Obwohl neuere Ansätze vortrainierte Text-zu-Bild-Diffusionsmodelle wie Stable Diffusion (SD) zu Generatoren von 3D-Darstellungen (z. B. Triplane) adaptiert haben, leiden diese oft unter mangelnder Qualität aufgrund des Mangels an ausreichend hochwertigen 3D-Trainingsdaten. Um diesen Datenmangel zu überwinden, schlagen wir ein neuartiges Trainingsschema vor, das als Progressive Rendering Distillation (PRD) bezeichnet wird und den Bedarf an 3D-Ground-Truth-Daten eliminiert, indem es Multi-View-Diffusionsmodelle destilliert und SD in einen nativen 3D-Generator adaptiert. In jeder Trainingsiteration verwendet PRD das U-Net, um den latenten Raum schrittweise von zufälligem Rauschen zu entrauschen, und decodiert in jedem Schritt den entrauschten latenten Raum in eine 3D-Ausgabe. Multi-View-Diffusionsmodelle wie MVDream und RichDreamer werden gemeinsam mit SD eingesetzt, um textkonsistente Texturen und Geometrien durch Score-Distillation in die 3D-Ausgaben zu destillieren. Da PRD das Training ohne 3D-Ground-Truth-Daten unterstützt, können wir die Trainingsdaten leicht skalieren und die Generierungsqualität für anspruchsvolle Textprompts mit kreativen Konzepten verbessern. Gleichzeitig kann PRD die Inferenzgeschwindigkeit des Generierungsmodells in nur wenigen Schritten beschleunigen. Mit PRD trainieren wir einen Triplane-Generator, genannt TriplaneTurbo, der nur 2,5 % trainierbare Parameter hinzufügt, um SD für die Triplane-Generierung zu adaptieren. TriplaneTurbo übertrifft bisherige Text-zu-3D-Generatoren sowohl in Effizienz als auch in Qualität. Insbesondere kann es hochwertige 3D-Meshes in 1,2 Sekunden erzeugen und generalisiert gut für anspruchsvolle Texteingaben. Der Code ist verfügbar unter https://github.com/theEricMa/TriplaneTurbo.
Die Erkennung von Telekommunikationsbetrug steht vor erheblichen Herausforderungen, insbesondere aufgrund des Mangels an hochwertigen multimodalen Trainingsdaten, die Audiosignale mit schlussfolgerungsorientierter Textanalyse integrieren. Um diese Lücke zu schließen, präsentieren wir TeleAntiFraud-28k, den ersten Open-Source-Audio-Text-Datensatz für langsam denkende Analysen, der speziell für die automatisierte Analyse von Telekommunikationsbetrug entwickelt wurde. Unser Datensatz wird durch drei Strategien erstellt: (1) Privatsphäre-schützende Text-Wahrheits-Proben-Generierung unter Verwendung von automatisch spracherkannten (ASR)-transkribierten Anrufaufzeichnungen (mit anonymisierten Original-Audios), die durch Text-zu-Sprache (TTS)-Modellregeneration reale Konsistenz gewährleisten; (2) Semantische Verbesserung durch selbstinstruierte Stichprobenbildung auf Basis von authentischen ASR-Ausgaben mittels großer Sprachmodelle (LLM), um die Szenarioabdeckung zu erweitern; (3) Multi-Agenten-adversarische Synthese, die neuartige Betrugstaktiken durch vordefinierte Kommunikationsszenarien und Betrugstypologien simuliert. Der generierte Datensatz enthält 28.511 sorgfältig verarbeitete Sprach-Text-Paare, ergänzt durch detaillierte Anmerkungen zur Betrugsbegründung. Der Datensatz ist in drei Aufgaben unterteilt: Szenarioklassifizierung, Betrugserkennung und Betrugstypklassifizierung. Darüber hinaus erstellen wir TeleAntiFraud-Bench, einen standardisierten Evaluierungsmaßstab, der proportional abgetastete Instanzen aus dem Datensatz enthält, um systematische Tests der Modellleistung bei der Erkennung von Telekommunikationsbetrug zu ermöglichen. Wir stellen auch ein produktionsoptimiertes überwachtes Feinabstimmungsmodell (SFT) zur Verfügung, das auf hybriden realen/synthetischen Daten trainiert wurde, während wir das Datenverarbeitungsframework Open-Source bereitstellen, um eine gemeinschaftsgetriebene Datensatzerweiterung zu ermöglichen. Diese Arbeit schafft ein grundlegendes Framework für multimodale Anti-Betrugs-Forschung und adressiert kritische Herausforderungen in Bezug auf Datenschutz und Szenariodiversität. Das Projekt wird unter https://github.com/JimmyMa99/TeleAntiFraud veröffentlicht.
Aktionsmodelle sind entscheidend, um autonomen Agenten die Ausführung komplexer Aufgaben zu ermöglichen. Das Training großer Aktionsmodelle bleibt jedoch aufgrund der Vielfalt der Agentenumgebungen und der Komplexität der agentenspezifischen Daten eine Herausforderung. Trotz des wachsenden Interesses bietet die bestehende Infrastruktur nur begrenzte Unterstützung für skalierbares, agentenspezifisches Fine-Tuning. Wir stellen ActionStudio vor, ein leichtgewichtiges und erweiterbares Daten- und Trainingsframework, das für große Aktionsmodelle entwickelt wurde. ActionStudio vereinheitlicht heterogene Agententrajektorien durch ein standardisiertes Format, unterstützt diverse Trainingsparadigmen wie LoRA, vollständiges Fine-Tuning und verteilte Setups und integriert robuste Vorverarbeitungs- und Verifizierungswerkzeuge. Wir validieren seine Wirksamkeit anhand öffentlicher und realistischer Industriebenchmarks und zeigen dabei starke Leistung und praktische Skalierbarkeit. Wir haben den Code und die Daten unter https://github.com/SalesforceAIResearch/xLAM veröffentlicht, um die Forschung in der Community zu fördern.
In den letzten Jahren haben große Sprachmodelle (LLMs) bemerkenswerte Fähigkeiten bei verschiedenen Problemen der künstlichen Intelligenz gezeigt. Allerdings scheitern sie zuverlässig bei der Planung, selbst wenn sie mit einer detaillierten Definition der Planungsaufgabe gepromptet werden. Versuche, ihre Planungsfähigkeiten zu verbessern, wie Chain-of-Thought-Prompting, Feinabstimmung und explizites „Schlussfolgern“, führen dennoch zu falschen Plänen und scheitern meist bei der Generalisierung auf größere Aufgaben. In diesem Artikel zeigen wir, wie LLMs verwendet werden können, um korrekte Pläne zu generieren, sogar für Out-of-Distribution-Aufgaben mit zunehmender Größe. Für ein gegebenes Planungsgebiet bitten wir ein LLM, mehrere domänenabhängige Heuristikfunktionen in Form von Python-Code zu generieren, diese auf einer Reihe von Trainingsaufgaben innerhalb einer gierigen Best-First-Suche zu evaluieren und die stärkste auszuwählen. Die resultierenden LLM-generierten Heuristiken lösen deutlich mehr ungesehene Testaufgaben als state-of-the-art domänenunabhängige Heuristiken für klassische Planung. Sie sind sogar wettbewerbsfähig mit dem stärksten Lernalgorithmus für domänenabhängige Planung. Diese Ergebnisse sind besonders bemerkenswert, da unser Proof-of-Concept-Implementierung auf einem nicht optimierten Python-Planer basiert und die Vergleichsbaselines alle auf hochoptimiertem C++-Code aufbauen. In einigen Domänen expandieren die LLM-generierten Heuristiken weniger Zustände als die Baselines, was zeigt, dass sie nicht nur effizient berechenbar sind, sondern manchmal sogar informativer als die state-of-the-art Heuristiken. Insgesamt zeigen unsere Ergebnisse, dass das Sampling einer Reihe von Planungsheuristikfunktionsprogrammen die Planungsfähigkeiten von LLMs erheblich verbessern kann.
Diese Arbeit konzentriert sich auf die Open-Domain-4D-Avatarisierung mit dem Ziel, einen 4D-Avatar aus einem Porträtbild in einem beliebigen Stil zu erstellen. Wir wählen parametrische Triplanes als intermediäre 4D-Darstellung und schlagen ein praktisches Trainingsparadigma vor, das sowohl generative adversarial networks (GANs) als auch Diffusionsmodelle nutzt. Unser Ansatz basiert auf der Beobachtung, dass 4D-GANs zwar hervorragend darin sind, Bilder und Triplanes ohne Aufsicht zu verbinden, jedoch häufig Schwierigkeiten haben, diverse Datenverteilungen zu bewältigen. Ein robustes 2D-Diffusions-Prior erweist sich als Lösung, das der GAN dabei hilft, ihre Expertise über verschiedene Domänen hinweg zu übertragen. Die Synergie zwischen diesen Experten ermöglicht die Erstellung eines Multi-Domain-Bild-Triplane-Datensatzes, der die Entwicklung eines allgemeinen 4D-Avatar-Erstellers vorantreibt. Umfangreiche Experimente zeigen, dass unser Modell, AvatarArtist, in der Lage ist, hochwertige 4D-Avatare mit starker Robustheit gegenüber verschiedenen Quellbilddomänen zu erzeugen. Der Code, die Daten und die Modelle werden öffentlich zugänglich gemacht, um zukünftige Studien zu erleichtern.
Jüngste Fortschritte in DUSt3R haben die robuste Schätzung von dichten Punktwolken und Kameraparametern statischer Szenen ermöglicht, wobei Transformer-Netzwerkarchitekturen und direkte Überwachung auf groß angelegten 3D-Datensätzen genutzt werden. Im Gegensatz dazu stellen der begrenzte Umfang und die mangelnde Vielfalt verfügbarer 4D-Datensätze ein großes Hindernis für das Training eines hochgradig generalisierbaren 4D-Modells dar. Diese Einschränkung hat konventionelle 4D-Methoden dazu veranlasst, 3D-Modelle auf skalierbaren dynamischen Videodaten mit zusätzlichen geometrischen Priorwissen wie optischem Fluss und Tiefen feinzutunen. In dieser Arbeit gehen wir einen entgegengesetzten Weg und führen Easi3R ein, eine einfache, aber effiziente trainingsfreie Methode für die 4D-Rekonstruktion. Unser Ansatz wendet Aufmerksamkeitsanpassung während der Inferenz an und eliminiert die Notwendigkeit eines vollständigen Vor-Trainings oder Netzwerk-Feintunings. Wir stellen fest, dass die Aufmerksamkeitsschichten in DUSt3R inhärent reichhaltige Informationen über Kamera- und Objektbewegungen kodieren. Durch sorgfältige Entflechtung dieser Aufmerksamkeitskarten erreichen wir eine präzise dynamische Regionensegmentierung, Kameraposenschätzung und 4D-dichte Punktkartenrekonstruktion. Umfangreiche Experimente mit realen dynamischen Videos zeigen, dass unsere leichte Aufmerksamkeitsanpassung bisherige state-of-the-art-Methoden, die auf umfangreichen dynamischen Datensätzen trainiert oder feingestimmt wurden, deutlich übertreffen. Unser Code ist zu Forschungszwecken öffentlich verfügbar unter https://easi3r.github.io/.
Im Bereich der 3D-Inhaltserstellung war die Erzielung einer optimalen Mesh-Topologie durch KI-Modelle schon lange ein Ziel für 3D-Künstler. Bisherige Methoden wie MeshGPT haben die Erzeugung von direkt verwendbaren 3D-Objekten durch Mesh-Autoregressionstechniken untersucht. Obwohl diese Methoden visuell beeindruckende Ergebnisse liefern, führt ihre Abhängigkeit von Token-für-Token-Vorhersagen im autoregressiven Prozess zu mehreren erheblichen Einschränkungen. Dazu gehören extrem langsame Generierungsgeschwindigkeiten und eine unkontrollierbare Anzahl von Mesh-Flächen. In diesem Artikel stellen wir MeshCraft vor, ein neuartiges Framework für effiziente und kontrollierbare Mesh-Generierung, das kontinuierliche räumliche Diffusion nutzt, um diskrete Dreiecksflächen zu erzeugen. Konkret besteht MeshCraft aus zwei Kernkomponenten: 1) einem Transformer-basierten VAE, der Rohmeshes in kontinuierliche Flächen-Token kodiert und sie wieder in die ursprünglichen Meshes dekodiert, und 2) einem Flow-basierten Diffusionstransformer, der auf die Anzahl der Flächen konditioniert ist und die Erzeugung hochwertiger 3D-Meshes mit einer vordefinierten Anzahl von Flächen ermöglicht. Durch die Nutzung des Diffusionsmodells für die gleichzeitige Generierung der gesamten Mesh-Topologie erreicht MeshCraft eine hochpräzise Mesh-Generierung bei deutlich schnelleren Geschwindigkeiten im Vergleich zu autoregressiven Methoden. Insbesondere kann MeshCraft ein Mesh mit 800 Flächen in nur 3,2 Sekunden erzeugen (35-mal schneller als bestehende Baselines). Umfangreiche Experimente zeigen, dass MeshCraft sowohl in qualitativen als auch quantitativen Bewertungen auf dem ShapeNet-Datensatz state-of-the-art-Techniken übertrifft und auf dem Objaverse-Datensatz überlegene Leistung demonstriert. Darüber hinaus integriert es sich nahtlos in bestehende konditionale Leitstrategien und zeigt sein Potenzial, Künstler von der zeitaufwändigen manuellen Arbeit bei der Mesh-Erstellung zu entlasten.
Die meisten 3D-Objekterzeuger konzentrieren sich auf die ästhetische Qualität und vernachlässigen oft physikalische Einschränkungen, die in Anwendungen notwendig sind. Eine solche Einschränkung ist, dass das 3D-Objekt selbsttragend sein sollte, d.h. unter dem Einfluss der Schwerkraft im Gleichgewicht bleibt. Bisherige Ansätze zur Erzeugung stabiler 3D-Objekte verwendeten differenzierbare Physiksimulatoren, um die Geometrie zur Testzeit zu optimieren, was langsam, instabil und anfällig für lokale Optima ist. Inspiriert von der Literatur zur Ausrichtung generativer Modelle an externem Feedback, schlagen wir Direct Simulation Optimization (DSO) vor, ein Framework, das das Feedback eines (nicht-differenzierbaren) Simulators nutzt, um die Wahrscheinlichkeit zu erhöhen, dass der 3D-Generator direkt stabile 3D-Objekte ausgibt. Wir erstellen einen Datensatz von 3D-Objekten, die mit einem Stabilitätswert versehen sind, der aus dem Physiksimulator gewonnen wird. Anschließend können wir den 3D-Generator unter Verwendung des Stabilitätswerts als Ausrichtungsmetrik feinabstimmen, entweder über Direct Preference Optimization (DPO) oder Direct Reward Optimization (DRO), ein neuartiges Ziel, das wir einführen, um Diffusionsmodelle auszurichten, ohne paarweise Präferenzen zu benötigen. Unsere Experimente zeigen, dass der feinabgestimmte Feedforward-Generator, der entweder das DPO- oder DRO-Ziel verwendet, viel schneller und mit höherer Wahrscheinlichkeit stabile Objekte erzeugt als die Optimierung zur Testzeit. Bemerkenswerterweise funktioniert das DSO-Framework sogar ohne jegliche Ground-Truth-3D-Objekte für das Training, sodass der 3D-Generator sich selbst verbessern kann, indem er automatisch Simulationsfeedback zu seinen eigenen Ausgaben sammelt.
Multimodale Large Language Models (MLLMs) sind entstanden, um die Herausforderungen des Visual Question Answering (VQA) zu bewältigen, und haben einen neuen Forschungsschwerpunkt auf die Durchführung objektiver Bewertungen dieser Modelle gelenkt. Bestehende Evaluierungsmethoden stoßen an Grenzen, da der erhebliche menschliche Arbeitsaufwand zur Erstellung von Frage-Antwort-Paaren für visuelle Bilder den Umfang und die Reichweite der Bewertungen von Natur aus einschränkt. Obwohl automatisierte MLLM-as-Judge-Ansätze versuchen, den menschlichen Arbeitsaufwand durch automatische Bewertungen zu reduzieren, führen sie oft Verzerrungen ein. Um diese Probleme zu lösen, schlagen wir ein Unsupervised Peer Review MLLM Evaluation Framework vor. Es nutzt ausschließlich Bilddaten, wodurch Modelle automatisch Fragen generieren und Peer-Review-Bewertungen von Antworten anderer Modelle durchführen können, was die Abhängigkeit vom menschlichen Arbeitsaufwand effektiv verringert. Zusätzlich führen wir ein Vision-Language-Bewertungssystem ein, um die Verzerrungsprobleme zu mildern, das sich auf drei Aspekte konzentriert: (i) die Richtigkeit der Antwort; (ii) das visuelle Verständnis und die Schlussfolgerung; und (iii) die Bild-Text-Korrelation. Experimentelle Ergebnisse zeigen, dass UPME eine Pearson-Korrelation von 0,944 mit menschlichen Bewertungen auf dem MMstar-Datensatz und 0,814 auf dem ScienceQA-Datensatz erreicht, was darauf hindeutet, dass unser Framework eng mit von Menschen entworfenen Benchmarks und inhärenten menschlichen Präferenzen übereinstimmt.
Die mathematischen Problemlösungsfähigkeiten großer Sprachmodelle sind zu einem zentralen Forschungsschwerpunkt geworden, wobei das Interesse an der Nutzung selbstgenerierter Argumentationspfade als vielversprechender Ansatz zur Verfeinerung und Verbesserung dieser Modelle stetig wächst. Diese Pfade erfassen schrittweise logische Prozesse, während sie lediglich die korrekte Antwort zur Überwachung benötigen. Die Selbsttrainingsmethode hat sich bei Aufgaben, die logisches Denken erfordern, als effektiv erwiesen, wodurch der Bedarf an externen Modellen und manuellen Annotationen entfällt. Die Optimierung der Nutzung selbstgenerierter Daten für das Modelltraining bleibt jedoch eine offene Herausforderung. In dieser Arbeit schlagen wir Entropy-Based Adaptive Weighting for Self-Training (EAST) vor, eine adaptive Gewichtungsstrategie, die darauf abzielt, unsichere Daten während des Selbsttrainings zu priorisieren. Konkret verwendet EAST eine Abbildungsfunktion mit einem einstellbaren Parameter, der die Schärfe der Gewichtung steuert und höhere Gewichte Daten zuweist, bei denen das Modell größere Unsicherheit zeigt. Dieser Ansatz leitet das Modell an, sich auf informativer und herausfordernder Beispiele zu konzentrieren, wodurch seine Argumentationsfähigkeit verbessert wird. Wir evaluieren unseren Ansatz anhand der GSM8K- und MATH-Benchmarks. Empirische Ergebnisse zeigen, dass die Standardmethode auf MATH praktisch keine Verbesserung (0 %) erzielt, während EAST einen Gewinn von etwa 1 % gegenüber dem Basismodell erreicht. Auf GSM8K erzielt EAST im Vergleich zur Standardmethode eine weitere Leistungssteigerung von 1–2 %.
Das jüngste Aufkommen von großen visuell-sprachlichen Modellen (VLMs) hat eine Vielzahl unterschiedlicher Benchmarks zur Bewertung solcher Modelle hervorgebracht. Dennoch stellen wir fest, dass die meisten bestehenden Evaluierungsmethoden darunter leiden, dass sie entweder das Modell zwingen, aus vorgegebenen Antworten zu wählen, was die Offenheit einschränkt, oder die Antworten mithilfe eines Richtermodells bewerten, was zu subjektiven und unzuverlässigen Bewertungen führt. Darüber hinaus beobachten wir einen Mangel an Benchmarks für VLMs in der koreanischen Sprache, die als separates Maßstab von den häufigeren englischsprachigen Benchmarks notwendig sind, da die Leistung generativer Sprachmodelle je nach verwendeter Sprache erheblich variieren kann. Daher präsentieren wir KOFFVQA, einen allgemeinen, freiformulierten visuellen Frage-Antwort-Benchmark in koreanischer Sprache zur Bewertung von VLMs. Unser Benchmark besteht aus 275 sorgfältig erstellten Fragen, die jeweils mit einem Bild und Bewertungskriterien gepaart sind, die 10 verschiedene Aspekte der VLM-Leistung abdecken. Die Bewertungskriterien beseitigen das Problem der Unzuverlässigkeit, indem sie dem Richtermodell ermöglichen, jede Antwort anhand eines vordefinierten Regelwerks zu bewerten. Durch die objektive Definition der Bewertungskriterien kann selbst ein kleines Open-Source-Modell zuverlässig zur Bewertung von Modellen auf unserem Benchmark verwendet werden. Neben der Bewertung einer großen Anzahl bestehender VLMs auf unserem Benchmark überprüfen wir experimentell, dass unsere Methode der Verwendung bestehender Bewertungskriterien für die Bewertung wesentlich zuverlässiger ist als bestehende Methoden. Unser Evaluierungscode ist unter https://github.com/maum-ai/KOFFVQA verfügbar.
Die evolutionäre Multi-Objective-Optimierung (EMO) hat in den letzten zwei Jahrzehnten bedeutende Fortschritte erzielt. Allerdings stoßen traditionelle EMO-Algorithmen mit zunehmender Problemgröße und Komplexität aufgrund unzureichender Parallelität und Skalierbarkeit auf erhebliche Leistungsgrenzen. Während sich die meisten Arbeiten auf den Algorithmenentwurf zur Bewältigung dieser Herausforderungen konzentriert haben, wurde der Hardwarebeschleunigung wenig Aufmerksamkeit geschenkt, wodurch eine deutliche Lücke zwischen EMO-Algorithmen und fortschrittlichen Rechengeräten wie GPUs besteht. Um diese Lücke zu schließen, schlagen wir vor, EMO-Algorithmen auf GPUs mithilfe der Tensorisierungsmethodik zu parallelisieren. Durch die Anwendung von Tensorisierung werden die Datenstrukturen und Operationen von EMO-Algorithmen in prägnante Tensor-Darstellungen transformiert, was die automatische Nutzung der GPU-Rechenleistung nahtlos ermöglicht. Wir demonstrieren die Wirksamkeit unseres Ansatzes, indem wir ihn auf drei repräsentative EMO-Algorithmen anwenden: NSGA-III, MOEA/D und HypE. Um unsere Methodik umfassend zu bewerten, führen wir einen Multi-Objective-Robotersteuerungs-Benchmark unter Verwendung einer GPU-beschleunigten Physik-Engine ein. Unsere Experimente zeigen, dass die tensorisierten EMO-Algorithmen im Vergleich zu ihren CPU-basierten Gegenstücken Beschleunigungen von bis zu 1113x erreichen, während sie die Lösungsqualität beibehalten und Populationsgrößen effektiv auf Hunderttausende skalieren. Darüber hinaus bewältigen die tensorisierten EMO-Algorithmen komplexe Multi-Objective-Robotersteuerungsaufgaben effizient und erzeugen hochwertige Lösungen mit vielfältigen Verhaltensweisen. Die Quellcodes sind unter https://github.com/EMI-Group/evomo verfügbar.
Vortrainierte Video-Large-Language-Modelle (Video LLMs) zeigen bemerkenswerte Fähigkeiten im Bereich des logischen Schließens, doch die Anpassung dieser Modelle auf neue Aufgaben, die zusätzliche Modalitäten oder Datentypen (z. B. Audio oder 3D-Informationen) beinhalten, bleibt eine Herausforderung. In diesem Artikel stellen wir PAVE vor, ein flexibles Framework zur Anpassung vortrainierter Video LLMs auf nachgelagerte Aufgaben mit Nebenkanalsignalen wie Audio, 3D-Hinweisen oder Multi-View-Videos. PAVE führt leichtgewichtige Adapter, sogenannte „Patches“, ein, die eine geringe Anzahl zusätzlicher Parameter und Operationen zum Basismodell hinzufügen, ohne dessen Architektur oder vortrainierte Gewichte zu verändern. Dadurch kann PAVE das vortrainierte Basismodell effektiv anpassen, um diverse nachgelagerte Aufgaben zu unterstützen, darunter audiovisuelle Fragebeantwortung, 3D-Schlussfolgerung, Multi-View-Videoerkennung und das Verständnis von Videos mit hoher Bildrate. In diesen Aufgaben verbessert PAVE die Leistung des Basismodells erheblich und übertrifft dabei state-of-the-art, aufgabenspezifische Modelle, während nur geringfügige zusätzliche Kosten von ~0,1 % an FLOPs und Parametern entstehen. Darüber hinaus unterstützt PAVE Multi-Task-Learning und generalisiert gut über verschiedene Video LLMs hinweg. Unser Code ist unter https://github.com/dragonlzm/PAVE verfügbar.
Parameter-Efficient FineTuning (PEFT)-Methoden haben in letzter Zeit erhebliche Popularität erlangt, was auf die weitverbreitete Verfügbarkeit von großskaligen vortrainierten Modellen zurückzuführen ist. Diese Methoden ermöglichen eine schnelle Anpassung an nachgelagerte Aufgaben mit minimalem Rechenaufwand. Allerdings zeigen beliebte Feinabstimmungsmethoden wie LoRA eine begrenzte Robustheit in Bezug auf Hyperparameterauswahl oder längere Trainingsregime, was eine optimale Leistung „out-of-the-box“ verhindert. Im Gegensatz dazu bieten begrenzte Ansätze wie ETHER zwar größere Robustheit, sind jedoch auf extrem niedrigrangige Anpassungen und feste Stärke-Transformationen beschränkt, was ihre Anpassungsfähigkeit einschränkt. In dieser Arbeit schlagen wir Decoupled Low-rank Adaptation (DeLoRA) vor, eine neuartige Feinabstimmungsmethode, die lernbare niedrigrangige Matrizen normalisiert und skaliert. Durch die Begrenzung der Transformationsdistanz entkoppelt DeLoRA effektiv das Winkel-Lernen von der Anpassungsstärke und verbessert so die Robustheit, ohne die Leistung zu beeinträchtigen. Durch Evaluierungen in den Bereichen subjektgesteuerte Bildgenerierung, natürliches Sprachverständnis und Instruktionsabstimmung zeigen wir, dass DeLoRA die Leistung konkurrierender PEFT-Methoden erreicht oder übertrifft, während es eine stärkere Robustheit aufweist. Der Code ist verfügbar unter https://github.com/ExplainableML/DeLoRA.
Co-Speech-Gesten spielen eine entscheidende Rolle in der nonverbalen Kommunikation. In diesem Artikel stellen wir ein neues Framework zum Verständnis von Co-Speech-Gesten in natürlichen Umgebungen vor. Konkret schlagen wir drei neue Aufgaben und Benchmarks vor, um die Fähigkeit eines Modells zu bewerten, die Zusammenhänge zwischen Gesten, Text und Sprache zu erfassen: (i) gestenbasierte Retrieval, (ii) Erkennung von gestikulierten Wörtern und (iii) aktive Sprechererkennung unter Verwendung von Gesten. Wir präsentieren einen neuen Ansatz, der eine tri-modale Repräsentation von Sprache, Text, Video und Gesten lernt, um diese Aufgaben zu lösen. Durch die Nutzung einer Kombination aus globalem Phrasen-Kontrastverlust und lokalem Gesten-Wort-Kopplungsverlust zeigen wir, dass eine starke Gestenrepräsentation in schwach überwachter Weise aus Videos in natürlichen Umgebungen gelernt werden kann. Unsere gelernten Repräsentationen übertreffen bisherige Methoden, einschließlich großer Vision-Language-Modelle (VLMs), in allen drei Aufgaben. Eine weitere Analyse zeigt, dass die Sprach- und Textmodalitäten unterschiedliche gestenbezogene Signale erfassen, was die Vorteile des Lernens eines gemeinsamen tri-modalen Einbettungsraums unterstreicht. Das Dataset, das Modell und der Code sind verfügbar unter: https://www.robots.ox.ac.uk/~vgg/research/jegal.