Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen einen neuen Ansatz vor, um systematisch Merkmale zu kartieren, die von spärlichen Autoencodern in aufeinanderfolgenden Schichten großer Sprachmodelle entdeckt wurden. Dies erweitert frühere Arbeiten, die die Verbindungen zwischen den Schichten untersuchten. Durch die Verwendung einer datenfreien Kosinus-Ähnlichkeits-Technik verfolgen wir, wie spezifische Merkmale in jedem Stadium bestehen bleiben, sich verändern oder erstmals auftauchen. Diese Methode liefert detaillierte Flussdiagramme der Merkmalsentwicklung, die eine fein abgestufte Interpretierbarkeit und mechanistische Einblicke in die Modellberechnungen ermöglichen. Entscheidend ist, dass wir zeigen, wie diese Merkmalskarten zwischen den Schichten die direkte Steuerung des Modellverhaltens erleichtern, indem ausgewählte Merkmale verstärkt oder unterdrückt werden, um eine gezielte thematische Kontrolle bei der Textgenerierung zu erreichen. Zusammenfassend verdeutlichen unsere Ergebnisse den Nutzen eines kausalen, schichtenübergreifenden Interpretationsrahmens, der nicht nur aufklärt, wie Merkmale sich bei Vorwärtsdurchläufen entwickeln, sondern auch neue Möglichkeiten für die transparente Manipulation großer Sprachmodelle bietet.
Wir präsentieren AlphaGeometry2, eine signifikant verbesserte Version von AlphaGeometry, die in Trinh et al. (2024) eingeführt wurde und nun einen durchschnittlichen Goldmedaillengewinner bei der Lösung von olympischen Geometrieaufgaben übertroffen hat. Um dies zu erreichen, haben wir zunächst die ursprüngliche AlphaGeometry-Sprache erweitert, um schwierigere Probleme zu bewältigen, die Bewegungen von Objekten sowie Probleme mit linearen Gleichungen von Winkeln, Verhältnissen und Abständen beinhalten. Dies hat zusammen mit anderen Ergänzungen die Abdeckungsrate der AlphaGeometry-Sprache bei den Geometrieaufgaben der Internationalen Mathematik-Olympiaden (IMO) von 2000 bis 2024 von 66 % auf 88 % deutlich verbessert. Der Suchprozess von AlphaGeometry2 wurde auch erheblich verbessert durch die Verwendung der Gemini-Architektur für eine bessere Sprachmodellierung und einen neuartigen Wissensaustauschmechanismus, der mehrere Suchbäume kombiniert. Zusammen mit weiteren Verbesserungen am symbolischen Motor und der synthetischen Datengenerierung haben wir die Gesamtlösungsrate von AlphaGeometry2 für alle Geometrieaufgaben der letzten 25 Jahre signifikant auf 84 % gesteigert, verglichen mit zuvor 54 %. AlphaGeometry2 war auch Teil des Systems, das den Silbermedaillenstandard bei der IMO 2024 erreicht hat. Zuletzt berichten wir über Fortschritte bei der Verwendung von AlphaGeometry2 als Teil eines vollautomatischen Systems, das Geometrieaufgaben zuverlässig direkt aus natürlicher Sprache löst.
Zeigen die reichen Repräsentationen von Multi-Modalen Diffusions-Transformern (DiTs) einzigartige Eigenschaften, die ihre Interpretierbarkeit verbessern? Wir stellen ConceptAttention vor, eine neuartige Methode, die die Ausdruckskraft der Aufmerksamkeitsschichten von DiTs nutzt, um hochwertige Saliency-Maps zu generieren, die textuelle Konzepte präzise in Bildern lokalisieren. Ohne zusätzliches Training zu erfordern, nutzt ConceptAttention die Parameter der Aufmerksamkeitsschichten von DiTs um hochkontextualisierte Konzept-Einbettungen zu erzeugen, wobei die bedeutende Entdeckung gemacht wird, dass lineare Projektionen im Ausgaberaum von DiT-Aufmerksamkeitsschichten im Vergleich zu häufig verwendeten Cross-Attention-Mechanismen deutlich schärfere Saliency-Maps erzeugen. Bemerkenswerterweise erreicht ConceptAttention sogar eine State-of-the-Art-Leistung bei Zero-Shot-Benchmarktests zur Bildsegmentierung, indem es 11 andere Zero-Shot-Interpretierbarkeitsmethoden auf dem ImageNet-Segmentierungsdatensatz und auf einem Einzelklassen-Teilsubset von PascalVOC übertrifft. Unsere Arbeit liefert den ersten Beweis dafür, dass die Repräsentationen von Multi-Modalen DiT-Modellen wie Flux hoch übertragbar auf Vision-Aufgaben wie Segmentierung sind, sogar Multi-Modale Grundlagenmodelle wie CLIP übertreffend.
Mit dem Fortschreiten der Fähigkeiten von Sprachmodellen (LM) wird es für Menschen immer schwieriger, sie in großem Maßstab zu bewerten und zu überwachen. Es besteht die Hoffnung, dass andere Sprachmodelle diese Aufgaben automatisieren können, was wir als "KI-Aufsicht" bezeichnen. Wir untersuchen, wie die Ähnlichkeit von Modellen beide Aspekte der KI-Aufsicht beeinflusst, indem wir eine probabilistische Metrik für die LM-Ähnlichkeit vorschlagen, die auf der Überlappung von Modellfehlern basiert. Unter Verwendung dieser Metrik zeigen wir zunächst, dass Bewertungen von LLM-als-Richter-Modellen Modelle bevorzugen, die dem Richter ähnlich sind, was die jüngsten Ergebnisse zur Selbstpräferenz verallgemeinert. Anschließend untersuchen wir das Training anhand von LM-Anmerkungen und stellen fest, dass das ergänzende Wissen zwischen dem schwachen Aufseher und dem starken Schülermodell eine entscheidende Rolle bei den Gewinnen durch "schwache-zu-starke Verallgemeinerung" spielt. Mit zunehmenden Fähigkeiten der Modelle wird es schwieriger, ihre Fehler zu finden, und wir könnten uns mehr auf KI-Aufsicht verlassen. Wir beobachten jedoch einen besorgniserregenden Trend - mit steigenden Fähigkeiten werden Modellfehler immer ähnlicher, was auf Risiken durch korrelierte Ausfälle hinweist. Unsere Arbeit unterstreicht die Bedeutung der Berichterstattung über Modellähnlichkeit und deren Korrektur, insbesondere im aufkommenden Paradigma der KI-Aufsicht.
In jüngster Zeit haben Fortschritte bei großen Sprachmodellen, insbesondere nach GPT-4o, ein zunehmendes Interesse an der Entwicklung omni-modaler Modelle ausgelöst, die in der Lage sind, mehr Modalitäten zu verstehen. Obwohl einige Open-Source-Alternativen aufgetaucht sind, besteht immer noch ein deutlicher Rückstand gegenüber spezialisierten Einzelmodalitätsmodellen in der Leistung. In diesem Artikel präsentieren wir Ola, ein omni-modales Sprachmodell, das im Vergleich zu spezialisierten Gegenstücken eine wettbewerbsfähige Leistung in Bild-, Video- und Audioverständnis erzielt. Das Kernkonzept von Ola liegt in seiner progressiven Modalitätsausrichtungsstrategie, die die unterstützende Modalität des Sprachmodells schrittweise erweitert. Unser Schulungspipeline beginnt mit den unterschiedlichsten Modalitäten: Bild und Text, und erweitert dann allmählich die Fähigkeiten des Modells unter Verwendung von Sprachdaten, die Sprach- und Audio-Kenntnisse verbinden, und Videodaten, die alle Modalitäten verbinden. Die progressive Lernpipeline ermöglicht es uns auch, eine relativ geringe Größe der kreuzmodalen Ausrichtungsdaten beizubehalten, was die Entwicklung omni-modaler Modelle aus bestehenden Bildsprachmodellen einfach und kostengünstig macht. Darüber hinaus haben wir zur Entfaltung einer fortgeschrittenen interaktiven Erfahrung wie GPT-4o eine satzweise Decodierungslösung für die kontinuierliche Spracherzeugung entwickelt. Umfangreiche Experimente zeigen, dass Ola bestehende offene omni-modale LLMs in allen Modalitäten übertrifft und dabei eine hochgradig wettbewerbsfähige Leistung im Vergleich zu hochmodernen spezialisierten Modellen ähnlicher Größe erzielt. Unser Ziel ist es, Ola zu einer vollständig offenen omni-modalen Verständnislösung zu machen, um die zukünftige Forschung in diesem aufstrebenden Bereich voranzutreiben. Modellgewichte, Code und Daten sind unter https://github.com/Ola-Omni/Ola als Open Source verfügbar.
Wir präsentieren eine Methode zur Erweiterung von realen Videos mit neu generierten dynamischen Inhalten. Ausgehend von einem Eingangsvideo und einer einfachen, vom Benutzer bereitgestellten Textanweisung, die den gewünschten Inhalt beschreibt, synthetisiert unsere Methode dynamische Objekte oder komplexe Szeneneffekte, die natürlich mit der bestehenden Szene im Laufe der Zeit interagieren. Die Position, das Erscheinungsbild und die Bewegung des neuen Inhalts werden nahtlos in das Originalmaterial integriert, wobei Kamerabewegungen, Verdeckungen und Interaktionen mit anderen dynamischen Objekten in der Szene berücksichtigt werden, was zu einem kohärenten und realistischen Ausgabevideo führt. Dies wird durch ein Zero-Shot-, trainingsfreies Framework erreicht, das einen vortrainierten Text-zu-Video-Diffusionstransformer nutzt, um den neuen Inhalt zu synthetisieren, und ein vortrainiertes Vision-Sprachmodell, um die erweiterte Szene detailliert zu visualisieren. Insbesondere stellen wir eine neuartige inferenzbasierte Methode vor, die Merkmale innerhalb des Aufmerksamkeitsmechanismus manipuliert, um eine genaue Lokalisierung und nahtlose Integration des neuen Inhalts zu ermöglichen, während die Integrität der Originalszene erhalten bleibt. Unsere Methode ist vollständig automatisiert und erfordert lediglich eine einfache Benutzeranweisung. Wir zeigen ihre Wirksamkeit bei einer Vielzahl von Bearbeitungen an realen Videos, die verschiedene Objekte und Szenarien mit Kamera- und Objektbewegungen umfassen.
In jüngster Zeit haben Fortschritte bei textbasierten großen Sprachmodellen (LLMs), insbesondere bei der GPT-Serie und dem o1-Modell, die Wirksamkeit der Skalierung sowohl der Trainings- als auch der Inferenzzeitberechnung gezeigt. Allerdings sind aktuelle State-of-the-Art TTS-Systeme, die auf LLMs basieren, oft mehrstufig und erfordern separate Modelle (z. B. Diffusionsmodelle nach LLM), was die Entscheidung erschwert, ob ein bestimmtes Modell während des Trainings oder Tests skaliert werden soll. Diese Arbeit leistet folgende Beiträge: Erstens untersuchen wir die Skalierung der Trainings- und Inferenzzeitberechnung für die Sprachsynthese. Zweitens schlagen wir ein einfaches Framework Llasa für die Sprachsynthese vor, das einen Einzel-Lagen-Vektorquantisierer (VQ) Codec und eine einzelne Transformer-Architektur verwendet, um vollständig mit Standard-LLMs wie Llama übereinzustimmen. Unsere Experimente zeigen, dass die Skalierung der Trainingszeitberechnung für Llasa die Natürlichkeit des synthetisierten Sprechens konsistent verbessert und die Generierung komplexerer und genauerer Prosodie-Muster ermöglicht. Darüber hinaus verwenden wir aus der Perspektive der Skalierung der Inferenzzeitberechnung Sprachverständnismodelle als Verifizierer während der Suche und stellen fest, dass die Skalierung der Inferenzzeitberechnung die Abtastmodi in Richtung der Präferenzen spezifischer Verifizierer verschiebt, wodurch die emotionale Ausdrucksstärke, die Timbre-Konsistenz und die Inhaltsgenauigkeit verbessert werden. Zusätzlich haben wir den Checkpoint und den Trainingscode für unser TTS-Modell (1B, 3B, 8B) und das Codec-Modell öffentlich zugänglich gemacht.
Die Befolgung von Anweisungen hat moderne große Sprachmodelle (LLMs) zu hilfreichen Assistenten gemacht. Dennoch bleibt das Geheimnis, wie man LLMs bei komplexen Anweisungen bändigt, da es große Unterschiede zwischen Modellen gibt, die von der Open-Source-Community und denen, die von führenden Unternehmen trainiert wurden. Um diese Kluft zu überbrücken, schlagen wir einen einfachen und skalierbaren Ansatz namens UltraIF vor, um LLMs aufzubauen, die komplexe Anweisungen mit Open-Source-Daten befolgen können. UltraIF zerlegt zunächst Benutzeranfragen aus der realen Welt in einfachere Abfragen, Einschränkungen und entsprechende Evaluierungsfragen für die Einschränkungen. Anschließend trainieren wir einen UltraComposer, um einschränkungsbezogene Anfragen mit Evaluierungsfragen zu verfassen. Dieser Anfragekomponist ermöglicht es uns, komplizierte Anweisungen zu synthetisieren und Antworten mit Evaluierungsfragen zu filtern. In unserem Experiment haben wir es zum ersten Mal geschafft, das Modell LLaMA-3.1-8B-Base mit seiner Instruktionsversion bei 5 Anweisungs-Benchmarks ohne jegliche Benchmark-Informationen in Einklang zu bringen, wobei nur das 8B-Modell als Antwortgenerator und Evaluierer verwendet wurde. Das abgestimmte Modell erzielte auch wettbewerbsfähige Punktzahlen in anderen Benchmarks. Darüber hinaus zeigen wir, dass UltraIF die Leistung von LLaMA-3.1-8B-Instruct durch Selbstabstimmung weiter verbessern könnte, was breitere Anwendungsfälle für die Methode motiviert. Unser Code wird unter https://github.com/kkk-an/UltraIF verfügbar sein.
Große Sprachmodelle (LLMs) wie o1 von OpenAI haben bemerkenswerte Fähigkeiten im Bereich des logischen Denkens gezeigt. o1 generiert eine lange Gedankenreihe (LongCoT) bevor es eine Frage beantwortet. LongCoT ermöglicht es LLMs, Probleme zu analysieren, Pläne zu entwerfen, zu reflektieren und effektiv zurückzugehen. Diese Handlungen befähigen LLMs komplexe Probleme zu lösen. Nach der Veröffentlichung von o1 haben viele Teams versucht, dessen LongCoT und logische Fähigkeiten zu replizieren. In Bezug auf Methoden verlassen sie sich hauptsächlich auf Wissensvermittlung mit Daten aus bestehenden Modellen mit LongCoT-Fähigkeiten (z.B. OpenAI-o1, Qwen-QwQ, DeepSeek-R1-Preview), was erhebliche Unsicherheiten bei der systematischen Entwicklung solcher Denkfähigkeiten hinterlässt. In Bezug auf Datenbereiche konzentrieren sich diese Arbeiten eng auf Mathematik, während einige wenige auch Programmieren einschließen, was ihre Verallgemeinerbarkeit einschränkt. Dieser Artikel stellt einen neuartigen Ansatz vor, um die LongCoT-Fähigkeit von LLMs ohne Wissensvermittlung von o1-ähnlichen Modellen oder teuren menschlichen Anmerkungen zu ermöglichen, bei dem wir LongCoT (BOLT) von einem Standard-Instruct-Modell starten. BOLT umfasst drei Phasen: 1) Bootstrapping von LongCoT-Daten mit kontextbezogenem Lernen auf einem Standard-Instruct-Modell; 2) Überwachtes Feintuning von LongCoT; 3) Online-Training zur weiteren Verfeinerung der LongCoT-Fähigkeiten. Bei BOLT müssen nur wenige kontextbezogene Beispiele während der Bootstrapping-Phase erstellt werden; in unseren Experimenten haben wir 10 Beispiele erstellt, um die Machbarkeit dieses Ansatzes zu demonstrieren. Wir verwenden Llama-3.1-70B-Instruct, um LongCoT zu bootstrappen und wenden unsere Methode auf verschiedene Modellskalen (7B, 8B, 70B) an. Wir erzielen beeindruckende Leistungen in einer Vielzahl von Benchmarks, Arena-Hard, MT-Bench, WildBench, ZebraLogic, MATH500, die verschiedene Aufgabenlösungs- und Denkfähigkeiten bewerten.
Das Ziel von Diffusions-generativen Modellen besteht darin, die erlernte Verteilung durch Gradienten-Score-Abgleich mit der tatsächlichen Datenverteilung in Einklang zu bringen. Allerdings führen inhärente Einschränkungen in der Qualität der Trainingsdaten, den Modellierungsstrategien und der architektonischen Gestaltung zu einer unvermeidlichen Kluft zwischen den generierten Ausgaben und den realen Daten. Um diese Kluft zu verringern, schlagen wir Weak-to-Strong Diffusion (W2SD) vor, ein neuartiges Framework, das den geschätzten Unterschied zwischen bestehenden schwachen und starken Modellen (d. h. schwach-zu-starker Unterschied) nutzt, um die Kluft zwischen einem idealen Modell und einem starken Modell zu approximieren. Durch den Einsatz einer reflektierenden Operation, die zwischen Rauschunterdrückung und Inversion mit dem schwach-zu-starken Unterschied wechselt, verstehen wir theoretisch, dass W2SD latente Variablen entlang der Abtasttrajektorien in Richtung der Bereiche der tatsächlichen Datenverteilung lenkt. W2SD ist äußerst flexibel und breit anwendbar, da es durch die strategische Auswahl von schwach-zu-starken Modellpaaren (z. B. DreamShaper vs. SD1.5, gute Experten vs. schlechte Experten in MoE) vielfältige Verbesserungen ermöglicht. Umfangreiche Experimente zeigen, dass W2SD die menschliche Präferenz, ästhetische Qualität und die Einhaltung von Vorgaben signifikant verbessert und dabei Spitzenleistungen in verschiedenen Modalitäten (z. B. Bild, Video), Architekturen (z. B. UNet-basiert, DiT-basiert, MoE) und Benchmarks erzielt. Zum Beispiel kann Juggernaut-XL mit W2SD die Gewinnrate des HPSv2 um bis zu 90 % gegenüber den Originalergebnissen verbessern. Darüber hinaus überwiegen die Leistungssteigerungen, die durch W2SD erzielt werden, deutlich den zusätzlichen Rechenaufwand, während die kumulativen Verbesserungen aus verschiedenen schwach-zu-starken Unterschieden seine praktische Nützlichkeit und Einsetzbarkeit weiter festigen.
Trotz der bemerkenswerten Fähigkeiten großer Sprachmodelle in verschiedenen Aufgaben steht ihr kontinuierliches Skalieren vor einer entscheidenden Herausforderung: dem Mangel an hochwertigen Vortrainingsdaten. Während sich die Modellarchitekturen weiterentwickeln, stößt die Skalierung natürlicher Sprachdaten an Grenzen. Um dieses Engpassproblem zu bewältigen, schlagen wir die MAGA (MAssive Genre-Audience) Reformulierungsmethode vor, die systematisch vielfältige, kontextuell reiche Vortrainingsdaten aus vorhandenen Korpora synthetisiert. Diese Arbeit leistet drei Hauptbeiträge: (1) Wir schlagen die MAGA Reformulierungsmethode vor, einen leichtgewichtigen und skalierbaren Ansatz zur Erweiterung von Korpora für das Vortraining, und erstellen ein 770 Milliarden Token umfassendes MAGACorpus. (2) Wir evaluieren das MAGACorpus mit verschiedenen Strategien zur Skalierung des Datenbudgets und zeigen konsistente Verbesserungen über verschiedene Modellgrößen hinweg (134M-13B), was die Notwendigkeit für groß angelegte synthetische Vortrainings-Sprachmodelle der nächsten Generation unterstreicht. (3) Durch umfassende Analysen untersuchen wir den Einfluss des Prompt Engineerings auf den Zusammenbruch des synthetischen Trainings und zeigen Grenzen konventioneller Metriken zur Erkennung von Zusammenbrüchen anhand von Validierungsverlusten auf. Unsere Arbeit zeigt, dass MAGA die Trainingsdatensätze erheblich erweitern kann, während die Qualität erhalten bleibt und somit einen zuverlässigen Weg für das Skalieren von Modellen über Datenbeschränkungen hinaus bietet.
In jüngsten Forschungsarbeiten wurden große Sprachmodell-Multi-Agenten-Systeme für komplexe Problemlösungen eingesetzt, um den manuellen Aufwand bei ihrer Entwicklung zu reduzieren und die Entwicklung automatisierter Agenten-Workflow-Optimierungsmethoden voranzutreiben. Allerdings bleiben bestehende Methoden aufgrund von Darstellungsbeschränkungen, mangelnder Anpassungsfähigkeit und schlechter Skalierbarkeit bei Verwendung diskreter Optimierungstechniken unflexibel. Diese Herausforderungen werden mit ScoreFlow angegangen, einem einfachen, aber leistungsstarken Framework, das effiziente gradientenbasierte Optimierung in einem kontinuierlichen Raum nutzt. ScoreFlow integriert Score-DPO, eine neuartige Variante der direkten Präferenzoptimierungsmethode, die quantitative Rückmeldungen berücksichtigt. Über sechs Benchmarks, die Fragestellungen, Codierung und mathematisches Denken umfassen, erzielt ScoreFlow eine Verbesserung von 8,2% gegenüber bestehenden Ausgangswerten. Darüber hinaus ermöglicht es kleineren Modellen, größere Modelle mit geringeren Inferenzkosten zu übertreffen. Projekt: https://github.com/Gen-Verse/ScoreFlow
Dieses Papier präsentiert eine Methode, die es Benutzern ermöglicht, kinematografische Videoszenen im Kontext der Bild-zu-Video-Erzeugung zu entwerfen. Die Szenengestaltung, ein entscheidender Aspekt der Filmproduktion, beinhaltet die akribische Planung sowohl der Kamerabewegungen als auch der Objektbewegungen in einer Szene. Die Ermöglichung einer intuitiven Szenengestaltung in modernen Bild-zu-Video-Erzeugungssystemen stellt jedoch zwei Hauptprobleme dar: Erstens die effektive Erfassung der Benutzerabsichten bei der Bewegungsgestaltung, bei der sowohl Kamerabewegungen als auch Objektbewegungen im Szenenraum gemeinsam spezifiziert werden müssen; und zweitens die Darstellung von Bewegungsinformationen, die von einem Video-Diffusionsmodell effektiv genutzt werden können, um die Bildanimationen zu synthetisieren. Um diesen Herausforderungen zu begegnen, führen wir MotionCanvas ein, eine Methode, die benutzerorientierte Steuerelemente in Bild-zu-Video (I2V)-Erzeugungsmodelle integriert, die es Benutzern ermöglichen, sowohl Objekt- als auch Kamerabewegungen auf eine szenenbewusste Weise zu steuern. Indem wir Erkenntnisse aus der klassischen Computergrafik und zeitgenössischen Videogenerierungstechniken verbinden, zeigen wir die Fähigkeit, eine 3D-bewusste Bewegungssteuerung in der I2V-Synthese zu erreichen, ohne aufwändige 3D-bezogene Trainingsdaten zu benötigen. MotionCanvas ermöglicht es Benutzern, Szenenraumbewegungsabsichten intuitiv darzustellen und sie in raumzeitliche Bewegungsbedingungssignale für Videodiffusionsmodelle zu übersetzen. Wir zeigen die Wirksamkeit unserer Methode an einer Vielzahl von realen Bildinhalten und Szenarien zur Szenengestaltung und heben ihr Potenzial zur Verbesserung der kreativen Workflows in der digitalen Inhaltsproduktion und zur Anpassung an verschiedene Bild- und Videobearbeitungsanwendungen hervor.
Die Generierung und Bearbeitung menschlicher Bewegungen sind Schlüsselelemente der Computergrafik und der Bildverarbeitung. Allerdings neigen aktuelle Ansätze in diesem Bereich dazu, isolierte Lösungen anzubieten, die auf spezifische Aufgaben zugeschnitten sind, was für reale Anwendungen ineffizient und unpraktisch sein kann. Obwohl einige Bemühungen darauf abzielen, auf Bewegung bezogene Aufgaben zu vereinheitlichen, verwenden diese Methoden lediglich verschiedene Modalitäten als Bedingungen zur Steuerung der Bewegungsgenerierung. Folglich fehlen ihnen Bearbeitungsfunktionen, fein abgestimmte Kontrolle und die Möglichkeit des Wissenstransfers zwischen Aufgaben. Um diese Einschränkungen zu überwinden und ein vielseitiges, vereinheitlichtes Rahmenwerk bereitzustellen, das sowohl die Generierung als auch die Bearbeitung menschlicher Bewegungen bewältigen kann, führen wir ein neuartiges Paradigma ein: Motion-Condition-Motion, das die vereinheitlichte Formulierung verschiedener Aufgaben durch drei Konzepte ermöglicht: Ausgangsbewegung, Bedingung und Zielbewegung. Basierend auf diesem Paradigma schlagen wir ein vereinheitlichtes Rahmenwerk, MotionLab, vor, das rektifizierte Flüsse verwendet, um die Zuordnung von Ausgangsbewegung zu Zielbewegung zu erlernen, gesteuert durch die spezifizierten Bedingungen. In MotionLab führen wir 1) den MotionFlow Transformer ein, um die bedingte Generierung und Bearbeitung ohne aufgabenspezifische Module zu verbessern; 2) die Ausgerichtete Rotationspositions-Kodierung, um die Zeitsynchronisation zwischen Ausgangs- und Zielbewegung zu gewährleisten; 3) die Aufgaben-spezifische Anweisungsmodulation; und 4) das Motion Curriculum Learning für effektives Multi-Task-Learning und Wissenstransfer zwischen Aufgaben. Bemerkenswert ist, dass unser MotionLab vielversprechende Verallgemeinerungsfähigkeiten und Inferenzeffizienz über mehrere Benchmarks für menschliche Bewegungen aufweist. Unser Code und zusätzliche Videoergebnisse sind verfügbar unter: https://diouo.github.io/motionlab.github.io/.
Große Sprachmodelle (LLMs) haben eine signifikante Leistungsfähigkeit bei verschiedenen Aufgaben gezeigt, wobei ihre Effektivität in der realen Welt oft durch das Design des Eingabereizes bestimmt wird. Während sich die jüngste Forschung auf die Optimierung des Eingabereizinhalts konzentriert hat, hat die Rolle der Eingabereizformatierung, eine kritische, aber oft übersehene Dimension, nur begrenzte systematische Untersuchungen erhalten. In diesem Paper stellen wir Content-Format Integrated Prompt Optimization (CFPO) vor, eine innovative Methodik, die sowohl den Eingabereizinhalt als auch die Formatierung durch einen iterativen Verfeinerungsprozess gemeinsam optimiert. CFPO nutzt natürliche Sprachmutationen, um Inhaltsvariationen zu erkunden, und setzt eine dynamische Formatexplorationsstrategie ein, die systematisch verschiedene Formatoptionen bewertet. Unsere umfangreichen Evaluationen über mehrere Aufgaben und Open-Source LLMs zeigen, dass CFPO messbare Leistungsverbesserungen im Vergleich zu reinen Inhaltsoptimierungsmethoden aufzeigt. Dies unterstreicht die Bedeutung der integrierten Inhalts-Format-Optimierung und bietet einen praktischen, modellunabhängigen Ansatz zur Verbesserung der LLM-Leistung. Der Code wird unter https://github.com/HenryLau7/CFPO verfügbar sein.
Mit dem zunehmenden Einsatz großer Sprachmodelle in realen Anwendungen wird es immer wichtiger, sie mit menschlichen Werten in Einklang zu bringen. Die Verstärkungslernmethode aus menschlichem Feedback (RLHF) hat sich als eine Schlüsseltechnik etabliert, die Präferenzdaten in Belohnungsmodelle übersetzt, wenn die menschlichen Werte des Orakels unzugänglich bleiben. In der Praxis stützt sich RLHF hauptsächlich auf approximierte Belohnungsmodelle, die möglicherweise nicht konsistent die Richtlinie zur Maximierung der zugrunde liegenden menschlichen Werte führen. Wir schlagen Policy-Interpolated Learning for Aligned Feedback (PILAF) vor, eine neuartige Strategie zur Antwortauswahl für die Präferenzkennzeichnung, die die Präferenzlernen explizit mit der Maximierung der zugrunde liegenden Orakelbelohnung in Einklang bringt. PILAF ist theoretisch fundiert und zeigt Optimierung sowohl aus einer Optimierungs- als auch aus einer statistischen Perspektive. Die Methode ist einfach umzusetzen und zeigt starke Leistungen in iterativen und Online-RLHF-Umgebungen, in denen die Rückmeldungskuration entscheidend ist.
Wir präsentieren ein neuartiges Videoerzeugungs-Framework, das 3-dimensionale Geometrie und dynamische Bewusstheit integriert. Um dies zu erreichen, erweitern wir 2D-Videos mit 3D-Punktbahnen und richten sie im Pixelraum aus. Das resultierende 3D-bewusste Video-Datenset, PointVid, wird dann verwendet, um ein latentes Diffusionsmodell feinzutunen, sodass es 2D-Objekte mit 3D-Kartesischen Koordinaten verfolgen kann. Aufbauend darauf regulieren wir die Form und Bewegung von Objekten im Video, um unerwünschte Artefakte wie nicht-physikalische Verformungen zu beseitigen. Folglich verbessern wir die Qualität der erzeugten RGB-Videos und mildern häufige Probleme wie Objektverformungen, die in aktuellen Videomodellen aufgrund mangelnder Formbewusstheit weit verbreitet sind. Mit unserer 3D-Erweiterung und Regulierung ist unser Modell in der Lage, szenarien mit vielen Kontakten wie aufgabenorientierte Videos zu bewältigen. Diese Videos beinhalten komplexe Interaktionen von Festkörpern, bei denen 3D-Informationen wesentlich sind, um Verformungen und Kontakte wahrzunehmen. Darüber hinaus verbessert unser Modell die Gesamtqualität der Videoerzeugung, indem es die 3D-Konsistenz sich bewegender Objekte fördert und abrupte Änderungen in Form und Bewegung reduziert.
Große Sprachmodelle (LLMs) können Chart-Frage-Antwort-Aufgaben ausführen, generieren jedoch häufig nicht überprüfte halluzinierte Antworten. Bestehende Antwortattributionsmethoden haben Schwierigkeiten, Antworten in Quellgrafiken zu verankern, aufgrund begrenzter visuell-semantischer Kontexte, komplexer visuell-textueller Ausrichtungsanforderungen und Schwierigkeiten bei der Begrenzungsfeldvorhersage über komplexe Layouts. Wir stellen ChartCitor vor, ein Multi-Agenten-Framework, das feinkörnige Begrenzungsfeldzitate bereitstellt, indem es unterstützende Beweise innerhalb von Diagrammbildern identifiziert. Das System orchestriert LLM-Agenten, um Diagramm-zu-Tabelle-Extraktion, Antwortneuformulierung, Tabellenerweiterung, Beweisrückgewinnung durch Vorfilterung und Neu-Ranking sowie Tabellen-zu-Diagramm-Zuordnung durchzuführen. ChartCitor übertrifft bestehende Baselines bei verschiedenen Diagrammtypen. Qualitative Benutzerstudien zeigen, dass ChartCitor dazu beiträgt, das Nutzervertrauen in Generative KI zu steigern, indem es eine verbesserte Erklärbarkeit für LLM-unterstützte Diagramm-F&A bietet und Fachleuten ermöglicht, produktiver zu sein.
Wir schlagen Heterogene Maskierte Autoregression (HMA) zur Modellierung der Dynamik von Aktionsvideos vor, um hochwertige Daten zu generieren und die Skalierung des Roboterlernens zu evaluieren. Der Aufbau interaktiver Videoweltmodelle und Richtlinien für die Robotik ist aufgrund der Herausforderung, vielfältige Einstellungen zu handhaben und gleichzeitig die Rechenleistung aufrechtzuerhalten, um in Echtzeit ausgeführt zu werden, schwierig. HMA verwendet heterogenes Vor-Training aus Beobachtungen und Aktionssequenzen über verschiedene Roboter-Verkörperungen, Domänen und Aufgaben. HMA verwendet maskierte Autoregression zur Generierung von quantisierten oder weichen Tokens für Videovorhersagen. \ourshort erzielt eine bessere visuelle Treue und Steuerbarkeit als die bisherigen Modelle zur Generierung von Roboter-Videos mit einer 15-mal schnelleren Geschwindigkeit in der realen Welt. Nach dem Post-Training kann dieses Modell als Videosimulator aus Eingaben auf niedrigem Niveau für die Bewertung von Richtlinien und die Generierung synthetischer Daten verwendet werden. Weitere Informationen finden Sie unter folgendem Link: https://liruiw.github.io/hma.
Die wissenschaftliche Datenvisualisierung ist entscheidend, um Rohdaten in verständliche visuelle Darstellungen umzuwandeln, die Mustererkennung, Prognosen und die Präsentation datengesteuerter Erkenntnisse ermöglichen. Allerdings haben Anfänger häufig Schwierigkeiten aufgrund der Komplexität bei der Auswahl geeigneter Werkzeuge und der Beherrschung von Visualisierungstechniken. Große Sprachmodelle (LLMs) haben kürzlich Potenzial bei der Unterstützung der Codegenerierung gezeigt, kämpfen jedoch mit Genauigkeit und erfordern iteratives Debugging. In diesem Papier schlagen wir PlotGen vor, ein neuartiges Multi-Agenten-Framework, das darauf abzielt, die Erstellung präziser wissenschaftlicher Visualisierungen zu automatisieren. PlotGen orchestriert mehrere auf LLMs basierende Agenten, darunter ein Abfrageplanungsagent, der komplexe Benutzeranfragen in ausführbare Schritte aufteilt, ein Codegenerierungsagent, der Pseudocode in ausführbaren Python-Code umwandelt, und drei Rückkopplungsagenten - ein Numerischer Rückkopplungsagent, ein Lexikalischer Rückkopplungsagent und ein Visueller Rückkopplungsagent - die multimodale LLMs nutzen, um die Datenpräzision, textuelle Beschriftungen und visuelle Korrektheit generierter Plots über Selbstreflexion iterativ zu verfeinern. Umfangreiche Experimente zeigen, dass PlotGen starke Baselines übertrifft, eine Verbesserung von 4-6 Prozent auf dem MatPlotBench-Datensatz erzielt und zu einem gesteigerten Vertrauen der Benutzer in von LLM generierte Visualisierungen sowie einer verbesserten Produktivität von Anfängern führt, da die zur Behebung von Plotfehlern erforderliche Debugging-Zeit reduziert wird.
Das Aufkommen von großen Sprachmodellen (Large Language Models, LLMs) hat das Feld der automatisierten Codegenerierung erheblich vorangetrieben. LLMs stützen sich auf große und vielfältige Datensätze, um die Syntax, Semantik und Verwendungsmuster von Programmiersprachen zu erlernen. Für Sprachen mit geringen Ressourcen (d. h. Nischensprachen, die durch die Knappheit von Trainingsdaten gekennzeichnet sind) behindert die begrenzte Verfügbarkeit solcher Daten die Fähigkeit der Modelle, effektiv zu generalisieren, was zu einer schlechteren Codegenerierungsleistung im Vergleich zu Sprachen mit hohen Ressourcen führt. Aus diesem Grund wird nach Techniken gesucht, die in der Lage sind, diese Leistungslücke zu schließen. Wir präsentieren eine empirische Studie, die die Wirksamkeit mehrerer Ansätze zur Steigerung der Leistung von LLMs in Sprachen mit geringen Ressourcen untersucht, nämlich: (i) ein klassisches Fine-Tuning, das jedoch in seiner Größe durch die Knappheit der Trainingsdaten begrenzt ist; (ii) drei Varianten des In-Context-Lernens, bei denen Anweisungen so gestaltet sind, dass dem LLM zusätzliche Informationen über die Sprache mit geringen Ressourcen (z. B. Few-Shot-Beispiele, die Merkmale der gezielten Sprache zeigen) bereitgestellt werden; und (iii) ein Vortrainierungsziel, das dem Modell beibringt, wie man zwischen Sprachen mit hohen und geringen Ressourcen übersetzt. Der Kontext unserer Studie sind zwei Sprachen mit geringen Ressourcen (R und Racket) und sechs LLMs mit unterschiedlichen Architekturen und Größen. Unsere Ergebnisse zeigen, dass ein Fine-Tuning in der Regel die beste Wahl für kleinere LLMs ist, möglicherweise aufgrund der Tatsache, dass bereits ein kleiner Datensatz ausreicht, um ihre begrenzte Anzahl an Parametern zu trainieren. Mit zunehmender Größe der Modelle wird das In-Context-Lernen immer effektiver und stellt eine sichere und kostengünstige Option dar (d. h. es hilft immer, aber in unterschiedlichem Maße). Im Gegensatz dazu können sehr große LLMs ihre Leistung in Sprachen mit geringen Ressourcen verschlechtern, wenn ein Fine-Tuning durchgeführt wird, möglicherweise aufgrund des Mangels an ausreichenden Daten, die benötigt werden, um ihre Gewichte effektiv zu aktualisieren.
Trotz umfangreicher Bemühungen zur Sicherheitsausrichtung bleiben große Sprachmodelle (LLMs) anfällig für Jailbreak-Angriffe, die schädliches Verhalten hervorrufen. Während bestehende Studien hauptsächlich auf Angriffsmethoden fokussieren, die technisches Fachwissen erfordern, bleiben zwei entscheidende Fragen untererforscht: (1) Sind jailbroken Reaktionen tatsächlich nützlich, um durchschnittlichen Benutzern die Ausführung schädlicher Handlungen zu ermöglichen? (2) Existieren Sicherheitslücken in häufigeren, einfachen mensch-LLM-Interaktionen? In diesem Paper zeigen wir, dass LLM-Reaktionen schädliche Handlungen am effektivsten ermöglichen, wenn sie sowohl handlungsorientiert als auch informativ sind - zwei Eigenschaften, die leicht in mehrstufigen, mehrsprachigen Interaktionen hervorgerufen werden können. Basierend auf dieser Erkenntnis schlagen wir HarmScore vor, eine Jailbreak-Metrik, die misst, wie effektiv eine LLM-Reaktion schädliche Handlungen ermöglicht, und Speak Easy, ein einfaches mehrstufiges, mehrsprachiges Angriffsframework. Bemerkenswert ist, dass durch die Integration von Speak Easy in direkte Anfrage- und Jailbreak-Baselines eine durchschnittliche absolute Steigerung von 0,319 im Angriffserfolgsrate und 0,426 im HarmScore sowohl bei Open-Source als auch bei proprietären LLMs über vier Sicherheitsbenchmarks hinweg beobachtet wird. Unsere Arbeit offenbart eine kritische, aber oft übersehene Schwachstelle: Bösartige Benutzer können leicht gängige Interaktionsmuster für schädliche Absichten ausnutzen.