Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir stellen phi-3-mini vor, ein Sprachmodell mit 3,8 Milliarden Parametern, das auf 3,3 Billionen Tokens trainiert wurde. Seine Gesamtleistung, gemessen an akademischen Benchmarks und internen Tests, steht in Konkurrenz zu Modellen wie Mixtral 8x7B und GPT-3.5 (zum Beispiel erreicht phi-3-mini 69% bei MMLU und 8,38 bei MT-bench), obwohl es klein genug ist, um auf einem Telefon eingesetzt zu werden. Die Innovation liegt ausschließlich in unserem Datensatz für das Training, einer hochskalierten Version des für phi-2 verwendeten Datensatzes, der aus stark gefilterten Webdaten und synthetischen Daten besteht. Das Modell ist auch weiterhin auf Robustheit, Sicherheit und Chat-Format ausgerichtet. Wir präsentieren auch einige erste Ergebnisse zur Skalierung der Parameter mit Modellen von 7B und 14B, die auf 4,8 Billionen Tokens trainiert wurden, genannt phi-3-small und phi-3-medium, die beide deutlich leistungsfähiger sind als phi-3-mini (zum Beispiel jeweils 75% und 78% bei MMLU und 8,7 und 8,9 bei MT-bench).
Meta's LLaMA-Familie ist zu einer der leistungsstärksten Open-Source-Serien von Large Language Models (LLM) geworden. Insbesondere wurden kürzlich LLaMA3-Modelle veröffentlicht, die beeindruckende Leistungen über verschiedene Bereiche hinweg erzielen, dank des sehr umfangreichen Vortrainings mit über 15 Billionen Tokens an Daten. Angesichts der breiten Anwendung der Niedrigbit-Quantisierung für LLMs in ressourcenbeschränkten Szenarien untersuchen wir die Fähigkeiten von LLaMA3, wenn sie auf eine niedrige Bit-Breite quantisiert werden. Diese Untersuchung hat das Potenzial, neue Erkenntnisse und Herausforderungen für die Niedrigbit-Quantisierung von LLaMA3 und anderen zukünftigen LLMs aufzudecken, insbesondere bei der Bewältigung von Leistungsverschlechterungsproblemen, die bei der LLM-Kompression auftreten. Konkret bewerten wir die 10 bestehenden Post-Training-Quantisierungs- und LoRA-Feinabstimmungsmethoden von LLaMA3 mit 1-8 Bits und verschiedenen Datensätzen, um umfassend die Leistung der Niedrigbit-Quantisierung von LLaMA3 aufzuzeigen. Unsere Experimente zeigen, dass LLaMA3 in diesen Szenarien nach wie vor eine nicht zu vernachlässigende Verschlechterung aufweist, insbesondere bei extrem niedriger Bit-Breite. Dies unterstreicht die signifikante Leistungslücke bei niedriger Bit-Breite, die in zukünftigen Entwicklungen überwunden werden muss. Wir erwarten, dass diese empirische Studie wertvoll sein wird, um zukünftige Modelle voranzubringen und die LLMs zu einer niedrigeren Bit-Breite mit höherer Genauigkeit für die praktische Anwendung zu bringen. Unser Projekt ist auf https://github.com/Macaronlin/LLaMA3-Quantization veröffentlicht und quantisierte LLaMA3-Modelle sind unter https://huggingface.co/LLMQ verfügbar.
Die heutigen LLMs sind anfällig für Prompt-Injektionen, Jailbreaks und andere Angriffe, die es Angreifern ermöglichen, die ursprünglichen Anweisungen eines Modells mit ihren eigenen bösartigen Prompts zu überschreiben. In dieser Arbeit argumentieren wir, dass eine der Hauptanfälligkeiten, die diesen Angriffen zugrunde liegen, darin besteht, dass LLMs oft Systemprompts (z. B. Texte von einem Anwendungs-Entwickler) als gleich prioritär betrachten wie Texte von nicht vertrauenswürdigen Benutzern und Dritten. Um dies zu lösen, schlagen wir eine Anweisungshierarchie vor, die explizit definiert, wie Modelle sich verhalten sollen, wenn Anweisungen unterschiedlicher Prioritäten in Konflikt geraten. Anschließend schlagen wir eine Methode zur Datenerzeugung vor, um dieses hierarchische Anweisungsverhalten zu demonstrieren, das LLMs lehrt, niedriger priorisierte Anweisungen selektiv zu ignorieren. Wir wenden diese Methode auf GPT-3.5 an und zeigen, dass sie die Robustheit drastisch erhöht - selbst für Angriffstypen, die während des Trainings nicht aufgetreten sind - und dabei minimale Beeinträchtigungen der Standardfähigkeiten verursacht.
Das sich rasant entwickelnde Feld der Robotic Process Automation (RPA) hat bedeutende Fortschritte bei der Automatisierung wiederkehrender Prozesse erzielt, doch seine Wirksamkeit lässt in Szenarien nach, die spontane oder unvorhersehbare Aufgaben erfordern, die von Benutzern verlangt werden. Dieser Artikel stellt einen neuartigen Ansatz namens FlowMind vor, der die Fähigkeiten von Large Language Models (LLMs) wie dem Generative Pretrained Transformer (GPT) nutzt, um diese Einschränkung zu bewältigen und ein automatisches Workflow-Generierungssystem zu schaffen. In FlowMind schlagen wir ein generisches Eingaberezept für eine Vorlesung vor, das das Argumentieren von LLMs mit zuverlässigen Application Programming Interfaces (APIs) fundiert. Dadurch mildert FlowMind nicht nur das häufige Problem von Halluzinationen in LLMs, sondern beseitigt auch die direkte Interaktion zwischen LLMs und proprietären Daten oder Codes, wodurch die Integrität und Vertraulichkeit von Informationen sichergestellt werden - ein Eckpfeiler im Finanzdienstleistungssektor. FlowMind vereinfacht die Benutzerinteraktion weiter, indem es hochrangige Beschreibungen von automatisch generierten Workflows präsentiert, die es Benutzern ermöglichen, diese effektiv zu überprüfen und Feedback zu geben. Wir stellen auch NCEN-QA vor, ein neues Datenset im Finanzbereich zur Bewertung von Frage-Antwort-Aufgaben aus N-CEN-Berichten über Fonds. Wir haben NCEN-QA verwendet, um die Leistung der von FlowMind generierten Workflows im Vergleich zu Basislinien- und Ablationsvarianten von FlowMind zu bewerten. Wir zeigen den Erfolg von FlowMind, die Bedeutung jedes Bestandteils im vorgeschlagenen Vorlesungsrezept und die Wirksamkeit der Benutzerinteraktion und des Feedbacks in FlowMind auf.
In letzter Zeit sind eine Reihe von Diffusion-aware Distillation-Algorithmen entstanden, um den Rechenaufwand zu verringern, der mit dem mehrstufigen Inferenzprozess von Diffusion Models (DMs) verbunden ist. Aktuelle Destillationsverfahren unterteilen sich oft in zwei unterschiedliche Aspekte: i) ODE-Trajektorienerhaltung; und ii) ODE-Trajektorienevaluierung. Diese Ansätze leiden jedoch unter erheblicher Leistungsverschlechterung oder Domänenverschiebungen. Um diese Einschränkungen zu bewältigen, schlagen wir Hyper-SD vor, ein neuartiges Framework, das die Vorteile der ODE-Trajektorienerhaltung und -evaluierung synergistisch vereint, während es eine nahezu verlustfreie Leistung während der Schrittkompression aufrechterhält. Zunächst führen wir Trajektorien-segmentierte Konsistenz-Destillation ein, um schrittweise eine konsistente Destillation innerhalb vordefinierter Zeitschrittsegmente durchzuführen, was die Erhaltung der ursprünglichen ODE-Trajektorie aus einer höheren Perspektive erleichtert. Zweitens integrieren wir menschliches Feedback-Lernen, um die Leistung des Modells in einem Niedrigschritt-Regime zu steigern und den Leistungsverlust, der durch den Destillationsprozess entsteht, zu mildern. Drittens integrieren wir Score-Destillation, um die Niedrigschritt-Generationsfähigkeit des Modells weiter zu verbessern und den ersten Versuch zu unternehmen, eine einheitliche LoRA zu nutzen, um den Inferenzprozess in allen Schritten zu unterstützen. Umfangreiche Experimente und Benutzerstudien zeigen, dass Hyper-SD von 1 bis 8 Inferenzschritten für sowohl SDXL als auch SD1.5 eine SOTA-Leistung erzielt. Beispielsweise übertrifft Hyper-SDXL SDXL-Lightning um +0,68 im CLIP-Score und +0,51 im Aes-Score bei der 1-Schritt-Inferenz.
Dieses Papier beschreibt MAIA, einen Multimodalen Automatisierten Interpretationsagenten. MAIA ist ein System, das neuronale Modelle verwendet, um Aufgaben der automatisierten Interpretation neuronaler Modelle wie Merkmalsinterpretation und Entdeckung von Fehlermodi durchzuführen. Es stattet ein vortrainiertes Vision-Sprachmodell mit einer Reihe von Werkzeugen aus, die iterative Experimente an Subkomponenten anderer Modelle unterstützen, um deren Verhalten zu erklären. Dazu gehören Werkzeuge, die häufig von menschlichen Interpretierbarkeitsforschern verwendet werden: zum Synthetisieren und Bearbeiten von Eingaben, Berechnen von maximal aktivierenden Beispielen aus realen Datensätzen und Zusammenfassen sowie Beschreiben experimenteller Ergebnisse. Interpretierbarkeitsexperimente, die von MAIA vorgeschlagen werden, setzen diese Werkzeuge ein, um das Systemverhalten zu beschreiben und zu erklären. Wir bewerten die Anwendungen von MAIA für Computer-Vision-Modelle. Zunächst charakterisieren wir die Fähigkeit von MAIA, (neuronale Ebene) Merkmale in gelernten Repräsentationen von Bildern zu beschreiben. Über mehrere trainierte Modelle und einen neuartigen Datensatz von synthetischen Vision-Neuronen mit gepaarten Ground-Truth-Beschreibungen hinweg produziert MAIA Beschreibungen, die mit denen von Experten vergleichbar sind. Anschließend zeigen wir, dass MAIA bei zwei zusätzlichen Interpretierbarkeitsaufgaben helfen kann: die Empfindlichkeit gegenüber irreführenden Merkmalen zu verringern und Eingaben automatisch zu identifizieren, die wahrscheinlich falsch klassifiziert werden.
Die rasante Entwicklung des multimodalen Grundlagenmodells hat signifikante Fortschritte im Bereich des Verstehens und der Generierung von Vision-Sprache gezeigt, z. B. unsere vorherige Arbeit SEED-LLaMA. Es besteht jedoch weiterhin eine Kluft zwischen seiner Leistungsfähigkeit und der Anwendbarkeit in der realen Welt, hauptsächlich aufgrund der begrenzten Kapazität des Modells, um effektiv auf verschiedene Benutzeranweisungen zu reagieren und mit vielfältigen visuellen Daten zu interagieren. In dieser Arbeit konzentrieren wir uns darauf, diese Kluft zu überbrücken, indem wir zwei verbesserte Funktionen integrieren: (1) das Verstehen von Bildern beliebiger Größen und Verhältnisse und (2) die Ermöglichung der Multi-Granularität der Bildgenerierung. Wir präsentieren ein vereinheitlichtes und vielseitiges Grundlagenmodell, nämlich SEED-X, das in der Lage ist, Multi-Granularität der visuellen Semantik für Verständnis- und Generierungsaufgaben zu modellieren. Neben den Wettbewerbsfähigen Ergebnissen auf öffentlichen Benchmarks zeigt SEED-X seine Wirksamkeit bei der Bewältigung von Anwendungen in verschiedenen Bereichen nach Anpassung an die Anweisungen. Wir hoffen, dass unsere Arbeit zukünftige Forschung inspirieren wird, was durch vielseitige multimodale Grundlagenmodelle in realen Anwendungen erreicht werden kann. Die Modelle, Codes und Datensätze werden unter https://github.com/AILab-CVC/SEED-X veröffentlicht.
Konsistenzmodelle haben bemerkenswerte Fähigkeiten bei der effizienten Generierung von Bildern/Videos gezeigt, indem sie die Synthese mit minimalen Abtastschritten ermöglichen. Es hat sich als vorteilhaft erwiesen, die Rechenlasten, die mit Diffusionsmodellen verbunden sind, zu mildern. Dennoch bleibt die Anwendung von Konsistenzmodellen bei der Musikgenerierung weitgehend unerforscht. Um diese Lücke zu schließen, präsentieren wir Musik-Konsistenzmodelle (MusicCM), die das Konzept der Konsistenzmodelle nutzen, um effizient Mel-Spektrogramme für Musikstücke zu synthetisieren, wobei die Qualität hoch gehalten wird und die Anzahl der Abtastschritte minimiert wird. Aufbauend auf bestehenden Text-zu-Musik-Diffusionsmodellen integriert das MusicCM-Modell Konsistenzdestillation und das Training eines adversen Diskriminators. Darüber hinaus erweist es sich als vorteilhaft, zusammenhängende Musik zu generieren, indem mehrere Diffusionsprozesse mit gemeinsamen Einschränkungen eingebunden werden. Experimentelle Ergebnisse zeigen die Effektivität unseres Modells in Bezug auf Recheneffizienz, Treue und Natürlichkeit. Bemerkenswert ist, dass MusicCM eine nahtlose Musiksynthese mit lediglich vier Abtastschritten erreicht, z. B. nur eine Sekunde pro Minute des Musikstücks, was das Potenzial für Echtzeitanwendungen zeigt.
Dieses Paper stellt MultiBooth vor, eine neuartige und effiziente Technik für die individuelle Anpassung mehrerer Konzepte bei der Bildgenerierung aus Text. Trotz der signifikanten Fortschritte bei individualisierten Generierungsmethoden, insbesondere mit dem Erfolg von Diffusionsmodellen, haben bestehende Methoden oft Schwierigkeiten mit Szenarien mehrerer Konzepte aufgrund geringer Konzepttreue und hoher Inferenzkosten. MultiBooth begegnet diesen Problemen, indem es den Prozess der mehrkonzeptuellen Generierung in zwei Phasen unterteilt: eine Lernphase für einzelne Konzepte und eine Integrationsphase für mehrere Konzepte. Während der Lernphase für einzelne Konzepte verwenden wir einen multimodalen Bildencoder und eine effiziente Konzeptkodierungstechnik, um eine prägnante und diskriminative Repräsentation für jedes Konzept zu erlernen. In der Integrationsphase für mehrere Konzepte verwenden wir Begrenzungsrahmen, um den Generierungsbereich für jedes Konzept innerhalb der Kreuz-Aufmerksamkeitskarte zu definieren. Diese Methode ermöglicht die Erstellung einzelner Konzepte innerhalb ihrer spezifizierten Regionen und erleichtert somit die Bildung von mehrkonzeptuellen Bildern. Diese Strategie verbessert nicht nur die Konzepttreue, sondern reduziert auch zusätzliche Inferenzkosten. MultiBooth übertrifft verschiedene Baselines sowohl in qualitativen als auch quantitativen Bewertungen und zeigt seine überlegene Leistung und Rechenkapazität. Projektseite: https://multibooth.github.io/
Stabile Fortbewegung in steilen Umgebungen ist eine wesentliche Fähigkeit von Vierbein-Robotern, die die Fähigkeit erfordert, verschiedenen externen Störungen zu widerstehen. Allerdings nutzen aktuelle lernbasierte Richtlinien nur grundlegende Domänenrandomisierung, um die Robustheit der erlernten Richtlinien zu verbessern, was nicht garantieren kann, dass der Roboter über angemessene Störungswiderstandsfähigkeiten verfügt. In diesem Artikel schlagen wir vor, den Lernprozess als eine antagonistische Interaktion zwischen dem Akteur und einem neu eingeführten Störer zu modellieren und ihre Optimierung mit einer H_{infty}-Beschränkung sicherzustellen. Im Gegensatz zum Akteur, der die insgesamt rabattierten Belohnungen maximiert, ist der Störer dafür verantwortlich, effektive externe Kräfte zu erzeugen und wird durch Maximierung des Fehlers zwischen der Aufgabenbelohnung und seinem Orakel optimiert, d.h. "Kosten" in jeder Iteration. Um die gemeinsame Optimierung zwischen dem Akteur und dem Störer stabil zu halten, schreibt unsere H_{infty}-Beschränkung die Begrenzung des Verhältnisses zwischen den Kosten und der Intensität der externen Kräfte vor. Durch wechselseitige Interaktion während der Schulungsphase kann der Akteur die Fähigkeit erlangen, sich durch zunehmend komplexe physische Störungen zu bewegen. Wir überprüfen die Robustheit unseres Ansatzes an Vierbein-Fortbewegungsaufgaben mit dem Unitree Aliengo-Roboter und auch an einer anspruchsvolleren Aufgabe mit dem Unitree A1-Roboter, bei der erwartet wird, dass der Vierbeiner sich nur auf seinen Hinterbeinen fortbewegt, als ob er ein zweibeiniger Roboter wäre. Die simulierten quantitativen Ergebnisse zeigen Verbesserungen gegenüber Basislinien und demonstrieren die Wirksamkeit der Methode und jeder Designentscheidung. Andererseits zeigen reale Roboterexperimente qualitativ, wie robust die Richtlinie ist, wenn sie mit verschiedenen Störungen auf verschiedenen Geländen, einschließlich Treppen, hohen Plattformen, Hängen und rutschigen Geländen, konfrontiert wird. Der gesamte Code, die Checkpoints und die Anleitung zur Bereitstellung in der realen Welt werden öffentlich zugänglich gemacht.
Wir behandeln die Aufgabe, Kameraparameter aus einer Reihe von Bildern, die eine Szene darstellen, zu schätzen. Beliebte Merkmal-basierte Struktur-aus-Bewegung (SfM) Werkzeuge lösen diese Aufgabe durch inkrementelle Rekonstruktion: Sie wiederholen die Triangulation von spärlichen 3D-Punkten und die Registrierung weiterer Kameraperspektiven auf die spärliche Punktewolke. Wir interpretieren die inkrementelle Struktur-aus-Bewegung als eine wiederholte Anwendung und Verfeinerung eines visuellen Neulokalisierers, das heißt, einer Methode, die neue Ansichten auf den aktuellen Stand der Rekonstruktion registriert. Diese Perspektive ermöglicht es uns, alternative visuelle Neulokalisierer zu untersuchen, die nicht auf dem Abgleich lokaler Merkmale basieren. Wir zeigen, dass die Szenenkoordinaten-Regression, ein lernbasierten Neulokalisierungsansatz, es uns ermöglicht, implizite, neuronale Szenedarstellungen aus ungeordneten Bildern zu erstellen. Im Gegensatz zu anderen lernbasierten Rekonstruktionsmethoden benötigen wir keine Posenprioritäten oder sequenzielle Eingaben, und wir optimieren effizient über Tausende von Bildern. Unsere Methode, ACE0 (ACE Zero), schätzt Kamerapositionen mit einer Genauigkeit, die mit der Merkmal-basierten SfM vergleichbar ist, wie durch die Synthese neuer Ansichten gezeigt wird. Projekseite: https://nianticlabs.github.io/acezero/