Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Software ist eines der leistungsstärksten Werkzeuge, die uns Menschen zur Verfügung stehen; es ermöglicht einem erfahrenen Programmierer, auf komplexe und tiefgreifende Weise mit der Welt zu interagieren. Gleichzeitig hat es dank Verbesserungen in großen Sprachmodellen (LLMs) auch eine rasante Entwicklung von KI-Agenten gegeben, die mit ihrer Umgebung interagieren und Veränderungen bewirken. In diesem Artikel stellen wir OpenDevin vor, eine Plattform zur Entwicklung leistungsstarker und flexibler KI-Agenten, die auf ähnliche Weise wie ein menschlicher Entwickler mit der Welt interagieren: durch das Schreiben von Code, die Interaktion mit einer Befehlszeile und das Durchsuchen des Webs. Wir beschreiben, wie die Plattform die Implementierung neuer Agenten, die sichere Interaktion mit abgeschotteten Umgebungen für die Codeausführung, die Koordination zwischen mehreren Agenten und die Integration von Evaluierungsbenchmarks ermöglicht. Basierend auf unseren derzeit integrierten Benchmarks führen wir eine Bewertung der Agenten über 15 anspruchsvolle Aufgaben durch, darunter Softwaretechnik (z. B. SWE-Bench) und Web-Browsing (z. B. WebArena), unter anderem. Unter der freizügigen MIT-Lizenz veröffentlicht, ist OpenDevin ein Gemeinschaftsprojekt, das die Bereiche Wissenschaft und Industrie umspannt und mehr als 1,3K Beiträge von über 160 Beitragenden aufweist und sich kontinuierlich verbessern wird.
Visuelle Sprachmodelle (VLMs) haben sich schnell weiterentwickelt, angetrieben vom Erfolg großer Sprachmodelle (LLMs). Während Modellarchitekturen und Trainingsinfrastrukturen schnell voranschreiten, bleibt die Datenkuratierung untererforscht. Wenn Datenmenge und -qualität zu Engpässen werden, greifen bestehende Arbeiten entweder direkt auf mehr Rohdaten aus dem Internet zurück, die keine Garantie für Datenqualität bieten, oder destillieren aus Black-Box-Kommerziellen Modellen (z. B. GPT-4V / Gemini), was die Leistung durch dieses Modell nach oben begrenzt. In dieser Arbeit stellen wir einen neuartigen Ansatz vor, der einen Selbstvergrößerungsschritt und einen Fachvergrößerungsschritt beinhaltet, um iterativ die Datenqualität und die Modellleistung zu verbessern. Im Selbstvergrößerungsschritt unterzieht ein VLM seine eigenen Vortrainingsdaten einer Neubeschriftung, um die Datenqualität zu verbessern, und trainiert dann von Grund auf neu mit diesem verfeinerten Datensatz, um die Modellleistung zu steigern. Dieser Prozess kann mehrere Runden durchlaufen. Sobald die Selbstvergrößerung gesättigt ist, verwenden wir mehrere spezialisierte VLMs, die vom selbstvergrößerten VLM mit domänenspezifischer Expertise feinabgestimmt wurden, um spezialisiertes Wissen in das generalistische VLM durch aufgabenorientierte Neubeschriftung und Neutraining einzubringen. Mit dem kombinierten selbstvergrößerten und fachvergrößerten Training stellen wir VILA^2 (VILA-vergrößert-VILA) vor, eine VLM-Familie, die die Genauigkeit bei einer Vielzahl von Aufgaben im Vergleich zum Stand der Technik kontinuierlich verbessert und auf dem MMMU-Leaderboard unter Open-Source-Modellen neue Spitzenleistung erzielt.
Die Animation von menschlichen Bildern beinhaltet die Erzeugung von Videos aus einem Charakterfoto, was dem Benutzer die Kontrolle ermöglicht und das Potenzial für Video- und Filmproduktion freisetzt. Während aktuelle Ansätze beeindruckende Ergebnisse durch die Verwendung hochwertiger Trainingsdaten liefern, behindert die Unzugänglichkeit dieser Datensätze eine faire und transparente Bewertung. Darüber hinaus priorisieren diese Ansätze die 2D-Menschendarstellung und übersehen die Bedeutung von Kamerabewegungen in Videos, was zu eingeschränkter Kontrolle und instabiler Videogenerierung führt. Um die Trainingsdaten zu entschlüsseln, präsentieren wir HumanVid, den ersten groß angelegten hochwertigen Datensatz, der speziell für die Animation von menschlichen Bildern entwickelt wurde und echte und synthetische Daten kombiniert. Für die realen Daten erstellen wir eine umfangreiche Sammlung von urheberrechtsfreien realen Videos aus dem Internet. Durch eine sorgfältig gestaltete regelbasierte Filterstrategie stellen wir die Einbeziehung hochwertiger Videos sicher, was zu einer Sammlung von 20.000 menschenzentrierten Videos in 1080P-Auflösung führt. Die Annotation von menschlichen und Kamerabewegungen erfolgt mithilfe eines 2D-Posenschätzers und einer auf SLAM basierenden Methode. Für die synthetischen Daten sammeln wir 2.300 urheberrechtsfreie 3D-Avatar-Ressourcen, um vorhandene verfügbare 3D-Ressourcen zu erweitern. Insbesondere führen wir eine regelbasierte Methode zur Generierung von Kameratrajektorien ein, die es der synthetischen Pipeline ermöglicht, vielfältige und präzise Kamerabewegungsannotationen zu integrieren, die in realen Daten selten zu finden sind. Zur Überprüfung der Wirksamkeit von HumanVid etablieren wir ein Basismodell namens CamAnimate, kurz für Kamera-steuerbare menschliche Animation, das sowohl menschliche als auch Kamerabewegungen als Bedingungen berücksichtigt. Durch umfangreiche Experimente zeigen wir, dass ein solches einfaches Basistraining auf unserem HumanVid eine Spitzenleistung bei der Steuerung sowohl der menschlichen Pose als auch der Kamerabewegungen erreicht und einen neuen Maßstab setzt. Der Code und die Daten werden öffentlich verfügbar sein unter https://github.com/zhenzhiwang/HumanVid/.
Trotz der fortgeschrittenen Intelligenzfähigkeiten großer Sprachmodelle (LLMs) in verschiedenen Anwendungen stehen sie immer noch vor erheblichen Rechen- und Speicheranforderungen. Das Konzept des Wissensabgleichs (KD) hat sich als effektive Strategie zur Verbesserung der Leistung eines kleineren LLM (d. h. des Schülermodells) durch die Übertragung von Wissen von einem leistungsstarken LLM (d. h. des Lehrermodells) herauskristallisiert. Gängige Techniken beim Abgleich von LLMs verwenden in der Regel eine Black-Box-Modell-API, um hochwertige vorab trainierte und abgestimmte Datensätze zu generieren, oder setzen auf White-Box-Abgleich durch Anpassung der Verlustfunktion, um das Wissen vom Lehrer-LLM besser zu übertragen. Diese Methoden ignorieren jedoch die Wissensunterschiede zwischen dem Schüler- und Lehrer-LLM über verschiedene Bereiche hinweg. Dies führt zu einer übermäßigen Konzentration auf Bereiche mit geringen Leistungsunterschieden und unzureichender Beachtung von Bereichen mit großen Unterschieden, was die Gesamtleistung mindert. In diesem Artikel stellen wir ein neues LLM-Abgleichsframework namens DDK vor, das die Zusammensetzung des Abgleichsdatensatzes dynamisch und sanft anhand der Leistungsunterschiede zwischen den Lehrer- und Schülermodellen anpasst, um den Abgleichsprozess stabiler und effektiver zu gestalten. Umfangreiche Evaluationen zeigen, dass DDK die Leistung der Schülermodelle signifikant verbessert und sowohl kontinuierlich vorab trainierte Baselines als auch bestehende Wissensabgleichsmethoden bei weitem übertrifft.
Der rasante Fortschritt von Sprachmodellen (LMs) erfordert eine robuste Ausrichtung auf vielfältige Benutzerwerte. Allerdings versagen aktuelle Präferenzoptimierungsansätze oft dabei, die Vielfalt der Benutzermeinungen einzufangen, indem sie mehrheitliche Standpunkte verstärken und Minderheitsperspektiven marginalisieren. Wir stellen PERSONA vor, ein reproduzierbares Testbett, das entwickelt wurde, um die pluralistische Ausrichtung von LMs zu bewerten und zu verbessern. Wir generieren prozedural vielfältige Benutzerprofile aus US-Zensusdaten, was zu 1.586 synthetischen Persönlichkeiten mit unterschiedlichen demografischen und eigenwilligen Merkmalen führt. Anschließend erstellen wir einen umfangreichen Evaluierungsdatensatz mit 3.868 Anfragen und 317.200 Feedback-Paaren, die von unseren synthetischen Persönlichkeiten erhalten wurden. Unter Verwendung dieses Datensatzes evaluieren wir systematisch die Fähigkeiten von LMs, diverse Benutzerrollen zu übernehmen, die durch menschliche Richter verifiziert werden, und die Schaffung sowohl eines Benchmarks, PERSONA Bench, für pluralistische Ausrichtungsansätze als auch eines umfangreichen Datensatzes zur Erstellung neuer und zukünftiger Benchmarks. Der vollständige Datensatz und die Benchmarks sind hier verfügbar: https://www.synthlabs.ai/research/persona.
Die grundlegendste Fähigkeit moderner KI-Methoden wie Großer Sprachmodelle (LLMs) ist die Fähigkeit, das nächste Token in einer langen Sequenz von Tokens vorherzusagen, bekannt als "Sequenzmodellierung". Obwohl das Transformer-Modell derzeit der dominante Ansatz für die Sequenzmodellierung ist, ist sein quadratischer Rechenaufwand in Bezug auf die Sequenzlänge ein bedeutender Nachteil. Zustandsraummodelle (SSMs) bieten aufgrund ihrer linearen Dekodierungseffizienz und hohen Parallelisierbarkeit während des Trainings eine vielversprechende Alternative. Allerdings stützen sich bestehende SSMs oft auf scheinbar ad hoc lineare Rekurrenzdesigns. In dieser Arbeit erforschen wir das Design von SSMs durch die Linse des Online-Lernens und konzeptualisieren SSMs als Meta-Module für spezifische Online-Lernprobleme. Dieser Ansatz verknüpft das SSM-Design mit der Formulierung präziser Online-Lernziele, wobei die Zustandsübergangsregeln aus der Optimierung dieser Ziele abgeleitet werden. Basierend auf dieser Erkenntnis stellen wir eine neuartige tiefe SSM-Architektur vor, die auf dem impliziten Update zur Optimierung eines Online-Regression-Ziels basiert. Unsere experimentellen Ergebnisse zeigen, dass unsere Modelle auf Standard-Sequenzmodellierungs-Benchmarks und Sprachmodellierungsaufgaben die modernsten SSMs, einschließlich des Mamba-Modells, übertreffen.
Wir präsentieren Stable Video 4D (SV4D), ein latentes Video-Diffusionsmodell für die konsistente Erzeugung von dynamischen 3D-Inhalten über mehrere Frames und Ansichten. Im Gegensatz zu früheren Methoden, die auf separat trainierten generativen Modellen für die Videogenerierung und die Synthese neuer Ansichten basieren, entwerfen wir ein vereinheitlichtes Diffusionsmodell, um neuartige Ansichtsvideos von dynamischen 3D-Objekten zu generieren. Konkret generiert SV4D, basierend auf einem monokularen Referenzvideo, neuartige Ansichten für jeden Videoframe, die zeitlich konsistent sind. Anschließend verwenden wir die generierten neuartigen Ansichtsvideos, um eine implizite 4D-Repräsentation (dynamisches NeRF) effizient zu optimieren, ohne auf die umständliche SDS-basierte Optimierung zurückgreifen zu müssen, die in den meisten früheren Arbeiten verwendet wird. Um unser vereinheitlichtes Modell zur Generierung von neuartigen Ansichtsvideos zu trainieren, haben wir einen Datensatz mit dynamischen 3D-Objekten aus dem bestehenden Objaverse-Datensatz zusammengestellt. Umfangreiche experimentelle Ergebnisse auf mehreren Datensätzen und Benutzerstudien zeigen die erstklassige Leistung von SV4D bei der Synthese von Neuansichtsvideos sowie der 4D-Generierung im Vergleich zu früheren Arbeiten.
Können wir visuomotorische Roboter mit Generalisierungsfähigkeiten ausstatten, um in verschiedenen Open-World-Szenarien zu agieren? In diesem Paper schlagen wir Maniwhere vor, ein generalisierbares Framework, das für visuelles Verstärkungslernen maßgeschneidert ist und es den trainierten Roboter-Richtlinien ermöglicht, über eine Kombination mehrerer visueller Störungstypen hinweg zu generalisieren. Konkret führen wir einen Multi-View-Repräsentationslernansatz ein, der mit einem Spatial Transformer Network (STN)-Modul verschmolzen ist, um gemeinsame semantische Informationen und Entsprechungen zwischen verschiedenen Blickwinkeln zu erfassen. Darüber hinaus verwenden wir einen auf Lehrplänen basierenden Randomisierungs- und Augmentierungsansatz, um den RL-Trainingsprozess zu stabilisieren und die visuelle Generalisierungsfähigkeit zu stärken. Um die Wirksamkeit von Maniwhere zu zeigen, entwerfen wir sorgfältig 8 Aufgaben, die präzise Objekte, bi-manuelle und geschickte Handhabungsaufgaben umfassen, und zeigen die starke visuelle Generalisierung und Sim2Real-Transferfähigkeiten von Maniwhere über 3 Hardwareplattformen hinweg. Unsere Experimente zeigen, dass Maniwhere signifikant besser abschneidet als bestehende State-of-the-Art-Methoden. Videos sind verfügbar unter https://gemcollector.github.io/maniwhere/.
Verschiedene Benutzer finden verschiedene Bilder, die für denselben Anstoß generiert wurden, wünschenswert. Dies führt zur personalisierten Bildgenerierung, bei der Bilder erstellt werden, die den visuellen Vorlieben einer Person entsprechen. Aktuelle generative Modelle sind jedoch unpersönlich, da sie darauf abgestimmt sind, Ausgaben zu erzeugen, die einem breiten Publikum gefallen. Ihre Verwendung zur Generierung von Bildern, die den individuellen Benutzern entsprechen, beruht auf einem iterativen manuellen Anstoß-Engineering durch den Benutzer, was ineffizient und unerwünscht ist. Wir schlagen vor, den Bildgenerierungsprozess zu personalisieren, indem wir zunächst die generischen Vorlieben des Benutzers in einem einmaligen Prozess erfassen, indem wir sie einladen, zu einer kleinen Auswahl von Bildern Stellung zu beziehen und zu erklären, warum sie jedes mögen oder nicht mögen. Basierend auf diesen Kommentaren schließen wir auf die strukturierten gemochten und nicht gemochten visuellen Merkmale eines Benutzers, d.h. ihre visuelle Vorliebe, unter Verwendung eines großen Sprachmodells. Diese Merkmale werden verwendet, um ein Text-zu-Bild-Modell zu lenken, um Bilder zu erzeugen, die auf die visuelle Vorliebe des individuellen Benutzers abgestimmt sind. Durch eine Reihe von Benutzerstudien und groß angelegte Sprachmodell-gesteuerte Bewertungen zeigen wir, dass die vorgeschlagene Methode zu Generationen führt, die gut mit den visuellen Vorlieben einzelner Benutzer übereinstimmen.
Niedrigpräzisionsformate wie float8 wurden in der beschleunigten Hardware für maschinelles Lernen eingeführt, um die Rechenleistung bei der Schulung und Inferenz großer Sprachmodelle zu verbessern. Dennoch wurde die Akzeptanz in der ML-Community durch die komplexen und manchmal spröden Techniken, die erforderlich sind, um die Schulungsgenauigkeit höherer Präzision zu erreichen, verlangsamt. In dieser Arbeit stellen wir Scalify vor, ein End-to-End-Skalenpropagationsparadigma für Berechnungsgraphen, das bestehende Tensor-Skalierungsmethoden verallgemeinert und formalisiert. Experimentelle Ergebnisse zeigen, dass Scalify die Out-of-the-Box-Matrixmultiplikation und Gradientendarstellung in float8 unterstützt, sowie die Speicherung des Optimizer-Zustands in float16. Unsere JAX-Implementierung von Scalify ist unter https://github.com/graphcore-research/jax-scalify als Open Source verfügbar.
Viele anspruchsvolle Aufgaben wie die Verwaltung von Verkehrssystemen, Stromnetzen oder Lieferketten umfassen komplexe Entscheidungsprozesse, die mehrere sich widersprechende Ziele ausbalancieren und die Handlungen verschiedener unabhängiger Entscheidungsträger koordinieren müssen. Eine Perspektive zur Formalisierung und Bewältigung solcher Aufgaben ist das Multi-Objective Multi-Agent Reinforcement Learning (MOMARL). MOMARL erweitert das Reinforcement Learning (RL) auf Probleme mit mehreren Agenten, von denen jeder mehrere Ziele in seinen Lernprozess einbeziehen muss. In der Forschung zum Reinforcement Learning sind Benchmarks entscheidend, um Fortschritte, Evaluationen und Reproduzierbarkeit zu erleichtern. Die Bedeutung von Benchmarks wird durch die Existenz zahlreicher Benchmark-Frameworks unterstrichen, die für verschiedene RL-Paradigmen entwickelt wurden, einschließlich Single-Agent RL (z. B. Gymnasium), Multi-Agent RL (z. B. PettingZoo) und Single-Agent Multi-Objective RL (z. B. MO-Gymnasium). Zur Unterstützung der Weiterentwicklung des MOMARL-Feldes stellen wir MOMAland vor, die erste Sammlung standardisierter Umgebungen für Multi-Objective Multi-Agent Reinforcement Learning. MOMAland deckt den Bedarf an umfassendem Benchmarking in diesem aufstrebenden Bereich ab und bietet über 10 verschiedene Umgebungen, die sich in der Anzahl der Agenten, Zustandsdarstellungen, Belohnungsstrukturen und Nutzenüberlegungen unterscheiden. Um starke Ausgangspunkte für zukünftige Forschung zu bieten, enthält MOMAland auch Algorithmen, die in der Lage sind, Richtlinien in solchen Umgebungen zu erlernen.
Ein dramatischer Zustrom von durch Diffusion erzeugten Bildern hat die letzten Jahre geprägt und stellt aktuelle Erkennungstechnologien vor einzigartige Herausforderungen. Obwohl die Aufgabe, diese Bilder zu identifizieren, unter binäre Klassifizierung fällt, eine scheinbar unkomplizierte Kategorie, ist die Rechenlast signifikant, wenn die Technik "Rekonstruktion und Vergleich" angewendet wird. Dieser Ansatz, bekannt als DIRE (Diffusion Reconstruction Error), identifiziert nicht nur durch Diffusion erzeugte Bilder, sondern erkennt auch solche, die von GANs produziert wurden, was die breite Anwendbarkeit der Technik hervorhebt. Um die Rechenherausforderungen anzugehen und die Effizienz zu verbessern, schlagen wir vor, das in Diffusionsmodellen eingebettete Wissen zu destillieren, um schnelle Deepfake-Erkennungsmodelle zu entwickeln. Unser Ansatz zielt darauf ab, einen kleinen, schnellen, kostengünstigen und leichten Deepfake-Detektor auf Diffusionsbasis zu schaffen, der eine robuste Leistung beibehält und gleichzeitig die betrieblichen Anforderungen erheblich reduziert. Unsere experimentellen Ergebnisse zeigen eine Inferenzgeschwindigkeit, die 3,2-mal schneller ist als das bestehende DIRE-Framework, während die Leistung beibehalten wird. Dieser Fortschritt verbessert nicht nur die Praktikabilität der Bereitstellung dieser Systeme in realen Umgebungen, sondern ebnet auch den Weg für zukünftige Forschungsvorhaben, die darauf abzielen, das Wissen über Diffusionsmodelle zu nutzen.
Die selbstfahrenden Industrien beschäftigen in der Regel professionelle Künstler, um exquisite 3D-Autos zu erstellen. Es ist jedoch teuer, großformatige digitale Assets zu erstellen. Da bereits zahlreiche Datensätze verfügbar sind, die eine große Anzahl von Bildern von Autos enthalten, konzentrieren wir uns darauf, hochwertige 3D-Automodelle aus diesen Datensätzen zu rekonstruieren. Allerdings enthalten diese Datensätze nur eine Seite der Autos in der vorwärts bewegten Szene. Wir versuchen, die vorhandenen generativen Modelle zu nutzen, um mehr Überwachungsinformationen bereitzustellen, aber sie haben Schwierigkeiten, sich gut zu generalisieren, da sie auf synthetischen Datensätzen trainiert sind, die nicht spezifisch für Autos sind. Darüber hinaus kommt es aufgrund eines großen Fehlers bei der Kamerapositionsschätzung bei der Verarbeitung von Bildern aus der Wildnis zu einer Verschiebung der rekonstruierten 3D-Auto-Textur. Diese Einschränkungen machen es für frühere Methoden herausfordernd, vollständige 3D-Autos zu rekonstruieren. Um diese Probleme anzugehen, schlagen wir eine neuartige Methode namens DreamCar vor, die hochwertige 3D-Autos rekonstruieren kann, selbst wenn nur wenige Bilder oder sogar nur ein einziges Bild vorliegen. Um das generative Modell zu generalisieren, sammeln wir einen Autodatensatz namens Car360 mit über 5.600 Fahrzeugen. Mit diesem Datensatz machen wir das generative Modell robuster für Autos. Wir verwenden dieses generative Prior spezifisch für das Auto, um seine Rekonstruktion über Score Distillation Sampling zu führen. Um die Überwachungsinformationen weiter zu ergänzen, nutzen wir die geometrische und optische Symmetrie von Autos. Schließlich schlagen wir eine Pose-Optimierungsmethode vor, die die Positionen korrigiert, um Texturverschiebungen zu beheben. Umfangreiche Experimente zeigen, dass unsere Methode bestehende Methoden signifikant in der Rekonstruktion hochwertiger 3D-Autos übertrifft. Unsere Codes sind verfügbar unter: https://xiaobiaodu.github.io/dreamcar-project/