Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Große Sprachmodelle für Code (Code LLM) erleben derzeit eine Blütezeit. Wöchentlich werden neue und leistungsstarke Modelle veröffentlicht, die bemerkenswerte Leistungen bei der Code-Generierung zeigen. Verschiedene Ansätze wurden vorgeschlagen, um die Code-Generierungsleistung vortrainierter Code LLMs zu steigern, wie beispielsweise überwachte Feinabstimmung, Instruktionsabstimmung, Verstärkungslernen usw. In diesem Artikel schlagen wir ein neuartiges RRTF-Framework (Rank Responses to align Test&Teacher Feedback) vor, das vortrainierte große Sprachmodelle für die Code-Generierung effektiv und effizient verbessern kann. Im Rahmen dieses Frameworks präsentieren wir PanGu-Coder2, das 62,20 % pass@1 auf dem OpenAI HumanEval-Benchmark erreicht. Darüber hinaus zeigen wir durch eine umfangreiche Bewertung auf den Benchmarks CoderEval und LeetCode, dass PanGu-Coder2 durchweg alle bisherigen Code LLMs übertrifft.
Wir präsentieren TransNormerLLM, das erste Large Language Model (LLM) mit linearer Aufmerksamkeit, das herkömmliche Modelle mit Softmax-Aufmerksamkeit sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft. TransNormerLLM entwickelt sich aus der bisherigen linearen Aufmerksamkeitsarchitektur TransNormer durch fortgeschrittene Modifikationen, die Positionsembedding, Beschleunigung der linearen Aufmerksamkeit, Gating-Mechanismus, Tensor-Normalisierung, Inferenzbeschleunigung und -stabilisierung umfassen. Insbesondere verwenden wir LRPE zusammen mit einem exponentiellen Abfall, um Probleme der Aufmerksamkeitsverdünnung zu vermeiden, während das Modell gleichzeitig globale Interaktionen zwischen Tokens beibehalten kann. Zusätzlich schlagen wir Lightning Attention vor, eine bahnbrechende Technik, die die lineare Aufmerksamkeit in der Laufzeit um mehr als das Doppelte beschleunigt und den Speicherverbrauch bemerkenswert um das Vierfache reduziert. Um die Leistung von TransNormer weiter zu steigern, nutzen wir einen Gating-Mechanismus, um das Training zu glätten, und ein neues Tensor-Normalisierungsschema, um das Modell zu beschleunigen, was zu einer beeindruckenden Beschleunigung von über 20% führt. Darüber hinaus haben wir einen robusten Inferenzalgorithmus entwickelt, der numerische Stabilität und eine konsistente Inferenzgeschwindigkeit unabhängig von der Sequenzlänge gewährleistet und damit eine überlegene Effizienz sowohl während des Trainings als auch der Inferenz zeigt. Skalierbarkeit steht im Mittelpunkt unseres Modellentwurfs, was eine nahtlose Bereitstellung auf großen Clustern ermöglicht und die Erweiterung auf noch umfangreichere Modelle erleichtert, während gleichzeitig herausragende Leistungsmetriken beibehalten werden. Die strenge Validierung unseres Modellentwurfs wird durch eine Reihe umfassender Experimente auf unserem selbst gesammelten Korpus erreicht, der eine Größe von über 6 TB und mehr als 2 Billionen Tokens umfasst. Um die Datenqualität und Relevanz sicherzustellen, implementieren wir eine neue Selbstreinigungsstrategie, um unsere gesammelten Daten zu filtern. Unsere vortrainierten Modelle werden veröffentlicht, um die Gemeinschaft bei der Weiterentwicklung effizienter LLMs zu unterstützen.
Wir stellen ein Framework für den Erwerb von Robotikfähigkeiten vor, das 1) die Datengenerierung von sprachbeschrifteten Roboterdaten effizient skaliert und 2) diese Daten effektiv in eine robuste, sprachgesteuerte visuomotorische Multi-Task-Policy destilliert. Für (1) verwenden wir ein großes Sprachmodell (LLM), um die hochrangige Planung zu steuern, und sampling-basierte Roboterplaner (z. B. Bewegungs- oder Greifsampler), um vielfältige und umfangreiche Manipulationstrajektorien zu generieren. Um diesen Datenerfassungsprozess zu robustifizieren, leitet das LLM auch ein Code-Snippet für die Erfolgsbedingung jeder Aufgabe ab, wodurch der Datenerfassungsprozess in der Lage ist, Fehler zu erkennen und erneut zu versuchen, sowie die automatische Beschriftung der Trajektorien mit Erfolg/Misserfolg ermöglicht wird. Für (2) erweitern wir den Diffusion-Policy-Ansatz des Einzelaufgaben-Verhaltensklonens auf Multi-Task-Szenarien mit Sprachsteuerung. Schließlich schlagen wir einen neuen Multi-Task-Benchmark mit 18 Aufgaben über fünf Domänen vor, um langfristiges Verhalten, gesunden Menschenverstand, Werkzeuggebrauch und intuitive Physik zu testen. Wir stellen fest, dass unsere destillierte Policy das robuste Wiederholungsverhalten ihrer Datenerfassungs-Policy erfolgreich erlernt hat, während die absoluten Erfolgsraten im Durchschnitt über fünf Domänen um 34,8 % gesteigert wurden. Der Benchmark, der Code und qualitative Ergebnisse sind auf unserer Website verfügbar: https://www.cs.columbia.edu/~huy/scalingup/
Die visuelle Objektverfolgung ist eine grundlegende Videoaufgabe in der Computer Vision. In jüngster Zeit ermöglicht die deutlich gesteigerte Leistungsfähigkeit von Wahrnehmungsalgorithmen die Vereinheitlichung von Einzel-/Mehrfachobjekt- und Box-/Masken-basierter Verfolgung. Unter diesen hat das Segment Anything Model (SAM) viel Aufmerksamkeit erregt. In diesem Bericht stellen wir HQTrack vor, ein Framework für hochqualitative Verfolgung von beliebigen Objekten in Videos. HQTrack besteht hauptsächlich aus einem Video-Multi-Objekt-Segmentierer (VMOS) und einem Masken-Verfeinerer (MR). Gegeben das zu verfolgende Objekt im Anfangsrahmen eines Videos, propagiert VMOS die Objektmasken zum aktuellen Rahmen. Die Maskenergebnisse in diesem Stadium sind nicht präzise genug, da VMOS auf mehreren geschlossenen Video-Objekt-Segmentierungsdatensätzen (VOS) trainiert wurde, was die Fähigkeit zur Generalisierung auf komplexe und spezielle Szenen einschränkt. Um die Qualität der Verfolgungsmasken weiter zu verbessern, wird ein vortrainiertes MR-Modell eingesetzt, um die Verfolgungsergebnisse zu verfeinern. Als überzeugender Beweis für die Wirksamkeit unseres Paradigmas belegt HQTrack, ohne den Einsatz von Tricks wie Testzeit-Datenaugmentierung und Modell-Ensembles, den 2. Platz in der Visual Object Tracking and Segmentation (VOTS2023) Challenge. Code und Modelle sind verfügbar unter https://github.com/jiawen-zhu/HQTrack.
Die Medizin ist von Natur aus multimodal, mit reichhaltigen Datenmodalitäten, die Text, Bildgebung, Genomik und mehr umfassen. Allgemeine biomedizinische künstliche Intelligenz (KI)-Systeme, die diese Daten flexibel kodieren, integrieren und in großem Maßstab interpretieren, können potenziell wegweisende Anwendungen von der wissenschaftlichen Entdeckung bis zur Versorgung ermöglichen. Um die Entwicklung dieser Modelle zu ermöglichen, stellen wir zunächst MultiMedBench vor, einen neuen multimodalen biomedizinischen Benchmark. MultiMedBench umfasst 14 verschiedene Aufgaben wie medizinische Fragebeantwortung, Interpretation von Mammographie- und Dermatologiebildern, Generierung und Zusammenfassung von Radiologieberichten sowie Genomvariantenbestimmung. Anschließend präsentieren wir Med-PaLM Multimodal (Med-PaLM M), unseren Proof of Concept für ein allgemeines biomedizinisches KI-System. Med-PaLM M ist ein großes multimodales generatives Modell, das biomedizinische Daten, einschließlich klinischer Sprache, Bildgebung und Genomik, flexibel mit demselben Satz von Modellgewichten kodiert und interpretiert. Med-PaLM M erreicht eine Leistung, die mit dem Stand der Technik konkurriert oder diesen auf allen MultiMedBench-Aufgaben übertrifft, oftmals spezialisierte Modelle deutlich übertreffend. Wir berichten auch Beispiele für Zero-Shot-Generalisierung auf neue medizinische Konzepte und Aufgaben, positiven Transferlernen zwischen Aufgaben und emergentem Zero-Shot-medizinischem Denken. Um die Fähigkeiten und Grenzen von Med-PaLM M weiter zu untersuchen, führen wir eine Radiologenbewertung von modellgenerierten (und menschlichen) Röntgenberichten des Brustkorbs durch und beobachten ermutigende Leistungen über verschiedene Modellgrößen hinweg. In einem direkten Vergleich von 246 retrospektiven Röntgenaufnahmen des Brustkorbs äußern Kliniker eine Präferenz für Med-PaLM M-Berichte gegenüber denen von Radiologen in bis zu 40,50 % der Fälle, was auf potenzielle klinische Nützlichkeit hindeutet. Obwohl erhebliche Arbeit erforderlich ist, um diese Modelle in realen Anwendungsfällen zu validieren, stellen unsere Ergebnisse einen Meilenstein in der Entwicklung allgemeiner biomedizinischer KI-Systeme dar.
Die Text-zu-3D-Generierung hat in letzter Zeit erhebliche Aufmerksamkeit erregt, angetrieben durch 2D-Diffusionsmodelle, die mit Milliarden von Bild-Text-Paaren trainiert wurden. Bestehende Methoden stützen sich hauptsächlich auf Score-Distillation, um die 2D-Diffusions-Priors zur Überwachung der Generierung von 3D-Modellen, z.B. NeRF, zu nutzen. Allerdings neigt die Score-Distillation dazu, unter dem Problem der Blickinkonsistenz zu leiden, und die implizite NeRF-Modellierung kann ebenfalls zu willkürlichen Formen führen, was zu weniger realistischer und unkontrollierbarer 3D-Generierung führt. In dieser Arbeit schlagen wir ein flexibles Framework namens Points-to-3D vor, um die Lücke zwischen spärlichen, aber frei verfügbaren 3D-Punkten und realistischer, formkontrollierbarer 3D-Generierung zu schließen, indem Wissen sowohl aus 2D- als auch aus 3D-Diffusionsmodellen destilliert wird. Die Kernidee von Points-to-3D besteht darin, kontrollierbare spärliche 3D-Punkte einzuführen, um die Text-zu-3D-Generierung zu steuern. Konkret verwenden wir die spärliche Punktwolke, die aus dem 3D-Diffusionsmodell Point-E generiert wurde, als geometrisches Prior, bedingt auf ein einzelnes Referenzbild. Um die spärlichen 3D-Punkte besser zu nutzen, schlagen wir einen effizienten Punktwolken-Führungsverlust vor, der die Geometrie des NeRF adaptiv dazu anregt, sich an die Form der spärlichen 3D-Punkte anzupassen. Neben der Kontrolle der Geometrie schlagen wir vor, das NeRF für eine konsistentere Darstellung aus verschiedenen Blickwinkeln zu optimieren. Genauer gesagt führen wir eine Score-Distillation mit dem öffentlich verfügbaren 2D-Bilddiffusionsmodell ControlNet durch, bedingt auf Text sowie auf die Tiefenkarte der erlernten kompakten Geometrie. Qualitative und quantitative Vergleiche zeigen, dass Points-to-3D die Blickkonsistenz verbessert und eine gute Formkontrollierbarkeit für die Text-zu-3D-Generierung erreicht. Points-to-3D bietet Nutzern eine neue Möglichkeit, die Text-zu-3D-Generierung zu verbessern und zu steuern.
Für Künstler oder Grafikdesigner ist die räumliche Anordnung einer Szene eine entscheidende Gestaltungsentscheidung. Bisher bieten bestehende Text-zu-Bild-Diffusionsmodelle jedoch nur begrenzte Unterstützung für die Einbindung räumlicher Informationen. In diesem Artikel stellen wir Composite Diffusion als Methode vor, mit der Künstler hochwertige Bilder durch die Komposition von Teil-Szenen erzeugen können. Die Künstler können die Anordnung dieser Teil-Szenen über ein flexibles, freies Segmentlayout festlegen. Sie können den Inhalt jeder Teil-Szene hauptsächlich durch natürlichen Text beschreiben und zusätzlich Referenzbilder oder Steuerungseingaben wie Strichzeichnungen, Kritzeleien, menschliche Posen, Canny-Kanten und mehr nutzen. Wir bieten eine umfassende und modulare Methode für Composite Diffusion, die alternative Wege zur Erzeugung, Komposition und Harmonisierung von Teil-Szenen ermöglicht. Darüber hinaus möchten wir das zusammengesetzte Bild sowohl hinsichtlich der Bildqualität als auch der Erfüllung der künstlerischen Absicht bewerten. Wir argumentieren, dass bestehende Bildqualitätsmetriken eine ganzheitliche Bewertung von Bildkompositionen vermissen lassen. Um dies zu beheben, schlagen wir neue Qualitätskriterien vor, die besonders für die Kompositionsgenerierung relevant sind. Wir glauben, dass unser Ansatz eine intuitive Methode zur Kunstschaffung bietet. Durch umfangreiche Benutzerumfragen sowie quantitative und qualitative Analysen zeigen wir, wie er eine größere räumliche, semantische und kreative Kontrolle über die Bildgenerierung erreicht. Darüber hinaus müssen unsere Methoden die Architektur der Basisdiffusionsmodelle nicht neu trainieren oder modifizieren und können in Plug-and-Play-Weise mit feinabgestimmten Modellen arbeiten.
Wir untersuchen die Verbesserung sozialer Konversationsagenten durch das Lernen aus natürlichen Dialogen zwischen Nutzern und einem eingesetzten Modell, ohne zusätzliche Annotationen. Um die Qualität einer maschinell generierten Äußerung implizit zu messen, nutzen wir Signale wie die Länge der Nutzerantwort, die Stimmung und die Reaktion der zukünftigen menschlichen Äußerungen in den gesammelten Dialogepisoden. Unsere Experimente verwenden die öffentlich verfügbaren Einsatzdaten von BlenderBot (Xu et al., 2023). Menschliche Bewertungen zeigen Verbesserungen unserer neuen Modelle gegenüber den Baseline-Antworten; jedoch stellen wir fest, dass einige Proxy-Signale auch zu mehr Generationen mit unerwünschten Eigenschaften führen können. Beispielsweise kann die Optimierung auf Gesprächslänge zu mehr kontroversen oder unfreundlichen Generationen im Vergleich zur Baseline führen, während die Optimierung auf positive Stimmung oder Reaktion diese Verhaltensweisen verringern kann.
Aktuelle Vision-Transformer, CNNs mit großen Kerneln und MLPs haben bemerkenswerte Erfolge in einer Vielzahl von Vision-Aufgaben erzielt, dank ihrer effektiven Informationsfusion im globalen Bereich. Ihre effiziente Implementierung, insbesondere auf mobilen Geräten, leidet jedoch noch unter erheblichen Herausforderungen aufgrund der hohen Rechenkosten von Self-Attention-Mechanismen, großen Kerneln oder vollständig verbundenen Schichten. In dieser Arbeit wenden wir das klassische Faltungstheorem auf das Deep Learning an, um dieses Problem zu adressieren, und zeigen, dass adaptive Frequenzfilter als effiziente globale Token-Mixer dienen können. Mit dieser Erkenntnis schlagen wir den Adaptive Frequency Filtering (AFF) Token-Mixer vor. Dieser neuronale Operator überführt eine latente Darstellung mittels einer Fourier-Transformation in den Frequenzbereich und führt eine semantisch adaptive Frequenzfilterung durch eine elementweise Multiplikation durch, was mathematisch einer Token-Mixing-Operation im ursprünglichen latenten Raum mit einem dynamischen Faltungskernel entspricht, der so groß ist wie die räumliche Auflösung dieser latenten Darstellung. Wir verwenden AFF Token-Mixer als primäre neuronale Operatoren, um ein leichtgewichtiges neuronales Netzwerk, genannt AFFNet, zu konstruieren. Umfangreiche Experimente demonstrieren die Effektivität unseres vorgeschlagenen AFF Token-Mixers und zeigen, dass AFFNet im Vergleich zu anderen leichtgewichtigen Netzwerkdesigns überlegene Kompromisse zwischen Genauigkeit und Effizienz bei einer Vielzahl von visuellen Aufgaben erreicht, einschließlich visueller Erkennung und dichten Vorhersageaufgaben.
Das Gebiet der Trajektorienvorhersage hat in den letzten Jahren erheblich an Bedeutung gewonnen, was teilweise auf die Veröffentlichung zahlreicher groß angelegter, realer menschlicher Trajektorien-Datensätze für autonome Fahrzeuge (AVs) und die Verfolgung von Fußgängerbewegungen zurückzuführen ist. Obwohl solche Datensätze für die Community ein Segen waren, verwenden sie jeweils benutzerdefinierte und einzigartige Datenformate und APIs, was es für Forscher umständlich macht, Methoden über mehrere Datensätze hinweg zu trainieren und zu bewerten. Um dies zu beheben, präsentieren wir trajdata: eine einheitliche Schnittstelle zu mehreren menschlichen Trajektorien-Datensätzen. Im Kern bietet trajdata eine einfache, einheitliche und effiziente Darstellung und API für Trajektorien- und Kartendaten. Als Demonstration seiner Fähigkeiten führen wir in dieser Arbeit eine umfassende empirische Bewertung bestehender Trajektorien-Datensätze durch, die den Nutzern ein tiefes Verständnis der Daten vermittelt, die einen Großteil der aktuellen Forschung zur Vorhersage von Fußgänger- und AV-Bewegungen untermauern, und Vorschläge für zukünftige Datensätze auf der Grundlage dieser Erkenntnisse unterbreiten. trajdata ist unter einer freizügigen Lizenz (Apache 2.0) verfügbar und kann online unter https://github.com/NVlabs/trajdata abgerufen werden.