Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir untersuchen inwieweit zeitgenössische Large Language Models (LLMs) Exploration betreiben können, eine Kernfähigkeit im Bereich des Reinforcement Learning und der Entscheidungsfindung. Wir konzentrieren uns auf die natürliche Leistungsfähigkeit bestehender LLMs, ohne Trainingsinterventionen. Wir setzen LLMs als Agenten in einfachen Multi-Armed Bandit-Umgebungen ein, indem wir die Umgebungsbeschreibung und Interaktionshistorie vollständig im Kontext, d.h. innerhalb des LLM-Prompts, spezifizieren. Wir experimentieren mit GPT-3.5, GPT-4 und Llama2, unter Verwendung verschiedener Prompt-Designs, und stellen fest, dass die Modelle ohne erhebliche Interventionen nicht robust Exploration betreiben: i) In all unseren Experimenten führte nur eine Konfiguration zu zufriedenstellendem explorativem Verhalten: GPT-4 mit Chain-of-Thought-Reasoning und einer extern zusammengefassten Interaktionshistorie, präsentiert als hinreichende Statistiken; ii) Alle anderen Konfigurationen führten nicht zu robustem explorativem Verhalten, einschließlich derjenigen mit Chain-of-Thought-Reasoning, aber unzusammengefasster Historie. Obwohl diese Ergebnisse positiv interpretiert werden können, legen sie nahe, dass externe Zusammenfassung - die möglicherweise in komplexeren Umgebungen nicht möglich ist - wichtig ist, um wünschenswertes Verhalten von LLM-Agenten zu erhalten. Wir kommen zu dem Schluss, dass nicht-triviale algorithmische Interventionen, wie Feinabstimmung oder Datensatzkuratierung, erforderlich sein können, um LLM-basierte Entscheidungsagenten in komplexen Umgebungen zu stärken.
Vortrainierte große Sprachmodelle (LLMs) sind derzeit der Stand der Technik für die Lösung der überwiegenden Mehrheit der Aufgaben im Bereich der natürlichen Sprachverarbeitung. Während viele Anwendungen in der realen Welt immer noch Feinabstimmung erfordern, um zufriedenstellende Leistungspegel zu erreichen, befinden sich viele von ihnen im Niedrigdatenbereich, was die Feinabstimmung herausfordernd macht. Um dies anzugehen, schlagen wir LLM2LLM vor, eine gezielte und iterative Datenanreicherungsstrategie, die ein Lehrer-LLM verwendet, um einen kleinen Ausgangsdatensatz durch Anreicherung zusätzlicher Daten zu verbessern, die für die Feinabstimmung auf eine spezifische Aufgabe verwendet werden können. LLM2LLM (1) feinabstimmt ein Basisstudenten-LLM auf den anfänglichen Ausgangsdaten, (2) bewertet und extrahiert Datenpunkte, die das Modell falsch erhält, und (3) verwendet ein Lehrer-LLM, um synthetische Daten basierend auf diesen inkorrekten Datenpunkten zu generieren, die dann wieder in die Trainingsdaten aufgenommen werden. Dieser Ansatz verstärkt das Signal von während des Trainings vom LLM falsch vorhergesagten Datenpunkten und integriert sie wieder in den Datensatz, um sich auf anspruchsvollere Beispiele für das LLM zu konzentrieren. Unsere Ergebnisse zeigen, dass LLM2LLM die Leistung von LLMs im Niedrigdatenbereich signifikant verbessert, traditionelle Feinabstimmung und andere Datenanreicherungsgrundlinien übertrifft. LLM2LLM reduziert die Abhängigkeit von arbeitsintensiver Datenaufbereitung und ebnet den Weg für skalierbarere und leistungsstärkere LLM-Lösungen, die es uns ermöglichen, datenbeschränkte Bereiche und Aufgaben anzugehen. Wir erzielen Verbesserungen von bis zu 24,2 % auf dem GSM8K-Datensatz, 32,6 % auf CaseHOLD, 32,0 % auf SNIPS, 52,6 % auf TREC und 39,8 % auf SST-2 gegenüber der regulären Feinabstimmung im Niedrigdatenbereich unter Verwendung eines LLaMA2-7B-Studentenmodells.
Wir stellen InternVideo2 vor, ein neues Video-Grundmodell (ViFM), das Spitzenleistungen bei der Aktionserkennung, Video-Text-Aufgaben und videozentrierten Dialogen erzielt. Unser Ansatz verwendet ein progressives Schulungsparadigma, das die verschiedenen selbst- oder schwach überwachten Lernrahmen des maskierten Video-Token-Rekonstruktions-, kreuzmodalen kontrastiven Lernens und der nächsten Token-Vorhersage vereint. Unterschiedliche Schulungsphasen würden unser Modell anleiten, verschiedene Ebenen der Struktur und semantischen Informationen durch unterschiedliche Vorwandaufgaben zu erfassen. Auf der Datenebene priorisieren wir die räumlich-zeitliche Konsistenz, indem wir Videos semantisch segmentieren und Video-Audio-Sprachunterschriften generieren. Dies verbessert die Ausrichtung zwischen Video und Text. Wir skalieren sowohl Daten als auch Modellgröße für unser InternVideo2. Durch umfangreiche Experimente validieren wir unsere Entwürfe und zeigen Spitzenleistungen bei über 60 Video- und Audioaufgaben auf. Bemerkenswert ist, dass unser Modell andere in verschiedenen video-bezogenen Untertitelungs-, Dialog- und langen Videoverständnis-Benchmarks übertrifft und damit seine Fähigkeit betont, lange zeitliche Kontexte zu erfassen und zu verstehen. Code und Modelle sind verfügbar unter https://github.com/OpenGVLab/InternVideo2/.
In dieser Studie stellen wir eine Methodik zur Animation von menschlichen Bildern vor, die auf einem 3D-Menschparametriksmodell innerhalb eines latenten Diffusionsrahmens basiert, um die Formausrichtung und Bewegungssteuerung in aktuellen generativen Techniken für menschliche Darstellungen zu verbessern. Die Methodik nutzt das SMPL (Skinned Multi-Person Linear) Modell als 3D-Menschparametrikmodell, um eine einheitliche Darstellung von Körperform und Pose herzustellen. Dies erleichtert die präzise Erfassung der komplexen menschlichen Geometrie und Bewegungsmerkmale aus Ausgangsvideos. Speziell integrieren wir gerenderte Tiefenbilder, Normalenvektorkarten und semantische Karten, die aus SMPL-Sequenzen gewonnen wurden, zusammen mit skelettgestützter Bewegungssteuerung, um die Bedingungen des latenten Diffusionsmodells mit umfassenden 3D-Formen und detaillierten Posemerkmalen anzureichern. Ein mehrschichtiges Bewegungsverschmelzungsmodul, das Selbst-Aufmerksamkeitsmechanismen integriert, wird verwendet, um die Form- und Bewegungslatenzrepräsentationen im räumlichen Bereich zu verschmelzen. Durch die Darstellung des 3D-Menschparametrikmodells als Bewegungssteuerung können wir eine parametrische Formausrichtung des menschlichen Körpers zwischen dem Referenzbild und der Bewegung im Ausgangsvideo durchführen. Experimentelle Bewertungen, die an Benchmark-Datensätzen durchgeführt wurden, zeigen die überlegene Fähigkeit der Methodik, hochwertige menschliche Animationen zu generieren, die sowohl Pose- als auch Formvariationen präzise erfassen. Darüber hinaus zeigt unser Ansatz auch überlegene Verallgemeinerungsfähigkeiten auf dem vorgeschlagenen Wild-Datensatz. Projektseite: https://fudan-generative-vision.github.io/champ.
Realitätsnahe Anwendungen erfordern oft eine große Galerie von 3D-Ressourcen, die ein konsistentes Thema teilen. Während bemerkenswerte Fortschritte bei der allgemeinen 3D-Inhaltsentwicklung aus Text oder Bildern erzielt wurden, bleibt die Synthese individueller 3D-Ressourcen im gemeinsamen Thema der Eingabe-3D-Beispiele ein offenes und anspruchsvolles Problem. In dieser Arbeit präsentieren wir ThemeStation, einen innovativen Ansatz für themenbewusste 3D-zu-3D-Generierung. ThemeStation synthetisiert individuelle 3D-Ressourcen basierend auf wenigen gegebenen Beispielen mit zwei Zielen: 1) Einheit, um 3D-Ressourcen zu generieren, die thematisch mit den gegebenen Beispielen übereinstimmen, und 2) Vielfalt, um 3D-Ressourcen mit einem hohen Grad an Variationen zu generieren. Zu diesem Zweck entwerfen wir einen zweistufigen Rahmen, der zuerst ein Konzeptbild zeichnet, gefolgt von einer referenzinformierten 3D-Modellierungsphase. Wir schlagen einen neuartigen Dual-Score-Destillations (DSD) Verlust vor, um Prioritäten sowohl von den Eingabebeispielen als auch vom synthetisierten Konzeptbild gemeinsam zu nutzen. Umfangreiche Experimente und Benutzerstudien bestätigen, dass ThemeStation frühere Arbeiten in der Produktion vielfältiger themenbewusster 3D-Modelle mit beeindruckender Qualität übertrifft. ThemeStation ermöglicht auch verschiedene Anwendungen wie steuerbare 3D-zu-3D-Generierung.
In diesem Paper schlagen wir VidLA vor, einen Ansatz für die Skalierung der Video-Sprach-Alignment vor. Es gibt zwei Hauptbeschränkungen früherer Ansätze zur Video-Sprach-Alignment. Erstens erfassen sie nicht sowohl kurze als auch lange zeitliche Abhängigkeiten und verwenden in der Regel komplexe hierarchische tiefe Netzwerkarchitekturen, die schwer mit vorhandenen vorab trainierten Bild-Text-Grundlagenmodellen zu integrieren sind. Um diese Beschränkung effektiv anzugehen, halten wir stattdessen die Netzwerkarchitektur einfach und verwenden eine Reihe von Datentoken, die hierarchisch auf unterschiedlichen zeitlichen Auflösungen arbeiten und die zeitlich hierarchische Natur von Videos berücksichtigen. Durch die Verwendung einer einfachen Zwei-Turm-Architektur können wir unser Video-Sprach-Modell mit vorab trainierten Bild-Text-Grundlagenmodellen initialisieren und somit die endgültige Leistung steigern. Zweitens haben bestehende Arbeiten zur Video-Sprach-Alignment Schwierigkeiten aufgrund des Mangels an semantisch abgestimmten groß angelegten Trainingsdaten. Um dies zu überwinden, nutzen wir aktuelle LLMs, um den bisher größten Video-Sprach-Datensatz mit besserer visueller Verankerung zu kuratieren. Darüber hinaus ist unser Datensatz im Gegensatz zu bestehenden Video-Text-Datensätzen, die nur kurze Clips enthalten, mit Video-Clips unterschiedlicher Dauer angereichert, um unseren zeitlich hierarchischen Datentoken zu helfen, bessere Repräsentationen auf unterschiedlichen zeitlichen Skalen zu extrahieren. Insgesamt zeigen empirische Ergebnisse, dass unser vorgeschlagener Ansatz auf mehreren Abruf-Benchmarks die Methoden auf dem neuesten Stand der Technik übertrifft, insbesondere bei längeren Videos, und auf Klassifizierungs-Benchmarks wettbewerbsfähig abschneidet.
Transformer haben weit verbreitete Aufmerksamkeitsnetzwerke für Sequenzmischung und MLPs für Kanalmischung übernommen, die eine entscheidende Rolle bei der Erzielung von Durchbrüchen in verschiedenen Bereichen spielen. Allerdings weist die jüngste Literatur auf Probleme mit Aufmerksamkeitsnetzwerken hin, darunter geringe induktive Verzerrung und quadratische Komplexität in Bezug auf die Eingabesequenzlänge. Zustandsraummodelle (SSMs) wie S4 und andere (Hippo, Globale Faltungen, Flüssiges S4, LRU, Mega und Mamba) sind entstanden, um die genannten Probleme anzugehen und längere Sequenzlängen zu bewältigen. Mamba, obwohl es sich um das modernste SSM handelt, hat ein Stabilitätsproblem, wenn es auf große Netzwerke für Computer Vision Datensätze skaliert wird. Wir schlagen SiMBA vor, eine neue Architektur, die Einstein FFT (EinFFT) zur Kanalmodellierung durch spezifische Eigenwertberechnungen einführt und den Mamba-Block zur Sequenzmodellierung verwendet. Umfangreiche Leistungsstudien über Bild- und Zeitreihen-Benchmarks zeigen, dass SiMBA bestehende SSMs übertrifft und die Leistungslücke zu modernsten Transformatoren schließt. SiMBA etabliert sich insbesondere als das neue modernste SSM auf ImageNet und Transfer-Lern-Benchmarks wie Stanford Car und Flower sowie Aufgabenlern-Benchmarks sowie sieben Zeitreihen-Benchmark-Datensätzen. Die Projektseite ist auf dieser Website verfügbar: https://github.com/badripatro/Simba.
Wir stellen DragAPart vor, eine Methode, die anhand eines Bildes und einer Reihe von Ziehungen als Eingabe ein neues Bild des gleichen Objekts in einem neuen Zustand generieren kann, der mit der Aktion der Ziehungen kompatibel ist. Im Gegensatz zu früheren Arbeiten, die sich auf das Umpositionieren von Objekten konzentrierten, sagt DragAPart Teilinteraktionen voraus, wie das Öffnen und Schließen einer Schublade. Wir untersuchen dieses Problem als Stellvertreter für das Erlernen eines generalistischen Bewegungsmodells, das nicht auf eine spezifische kinematische Struktur oder Objektkategorie beschränkt ist. Zu diesem Zweck starten wir mit einem vorab trainierten Bildgenerator und feinjustieren ihn anhand eines neuen synthetischen Datensatzes, Drag-a-Move, den wir einführen. In Kombination mit einer neuen Codierung für die Ziehungen und der Datenrandomisierung generalisiert das neue Modell gut auf reale Bilder und verschiedene Kategorien. Im Vergleich zu früheren bewegungsgesteuerten Generatoren zeigen wir ein viel besseres Verständnis für Teilbewegungen.
Moderne große Sprachmodelle (LLMs) sind in der Lage, langen und komplexen Anweisungen zu folgen, die eine vielfältige Menge von Benutzeraufgaben ermöglichen. Trotzdem verwenden Informationsabruf (IR) Modelle LLMs als Grundlage ihrer Architekturen, nehmen jedoch fast alle nur Anfragen als Eingabe entgegen, ohne Anweisungen. Bei den wenigen aktuellen Modellen, die Anweisungen entgegennehmen, ist unklar, wie sie diese verwenden. Wir stellen unseren Datensatz FollowIR vor, der einen strengen Anweisungsbewertungsmaßstab sowie ein Trainingset zur Unterstützung von IR-Modellen beim besseren Befolgen realer Anweisungen enthält. FollowIR baut auf der langen Geschichte der TREC-Konferenzen auf: Da TREC menschlichen Annotatoren Anweisungen (auch als Erzählungen bekannt) zur Bestimmung der Dokumentenrelevanz bereitstellt, sollten auch IR-Modelle in der Lage sein, anhand dieser detaillierten Anweisungen Relevanz zu verstehen und zu entscheiden. Unser Bewertungsmaßstab beginnt mit drei sorgfältig bewerteten TREC-Sammlungen und verändert die Annotator-Anweisungen, indem relevante Dokumente erneut annotiert werden. Durch diesen Prozess können wir messen, wie gut IR-Modelle Anweisungen befolgen, mithilfe eines neuen paarweisen Bewertungsrahmens. Unsere Ergebnisse zeigen, dass bestehende Abrufmodelle Anweisungen nicht korrekt verwenden, indem sie sie für grundlegende Schlüsselwörter verwenden und Schwierigkeiten haben, Informationen in Langform zu verstehen. Wir zeigen jedoch, dass es für IR-Modelle möglich ist, zu lernen, komplexe Anweisungen zu befolgen: Unser neues FollowIR-7B-Modell weist signifikante Verbesserungen (über 13%) nach Feinabstimmung anhand unseres Trainingsets auf.
Wörtliches Feedback stellt ein wertvolles Repository von Benutzererfahrungen, Meinungen und Anforderungen dar, die für die Softwareentwicklung unerlässlich sind. Das Extrahieren wertvoller Erkenntnisse aus solchen Daten stellt eine anspruchsvolle Aufgabe dar. Dieser Artikel stellt Allhands vor, ein innovatives analytisches Framework, das für die Analyse von Feedback im großen Maßstab durch eine natürliche Sprachschnittstelle konzipiert ist und dabei auf große Sprachmodelle (LLMs) zurückgreift. Allhands folgt einem herkömmlichen Feedback-Analyse-Workflow, der zunächst Klassifizierung und Themenmodellierung des Feedbacks durchführt, um sie in ein strukturell erweitertes Format umzuwandeln, das LLMs zur Verbesserung von Genauigkeit, Robustheit, Verallgemeinerung und Benutzerfreundlichkeit integriert. Anschließend wird ein LLM-Agent eingesetzt, um die vielfältigen Fragen der Benutzer in natürlicher Sprache zum Feedback zu interpretieren, sie in Python-Code für die Ausführung zu übersetzen und umfassende multimodale Antworten bereitzustellen, einschließlich Text, Code, Tabellen und Bildern. Wir evaluieren Allhands anhand von drei verschiedenen Feedback-Datensätzen. Die Experimente zeigen, dass Allhands eine überlegene Wirksamkeit in allen Analysephasen aufweist, einschließlich Klassifizierung und Themenmodellierung, und den Benutzern letztendlich ein "Frag mich alles" -Erlebnis mit umfassenden, korrekten und menschenlesbaren Antworten bietet. Soweit uns bekannt ist, ist Allhands das erste umfassende Feedback-Analyserahmenwerk, das vielfältige und individuelle Anforderungen für die Erkenntnisgewinnung durch eine natürliche Sprachschnittstelle unterstützt.
Aktuelle Ansätze zur Text-zu-3D-Generierung liefern beeindruckende 3D-Ergebnisse, erfordern jedoch zeitaufwändige Optimierungen, die bis zu einer Stunde pro Eingabe benötigen können. Amortisierte Methoden wie ATT3D optimieren mehrere Eingaben gleichzeitig, um die Effizienz zu steigern und eine schnelle Text-zu-3D-Synthese zu ermöglichen. Allerdings können sie keine hochfrequenten Geometrie- und Texturdetails erfassen und haben Schwierigkeiten, auf große Eingabemengen zu skalieren, wodurch sie schlecht generalisieren. Wir stellen LATTE3D vor, das diese Einschränkungen angeht, um eine schnelle, hochwertige Generierung auf einem deutlich größeren Eingabesatz zu erreichen. Schlüssel unseres Verfahrens ist 1) der Aufbau einer skalierbaren Architektur und 2) die Nutzung von 3D-Daten während der Optimierung durch 3D-bewusste Diffusionspriors, Formregulierung und Modellinitialisierung, um Robustheit gegenüber vielfältigen und komplexen Trainingsvorgaben zu erreichen. LATTE3D amortisiert sowohl neuronale Feld- als auch texturierte Oberflächengenerierung, um hochdetaillierte texturierte Netze in einem einzigen Durchlauf zu erzeugen. LATTE3D generiert 3D-Objekte in 400ms und kann durch schnelle Optimierung zur Testzeit weiter verbessert werden.
Wir stellen ein neuartiges Paradigma in der Compiler-Optimierung vor, das von Large Language Models mit Compiler-Feedback angetrieben wird, um die Codegröße von LLVM-Assembly zu optimieren. Das Modell nimmt den nicht optimierten LLVM IR als Eingabe und erzeugt optimierten IR, die besten Optimierungsdurchläufe und Anweisungszählungen sowohl des nicht optimierten als auch des optimierten IRs. Anschließend kompilieren wir die Eingabe mit den generierten Optimierungsdurchläufen und bewerten, ob die vorhergesagte Anweisungszählung korrekt ist, der generierte IR kompilierbar ist und dem kompilierten Code entspricht. Wir geben dieses Feedback an das LLM zurück und geben ihm eine weitere Chance, den Code zu optimieren. Dieser Ansatz führt zu einer zusätzlichen Verbesserung von 0,53% gegenüber -Oz am ursprünglichen Modell. Obwohl es intuitiv erscheint, durch Feedback mehr Informationen hinzuzufügen, erreichen einfache Sampling-Techniken bei 10 oder mehr Samples eine deutlich höhere Leistung.