Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Sprachmodelle haben sich in einer Vielzahl von Softwareanwendungen als wirksam erwiesen, insbesondere bei Aufgaben im Zusammenhang mit automatisierten Workflows. Diese Modelle verfügen über die entscheidende Fähigkeit, Funktionen aufzurufen, was bei der Erstellung von KI-Agenten unerlässlich ist. Trotz der hohen Leistung großer Sprachmodelle in Cloud-Umgebungen werden sie häufig mit Bedenken hinsichtlich Datenschutz und Kosten in Verbindung gebracht. Aktuelle On-Device-Modelle für die Funktionsaufruf stehen vor Problemen mit Latenz und Genauigkeit. Unsere Forschung stellt eine neue Methode vor, die einem On-Device-Modell mit 2 Milliarden Parametern ermöglicht, die Leistung von GPT-4 sowohl in Genauigkeit als auch in Latenz zu übertreffen und die Kontextlänge um 95\% zu verringern. Im Vergleich zu Llama-7B mit einem auf RAG basierenden Funktionsaufrufmechanismus verbessert unsere Methode die Latenz um das 35-fache. Diese Methode reduziert die Latenz auf Niveaus, die für den Einsatz auf einer Vielzahl von Edge-Geräten in Produktionsumgebungen geeignet sind und entspricht den Leistungsanforderungen für Anwendungen in der realen Welt.
Wir stellen Eurus vor, eine Suite großer Sprachmodelle (LLMs), die für das Argumentieren optimiert sind. Durch Feinabstimmung von Mistral-7B und CodeLlama-70B erzielen Eurus-Modelle Spitzenleistungen unter Open-Source-Modellen in einer Vielzahl von Benchmarks, die Mathematik, Code-Generierung und logische Schlussfolgerungsprobleme abdecken. Insbesondere schlägt Eurus-70B GPT-3.5 Turbo im Argumentieren in einem umfassenden Benchmarking über 12 Tests, die fünf Aufgaben abdecken, und erreicht eine Passgenauigkeit von 33,3% bei LeetCode und 32,6% bei TheoremQA, zwei anspruchsvollen Benchmarks, wobei bestehende Open-Source-Modelle deutlich um mehr als 13,3% übertroffen werden. Die starke Leistung von Eurus ist hauptsächlich auf UltraInteract zurückzuführen, unser neu kuratiertes, groß angelegtes, qualitativ hochwertiges Alignierungsdatenset, das speziell für komplexe Argumentationsaufgaben entwickelt wurde. UltraInteract kann sowohl für überwachtes Feintuning als auch für Präferenzlernen verwendet werden. Für jede Anweisung enthält es einen Präferenzbaum, der aus (1) Argumentationsketten mit vielfältigen Planungsstrategien in einem einheitlichen Format, (2) Mehrfachinteraktionstrajektorien mit der Umgebung und der Kritik sowie (3) paarweisen Daten zur Erleichterung des Präferenzlernens besteht. UltraInteract ermöglicht es uns, eine eingehende Erkundung des Präferenzlernens für Argumentationsaufgaben durchzuführen. Unsere Untersuchung zeigt, dass einige etablierte Präferenzlernalgorithmen möglicherweise weniger geeignet für Argumentationsaufgaben sind im Vergleich zu ihrer Effektivität in allgemeinen Gesprächen. Inspiriert davon leiten wir ein neuartiges Belohnungsmodellierungsziel ab, das zusammen mit UltraInteract zu einem starken Belohnungsmodell führt.
Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Verarbeitung langer Sequenzen von mehr als 32K Tokens gemacht. Allerdings wurde ihre Leistungsbewertung hauptsächlich auf Metriken wie Perplexität und synthetische Aufgaben beschränkt, die möglicherweise nicht vollständig ihre Fähigkeiten in nuancierteren, realen Szenarien erfassen. Diese Studie führt einen spezialisierten Benchmark (LIConBench) ein, der sich auf das langfristige kontextbezogene Lernen im Bereich der extremen Klassifikation von Labels konzentriert. Wir haben sorgfältig sechs Datensätze ausgewählt, die einen Labelbereich von 28 bis 174 Klassen abdecken und unterschiedliche Eingabelängen (Few-Shot-Demonstration) von 2K bis 50K umfassen. Unser Benchmark erfordert von LLMs, die gesamte Eingabe zu erfassen, um die umfangreichen Labelräume zu erkennen und korrekte Vorhersagen zu treffen. Wir evaluieren 13 Langkontext-LLMs anhand unserer Benchmarks. Wir stellen fest, dass die Langkontext-LLMs unter einer Tokenlänge von 20K relativ gut abschneiden und die Leistung von der Nutzung des langen Kontextfensters profitiert. Nachdem das Kontextfenster jedoch 20K überschreitet, fallen die meisten LLMs dramatisch ab, mit Ausnahme von GPT-4. Dies deutet auf eine bemerkenswerte Lücke in den aktuellen Fähigkeiten von LLMs hin, lange, kontextreiche Sequenzen zu verarbeiten und zu verstehen. Weitere Analysen ergaben eine Tendenz der Modelle, Vorhersagen für Labels zu bevorzugen, die am Ende der Sequenz präsentiert werden. Ihre Fähigkeit, über mehrere Teile in der langen Sequenz zu argumentieren, muss noch verbessert werden. Unsere Studie zeigt, dass das Verständnis und die Argumentation über langen Kontext nach wie vor eine anspruchsvolle Aufgabe für die bestehenden LLMs darstellen. Wir glauben, dass LIConBench als realistischere Bewertung für zukünftige Langkontext-LLMs dienen könnte.
Wir trainieren eine Reihe von multimodalen Grundlagenmodellen (MMFM) unter Verwendung des beliebten LLaVA-Frameworks mit der kürzlich veröffentlichten Gemma-Familie großer Sprachmodelle (LLMs). Besonderes Interesse gilt dem 2B-Parameter-Gemma-Modell, das Möglichkeiten bietet, leistungsfähige kleinere MMFMs zu konstruieren. Im Einklang mit Erkenntnissen aus anderen Arbeiten in diesem Bereich testen wir die Auswirkung der Entfernung von drei Designmerkmalen: Vortraining des Verbinders, Verwendung eines leistungsstärkeren Bildrückgrats und Erhöhung der Größe des Sprachrückgrats. Die resultierenden Modelle, die wir LLaVA-Gemma nennen, zeigen eine moderate Leistung bei einer Vielzahl von Bewertungen, können jedoch die aktuellen vergleichbar großen SOTA-Modelle nicht übertreffen. Eine genauere Analyse der Leistung zeigt gemischte Effekte; das Überspringen des Vortrainings neigt dazu, die Leistung zu verringern, größere Vision-Modelle verbessern manchmal die Leistung, und die Erhöhung der Größe des Sprachmodells hat inkonsistente Effekte. Wir veröffentlichen öffentlich Trainingsrezepte, Code und Gewichte für unsere Modelle für die LLaVA-Gemma-Modelle.
Die Kontrollierbarkeit spielt eine entscheidende Rolle bei der Videogenerierung, da sie es den Benutzern ermöglicht, den gewünschten Inhalt zu erstellen. Allerdings haben bestehende Modelle weitgehend die präzise Steuerung der Kameraposition übersehen, die als filmische Sprache dient, um tiefere narrative Feinheiten auszudrücken. Um dieses Problem zu mildern, führen wir CameraCtrl ein, das eine genaue Steuerung der Kameraposition für Text-zu-Video (T2V)-Modelle ermöglicht. Nachdem die Kamerabahn präzise parametrisiert wurde, wird ein Plug-and-Play-Kameramodul auf einem T2V-Modell trainiert, ohne andere Teile zu beeinflussen. Darüber hinaus wird eine umfassende Studie über die Auswirkungen verschiedener Datensätze durchgeführt, die darauf hindeutet, dass Videos mit einer vielfältigen Kameraverteilung und ähnlichem Erscheinungsbild die Kontrollierbarkeit und Verallgemeinerung tatsächlich verbessern. Experimentelle Ergebnisse zeigen die Wirksamkeit von CameraCtrl bei der Erzielung präziser und domänenadaptiver Kamerasteuerung und markieren einen Schritt vorwärts bei der Verfolgung von dynamischer und maßgeschneiderter Videogeschichtenerzählung aus textuellen und Kamerapositionseingaben. Unsere Projektwebsite ist unter folgendem Link erreichbar: https://hehao13.github.io/projects-CameraCtrl/.
Wir stellen HyperCLOVA X vor, eine Familie von großen Sprachmodellen (LLMs), die auf die koreanische Sprache und Kultur zugeschnitten sind und über wettbewerbsfähige Fähigkeiten in Englisch, Mathematik und Codierung verfügen. HyperCLOVA X wurde auf einer ausgewogenen Mischung von koreanischen, englischen und Code-Daten trainiert, gefolgt von Instruktionenfeinabstimmung mit hochwertigen, menschenannotierten Datensätzen unter Einhaltung strenger Sicherheitsrichtlinien, die unsere Verpflichtung zu verantwortungsbewusster KI widerspiegeln. Das Modell wird anhand verschiedener Benchmarks bewertet, einschließlich umfassender Argumentation, Wissen, gesundem Menschenverstand, Faktizität, Codierung, Mathematik, Chatten, Instruktionsbefolgung und Ungefährlichkeit, sowohl auf Koreanisch als auch auf Englisch. HyperCLOVA X zeigt starke Argumentationsfähigkeiten in Koreanisch, gestützt auf ein tiefes Verständnis der Sprache und kulturellen Feinheiten. Eine weitere Analyse der inhärenten zweisprachigen Natur und ihrer Erweiterung zur Mehrsprachigkeit hebt die überlinguale Kompetenz des Modells und seine starke Verallgemeinerungsfähigkeit auf nicht gezielte Sprachen hervor, einschließlich maschineller Übersetzungen zwischen mehreren Sprachpaaren und überlingualer Schlussfolgerungsaufgaben. Wir sind der Meinung, dass HyperCLOVA X hilfreiche Anleitung für Regionen oder Länder bieten kann, um ihre souveränen LLMs zu entwickeln.
Wir untersuchen die Skalierungseigenschaften von Latent Diffusion Models (LDMs) mit einem Schwerpunkt auf ihrer Probenahmeeffizienz. Während verbesserte Netzwerkarchitekturen und Inferenzalgorithmen gezeigt haben, dass sie die Probenahmeeffizienz von Diffusionsmodellen effektiv steigern können, wurde die Rolle der Modellgröße – ein entscheidender Faktor für die Probenahmeeffizienz – bisher nicht gründlich untersucht. Durch empirische Analyse etablierter Text-zu-Bild-Diffusionsmodelle führen wir eine eingehende Untersuchung darüber durch, wie die Modellgröße die Probenahmeeffizienz über verschiedene Probenahmeschritte hinweg beeinflusst. Unsere Ergebnisse enthüllen einen überraschenden Trend: Bei einem gegebenen Inferenzbudget erzielen kleinere Modelle häufig bessere Ergebnisse in der Erzeugung hochwertiger Resultate als ihre größeren Äquivalente. Darüber hinaus erweitern wir unsere Studie, um die Generalisierbarkeit dieser Ergebnisse zu demonstrieren, indem wir verschiedene Diffusionsprobenahmegeräte anwenden, verschiedene nachgelagerte Aufgaben erkunden, nachdestillierte Modelle bewerten und die Leistung im Verhältnis zum Trainingsaufwand vergleichen. Diese Ergebnisse eröffnen neue Wege für die Entwicklung von LDM-Skalierungsstrategien, die eingesetzt werden können, um die generativen Fähigkeiten innerhalb begrenzter Inferenzbudgets zu verbessern.
Große Sprachmodelle (LLMs) haben aufgrund ihrer Fähigkeit, menschliche Sprache zu verarbeiten und Aufgaben auszuführen, für die sie nicht explizit trainiert wurden, weitreichendes Interesse geweckt. Dies ist für die chemischen Wissenschaften relevant, die mit dem Problem kleiner und vielfältiger Datensätze konfrontiert sind, die häufig in Form von Text vorliegen. LLMs haben vielversprechende Ergebnisse bei der Bewältigung dieser Probleme gezeigt und werden zunehmend eingesetzt, um chemische Eigenschaften vorherzusagen, Reaktionen zu optimieren und sogar Experimente autonom zu entwerfen und durchzuführen. Allerdings haben wir immer noch nur ein sehr begrenztes systematisches Verständnis der chemischen Denkfähigkeiten von LLMs, das erforderlich wäre, um Modelle zu verbessern und potenzielle Schäden zu minimieren. Hier stellen wir "ChemBench" vor, ein automatisiertes Framework, das entwickelt wurde, um das chemische Wissen und die Denkfähigkeiten von modernsten LLMs im Vergleich zur Expertise menschlicher Chemiker rigoros zu bewerten. Wir haben mehr als 7.000 Frage-Antwort-Paare für eine Vielzahl von Teilgebieten der chemischen Wissenschaften zusammengestellt, führende Open-Source- und Closed-Source-LLMs bewertet und festgestellt, dass die besten Modelle in unserer Studie im Durchschnitt die besten menschlichen Chemiker übertroffen haben. Die Modelle haben jedoch Schwierigkeiten mit einigen chemischen Denkaufgaben, die für menschliche Experten einfach sind, und liefern übermütige, irreführende Vorhersagen, beispielsweise zu Sicherheitsprofilen von Chemikalien. Diese Ergebnisse verdeutlichen die doppelte Realität, dass LLMs zwar bemerkenswerte Fähigkeiten bei chemischen Aufgaben zeigen, jedoch weitere Forschung entscheidend ist, um ihre Sicherheit und Nützlichkeit in den chemischen Wissenschaften zu verbessern. Unsere Ergebnisse deuten auch auf die Notwendigkeit von Anpassungen an Chemielehrplänen hin und betonen die Bedeutung der kontinuierlichen Entwicklung von Bewertungsrahmen, um sichere und nützliche LLMs zu verbessern.
Das Pretraining moderner großer Sprachmodelle erfordert mittlerweile Billionen von Wörtern Text, was um Größenordnungen mehr ist als für die überwiegende Mehrheit der Sprachen verfügbar ist. Während das Einbeziehen von Texten in mehr als einer Sprache ein offensichtlicher Weg ist, um mehr Pretraining-Daten zu erhalten, wird Multilingualität oft als Fluch angesehen, und die meisten Bemühungen zur Modellschulung konzentrieren sich weiterhin fast ausschließlich auf einzelne große Sprachen. Wir sind der Meinung, dass Multilingualität ein Segen sein kann und dass es möglich sein sollte, die Fähigkeiten monolingualer Modelle für kleine Sprachen erheblich zu verbessern durch multilinguales Training. In dieser Studie stellen wir Poro 34B vor, ein 34 Milliarden Parameter umfassendes Modell, das für 1 Billion Tokens in Finnisch, Englisch und Programmiersprachen trainiert wurde, und zeigen, dass ein multilinguales Training einen Ansatz liefern kann, der nicht nur die Fähigkeiten bestehender Modelle für Finnisch erheblich verbessert, sondern auch bei Übersetzungen herausragt und in seiner Klasse bei der Generierung von Englisch und Programmiersprachen wettbewerbsfähig ist. Wir veröffentlichen die Modellparameter, Skripte und Daten unter offenen Lizenzen auf https://huggingface.co/LumiOpen/Poro-34B.
Wir schlagen 3D Congealing vor, ein neuartiges Problem der 3D-bewussten Ausrichtung für 2D-Bilder, die semantisch ähnliche Objekte erfassen. Angesichts einer Sammlung von unbeschrifteten Internetbildern ist unser Ziel, die gemeinsamen semantischen Teile aus den Eingaben zuzuordnen und das Wissen aus 2D-Bildern in einen gemeinsamen 3D-Standardraum zu aggregieren. Wir stellen einen allgemeinen Rahmen vor, der die Aufgabe ohne Annahme von Formvorlagen, Posen oder Kameraparametern angeht. Im Kern steht eine kanonische 3D-Repräsentation, die geometrische und semantische Informationen umfasst. Der Rahmen optimiert die kanonische Repräsentation zusammen mit der Pose für jedes Eingabebild und einer pro-Bild-Koordinatenkarte, die 2D-Pixekoordinaten in den 3D-Standardrahmen verformt, um das Formabgleichen zu berücksichtigen. Das Optimierungsverfahren verschmilzt Vorwissen aus einem vortrainierten Bildgenerierungsmodell und semantische Informationen aus Eingabebildern. Ersteres bietet starke Wissensführung für diese unterbeschränkte Aufgabe, während Letzteres die notwendigen Informationen liefert, um die Trainingsdatenvoreingenommenheit des vortrainierten Modells zu mildern. Unser Rahmen kann für verschiedene Aufgaben wie Korrespondenzabgleich, Posenabschätzung und Bildbearbeitung verwendet werden und erzielt starke Ergebnisse auf realen Bilddatensätzen unter herausfordernden Beleuchtungsbedingungen und auf in freier Wildbahn gesammelten Online-Bildsammlungen.
Wir präsentieren LLM-ABR, das erste System, das die generativen Fähigkeiten großer Sprachmodelle (LLMs) nutzt, um autonom adaptive Bitraten-Algorithmen (ABR) zu entwerfen, die auf unterschiedliche Netzwerkeigenschaften zugeschnitten sind. Innerhalb eines Verstärkungslernrahmens ermöglicht LLM-ABR LLMs, Schlüsselkomponenten wie Zustände und neuronale Netzwerkarchitekturen zu entwerfen. Wir evaluieren LLM-ABR in verschiedenen Netzwerkeinstellungen, einschließlich Breitband, Satellit, 4G und 5G. LLM-ABR übertrifft konsequent Standard-ABR-Algorithmen.