Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Text-to-3D-Generierung, die darauf abzielt, lebendige 3D-Objekte aus Textbeschreibungen zu synthetisieren, hat in der Computer-Vision-Community viel Aufmerksamkeit erregt. Obwohl mehrere bestehende Arbeiten beeindruckende Ergebnisse für diese Aufgabe erzielt haben, basieren sie hauptsächlich auf einem zeitaufwändigen Optimierungsparadigma. Konkret optimieren diese Methoden ein neuronales Feld für jede Textbeschreibung von Grund auf, was etwa eine Stunde oder mehr in Anspruch nimmt, um ein Objekt zu generieren. Diese hohen und wiederholten Trainingskosten behindern ihren praktischen Einsatz. In diesem Artikel schlagen wir ein neuartiges Framework für schnelle Text-to-3D-Generierung vor, genannt Instant3D. Einmal trainiert, ist Instant3D in der Lage, ein 3D-Objekt für eine unbekannte Textbeschreibung in weniger als einer Sekunde mit einem einzigen Durchlauf eines Feedforward-Netzwerks zu erstellen. Diese bemerkenswerte Geschwindigkeit erreichen wir durch die Entwicklung eines neuen Netzwerks, das direkt ein 3D-Triplane aus einer Textbeschreibung konstruiert. Die Kerninnovation von Instant3D liegt in unserer Erforschung von Strategien, um Textbedingungen effektiv in das Netzwerk einzubetten. Darüber hinaus schlagen wir eine einfache, aber effektive Aktivierungsfunktion vor, die skalierte Sigmoidfunktion, um die ursprüngliche Sigmoidfunktion zu ersetzen, was die Trainingskonvergenz um mehr als das Zehnfache beschleunigt. Schließlich schlagen wir zur Lösung des Janus-(Mehrkopf-)Problems in der 3D-Generierung einen adaptiven Perp-Neg-Algorithmus vor, der seine Konzeptnegationsskalen dynamisch anhand der Schwere des Janus-Problems während des Trainings anpassen kann, wodurch der Mehrkopf-Effekt effektiv reduziert wird. Umfangreiche Experimente auf einer Vielzahl von Benchmark-Datensätzen zeigen, dass der vorgeschlagene Algorithmus sowohl qualitativ als auch quantitativ im Vergleich zu den state-of-the-art Methoden überzeugt, während er eine deutlich bessere Effizienz erreicht. Die Projektseite befindet sich unter https://ming1993li.github.io/Instant3DProj.
Jüngste Fortschritte in der offenen 3D-Objekterzeugung sind bemerkenswert, wobei Bild-zu-3D-Methoden eine überlegene feinkörnige Kontrolle gegenüber ihren Text-zu-3D-Pendants bieten. Die meisten bestehenden Modelle erreichen jedoch nicht gleichzeitig schnelle Erzeugungsgeschwindigkeiten und hohe Detailtreue zum Eingabebild – zwei Merkmale, die für praktische Anwendungen unerlässlich sind. In diesem Artikel präsentieren wir One-2-3-45++, eine innovative Methode, die ein einzelnes Bild in etwa einer Minute in ein detailliertes, texturiertes 3D-Mesh umwandelt. Unser Ansatz zielt darauf ab, das umfangreiche Wissen, das in 2D-Diffusionsmodellen und Vorwissen aus wertvollen, aber begrenzten 3D-Daten enthalten ist, vollständig zu nutzen. Dies wird erreicht, indem zunächst ein 2D-Diffusionsmodell für die konsistente Erzeugung von Mehransichtsbildern feinabgestimmt wird, gefolgt von der Erweiterung dieser Bilder in 3D mithilfe von mehransichtsbedingten, nativen 3D-Diffusionsmodellen. Umfangreiche experimentelle Auswertungen zeigen, dass unsere Methode hochwertige, vielfältige 3D-Assets erzeugen kann, die das ursprüngliche Eingabebild eng widerspiegeln. Unsere Projektwebseite: https://sudo-ai-3d.github.io/One2345plus_page.
Die Flüssigkeit und Kreativität großer vortrainierter Sprachmodelle (LLMs) haben zu ihrer weitverbreiteten Nutzung geführt, manchmal sogar als Ersatz für traditionelle Suchmaschinen. Dennoch neigen Sprachmodelle dazu, überzeugend klingende, aber faktisch ungenaue Aussagen zu treffen, oft als „Halluzinationen“ bezeichnet. Diese Fehler können unbeabsichtigt Fehlinformationen verbreiten oder schädliche Missverständnisse aufrechterhalten. Darüber hinaus ist die manuelle Faktenprüfung von Modellantworten ein zeitaufwändiger Prozess, was menschliche Faktenlabels teuer macht. In dieser Arbeit optimieren wir Sprachmodelle, um faktisch korrekter zu sein, ohne menschliche Labeling und mit dem Ziel offenerer Generierungseinstellungen als in früheren Arbeiten. Wir nutzen dazu zwei wichtige Innovationen im Bereich NLP. Erstens haben mehrere aktuelle Arbeiten Methoden vorgeschlagen, um die Faktizität von offenem Text zu beurteilen, indem die Konsistenz mit einer externen Wissensdatenbank oder einfach die Konfidenzscores eines großen Modells gemessen werden. Zweitens ermöglicht der Direct Preference Optimization-Algorithmus eine unkomplizierte Feinabstimmung von Sprachmodellen auf Ziele, die über die überwachte Nachahmung hinausgehen, indem eine Präferenzrangfolge über mögliche Modellantworten verwendet wird. Wir zeigen, dass das Lernen aus automatisch generierten Faktizitäts-Präferenzrangfolgen, die entweder durch bestehende Retrieval-Systeme oder unseren neuartigen Retrieval-freien Ansatz erzeugt werden, die Faktizität (Prozent der generierten Behauptungen, die korrekt sind) von Llama-2 bei zurückgehaltenen Themen im Vergleich zu RLHF oder Dekodierungsstrategien, die auf Faktizität abzielen, signifikant verbessert. Im Maßstab von 7B beobachten wir im Vergleich zu Llama-2-chat eine Reduzierung der Fehlerrate bei Fakten um 58 % bei der Generierung von Biografien und um 40 % bei der Beantwortung medizinischer Fragen.
In dieser Arbeit geben wir einen systematischen Überblick über die jüngsten Fortschritte in der Codeverarbeitung mit Sprachmodellen, wobei wir mehr als 50 Modelle, über 30 Evaluierungsaufgaben und 500 verwandte Arbeiten abdecken. Wir unterteilen die Modelle zur Codeverarbeitung in allgemeine Sprachmodelle, die durch die GPT-Familie repräsentiert werden, und spezialisierte Modelle, die speziell auf Code vortrainiert sind, oft mit maßgeschneiderten Zielsetzungen. Wir diskutieren die Beziehungen und Unterschiede zwischen diesen Modellen und heben den historischen Übergang der Codemodellierung von statistischen Modellen und RNNs zu vortrainierten Transformern und LLMs hervor, was genau dem Weg entspricht, den die NLP eingeschlagen hat. Wir behandeln auch codespezifische Merkmale wie AST, CFG und Unit-Tests sowie deren Anwendung beim Training von Code-Sprachmodellen und identifizieren zentrale Herausforderungen und potenzielle zukünftige Richtungen in diesem Bereich. Wir halten die Übersicht offen und aktualisiert in einem GitHub-Repository unter https://github.com/codefuse-ai/Awesome-Code-LLM.
Eine Kernfähigkeit von Large Language Models (LLMs) besteht darin, natürlichen Sprachanweisungen zu folgen. Die Bewertung solcher Fähigkeiten ist jedoch nicht standardisiert: Menschliche Bewertungen sind teuer, langsam und nicht objektiv reproduzierbar, während die LLM-basierte automatische Bewertung potenziell voreingenommen oder durch die Fähigkeiten des bewertenden LLMs eingeschränkt ist. Um diese Probleme zu überwinden, führen wir Instruction-Following Eval (IFEval) für große Sprachmodelle ein. IFEval ist ein einfacher und leicht reproduzierbarer Bewertungsbenchmark. Er konzentriert sich auf eine Reihe von „überprüfbaren Anweisungen“ wie „schreibe in mehr als 400 Wörtern“ und „erwähne das Schlüsselwort KI mindestens dreimal“. Wir haben 25 Arten solcher überprüfbarer Anweisungen identifiziert und rund 500 Prompts konstruiert, wobei jeder Prompt eine oder mehrere überprüfbare Anweisungen enthält. Wir zeigen die Bewertungsergebnisse von zwei weit verbreiteten LLMs auf dem Markt. Unser Code und unsere Daten sind unter https://github.com/google-research/google-research/tree/master/instruction_following_eval verfügbar.
Wir zeigen eine Situation auf, in der Large Language Models, die darauf trainiert wurden, hilfreich, harmlos und ehrlich zu sein, fehlausgerichtetes Verhalten zeigen und ihre Nutzer strategisch über dieses Verhalten täuschen können, ohne dazu angewiesen worden zu sein. Konkret setzen wir GPT-4 als Agent in einer realistischen, simulierten Umgebung ein, in der es die Rolle eines autonomen Börsenhandelsagenten übernimmt. In dieser Umgebung erhält das Modell einen Insider-Tipp über ein lukratives Börsengeschäft und handelt danach, obwohl es weiß, dass Insiderhandel von der Unternehmensleitung missbilligt wird. Bei der Berichterstattung an seinen Vorgesetzten verschweigt das Modell konsequent die wahren Gründe für seine Handelsentscheidung. Wir untersuchen kurz, wie sich dieses Verhalten unter Änderungen der Rahmenbedingungen verändert, wie etwa dem Entzug des Zugriffs auf ein Notizpad für Überlegungen, dem Versuch, das fehlausgerichtete Verhalten durch Änderung der Systemanweisungen zu verhindern, der Veränderung des Drucks, unter dem das Modell steht, der Variation des wahrgenommenen Risikos, erwischt zu werden, und anderen einfachen Änderungen der Umgebung. Unseres Wissens ist dies die erste Demonstration, bei der Large Language Models, die darauf trainiert wurden, hilfreich, harmlos und ehrlich zu sein, ihre Nutzer in einer realistischen Situation strategisch täuschen, ohne direkte Anweisungen oder Training zur Täuschung erhalten zu haben.
In dieser Arbeit stellen wir FastCoT vor, ein modell-agnostisches Framework, das auf parallelem Decodieren basiert, ohne zusätzliches Training eines Hilfsmodells oder Modifikationen am LLM selbst. FastCoT verwendet ein kontextabhängiges Fenster, dessen Größe sich mit der Position ändert, um paralleles und autoregressives Decodieren gleichzeitig durchzuführen und somit die GPU-Ressourcen vollständig auszunutzen. In FastCoT bietet der parallele Decodierungsteil dem LLM einen schnellen Blick in die Zukunft, der aus approximativen Tokens besteht, was im Vergleich zum regulären autoregressiven Decodieren von kausalen Transformern zu schnelleren Antworten führen kann. Wir stellen auch eine Implementierung des parallelen Decodierens innerhalb des LLM bereit, die die KV-Cache-Generierung und Batch-Verarbeitung unterstützt. Durch umfangreiche Experimente zeigen wir, dass FastCoT die Inferenzzeit um fast 20 % reduziert, bei nur einem vernachlässigbaren Leistungsabfall im Vergleich zum regulären Ansatz. Zusätzlich demonstrieren wir, dass die Größe des Kontextfensters eine beträchtliche Robustheit für verschiedene Aufgaben aufweist.
Große Sprachmodelle (LLMs) sind zu einem entscheidenden Bestandteil in vielen Anwendungen des maschinellen Lernens geworden. Standardansätze zum Training von LLMs erfordern jedoch eine große Anzahl eng vernetzter Beschleuniger, bei denen die Geräte in jedem Optimierungsschritt Gradienten und andere Zwischenzustände austauschen. Während es schwierig ist, einen einzigen Rechencluster zu erstellen und zu betreiben, der viele Beschleuniger hostet, könnte es einfacher sein, mehrere Rechencluster zu finden, die jeweils eine kleinere Anzahl von Geräten hosten. In dieser Arbeit schlagen wir einen verteilten Optimierungsalgorithmus vor, Distributed Low-Communication (DiLoCo), der das Training von Sprachmodellen auf Inseln von schlecht verbundenen Geräten ermöglicht. Der Ansatz ist eine Variante des federated averaging, bei der die Anzahl der inneren Schritte groß ist, der innere Optimierer AdamW ist und der äußere Optimierer Nesterov-Momentum ist. Auf dem weit verbreiteten C4-Datensatz zeigen wir, dass DiLoCo mit 8 Workern genauso gut abschneidet wie vollständig synchrone Optimierung, während 500-mal weniger kommuniziert wird. DiLoCo zeigt eine große Robustheit gegenüber der Datenverteilung jedes Workers. Es ist auch robust gegenüber Ressourcen, die im Laufe der Zeit nicht mehr verfügbar sind, und umgekehrt kann es nahtlos Ressourcen nutzen, die während des Trainings verfügbar werden.
In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte generative Fähigkeiten gezeigt, aber können sie auch die Qualität ihrer eigenen Generierungen beurteilen? Ein populäres Konzept, das als Selbstverfeinerung bezeichnet wird, postuliert, dass LLMs Fehler in ihren Generierungen erkennen und korrigieren können, wenn sie dazu aufgefordert werden. Jüngste empirische Erkenntnisse deuten jedoch in die entgegengesetzte Richtung und legen nahe, dass LLMs oft Schwierigkeiten haben, Fehler genau zu identifizieren, wenn es um logisches Schlussfolgern geht. Um dies zu adressieren, schlagen wir ein Ziel der Verfeinerung durch logisches Schlussfolgern vor, das ART genannt wird: Ask, Refine, and Trust (Fragen, Verfeinern und Vertrauen). ART stellt notwendige Fragen, um zu entscheiden, wann ein LLM seine Ausgabe verfeinern sollte, und bestätigt oder entzieht dem Verfeinerungsprozess das Vertrauen, indem es die Verfeinerung und die ursprüngliche Vorhersage bewertet. Bei zwei mehrstufigen Aufgaben des logischen Schlussfolgerns – mathematische Textaufgaben (GSM8K) und Fragebeantwortung (StrategyQA) – erzielt ART einen Leistungszuwachs von +5 Punkten im Vergleich zu Selbstverfeinerungs-Baselines, wobei ein viel kleineres Modell als Entscheidungsträger verwendet wird. Wir zeigen auch den Vorteil der Verwendung kleinerer Modelle für Verfeinerungsentscheidungen als kosteneffiziente Alternative zur Feinabstimmung eines größeren Modells.
Kürzlich haben instruktionsfolgende Audio-Sprachmodelle für die Audio-Interaktion mit Menschen breite Aufmerksamkeit erhalten. Das Fehlen von vortrainierten Audiomodellen, die in der Lage sind, verschiedene Audiotypen und Aufgaben zu bewältigen, hat jedoch den Fortschritt in diesem Bereich behindert. Infolgedessen konnten die meisten bestehenden Arbeiten nur eine begrenzte Palette von Interaktionsfähigkeiten unterstützen. In diesem Artikel entwickeln wir das Qwen-Audio-Modell und adressieren diese Einschränkung, indem wir das Audio-Sprach-Vortraining auf über 30 Aufgaben und verschiedene Audiotypen wie menschliche Sprache, natürliche Klänge, Musik und Gesang ausweiten, um universelle Audio-Verständnisfähigkeiten zu ermöglichen. Die direkte gemeinsame Trainierung aller Aufgaben und Datensätze kann jedoch zu Interferenzproblemen führen, da die textuellen Beschriftungen, die mit verschiedenen Datensätzen verbunden sind, aufgrund von Unterschieden in der Aufgabenausrichtung, Sprache, Granularität der Annotation und Textstruktur erhebliche Variationen aufweisen. Um die Eins-zu-Viele-Interferenz zu überwinden, entwerfen wir sorgfältig ein Multi-Task-Trainingsframework, indem wir eine Sequenz hierarchischer Tags an den Decoder anpassen, um Wissensaustausch zu fördern und Interferenzen durch gemeinsame und spezifizierte Tags zu vermeiden. Bemerkenswerterweise erzielt Qwen-Audio beeindruckende Leistungen über diverse Benchmark-Aufgaben hinweg, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist, und übertrifft dabei seine Gegenstücke. Aufbauend auf den Fähigkeiten von Qwen-Audio entwickeln wir weiterhin Qwen-Audio-Chat, das Eingaben aus verschiedenen Audios und Texten ermöglicht, Mehrrunden-Dialoge unterstützt und verschiedene audiozentrierte Szenarien ermöglicht.
Red-Teaming ist eine gängige Praxis zur Minderung unsicherer Verhaltensweisen in großen Sprachmodellen (LLMs), bei der LLMs gründlich bewertet werden, um potenzielle Schwachstellen zu identifizieren und diese mit verantwortungsvollen und präzisen Antworten zu beheben. Obwohl effektiv, ist manuelles Red-Teaming kostspielig, und bestehende automatische Red-Teaming-Verfahren entdecken in der Regel Sicherheitsrisiken, ohne sie zu beheben. In diesem Artikel schlagen wir eine Multi-round Automatic Red-Teaming (MART)-Methode vor, die sowohl automatisches adversarisches Prompt-Schreiben als auch die Generierung sicherer Antworten integriert, wodurch die Skalierbarkeit des Red-Teamings und die Sicherheit des Ziel-LLMs erheblich gesteigert werden. Konkret interagieren ein adversarisches LLM und ein Ziel-LLM in iterativer Weise miteinander, wobei das adversarische LLM darauf abzielt, herausfordernde Prompts zu generieren, die unsichere Antworten des Ziel-LLMs hervorrufen, während das Ziel-LLM mit sicherheitsausgerichteten Daten auf diese adversarischen Prompts feinabgestimmt wird. In jeder Runde entwickelt das adversarische LLM bessere Angriffe auf das aktualisierte Ziel-LLM, während sich das Ziel-LLM durch Sicherheits-Fine-Tuning ebenfalls verbessert. Auf adversarischen Prompt-Benchmarks reduziert sich die Verletzungsrate eines LLMs mit begrenzter Sicherheitsausrichtung nach 4 Runden MART um bis zu 84,7 % und erreicht damit eine vergleichbare Leistung wie LLMs mit umfangreichem adversarischem Prompt-Schreiben. Bemerkenswerterweise bleibt die Hilfsbereitschaft des Modells bei nicht-adversarischen Prompts über die Iterationen hinweg stabil, was darauf hindeutet, dass das Ziel-LLM eine starke Leistung bei der Befolgung von Anweisungen beibehält.