Täglich kuratierte KI-Forschungspapiere mit Übersetzungen
Wir erforschen eine evolutionäre Suchstrategie zur Skalierung der Inferenzzeitberechnung in großen Sprachmodellen. Der vorgeschlagene Ansatz, Mind Evolution, verwendet ein Sprachmodell, um Kandidatenantworten zu generieren, neu zu kombinieren und zu verfeinern. Der vorgeschlagene Ansatz vermeidet die Notwendigkeit, das zugrunde liegende Inferenzproblem zu formalisieren, solange ein Lösungsbewerter verfügbar ist. Bei Kontrolle der Inferenzkosten stellen wir fest, dass Mind Evolution in natürlichen Sprachplanungsaufgaben signifikant bessere Leistungen erbringt als andere Inferenzstrategien wie Best-of-N und Sequential Revision. In den Benchmarks TravelPlanner und Natural Plan löst Mind Evolution mehr als 98% der Problemfälle mit Gemini 1.5 Pro, ohne einen formalen Solver zu verwenden.
Wir stellen PaSa vor, einen fortschrittlichen Papier-Suchagenten, der von großen Sprachmodellen betrieben wird. PaSa kann eigenständig eine Reihe von Entscheidungen treffen, darunter das Aufrufen von Suchwerkzeugen, das Lesen von Papieren und die Auswahl relevanter Referenzen, um letztendlich umfassende und genaue Ergebnisse für komplexe wissenschaftliche Anfragen zu erhalten. Wir optimieren PaSa mithilfe von Verstärkendem Lernen mit einem synthetischen Datensatz, AutoScholarQuery, der 35.000 fein granulare wissenschaftliche Anfragen und entsprechende Papiere aus erstklassigen KI-Konferenzveröffentlichungen enthält. Darüber hinaus entwickeln wir RealScholarQuery, einen Benchmark, der reale wissenschaftliche Anfragen sammelt, um die Leistung von PaSa in realistischeren Szenarien zu bewerten. Trotz des Trainings mit synthetischen Daten übertrifft PaSa signifikant bestehende Baselines in RealScholarQuery, einschließlich Google, Google Scholar, Google mit GPT-4 für paraphrasierte Anfragen, chatGPT (suchfähiges GPT-4o), GPT-o1 und PaSa-GPT-4o (PaSa implementiert durch Aufforderung von GPT-4o). Bemerkenswerterweise übertrifft PaSa-7B die beste Google-basierte Baseline, Google mit GPT-4o, um 37,78% bei recall@20 und 39,90% bei recall@50. Es übertrifft auch PaSa-GPT-4o um 30,36% bei Recall und 4,25% bei Präzision. Das Modell, die Datensätze und der Code sind verfügbar unter https://github.com/bytedance/pasa.
Eine der am weitesten verbreiteten Methoden zur Bewertung von Sprachmodellen mit begrenzter Lernfähigkeit (LLMs) sind Multiple-Choice-Fragen (MCQ) Tests. MCQ-Benchmarks ermöglichen die Skalierung der Prüfung des Wissens von LLMs zu nahezu jedem Thema, da die Ergebnisse automatisch verarbeitet werden können. Um dem LLM bei der Beantwortung zu helfen, können einige Beispiele, sogenannte "few shots", in die Aufforderung aufgenommen werden. Darüber hinaus kann das LLM aufgefordert werden, die Frage direkt mit der ausgewählten Option zu beantworten oder zunächst die Begründung zu liefern und dann die ausgewählte Antwort, was als "chain of thought" bekannt ist. Neben der Überprüfung, ob die ausgewählte Antwort korrekt ist, kann die Bewertung auch die vom LLM geschätzte Wahrscheinlichkeit seiner Antwort betrachten, als Hinweis auf das Vertrauen des LLM in die Antwort. In diesem Artikel untersuchen wir, wie das Vertrauen des LLM in seine Antwort davon abhängt, ob das Modell aufgefordert wurde, direkt zu antworten oder die Begründung vor der Antwort zu liefern. Die Ergebnisse der Bewertung von Fragen zu einer Vielzahl von Themen in sieben verschiedenen Modellen zeigen, dass LLMs selbstbewusster in ihren Antworten sind, wenn sie die Begründung vor der Antwort liefern. Dies geschieht unabhängig davon, ob die ausgewählte Antwort korrekt ist. Unsere Hypothese ist, dass dieses Verhalten auf die Begründung zurückzuführen ist, die die Wahrscheinlichkeit der ausgewählten Antwort modifiziert, da das LLM die Antwort basierend auf der Eingangsfrage und der Begründung, die die getroffene Auswahl unterstützt, vorhersagt. Daher scheinen die geschätzten Wahrscheinlichkeiten von LLM intrinsische Einschränkungen zu haben, die verstanden werden sollten, um sie in Bewertungsverfahren zu verwenden. Interessanterweise wurde dasselbe Verhalten auch bei Menschen beobachtet, für die die Erklärung einer Antwort das Vertrauen in deren Richtigkeit erhöht.
Der 2D-Cartoon-Stil ist eine prominente Kunstform bei der digitalen Charaktererstellung, die besonders bei jüngeren Zielgruppen beliebt ist. Während Fortschritte in der digitalen Menschentechnologie umfangreiche Forschungen zu fotorealistischen digitalen Menschen und 3D-Charakteren vorangetrieben haben, haben interaktive 2D-Cartoon-Charaktere vergleichsweise weniger Aufmerksamkeit erhalten. Im Gegensatz zu 3D-Pendants, die eine ausgefeilte Konstruktion und ressourcenintensive Rendering erfordern, bietet Live2D, ein weit verbreitetes Format für 2D-Cartoon-Charaktere, eine effizientere Alternative, die es ermöglicht, 2D-Charaktere auf eine Weise zu animieren, die 3D-Bewegungen simuliert, ohne die Notwendigkeit zum Aufbau eines vollständigen 3D-Modells. Darüber hinaus verwendet Live2D eine leichtgewichtige HTML5 (H5) Rendering-Technologie, die sowohl die Zugänglichkeit als auch die Effizienz verbessert. In diesem technischen Bericht stellen wir Textoon vor, eine innovative Methode zur Generierung verschiedener 2D-Cartoon-Charaktere im Live2D-Format basierend auf Textbeschreibungen. Der Textoon nutzt modernste Sprach- und Bildmodelle, um textuelle Absichten zu verstehen und ein 2D-Erscheinungsbild zu generieren, das in der Lage ist, innerhalb einer Minute eine Vielzahl von beeindruckenden und interaktiven 2D-Charakteren zu erstellen. Die Projekt-Homepage ist https://human3daigc.github.io/Textoon_webpage/.
Die Verbesserung großer Sprachmodelle (LLMs) mit Echtzeit-APIs kann dazu beitragen, genauere und aktuellere Antworten zu generieren. Die Evaluierung der Funktionsaufruf-Fähigkeiten von LLMs in realen Szenarien bleibt jedoch aufgrund der Komplexität der Datensammlung und -bewertung weitgehend unerforscht. In dieser Arbeit stellen wir ComplexFuncBench vor, einen Benchmark für komplexe Funktionsaufrufe in fünf realen Szenarien. Im Vergleich zu bestehenden Benchmarks umfasst ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, die eine lange Parameterausfüllung, Parameterwertbegründung und einen 128k langen Kontext erfordern. Darüber hinaus schlagen wir ein automatisches Framework, ComplexEval, zur quantitativen Bewertung von komplexen Funktionsaufruf-Aufgaben vor. Durch umfassende Experimente zeigen wir die Defizite der modernsten LLMs bei Funktionsaufrufen auf und schlagen zukünftige Optimierungsrichtungen für diese Fähigkeiten vor. Die Daten und der Code sind unter https://github.com/THUDM/ComplexFuncBench verfügbar.
Wir stellen X-Dyna vor, eine innovative Zero-Shot-Diffusions-Pipeline zur Animation eines einzelnen menschlichen Bildes unter Verwendung von Gesichtsausdrücken und Körperbewegungen, die aus einem Referenzvideo abgeleitet sind. Diese generiert realistische, kontextbewusste Dynamiken sowohl für das Subjekt als auch für die umgebende Umgebung. Aufbauend auf früheren Ansätzen, die sich auf die Steuerung der menschlichen Körperhaltung konzentrieren, behebt X-Dyna wesentliche Mängel, die zum Verlust von dynamischen Details führen, und verbessert so die lebensechten Qualitäten von Videoanimationen mit menschlichen Figuren. Im Kern unseres Ansatzes steht der Dynamics-Adapter, ein leichtgewichtiges Modul, das das Referenzerscheinungsbild effektiv in die räumliche Aufmerksamkeit des Diffusionsrückgrats integriert, während es die Fähigkeit der Bewegungsmodule bewahrt, flüssige und komplexe dynamische Details zu synthetisieren. Über die Steuerung der Körperhaltung hinaus verbinden wir ein lokales Steuerungsmodul mit unserem Modell, um identitätsentwirrte Gesichtsausdrücke zu erfassen und einen präzisen Ausdrucksübertrag für eine realistischere Darstellung in animierten Szenen zu ermöglichen. Diese Komponenten bilden gemeinsam ein einheitliches Framework, das in der Lage ist, menschliche Bewegungen und natürliche Szenendynamiken aus einer vielfältigen Mischung von menschlichen und Szenenvideos zu erlernen. Umfassende qualitative und quantitative Bewertungen zeigen, dass X-Dyna im Vergleich zu führenden Methoden eine überlegene Leistung erbringt und äußerst lebensechte und ausdrucksstarke Animationen erstellt. Der Code ist verfügbar unter https://github.com/bytedance/X-Dyna.
Dieses Papier untersucht die Herausforderungen bei der Entwicklung großer Sprachmodelle (LLMs), die sowohl über mehrsprachiges Verständnis als auch medizinisches Wissen verfügen. Wir zeigen, dass alleiniges Übersetzen medizinischer Daten keine starke Leistung bei klinischen Aufgaben in der Zielsprache garantiert. Unsere Experimente zeigen, dass die optimale Sprachmischung in den Trainingsdaten je nach medizinischer Aufgabe erheblich variiert. Wir stellen fest, dass größere Modelle mit sorgfältig kalibrierten Sprachverhältnissen eine überlegene Leistung bei klinischen Aufgaben in der Muttersprache erzielen. Darüber hinaus legen unsere Ergebnisse nahe, dass es möglicherweise nicht der effektivste Ansatz ist, sich ausschließlich auf Feinabstimmung zu verlassen, um neues Sprachwissen in LLMs zu integrieren. Stattdessen sind daten- und rechenintensive Vortrainingsmethoden möglicherweise immer noch erforderlich, um optimale Leistungen in mehrsprachigen medizinischen Umgebungen zu erzielen. Diese Erkenntnisse bieten wertvolle Anleitungen für den Aufbau effektiver und inklusiver medizinischer KI-Systeme für verschiedene sprachliche Gemeinschaften.
Die Anwendung von generativen adversariellen Netzwerken (GANs) hat kürzlich die Sprach-Superauflösung (SR) auf der Grundlage von Zwischenrepräsentationen wie Mel-Spektrogrammen vorangetrieben. Allerdings können bestehende SR-Methoden, die in der Regel auf unabhängig trainierten und verketteten Netzwerken basieren, zu inkonsistenten Repräsentationen und einer schlechten Sprachqualität führen, insbesondere in Szenarien außerhalb des eigentlichen Anwendungsbereichs. In dieser Arbeit schlagen wir HiFi-SR vor, ein vereinheitlichtes Netzwerk, das auf end-to-end adversarischem Training basiert, um eine hochwertige Sprach-Superauflösung zu erreichen. Unser Modell verfügt über einen vereinheitlichten Transformer-Faltungs-Generator, der darauf ausgelegt ist, sowohl die Vorhersage latenter Repräsentationen als auch deren Umwandlung in Zeitbereichs-Wellenformen nahtlos zu handhaben. Das Transformer-Netzwerk fungiert als leistungsstarker Encoder, der niedrig auflösende Mel-Spektrogramme in latente Raumrepräsentationen umwandelt, während das Faltungsnetzwerk diese Repräsentationen in hochauflösende Wellenformen umwandelt. Um die Hochfrequenztreue zu verbessern, integrieren wir einen Multi-Band, Multi-Scale Zeit-Frequenz-Diskriminator sowie einen Multi-Scale Mel-Rekonstruktionsverlust in den adversariellen Trainingsprozess. HiFi-SR ist vielseitig einsetzbar und in der Lage, jedes Eingangssprachsignal zwischen 4 kHz und 32 kHz auf eine Abtastrate von 48 kHz hochzuskalieren. Experimentelle Ergebnisse zeigen, dass HiFi-SR sowohl in In-Domain- als auch in Out-of-Domain-Szenarien signifikant bessere Leistungen als bestehende Sprach-SR-Methoden aufweist, sowohl anhand objektiver Metriken als auch ABX-Präferenztests (https://github.com/modelscope/ClearerVoice-Studio).
Wir stellen den GaussianAvatar-Editor vor, ein innovatives Framework für textgesteuertes Bearbeiten von animierbaren Gauß'schen Kopf-Avataren, die vollständig in Ausdruck, Pose und Blickwinkel gesteuert werden können. Im Gegensatz zur statischen 3D-Gauß-Bearbeitung stellen animierbare 4D-Gauß-Avatare Herausforderungen im Zusammenhang mit Bewegungsokklusion und räumlich-zeitlicher Inkonsistenz dar. Um diese Probleme zu lösen, schlagen wir die Weighted Alpha Blending Equation (WABE) vor. Diese Funktion verbessert das Mischgewicht sichtbarer Gauß'scher Funktionen, während sie den Einfluss auf nicht sichtbare Gauß'sche Funktionen unterdrückt, um Bewegungsokklusion während der Bearbeitung effektiv zu handhaben. Darüber hinaus integrieren wir bedingtes adversariales Lernen in den Bearbeitungsprozess, um die Bearbeitungsqualität zu verbessern und 4D-Konsistenz sicherzustellen. Diese Strategie hilft dabei, die bearbeiteten Ergebnisse zu verfeinern und die Konsistenz während der Animation aufrechtzuerhalten. Durch die Integration dieser Methoden erzielt unser GaussianAvatar-Editor fotorealistische und konsistente Ergebnisse in der animierbaren 4D-Gauß-Bearbeitung. Wir führen umfassende Experimente mit verschiedenen Probanden durch, um die Wirksamkeit unserer vorgeschlagenen Techniken zu validieren, was die Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden zeigt. Weitere Ergebnisse und Code sind verfügbar unter: [Projektlink](https://xiangyueliu.github.io/GaussianAvatar-Editor/).