papers.title

papers.description

Weiterentwicklung des tieferen LLM-Denkens
Evolving Deeper LLM Thinking

Jan 17

ByKuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen

115

Wir erforschen eine evolutionäre Suchstrategie zur Skalierung der Inferenzzeitberechnung in großen Sprachmodellen. Der vorgeschlagene Ansatz, Mind Evolution, verwendet ein Sprachmodell, um Kandidatenantworten zu generieren, neu zu kombinieren und zu verfeinern. Der vorgeschlagene Ansatz vermeidet die Notwendigkeit, das zugrunde liegende Inferenzproblem zu formalisieren, solange ein Lösungsbewerter verfügbar ist. Bei Kontrolle der Inferenzkosten stellen wir fest, dass Mind Evolution in natürlichen Sprachplanungsaufgaben signifikant bessere Leistungen erbringt als andere Inferenzstrategien wie Best-of-N und Sequential Revision. In den Benchmarks TravelPlanner und Natural Plan löst Mind Evolution mehr als 98% der Problemfälle mit Gemini 1.5 Pro, ohne einen formalen Solver zu verwenden.

PaSa: Ein LLM-Agent für umfassende Suche nach wissenschaftlichen Artikeln
PaSa: An LLM Agent for Comprehensive Academic Paper Search

Jan 17

ByYichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E

Wir stellen PaSa vor, einen fortschrittlichen Papier-Suchagenten, der von großen Sprachmodellen betrieben wird. PaSa kann eigenständig eine Reihe von Entscheidungen treffen, darunter das Aufrufen von Suchwerkzeugen, das Lesen von Papieren und die Auswahl relevanter Referenzen, um letztendlich umfassende und genaue Ergebnisse für komplexe wissenschaftliche Anfragen zu erhalten. Wir optimieren PaSa mithilfe von Verstärkendem Lernen mit einem synthetischen Datensatz, AutoScholarQuery, der 35.000 fein granulare wissenschaftliche Anfragen und entsprechende Papiere aus erstklassigen KI-Konferenzveröffentlichungen enthält. Darüber hinaus entwickeln wir RealScholarQuery, einen Benchmark, der reale wissenschaftliche Anfragen sammelt, um die Leistung von PaSa in realistischeren Szenarien zu bewerten. Trotz des Trainings mit synthetischen Daten übertrifft PaSa signifikant bestehende Baselines in RealScholarQuery, einschließlich Google, Google Scholar, Google mit GPT-4 für paraphrasierte Anfragen, chatGPT (suchfähiges GPT-4o), GPT-o1 und PaSa-GPT-4o (PaSa implementiert durch Aufforderung von GPT-4o). Bemerkenswerterweise übertrifft PaSa-7B die beste Google-basierte Baseline, Google mit GPT-4o, um 37,78% bei recall@20 und 39,90% bei recall@50. Es übertrifft auch PaSa-GPT-4o um 30,36% bei Recall und 4,25% bei Präzision. Das Modell, die Datensätze und der Code sind verfügbar unter https://github.com/bytedance/pasa.

Multiple-Choice-Fragen: Schlussfolgerungen lassen große Sprachmodelle (LLMs) selbstbewusster erscheinen, auch wenn sie falsch liegen.
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

Jan 16

ByTairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego

Eine der am weitesten verbreiteten Methoden zur Bewertung von Sprachmodellen mit begrenzter Lernfähigkeit (LLMs) sind Multiple-Choice-Fragen (MCQ) Tests. MCQ-Benchmarks ermöglichen die Skalierung der Prüfung des Wissens von LLMs zu nahezu jedem Thema, da die Ergebnisse automatisch verarbeitet werden können. Um dem LLM bei der Beantwortung zu helfen, können einige Beispiele, sogenannte "few shots", in die Aufforderung aufgenommen werden. Darüber hinaus kann das LLM aufgefordert werden, die Frage direkt mit der ausgewählten Option zu beantworten oder zunächst die Begründung zu liefern und dann die ausgewählte Antwort, was als "chain of thought" bekannt ist. Neben der Überprüfung, ob die ausgewählte Antwort korrekt ist, kann die Bewertung auch die vom LLM geschätzte Wahrscheinlichkeit seiner Antwort betrachten, als Hinweis auf das Vertrauen des LLM in die Antwort. In diesem Artikel untersuchen wir, wie das Vertrauen des LLM in seine Antwort davon abhängt, ob das Modell aufgefordert wurde, direkt zu antworten oder die Begründung vor der Antwort zu liefern. Die Ergebnisse der Bewertung von Fragen zu einer Vielzahl von Themen in sieben verschiedenen Modellen zeigen, dass LLMs selbstbewusster in ihren Antworten sind, wenn sie die Begründung vor der Antwort liefern. Dies geschieht unabhängig davon, ob die ausgewählte Antwort korrekt ist. Unsere Hypothese ist, dass dieses Verhalten auf die Begründung zurückzuführen ist, die die Wahrscheinlichkeit der ausgewählten Antwort modifiziert, da das LLM die Antwort basierend auf der Eingangsfrage und der Begründung, die die getroffene Auswahl unterstützt, vorhersagt. Daher scheinen die geschätzten Wahrscheinlichkeiten von LLM intrinsische Einschränkungen zu haben, die verstanden werden sollten, um sie in Bewertungsverfahren zu verwenden. Interessanterweise wurde dasselbe Verhalten auch bei Menschen beobachtet, für die die Erklärung einer Antwort das Vertrauen in deren Richtigkeit erhöht.

Generierung lebendiger 2D-Cartoon-Charaktere aus Textbeschreibungen
Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions

Jan 17

ByChao He, Jianqiang Ren, Liefeng Bo

Der 2D-Cartoon-Stil ist eine prominente Kunstform bei der digitalen Charaktererstellung, die besonders bei jüngeren Zielgruppen beliebt ist. Während Fortschritte in der digitalen Menschentechnologie umfangreiche Forschungen zu fotorealistischen digitalen Menschen und 3D-Charakteren vorangetrieben haben, haben interaktive 2D-Cartoon-Charaktere vergleichsweise weniger Aufmerksamkeit erhalten. Im Gegensatz zu 3D-Pendants, die eine ausgefeilte Konstruktion und ressourcenintensive Rendering erfordern, bietet Live2D, ein weit verbreitetes Format für 2D-Cartoon-Charaktere, eine effizientere Alternative, die es ermöglicht, 2D-Charaktere auf eine Weise zu animieren, die 3D-Bewegungen simuliert, ohne die Notwendigkeit zum Aufbau eines vollständigen 3D-Modells. Darüber hinaus verwendet Live2D eine leichtgewichtige HTML5 (H5) Rendering-Technologie, die sowohl die Zugänglichkeit als auch die Effizienz verbessert. In diesem technischen Bericht stellen wir Textoon vor, eine innovative Methode zur Generierung verschiedener 2D-Cartoon-Charaktere im Live2D-Format basierend auf Textbeschreibungen. Der Textoon nutzt modernste Sprach- und Bildmodelle, um textuelle Absichten zu verstehen und ein 2D-Erscheinungsbild zu generieren, das in der Lage ist, innerhalb einer Minute eine Vielzahl von beeindruckenden und interaktiven 2D-Charakteren zu erstellen. Die Projekt-Homepage ist https://human3daigc.github.io/Textoon_webpage/.

ComplexFuncBench: Erforschung von Mehrschritt- und eingeschränkten Funktionsaufrufen unter Langzeitkontext-Szenario
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Jan 17

ByLucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang

Die Verbesserung großer Sprachmodelle (LLMs) mit Echtzeit-APIs kann dazu beitragen, genauere und aktuellere Antworten zu generieren. Die Evaluierung der Funktionsaufruf-Fähigkeiten von LLMs in realen Szenarien bleibt jedoch aufgrund der Komplexität der Datensammlung und -bewertung weitgehend unerforscht. In dieser Arbeit stellen wir ComplexFuncBench vor, einen Benchmark für komplexe Funktionsaufrufe in fünf realen Szenarien. Im Vergleich zu bestehenden Benchmarks umfasst ComplexFuncBench mehrstufige und eingeschränkte Funktionsaufrufe, die eine lange Parameterausfüllung, Parameterwertbegründung und einen 128k langen Kontext erfordern. Darüber hinaus schlagen wir ein automatisches Framework, ComplexEval, zur quantitativen Bewertung von komplexen Funktionsaufruf-Aufgaben vor. Durch umfassende Experimente zeigen wir die Defizite der modernsten LLMs bei Funktionsaufrufen auf und schlagen zukünftige Optimierungsrichtungen für diese Fähigkeiten vor. Die Daten und der Code sind unter https://github.com/THUDM/ComplexFuncBench verfügbar.

Überbrückung von Sprachbarrieren im Gesundheitswesen: Eine Studie zu arabischen LLMs
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs

Jan 16

ByNada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi

Dieses Papier untersucht die Herausforderungen bei der Entwicklung großer Sprachmodelle (LLMs), die sowohl über mehrsprachiges Verständnis als auch medizinisches Wissen verfügen. Wir zeigen, dass alleiniges Übersetzen medizinischer Daten keine starke Leistung bei klinischen Aufgaben in der Zielsprache garantiert. Unsere Experimente zeigen, dass die optimale Sprachmischung in den Trainingsdaten je nach medizinischer Aufgabe erheblich variiert. Wir stellen fest, dass größere Modelle mit sorgfältig kalibrierten Sprachverhältnissen eine überlegene Leistung bei klinischen Aufgaben in der Muttersprache erzielen. Darüber hinaus legen unsere Ergebnisse nahe, dass es möglicherweise nicht der effektivste Ansatz ist, sich ausschließlich auf Feinabstimmung zu verlassen, um neues Sprachwissen in LLMs zu integrieren. Stattdessen sind daten- und rechenintensive Vortrainingsmethoden möglicherweise immer noch erforderlich, um optimale Leistungen in mehrsprachigen medizinischen Umgebungen zu erzielen. Diese Erkenntnisse bieten wertvolle Anleitungen für den Aufbau effektiver und inklusiver medizinischer KI-Systeme für verschiedene sprachliche Gemeinschaften.

X-Dyna: Ausdrucksstarke dynamische Animation menschlicher Bilder
X-Dyna: Expressive Dynamic Human Image Animation

Jan 17

ByDi Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani

Wir stellen X-Dyna vor, eine innovative Zero-Shot-Diffusions-Pipeline zur Animation eines einzelnen menschlichen Bildes unter Verwendung von Gesichtsausdrücken und Körperbewegungen, die aus einem Referenzvideo abgeleitet sind. Diese generiert realistische, kontextbewusste Dynamiken sowohl für das Subjekt als auch für die umgebende Umgebung. Aufbauend auf früheren Ansätzen, die sich auf die Steuerung der menschlichen Körperhaltung konzentrieren, behebt X-Dyna wesentliche Mängel, die zum Verlust von dynamischen Details führen, und verbessert so die lebensechten Qualitäten von Videoanimationen mit menschlichen Figuren. Im Kern unseres Ansatzes steht der Dynamics-Adapter, ein leichtgewichtiges Modul, das das Referenzerscheinungsbild effektiv in die räumliche Aufmerksamkeit des Diffusionsrückgrats integriert, während es die Fähigkeit der Bewegungsmodule bewahrt, flüssige und komplexe dynamische Details zu synthetisieren. Über die Steuerung der Körperhaltung hinaus verbinden wir ein lokales Steuerungsmodul mit unserem Modell, um identitätsentwirrte Gesichtsausdrücke zu erfassen und einen präzisen Ausdrucksübertrag für eine realistischere Darstellung in animierten Szenen zu ermöglichen. Diese Komponenten bilden gemeinsam ein einheitliches Framework, das in der Lage ist, menschliche Bewegungen und natürliche Szenendynamiken aus einer vielfältigen Mischung von menschlichen und Szenenvideos zu erlernen. Umfassende qualitative und quantitative Bewertungen zeigen, dass X-Dyna im Vergleich zu führenden Methoden eine überlegene Leistung erbringt und äußerst lebensechte und ausdrucksstarke Animationen erstellt. Der Code ist verfügbar unter https://github.com/bytedance/X-Dyna.

HiFi-SR: Ein vereinheitlichtes generatives Transformer-Faltung-Adversarial-Netzwerk für hochauflösende Sprach-Super-Resolution.
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

Jan 17

ByShengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma

Die Anwendung von generativen adversariellen Netzwerken (GANs) hat kürzlich die Sprach-Superauflösung (SR) auf der Grundlage von Zwischenrepräsentationen wie Mel-Spektrogrammen vorangetrieben. Allerdings können bestehende SR-Methoden, die in der Regel auf unabhängig trainierten und verketteten Netzwerken basieren, zu inkonsistenten Repräsentationen und einer schlechten Sprachqualität führen, insbesondere in Szenarien außerhalb des eigentlichen Anwendungsbereichs. In dieser Arbeit schlagen wir HiFi-SR vor, ein vereinheitlichtes Netzwerk, das auf end-to-end adversarischem Training basiert, um eine hochwertige Sprach-Superauflösung zu erreichen. Unser Modell verfügt über einen vereinheitlichten Transformer-Faltungs-Generator, der darauf ausgelegt ist, sowohl die Vorhersage latenter Repräsentationen als auch deren Umwandlung in Zeitbereichs-Wellenformen nahtlos zu handhaben. Das Transformer-Netzwerk fungiert als leistungsstarker Encoder, der niedrig auflösende Mel-Spektrogramme in latente Raumrepräsentationen umwandelt, während das Faltungsnetzwerk diese Repräsentationen in hochauflösende Wellenformen umwandelt. Um die Hochfrequenztreue zu verbessern, integrieren wir einen Multi-Band, Multi-Scale Zeit-Frequenz-Diskriminator sowie einen Multi-Scale Mel-Rekonstruktionsverlust in den adversariellen Trainingsprozess. HiFi-SR ist vielseitig einsetzbar und in der Lage, jedes Eingangssprachsignal zwischen 4 kHz und 32 kHz auf eine Abtastrate von 48 kHz hochzuskalieren. Experimentelle Ergebnisse zeigen, dass HiFi-SR sowohl in In-Domain- als auch in Out-of-Domain-Szenarien signifikant bessere Leistungen als bestehende Sprach-SR-Methoden aufweist, sowohl anhand objektiver Metriken als auch ABX-Präferenztests (https://github.com/modelscope/ClearerVoice-Studio).

GaussianAvatar-Editor: Fotorealistischer animierbarer Gauss'scher Kopf-Avatar-Editor
GaussianAvatar-Editor: Photorealistic Animatable Gaussian Head Avatar Editor

Jan 17

ByXiangyue Liu, Kunming Luo, Heng Li, Qi Zhang, Yuan Liu, Li Yi, Ping Tan

Wir stellen den GaussianAvatar-Editor vor, ein innovatives Framework für textgesteuertes Bearbeiten von animierbaren Gauß'schen Kopf-Avataren, die vollständig in Ausdruck, Pose und Blickwinkel gesteuert werden können. Im Gegensatz zur statischen 3D-Gauß-Bearbeitung stellen animierbare 4D-Gauß-Avatare Herausforderungen im Zusammenhang mit Bewegungsokklusion und räumlich-zeitlicher Inkonsistenz dar. Um diese Probleme zu lösen, schlagen wir die Weighted Alpha Blending Equation (WABE) vor. Diese Funktion verbessert das Mischgewicht sichtbarer Gauß'scher Funktionen, während sie den Einfluss auf nicht sichtbare Gauß'sche Funktionen unterdrückt, um Bewegungsokklusion während der Bearbeitung effektiv zu handhaben. Darüber hinaus integrieren wir bedingtes adversariales Lernen in den Bearbeitungsprozess, um die Bearbeitungsqualität zu verbessern und 4D-Konsistenz sicherzustellen. Diese Strategie hilft dabei, die bearbeiteten Ergebnisse zu verfeinern und die Konsistenz während der Animation aufrechtzuerhalten. Durch die Integration dieser Methoden erzielt unser GaussianAvatar-Editor fotorealistische und konsistente Ergebnisse in der animierbaren 4D-Gauß-Bearbeitung. Wir führen umfassende Experimente mit verschiedenen Probanden durch, um die Wirksamkeit unserer vorgeschlagenen Techniken zu validieren, was die Überlegenheit unseres Ansatzes gegenüber bestehenden Methoden zeigt. Weitere Ergebnisse und Code sind verfügbar unter: [Projektlink](https://xiangyueliu.github.io/GaussianAvatar-Editor/).

papers.title

papers.description

Weiterentwicklung des tieferen LLM-Denkens
Evolving Deeper LLM Thinking

Jan 17

ByKuang-Huei Lee, Ian Fischer, Yueh-Hua Wu, Dave Marwood, Shumeet Baluja, Dale Schuurmans, Xinyun Chen

115

PaSa: Ein LLM-Agent für umfassende Suche nach wissenschaftlichen Artikeln
PaSa: An LLM Agent for Comprehensive Academic Paper Search

Jan 17

ByYichen He, Guanhua Huang, Peiyuan Feng, Yuan Lin, Yuchen Zhang, Hang Li, Weinan E

Multiple-Choice-Fragen: Schlussfolgerungen lassen große Sprachmodelle (LLMs) selbstbewusster erscheinen, auch wenn sie falsch liegen.
Multiple Choice Questions: Reasoning Makes Large Language Models (LLMs) More Self-Confident Even When They Are Wrong

Jan 16

ByTairan Fu, Javier Conde, Gonzalo Martínez, María Grandury, Pedro Reviriego

Generierung lebendiger 2D-Cartoon-Charaktere aus Textbeschreibungen
Textoon: Generating Vivid 2D Cartoon Characters from Text Descriptions

Jan 17

ByChao He, Jianqiang Ren, Liefeng Bo

ComplexFuncBench: Erforschung von Mehrschritt- und eingeschränkten Funktionsaufrufen unter Langzeitkontext-Szenario
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario

Jan 17

ByLucen Zhong, Zhengxiao Du, Xiaohan Zhang, Haiyi Hu, Jie Tang

Überbrückung von Sprachbarrieren im Gesundheitswesen: Eine Studie zu arabischen LLMs
Bridging Language Barriers in Healthcare: A Study on Arabic LLMs

Jan 16

ByNada Saadi, Tathagata Raha, Clément Christophe, Marco AF Pimentel, Ronnie Rajan, Praveen K Kanithi

X-Dyna: Ausdrucksstarke dynamische Animation menschlicher Bilder
X-Dyna: Expressive Dynamic Human Image Animation

Jan 17

ByDi Chang, Hongyi Xu, You Xie, Yipeng Gao, Zhengfei Kuang, Shengqu Cai, Chenxu Zhang, Guoxian Song, Chao Wang, Yichun Shi, Zeyuan Chen, Shijie Zhou, Linjie Luo, Gordon Wetzstein, Mohammad Soleymani

HiFi-SR: Ein vereinheitlichtes generatives Transformer-Faltung-Adversarial-Netzwerk für hochauflösende Sprach-Super-Resolution.
HiFi-SR: A Unified Generative Transformer-Convolutional Adversarial Network for High-Fidelity Speech Super-Resolution

Jan 17

ByShengkui Zhao, Kun Zhou, Zexu Pan, Yukun Ma, Chong Zhang, Bin Ma

GaussianAvatar-Editor: Fotorealistischer animierbarer Gauss'scher Kopf-Avatar-Editor
GaussianAvatar-Editor: Photorealistic Animatable Gaussian Head Avatar Editor

Jan 17

ByXiangyue Liu, Kunming Luo, Heng Li, Qi Zhang, Yuan Liu, Li Yi, Ping Tan