papers.title

papers.description

Octopus v2: On-Gerät Sprachmodell für Superagenten
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

Sprachmodelle haben sich in einer Vielzahl von Softwareanwendungen als wirksam erwiesen, insbesondere bei Aufgaben im Zusammenhang mit automatisierten Workflows. Diese Modelle verfügen über die entscheidende Fähigkeit, Funktionen aufzurufen, was bei der Erstellung von KI-Agenten unerlässlich ist. Trotz der hohen Leistung großer Sprachmodelle in Cloud-Umgebungen werden sie häufig mit Bedenken hinsichtlich Datenschutz und Kosten in Verbindung gebracht. Aktuelle On-Device-Modelle für die Funktionsaufruf stehen vor Problemen mit Latenz und Genauigkeit. Unsere Forschung stellt eine neue Methode vor, die einem On-Device-Modell mit 2 Milliarden Parametern ermöglicht, die Leistung von GPT-4 sowohl in Genauigkeit als auch in Latenz zu übertreffen und die Kontextlänge um 95\% zu verringern. Im Vergleich zu Llama-7B mit einem auf RAG basierenden Funktionsaufrufmechanismus verbessert unsere Methode die Latenz um das 35-fache. Diese Methode reduziert die Latenz auf Niveaus, die für den Einsatz auf einer Vielzahl von Edge-Geräten in Produktionsumgebungen geeignet sind und entspricht den Leistungsanforderungen für Anwendungen in der realen Welt.

Förderung von LLM-Reasoning-Generalisten mit Präferenzbäumen
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

Wir stellen Eurus vor, eine Suite großer Sprachmodelle (LLMs), die für das Argumentieren optimiert sind. Durch Feinabstimmung von Mistral-7B und CodeLlama-70B erzielen Eurus-Modelle Spitzenleistungen unter Open-Source-Modellen in einer Vielzahl von Benchmarks, die Mathematik, Code-Generierung und logische Schlussfolgerungsprobleme abdecken. Insbesondere schlägt Eurus-70B GPT-3.5 Turbo im Argumentieren in einem umfassenden Benchmarking über 12 Tests, die fünf Aufgaben abdecken, und erreicht eine Passgenauigkeit von 33,3% bei LeetCode und 32,6% bei TheoremQA, zwei anspruchsvollen Benchmarks, wobei bestehende Open-Source-Modelle deutlich um mehr als 13,3% übertroffen werden. Die starke Leistung von Eurus ist hauptsächlich auf UltraInteract zurückzuführen, unser neu kuratiertes, groß angelegtes, qualitativ hochwertiges Alignierungsdatenset, das speziell für komplexe Argumentationsaufgaben entwickelt wurde. UltraInteract kann sowohl für überwachtes Feintuning als auch für Präferenzlernen verwendet werden. Für jede Anweisung enthält es einen Präferenzbaum, der aus (1) Argumentationsketten mit vielfältigen Planungsstrategien in einem einheitlichen Format, (2) Mehrfachinteraktionstrajektorien mit der Umgebung und der Kritik sowie (3) paarweisen Daten zur Erleichterung des Präferenzlernens besteht. UltraInteract ermöglicht es uns, eine eingehende Erkundung des Präferenzlernens für Argumentationsaufgaben durchzuführen. Unsere Untersuchung zeigt, dass einige etablierte Präferenzlernalgorithmen möglicherweise weniger geeignet für Argumentationsaufgaben sind im Vergleich zu ihrer Effektivität in allgemeinen Gesprächen. Inspiriert davon leiten wir ein neuartiges Belohnungsmodellierungsziel ab, das zusammen mit UltraInteract zu einem starken Belohnungsmodell führt.

Langzeitkontext-Langzeitgedächtnis-Modelle haben Schwierigkeiten mit langem kontextbezogenem Lernen.
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte bei der Verarbeitung langer Sequenzen von mehr als 32K Tokens gemacht. Allerdings wurde ihre Leistungsbewertung hauptsächlich auf Metriken wie Perplexität und synthetische Aufgaben beschränkt, die möglicherweise nicht vollständig ihre Fähigkeiten in nuancierteren, realen Szenarien erfassen. Diese Studie führt einen spezialisierten Benchmark (LIConBench) ein, der sich auf das langfristige kontextbezogene Lernen im Bereich der extremen Klassifikation von Labels konzentriert. Wir haben sorgfältig sechs Datensätze ausgewählt, die einen Labelbereich von 28 bis 174 Klassen abdecken und unterschiedliche Eingabelängen (Few-Shot-Demonstration) von 2K bis 50K umfassen. Unser Benchmark erfordert von LLMs, die gesamte Eingabe zu erfassen, um die umfangreichen Labelräume zu erkennen und korrekte Vorhersagen zu treffen. Wir evaluieren 13 Langkontext-LLMs anhand unserer Benchmarks. Wir stellen fest, dass die Langkontext-LLMs unter einer Tokenlänge von 20K relativ gut abschneiden und die Leistung von der Nutzung des langen Kontextfensters profitiert. Nachdem das Kontextfenster jedoch 20K überschreitet, fallen die meisten LLMs dramatisch ab, mit Ausnahme von GPT-4. Dies deutet auf eine bemerkenswerte Lücke in den aktuellen Fähigkeiten von LLMs hin, lange, kontextreiche Sequenzen zu verarbeiten und zu verstehen. Weitere Analysen ergaben eine Tendenz der Modelle, Vorhersagen für Labels zu bevorzugen, die am Ende der Sequenz präsentiert werden. Ihre Fähigkeit, über mehrere Teile in der langen Sequenz zu argumentieren, muss noch verbessert werden. Unsere Studie zeigt, dass das Verständnis und die Argumentation über langen Kontext nach wie vor eine anspruchsvolle Aufgabe für die bestehenden LLMs darstellen. Wir glauben, dass LIConBench als realistischere Bewertung für zukünftige Langkontext-LLMs dienen könnte.

LLaVA-Gemma: Beschleunigung von Multimodal Foundation Models mit einem kompakten Sprachmodell
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

Wir trainieren eine Reihe von multimodalen Grundlagenmodellen (MMFM) unter Verwendung des beliebten LLaVA-Frameworks mit der kürzlich veröffentlichten Gemma-Familie großer Sprachmodelle (LLMs). Besonderes Interesse gilt dem 2B-Parameter-Gemma-Modell, das Möglichkeiten bietet, leistungsfähige kleinere MMFMs zu konstruieren. Im Einklang mit Erkenntnissen aus anderen Arbeiten in diesem Bereich testen wir die Auswirkung der Entfernung von drei Designmerkmalen: Vortraining des Verbinders, Verwendung eines leistungsstärkeren Bildrückgrats und Erhöhung der Größe des Sprachrückgrats. Die resultierenden Modelle, die wir LLaVA-Gemma nennen, zeigen eine moderate Leistung bei einer Vielzahl von Bewertungen, können jedoch die aktuellen vergleichbar großen SOTA-Modelle nicht übertreffen. Eine genauere Analyse der Leistung zeigt gemischte Effekte; das Überspringen des Vortrainings neigt dazu, die Leistung zu verringern, größere Vision-Modelle verbessern manchmal die Leistung, und die Erhöhung der Größe des Sprachmodells hat inkonsistente Effekte. Wir veröffentlichen öffentlich Trainingsrezepte, Code und Gewichte für unsere Modelle für die LLaVA-Gemma-Modelle.

Technischer Bericht zu HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2

ByKang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Donghoon Ham, Youngki Hong, Yunki Hong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Donghyeon Ko, Dughyun Lee, Jaehong Lee, Jieun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Kiyoon Moon, Jaesun Park, Kyuyon Park, Seunghyun Seo, Gyubin Son, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Mihak Hong, Moonyoung Hong, Sung Bum Hong, Seongchan Hwang, Eunbin Hyun, Jinbae Im, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Yujin Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Yeji Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Lee Jonghyun, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Yuri Min, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Hyangnam Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Mihyun Sim, Woongseob Sim, Hyejin Soh, Bokyoung Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Matt Yeo, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung

Wir stellen HyperCLOVA X vor, eine Familie von großen Sprachmodellen (LLMs), die auf die koreanische Sprache und Kultur zugeschnitten sind und über wettbewerbsfähige Fähigkeiten in Englisch, Mathematik und Codierung verfügen. HyperCLOVA X wurde auf einer ausgewogenen Mischung von koreanischen, englischen und Code-Daten trainiert, gefolgt von Instruktionenfeinabstimmung mit hochwertigen, menschenannotierten Datensätzen unter Einhaltung strenger Sicherheitsrichtlinien, die unsere Verpflichtung zu verantwortungsbewusster KI widerspiegeln. Das Modell wird anhand verschiedener Benchmarks bewertet, einschließlich umfassender Argumentation, Wissen, gesundem Menschenverstand, Faktizität, Codierung, Mathematik, Chatten, Instruktionsbefolgung und Ungefährlichkeit, sowohl auf Koreanisch als auch auf Englisch. HyperCLOVA X zeigt starke Argumentationsfähigkeiten in Koreanisch, gestützt auf ein tiefes Verständnis der Sprache und kulturellen Feinheiten. Eine weitere Analyse der inhärenten zweisprachigen Natur und ihrer Erweiterung zur Mehrsprachigkeit hebt die überlinguale Kompetenz des Modells und seine starke Verallgemeinerungsfähigkeit auf nicht gezielte Sprachen hervor, einschließlich maschineller Übersetzungen zwischen mehreren Sprachpaaren und überlingualer Schlussfolgerungsaufgaben. Wir sind der Meinung, dass HyperCLOVA X hilfreiche Anleitung für Regionen oder Länder bieten kann, um ihre souveränen LLMs zu entwickeln.

KameraSteuerung: Aktivierung der Kamerasteuerung für die Generierung von Text-zu-Video.
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

Die Kontrollierbarkeit spielt eine entscheidende Rolle bei der Videogenerierung, da sie es den Benutzern ermöglicht, den gewünschten Inhalt zu erstellen. Allerdings haben bestehende Modelle weitgehend die präzise Steuerung der Kameraposition übersehen, die als filmische Sprache dient, um tiefere narrative Feinheiten auszudrücken. Um dieses Problem zu mildern, führen wir CameraCtrl ein, das eine genaue Steuerung der Kameraposition für Text-zu-Video (T2V)-Modelle ermöglicht. Nachdem die Kamerabahn präzise parametrisiert wurde, wird ein Plug-and-Play-Kameramodul auf einem T2V-Modell trainiert, ohne andere Teile zu beeinflussen. Darüber hinaus wird eine umfassende Studie über die Auswirkungen verschiedener Datensätze durchgeführt, die darauf hindeutet, dass Videos mit einer vielfältigen Kameraverteilung und ähnlichem Erscheinungsbild die Kontrollierbarkeit und Verallgemeinerung tatsächlich verbessern. Experimentelle Ergebnisse zeigen die Wirksamkeit von CameraCtrl bei der Erzielung präziser und domänenadaptiver Kamerasteuerung und markieren einen Schritt vorwärts bei der Verfolgung von dynamischer und maßgeschneiderter Videogeschichtenerzählung aus textuellen und Kamerapositionseingaben. Unsere Projektwebsite ist unter folgendem Link erreichbar: https://hehao13.github.io/projects-CameraCtrl/.

Größer ist nicht immer besser: Skalierungseigenschaften latenter Diffusionsmodelle
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

Wir untersuchen die Skalierungseigenschaften von Latent Diffusion Models (LDMs) mit einem Schwerpunkt auf ihrer Probenahmeeffizienz. Während verbesserte Netzwerkarchitekturen und Inferenzalgorithmen gezeigt haben, dass sie die Probenahmeeffizienz von Diffusionsmodellen effektiv steigern können, wurde die Rolle der Modellgröße – ein entscheidender Faktor für die Probenahmeeffizienz – bisher nicht gründlich untersucht. Durch empirische Analyse etablierter Text-zu-Bild-Diffusionsmodelle führen wir eine eingehende Untersuchung darüber durch, wie die Modellgröße die Probenahmeeffizienz über verschiedene Probenahmeschritte hinweg beeinflusst. Unsere Ergebnisse enthüllen einen überraschenden Trend: Bei einem gegebenen Inferenzbudget erzielen kleinere Modelle häufig bessere Ergebnisse in der Erzeugung hochwertiger Resultate als ihre größeren Äquivalente. Darüber hinaus erweitern wir unsere Studie, um die Generalisierbarkeit dieser Ergebnisse zu demonstrieren, indem wir verschiedene Diffusionsprobenahmegeräte anwenden, verschiedene nachgelagerte Aufgaben erkunden, nachdestillierte Modelle bewerten und die Leistung im Verhältnis zum Trainingsaufwand vergleichen. Diese Ergebnisse eröffnen neue Wege für die Entwicklung von LDM-Skalierungsstrategien, die eingesetzt werden können, um die generativen Fähigkeiten innerhalb begrenzter Inferenzbudgets zu verbessern.

Sind große Sprachmodelle übermenschliche Chemiker?
Are large language models superhuman chemists?

Apr 1

ByAdrian Mirza, Nawaf Alampara, Sreekanth Kunchapu, Benedict Emoekabu, Aswanth Krishnan, Mara Wilhelmi, Macjonathan Okereke, Juliane Eberhardt, Amir Mohammad Elahi, Maximilian Greiner, Caroline T. Holick, Tanya Gupta, Mehrdad Asgari, Christina Glaubitz, Lea C. Klepsch, Yannik Köster, Jakob Meyer, Santiago Miret, Tim Hoffmann, Fabian Alexander Kreth, Michael Ringleb, Nicole Roesner, Ulrich S. Schubert, Leanne M. Stafast, Dinga Wonanke, Michael Pieler, Philippe Schwaller, Kevin Maik Jablonka

Große Sprachmodelle (LLMs) haben aufgrund ihrer Fähigkeit, menschliche Sprache zu verarbeiten und Aufgaben auszuführen, für die sie nicht explizit trainiert wurden, weitreichendes Interesse geweckt. Dies ist für die chemischen Wissenschaften relevant, die mit dem Problem kleiner und vielfältiger Datensätze konfrontiert sind, die häufig in Form von Text vorliegen. LLMs haben vielversprechende Ergebnisse bei der Bewältigung dieser Probleme gezeigt und werden zunehmend eingesetzt, um chemische Eigenschaften vorherzusagen, Reaktionen zu optimieren und sogar Experimente autonom zu entwerfen und durchzuführen. Allerdings haben wir immer noch nur ein sehr begrenztes systematisches Verständnis der chemischen Denkfähigkeiten von LLMs, das erforderlich wäre, um Modelle zu verbessern und potenzielle Schäden zu minimieren. Hier stellen wir "ChemBench" vor, ein automatisiertes Framework, das entwickelt wurde, um das chemische Wissen und die Denkfähigkeiten von modernsten LLMs im Vergleich zur Expertise menschlicher Chemiker rigoros zu bewerten. Wir haben mehr als 7.000 Frage-Antwort-Paare für eine Vielzahl von Teilgebieten der chemischen Wissenschaften zusammengestellt, führende Open-Source- und Closed-Source-LLMs bewertet und festgestellt, dass die besten Modelle in unserer Studie im Durchschnitt die besten menschlichen Chemiker übertroffen haben. Die Modelle haben jedoch Schwierigkeiten mit einigen chemischen Denkaufgaben, die für menschliche Experten einfach sind, und liefern übermütige, irreführende Vorhersagen, beispielsweise zu Sicherheitsprofilen von Chemikalien. Diese Ergebnisse verdeutlichen die doppelte Realität, dass LLMs zwar bemerkenswerte Fähigkeiten bei chemischen Aufgaben zeigen, jedoch weitere Forschung entscheidend ist, um ihre Sicherheit und Nützlichkeit in den chemischen Wissenschaften zu verbessern. Unsere Ergebnisse deuten auch auf die Notwendigkeit von Anpassungen an Chemielehrplänen hin und betonen die Bedeutung der kontinuierlichen Entwicklung von Bewertungsrahmen, um sichere und nützliche LLMs zu verbessern.

Poro 34B und der Segen der Mehrsprachigkeit
Poro 34B and the Blessing of Multilinguality

Apr 2

ByRisto Luukkonen, Jonathan Burdge, Elaine Zosa, Aarne Talman, Ville Komulainen, Väinö Hatanpää, Peter Sarlin, Sampo Pyysalo

Das Pretraining moderner großer Sprachmodelle erfordert mittlerweile Billionen von Wörtern Text, was um Größenordnungen mehr ist als für die überwiegende Mehrheit der Sprachen verfügbar ist. Während das Einbeziehen von Texten in mehr als einer Sprache ein offensichtlicher Weg ist, um mehr Pretraining-Daten zu erhalten, wird Multilingualität oft als Fluch angesehen, und die meisten Bemühungen zur Modellschulung konzentrieren sich weiterhin fast ausschließlich auf einzelne große Sprachen. Wir sind der Meinung, dass Multilingualität ein Segen sein kann und dass es möglich sein sollte, die Fähigkeiten monolingualer Modelle für kleine Sprachen erheblich zu verbessern durch multilinguales Training. In dieser Studie stellen wir Poro 34B vor, ein 34 Milliarden Parameter umfassendes Modell, das für 1 Billion Tokens in Finnisch, Englisch und Programmiersprachen trainiert wurde, und zeigen, dass ein multilinguales Training einen Ansatz liefern kann, der nicht nur die Fähigkeiten bestehender Modelle für Finnisch erheblich verbessert, sondern auch bei Übersetzungen herausragt und in seiner Klasse bei der Generierung von Englisch und Programmiersprachen wettbewerbsfähig ist. Wir veröffentlichen die Modellparameter, Skripte und Daten unter offenen Lizenzen auf https://huggingface.co/LumiOpen/Poro-34B.

3D-Kongelierung: 3D-bewusste Bildausrichtung in freier Wildbahn
3D Congealing: 3D-Aware Image Alignment in the Wild

Apr 2

ByYunzhi Zhang, Zizhang Li, Amit Raj, Andreas Engelhardt, Yuanzhen Li, Tingbo Hou, Jiajun Wu, Varun Jampani

Wir schlagen 3D Congealing vor, ein neuartiges Problem der 3D-bewussten Ausrichtung für 2D-Bilder, die semantisch ähnliche Objekte erfassen. Angesichts einer Sammlung von unbeschrifteten Internetbildern ist unser Ziel, die gemeinsamen semantischen Teile aus den Eingaben zuzuordnen und das Wissen aus 2D-Bildern in einen gemeinsamen 3D-Standardraum zu aggregieren. Wir stellen einen allgemeinen Rahmen vor, der die Aufgabe ohne Annahme von Formvorlagen, Posen oder Kameraparametern angeht. Im Kern steht eine kanonische 3D-Repräsentation, die geometrische und semantische Informationen umfasst. Der Rahmen optimiert die kanonische Repräsentation zusammen mit der Pose für jedes Eingabebild und einer pro-Bild-Koordinatenkarte, die 2D-Pixekoordinaten in den 3D-Standardrahmen verformt, um das Formabgleichen zu berücksichtigen. Das Optimierungsverfahren verschmilzt Vorwissen aus einem vortrainierten Bildgenerierungsmodell und semantische Informationen aus Eingabebildern. Ersteres bietet starke Wissensführung für diese unterbeschränkte Aufgabe, während Letzteres die notwendigen Informationen liefert, um die Trainingsdatenvoreingenommenheit des vortrainierten Modells zu mildern. Unser Rahmen kann für verschiedene Aufgaben wie Korrespondenzabgleich, Posenabschätzung und Bildbearbeitung verwendet werden und erzielt starke Ergebnisse auf realen Bilddatensätzen unter herausfordernden Beleuchtungsbedingungen und auf in freier Wildbahn gesammelten Online-Bildsammlungen.

LLM-ABR: Entwurf adaptiver Bitraten-Algorithmen mithilfe großer Sprachmodelle
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang

Wir präsentieren LLM-ABR, das erste System, das die generativen Fähigkeiten großer Sprachmodelle (LLMs) nutzt, um autonom adaptive Bitraten-Algorithmen (ABR) zu entwerfen, die auf unterschiedliche Netzwerkeigenschaften zugeschnitten sind. Innerhalb eines Verstärkungslernrahmens ermöglicht LLM-ABR LLMs, Schlüsselkomponenten wie Zustände und neuronale Netzwerkarchitekturen zu entwerfen. Wir evaluieren LLM-ABR in verschiedenen Netzwerkeinstellungen, einschließlich Breitband, Satellit, 4G und 5G. LLM-ABR übertrifft konsequent Standard-ABR-Algorithmen.

papers.title

papers.description

Octopus v2: On-Gerät Sprachmodell für Superagenten
Octopus v2: On-device language model for super agent

Apr 2

ByWei Chen, Zhiyuan Li

Förderung von LLM-Reasoning-Generalisten mit Präferenzbäumen
Advancing LLM Reasoning Generalists with Preference Trees

Apr 2

ByLifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

Langzeitkontext-Langzeitgedächtnis-Modelle haben Schwierigkeiten mit langem kontextbezogenem Lernen.
Long-context LLMs Struggle with Long In-context Learning

Apr 2

ByTianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

LLaVA-Gemma: Beschleunigung von Multimodal Foundation Models mit einem kompakten Sprachmodell
LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model

Mar 29

ByMusashi Hinck, Matthew L. Olson, David Cobbley, Shao-Yen Tseng, Vasudev Lal

Technischer Bericht zu HyperCLOVA X
HyperCLOVA X Technical Report

Apr 2

KameraSteuerung: Aktivierung der Kamerasteuerung für die Generierung von Text-zu-Video.
CameraCtrl: Enabling Camera Control for Text-to-Video Generation

Apr 2

ByHao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

Größer ist nicht immer besser: Skalierungseigenschaften latenter Diffusionsmodelle
Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

Apr 1

ByKangfu Mei, Zhengzhong Tu, Mauricio Delbracio, Hossein Talebi, Vishal M. Patel, Peyman Milanfar

LLM-ABR: Entwurf adaptiver Bitraten-Algorithmen mithilfe großer Sprachmodelle
LLM-ABR: Designing Adaptive Bitrate Algorithms via Large Language Models

Apr 2

ByZhiyuan He, Aashish Gottipati, Lili Qiu, Francis Y. Yan, Xufang Luo, Kenuo Xu, Yuqing Yang