HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

28 papers found

SingLoRA: Niedrigrangige Anpassung unter Verwendung einer einzelnen Matrix
SingLoRA: Low Rank Adaptation Using a Single Matrix

Jul 8

ByDavid Bensaïd, Noam Rotstein, Roy Velich, Daniel Bensaïd, Ron Kimmel

112

Low-Rank Adaptation (LoRA) hat die parameter-effiziente Feinabstimmung großer vortrainierter Modelle erheblich vorangetrieben. LoRA erweitert die vortrainierten Gewichte eines Modells, indem es das Produkt zweier kleinerer Matrizen hinzufügt, die zusammen eine niedrigrangige Matrixaktualisierung bilden. Jüngste Forschungen haben gezeigt, dass Skalenunterschiede zwischen diesen beiden Matrizen oft zu instabilen Trainingsdynamiken führen, was eine suboptimale Leistung zur Folge hat. In diesem Artikel schlagen wir SingLoRA vor, das die Low-Rank Adaptation neu formuliert, indem es die Gewichtsaktualisierung als eine Zerlegung einer einzelnen niedrigrangigen Matrix, multipliziert mit ihrer Transponierten, lernt. Dieses einfache Design beseitigt inhärent Skalenkonflikte zwischen den Matrizen, gewährleistet eine stabile Optimierung und reduziert die Parameteranzahl in etwa um die Hälfte. Wir analysieren SingLoRA im Rahmen des unendlich breiten neuronalen Netzwerks und zeigen, dass es durch seine Konstruktion ein stabiles Feature-Learning garantiert. Umfangreiche Experimente zu verschiedenen Aufgaben bestätigen diese Vorteile. Im Bereich des gesunden Menschenverstands erreicht die Feinabstimmung von LLama 7B auf MNLI mit SingLoRA eine Genauigkeit von 91,3 % – was LoRA (89,1 %) und LoRA+ (90,2 %) übertrifft – während nur 60 % des Parameterbudgets verwendet werden. Bei der Bildgeneration verbessert die Feinabstimmung von Stable Diffusion mit SingLoRA die Bildtreue auf DreamBooth erheblich und erreicht einen DINO-Ähnlichkeitswert von 0,151, verglichen mit Werten von 0,148 und 0,143 für DoRA bzw. LoRA.

Eine Übersicht über latentes Schließen
A Survey on Latent Reasoning

Jul 8

ByRui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian

Große Sprachmodelle (LLMs) haben beeindruckende Fähigkeiten im Bereich des logischen Denkens gezeigt, insbesondere wenn sie durch explizite Ketten von Gedanken (Chain-of-Thought, CoT) geleitet werden, die Zwischenschritte verbalisieren. Während CoT sowohl die Interpretierbarkeit als auch die Genauigkeit verbessert, begrenzt seine Abhängigkeit von natürlicher Sprache die Ausdrucksbandbreite des Modells. Latentes Denken (Latent Reasoning) adressiert diesen Engpass, indem es mehrstufige Inferenzen vollständig im kontinuierlichen verborgenen Zustand des Modells durchführt und dabei die Token-weise Überwachung eliminiert. Um die Forschung im Bereich des latenten Denkens voranzutreiben, bietet dieser Überblick eine umfassende Betrachtung dieses aufstrebenden Forschungsfeldes. Wir beginnen mit der Untersuchung der grundlegenden Rolle von neuronalen Netzwerkschichten als Rechengrundlage für das Denken und heben hervor, wie hierarchische Repräsentationen komplexe Transformationen unterstützen. Anschließend erkunden wir verschiedene Methoden des latenten Denkens, einschließlich aktivierungsbasierter Rekurrenz, der Propagation von verborgenen Zuständen und Feinabstimmungsstrategien, die explizite Denkspuren komprimieren oder internalisieren. Schließlich diskutieren wir fortgeschrittene Paradigmen wie unendlich tiefes latentes Denken durch maskierte Diffusionsmodelle, die global konsistente und reversible Denkprozesse ermöglichen. Indem wir diese Perspektiven vereinen, möchten wir das konzeptionelle Landschaftsbild des latenten Denkens klären und zukünftige Forschungsrichtungen an der Grenze der LLM-Kognition aufzeigen. Ein zugehöriges GitHub-Repository, das die neuesten Artikel und Repositories sammelt, ist verfügbar unter: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.

OmniPart: Teilbewusste 3D-Generierung mit semantischer Entkopplung und struktureller Kohäsion
OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

Jul 8

ByYunhan Yang, Yufan Zhou, Yuan-Chen Guo, Zi-Xin Zou, Yukun Huang, Ying-Tian Liu, Hao Xu, Ding Liang, Yan-Pei Cao, Xihui Liu

Die Erstellung von 3D-Assets mit expliziten, bearbeitbaren Teilstrukturen ist entscheidend für die Weiterentwicklung interaktiver Anwendungen, doch die meisten generativen Methoden erzeugen nur monolithische Formen, was ihre Nützlichkeit einschränkt. Wir stellen OmniPart vor, ein neuartiges Framework für die teilbewusste 3D-Objekterzeugung, das darauf abzielt, eine hohe semantische Entkopplung zwischen den Komponenten zu erreichen, während gleichzeitig eine robuste strukturelle Kohäsion gewährleistet wird. OmniPart entkoppelt diese komplexe Aufgabe einzigartig in zwei synergetische Phasen: (1) Ein autoregressives Strukturplanungsmodul erzeugt eine kontrollierbare, variabel lange Sequenz von 3D-Teilbegrenzungsrahmen, die entscheidend durch flexible 2D-Teilmasken geleitet wird, die eine intuitive Kontrolle über die Teilzerlegung ermöglichen, ohne direkte Entsprechungen oder semantische Labels zu erfordern; und (2) Ein räumlich bedingtes Rectified-Flow-Modell, das effizient aus einem vortrainierten holistischen 3D-Generator adaptiert wurde, synthetisiert alle 3D-Teile gleichzeitig und konsistent innerhalb des geplanten Layouts. Unser Ansatz unterstützt benutzerdefinierte Teilgranularität, präzise Lokalisierung und ermöglicht vielfältige nachgelagerte Anwendungen. Umfangreiche Experimente zeigen, dass OmniPart state-of-the-art Leistung erzielt und den Weg für interpretierbarere, bearbeitbarere und vielseitigere 3D-Inhalte ebnet.

Wie man Ihren LLM-Web-Agenten trainiert: Eine statistische Diagnose
How to Train Your LLM Web Agent: A Statistical Diagnosis

Jul 5

ByDheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia

LLM-basierte Web-Agenten haben in letzter Zeit bedeutende Fortschritte gemacht, doch viel davon fand in Closed-Source-Systemen statt, was die Lücke zu Open-Source-Alternativen vergrößert hat. Der Fortschritt wurde durch zwei zentrale Herausforderungen gebremst: erstens eine enge Fokussierung auf Einzelschritt-Aufgaben, die die Komplexität mehrstufiger Web-Interaktionen übersieht; und zweitens die hohen Rechenkosten, die für das Post-Training von LLM-basierten Web-Agenten erforderlich sind. Um dies zu adressieren, präsentieren wir die erste statistisch fundierte Studie zur Rechenressourcen-Zuteilung für das Post-Training von LLM-Web-Agenten. Unser Ansatz verwendet eine zweistufige Pipeline, bei der ein Llama 3.1 8B-Schüler trainiert wird, um einen Llama 3.3 70B-Lehrer durch überwachtes Fein-Tuning (SFT) zu imitieren, gefolgt von On-Policy Reinforcement Learning. Wir stellen fest, dass dieser Prozess stark von der Wahl der Hyperparameter abhängt, was umfassende Durchläufe unpraktisch macht. Um anderen kostspieliges Trial-and-Error zu ersparen, nehmen wir 1.370 Konfigurationen und verwenden Bootstrapping, um effektive Hyperparameter zu schätzen. Unsere Ergebnisse zeigen, dass die Kombination von SFT mit On-Policy RL durchweg besser abschneidet als jeder Ansatz allein, sowohl auf WorkArena als auch auf MiniWob++. Darüber hinaus benötigt diese Strategie nur 55 % der Rechenleistung, um die Spitzenleistung von reinem SFT auf MiniWob++ zu erreichen, wodurch die Compute-Performance-Pareto-Grenze effektiv verschoben wird, und ist die einzige Strategie, die die Lücke zu Closed-Source-Modellen schließen kann.

StreamVLN: Streaming Vision-and-Language Navigation durch SlowFast-Kontextmodellierung
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

Jul 7

ByMeng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

Vision-and-Language Navigation (VLN) in real-world settings erfordert, dass Agenten kontinuierliche visuelle Datenströme verarbeiten und Aktionen mit geringer Latenz auf der Grundlage von Sprachanweisungen generieren. Während Video-basierte Large Language Models (Video-LLMs) in jüngster Zeit Fortschritte vorangetrieben haben, stehen aktuelle VLN-Methoden, die auf Video-LLM basieren, oft vor dem Dilemma, zwischen fein abgestufter visueller Wahrnehmung, langfristiger Kontextmodellierung und Recheneffizienz abzuwägen. Wir stellen StreamVLN vor, ein Streaming-VLN-Framework, das eine hybride Slow-Fast-Kontextmodellierungsstrategie einsetzt, um multimodales Schließen über verschränkte visuelle, sprachliche und aktionsbezogene Eingaben zu unterstützen. Der schnell fließende Dialogkontext ermöglicht eine reaktionsschnelle Aktionsgenerierung durch ein Schiebefenster aktiver Dialoge, während der langsam aktualisierte Speicherkontext historische visuelle Zustände mithilfe einer 3D-bewussten Token-Ausdünnungsstrategie komprimiert. Mit diesem Slow-Fast-Design erreicht StreamVLN kohärente Mehrfachdialoge durch effiziente Wiederverwendung des KV-Caches und unterstützt lange Videoströme mit begrenzter Kontextgröße und Inferenzkosten. Experimente auf VLN-CE-Benchmarks demonstrieren state-of-the-art Leistung mit stabiler niedriger Latenz, was Robustheit und Effizienz im realen Einsatz gewährleistet. Die Projektseite ist: https://streamvln.github.io/{https://streamvln.github.io/}.

CriticLean: Kritikergesteuertes Reinforcement Learning für mathematische Formalisierung
CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Jul 8

ByZhongyuan Peng, Yifan Yao, Kaijing Ma, Shuyue Guo, Yizhe Li, Yichi Zhang, Chenchen Zhang, Yifan Zhang, Zhouliang Yu, Luming Li, Minghao Liu, Yihang Xia, Jiawei Shen, Yuchen Wu, Yixin Cao, Zhaoxiang Zhang, Wenhao Huang, Jiaheng Liu, Ge Zhang

Die Übersetzung von mathematischen Aussagen in natürlicher Sprache in formalen, ausführbaren Code stellt eine grundlegende Herausforderung im Bereich des automatisierten Theorembeweisens dar. Während sich frühere Arbeiten auf den Erfolg bei der Generierung und Kompilierung konzentriert haben, wurde der Kritikerphase – der Bewertung, ob generierte Formalisierungen die semantische Absicht des ursprünglichen Problems tatsächlich erfassen – wenig Aufmerksamkeit geschenkt. In diesem Artikel stellen wir CriticLean vor, ein neuartiges, kritikergestütztes Reinforcement-Learning-Framework, das die Rolle des Kritikers von einem passiven Validator zu einer aktiven Lernkomponente erhebt. Konkret schlagen wir zunächst CriticLeanGPT vor, das durch überwachtes Fein-Tuning und Reinforcement Learning trainiert wird, um die semantische Treue von Lean 4-Formalisierungen rigoros zu bewerten. Anschließend führen wir CriticLeanBench ein, einen Benchmark, der entwickelt wurde, um die Fähigkeit von Modellen zu messen, semantisch korrekte von inkorrekten Formalisierungen zu unterscheiden, und zeigen, dass unsere trainierten CriticLeanGPT-Modelle starke Open- und Closed-Source-Baselines deutlich übertreffen können. Aufbauend auf dem CriticLean-Framework erstellen wir FineLeanCorpus, einen Datensatz mit über 285.000 Problemen, der eine reiche Domänenvielfalt, eine breite Schwierigkeitsabdeckung und eine hohe Korrektheit basierend auf menschlicher Bewertung aufweist. Insgesamt unterstreichen unsere Ergebnisse, dass die Optimierung der Kritikerphase entscheidend für die Erstellung zuverlässiger Formalisierungen ist, und wir hoffen, dass unser CriticLean wertvolle Einblicke für zukünftige Fortschritte im formalen mathematischen Denken liefern wird.

RLVER: Verstärkungslernen mit überprüfbaren Emotionsbelohnungen für empathische Agenten
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Jul 3

ByPeisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

Große Sprachmodelle (LLMs) zeichnen sich durch logisches und algorithmisches Denken aus, doch ihre emotionale Intelligenz (EQ) hinkt ihrer kognitiven Leistungsfähigkeit noch weit hinterher. Während das Reinforcement Learning aus überprüfbaren Belohnungen (RLVR) in anderen Bereichen Fortschritte gemacht hat, bleibt seine Anwendung im Dialog – insbesondere für emotionale Intelligenz – weitgehend unerforscht. In dieser Arbeit stellen wir RLVER vor, das erste end-to-end Reinforcement-Learning-Framework, das überprüfbare Emotionsbelohnungen von simulierten Nutzern nutzt, um höhere empathische Fähigkeiten in LLMs zu fördern. Innerhalb dieses Frameworks führen selbstkonsistente, affektive simulierte Nutzer Dialogrollouts durch und erzeugen deterministische Emotionswerte während der Gespräche, die als Belohnungssignale dienen, um das Lernen des LLMs zu steuern. Die Feinabstimmung des öffentlich verfügbaren Qwen2.5-7B-Instruct-Modells mit PPO steigert seinen Sentient-Benchmark-Score von 13,3 auf 79,2, während die mathematischen und Programmierfähigkeiten weitgehend erhalten bleiben. Umfangreiche Experimente zeigen, dass: (i) RLVER konsequent mehrere Dialogfähigkeiten verbessert; (ii) Denkende und nicht-denkende Modelle unterschiedliche Trends aufweisen – denkende Modelle übertreffen in Empathie und Einsicht, während nicht-denkende Modelle eher auf Aktion ausgerichtet sind; (iii) GRPO oft stabile Gewinne erzielt, während PPO bestimmte Fähigkeiten auf ein höheres Niveau bringen kann; (iv) Herausforderndere Umgebungen sind nicht immer besser – moderate Umgebungen können stärkere Ergebnisse liefern. Unsere Ergebnisse zeigen, dass RLVER ein praktischer Weg hin zu emotional intelligenten und breit fähigen Sprachagenten ist.

MedGen: Medizinische Videogenerierung durch skalierte, granulare Annotationen erschließen
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

Jul 8

ByRongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang

Jüngste Fortschritte in der Videogenerierung haben bemerkenswerte Fortschritte in offenen Domänen gezeigt, doch die Generierung medizinischer Videos bleibt weitgehend unerforscht. Medizinische Videos sind entscheidend für Anwendungen wie klinische Ausbildung, Bildung und Simulation, die nicht nur hohe visuelle Qualität, sondern auch strikte medizinische Genauigkeit erfordern. Allerdings produzieren aktuelle Modelle oft unrealistische oder fehlerhafte Inhalte, wenn sie auf medizinische Eingaben angewendet werden, was größtenteils auf den Mangel an groß angelegten, hochwertigen Datensätzen zurückzuführen ist, die speziell auf den medizinischen Bereich zugeschnitten sind. Um diese Lücke zu schließen, stellen wir MedVideoCap-55K vor, den ersten groß angelegten, vielfältigen und beschriftungsreichen Datensatz für die Generierung medizinischer Videos. Er umfasst über 55.000 kuratierte Clips, die reale medizinische Szenarien abdecken, und bietet eine solide Grundlage für die Ausbildung allgemeiner Modelle zur Generierung medizinischer Videos. Aufbauend auf diesem Datensatz entwickeln wir MedGen, das führende Leistungen unter Open-Source-Modellen erzielt und kommerzielle Systeme in mehreren Benchmarks sowohl in Bezug auf die visuelle Qualität als auch die medizinische Genauigkeit übertrifft. Wir hoffen, dass unser Datensatz und Modell als wertvolle Ressource dienen und weitere Forschungen in der Generierung medizinischer Videos vorantreiben können. Unser Code und unsere Daten sind unter https://github.com/FreedomIntelligence/MedGen verfügbar.

GTA1: GUI-Testzeit-Skalierungsagent
GTA1: GUI Test-time Scaling Agent

Jul 8

ByYan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

Graphical User Interface (GUI)-Agenten operieren plattformübergreifend (z. B. unter Linux) autonom, um Aufgaben durch die Interaktion mit visuellen Elementen zu erledigen. Konkret wird eine Benutzeranweisung in eine Sequenz von Aktionsvorschlägen zerlegt, die jeweils einer Interaktion mit der GUI entsprechen. Nach jeder Aktion beobachtet der Agent die aktualisierte GUI-Umgebung, um den nächsten Schritt zu planen. Dabei ergeben sich jedoch zwei Hauptherausforderungen: i) die Auflösung von Mehrdeutigkeiten in der Aufgabenplanung (d. h. der Aktionsvorschlagssequenz), da die Auswahl eines geeigneten Plans nicht trivial ist, da viele gültige Pläne existieren können; ii) die präzise Verankerung von Aktionen in komplexen und hochauflösenden Benutzeroberflächen, d. h. die exakte Interaktion mit visuellen Zielen. Dieses Papier untersucht die beiden genannten Herausforderungen mit unserem GUI-Testzeit-Skalierungs-Agenten, genannt GTA1. Erstens führen wir eine Testzeit-Skalierungsmethode ein, um den am besten geeigneten Aktionsvorschlag auszuwählen. In jedem Schritt werden mehrere Kandidaten-Aktionsvorschläge gesampelt und ein Bewertungsmodell genutzt, um den passendsten auszuwählen. Dies tauscht Rechenleistung gegen bessere Entscheidungsqualität durch paralleles Sampling, verkürzt die Aufgabenausführungsschritte und verbessert die Gesamtleistung. Zweitens schlagen wir ein Modell vor, das eine höhere Genauigkeit bei der Verankerung des ausgewählten Aktionsvorschlags in den entsprechenden visuellen Elementen erreicht. Unsere zentrale Erkenntnis ist, dass Reinforcement Learning (RL) die visuelle Verankerung durch inhärente Zielausrichtungen erleichtert, indem erfolgreiche Klicks auf Benutzeroberflächenelemente belohnt werden. Experimentell erzielt unsere Methode state-of-the-art Leistungen in diversen Benchmarks. Beispielsweise erreicht GTA1-7B Genauigkeiten von 50,1 %, 92,4 % und 67,7 % auf Screenspot-Pro, Screenspot-V2 und OSWorld-G. In Kombination mit einem Planer, der unsere Testzeit-Skalierungsstrategie anwendet, zeigt er state-of-the-art agentische Leistungen (z. B. eine Aufgaben-Erfolgsrate von 45,2 % auf OSWorld). Wir stellen unseren Code und unsere Modelle hier Open-Source zur Verfügung.

Kritiken an World Models
Critiques of World Models

Jul 7

ByEric Xing, Mingkai Deng, Jinyu Hou, Zhiting Hu

Das Weltmodell, der vermeintliche algorithmische Ersatz für die reale Umgebung, die biologische Agenten erleben und auf die sie einwirken, ist in den letzten Jahren zu einem aufstrebenden Thema geworden, da der Bedarf an der Entwicklung virtueller Agenten mit künstlicher (allgemeiner) Intelligenz gestiegen ist. Es gab viel Diskussion darüber, was ein Weltmodell wirklich ist, wie man es aufbaut, wie man es verwendet und wie man es bewertet. In diesem Essay, ausgehend von der Vorstellungskraft in dem berühmten Science-Fiction-Klassiker „Dune“ und inspiriert durch das Konzept des „hypothetischen Denkens“ in der psychologischen Literatur, bieten wir Kritiken zu verschiedenen Denkschulen der Weltmodellierung an und argumentieren, dass das primäre Ziel eines Weltmodells darin besteht, alle handlungsfähigen Möglichkeiten der realen Welt zur zielgerichteten Argumentation und Handlung zu simulieren. Aufbauend auf diesen Kritiken schlagen wir eine neue Architektur für ein allgemeines Weltmodell vor, basierend auf hierarchischen, mehrstufigen und gemischten kontinuierlichen/diskretisierten Darstellungen sowie einem generativen und selbstüberwachten Lernrahmen, mit einem Ausblick auf ein physikalisches, agentenbasiertes und verschachteltes (PAN) AGI-System, das durch ein solches Modell ermöglicht wird.

Das Codierungsdreieck: Wie verstehen große Sprachmodelle Code?
Coding Triangle: How Does Large Language Model Understand Code?

Jul 8

ByTaolin Zhang, Zihan Ma, Maosong Cao, Junnan Liu, Songyang Zhang, Kai Chen

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in der Codegenerierung erzielt, doch ihre tatsächliche Programmierkompetenz bleibt weitgehend unerforscht. Wir stellen das Code-Triangle-Framework vor, das LLMs systematisch in drei grundlegenden Dimensionen bewertet: redaktionelle Analyse, Code-Implementierung und Testfallgenerierung. Durch umfangreiche Experimente mit Wettbewerbsprogrammierungs-Benchmarks zeigen wir, dass LLMs zwar ein selbstkonsistentes System über diese Dimensionen hinweg bilden können, ihre Lösungen jedoch oft die Vielfalt und Robustheit menschlicher Programmierer vermissen lassen. Wir identifizieren eine signifikante Verlagerung der Verteilung zwischen der Modellkognition und der menschlichen Expertise, wobei Modellfehler aufgrund von Verzerrungen in den Trainingsdaten und begrenztem Transfer von Schlussfolgerungen tendenziell gehäuft auftreten. Unsere Studie zeigt, dass die Einbindung von redaktionellen Beiträgen, Lösungen und vielfältigen Testfällen, die von Menschen erstellt wurden, sowie die Nutzung von Modellmischungen die Leistung und Robustheit von LLMs erheblich steigern können. Darüber hinaus offenbaren wir sowohl die Konsistenz als auch die Inkonsistenz in der Kognition von LLMs, die Selbstreflexion und Selbstverbesserung ermöglichen könnten, und bieten damit eine potenzielle Richtung für die Entwicklung leistungsfähigerer Codierungsmodelle.

Ist Vielfalt alles, was für skalierbare robotische Manipulation benötigt wird?
Is Diversity All You Need for Scalable Robotic Manipulation?

Jul 8

ByModi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li

Die Skalierung von Daten hat bemerkenswerte Erfolge bei Foundation-Modellen für Natural Language Processing (NLP) und Computer Vision (CV) vorangetrieben, doch die Prinzipien einer effektiven Datenskalierung in der robotergestützten Manipulation sind noch unzureichend verstanden. In dieser Arbeit untersuchen wir die differenzierte Rolle der Datenvielfalt im Robotik-Lernen, indem wir drei kritische Dimensionen betrachten – Aufgabe (was zu tun ist), Verkörperung (welcher Roboter verwendet wird) und Experte (wer demonstriert) – und damit die konventionelle Intuition „je vielfältiger, desto besser“ hinterfragen. In umfangreichen Experimenten auf verschiedenen Robotikplattformen zeigen wir, dass (1) Aufgabenvielfalt entscheidender ist als die Anzahl der Demonstrationen pro Aufgabe, was den Transfer von diversen Vorab-Trainingsaufgaben auf neue nachgelagerte Szenarien begünstigt; (2) Multi-Verkörperungs-Vorab-Trainingsdaten für den Transfer zwischen verschiedenen Verkörperungen optional sind – Modelle, die mit hochwertigen Einzel-Verkörperungsdaten trainiert wurden, können effizient auf verschiedene Plattformen übertragen werden und zeigen während des Feinabstimmens eine wünschenswertere Skalierungseigenschaft als Modelle, die mit Multi-Verkörperungsdaten vorab trainiert wurden; und (3) Expertenvielfalt, die sich aus individuellen Betriebspräferenzen und stochastischen Variationen in menschlichen Demonstrationen ergibt, das Policy-Lernen verwirren kann, wobei die Geschwindigkeitsmultimodalität als ein wesentlicher Faktor hervortritt. Basierend auf dieser Erkenntnis schlagen wir eine Verteilungsentzerrungsmethode vor, um die Geschwindigkeitsambiguität zu mildern, wodurch das resultierende GO-1-Pro eine erhebliche Leistungssteigerung von 15 % erzielt, was der Verwendung des 2,5-fachen Vorab-Trainingsdatensatzes entspricht. Zusammengenommen bieten diese Erkenntnisse neue Perspektiven und praktische Leitlinien, wie man Datensätze für robotergestützte Manipulation effektiv skalieren kann.

Nile-Chat: Ägyptische Sprachmodelle für arabische und lateinische Schriften
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

Jul 6

ByGuokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing

Wir stellen Nile-Chat-4B, 3x4B-A6B und 12B vor, eine Sammlung von LLMs für den ägyptischen Dialekt, die speziell dafür entwickelt wurden, Texte in arabischer und lateinischer Schrift zu verstehen und zu generieren. Insbesondere führen wir mit Nile-Chat-3x4B-A6B einen neuartigen Ansatz zur Sprachadaption ein, indem wir die Branch-Train-MiX-Strategie nutzen, um schriftspezialisierte Experten in einem einzigen MoE-Modell zu vereinen. Unsere Nile-Chat-Modelle übertreffen führende mehrsprachige und arabische LLMs wie LLaMa, Jais und ALLaM deutlich in unseren neu eingeführten ägyptischen Evaluierungsbenchmarks, die sowohl Verständnis- als auch Generierungsaufgaben umfassen. Besonders hervorzuheben ist, dass unser 12B-Modell eine Leistungssteigerung von 14,4 % gegenüber Qwen2.5-14B-Instruct in Benchmarks mit lateinischer Schrift erzielt. Alle unsere Ressourcen sind öffentlich verfügbar. Wir glauben, dass diese Arbeit eine umfassende Methodik zur Anpassung von LLMs an zweischriftige Sprachen präsentiert und damit einen oft übersehenen Aspekt in der modernen LLM-Entwicklung adressiert.

Differential Mamba
Differential Mamba

Jul 8

ByNadav Schneider, Itamar Zimerman, Eliya Nachmani

Sequenzmodelle wie Transformers und RNNs überbeanspruchen häufig die Aufmerksamkeit für irrelevante Kontexte, was zu verrauschten Zwischendarstellungen führt. Dies beeinträchtigt die Fähigkeiten von LLMs, indem es Halluzinationen fördert, die langreichweitigen und Abruffähigkeiten schwächt und die Robustheit verringert. Jüngste Arbeiten haben gezeigt, dass differenzielle Gestaltung dieses Problem in Transformern mildern kann, wodurch deren Effektivität in verschiedenen Anwendungen verbessert wird. In diesem Artikel untersuchen wir, ob diese Techniken, die ursprünglich für Transformer entwickelt wurden, auf Mamba angewendet werden können, eine neuere Architektur, die auf selektiven Zustandsraum-Schichten basiert und Transformator-ähnliche Leistung mit höherer Effizienz erreicht. Wir zeigen, dass eine naive Anpassung der differenziellen Gestaltung auf Mamba unzureichend ist und sorgfältige architektonische Modifikationen erfordert. Um dies zu adressieren, führen wir einen neuartigen differenziellen Mechanismus für Mamba ein, der empirisch anhand von Sprachmodellierungs-Benchmarks validiert wurde und verbesserte Abruffähigkeiten sowie überlegene Leistung gegenüber dem Standard-Mamba demonstriert. Schließlich führen wir umfangreiche Ablationsstudien und empirische Analysen durch, um unsere Designentscheidungen zu rechtfertigen und Belege dafür zu liefern, dass unser Ansatz das Problem der Überbeanspruchung in Mamba-basierten Modellen effektiv mildert. Unser Code ist öffentlich verfügbar.

MedGemma Technischer Bericht
MedGemma Technical Report

Jul 7

ByAndrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang

Künstliche Intelligenz (KI) hat ein erhebliches Potenzial in der Gesundheitsversorgung, doch ihre Schulung und Implementierung steht vor Herausforderungen aufgrund der vielfältigen Daten, komplexen Aufgaben und der Notwendigkeit, die Privatsphäre zu wahren. Foundation-Modelle, die bei medizinischen Aufgaben gut abschneiden und weniger aufgabenspezifische Anpassungsdaten benötigen, sind entscheidend, um die Entwicklung von KI-Anwendungen im Gesundheitswesen zu beschleunigen. Wir stellen MedGemma vor, eine Sammlung medizinischer Vision-Language-Foundation-Modelle, die auf Gemma 3 4B und 27B basieren. MedGemma zeigt ein fortgeschrittenes medizinisches Verständnis und eine fundierte Argumentation bei Bildern und Texten, übertrifft die Leistung ähnlich großer generativer Modelle deutlich und nähert sich der Leistung aufgabenspezifischer Modelle an, während es die allgemeinen Fähigkeiten der Gemma 3-Basismodelle beibehält. Bei Aufgaben außerhalb der Verteilung erzielt MedGemma eine Verbesserung von 2,6-10 % bei der medizinischen multimodalen Fragebeantwortung, 15,5-18,1 % bei der Klassifizierung von Röntgenbefunden der Brust und 10,8 % bei agentenbasierten Bewertungen im Vergleich zu den Basismodellen. Das Feinabstimmen von MedGemma verbessert die Leistung in Teilbereichen weiter, reduziert Fehler bei der Informationsbeschaffung aus elektronischen Gesundheitsakten um 50 % und erreicht eine vergleichbare Leistung wie bestehende spezialisierte State-of-the-Art-Methoden für die Klassifizierung von Pneumothorax und histopathologischen Patch-Klassifizierungen. Zusätzlich stellen wir MedSigLIP vor, einen medizinisch angepassten Vision-Encoder, der von SigLIP abgeleitet ist. MedSigLIP unterstützt die visuellen Verständnisfähigkeiten von MedGemma und erreicht als Encoder eine vergleichbare oder bessere Leistung als spezialisierte medizinische Bild-Encoder. Zusammengenommen bietet die MedGemma-Sammlung eine solide Grundlage für medizinische Bild- und Textfähigkeiten mit dem Potenzial, die medizinische Forschung und die Entwicklung nachgelagerter Anwendungen erheblich zu beschleunigen. Die MedGemma-Sammlung, einschließlich Tutorials und Modellgewichten, ist unter https://goo.gle/medgemma zu finden.

Effizienz-Effektivität-Neuordnung von FLOPs für LLM-basierte Neuordner
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Jul 8

ByZhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang

Große Sprachmodelle (LLMs) wurden kürzlich für Neubewertungsaufgaben in der Informationsrückgewinnung eingesetzt und erzielten dabei beachtliche Leistungen. Ihre hohen Rechenanforderungen erschweren jedoch oft den praktischen Einsatz. Bisherige Studien bewerten die Effizienz von LLM-basierten Neubewertern anhand von Proxy-Metriken wie Latenz, Anzahl der Vorwärtsdurchläufe, Eingabe-Tokens und Ausgabe-Tokens. Diese Metriken hängen jedoch von der Hardware und Laufzeitentscheidungen ab (z. B. parallel oder nicht, Batch-Größe usw.) und berücksichtigen oft nicht die Modellgröße, was die Interpretation erschwert und die Bewertung des Effizienz-Effektivitäts-Kompromisses verdeckt. Um dieses Problem zu lösen, schlagen wir E2R-FLOPs für LLM-basierte Neubewerter vor: Ranking-Metriken pro PetaFLOP (RPP) für Relevanz pro Rechenleistung und Anfragen pro PetaFLOP (QPP) für hardwareunabhängigen Durchsatz. Begleitet von diesen neuen Metriken wird ein interpretierbarer FLOPs-Schätzer entwickelt, um die FLOPs eines LLM-basierten Neubewerters auch ohne Durchführung von Experimenten zu schätzen. Basierend auf den vorgeschlagenen Metriken führen wir umfassende Experimente durch, um eine breite Palette von LLM-basierten Neubewertern mit unterschiedlichen Architekturen zu bewerten, den Effizienz-Effektivitäts-Kompromiss zu untersuchen und dieses Problem der Aufmerksamkeit der Forschungsgemeinschaft zu widmen.

Tora2: Bewegungs- und Erscheinungsbild-angepasster Diffusionstransformer für die Multi-Entitäten-Videogenerierung
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

Jul 8

ByZhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang

Jüngste Fortschritte bei Diffusions-Transformer-Modellen für bewegungsgesteuerte Videogenerierung, wie Tora, haben bedeutende Fortschritte gezeigt. In diesem Artikel präsentieren wir Tora2, eine verbesserte Version von Tora, die mehrere Designverbesserungen einführt, um ihre Fähigkeiten in Bezug auf Erscheinungsbild- und Bewegungsanpassung zu erweitern. Insbesondere führen wir einen entkoppelten Personalisierungs-Extraktor ein, der umfassende Personalisierungs-Embeddings für mehrere Open-Set-Entitäten generiert und im Vergleich zu früheren Methoden feinere visuelle Details besser bewahrt. Darauf aufbauend entwerfen wir einen gated Self-Attention-Mechanismus, um Trajektorie, Textbeschreibung und visuelle Informationen für jede Entität zu integrieren. Diese Innovation reduziert die Fehlausrichtung bei der multimodalen Konditionierung während des Trainings erheblich. Darüber hinaus führen wir einen Kontrastverlust ein, der die Trajektoriendynamik und die Entitätskonsistenz durch explizite Abbildung zwischen Bewegungs- und Personalisierungs-Embeddings gemeinsam optimiert. Tora2 ist, nach unserem besten Wissen, die erste Methode, die eine gleichzeitige Multi-Entitäten-Anpassung von Erscheinungsbild und Bewegung für die Videogenerierung erreicht. Experimentelle Ergebnisse zeigen, dass Tora2 eine wettbewerbsfähige Leistung im Vergleich zu state-of-the-art Personalisierungsmethoden erzielt und gleichzeitig fortschrittliche Bewegungssteuerungsfähigkeiten bietet, was einen kritischen Fortschritt in der Multi-Konditionen-Videogenerierung darstellt. Projektseite: https://github.com/alibaba/Tora.

Hochauflösendes visuelles Schließen durch Multi-Turn-Grounding-basiertes Reinforcement Learning
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Jul 8

ByXinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu

State-of-the-Art Large Multi-Modal Models (LMMs) stehen vor Herausforderungen bei der Verarbeitung hochauflösender Bilder, da diese Eingaben in eine enorme Anzahl visueller Tokens umgewandelt werden, von denen viele für die nachgelagerte Aufgabe irrelevant sind. In diesem Artikel schlagen wir Multi-turn Grounding-based Policy Optimization (MGPO) vor, ein End-to-End-Reinforcement-Learning (RL)-Framework, das LMMs ermöglicht, sich iterativ auf Schlüsselregionen in Bildern zu konzentrieren, indem automatisch Teilbilder basierend auf vom Modell vorhergesagten Grounding-Koordinaten innerhalb eines Multi-Turn-Konversationsframeworks zugeschnitten werden. Im Vergleich zum Supervised Fine-Tuning (SFT), das kostspielige zusätzliche Grounding-Annotationen erfordert, zeigt unser Ansatz, dass LMMs robuste Grounding-Fähigkeiten während des RL-Trainingsprozesses entwickeln können, indem sie lediglich eine binäre Belohnungsfunktion nutzen, die sich aus der Korrektheit der endgültigen Antwort ableitet. Zusätzlich beobachten wir, dass LMMs Schwierigkeiten haben, visuelles Grounding während des Rollout-Prozesses autonom auszulösen. Um dieses Cold-Start-Problem zu lösen, entwerfen wir ein Multi-Turn-Konversationsschema und beschränken die Berechnung des Policy-Verlusts auf Modellausgaben, die über mehrere Dialogrunden generiert werden, wodurch eine stabile Optimierung gefördert wird. Umfangreiche Experimente zeigen, dass MGPO, wenn es auf Standarddaten für visuelle Fragen und kurze Antworten ohne Grounding-Annotationen trainiert wird, effektiv stärkere Grounding-Fähigkeiten im Vergleich zu GRPO hervorruft, was zu einer Verbesserung von 5,4 % auf der in-distribution MME-Realworld und 5,2 % auf der herausfordernden out-of-distribution (OOD) V* Bench führt. Bemerkenswerterweise übertrifft MGPO nach dem Training auf Qwen2.5-VL-7B mit 21K Stichproben die Modelle OpenAI o1 und GPT-4o auf der OOD V* Bench. Der Code ist verfügbar unter https://github.com/EvolvingLMMs-Lab/MGPO.

PRING: Neudenken der Vorhersage von Protein-Protein-Interaktionen von Paaren zu Graphen
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

Jul 7

ByXinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang

Deep-Learning-basierte Berechnungsmethoden haben vielversprechende Ergebnisse bei der Vorhersage von Protein-Protein-Interaktionen (PPIs) erzielt. Bestehende Benchmarks konzentrieren sich jedoch überwiegend auf isolierte paarweise Bewertungen und übersehen dabei die Fähigkeit eines Modells, biologisch bedeutsame PPI-Netzwerke zu rekonstruieren, was für die biologische Forschung entscheidend ist. Um diese Lücke zu schließen, stellen wir PRING vor, den ersten umfassenden Benchmark, der die Vorhersage von Protein-Protein-Interaktionen aus einer Graphen-Perspektive bewertet. PRING kuratiert einen hochwertigen, multi-spezies PPI-Netzwerk-Datensatz, der 21.484 Proteine und 186.818 Interaktionen umfasst, mit gut durchdachten Strategien zur Bewältigung von Datenredundanz und -lecks. Aufbauend auf diesem Goldstandard-Datensatz etablieren wir zwei komplementäre Bewertungsparadigmen: (1) topologieorientierte Aufgaben, die die intra- und inter-spezies PPI-Netzwerkkonstruktion bewerten, und (2) funktionsorientierte Aufgaben, einschließlich der Vorhersage von Proteinkomplex-Pfaden, GO-Modulanalysen und der Begründung essentieller Proteine. Diese Bewertungen spiegeln nicht nur die Fähigkeit des Modells wider, die Netzwerktopologie zu verstehen, sondern erleichtern auch die Annotation von Proteinfunktionen, die Erkennung biologischer Module und sogar die Analyse von Krankheitsmechanismen. Umfangreiche Experimente mit vier repräsentativen Modellkategorien – basierend auf Sequenzähnlichkeit, naiven Sequenzen, Protein-Sprachmodellen und strukturbasierten Ansätzen – zeigen, dass aktuelle PPI-Modelle potenzielle Einschränkungen bei der Wiederherstellung sowohl struktureller als auch funktionaler Eigenschaften von PPI-Netzwerken aufweisen, was die Lücke bei der Unterstützung realer biologischer Anwendungen verdeutlicht. Wir glauben, dass PRING eine zuverlässige Plattform bietet, um die Entwicklung effektiverer PPI-Vorhersagemodelle für die Gemeinschaft zu leiten. Der Datensatz und der Quellcode von PRING sind unter https://github.com/SophieSarceau/PRING verfügbar.

SAMed-2: Selektives Gedächtnis erweitertes medizinisches Segmentierungsmodell für beliebige Objekte
SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

Jul 4

ByZhiling Yan, Sifan Song, Dingjie Song, Yiwei Li, Rong Zhou, Weixiang Sun, Zhennong Chen, Sekeun Kim, Hui Ren, Tianming Liu, Quanzheng Li, Xiang Li, Lifang He, Lichao Sun

Jüngste Bemühungen im Bereich "Segment Anything" zeigen vielversprechende Ergebnisse durch das Lernen aus groß angelegten Daten, doch die direkte Anpassung solcher Modelle auf medizinische Bilder bleibt aufgrund der Komplexität medizinischer Daten, verrauschter Annotationen und der Anforderungen an kontinuierliches Lernen über verschiedene Modalitäten und anatomische Strukturen hinweg eine Herausforderung. In dieser Arbeit schlagen wir SAMed-2 vor, ein neues Grundlagenmodell für die Segmentierung medizinischer Bilder, das auf der SAM-2-Architektur aufbaut. Insbesondere führen wir einen temporalen Adapter in den Bildencoder ein, um Bildkorrelationen zu erfassen, sowie einen konfidenzgesteuerten Speichermechanismus, um hochsichere Merkmale für die spätere Wiederverwendung zu speichern. Diese speicherbasierte Strategie bekämpft das weit verbreitete Rauschen in groß angelegten medizinischen Datensätzen und mildert katastrophales Vergessen bei der Begegnung mit neuen Aufgaben oder Modalitäten. Um SAMed-2 zu trainieren und zu evaluieren, haben wir MedBank-100k kuratiert, einen umfassenden Datensatz, der sieben Bildgebungsmodalitäten und 21 medizinische Segmentierungsaufgaben umfasst. Unsere Experimente sowohl auf internen Benchmarks als auch auf 10 externen Datensätzen zeigen eine überlegene Leistung gegenüber state-of-the-art Baselines in Multi-Task-Szenarien. Der Code ist verfügbar unter: https://github.com/ZhilingYan/Medical-SAM-Bench.

LOOM-Scope: Ein umfassendes und effizientes Evaluierungsframework für LOng-cOntext-Modelle
LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

Jul 7

ByZecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang

Die Verarbeitung langer Kontexte ist zu einer grundlegenden Fähigkeit für große Sprachmodelle (LLMs) geworden. Um die Leistung von Modellen im Umgang mit langen Kontexten zu bewerten, wurden zahlreiche Benchmark-Tests für die Langkontext-Evaluierung vorgeschlagen. Allerdings führen Unterschiede in den Evaluierungseinstellungen zwischen diesen Benchmarks zu inkonsistenten Ergebnissen, was zuverlässige Vergleiche erschwert. Zudem stellt der hohe Rechenaufwand für die Langkontext-Evaluierung eine erhebliche Hürde für die Community dar, umfassende Bewertungen von Langkontext-Modellen durchzuführen. In diesem Artikel präsentieren wir LOOM-Scope, ein umfassendes und effizientes Framework für die Langkontext-Evaluierung. LOOM-Scope standardisiert die Evaluierungseinstellungen über verschiedene Benchmarks hinweg, unterstützt die Implementierung effizienter Beschleunigungsmethoden für die Langkontext-Inferenz und führt eine ganzheitliche, dennoch leichtgewichtige Benchmark-Suite ein, um Modelle umfassend zu bewerten. Homepage: https://loomscope.github.io

any4: Gelernte 4-Bit-Zahldarstellung für LLMs
any4: Learned 4-bit Numeric Representation for LLMs

Jul 7

ByMostafa Elhoushi, Jeff Johnson

Wir stellen any4 vor, eine gelernte 4-Bit-Gewichtsquantisierungslösung für große Sprachmodelle (LLMs), die beliebige numerische Darstellungen ermöglicht, ohne eine Vorverarbeitung von Gewichten oder Aktivierungen zu erfordern. any4 erzielt im Vergleich zu anderen verwandten 4-Bit-numerischen Darstellungstypen – int4, fp4 und nf4 – eine höhere Genauigkeit, wie anhand einer Reihe von Modellgrößen, Generationen und Familien (Llama 2, Llama 3, Mistral und Mixtral) evaluiert wurde. Während any4 keine Vorverarbeitung von Gewichten oder Aktivierungen benötigt, ist es auch wettbewerbsfähig mit orthogonalen Techniken, die eine solche Vorverarbeitung erfordern (z. B. AWQ und GPTQ). Wir experimentieren auch mit any3 und any2 und zeigen Wettbewerbsfähigkeit bei niedrigeren Bitbreiten. Zusätzlich zeigen wir, dass wir die Kalibrierung mit einem einzigen, sorgfältig ausgewählten, diversen Beispiel durchführen können, anstatt Hunderte von Beispielen aus einem Datensatz zu verwenden, wie es bei den meisten Quantisierungsansätzen der Fall ist. Wir stellen auch tinygemm als Open Source zur Verfügung, eine latenzoptimierte GPU-Matrixmultiplikationsbibliothek für LLMs, die any4 mit einer GPU-effizienten Lookup-Table-Strategie sowie andere gängige Quantisierungsmethoden implementiert. Unser Code ist unter https://github.com/facebookresearch/any4 verfügbar.

Die Landschaft der Memorisierung in LLMs: Mechanismen, Messung und Minderung
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

Jul 8

ByAlexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in einer Vielzahl von Aufgaben gezeigt, doch sie weisen auch eine Tendenz zur Speicherung ihrer Trainingsdaten auf. Dieses Phänomen wirft kritische Fragen zum Modellverhalten, zu Datenschutzrisiken und zur Grenze zwischen Lernen und Auswendiglernen auf. In diesem Papier werden aktuelle Studien zusammengeführt und die Landschaft der Speicherung, die sie beeinflussenden Faktoren sowie Methoden zu ihrer Erkennung und Minderung untersucht. Wir beleuchten Schlüsseltreiber wie die Duplizierung von Trainingsdaten, Trainingsdynamiken und Feinabstimmungsverfahren, die die Datenspeicherung beeinflussen. Darüber hinaus untersuchen wir Methoden wie präfixbasierte Extraktion, Mitgliedschaftsinferenz und adversarielle Prompting, um deren Wirksamkeit bei der Erkennung und Messung gespeicherter Inhalte zu bewerten. Neben der technischen Analyse beleuchten wir auch die breiteren Implikationen der Speicherung, einschließlich der rechtlichen und ethischen Konsequenzen. Schließlich diskutieren wir Minderungsstrategien wie Datenbereinigung, differenzielle Privatsphäre und Post-Training-Unlearning und heben offene Herausforderungen bei der Balance zwischen der Minimierung schädlicher Speicherung und der Nutzbarkeit hervor. Dieses Papier bietet einen umfassenden Überblick über den aktuellen Stand der Forschung zur Speicherung in LLMs in technischer, datenschutzbezogener und leistungsbezogener Hinsicht und identifiziert kritische Richtungen für zukünftige Arbeiten.

Feed-Forward SceneDINO für unüberwachte semantische Szenenvervollständigung
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

Jul 8

ByAleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers

Semantische Szenenergänzung (SSC) zielt darauf ab, sowohl die 3D-Geometrie als auch die Semantik einer Szene aus einzelnen Bildern abzuleiten. Im Gegensatz zu früheren Arbeiten zur SSC, die stark auf teure Ground-Truth-Annotationen angewiesen sind, nähern wir uns der SSC in einem unüberwachten Setting. Unsere neue Methode, SceneDINO, adaptiert Techniken aus dem selbstüberwachten Repräsentationslernen und dem 2D-unüberwachten Szenenverständnis für die SSC. Unser Training nutzt ausschließlich Multi-View-Konsistenz-Selbstüberwachung ohne jegliche Form von semantischem oder geometrischem Ground Truth. Bei einem einzelnen Eingabebild leitet SceneDINO die 3D-Geometrie und expressive 3D-DINO-Features in einem Feed-Forward-Verfahren ab. Durch einen neuartigen Ansatz zur 3D-Feature-Destillation erhalten wir unüberwachte 3D-Semantik. Sowohl im 3D- als auch im 2D-unüberwachten Szenenverständnis erreicht SceneDINO state-of-the-art Segmentierungsgenauigkeit. Lineares Probing unserer 3D-Features erreicht die Segmentierungsgenauigkeit eines aktuellen überwachten SSC-Ansatzes. Zusätzlich demonstrieren wir die Domänengeneralisierung und Multi-View-Konsistenz von SceneDINO und machen damit die ersten Schritte hin zu einer soliden Grundlage für das 3D-Szenenverständnis aus einzelnen Bildern.

NeoBabel: Ein mehrsprachiger offener Turm für visuelle Generierung
NeoBabel: A Multilingual Open Tower for Visual Generation

Jul 8

ByMohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek

Fortschritte in der Text-zu-Bild-Generierung waren bisher überwiegend englischzentriert, was Barrieren für Nicht-Englischsprachige schafft und digitale Ungleichheiten verstärkt. Während bestehende Systeme auf Übersetzungspipelines angewiesen sind, führen diese zu semantischer Abweichung, zusätzlichem Rechenaufwand und kultureller Fehlausrichtung. Wir stellen NeoBabel vor, ein neuartiges mehrsprachiges Bildgenerierungsframework, das eine neue Pareto-Grenze in Bezug auf Leistung, Effizienz und Inklusivität setzt und sechs Sprachen unterstützt: Englisch, Chinesisch, Niederländisch, Französisch, Hindi und Persisch. Das Modell wird durch eine Kombination aus groß angelegtem mehrsprachigem Pretraining und hochauflösendem Instruction Tuning trainiert. Um seine Fähigkeiten zu bewerten, erweitern wir zwei englischsprachige Benchmarks auf mehrsprachige Äquivalente: m-GenEval und m-DPG. NeoBabel erreicht state-of-the-art Leistung in mehrsprachigen Anwendungen bei gleichzeitig starker englischer Kompetenz, mit Bewertungen von 0,75 auf m-GenEval und 0,68 auf m-DPG. Bemerkenswerterweise schneidet es bei englischsprachigen Aufgaben gleichauf mit führenden Modellen ab und übertrifft diese auf mehrsprachigen Benchmarks um +0,11 bzw. +0,09, obwohl diese Modelle auf mehrsprachigen Basis-LLMs aufbauen. Dies zeigt die Effektivität unseres gezielten Alignment-Trainings zur Bewahrung und Erweiterung der crosslingualen Generalisierung. Wir führen außerdem zwei neue Metriken ein, um mehrsprachige Ausrichtung und Robustheit gegenüber Code-Mixed-Prompts rigoros zu bewerten. NeoBabel erreicht oder übertrifft dabei englischsprachige Modelle, ist jedoch 2-4x kleiner. Wir veröffentlichen ein Open-Source-Toolkit, das den gesamten Code, Modell-Checkpoints, einen kuratierten Datensatz mit 124M mehrsprachigen Text-Bild-Paaren und standardisierte mehrsprachige Evaluierungsprotokolle umfasst, um die inklusive KI-Forschung voranzutreiben. Unsere Arbeit zeigt, dass mehrsprachige Fähigkeit kein Kompromiss, sondern ein Katalysator für verbesserte Robustheit, Effizienz und kulturelle Treue in der generativen KI ist.

Führt Datenskalierung zu visueller kompositioneller Generalisierung?
Does Data Scaling Lead to Visual Compositional Generalization?

Jul 9

ByArnas Uselis, Andrea Dittadi, Seong Joon Oh

Kompositionelles Verständnis ist entscheidend für die menschliche Intelligenz, doch es bleibt unklar, ob aktuelle Vision-Modelle dies aufweisen. Das vorherrschende Paradigma des maschinellen Lernens basiert auf der Annahme, dass die Skalierung von Daten und Modellgrößen die Out-of-Distribution-Leistung verbessert, einschließlich der kompositionellen Generalisierung. Wir testen diese Annahme durch kontrollierte Experimente, die systematisch die Datenmenge, die Konzeptvielfalt und die Kombinationsabdeckung variieren. Wir stellen fest, dass die kompositionelle Generalisierung durch Datenvielfalt und nicht allein durch die Datenmenge vorangetrieben wird. Eine erhöhte kombinatorische Abdeckung zwingt Modelle dazu, eine linear faktorisierte Repräsentationsstruktur zu entdecken, in der sich Konzepte in additive Komponenten zerlegen lassen. Wir beweisen, dass diese Struktur der Schlüssel zur Effizienz ist und eine perfekte Generalisierung aus wenigen beobachteten Kombinationen ermöglicht. Bei der Bewertung vortrainierter Modelle (DINO, CLIP) stellen wir eine überzufällige, aber unvollkommene Leistung fest, was auf eine teilweise Präsenz dieser Struktur hindeutet. Unsere Arbeit motiviert eine stärkere Betonung der Konstruktion vielfältiger Datensätze für die kompositionelle Generalisierung und die Berücksichtigung der Bedeutung von Repräsentationsstrukturen, die effizientes kompositionelles Lernen ermöglichen. Code verfügbar unter https://github.com/oshapio/visual-compositional-generalization.

AXLearn: Modulares Training großer Modelle auf heterogener Infrastruktur
AXLearn: Modular Large Model Training on Heterogeneous Infrastructure

Jul 7

ByMark Lee, Tom Gunter, Chang Lan, John Peebles, Hanzhi Zhou, Kelvin Zou, Sneha Bangalore, Chung-Cheng Chiu, Nan Du, Xianzhi Du, Philipp Dufter, Ruixuan Hou, Haoshuo Huang, Dongseong Hwang, Xiang Kong, Jinhao Lei, Tao Lei, Meng Li, Li Li, Jiarui Lu, Zhiyun Lu, Yiping Ma, David Qiu, Vivek Rathod, Senyu Tong, Zhucheng Tu, Jianyu Wang, Yongqiang Wang, Zirui Wang, Floris Weers, Sam Wiseman, Guoli Yin, Bowen Zhang, Xiyou Zhou, Danyang Zhuo, Cheng Leong, Ruoming Pang

Wir entwerfen und implementieren AXLearn, ein produktionsreifes Deep-Learning-System, das skalierbares und leistungsstarkes Training großer Deep-Learning-Modelle ermöglicht. Im Vergleich zu anderen modernsten Deep-Learning-Systemen zeichnet sich AXLearn durch einen besonderen Fokus auf Modularität und die Unterstützung heterogener Hardware-Infrastrukturen aus. Die internen Schnittstellen zwischen den Softwarekomponenten von AXLearn folgen einer strengen Kapselung, wodurch verschiedene Komponenten zusammengesetzt werden können, um eine schnelle Modellentwicklung und Experimentation auf heterogenen Recheninfrastrukturen zu ermöglichen. Wir führen eine neuartige Methode zur Quantifizierung von Modularität über die Komplexität der Codezeilen (Lines-of-Code, LoC) ein, die zeigt, wie unser System eine konstante Komplexität beibehält, während wir die Komponenten im System skalieren, im Gegensatz zu linearer oder quadratischer Komplexität in anderen Systemen. Dies ermöglicht die Integration von Funktionen wie Rotary Position Embeddings (RoPE) in AXLearn über Hunderte von Modulen mit nur 10 Codezeilen, verglichen mit Hunderten, die in anderen Systemen erforderlich sind. Gleichzeitig bietet AXLearn eine gleichwertige Leistung im Vergleich zu modernsten Trainingssystemen. Abschließend teilen wir unsere Erfahrungen in der Entwicklung und dem Betrieb von AXLearn.

FAROS: Faire Grapherzeugung durch Attributwechselmechanismen
FAROS: Fair Graph Generation via Attribute Switching Mechanisms

Jul 4

ByAbdennacer Badaoui, Oussama Kharouiche, Hatim Mrabet, Daniele Malitesta, Fragkiskos D. Malliaros

Jüngste Fortschritte in Graph-Diffusionsmodellen (GDMs) haben die Synthese realistischer Netzwerkstrukturen ermöglicht, doch die Gewährleistung von Fairness in den generierten Daten bleibt eine kritische Herausforderung. Bestehende Lösungen versuchen, Verzerrungen zu mildern, indem die GDMs mit ad-hoc Fairness-Beschränkungen neu trainiert werden. Im Gegensatz dazu schlagen wir mit dieser Arbeit FAROS vor, einen neuartigen FAir Graph GeneRatiOn Framework, der Attribut-Switching-Mechanismen nutzt und direkt im Generierungsprozess des vortrainierten GDM läuft. Technisch gesehen funktioniert unser Ansatz, indem die sensiblen Attribute von Knoten während der Generierung verändert werden. Zu diesem Zweck berechnet FAROS den optimalen Anteil der zu wechselnden Knoten und wählt den Diffusionsschritt aus, in dem der Wechsel durchgeführt wird, indem maßgeschneiderte Multikriterien-Beschränkungen festgelegt werden, um das Knoten-Topologie-Profil aus der ursprünglichen Verteilung (ein Proxy für Genauigkeit) zu bewahren, während gleichzeitig die Kantenunabhängigkeit von den sensiblen Attributen für den generierten Graphen (ein Proxy für Fairness) sichergestellt wird. Unsere Experimente mit Benchmark-Datensätzen für Link-Vorhersage zeigen, dass der vorgeschlagene Ansatz Fairness-Diskrepanzen effektiv reduziert, während er eine vergleichbare (oder sogar höhere) Genauigkeitsleistung zu anderen ähnlichen Baselines beibehält. Bemerkenswerterweise ist FAROS in der Lage, in einigen der getesteten Einstellungen unter dem Konzept der Pareto-Optimalität einen besseren Kompromiss zwischen Genauigkeit und Fairness zu erzielen als andere Konkurrenten, was die Wirksamkeit der auferlegten Multikriterien-Beschränkungen demonstriert.