HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

18 papers found

AgentFly: Feinabstimmung von LLM-Agenten ohne Feinabstimmung der LLMs
AgentFly: Fine-tuning LLM Agents without Fine-tuning LLMs

Aug 22

ByHuichi Zhou, Yihang Chen, Siyuan Guo, Xue Yan, Kin Hei Lee, Zihan Wang, Ka Yiu Lee, Guchun Zhang, Kun Shao, Linyi Yang, Jun Wang

151

In diesem Artikel stellen wir ein neuartiges Lernparadigma für adaptive Large Language Model (LLM)-Agenten vor, das die Notwendigkeit einer Feinabstimmung der zugrunde liegenden LLMs eliminiert. Bestehende Ansätze sind oft entweder starr, da sie auf statischen, manuell erstellten Reflexionsabläufen basieren, oder rechenintensiv, da sie Gradientenaktualisierungen der LLM-Modellparameter erfordern. Im Gegensatz dazu ermöglicht unsere Methode eine kostengünstige kontinuierliche Anpassung durch speicherbasiertes Online-Reinforcement-Learning. Wir formalisieren dies als einen speichergestützten Markov-Entscheidungsprozess (Memory-augmented Markov Decision Process, M-MDP), der mit einer neuronalen Fallauswahlpolitik ausgestattet ist, um Aktionsentscheidungen zu steuern. Vergangene Erfahrungen werden in einem episodischen Speicher gespeichert, der entweder differenzierbar oder nicht-parametrisch ist. Die Politik wird kontinuierlich basierend auf Umweltfeedback durch einen Speicherüberschreibungsmechanismus aktualisiert, während die Politikverbesserung durch effizientes Speicherlesen (Abruf) erreicht wird. Wir instanziieren unser Agentenmodell in der Deep-Research-Umgebung, nämlich AgentFly, das den ersten Platz in der GAIA-Validierung (87,88 % Pass@3) und 79,40 % im Testset erreicht. Es erzielt 66,6 % F1 und 80,4 % PM im DeepResearcher-Datensatz und übertrifft dabei die state-of-the-art Trainingsmethode, während der fallbasierte Speicher 4,7 % bis 9,6 % absolute Punkte bei Out-of-Distribution-Aufgaben hinzufügt. Unser Ansatz bietet einen skalierbaren und effizienten Weg zur Entwicklung von generalistischen LLM-Agenten, die in der Lage sind, kontinuierliches, Echtzeit-Lernen ohne Gradientenaktualisierungen zu ermöglichen, und fördert so das maschinelle Lernen in Richtung offener Fähigkeitserwerb und Deep-Research-Szenarien. Der Code ist verfügbar unter https://github.com/Agent-on-the-Fly/AgentFly.

Jenseits von Pass@1: Selbstspiel mit variabler Problemsynthese erhält RLVR aufrecht
Beyond Pass@1: Self-Play with Variational Problem Synthesis Sustains RLVR

Aug 19

ByXiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

118

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als ein zentrales Paradigma für das Post-Training von Large Language Models (LLMs), insbesondere für komplexe Denkaufgaben, etabliert. Allerdings hat sich gezeigt, dass das Standard-RLVR-Training die Pass@1-Leistung auf Kosten der Policy-Entropie verbessert, was zu einer reduzierten Generierungsvielfalt führt und die Pass@k-Leistung einschränkt, die typischerweise die Obergrenze der Denkfähigkeit von LLMs darstellt. In diesem Artikel analysieren wir systematisch die Generierungsvielfalt der Policy aus der Perspektive von Trainingsproblemen und stellen fest, dass die Erweiterung und Aktualisierung von Trainingsproblemen dazu beiträgt, den Entropieverlust während des Trainings zu mildern. Basierend auf diesen Beobachtungen schlagen wir eine Online-Selbstspielstrategie mit variabler Problemsynthese (SvS) für das RLVR-Training vor, die korrekte Lösungen der Policy verwendet, um variable Probleme zu synthetisieren, während sichergestellt wird, dass deren Referenzantworten mit den Originalen übereinstimmen. Diese selbstverbessernde Strategie erhält effektiv die Policy-Entropie während des Trainings und verbessert Pass@k im Vergleich zum Standard-RLVR erheblich, wodurch langfristige Verbesserungen erzielt werden und absolute Gewinne von 18,3 % und 22,8 % in der Pass@32-Leistung auf den wettbewerbsorientierten Benchmarks AIME24 und AIME25 erreicht werden. Experimente auf 12 Denkbenchmarks über verschiedene Modellgrößen von 3B bis 32B demonstrieren konsequent die Generalisierbarkeit und Robustheit von SvS.

AgentScope 1.0: Ein Entwicklerzentriertes Framework für die Erstellung Agentenbasierter Anwendungen
AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications

Aug 22

ByDawei Gao, Zitao Li, Yuexiang Xie, Weirui Kuang, Liuyi Yao, Bingchen Qian, Zhijian Ma, Yue Cui, Haohao Luo, Shen Li, Lu Yi, Yi Yu, Shiqi He, Zhiling Luo, Wenmeng Zhou, Zhicheng Zhang, Xuguang He, Ziqian Chen, Weikai Liao, Farruh Isakulovich Kushnazarov, Yaliang Li, Bolin Ding, Jingren Zhou

Angetrieben durch die rasanten Fortschritte bei Large Language Models (LLMs) sind Agenten nun in der Lage, ihr intrinsisches Wissen mit der dynamischen Nutzung von Werkzeugen zu kombinieren, was ihre Fähigkeit zur Bewältigung realer Aufgaben erheblich steigert. Im Einklang mit dieser Entwicklung führt AgentScope in einer neuen Version (1.0) wesentliche Verbesserungen ein, um flexibles und effizientes werkzeugbasiertes Agenten-Umwelt-Interaktionen für die Entwicklung agentenbasierter Anwendungen umfassend zu unterstützen. Konkret abstrahieren wir grundlegende Komponenten, die für agentenbasierte Anwendungen essenziell sind, und bieten einheitliche Schnittstellen sowie erweiterbare Module, die es Entwicklern ermöglichen, die neuesten Fortschritte, wie neue Modelle und MCPs, einfach zu nutzen. Darüber hinaus verankern wir das Verhalten von Agenten im ReAct-Paradigma und bieten eine fortschrittliche Agenten-Infrastruktur, die auf einem systematischen asynchronen Design basiert. Dies bereichert sowohl die Mensch-Agent- als auch die Agent-Agent-Interaktionsmuster und verbessert gleichzeitig die Ausführungseffizienz. Auf dieser Grundlage integrieren wir mehrere vordefinierte Agenten, die auf spezifische praktische Szenarien zugeschnitten sind. AgentScope umfasst auch eine robuste technische Unterstützung für eine entwicklerfreundliche Erfahrung. Wir bieten ein skalierbares Evaluationsmodul mit einer Visual Studio-Schnittstelle, das die Entwicklung von Anwendungen mit langen Agenten-Trajektorien besser handhabbar und einfacher nachvollziehbar macht. Zusätzlich bietet AgentScope eine Laufzeit-Sandbox, um die sichere Ausführung von Agenten zu gewährleisten und die schnelle Bereitstellung in Produktionsumgebungen zu erleichtern. Mit diesen Verbesserungen bietet AgentScope eine praktische Grundlage für den Aufbau skalierbarer, adaptiver und effektiver agentenbasierter Anwendungen.

ODYSSEY: Erkundung und Manipulation von Quadrupeden in offenen Welten für langfristige Aufgaben
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen

Die sprachgesteuerte, langfristige mobile Manipulation stellt seit langem eine große Herausforderung in den Bereichen der verkörperten semantischen Argumentation, der generalisierbaren Manipulation und der adaptiven Fortbewegung dar. Drei grundlegende Einschränkungen behindern den Fortschritt: Erstens, obwohl große Sprachmodelle die räumliche Argumentation und Aufgabenplanung durch semantische Prioritäten verbessert haben, bleiben bestehende Implementierungen auf Tischszenarien beschränkt und berücksichtigen nicht die eingeschränkte Wahrnehmung und die begrenzten Aktionsbereiche mobiler Plattformen. Zweitens zeigen aktuelle Manipulationsstrategien eine unzureichende Generalisierung, wenn sie mit den vielfältigen Objektkonfigurationen in offenen Umgebungen konfrontiert werden. Drittens bleibt die duale Anforderung, hohe Plattformmanövrierfähigkeit bei gleichzeitiger präziser Steuerung des Endeffektors in unstrukturierten Umgebungen aufrechtzuerhalten, obwohl sie für den praktischen Einsatz entscheidend ist, weitgehend unerforscht. In dieser Arbeit präsentieren wir ODYSSEY, ein einheitliches Framework für die mobile Manipulation mit agilen Quadruped-Robotern, die mit Manipulatoren ausgestattet sind. Dieses Framework integriert nahtlos die hochrangige Aufgabenplanung mit der niederrangigen Ganzkörpersteuerung. Um die Herausforderung der egozentrischen Wahrnehmung bei sprachgesteuerten Aufgaben zu bewältigen, führen wir einen hierarchischen Planer ein, der von einem Vision-Sprache-Modell angetrieben wird und die langfristige Instruktionszerlegung und präzise Aktionsausführung ermöglicht. Auf der Steuerungsebene erreicht unsere neuartige Ganzkörperpolitik eine robuste Koordination über anspruchsvolle Gelände hinweg. Darüber hinaus präsentieren wir den ersten Benchmark für langfristige mobile Manipulation, der verschiedene Innen- und Außenszenarien bewertet. Durch erfolgreichen Sim-to-Real-Transfer demonstrieren wir die Generalisierung und Robustheit des Systems in realen Einsätzen und unterstreichen die Praktikabilität von Beinmanipulatoren in unstrukturierten Umgebungen. Unsere Arbeit fördert die Machbarkeit von generalisierten Roboterassistenten, die komplexe, dynamische Aufgaben bewältigen können. Unsere Projektseite: https://kaijwang.github.io/odyssey.github.io/

EgoTwin: Träumender Körper und Blick in der ersten Person
EgoTwin: Dreaming Body and View in First Person

Aug 18

ByJingqiao Xiu, Fangzhou Hong, Yicong Li, Mengze Li, Wentao Wang, Sirui Han, Liang Pan, Ziwei Liu

Während die exozentrische Videosynthese große Fortschritte erzielt hat, bleibt die egozentrische Videogenerierung weitgehend unerforscht, was die Modellierung von Inhalten aus der Ego-Perspektive sowie von Kamerabewegungsmustern, die durch die Körperbewegungen des Trägers induziert werden, erfordert. Um diese Lücke zu schließen, führen wir eine neuartige Aufgabe der gemeinsamen Generierung von egozentrischen Videos und menschlichen Bewegungen ein, die durch zwei zentrale Herausforderungen gekennzeichnet ist: 1) Blickwinkelausrichtung: Die Kameratrajektorie im generierten Video muss präzise mit der aus der menschlichen Bewegung abgeleiteten Kopftrajektorie übereinstimmen; 2) Kausale Wechselwirkung: Die synthetisierte menschliche Bewegung muss kausal mit den beobachteten visuellen Dynamiken über benachbarte Videobilder hinweg abgestimmt sein. Um diese Herausforderungen zu bewältigen, schlagen wir EgoTwin vor, ein gemeinsames Video-Bewegungs-Generierungsframework, das auf der Diffusion-Transformer-Architektur basiert. Insbesondere führt EgoTwin eine kopforientierte Bewegungsdarstellung ein, die die menschliche Bewegung am Kopf-Gelenk verankert, und integriert einen kybernetisch inspirierten Interaktionsmechanismus, der die kausale Wechselwirkung zwischen Video und Bewegung explizit innerhalb von Aufmerksamkeitsoperationen erfasst. Für eine umfassende Bewertung kuratieren wir einen groß angelegten realen Datensatz von synchronisierten Text-Video-Bewegungs-Tripeln und entwerfen neuartige Metriken, um die Konsistenz zwischen Video und Bewegung zu bewerten. Umfangreiche Experimente demonstrieren die Wirksamkeit des EgoTwin-Frameworks.

CRISP: Persistentes Konzeptverlernen durch Sparse Autoencoder
CRISP: Persistent Concept Unlearning via Sparse Autoencoders

Aug 19

ByTomer Ashuach, Dana Arad, Aaron Mueller, Martin Tutek, Yonatan Belinkov

Da große Sprachmodelle (LLMs) zunehmend in realen Anwendungen eingesetzt werden, ist die Notwendigkeit, unerwünschtes Wissen selektiv zu entfernen, während die Nützlichkeit des Modells erhalten bleibt, von entscheidender Bedeutung. Aktuelle Arbeiten haben spärliche Autoencoder (SAEs) untersucht, um präzise Eingriffe in monosemantische Merkmale durchzuführen. Die meisten SAE-basierten Methoden operieren jedoch zur Inferenzzeit, was keine dauerhaften Änderungen an den Parametern des Modells bewirkt. Solche Eingriffe können von böswilligen Akteuren mit Parameterzugang umgangen oder rückgängig gemacht werden. Wir stellen CRISP vor, eine parameter-effiziente Methode für dauerhaftes Konzeptverlernen unter Verwendung von SAEs. CRISP identifiziert automatisch relevante SAE-Merkmale über mehrere Schichten hinweg und unterdrückt deren Aktivierungen. Wir experimentieren mit zwei LLMs und zeigen, dass unsere Methode frühere Ansätze bei sicherheitskritischen Verlernaufgaben aus dem WMDP-Benchmark übertrifft, indem sie schädliches Wissen erfolgreich entfernt, während allgemeine und domänenspezifische Fähigkeiten erhalten bleiben. Eine Merkmalsebenenanalyse zeigt, dass CRISP eine semantisch kohärente Trennung zwischen Ziel- und harmlosen Konzepten erreicht, was eine präzise Unterdrückung der Zielmerkmale ermöglicht.

AetherCode: Bewertung der Fähigkeit von LLMs, in erstklassigen Programmierwettbewerben zu gewinnen
AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions

Aug 22

ByZihan Wang, Jiaze Chen, Zhicheng Liu, Markus Mak, Yidi Du, Geonsik Moon, Luoqi Xu, Aaron Tua, Kunshuo Peng, Jiayi Lu, Mingfei Xia, Boqian Zou, Chenyang Ran, Guang Tian, Shoutai Zhu, Yeheng Duan, Zhenghui Kang, Zhenxing Lin, Shangshu Li, Qiang Luo, Qingshen Long, Zhiyong Chen, Yihan Xiao, Yurong Wu, Daoguang Zan, Yuyi Fu, Mingxuan Wang, Ming Ding

Competitive Programming hat sich als entscheidender Maßstab für die Bewertung der Denk- und Programmierfähigkeiten von Large Language Models (LLMs) etabliert. Trotz beeindruckender Fortschritte bei bestehenden Benchmarks argumentieren wir, dass aktuelle Bewertungen die Modellkompetenz überbewerten und eine erhebliche Lücke zwischen LLMs und Spitzenprogrammierern verdecken. Diese Lücke ergibt sich aus zwei zentralen Einschränkungen: unzureichender Schwierigkeitsgrad und Umfang der Benchmark-Probleme sowie einer Bewertungsverzerrung durch qualitativ minderwertige Testfälle. Um diese Mängel zu beheben, stellen wir AetherCode vor, einen neuen Benchmark, der Probleme aus renommierten Programmierwettbewerben wie der IOI und dem ICPC heranzieht und damit eine breitere Abdeckung und höhere Schwierigkeit bietet. AetherCode integriert zudem umfassende, von Experten validierte Testsuites, die durch eine Kombination aus automatischer Generierung und menschlicher Kuratierung erstellt wurden, um eine strenge und zuverlässige Bewertung zu gewährleisten. Durch die Verbindung anspruchsvoller Problemgestaltung mit robuster Evaluation bietet AetherCode eine treffendere Messung der Fähigkeiten von LLMs und setzt einen neuen Standard für zukünftige Forschung im Bereich des Code-Verständnisses.

End-to-End-Training eines agentenbasierten RAG-Systems für nachvollziehbares diagnostisches Denken
End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

Aug 21

ByQiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

Eine präzise Diagnose mit medizinischen Large Language Models wird durch Wissenslücken und Halluzinationen erschwert. Retrieval- und Tool-unterstützte Methoden helfen, doch ihre Wirkung wird durch die schwache Nutzung externen Wissens und eine mangelnde Rückverfolgbarkeit von Feedback und Schlussfolgerungen begrenzt. Um diese Herausforderungen zu bewältigen, führen wir Deep-DxSearch ein, ein agentenbasiertes RAG-System, das end-to-end mit Reinforcement Learning (RL) trainiert wird und eine steuerbare, nachvollziehbare Retrieval-unterstützte Schlussfolgerung für medizinische Diagnosen ermöglicht. In Deep-DxSearch konstruieren wir zunächst ein großes medizinisches Retrieval-Korpus, das Patientenakten und zuverlässige medizinische Wissensquellen umfasst, um retrieval-bewusstes Denken über verschiedene Diagnoseszenarien hinweg zu unterstützen. Entscheidend ist, dass wir das LLM als zentralen Agenten und das Retrieval-Korpus als dessen Umgebung betrachten, indem wir maßgeschneiderte Belohnungen für Format, Retrieval, Schlussfolgerungsstruktur und Diagnosegenauigkeit verwenden, wodurch die agentenbasierte RAG-Politik durch RL aus großen Datenmengen weiterentwickelt wird. Experimente zeigen, dass unser end-to-end agentenbasiertes RL-Trainingsframework durchweg Prompt-Engineering und trainingsfreie RAG-Ansätze über mehrere Rechenzentren hinweg übertrifft. Nach dem Training erzielt Deep-DxSearch erhebliche Verbesserungen in der Diagnosegenauigkeit und übertrifft starke Diagnose-Benchmarks wie GPT-4o, DeepSeek-R1 und andere medizinspezifische Frameworks sowohl bei der Diagnose häufiger als auch seltener Krankheiten unter In-Distribution- und Out-of-Distribution-Bedingungen. Darüber hinaus bestätigen Ablationsstudien zum Belohnungsdesign und zu den Komponenten des Retrieval-Korpus deren entscheidende Rolle und unterstreichen die Einzigartigkeit und Effektivität unseres Ansatzes im Vergleich zu traditionellen Implementierungen. Schließlich zeigen Fallstudien und Interpretierbarkeitsanalysen Verbesserungen in der Diagnosepolitik von Deep-DxSearch auf, bieten tiefere Einblicke in die Leistungssteigerungen und unterstützen Kliniker bei der Erstellung zuverlässigerer und präziserer vorläufiger Diagnosen. Siehe https://github.com/MAGIC-AI4Med/Deep-DxSearch.

Selektives kontrastives Lernen für schwach überwachtes Affordance-Grounding
Selective Contrastive Learning for Weakly Supervised Affordance Grounding

Aug 11

ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo

Die Erleichterung der Interaktion einer Entität mit Objekten erfordert die präzise Identifizierung von Teilen, die spezifische Aktionen ermöglichen. Schwach überwachtes Affordance-Grounding (WSAG) versucht, das menschliche Lernen aus Demonstrationen aus der dritten Person nachzuahmen, bei denen Menschen funktionale Teile intuitiv erfassen, ohne pixelgenaue Annotationen zu benötigen. Um dies zu erreichen, wird das Grounding typischerweise mithilfe eines gemeinsamen Klassifikators über Bilder aus verschiedenen Perspektiven gelernt, zusammen mit Destillationsstrategien, die den Prozess der Teileentdeckung einbeziehen. Da jedoch affordanzrelevante Teile nicht immer leicht unterscheidbar sind, verlassen sich Modelle hauptsächlich auf Klassifikation, wobei sie oft auf klassenspezifische Muster fokussieren, die nicht mit der Affordance zusammenhängen. Um diese Einschränkung zu überwinden, gehen wir über isoliertes Teile-Lernen hinaus, indem wir selektive prototypische und pixelkontrastive Ziele einführen, die adaptiv affordanzrelevante Hinweise sowohl auf Teil- als auch auf Objektebene lernen, abhängig von der Granularität der verfügbaren Informationen. Zunächst identifizieren wir die aktionsassoziierten Objekte in sowohl egozentrischen (objektfokussierten) als auch exozentrischen (Beispielen aus der dritten Person) Bildern durch die Nutzung von CLIP. Durch den Abgleich der entdeckten Objekte komplementärer Ansichten erschließen wir dann die präzisen affordanzrelevanten Hinweise auf Teilebene in jeder Perspektive. Durch konsequentes Lernen, affordanzrelevante Regionen vom affordanzirrelevanten Hintergrundkontext zu unterscheiden, verlagert unser Ansatz effektiv die Aktivierung von irrelevanten Bereichen hin zu bedeutungsvollen Affordance-Hinweisen. Experimentelle Ergebnisse demonstrieren die Wirksamkeit unserer Methode. Die Codes sind verfügbar unter github.com/hynnsk/SelectiveCL.

Was tun? Vision-Sprache-Handlungs-Modelle lehren, das Unmögliche abzulehnen
Do What? Teaching Vision-Language-Action Models to Reject the Impossible

Aug 22

ByWen-Han Hsieh, Elvis Hsieh, Dantong Niu, Trevor Darrell, Roei Herzig, David M. Chan

Kürzlich haben Vision-Language-Action (VLA)-Modelle eine starke Leistung bei einer Reihe von robotischen Aufgaben gezeigt. Diese Modelle stützen sich auf multimodale Eingaben, wobei Sprachanweisungen eine entscheidende Rolle spielen – nicht nur bei der Vorhersage von Aktionen, sondern auch bei der robusten Interpretation der Benutzerabsicht, selbst wenn die Anfragen nicht erfüllbar sind. In dieser Arbeit untersuchen wir, wie VLAs falsche Prämissenanweisungen erkennen, interpretieren und darauf reagieren können: natürliche Sprachbefehle, die sich auf Objekte oder Bedingungen beziehen, die in der Umgebung nicht vorhanden sind. Wir schlagen Instruct-Verify-and-Act (IVA) vor, ein einheitliches Framework, das (i) erkennt, wann eine Anweisung aufgrund einer falschen Prämisse nicht ausgeführt werden kann, (ii) eine sprachbasierte Klärung oder Korrektur einleitet und (iii) plausible Alternativen in Wahrnehmung und Handlung verankert. Zu diesem Zweck erstellen wir ein groß angelegtes Instruction-Tuning-Setup mit strukturierten Sprachprompts und trainieren ein VLA-Modell, das sowohl präzise als auch fehlerhafte Anfragen verarbeiten kann. Unser Ansatz nutzt einen kontextuell angereicherten, halbsynthetischen Datensatz, der gepaarte positive und falsche Prämissenanweisungen enthält, was eine robuste Erkennung und natürliche Sprachkorrektur ermöglicht. Unsere Experimente zeigen, dass IVA die Genauigkeit der Erkennung falscher Prämissen um 97,56 % gegenüber den Baselines verbessert und gleichzeitig die erfolgreichen Antworten in Szenarien mit falschen Prämissen um 50,78 % erhöht.

TPLA: Tensor-Parallele Latente Aufmerksamkeit für effiziente disaggregierte Prefill- und Decode-Inferenz
TPLA: Tensor Parallel Latent Attention for Efficient Disaggregated Prefill \& Decode Inference

Aug 21

ByXiaojuan Tang, Fanxu Meng, Pingzhi Tang, Yuxuan Wang, Di Yin, Xing Sun, Muhan Zhang

Multi-Head Latent Attention (MLA), eingeführt in DeepSeek-V2, komprimiert Key-Value-Zustände in einen niedrigrangigen latenten Vektor und speichert nur diesen Vektor, um den Speicherbedarf zu reduzieren. Bei Tensor-Parallelität (TP) jedoch werden die Aufmerksamkeitsköpfe über mehrere Geräte hinweg berechnet, und jedes Gerät muss den gesamten Cache laden, wodurch der Vorteil von MLA gegenüber Grouped Query Attention (GQA) geschmälert wird. Wir schlagen Tensor-Parallel Latent Attention (TPLA) vor: ein Schema, das sowohl die latente Repräsentation als auch die Eingabedimension jedes Kopfes über die Geräte partitioniert, die Aufmerksamkeit unabhängig pro Shard berechnet und dann die Ergebnisse mit einem All-Reduce kombiniert. TPLA bewahrt die Vorteile eines komprimierten KV-Caches, während es die Effizienz von TP freisetzt. Im Gegensatz zu Grouped Latent Attention (GLA) nutzt jeder Kopf in TPLA weiterhin die vollständige latente Repräsentation, wodurch eine stärkere Repräsentationskapazität erhalten bleibt. TPLA ist abwärtskompatibel mit Modellen, die mit MLA vortrainiert wurden: Es unterstützt MLA-ähnliches Prefilling und ermöglicht effizientes tensorparalleles Decodieren ohne Neutraining. Die Anwendung einfacher orthogonaler Transformationen – z.B. der Hadamard-Transformation oder PCA – vor dem TP-Slicing mildert weiterhin die Interferenz zwischen den Shards, was zu minimaler Genauigkeitseinbuße führt. Durch die Reduzierung des KV-Caches pro Gerät für DeepSeek-V3 und Kimi-K2 erreichen wir jeweils eine Beschleunigung um den Faktor 1,79x und 1,93x bei einer Kontextlänge von 32K Tokens, während die Leistung auf Commonsense- und LongBench-Benchmarks erhalten bleibt. TPLA kann mit FlashAttention-3 implementiert werden, was eine praktische end-to-end-Beschleunigung ermöglicht.

Distilled-3DGS: Destilliertes 3D-Gaußsches Splatting
Distilled-3DGS:Distilled 3D Gaussian Splatting

Aug 19

ByLintao Xiang, Xinkai Chen, Jianhuang Lai, Guangcong Wang

3D Gaussian Splatting (3DGS) hat bemerkenswerte Effizienz bei der Synthese neuer Ansichten (Novel View Synthesis, NVS) gezeigt. Allerdings weist es einen erheblichen Nachteil auf: Um hochwertiges Rendering zu erreichen, ist in der Regel eine große Anzahl von 3D-Gauß-Verteilungen erforderlich, was zu einem erheblichen Speicherverbrauch und hohen Speicheranforderungen führt. Um diese Herausforderung zu bewältigen, schlagen wir das erste Wissensdistillations-Framework für 3DGS vor, das verschiedene Lehrermodelle umfasst, darunter das Standard-3DGS, rauschaugmentierte Varianten und dropout-regularisierte Versionen. Die Ausgaben dieser Lehrermodelle werden aggregiert, um die Optimierung eines schlanken Schülermodells zu steuern. Um die verborgenen geometrischen Strukturen zu destillieren, schlagen wir einen strukturellen Ähnlichkeitsverlust vor, um die Konsistenz der räumlichen geometrischen Verteilungen zwischen dem Schüler- und dem Lehrermodell zu verbessern. Durch umfassende quantitative und qualitative Bewertungen über verschiedene Datensätze hinweg erzielt das vorgeschlagene Distilled-3DGS, ein einfaches, aber effektives Framework ohne unnötige Komplexität, vielversprechende Rendering-Ergebnisse sowohl in Bezug auf die Rendering-Qualität als auch auf die Speichereffizienz im Vergleich zu modernsten Methoden. Projektseite: https://distilled3dgs.github.io . Code: https://github.com/lt-xiang/Distilled-3DGS .

Sketch3DVE: Skizzenbasierte 3D-bewusste Szenenvideobearbeitung
Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

Aug 19

ByFeng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao

Aktuelle Methoden der Videobearbeitung erzielen ansprechende Ergebnisse bei der Stilübertragung oder der Modifikation des Erscheinungsbilds. Die Bearbeitung der strukturellen Inhalte von 3D-Szenen in Videos bleibt jedoch eine Herausforderung, insbesondere bei signifikanten Blickwinkeländerungen wie großen Kameradrehungen oder Zooms. Zu den zentralen Herausforderungen gehören die Erzeugung von neuem Ansichtscontent, der mit dem Originalvideo konsistent bleibt, die Bewahrung unveränderter Bereiche sowie die Übersetzung spärlicher 2D-Eingaben in realistische 3D-Videoausgaben. Um diese Probleme zu lösen, schlagen wir Sketch3DVE vor, eine skizzengestützte, 3D-bewusste Videobearbeitungsmethode, die eine detaillierte lokale Manipulation von Videos mit erheblichen Blickwinkeländerungen ermöglicht. Um die Herausforderung durch spärliche Eingaben zu bewältigen, verwenden wir Bildbearbeitungsmethoden, um bearbeitete Ergebnisse für den ersten Frame zu generieren, die dann auf die verbleibenden Frames des Videos übertragen werden. Wir nutzen Skizzen als Interaktionstool für eine präzise geometrische Steuerung, während auch andere maskenbasierte Bildbearbeitungsmethoden unterstützt werden. Um Blickwinkeländerungen zu handhaben, führen wir eine detaillierte Analyse und Manipulation der 3D-Informationen im Video durch. Insbesondere verwenden wir eine dichte Stereo-Methode, um eine Punktwolke und die Kameraparameter des Eingabevideos zu schätzen. Anschließend schlagen wir einen Punktwolkenbearbeitungsansatz vor, der Tiefenkarten verwendet, um die 3D-Geometrie neu bearbeiteter Komponenten darzustellen und sie effektiv mit der ursprünglichen 3D-Szene auszurichten. Um den neu bearbeiteten Content nahtlos mit dem Originalvideo zu verschmelzen und gleichzeitig die Merkmale unveränderter Bereiche zu bewahren, führen wir eine 3D-bewusste Maskenpropagationsstrategie ein und verwenden ein Video-Diffusionsmodell, um realistische bearbeitete Videos zu erzeugen. Umfangreiche Experimente demonstrieren die Überlegenheit von Sketch3DVE in der Videobearbeitung. Homepage und Code: http://geometrylearning.com/Sketch3DVE/.

InMind: Bewertung von LLMs bei der Erfassung und Anwendung individueller menschlicher Denkstile
InMind: Evaluating LLMs in Capturing and Applying Individual Human Reasoning Styles

Aug 22

ByZizhen Li, Chuanhao Li, Yibin Wang, Qi Chen, Diping Song, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Kaipeng Zhang

LLMs haben eine starke Leistung bei menschenzentrierten Denkaufgaben gezeigt. Während frühere Bewertungen untersucht haben, ob LLMs Absichten ableiten oder Täuschung erkennen können, übersehen sie oft die individuellen Denkstile, die beeinflussen, wie Menschen soziale Kontexte interpretieren und handeln. Sozialdeduktionsspiele (SDGs) bieten ein natürliches Testumfeld für die Bewertung individueller Denkstile, bei dem verschiedene Spieler unter identischen Bedingungen unterschiedliche, aber kontextuell gültige Denkstrategien anwenden können. Um dies zu adressieren, führen wir InMind ein, einen kognitiv fundierten Bewertungsrahmen, der darauf abzielt, zu beurteilen, ob LLMs personalisierte Denkstile in SDGs erfassen und anwenden können. InMind erweitert strukturierte Spieledaten mit rundenbasierten Strategieverläufen und Nachspielreflexionen, die sowohl im Beobachter- als auch im Teilnehmermodus gesammelt werden. Es unterstützt vier kognitiv motivierte Aufgaben, die sowohl statische Ausrichtung als auch dynamische Anpassung gemeinsam bewerten. Als Fallstudie wenden wir InMind auf das Spiel Avalon an und bewerten 11 state-of-the-art LLMs. Allgemeine LLMs, selbst GPT-4o, verlassen sich häufig auf lexikalische Hinweise und haben Schwierigkeiten, Reflexionen im zeitlichen Spielverlauf zu verankern oder sich an sich entwickelnde Strategien anzupassen. Im Gegensatz dazu zeigen reasoning-verstärkte LLMs wie DeepSeek-R1 frühe Anzeichen von stil-sensiblem Denken. Diese Ergebnisse offenbaren wesentliche Einschränkungen in der Fähigkeit aktueller LLMs zu individuellem, adaptivem Denken und positionieren InMind als einen Schritt hin zu kognitiv ausgerichteter Mensch-KI-Interaktion.

Learnable SMPLify: Eine neuronale Lösung für optimierungsfreie inverse Kinematik der menschlichen Pose
Learnable SMPLify: A Neural Solution for Optimization-Free Human Pose Inverse Kinematics

Aug 19

ByYuchen Yang, Linfeng Dong, Wei Wang, Zhihang Zhong, Xiao Sun

In der 3D-Schätzung von menschlicher Pose und Form bleibt SMPLify eine robuste Baseline, die inverse Kinematik (IK) durch iterative Optimierung löst. Allerdings begrenzen die hohen Rechenkosten seine Praktikabilität. Jüngste Fortschritte in verschiedenen Domänen haben gezeigt, dass der Ersatz iterativer Optimierung durch datengetriebene neuronale Netzwerke erhebliche Laufzeitverbesserungen ohne Genauigkeitsverluste erreichen kann. Motiviert durch diesen Trend schlagen wir Learnable SMPLify vor, ein neuronales Framework, das den iterativen Anpassungsprozess in SMPLify durch ein Einzel-Durchlauf-Regressionsmodell ersetzt. Das Design unseres Frameworks zielt auf zwei Kernherausforderungen in der neuronalen IK ab: Datenkonstruktion und Generalisierung. Um effektives Training zu ermöglichen, schlagen wir eine zeitliche Sampling-Strategie vor, die Initialisierungs-Ziel-Paare aus sequenziellen Frames konstruiert. Um die Generalisierung über diverse Bewegungen und ungesehene Posen zu verbessern, schlagen wir ein humanzentriertes Normalisierungsschema und Restlernen vor, um den Lösungsraum einzugrenzen. Learnable SMPLify unterstützt sowohl sequenzielle Inferenz als auch Plug-in-Nachverarbeitung, um bestehende bildbasierte Schätzer zu verfeinern. Umfangreiche Experimente zeigen, dass unsere Methode sich als praktische und einfache Baseline etabliert: Sie erreicht eine fast 200-fach schnellere Laufzeit im Vergleich zu SMPLify, generalisiert gut auf ungesehene 3DPW- und RICH-Datensätze und arbeitet in einer modellagnostischen Weise, wenn sie als Plug-in-Tool auf LucidAction verwendet wird. Der Code ist verfügbar unter https://github.com/Charrrrrlie/Learnable-SMPLify.

CARFT: Verbesserung des LLM-Reasonings durch kontrastives Lernen mit annotiertem Chain-of-Thought-basiertem verstärktem Fein-Tuning
CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning

Aug 21

ByWenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu, Yulun Zhang

Die Fähigkeit zum logischen Denken spielt eine äußerst entscheidende Rolle in den vielfältigen Anwendungen von Large Language Models (LLMs). Um die Denkleistung von LLMs zu verbessern, wurden verschiedene auf Reinforcement Learning (RL) basierende Feinabstimmungsansätze vorgeschlagen, um die begrenzte Generalisierungsfähigkeit von LLMs, die ausschließlich durch Supervised Fine-Tuning (SFT) trainiert wurden, zu adressieren. Trotz ihrer Wirksamkeit behindern zwei Hauptprobleme den Fortschritt von LLMs. Erstens ignorieren herkömmliche RL-basierte Ansätze annotierte Chain-of-Thought (CoT) und integrieren eine instabile Pfadabtastung, was typischerweise zu Modellzusammenbrüchen, instabilen Trainingsprozessen und suboptimaler Leistung führt. Zweitens betonen bestehende SFT-Ansätze die annotierte CoT in der Regel übermäßig, was möglicherweise zu Leistungseinbußen aufgrund einer unzureichenden Nutzung der potenziellen CoT führt. In diesem Artikel schlagen wir einen Ansatz zur verstärkten Feinabstimmung basierend auf kontrastivem Lernen mit annotierter CoT vor, d.h. , um die Denkleistung von LLMs zu verbessern und gleichzeitig die genannten Einschränkungen zu überwinden. Konkret schlagen wir vor, eine Repräsentation für jede CoT zu erlernen. Basierend auf dieser Repräsentation entwerfen wir neuartige kontrastive Signale, um den Feinabstimmungsprozess zu steuern. Unser Ansatz nutzt nicht nur die verfügbare annotierte CoT vollständig aus, sondern stabilisiert auch den Feinabstimmungsprozess durch die Einbindung eines zusätzlichen unüberwachten Lernsignals. Wir führen umfassende Experimente und detaillierte Analysen mit drei Baseline-Ansätzen, zwei Grundmodellen und zwei Datensätzen durch, um die signifikanten Vorteile von in Bezug auf Robustheit, Leistung (bis zu 10,15\%) und Effizienz (bis zu 30,62\%) zu demonstrieren. Der Code ist verfügbar unter https://github.com/WNQzhu/CARFT.

RotaTouille: Rotationsäquivariantes Deep Learning für Konturen
RotaTouille: Rotation Equivariant Deep Learning for Contours

Aug 22

ByOdin Hoff Gardaa, Nello Blaser

Konturen oder geschlossene planare Kurven sind in vielen Bereichen verbreitet. Zum Beispiel treten sie als Objektgrenzen in der Computer Vision, als Isolinien in der Meteorologie und als Bahnen rotierender Maschinen auf. In vielen Fällen, in denen aus Konturdaten gelernt wird, führen planare Rotationen der Eingabe zu entsprechend rotierten Ausgaben. Es ist daher wünschenswert, dass Deep-Learning-Modelle rotationsäquivariant sind. Darüber hinaus werden Konturen typischerweise als eine geordnete Sequenz von Randpunkten dargestellt, wobei die Wahl des Startpunkts willkürlich ist. Es ist daher auch wünschenswert, dass Deep-Learning-Methoden unter zyklischen Verschiebungen äquivariant sind. Wir präsentieren RotaTouille, ein Deep-Learning-Framework für das Lernen aus Konturdaten, das sowohl Rotations- als auch zyklische Verschiebungsäquivarianz durch komplexwertige zirkulare Faltung erreicht. Weiterhin führen wir äquivariante Nichtlinearitäten, Vergröberungsschichten und globale Pooling-Schichten ein und charakterisieren diese, um invariante Darstellungen für nachgelagerte Aufgaben zu erhalten. Schließlich demonstrieren wir die Wirksamkeit von RotaTouille durch Experimente in der Formklassifikation, Rekonstruktion und Konturregression.

Jailbreaking kommerzieller Black-Box-LLMs mit explizit schädlichen Prompts
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

Aug 14

ByChiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu

Die Bewertung von Jailbreak-Angriffen ist schwierig, wenn Prompts nicht offensichtlich schädlich sind oder keine schädlichen Ausgaben hervorrufen. Leider enthalten viele bestehende Red-Teaming-Datensätze derart ungeeignete Prompts. Um Angriffe genau bewerten zu können, müssen diese Datensätze auf Schädlichkeit überprüft und bereinigt werden. Bisherige Methoden zur Erkennung von schädlichem Inhalt stützen sich entweder auf manuelle Annotation, die arbeitsintensiv ist, oder auf große Sprachmodelle (LLMs), deren Genauigkeit bei schädlichen Inhalten inkonsistent ist. Um Genauigkeit und Effizienz in Einklang zu bringen, schlagen wir ein hybrides Bewertungsframework namens MDH (Malicious Content Detection based on LLMs with Human Assistance) vor, das LLM-basierte Annotation mit minimaler menschlicher Überwachung kombiniert, und wenden es auf die Bereinigung von Datensätzen und die Erkennung von Jailbreak-Antworten an. Darüber hinaus stellen wir fest, dass gut formulierte Entwicklernachrichten den Erfolg von Jailbreaks erheblich steigern können, was uns dazu veranlasst, zwei neue Strategien vorzuschlagen: D-Attack, das Kontextsimulation nutzt, und DH-CoT, das entführte Gedankenketten einbezieht. Die Codes, Datensätze, Bewertungen und Erkennungsergebnisse werden im GitHub-Repository veröffentlicht: https://github.com/AlienZhang1996/DH-CoT.

ODYSSEY: Erkundung und Manipulation von Quadrupeden in offenen Welten für langfristige Aufgaben
ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks

Aug 11

ByKaijun Wang, Liqin Lu, Mingyu Liu, Jianuo Jiang, Zeju Li, Bolin Zhang, Wancai Zheng, Xinyi Yu, Hao Chen, Chunhua Shen