HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

43 papers found

Chain-of-Model-Lernen für Sprachmodelle
Chain-of-Model Learning for Language Model

May 17

ByKaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu

121

In diesem Artikel schlagen wir ein neuartiges Lernparadigma vor, das als Chain-of-Model (CoM) bezeichnet wird. Dieses Paradigma integriert die kausale Beziehung in die verborgenen Zustände jeder Schicht in Form einer Kette, wodurch eine erhebliche Skalierungseffizienz im Modelltraining und Flexibilität bei der Inferenz im Einsatz erreicht wird. Wir führen das Konzept der Chain-of-Representation (CoR) ein, das die verborgenen Zustände jeder Schicht als eine Kombination mehrerer Unterrepräsentationen (d.h. Ketten) auf der Ebene der verborgenen Dimensionen formuliert. In jeder Schicht kann jede Kette aus den Ausgaberepräsentationen nur alle vorhergehenden Ketten in den Eingaberepräsentationen einsehen. Folglich kann das auf dem CoM-Framework basierende Modell die Modellgröße progressiv skalieren, indem die Ketten basierend auf den vorherigen Modellen (d.h. Ketten) erhöht werden, und bietet mehrere Submodelle in verschiedenen Größen für eine elastische Inferenz durch die Verwendung unterschiedlicher Kettenzahlen. Basierend auf diesem Prinzip entwickeln wir Chain-of-Language-Model (CoLM), das die Idee von CoM in jede Schicht der Transformer-Architektur integriert. Aufbauend auf CoLM führen wir weiterhin CoLM-Air ein, indem wir einen KV-Sharing-Mechanismus einführen, der alle Schlüssel und Werte innerhalb der ersten Kette berechnet und dann über alle Ketten hinweg teilt. Dieses Design zeigt zusätzliche Erweiterbarkeit, wie z.B. nahtloses LM-Switching, Beschleunigung des Prefillings und mehr. Experimentelle Ergebnisse zeigen, dass unsere CoLM-Familie eine vergleichbare Leistung zum Standard-Transformer erreichen kann, während gleichzeitig größere Flexibilität ermöglicht wird, wie z.B. progressive Skalierung zur Verbesserung der Trainingseffizienz und die Bereitstellung mehrerer variabler Modellgrößen für eine elastische Inferenz, was einen neuen Weg zur Entwicklung von Sprachmodellen ebnet. Unser Code wird in Zukunft unter https://github.com/microsoft/CoLM veröffentlicht.

AdaptThink: Reasoning-Modelle können lernen, wann sie nachdenken sollen
AdaptThink: Reasoning Models Can Learn When to Think

May 19

ByJiajie Zhang, Nianyi Lin, Lei Hou, Ling Feng, Juanzi Li

Kürzlich haben große Reasoning-Modelle durch den Einsatz von menschlichem, tiefem Denken beeindruckende Leistungen bei verschiedenen Aufgaben erzielt. Der langwierige Denkprozess erhöht jedoch den Inferenzaufwand erheblich, was die Effizienz zu einem kritischen Engpass macht. In dieser Arbeit zeigen wir zunächst, dass NoThinking, bei dem das Reasoning-Modell dazu aufgefordert wird, das Denken zu überspringen und direkt die endgültige Lösung zu generieren, für relativ einfache Aufgaben in Bezug auf Leistung und Effizienz die bessere Wahl ist. Motiviert durch diese Erkenntnis schlagen wir AdaptThink vor, einen neuartigen RL-Algorithmus, der Reasoning-Modelle dazu anleitet, den optimalen Denkmodus basierend auf der Schwierigkeit der Aufgabe adaptiv zu wählen. Insbesondere zeichnet sich AdaptThink durch zwei Kernkomponenten aus: (1) ein eingeschränktes Optimierungsziel, das das Modell dazu anregt, NoThinking zu wählen, während die Gesamtleistung erhalten bleibt; (2) eine Importance-Sampling-Strategie, die Thinking- und NoThinking-Beispiele während des On-Policy-Trainings ausbalanciert, wodurch ein Kaltstart ermöglicht wird und das Modell in der Lage ist, beide Denkmodi während des Trainingsprozesses zu erkunden und zu nutzen. Unsere Experimente zeigen, dass AdaptThink die Inferenzkosten signifikant reduziert und gleichzeitig die Leistung weiter verbessert. Bemerkenswerterweise reduziert AdaptThink auf drei mathematischen Datensätzen die durchschnittliche Antwortlänge von DeepSeek-R1-Distill-Qwen-1.5B um 53 % und verbessert dessen Genauigkeit um 2,4 %, was das Potenzial der adaptiven Auswahl des Denkmodus zur Optimierung des Gleichgewichts zwischen Reasoning-Qualität und Effizienz unterstreicht. Unsere Codes und Modelle sind unter https://github.com/THU-KEG/AdaptThink verfügbar.

AdaCoT: Pareto-optimale adaptive Chain-of-Thought-Auslösung durch Reinforcement Learning
AdaCoT: Pareto-Optimal Adaptive Chain-of-Thought Triggering via Reinforcement Learning

May 17

ByChenwei Lou, Zewei Sun, Xinnian Liang, Meng Qu, Wei Shen, Wenqi Wang, Yuntao Li, Qingping Yang, Shuangzhi Wu

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten gezeigt, stehen jedoch oft vor Herausforderungen bei Aufgaben, die anspruchsvolles logisches Denken erfordern. Während Chain-of-Thought (CoT)-Prompting das logische Denken erheblich verbessert, generiert es für alle Anfragen ungezielt umfangreiche Denkschritte, was zu erheblichen Rechenkosten und Ineffizienz führt, insbesondere bei einfacheren Eingaben. Um dieses kritische Problem zu lösen, führen wir AdaCoT (Adaptive Chain-of-Thought) ein, ein neuartiges Framework, das es LLMs ermöglicht, adaptiv zu entscheiden, wann CoT aufgerufen wird. AdaCoT formuliert adaptives Denken als ein Pareto-Optimierungsproblem, das darauf abzielt, die Modellleistung mit den Kosten für den CoT-Aufruf (sowohl Häufigkeit als auch Rechenaufwand) auszubalancieren. Wir schlagen eine Methode basierend auf Reinforcement Learning (RL) vor, die speziell Proximal Policy Optimization (PPO) nutzt, um die Entscheidungsgrenze für das CoT-Triggering dynamisch zu steuern, indem Strafkoeffizienten angepasst werden. Dadurch kann das Modell die Notwendigkeit von CoT basierend auf der impliziten Komplexität der Anfrage bestimmen. Ein wesentlicher technischer Beitrag ist Selective Loss Masking (SLM), das entwickelt wurde, um den Zusammenbruch der Entscheidungsgrenze während des mehrstufigen RL-Trainings zu verhindern und so robustes und stabiles adaptives Triggering zu gewährleisten. Experimentelle Ergebnisse zeigen, dass AdaCoT erfolgreich die Pareto-Grenze navigiert und erhebliche Reduktionen im CoT-Einsatz für Anfragen erreicht, die kein aufwendiges logisches Denken erfordern. Beispielsweise reduzierte AdaCoT auf unserem Produktionstestdatensatz die CoT-Triggerraten auf bis zu 3,18 % und verringerte die durchschnittlichen Antwort-Tokens um 69,06 %, während gleichzeitig eine hohe Leistung bei komplexen Aufgaben beibehalten wurde.

Thinkless: LLM lernt, wann es denken soll
Thinkless: LLM Learns When to Think

May 19

ByGongfan Fang, Xinyin Ma, Xinchao Wang

Reasoning Language Models, die zu erweiterten Ketten von Denkschritten (Chain-of-Thought Reasoning) fähig sind, haben bemerkenswerte Leistungen bei Aufgaben gezeigt, die komplexe logische Schlussfolgerungen erfordern. Die Anwendung aufwendiger Denkprozesse für alle Anfragen führt jedoch häufig zu erheblichen Rechenineffizienzen, insbesondere wenn viele Probleme einfache Lösungen zulassen. Dies wirft eine offene Frage auf: Können LLMs lernen, wann sie denken sollen? Um dies zu beantworten, schlagen wir Thinkless vor, ein lernbares Framework, das einem LLM ermöglicht, adaptiv zwischen kurzen und ausführlichen Denkprozessen zu wählen, basierend auf der Aufgabenkomplexität und den Fähigkeiten des Modells. Thinkless wird unter einem Reinforcement-Learning-Paradigma trainiert und verwendet zwei Steuertokens: <short> für prägnante Antworten und <think> für detaillierte Schlussfolgerungen. Kern unserer Methode ist ein Decoupled Group Relative Policy Optimization (DeGRPO)-Algorithmus, der das Lernziel des hybriden Denkens in zwei Komponenten zerlegt: (1) einen Steuertoken-Verlust, der die Auswahl des Denkmodus steuert, und (2) einen Antwortverlust, der die Genauigkeit der generierten Antworten verbessert. Diese entkoppelte Formulierung ermöglicht eine fein abgestimmte Kontrolle über die Beiträge jedes Ziels, stabilisiert das Training und verhindert effektiv den Zusammenbruch, der bei herkömmlichem GRPO beobachtet wird. Empirisch konnte Thinkless auf mehreren Benchmarks wie Minerva Algebra, MATH-500 und GSM8K die Nutzung von langen Denkketten um 50 % bis 90 % reduzieren und damit die Effizienz von Reasoning Language Models erheblich steigern. Der Code ist verfügbar unter https://github.com/VainF/Thinkless.

Delta-Attention: Schnelle und präzise Inferenz von Sparse Attention durch Delta-Korrektur
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction

May 16

ByJeffrey Willette, Heejun Lee, Sung Ju Hwang

Der Aufmerksamkeitsmechanismus eines Transformers weist eine quadratische Komplexität auf, was zu hohen Inferenzkosten und Latenz bei langen Sequenzen führt. Allerdings sind die Aufmerksamkeitsmatrizen größtenteils spärlich besetzt, was bedeutet, dass viele Einträge für eine effiziente Inferenz aus der Berechnung ausgelassen werden können. Methoden zur spärlichen Aufmerksamkeitsinferenz zielen darauf ab, diese Rechenlast zu verringern; sie gehen jedoch auch mit einer problematischen Leistungsverschlechterung einher. Wir stellen fest, dass ein Grund für diese Verschlechterung darin liegt, dass die spärliche Berechnung eine Verteilungsverschiebung in den Aufmerksamkeitsausgaben verursacht. Diese Verteilungsverschiebung führt dazu, dass Abfragen zur Dekodierungszeit nicht gut mit den entsprechenden Schlüsseln aus der Prefill-Phase übereinstimmen, was zu einem Leistungsabfall führt. Wir schlagen ein einfaches, neuartiges und effektives Verfahren vor, um diese Verteilungsverschiebung zu korrigieren und die Verteilung der spärlichen Aufmerksamkeitsausgaben näher an die der quadratischen Aufmerksamkeit heranzuführen. Unsere Methode kann auf jede spärliche Aufmerksamkeitsmethode angewendet werden und führt zu einer durchschnittlichen Leistungssteigerung von 36 Prozentpunkten, wobei 88 % der Genauigkeit der quadratischen Aufmerksamkeit auf dem 131K RULER-Benchmark wiederhergestellt werden, wenn sie auf die Sliding-Window-Aufmerksamkeit mit Sink-Tokens angewendet wird, während nur ein geringer Overhead hinzugefügt wird. Unsere Methode kann eine Spärlichkeit von etwa 98,5 % im Vergleich zur vollständigen quadratischen Aufmerksamkeit aufrechterhalten, wodurch unser Modell 32-mal schneller als Flash Attention 2 ist, wenn es 1M Token-Prefills verarbeitet.

Skalierung der Computer-Nutzungsverankerung durch Benutzeroberflächenzerlegung und -synthese
Scaling Computer-Use Grounding via User Interface Decomposition and Synthesis

May 19

ByTianbao Xie, Jiaqi Deng, Xiaochuan Li, Junlin Yang, Haoyuan Wu, Jixuan Chen, Wenjing Hu, Xinyuan Wang, Yuhui Xu, Zekun Wang, Yiheng Xu, Junli Wang, Doyen Sahoo, Tao Yu, Caiming Xiong

Die Verankerung von grafischen Benutzeroberflächen (GUI), also die Fähigkeit, natürliche Sprachbefehle auf spezifische Aktionen auf grafischen Benutzeroberflächen abzubilden, bleibt ein entscheidender Engpass in der Entwicklung von Computer-Nutzungsagenten. Aktuelle Benchmarks vereinfachen Verankerungsaufgaben als kurze Referenzausdrücke und erfassen nicht die Komplexität realer Interaktionen, die Software-Kommonsense, Layoutverständnis und fein abgestimmte Manipulationsfähigkeiten erfordern. Um diese Einschränkungen zu überwinden, führen wir OSWorld-G ein, einen umfassenden Benchmark, der 564 fein annotierte Beispiele über verschiedene Aufgabentypen hinweg umfasst, darunter Textabgleich, Elementerkennung, Layoutverständnis und präzise Manipulation. Zusätzlich synthetisieren und veröffentlichen wir den größten Datensatz zur Verankerung von Computer-Nutzung, Jedi, der durch mehrperspektivische Entkopplung von Aufgaben 4 Millionen Beispiele enthält. Unsere auf Jedi trainierten Multi-Scale-Modelle demonstrieren deren Effektivität, indem sie bestehende Ansätze auf ScreenSpot-v2, ScreenSpot-Pro und unserem OSWorld-G übertreffen. Darüber hinaus zeigen wir, dass eine verbesserte Verankerung mit Jedi direkt die agentenbasierten Fähigkeiten allgemeiner Basismodelle bei komplexen Computeraufgaben verbessert, von 5 % auf 27 % auf OSWorld. Durch detaillierte Ablationsstudien identifizieren wir Schlüsselfaktoren, die zur Verankerungsleistung beitragen, und bestätigen, dass die Kombination spezialisierter Daten für verschiedene Oberflächenelemente eine kompositionelle Generalisierung auf neue Schnittstellen ermöglicht. Alle Benchmarks, Daten, Checkpoints und Code sind quelloffen und unter https://osworld-grounding.github.io verfügbar.

Modellzusammenführung im Pre-Training von großen Sprachmodellen
Model Merging in Pre-training of Large Language Models

May 17

ByYunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu

Das Modellzusammenführen hat sich als vielversprechende Technik zur Verbesserung großer Sprachmodelle erwiesen, obwohl seine Anwendung im groß angelegten Pre-Training noch relativ unerforscht ist. In diesem Artikel präsentieren wir eine umfassende Untersuchung von Modellzusammenführungstechniken während des Pre-Training-Prozesses. Durch umfangreiche Experimente mit sowohl dichten als auch Mixture-of-Experts (MoE)-Architekturen, die von Millionen bis über 100 Milliarden Parameter reichen, zeigen wir, dass das Zusammenführen von Checkpoints, die mit konstanten Lernraten trainiert wurden, nicht nur signifikante Leistungsverbesserungen erzielt, sondern auch eine präzise Vorhersage des Annealing-Verhaltens ermöglicht. Diese Verbesserungen führen sowohl zu einer effizienteren Modellentwicklung als auch zu deutlich niedrigeren Trainingskosten. Unsere detaillierten Ablationsstudien zu Zusammenführungsstrategien und Hyperparametern liefern neue Einblicke in die zugrunde liegenden Mechanismen und decken gleichzeitig neuartige Anwendungen auf. Durch eine umfassende experimentelle Analyse bieten wir der Open-Source-Community praktische Pre-Training-Leitlinien für effektives Modellzusammenführen.

Schnellere Video-Diffusion mit trainierbarer sparser Aufmerksamkeit
Faster Video Diffusion with Trainable Sparse Attention

May 19

ByPeiyuan Zhang, Haofeng Huang, Yongqi Chen, Will Lin, Zhengzhong Liu, Ion Stoica, Eric P. Xing, Hao Zhang

Die Skalierung von Video-Diffusion-Transformatoren (DiTs) wird durch ihre quadratische 3D-Aufmerksamkeit begrenzt, obwohl sich der Großteil der Aufmerksamkeitsmasse auf eine kleine Teilmenge von Positionen konzentriert. Wir nutzen diese Beobachtung für VSA, eine trainierbare, hardware-effiziente sparse Aufmerksamkeit, die die vollständige Aufmerksamkeit sowohl während des Trainings als auch der Inferenz ersetzt. In VSA aggregiert eine leichte Grobphase Tokens zu Kacheln und identifiziert hochgewichtige kritische Tokens; eine Feinphase berechnet die Token-Level-Aufmerksamkeit nur innerhalb dieser Kacheln, wobei eine Block-Computing-Struktur verwendet wird, um Hard-Effizienz zu gewährleisten. Dies führt zu einem einzigen differenzierbaren Kernel, der end-to-end trainiert, keine nachträgliche Profilerstellung erfordert und 85\% der FlashAttention3-MFU beibehält. Wir führen umfangreiche Ablationsstudien und Skalierungsgesetz-Experimente durch, indem wir DiTs mit 60M bis 1,4B Parametern vortrainieren. VSA erreicht einen Pareto-Punkt, der die Trainings-FLOPS um das 2,53-fache reduziert, ohne den Diffusionsverlust zu erhöhen. Die Nachrüstung des Open-Source-Modells Wan-2.1 beschleunigt die Aufmerksamkeitszeit um das 6-fache und verkürzt die end-to-end-Generierungszeit von 31s auf 18s bei vergleichbarer Qualität. Diese Ergebnisse etablieren trainierbare sparse Aufmerksamkeit als praktische Alternative zur vollständigen Aufmerksamkeit und als Schlüsseltechnologie für die weitere Skalierung von Video-Diffusionsmodellen.

Hybrides 3D-4D Gaussian Splatting für die schnelle Darstellung dynamischer Szenen
Hybrid 3D-4D Gaussian Splatting for Fast Dynamic Scene Representation

May 19

BySeungjun Oh, Younggeun Lee, Hyejin Jeon, Eunbyung Park

Jüngste Fortschritte in der dynamischen 3D-Szenenrekonstruktion haben vielversprechende Ergebnisse gezeigt und ermöglichen eine hochauflösende 3D-Neuansichtssynthese mit verbesserter zeitlicher Konsistenz. Unter diesen hat sich das 4D Gaussian Splatting (4DGS) als ein attraktiver Ansatz erwiesen, da es in der Lage ist, hochauflösende räumliche und zeitliche Variationen zu modellieren. Allerdings leiden bestehende Methoden unter erheblichen Rechen- und Speicheraufwänden aufgrund der redundanten Zuweisung von 4D-Gaußschen zu statischen Regionen, was auch die Bildqualität beeinträchtigen kann. In dieser Arbeit stellen wir das hybride 3D-4D Gaussian Splatting (3D-4DGS) vor, ein neuartiges Framework, das statische Regionen adaptiv mit 3D-Gaußschen darstellt, während 4D-Gaußsche für dynamische Elemente reserviert werden. Unsere Methode beginnt mit einer vollständigen 4D-Gaußschen Darstellung und wandelt zeitlich invariante Gaußsche iterativ in 3D um, wodurch die Anzahl der Parameter deutlich reduziert und die Recheneffizienz verbessert wird. Gleichzeitig behalten dynamische Gaußsche ihre vollständige 4D-Darstellung bei und erfassen komplexe Bewegungen mit hoher Genauigkeit. Unser Ansatz erreicht im Vergleich zu Baseline-4D-Gaussian-Splatting-Methoden deutlich kürzere Trainingszeiten bei gleichbleibender oder verbesserter visueller Qualität.

Durch den Spiegel: Bewertung der gesunden Menschenverstands-Konsistenz von seltsamen Bildern
Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images

May 12

ByElisei Rykov, Kseniia Petrushina, Kseniia Titova, Anton Razzhigaev, Alexander Panchenko, Vasily Konovalov

Die Messung, wie realistisch Bilder aussehen, ist eine komplexe Aufgabe in der Forschung zur künstlichen Intelligenz. Beispielsweise verstößt ein Bild eines Jungen mit einem Staubsauger in einer Wüste gegen den gesunden Menschenverstand. Wir stellen eine neuartige Methode vor, die wir „Through the Looking Glass“ (TLG) nennen, um die Konsistenz von Bildern mit dem gesunden Menschenverstand mithilfe von Large Vision-Language Models (LVLMs) und einem Transformer-basierten Encoder zu bewerten. Indem wir LVLMs nutzen, um atomare Fakten aus diesen Bildern zu extrahieren, erhalten wir eine Mischung aus präzisen Fakten. Anschließend feintunen wir einen kompakten Attention-Pooling-Klassifikator über die kodierten atomaren Fakten. Unser TLG hat eine neue Bestleistung auf den WHOOPS!- und WEIRD-Datensätzen erreicht, während es eine kompakte Feintuning-Komponente nutzt.

Suche im Dunkeln: Schlussfolgern durch Testzeit-Instanz-Level-Policy-Gradient im latenten Raum
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space

May 19

ByHengli Li, Chenxi Li, Tong Wu, Xuekai Zhu, Yuxuan Wang, Zhaoxin Yu, Eric Hanchen Jiang, Song-Chun Zhu, Zixia Jia, Ying Nian Wu, Zilong Zheng

Das Schlussfolgern, ein zentraler Bestandteil der menschlichen Intelligenz, stellt nach wie vor eine erhebliche Herausforderung für Large Language Models (LLMs) auf dem Weg zur Allgemeinen Künstlichen Intelligenz (AGI) dar. Obwohl die Modellleistung durch das Skalierungsgesetz des Trainings verbessert wurde, bestehen weiterhin signifikante Herausforderungen, insbesondere in Bezug auf Trainingsalgorithmen, wie katastrophales Vergessen, und die begrenzte Verfügbarkeit von neuartigen Trainingsdaten. Als Alternative verbessert das Skalieren zur Testzeit die Schlussfolgerungsleistung, indem die Berechnung zur Testzeit erhöht wird, ohne die Parameter zu aktualisieren. Im Gegensatz zu früheren Methoden in diesem Paradigma, die sich auf den Token-Raum konzentrierten, schlagen wir vor, den latenten Raum für effektiveres Schlussfolgern und eine bessere Einhaltung des Skalierungsgesetzes zur Testzeit zu nutzen. Wir stellen LatentSeek vor, ein neuartiges Framework, das die Schlussfolgerungsfähigkeit von LLMs durch Test-Time Instance-level Adaptation (TTIA) im latenten Raum des Modells verbessert. Insbesondere nutzt LatentSeek Policy Gradient, um latente Repräsentationen iterativ zu aktualisieren, geleitet von selbstgenerierten Belohnungssignalen. LatentSeek wird auf einer Reihe von Schlussfolgerungs-Benchmarks, einschließlich GSM8K, MATH-500 und AIME2024, über mehrere LLM-Architekturen hinweg evaluiert. Die Ergebnisse zeigen, dass LatentSeek durchweg starke Baselines, wie Chain-of-Thought-Prompting und feinabstimmungsbasierte Methoden, übertrifft. Darüber hinaus zeigt unsere Analyse, dass LatentSeek äußerst effizient ist und sich typischerweise innerhalb weniger Iterationen für Probleme durchschnittlicher Komplexität konvergiert, während es auch von zusätzlichen Iterationen profitiert, wodurch das Potenzial des Skalierens zur Testzeit im latenten Raum hervorgehoben wird. Diese Erkenntnisse positionieren LatentSeek als eine leichtgewichtige, skalierbare und effektive Lösung zur Verbesserung der Schlussfolgerungsfähigkeiten von LLMs.

MM-PRM: Verbesserung des multimodalen mathematischen Denkens durch skalierbare schrittweise Überwachung
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision

May 19

ByLingxiao Du, Fanqing Meng, Zongkai Liu, Zhixiang Zhou, Ping Luo, Qiaosheng Zhang, Wenqi Shao

Während Multimodale Große Sprachmodelle (MLLMs) beeindruckende Fortschritte im Bereich des visuell-sprachlichen Verständnisses erzielt haben, kämpfen sie immer noch mit komplexer, mehrstufiger Argumentation und produzieren oft logisch inkonsistente oder teilweise korrekte Lösungen. Eine wesentliche Einschränkung liegt im Fehlen fein abgestimmter Überwachung der Zwischenschritte der Argumentation. Um dies zu adressieren, schlagen wir MM-PRM vor, ein Prozess-Belohnungsmodell, das innerhalb eines vollständig automatisierten, skalierbaren Frameworks trainiert wird. Zunächst entwickeln wir MM-Policy, ein leistungsstarkes multimodales Modell, das auf diversen mathematischen Argumentationsdaten trainiert wurde. Anschließend erstellen wir MM-K12, ein kuratiertes Dataset mit 10.000 multimodalen mathematischen Problemen mit überprüfbaren Antworten, das als Ausgangsdaten dient. Mithilfe einer Monte-Carlo-Baumsuche (MCTS)-basierten Pipeline generieren wir über 700.000 schrittweise Anmerkungen ohne menschliche Beschriftung. Das resultierende PRM wird verwendet, um Kandidatenpfade der Argumentation im Best-of-N-Inferenz-Setup zu bewerten und erzielt signifikante Verbesserungen sowohl in domänenspezifischen (MM-K12-Testset) als auch domänenübergreifenden (OlympiadBench, MathVista, etc.) Benchmarks. Weitere Analysen bestätigen die Wirksamkeit von Soft Labels, kleineren Lernraten und Pfaddiversität bei der Optimierung der PRM-Leistung. MM-PRM zeigt, dass Prozessüberwachung ein mächtiges Werkzeug zur Verbesserung der logischen Robustheit multimodaler Argumentationssysteme ist. Wir veröffentlichen alle unsere Codes und Daten unter https://github.com/ModalMinds/MM-PRM.

EfficientLLM: Effizienz in großen Sprachmodellen
EfficientLLM: Efficiency in Large Language Models

May 20

ByZhengqing Yuan, Weixiang Sun, Yixin Liu, Huichi Zhou, Rong Zhou, Yiyang Li, Zheyuan Zhang, Wei Song, Yue Huang, Haolong Jia, Keerthiram Murugesan, Yu Wang, Lifang He, Jianfeng Gao, Lichao Sun, Yanfang Ye

Große Sprachmodelle (LLMs) haben bedeutende Fortschritte vorangetrieben, doch ihre wachsende Anzahl von Parametern und Kontextfenstern verursachen prohibitive Rechen-, Energie- und monetäre Kosten. Wir stellen EfficientLLM vor, einen neuartigen Benchmark und die erste umfassende empirische Studie, die Effizienztechniken für LLMs im großen Maßstab evaluiert. Durchgeführt auf einem Produktionscluster (48xGH200, 8xH200 GPUs), untersucht unsere Studie systematisch drei Schlüsselachsen: (1) Architektur-Pretraining (effiziente Aufmerksamkeitsvarianten: MQA, GQA, MLA, NSA; spärliche Mixture-of-Experts (MoE)), (2) Feinabstimmung (parameter-effiziente Methoden: LoRA, RSLoRA, DoRA) und (3) Inferenz (Quantisierungsmethoden: int4, float16). Wir definieren sechs fein abgestimmte Metriken (Speichernutzung, Rechennutzung, Latenz, Durchsatz, Energieverbrauch, Kompressionsrate), um Hardwareauslastung, Latenz-Durchsatz-Balance und Kohlenstoffkosten zu erfassen. Bei der Auswertung von über 100 Modell-Technik-Paaren (0,5B-72B Parameter) leiten wir drei Kernaussagen ab: (i) Effizienz beinhaltet quantifizierbare Kompromisse: Keine einzelne Methode ist universell optimal; z.B. reduziert MoE FLOPs und verbessert die Genauigkeit, erhöht jedoch den VRAM um 40%, während int4-Quantisierung Speicher/Energie um bis zu 3,9x bei einem Genauigkeitsverlust von 3-5% reduziert. (ii) Optima sind aufgaben- und skalenabhängig: MQA bietet optimale Speicher-Latenz-Kompromisse für eingeschränkte Geräte, MLA erreicht die niedrigste Perplexität für qualitätskritische Aufgaben, und RSLoRA übertrifft die Effizienz von LoRA erst ab 14B Parametern. (iii) Techniken generalisieren über Modalitäten hinweg: Wir erweitern die Auswertungen auf Große Vision-Modelle (Stable Diffusion 3.5, Wan 2.1) und Vision-Sprache-Modelle (Qwen2.5-VL), wodurch die effektive Übertragbarkeit bestätigt wird. Durch die Open-Source-Bereitstellung von Datensätzen, Evaluationspipelines und Leaderboards bietet EfficientLLM wesentliche Leitlinien für Forscher und Ingenieure, die sich im Effizienz-Leistungs-Spektrum der nächsten Generation von Foundation-Modellen bewegen.

CPGD: Auf dem Weg zu stabilem regelbasiertem Reinforcement Learning für Sprachmodelle
CPGD: Toward Stable Rule-based Reinforcement Learning for Language Models

May 18

ByZongkai Liu, Fanqing Meng, Lingxiao Du, Zhixiang Zhou, Chao Yu, Wenqi Shao, Qiaosheng Zhang

Jüngste Fortschritte im regelbasierten Reinforcement Learning (RL) haben die Fähigkeit von Sprachmodellen (LMs) zur logischen Schlussfolgerung durch regelbasierte Belohnungen erheblich verbessert. Allerdings leiden bestehende RL-Methoden – wie GRPO, REINFORCE++ und RLOO – häufig unter Instabilität während des Trainings, bei der große Aktualisierungen der Policy und unangemessenes Clipping zu einem Zusammenbruch des Trainings führen können. Um dieses Problem zu lösen, schlagen wir Clipped Policy Gradient Optimization with Policy Drift (CPGD) vor, einen neuartigen Algorithmus, der darauf abzielt, das Policy-Lernen in LMs zu stabilisieren. CPGD führt eine Policy-Drift-Beschränkung basierend auf der KL-Divergenz ein, um Policy-Aktualisierungen dynamisch zu regularisieren, und nutzt einen Clip-Mechanismus für den Logarithmus des Verhältnisses, um übermäßige Policy-Aktualisierungen zu verhindern. Wir liefern eine theoretische Begründung für CPGD und zeigen durch empirische Analysen, dass es die Instabilität, die bei früheren Ansätzen beobachtet wurde, reduziert. Darüber hinaus demonstrieren wir, dass CPGD die Leistung signifikant verbessert, während die Trainingsstabilität erhalten bleibt. Unsere Implementierung vereint theoretische Strenge mit praktischer Anwendbarkeit und bietet eine robuste Alternative für RL im Post-Training von LMs. Wir veröffentlichen unseren Code unter https://github.com/ModalMinds/MM-EUREKA.

Gebrochene Kettenlogik-Argumentation
Fractured Chain-of-Thought Reasoning

May 19

ByBaohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong

Inferenzzeit-Skalierungstechniken haben die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung erheblich gestärkt, indem sie zusätzliche Rechenleistung während der Inferenz nutzen, ohne dass ein erneutes Training erforderlich ist. In ähnlicher Weise verbessern Chain-of-Thought (CoT)-Prompting und seine Erweiterung, Long CoT, die Genauigkeit durch die Erzeugung umfangreicher Zwischenpfade der logischen Schlussfolgerung. Diese Ansätze verursachen jedoch erhebliche Token-Kosten, die ihren Einsatz in latenzsensiblen Umgebungen behindern. In dieser Arbeit zeigen wir zunächst, dass abgeschnittenes CoT, das die Schlussfolgerung vor dem Abschluss beendet und direkt die endgültige Antwort generiert, oft dem vollständigen CoT-Sampling entspricht, dabei jedoch deutlich weniger Token verwendet. Aufbauend auf dieser Erkenntnis führen wir Fractured Sampling ein, eine einheitliche Inferenzzeit-Strategie, die zwischen vollständigem CoT und ausschließlichem Lösungs-Sampling entlang drei orthogonaler Achsen interpoliert: (1) die Anzahl der Schlussfolgerungspfade, (2) die Anzahl der endgültigen Lösungen pro Pfad und (3) die Tiefe, bei der die Schlussfolgerungsspuren abgeschnitten werden. Durch umfangreiche Experimente mit fünf verschiedenen logischen Benchmark-Tests und mehreren Modellgrößen demonstrieren wir, dass Fractured Sampling durchweg überlegene Genauigkeits-Kosten-Kompromisse erzielt und dabei deutliche log-lineare Skalierungsgewinne in Pass@k im Vergleich zum Token-Budget erzielt. Unsere Analyse zeigt, wie die Rechenleistung über diese Dimensionen verteilt werden kann, um die Leistung zu maximieren, und ebnet den Weg für effizienteres und skalierbareres LLM-Schlussfolgern.

FedSVD: Adaptive Orthogonalisierung für privates föderiertes Lernen mit LoRA
FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA

May 19

BySeanie Lee, Sangwoo Park, Dong Bok Lee, Dominik Wagner, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang

Low-Rank Adaptation (LoRA), die ein Produkt aus zwei trainierbaren niedrigrangigen Matrizen in eingefrorene vortrainierte Gewichte einführt, wird häufig für das effiziente Feinabstimmen von Sprachmodellen im federierten Lernen (FL) verwendet. Wenn LoRA jedoch mit differenziell privatem stochastischem Gradientenabstieg (DP-SGD) kombiniert wird, kommt es zu einer erheblichen Rauschverstärkung: DP-SGD verzerrt die Gradienten pro Stichprobe, und die Matrixmultiplikation des LoRA-Updates (BA) verstärkt diesen Effekt. Das Einfrieren einer Matrix (z. B. A) reduziert das Rauschen, schränkt jedoch die Ausdrucksfähigkeit des Modells ein und führt oft zu einer suboptimalen Anpassung. Um dies zu beheben, schlagen wir FedSVD vor, eine einfache, aber effektive Methode, die eine globale Neuparametrisierung basierend auf der Singulärwertzerlegung (SVD) einführt. In unserem Ansatz optimiert jeder Client nur die B-Matrix und übermittelt sie an den Server. Der Server aggregiert die B-Matrizen, berechnet das Produkt BA unter Verwendung der vorherigen A-Matrix und faktorisiert das Ergebnis über SVD neu. Dies ergibt eine neue adaptive A-Matrix, die aus den orthonormalen rechten Singulärvektoren von BA besteht, und eine aktualisierte B-Matrix, die die verbleibenden SVD-Komponenten enthält. Diese Neuparametrisierung vermeidet eine quadratische Rauschverstärkung, während A besser die Hauptrichtungen der aggregierten Updates erfassen kann. Darüber hinaus begrenzt die orthonormale Struktur von A die Gradientennormen von B und bewahrt mehr Signal unter DP-SGD, wie unsere theoretische Analyse bestätigt. Infolgedessen verbessert FedSVD die Stabilität und Leistung über eine Vielzahl von Datenschutzeinstellungen und Benchmarks hinweg und übertrifft relevante Baselines sowohl unter privaten als auch nicht-privaten Bedingungen.

SEED-GRPO: Semantische Entropie-verstärktes GRPO für unsicherheitsbewusste Politikoptimierung
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization

May 18

ByMinghan Chen, Guikun Chen, Wenguan Wang, Yi Yang

Große Sprachmodelle (LLMs) zeigen unterschiedliche Konfidenzniveaus bei verschiedenen Eingabeaufforderungen (Fragen): Einige führen zu konsistenten, semantisch ähnlichen Antworten, während andere vielfältige oder widersprüchliche Ausgaben erzeugen. Diese Variation spiegelt die Unsicherheit des LLMs bezüglich der Eingabeaufforderung wider, ein Signal dafür, wie sicher das Modell ein gegebenes Problem versteht. Allerdings behandelt die herkömmliche Group Relative Policy Optimization (GRPO) alle Aufforderungen während der Policy-Updates gleich und ignoriert diese wichtige Information über die Wissensgrenzen des Modells. Um diese Einschränkung zu überwinden, schlagen wir SEED-GRPO (Semantic Entropy EnhanceD GRPO) vor, das explizit die Unsicherheit der LLMs bezüglich der semantischen Entropie der Eingabeaufforderungen misst. Die semantische Entropie misst die Vielfalt der Bedeutung in mehreren generierten Antworten zu einer Aufforderung und nutzt dies, um die Größe der Policy-Updates zu modulieren. Dieser unsicherheitsbewusste Trainingsmechanismus ermöglicht eine dynamische Anpassung der Policy-Update-Größen basierend auf der Unsicherheit der Frage. Er erlaubt konservativere Updates bei Fragen mit hoher Unsicherheit, während das ursprüngliche Lernsignal bei sicheren Fragen beibehalten wird. Experimentelle Ergebnisse auf fünf mathematischen Denkbenchmarks (AIME24 56.7, AMC 68.7, MATH 83.4, Minerva 34.2 und OlympiadBench 48.0) zeigen, dass SEED-GRPO eine neue Spitzenleistung in der durchschnittlichen Genauigkeit erreicht, was die Wirksamkeit der unsicherheitsbewussten Policy-Optimierung bestätigt.

VisionReasoner: Vereinheitlichte visuelle Wahrnehmung und logisches Denken durch Reinforcement Learning
VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

May 17

ByYuqi Liu, Tianyuan Qu, Zhisheng Zhong, Bohao Peng, Shu Liu, Bei Yu, Jiaya Jia

Große Vision-Sprach-Modelle zeigen inhärente Fähigkeiten, um diverse visuelle Wahrnehmungsaufgaben zu bewältigen. In diesem Artikel stellen wir VisionReasoner vor, ein einheitliches Framework, das in der Lage ist, innerhalb eines gemeinsamen Modells zu schlussfolgern und mehrere visuelle Wahrnehmungsaufgaben zu lösen. Insbesondere durch die Entwicklung neuartiger Multi-Objekt-Kognitionslernstrategien und systematischer Aufgabenreformulierung verbessert VisionReasoner seine Fähigkeiten zur Analyse visueller Eingaben und bewältigt diverse Wahrnehmungsaufgaben in einem einheitlichen Framework. Das Modell generiert einen strukturierten Schlussfolgerungsprozess, bevor es die gewünschten Ausgaben liefert, die auf Benutzeranfragen reagieren. Um die einheitlichen visuellen Wahrnehmungsfähigkeiten rigoros zu bewerten, evaluieren wir VisionReasoner anhand von zehn verschiedenen Aufgaben, die drei kritische Domänen abdecken: Detektion, Segmentierung und Zählung. Die experimentellen Ergebnisse zeigen, dass VisionReasoner als einheitliches Modell eine überlegene Leistung erzielt und Qwen2.5VL mit relativen Margen von 29,1 % auf COCO (Detektion), 22,1 % auf ReasonSeg (Segmentierung) und 15,3 % auf CountBench (Zählung) übertrifft.

Neuro-Symbolischer Abfragecompiler
Neuro-Symbolic Query Compiler

May 17

ByYuyao Zhang, Zhicheng Dou, Xiaoxi Li, Jiajie Jin, Yongkang Wu, Zhonghua Li, Qi Ye, Ji-Rong Wen

Die präzise Erkennung der Suchintention in Retrieval-Augmented Generation (RAG)-Systemen bleibt ein herausforderndes Ziel, insbesondere unter Ressourcenbeschränkungen und bei komplexen Abfragen mit verschachtelten Strukturen und Abhängigkeiten. Dieses Papier stellt QCompiler vor, ein neuro-symbolisches Framework, das von linguistischen Grammatikregeln und Compiler-Design inspiriert ist, um diese Lücke zu schließen. Es entwirft theoretisch eine minimale, aber ausreichende Backus-Naur-Form (BNF)-Grammatik G[q], um komplexe Abfragen zu formalisieren. Im Gegensatz zu früheren Methoden bewahrt diese Grammatik die Vollständigkeit, während sie Redundanz minimiert. Basierend darauf umfasst QCompiler einen Abfrageausdrucks-Übersetzer, einen lexikalischen Syntax-Parser und einen rekursiven Abstiegsprozessor, um Abfragen in abstrakte Syntaxbäume (ASTs) für die Ausführung zu kompilieren. Die Atomarität der Teilabfragen in den Blattknoten gewährleistet eine präzisere Dokumentenabruf- und Antwortgenerierung, wodurch die Fähigkeit des RAG-Systems, komplexe Abfragen zu bearbeiten, erheblich verbessert wird.

ChartMuseum: Testen der visuellen Argumentationsfähigkeiten großer Vision-Sprach-Modelle
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models

May 19

ByLiyan Tang, Grace Kim, Xinyu Zhao, Thom Lake, Wenxuan Ding, Fangcong Yin, Prasann Singhal, Manya Wadhwa, Zeyu Leo Liu, Zayne Sprague, Ramya Namuduri, Bodun Hu, Juan Diego Rodriguez, Puyuan Peng, Greg Durrett

Das Verständnis von Diagrammen stellt eine besondere Herausforderung für große visuell-sprachliche Modelle (LVLMs) dar, da es die Integration anspruchsvoller textueller und visueller Denkfähigkeiten erfordert. Aktuelle LVLMs zeigen jedoch ein bemerkenswertes Ungleichgewicht zwischen diesen Fähigkeiten und schneiden insbesondere bei visuellen Denkaufgaben, die schwer in Textform zu lösen sind, schlecht ab. Wir führen eine Fallstudie mit einem synthetischen Datensatz durch, der nur durch visuelles Denken lösbar ist, und zeigen, dass die Modellleistung mit zunehmender visueller Komplexität signifikant abnimmt, während die menschliche Leistung robust bleibt. Anschließend stellen wir ChartMuseum vor, einen neuen Benchmark für Diagramm-Frage-Antwort (QA), der 1.162 von Experten annotierte Fragen umfasst, die verschiedene Denktypen abdecken und aus realen Diagrammen von 184 Quellen stammen. Dieser Benchmark wurde speziell entwickelt, um komplexes visuelles und textuelles Denken zu bewerten. Im Gegensatz zu früheren Benchmarks für das Diagrammverständnis – bei denen Spitzenmodelle ähnlich und nahe der Sättigung abschneiden – deckt unser Benchmark eine erhebliche Lücke zwischen der Leistung von Modellen und Menschen auf, während er gleichzeitig die Fähigkeiten der Modelle effektiv differenziert: Während Menschen eine Genauigkeit von 93 % erreichen, erzielt das leistungsstärkste Modell Gemini-2.5-Pro nur 63,0 %, und das führende Open-Source-LVLM Qwen2.5-VL-72B-Instruct erreicht lediglich 38,5 %. Darüber hinaus verzeichnen alle Modelle bei Fragen, die hauptsächlich visuelles Denken erfordern, einen Leistungsabfall von 35 % bis 55 % im Vergleich zu Fragen, die stärker textbasiertes Denken erfordern. Schließlich zeigt unsere qualitative Fehleranalyse spezifische Kategorien von visuellem Denken auf, die für aktuelle LVLMs besonders herausfordernd sind.

ViPlan: Ein Benchmark für visuelle Planung mit symbolischen Prädikaten und Vision-Sprache-Modellen
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models

May 19

ByMatteo Merler, Nicola Dainese, Minttu Alakuijala, Giovanni Bonetta, Pietro Ferrazzi, Yu Tian, Bernardo Magnini, Pekka Marttinen

Die Integration von großen Sprachmodellen mit symbolischen Planern ist ein vielversprechender Ansatz, um überprüfbare und fundierte Pläne zu erhalten, im Vergleich zur Planung in natürlicher Sprache. Neuere Arbeiten erweitern diese Idee auf visuelle Domänen durch die Verwendung von Vision-Language-Modellen (VLMs). Allerdings wurde ein rigoroser Vergleich zwischen VLM-gestützten symbolischen Ansätzen und Methoden, die direkt mit einem VLM planen, durch das Fehlen gemeinsamer Umgebungen, Bewertungsprotokolle und Modellabdeckungen erschwert. Wir stellen ViPlan vor, den ersten Open-Source-Benchmark für visuelle Planung mit symbolischen Prädikaten und VLMs. ViPlan umfasst eine Reihe von zunehmend anspruchsvollen Aufgaben in zwei Domänen: eine visuelle Variante des klassischen Blocksworld-Planungsproblems und eine simulierte Haushaltsrobotikumgebung. Wir evaluieren neun Open-Source-VLM-Familien in verschiedenen Größen sowie ausgewählte geschlossene Modelle, wobei sowohl die VLM-gestützte symbolische Planung als auch die direkte Vorschlag von Aktionen durch die Modelle bewertet wird. Wir stellen fest, dass die symbolische Planung in Blocksworld die direkte VLM-Planung übertrifft, wo eine präzise Bildverankerung entscheidend ist, während das Gegenteil bei den Haushaltsrobotikaufgaben der Fall ist, wo Alltagswissen und die Fähigkeit, sich von Fehlern zu erholen, von Vorteil sind. Schließlich zeigen wir, dass bei den meisten Modellen und Methoden kein signifikanter Nutzen durch die Verwendung von Chain-of-Thought-Prompting besteht, was darauf hindeutet, dass aktuelle VLMs immer noch Schwierigkeiten mit visuellem Denken haben.

R3: Robuste rubrikunabhängige Belohnungsmodelle
R3: Robust Rubric-Agnostic Reward Models

May 19

ByDavid Anugraha, Zilu Tang, Lester James V. Miranda, Hanyang Zhao, Mohammad Rifqi Farhansyah, Garry Kuwanto, Derry Wijaya, Genta Indra Winata

Belohnungsmodelle sind entscheidend, um die Ausgaben von Sprachmodellen mit menschlichen Präferenzen in Einklang zu bringen, doch bestehende Ansätze mangelt es oft sowohl an Steuerbarkeit als auch an Interpretierbarkeit. Diese Modelle werden typischerweise für eng gefasste Ziele optimiert, was ihre Generalisierbarkeit für breitere nachgelagerte Aufgaben einschränkt. Darüber hinaus sind ihre skalaren Ausgaben ohne kontextbezogene Überlegungen schwer zu interpretieren. Um diese Einschränkungen zu überwinden, stellen wir R3 vor, ein neuartiges Belohnungsmodellierungs-Framework, das rubrikunabhängig ist, über verschiedene Bewertungsdimensionen hinweg generalisierbar ist und interpretierbare, begründete Bewertungszuweisungen liefert. R3 ermöglicht eine transparentere und flexiblere Bewertung von Sprachmodellen und unterstützt eine robuste Ausrichtung auf vielfältige menschliche Werte und Anwendungsfälle. Unsere Modelle, Daten und Code sind als Open Source unter https://github.com/rubricreward/r3 verfügbar.

MTVCrafter: 4D-Bewegungstokenisierung für die Animation menschlicher Bilder in offenen Welten
MTVCrafter: 4D Motion Tokenization for Open-World Human Image Animation

May 15

ByYanbo Ding, Xirui Hu, Zhizhi Guo, Yali Wang

Die Animation menschlicher Bilder hat aufgrund ihrer breiten Anwendungen in digitalen Menschen zunehmend Aufmerksamkeit erlangt und sich schnell entwickelt. Bisherige Methoden stützen sich jedoch weitgehend auf 2D-renderte Pose-Bilder zur Bewegungsführung, was die Generalisierung einschränkt und wesentliche 3D-Informationen für die Animation in offenen Welten vernachlässigt. Um dieses Problem zu lösen, schlagen wir MTVCrafter (Motion Tokenization Video Crafter) vor, das erste Framework, das rohe 3D-Bewegungssequenzen (d.h. 4D-Bewegung) direkt für die Animation menschlicher Bilder modelliert. Konkret führen wir 4DMoT (4D Motion Tokenizer) ein, um 3D-Bewegungssequenzen in 4D-Bewegungs-Tokens zu quantisieren. Im Vergleich zu 2D-renderten Pose-Bildern bieten 4D-Bewegungs-Tokens robustere räumlich-zeitliche Hinweise und vermeiden eine strikte pixelgenaue Ausrichtung zwischen Pose-Bild und Charakter, was eine flexiblere und entkoppelte Steuerung ermöglicht. Anschließend führen wir MV-DiT (Motion-aware Video DiT) ein. Durch die Gestaltung einer einzigartigen Bewegungsaufmerksamkeit mit 4D-Positionskodierungen kann MV-DiT Bewegungs-Tokens effektiv als 4D-kompakten, aber ausdrucksstarken Kontext für die Animation menschlicher Bilder in der komplexen 3D-Welt nutzen. Somit markiert es einen bedeutenden Fortschritt in diesem Bereich und eröffnet eine neue Richtung für die pose-gesteuerte Erzeugung menschlicher Videos. Experimente zeigen, dass unser MTVCrafter mit einem FID-VID von 6,98 state-of-the-art Ergebnisse erzielt und den zweitbesten Ansatz um 65% übertrifft. Dank robuster Bewegungs-Tokens generalisiert MTVCrafter auch gut auf diverse Charaktere in offenen Welten (einzeln/mehrere, Ganzkörper/Halbkörper) über verschiedene Stile und Szenarien hinweg. Unsere Video-Demos und der Code sind verfügbar unter: https://github.com/DINGYANB/MTVCrafter.

Wenn KI-Mitwissenschaftler scheitern: SPOT – ein Benchmark für die automatisierte Überprüfung wissenschaftlicher Forschung
When AI Co-Scientists Fail: SPOT-a Benchmark for Automated Verification of Scientific Research

May 17

ByGuijin Son, Jiwoo Hong, Honglu Fan, Heejeong Nam, Hyunwoo Ko, Seungwon Lim, Jinyeop Song, Jinha Choi, Gonçalo Paulo, Youngjae Yu, Stella Biderman

Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Vision der automatisierten wissenschaftlichen Entdeckung, oft als KI-Co-Wissenschaftler bezeichnet, beflügelt. Bisherige Arbeiten stellen diese Systeme als generative Co-Autoren dar, die für die Formulierung von Hypothesen, die Synthese von Code oder das Verfassen von Manuskripten verantwortlich sind. In dieser Arbeit untersuchen wir eine komplementäre Anwendung: den Einsatz von LLMs als Verifizierer zur Automatisierung der akademischen Überprüfung wissenschaftlicher Manuskripte. Zu diesem Zweck stellen wir SPOT vor, einen Datensatz von 83 veröffentlichten Artikeln, die mit 91 Fehlern gepaart sind, die signifikant genug sind, um Errata oder Rücknahmen zu veranlassen, und die mit den tatsächlichen Autoren und menschlichen Annotatoren abgeglichen wurden. Bei der Bewertung von state-of-the-art LLMs auf SPOT stellen wir fest, dass keines eine Trefferquote von mehr als 21,1 % oder eine Präzision von mehr als 6,1 % erreicht (o3 erzielt die besten Werte, während alle anderen nahe Null liegen). Darüber hinaus sind die Konfidenzschätzungen durchweg niedrig, und über acht unabhängige Durchläufe hinweg entdecken die Modelle selten dieselben Fehler wieder, was ihre Zuverlässigkeit untergräbt. Schließlich zeigt eine qualitative Analyse mit Domänenexperten, dass selbst die stärksten Modelle Fehler machen, die Missverständnissen auf Studentenniveau ähneln. Diese Ergebnisse verdeutlichen die erhebliche Lücke zwischen den aktuellen Fähigkeiten von LLMs und den Anforderungen für eine zuverlässige KI-gestützte akademische Verifizierung.

Effiziente Sprachmodellierung durch Energieabstand im kontinuierlichen latenten Raum
Efficient Speech Language Modeling via Energy Distance in Continuous Latent Space

May 19

ByZhengrui Ma, Yang Feng, Chenze Shao, Fandong Meng, Jie Zhou, Min Zhang

Wir stellen SLED vor, einen alternativen Ansatz zur Sprachmodellierung, bei dem Sprachwellenformen in Sequenzen kontinuierlicher latenter Repräsentationen kodiert und autoregressiv mithilfe eines Energie-Distanz-Ziels modelliert werden. Die Energie-Distanz bietet ein analytisches Maß für die Verteilungslücke, indem simulierte und Zielproben gegenübergestellt werden, was ein effizientes Training ermöglicht, um die zugrunde liegende kontinuierliche autoregressive Verteilung zu erfassen. Durch den Verzicht auf die Abhängigkeit von residualer Vektorquantisierung vermeidet SLED Diskretisierungsfehler und eliminiert die Notwendigkeit für die komplexen hierarchischen Architekturen, die in bestehenden Sprachmodellen üblich sind. Es vereinfacht die gesamte Modellierungspipeline, während die Reichhaltigkeit der Sprachinformationen erhalten bleibt und die Inferenzeffizienz gewährleistet wird. Empirische Ergebnisse zeigen, dass SLED sowohl bei der Zero-Shot- als auch bei der Streaming-Sprachsynthese eine starke Leistung erzielt, was sein Potenzial für breitere Anwendungen in allgemeinen Sprachmodellen verdeutlicht.

MedCaseReasoning: Bewertung und Erlernen diagnostischer Denkprozesse aus klinischen Fallberichten
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports

May 16

ByKevin Wu, Eric Wu, Rahul Thapa, Kevin Wei, Angela Zhang, Arvind Suresh, Jacqueline J. Tao, Min Woo Sun, Alejandro Lozano, James Zou

Ärzte und Patienten nutzen zunehmend Large Language Models (LLMs), um klinische Fälle zu diagnostizieren. Im Gegensatz zu Bereichen wie Mathematik oder Programmierung, bei denen die Korrektheit objektiv durch die endgültige Antwort definiert werden kann, erfordert die medizinische Diagnose sowohl das Ergebnis als auch den Denkprozess, präzise zu sein. Derzeit bewerten weit verbreitete medizinische Benchmarks wie MedQA und MMLU lediglich die Genauigkeit der endgültigen Antwort und übersehen dabei die Qualität und Zuverlässigkeit des klinischen Denkprozesses. Um diese Einschränkung zu überwinden, stellen wir MedCaseReasoning vor, den ersten frei zugänglichen Datensatz zur Bewertung von LLMs hinsichtlich ihrer Fähigkeit, sich mit von Klinikern verfassten diagnostischen Denkprozessen in Einklang zu bringen. Der Datensatz umfasst 14.489 diagnostische Frage-Antwort-Fälle, die jeweils mit detaillierten Begründungen aus frei zugänglichen medizinischen Fallberichten gepaart sind. Wir evaluieren state-of-the-art LLMs für das logische Denken anhand von MedCaseReasoning und stellen erhebliche Mängel in ihren Diagnosen und Begründungen fest: Beispielsweise erreicht das leistungsstärkste Open-Source-Modell, DeepSeek-R1, nur eine 10-Shot-Diagnosegenauigkeit von 48 % und erwähnt lediglich 64 % der klinischen Begründungen (Recall). Wir zeigen jedoch, dass das Feinabstimmen von LLMs anhand der aus MedCaseReasoning abgeleiteten Denkprozesse die diagnostische Genauigkeit und den klinischen Recall signifikant verbessert, mit durchschnittlichen relativen Steigerungen von 29 % bzw. 41 %. Der frei zugängliche Datensatz, der Code und die Modelle sind unter https://github.com/kevinwu23/Stanford-MedCaseReasoning verfügbar.

Beschleunigung der TarFlow-Stichprobenentnahme mit GS-Jacobi-Iteration
Accelerate TarFlow Sampling with GS-Jacobi Iteration

May 19

ByBen Liu, Zhen Qin

Bildgenerierungsmodelle haben weitverbreitete Anwendungen gefunden. Ein Beispiel ist das TarFlow-Modell, das die Transformer-Architektur mit Normalizing Flow-Modellen kombiniert und dabei state-of-the-art Ergebnisse auf mehreren Benchmarks erzielt. Aufgrund der kausalen Form der Aufmerksamkeit, die eine sequenzielle Berechnung erfordert, ist der Sampling-Prozess von TarFlow jedoch extrem langsam. In diesem Artikel zeigen wir, dass durch eine Reihe von Optimierungsstrategien das TarFlow-Sampling mithilfe der Gauss-Seidel-Jacobi (abgekürzt als GS-Jacobi) Iterationsmethode erheblich beschleunigt werden kann. Insbesondere stellen wir fest, dass Blöcke im TarFlow-Modell unterschiedliche Bedeutung haben: Eine kleine Anzahl von Blöcken spielt eine Hauptrolle bei Bildgenerierungsaufgaben, während andere Blöcke relativ wenig beitragen; einige Blöcke sind empfindlich gegenüber Anfangswerten und anfällig für numerische Überläufe, während andere relativ robust sind. Basierend auf diesen beiden Eigenschaften schlagen wir das Convergence Ranking Metric (CRM) und das Initial Guessing Metric (IGM) vor: CRM wird verwendet, um festzustellen, ob ein TarFlow-Block „einfach“ ist (konvergiert in wenigen Iterationen) oder „schwierig“ (erfordert mehr Iterationen); IGM wird verwendet, um zu bewerten, ob der Anfangswert der Iteration gut ist. Experimente an vier TarFlow-Modellen zeigen, dass GS-Jacobi-Sampling die Sampling-Effizienz erheblich steigern kann, während die Qualität der generierten Bilder (gemessen durch FID) erhalten bleibt, und dabei Beschleunigungen von 4,53x in Img128cond, 5,32x in AFHQ, 2,96x in Img64uncond und 2,51x in Img64cond erreicht, ohne die FID-Werte oder die Sample-Qualität zu verschlechtern. Code und Checkpoints sind auf https://github.com/encoreus/GS-Jacobi_for_TarFlow verfügbar.

Tiny QA Benchmark++: Ultra-leichtgewichtige, synthetische Mehrsprachige Datensatzgenerierung & Smoke-Tests zur kontinuierlichen LLM-Evaluierung
Tiny QA Benchmark++: Ultra-Lightweight, Synthetic Multilingual Dataset Generation & Smoke-Tests for Continuous LLM Evaluation

May 17

ByVincent Koc

Tiny QA Benchmark++ (TQB++) bietet ein ultraleichtes, mehrsprachiges Smoke-Test-Suite, das entwickelt wurde, um großen Sprachmodell-Pipelines (LLM) ein Unit-Test-artiges Sicherheitsnetz-Datensatz zu bieten, das in Sekunden mit minimalen Kosten läuft. Entstanden aus den Anforderungen eines engen Feedback-Zyklus beim Aufbau des Comet Opik Prompt-Optimierungs-SDK, bei dem das Warten auf ressourcenintensive Benchmarks den Entwicklerfluss unterbricht. TQB++ kombiniert einen 52-Punkte umfassenden englischen Goldstandard-Datensatz (weniger als 20 kB) mit einem winzigen synthetischen Daten-Generator-Paket auf PyPI, das auf dem anbieterunabhängigen LiteLLM basiert. Der Generator ermöglicht es Praktikern, ihre eigenen kleinen Datensätze in jeder Sprache, jedem Bereich oder Schwierigkeitsgrad zu erstellen, während zehn vorgefertigte Pakete bereits Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch, Portugiesisch, Russisch, Spanisch und Türkisch abdecken. Jeder Datensatz wird mit Croissant-Metadaten und Plug-and-Play-Dateien für OpenAI-Evals, LangChain und Standard-CI-Tools geliefert, sodass Teams deterministische Mikro-Benchmarks direkt in Pull-Request-Gates, Prompt-Engineering-Schleifen und Produktions-Dashboards integrieren können, ohne das GPU-Budget zu belasten. Ein vollständiger TQB++-Lauf fügt der Pipeline-Latenz nur wenige Sekunden hinzu, markiert jedoch zuverlässig Fehler in Prompt-Vorlagen, Tokenizer-Drift und Nebenwirkungen des Fine-Tunings, lange bevor umfangreiche Suiten wie MMLU oder BIG-Bench überhaupt konfiguriert wären. Das gesamte Framework wurde veröffentlicht, um eine kontinuierliche, ressourceneffiziente Qualitätssicherung im gesamten generativen KI-Ökosystem zu beschleunigen.

FinePhys: Fein abgestufte Generierung menschlicher Handlungen durch explizite Einbindung physikalischer Gesetze für effektive Skelettführung
FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

May 19

ByDian Shao, Mingfei Shi, Shengda Xu, Haodong Chen, Yongle Huang, Binglu Wang

Trotz bedeutender Fortschritte in der Videogenerierung bleibt die Synthese physikalisch plausibler menschlicher Bewegungen eine anhaltende Herausforderung, insbesondere bei der Modellierung feinkörniger Semantik und komplexer zeitlicher Dynamiken. Beispielsweise stellt die Generierung von Gymnastikübungen wie dem „Wechselsprung mit 0,5 Drehung“ erhebliche Schwierigkeiten für aktuelle Methoden dar, die oft unbefriedigende Ergebnisse liefern. Um diese Lücke zu schließen, schlagen wir FinePhys vor, ein feinkörniges Framework zur Generierung menschlicher Bewegungen, das Physik einbezieht, um effektive skelettale Leitlinien zu erhalten. Konkret schätzt FinePhys zunächst 2D-Posen in Echtzeit und führt dann eine 2D-zu-3D-Dimensionierung durch kontextbezogenes Lernen durch. Um die Instabilität und begrenzte Interpretierbarkeit rein datengetriebener 3D-Posen zu mildern, führen wir ein physikbasiertes Bewegungs-Neuberechnungsmodul ein, das durch Euler-Lagrange-Gleichungen gesteuert wird und Gelenkbeschleunigungen durch bidirektionale zeitliche Aktualisierung berechnet. Die physikalisch vorhergesagten 3D-Posen werden dann mit datengetriebenen Posen fusioniert, wodurch mehrstufige 2D-Heatmap-Leitlinien für den Diffusionsprozess bereitgestellt werden. Evaluierungen auf drei feinkörnigen Aktionsuntergruppen aus FineGym (FX-JUMP, FX-TURN und FX-SALTO) zeigen, dass FinePhys konkurrenzfähige Baselines deutlich übertrifft. Umfassende qualitative Ergebnisse demonstrieren weiterhin die Fähigkeit von FinePhys, natürlichere und plausiblere feinkörnige menschliche Bewegungen zu generieren.

SoftCoT++: Test-Zeit-Skalierung mit weicher Chain-of-Thought-Argumentation
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning

May 16

ByYige Xu, Xu Guo, Zhiwei Zeng, Chunyan Miao

Test-Time Scaling (TTS) bezeichnet Ansätze, die die Schlussfolgerungsleistung verbessern, indem zusätzliche Berechnungen während der Inferenz zugewiesen werden, ohne die Parameter des Modells zu verändern. Während bestehende TTS-Methoden in einem diskreten Token-Raum operieren, indem sie mehr Zwischenschritte generieren, haben aktuelle Studien in Coconut und SoftCoT gezeigt, dass das Denken im kontinuierlichen latenten Raum die Schlussfolgerungsleistung weiter steigern kann. Solche latenten Gedanken kodieren informatives Denken ohne den Informationsverlust, der mit der autoregressiven Token-Generierung verbunden ist, was das Interesse am kontinuierlichen Raum-Schlussfolgern verstärkt hat. Im Gegensatz zur diskreten Dekodierung, bei der wiederholtes Sampling die Erkundung verschiedener Schlussfolgerungspfade ermöglicht, sind latente Repräsentationen im kontinuierlichen Raum für einen gegebenen Eingabewert festgelegt, was die vielfältige Erkundung einschränkt, da alle dekodierten Pfade vom gleichen latenten Gedanken ausgehen. Um diese Einschränkung zu überwinden, führen wir SoftCoT++ ein, um SoftCoT auf das Test-Time Scaling-Paradigma auszuweiten, indem wir die vielfältige Erkundung von Denkpfaden ermöglichen. Konkret stören wir latente Gedanken durch mehrere spezialisierte Initialtokens und wenden kontrastives Lernen an, um die Diversität unter den weichen Gedankenrepräsentationen zu fördern. Experimente über fünf Schlussfolgerungs-Benchmarks und zwei unterschiedliche LLM-Architekturen zeigen, dass SoftCoT++ SoftCoT signifikant verbessert und auch SoftCoT mit Self-Consistency-Scaling übertrifft. Darüber hinaus zeigt es eine starke Kompatibilität mit konventionellen Skalierungstechniken wie Self-Consistency. Der Quellcode ist unter https://github.com/xuyige/SoftCoT verfügbar.

Erstellung allgemeiner Benutzermodelle aus der Computernutzung
Creating General User Models from Computer Use

May 16

ByOmar Shaikh, Shardul Sapkota, Shan Rizvi, Eric Horvitz, Joon Sung Park, Diyi Yang, Michael S. Bernstein

Die Mensch-Computer-Interaktion hat sich schon lange Technologien vorgestellt, die uns verstehen – von unseren Vorlieben und Gewohnheiten bis hin zum Timing und Zweck unserer alltäglichen Handlungen. Dennoch bleiben aktuelle Benutzermodelle fragmentiert, eng auf spezifische Anwendungen zugeschnitten und unfähig zu dem flexiblen Denken, das erforderlich ist, um diese Visionen zu verwirklichen. Dieses Papier stellt eine Architektur für ein allgemeines Benutzermodell (General User Model, GUM) vor, das durch die Beobachtung jeglicher Interaktion, die Sie mit Ihrem Computer haben, über Sie lernt. Das GUM nimmt als Eingabe jede unstrukturierte Beobachtung eines Benutzers (z. B. Bildschirmfotos von Geräten) und konstruiert gewichtete Aussagen, die das Wissen und die Präferenzen dieses Benutzers erfassen. GUMs können beispielsweise ableiten, dass ein Benutzer sich auf eine Hochzeit vorbereitet, die er besucht, basierend auf Nachrichten mit einem Freund. Oder sie erkennen, dass ein Benutzer mit dem Feedback eines Mitarbeiters zu einem Entwurf kämpft, indem sie mehrere stockende Bearbeitungen und einen Wechsel zum Lesen verwandter Arbeiten beobachten. GUMs führen eine Architektur ein, die neue Aussagen über einen Benutzer aus multimodalen Beobachtungen ableitet, verwandte Aussagen für den Kontext abruft und bestehende Aussagen kontinuierlich überarbeitet. Um die Breite der Anwendungen zu veranschaulichen, die GUMs ermöglichen, zeigen wir, wie sie Chat-basierte Assistenten mit Kontext erweitern, Betriebssystembenachrichtigungen verwalten, um wichtige Informationen gezielt anzuzeigen, und interaktive Agenten ermöglichen, die sich an Präferenzen über Apps hinweg anpassen. Wir implementieren auch proaktive Assistenten (GUMBOs), die nützliche Vorschläge im Namen eines Benutzers entdecken und ausführen, indem sie dessen GUM nutzen. In unseren Auswertungen stellen wir fest, dass GUMs kalibrierte und präzise Schlussfolgerungen über Benutzer ziehen und dass Assistenten, die auf GUMs basieren, proaktiv Aktionen identifizieren und ausführen, die Benutzer nicht explizit anfordern würden. Insgesamt führen GUMs Methoden ein, die multimodale Modelle nutzen, um unstrukturierten Kontext zu verstehen, und ermöglichen damit langjährige Visionen der Mensch-Computer-Interaktion sowie völlig neue interaktive Systeme, die Benutzerbedürfnisse vorwegnehmen.

QVGen: Die Grenzen quantisierter Video-Generierungsmodelle ausreizen
QVGen: Pushing the Limit of Quantized Video Generative Models

May 16

ByYushi Huang, Ruihao Gong, Jing Liu, Yifu Ding, Chengtao Lv, Haotong Qin, Jun Zhang

Video-Diffusionsmodelle (DMs) haben die Synthese hochwertiger Videos ermöglicht. Dennoch stellen ihre erheblichen Rechen- und Speicheranforderungen ernsthafte Herausforderungen für den Einsatz in der Praxis dar, selbst auf High-End-GPUs. Als häufig angewandte Lösung hat sich die Quantisierung bei der Kostensenkung für Bild-DMs als äußerst erfolgreich erwiesen, während ihre direkte Anwendung auf Video-DMs jedoch unwirksam bleibt. In diesem Artikel präsentieren wir QVGen, ein neuartiges Quantization-Aware-Training (QAT)-Framework, das speziell für leistungsstarke und inferenzeffiziente Video-DMs unter extrem niedriger Bit-Quantisierung (z. B. 4-Bit oder darunter) entwickelt wurde. Wir beginnen mit einer theoretischen Analyse, die zeigt, dass die Reduzierung der Gradientennorm entscheidend ist, um die Konvergenz für QAT zu ermöglichen. Zu diesem Zweck führen wir Hilfsmodule (Phi) ein, um große Quantisierungsfehler zu mindern, was zu einer deutlich verbesserten Konvergenz führt. Um den Inferenz-Overhead von Phi zu eliminieren, schlagen wir eine Rang-Zerfallsstrategie vor, die Phi schrittweise entfernt. Konkret verwenden wir wiederholt die Singulärwertzerlegung (SVD) und eine vorgeschlagene rangbasierte Regularisierung Gamma, um gering beitragende Komponenten zu identifizieren und abzubauen. Diese Strategie bewahrt die Leistung, während der Inferenz-Overhead auf Null reduziert wird. Umfangreiche Experimente mit 4 state-of-the-art (SOTA) Video-DMs, deren Parametergrößen von 1,3B bis 14B reichen, zeigen, dass QVGen als erstes eine mit der Vollpräzision vergleichbare Qualität unter 4-Bit-Einstellungen erreicht. Darüber hinaus übertrifft es bestehende Methoden deutlich. Beispielsweise erzielt unser 3-Bit CogVideoX-2B Verbesserungen von +25,28 im Dynamic Degree und +8,43 in der Szenenkonsistenz auf VBench.

HelpSteer3-Präferenz: Offene, menschlich annotierte Präferenzdaten über diverse Aufgaben und Sprachen
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages

May 16

ByZhilin Wang, Jiaqi Zeng, Olivier Delalleau, Hoo-Chang Shin, Felipe Soares, Alexander Bukharin, Ellie Evans, Yi Dong, Oleksii Kuchaiev

Präferenzdatensätze sind entscheidend für das Training allgemeiner, befehlsfolgender Sprachmodelle mittels Reinforcement Learning from Human Feedback (RLHF). Jede nachfolgende Datenveröffentlichung erhöht die Erwartungen an zukünftige Datensammlungen, was bedeutet, dass es einen ständigen Bedarf gibt, die Qualität und Vielfalt der öffentlich verfügbaren Präferenzdaten weiterzuentwickeln. Um diesem Bedarf gerecht zu werden, stellen wir HelpSteer3-Preference vor, einen hochwertigen, menschlich annotierten Präferenzdatensatz mit über 40.000 Proben, der unter einer freien Lizenz (CC-BY-4.0) veröffentlicht wird. Diese Proben umfassen diverse reale Anwendungsfälle großer Sprachmodelle (LLMs), einschließlich Aufgaben aus den Bereichen STEM, Programmierung und mehrsprachige Szenarien. Mit HelpSteer3-Preference trainieren wir Belohnungsmodelle (RMs), die Spitzenleistungen auf RM-Bench (82,4 %) und JudgeBench (73,7 %) erzielen. Dies stellt eine erhebliche Verbesserung (~10 % absolut) gegenüber den bisher besten berichteten Ergebnissen bestehender RMs dar. Wir zeigen, dass HelpSteer3-Preference auch für das Training generativer RMs verwendet werden kann und wie Policymodelle mit RLHF unter Verwendung unserer RMs ausgerichtet werden können. Datensatz (CC-BY-4.0): https://huggingface.co/datasets/nvidia/HelpSteer3#preference

HISTAI: Ein Open-Source-Datensatz für großformatige Whole-Slide-Bilder in der computergestützten Pathologie
HISTAI: An Open-Source, Large-Scale Whole Slide Image Dataset for Computational Pathology

May 17

ByDmitry Nechaev, Alexey Pchelnikov, Ekaterina Ivanova

Jüngste Fortschritte in der digitalen Pathologie (DP), insbesondere durch künstliche Intelligenz und Foundation Models, haben die Bedeutung von groß angelegten, diversen und umfangreich annotierten Datensätzen hervorgehoben. Trotz ihrer entscheidenden Rolle mangelt es öffentlich verfügbaren Whole Slide Image (WSI)-Datensätzen oft an ausreichendem Umfang, Gewebevielfalt und umfassenden klinischen Metadaten, was die Robustheit und Generalisierbarkeit von KI-Modellen einschränkt. Als Antwort darauf stellen wir den HISTAI-Datensatz vor, eine große, multimodale, frei zugängliche WSI-Sammlung, die über 60.000 Aufnahmen verschiedener Gewebetypen umfasst. Jeder Fall im HISTAI-Datensatz wird durch umfangreiche klinische Metadaten ergänzt, darunter Diagnose, demografische Informationen, detaillierte pathologische Anmerkungen und standardisierte Diagnosecodierungen. Der Datensatz zielt darauf ab, Lücken in bestehenden Ressourcen zu schließen und Innovation, Reproduzierbarkeit sowie die Entwicklung klinisch relevanter computergestützter Pathologielösungen zu fördern. Der Datensatz kann unter https://github.com/HistAI/HISTAI abgerufen werden.

TechniqueRAG: Retrieval-Augmented Generation für die Annotation von Adversarial Techniques in Cyber-Threat-Intelligence-Texten
TechniqueRAG: Retrieval Augmented Generation for Adversarial Technique Annotation in Cyber Threat Intelligence Text

May 17

ByAhmed Lekssays, Utsav Shukla, Husrev Taha Sencar, Md Rizwan Parvez

Die präzise Identifizierung von Angriffstechniken in Sicherheitstexten ist entscheidend für eine effektive Cyberabwehr. Bestehende Methoden stehen jedoch vor einem grundlegenden Dilemma: Sie verlassen sich entweder auf generische Modelle mit begrenzter Domänenpräzision oder erfordern ressourcenintensive Pipelines, die auf großen annotierten Datensätzen und aufgabenspezifischen Optimierungen wie benutzerdefiniertem Hard-Negative-Mining und Rauschunterdrückung basieren – Ressourcen, die in spezialisierten Domänen selten verfügbar sind. Wir schlagen TechniqueRAG vor, ein domänenspezifisches Retrieval-Augmented-Generation (RAG)-Framework, das diese Lücke schließt, indem es Standard-Retriever, instruktionsoptimierte LLMs (Large Language Models) und minimale Text-Technik-Paare integriert. Unser Ansatz adressiert die Datenknappheit, indem nur die Generationskomponente anhand weniger domänenspezifischer Beispiele feinabgestimmt wird, wodurch der Bedarf an ressourcenintensivem Retrieval-Training entfällt. Während herkömmliches RAG Halluzinationen durch die Kopplung von Retrieval und Generierung reduziert, führt die Abhängigkeit von generischen Retrievern oft zu verrauschten Kandidaten, was die domänenspezifische Präzision einschränkt. Um dies zu beheben, verbessern wir die Retrieval-Qualität und Domänenspezifität durch Zero-Shot-LLM-Re-Ranking, das die abgerufenen Kandidaten explizit mit Angriffstechniken in Einklang bringt. Experimente auf mehreren Sicherheits-Benchmarks zeigen, dass TechniqueRAG ohne umfangreiche aufgabenspezifische Optimierungen oder annotierte Daten state-of-the-art Leistung erzielt, während eine umfassende Analyse weitere Einblicke liefert.

ExTrans: Multilinguale tiefgreifende Übersetzungslogik durch exemplarverstärktes Reinforcement Learning
ExTrans: Multilingual Deep Reasoning Translation via Exemplar-Enhanced Reinforcement Learning

May 19

ByJiaan Wang, Fandong Meng, Jie Zhou

In den letzten Jahren haben große Reasoning-Modelle (LRMs) wie OpenAI-o1 und DeepSeek-R1 beeindruckende Fähigkeiten bei der Lösung komplexer Probleme, z. B. in Mathematik und Programmierung, gezeigt. Einige wegweisende Studien versuchen, den Erfolg von LRMs auf die neuronale maschinelle Übersetzung (MT) zu übertragen. Sie zielen darauf ab, LRMs mit tiefgreifender MT-Reasoning-Fähigkeit durch Reinforcement Learning (RL) zu entwickeln. Trotz einiger Fortschritte konzentrieren sich diese Versuche in der Regel auf mehrere Hochressourcen-Sprachen wie Englisch und Chinesisch, wodurch die Leistung in anderen Sprachen unklar bleibt. Darüber hinaus nutzen die Belohnungsmodellierungsmethoden in früheren Arbeiten das Potenzial von Reinforcement Learning in der MT nicht vollständig aus. In dieser Arbeit entwickeln wir zunächst eine neue Belohnungsmodellierungsmethode, die die Übersetzungsergebnisse des Policy-MT-Modells mit einem starken LRM (d. h. DeepSeek-R1-671B) vergleicht und diese Vergleiche quantifiziert, um Belohnungen zu liefern. Experimentelle Ergebnisse demonstrieren die Überlegenheit dieser Belohnungsmodellierungsmethode. Mit Qwen2.5-7B-Instruct als Grundlage erreicht das trainierte Modell eine neue State-of-the-Art-Leistung in der literarischen Übersetzung und übertrifft starke LRMs wie OpenAI-o1 und DeepSeek-R1. Darüber hinaus erweitern wir unsere Methode auf multilinguale Einstellungen mit 11 Sprachen. Durch ein sorgfältig entworfenes, leichtgewichtiges Belohnungsmodell im RL können wir die starke MT-Fähigkeit einfach von einer einzelnen Richtung auf mehrere (d. h. 90) Übersetzungsrichtungen übertragen und beeindruckende multilinguale MT-Leistungen erzielen.

Von Grunzen zur Grammatik: Entstehende Sprache aus kooperativem Nahrungserwerb
From Grunts to Grammar: Emergent Language from Cooperative Foraging

May 19

ByMaytus Piriyajitakonkij, Rujikorn Charakorn, Weicheng Tao, Wei Pan, Mingfei Sun, Cheston Tan, Mengmi Zhang

Frühe Höhlenmenschen verließen sich auf Gesten, Lautäußerungen und einfache Signale, um sich zu koordinieren, zu planen, Raubtiere zu vermeiden und Ressourcen zu teilen. Heute arbeiten Menschen mit komplexen Sprachen zusammen, um bemerkenswerte Ergebnisse zu erzielen. Was treibt diese Entwicklung der Kommunikation an? Wie entsteht Sprache, passt sich an und wird für Teamarbeit unverzichtbar? Die Ursprünge der Sprache zu verstehen, bleibt eine Herausforderung. Eine führende Hypothese in der Linguistik und Anthropologie besagt, dass sich Sprache entwickelt hat, um den ökologischen und sozialen Anforderungen der frühen menschlichen Zusammenarbeit gerecht zu werden. Sprache entstand nicht isoliert, sondern durch gemeinsame Überlebensziele. Inspiriert von dieser Sichtweise untersuchen wir die Entstehung von Sprache in Multi-Agenten-Foraging-Spielen. Diese Umgebungen sind so gestaltet, dass sie die kognitiven und ökologischen Zwänge widerspiegeln, von denen angenommen wird, dass sie die Entwicklung der Kommunikation beeinflusst haben. Agenten agieren in einer gemeinsamen Gitterwelt mit nur teilweiser Kenntnis über andere Agenten und die Umgebung und müssen sich koordinieren, um Spiele wie das Aufsammeln von hochwertigen Zielen oder das Ausführen zeitlich geordneter Aktionen zu bewältigen. Mithilfe von end-to-end Deep Reinforcement Learning lernen Agenten sowohl Aktionen als auch Kommunikationsstrategien von Grund auf. Wir stellen fest, dass Agenten Kommunikationsprotokolle mit charakteristischen Merkmalen natürlicher Sprache entwickeln: Willkürlichkeit, Austauschbarkeit, Verschiebung, kulturelle Übertragung und Kompositionalität. Wir quantifizieren jede Eigenschaft und analysieren, wie verschiedene Faktoren wie Bevölkerungsgröße und zeitliche Abhängigkeiten spezifische Aspekte der entstehenden Sprache prägen. Unser Framework dient als Plattform, um zu untersuchen, wie Sprache aus partieller Beobachtbarkeit, zeitlichem Denken und kooperativen Zielen in verkörperten Multi-Agenten-Settings entstehen kann. Wir werden alle Daten, Codes und Modelle öffentlich zugänglich machen.

Gelernte leichtgewichtige Smartphone-ISP mit ungepaarten Daten
Learned Lightweight Smartphone ISP with Unpaired Data

May 15

ByAndrei Arhire, Radu Timofte

Der Bildsignalprozessor (Image Signal Processor, ISP) ist eine grundlegende Komponente in modernen Smartphone-Kameras, die für die Umwandlung von RAW-Sensordaten in RGB-Bilder mit einem starken Fokus auf wahrnehmungsbezogene Qualität verantwortlich ist. Aktuelle Arbeiten heben das Potenzial von Deep-Learning-Ansätzen und deren Fähigkeit hervor, Details mit einer zunehmend professionellen Kameraqualität zu erfassen. Ein schwieriger und kostspieliger Schritt bei der Entwicklung eines lernfähigen ISPs ist die Beschaffung von pixelgenau ausgerichteten gepaarten Daten, die die von einem Smartphone-Kamerasensor erfassten Rohdaten auf hochwertige Referenzbilder abbilden. In dieser Arbeit gehen wir diese Herausforderung an, indem wir eine neuartige Trainingsmethode für einen lernfähigen ISP vorschlagen, die die Notwendigkeit direkter Korrespondenzen zwischen Rohbildern und Ground-Truth-Daten mit übereinstimmendem Inhalt eliminiert. Unser ungepaarter Ansatz verwendet eine mehrgliedrige Verlustfunktion, die durch adversarielles Training mit mehreren Diskriminatoren geleitet wird, die Feature-Maps aus vortrainierten Netzwerken verarbeiten, um die Inhaltsstruktur beizubehalten, während Farb- und Texturmerkmale aus dem Ziel-RGB-Datensatz gelernt werden. Unter Verwendung von leichten neuronalen Netzwerkarchitekturen, die für Mobilgeräte geeignet sind, als Backbones, haben wir unsere Methode auf den Zurich RAW to RGB- und Fujifilm UltraISP-Datensätzen evaluiert. Im Vergleich zu gepaarten Trainingsmethoden zeigt unsere ungepaarte Lernstrategie ein starkes Potenzial und erreicht eine hohe Genauigkeit über mehrere Bewertungsmetriken hinweg. Der Code und die vortrainierten Modelle sind unter https://github.com/AndreiiArhire/Learned-Lightweight-Smartphone-ISP-with-Unpaired-Data verfügbar.

Schnell, nicht ausgefallen: Neubewertung von G2P mit umfangreichen Daten und regelbasierten Modellen
Fast, Not Fancy: Rethinking G2P with Rich Data and Rule-Based Models

May 19

ByMahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee

Die Homograph-Disambiguierung bleibt eine bedeutende Herausforderung bei der Graphem-zu-Phonem (G2P)-Konvertierung, insbesondere für ressourcenarme Sprachen. Diese Herausforderung ist zweifach: (1) Die Erstellung ausgewogener und umfassender Homograph-Datensätze ist arbeitsintensiv und kostspielig, und (2) spezifische Disambiguierungsstrategien führen zu zusätzlicher Latenz, was sie für Echtzeitanwendungen wie Bildschirmlesegeräte und andere Barrierefreiheitstools ungeeignet macht. In diesem Papier gehen wir auf beide Probleme ein. Zunächst schlagen wir eine halbautomatisierte Pipeline zur Erstellung von Homograph-fokussierten Datensätzen vor, stellen den durch diese Pipeline generierten HomoRich-Datensatz vor und demonstrieren seine Wirksamkeit, indem wir ihn zur Verbesserung eines state-of-the-art, auf Deep Learning basierenden G2P-Systems für Persisch anwenden. Zweitens plädieren wir für einen Paradigmenwechsel – die Nutzung umfangreicher Offline-Datensätze, um die Entwicklung schneller, regelbasierter Methoden zu informieren, die für latenzempfindliche Barrierefreiheitsanwendungen wie Bildschirmlesegeräte geeignet sind. Zu diesem Zweck verbessern wir eines der bekanntesten regelbasierten G2P-Systeme, eSpeak, zu einer schnellen, homographenbewussten Version, HomoFast eSpeak. Unsere Ergebnisse zeigen eine Verbesserung der Homograph-Disambiguierungsgenauigkeit um etwa 30 % sowohl für das Deep-Learning-basierte als auch für das eSpeak-System.

Ein Token ist mehr als 1.000 Token wert: Effiziente Wissensdistillation durch Low-Rank-Klone
A Token is Worth over 1,000 Tokens: Efficient Knowledge Distillation through Low-Rank Clone

May 19

ByJitai Hao, Qiang Huang, Hao Liu, Xinyan Xiao, Zhaochun Ren, Jun Yu

Das Training von leistungsstarken Small Language Models (SLMs) bleibt kostspielig, selbst bei der Verwendung von Wissensdestillation und Pruning von größeren Lehrermodellen. Bestehende Arbeiten stehen oft vor drei zentralen Herausforderungen: (1) Informationsverlust durch hartes Pruning, (2) ineffiziente Ausrichtung von Repräsentationen und (3) unzureichende Nutzung informativer Aktivierungen, insbesondere aus Feed-Forward Networks (FFNs). Um diese Herausforderungen zu bewältigen, stellen wir Low-Rank Clone (LRC) vor, eine effiziente Pre-Training-Methode, die SLMs entwickelt, die eine Verhaltensäquivalenz zu starken Lehrermodellen anstreben. LRC trainiert eine Reihe von Low-Rank-Projektionsmatrizen, die gemeinsam ein weiches Pruning ermöglichen, indem sie die Gewichte des Lehrers komprimieren, und eine Aktivierungsklonierung, indem sie die Aktivierungen des Schülers, einschließlich der FFN-Signale, mit denen des Lehrers ausrichten. Dieses einheitliche Design maximiert den Wissenstransfer, während es den Bedarf an expliziten Ausrichtungsmodulen eliminiert. Umfangreiche Experimente mit Open-Source-Lehrermodellen (z.B. Llama-3.2-3B-Instruct, Qwen2.5-3B/7B-Instruct) zeigen, dass LRC mit state-of-the-art Modellen, die mit Billionen von Tokens trainiert wurden, gleichzieht oder sie übertrifft – während nur 20 Milliarden Tokens verwendet werden, was eine über 1.000-fache Trainingseffizienz erreicht. Unsere Codes und Modell-Checkpoints sind verfügbar unter https://github.com/CURRENTF/LowRankClone und https://huggingface.co/collections/JitaiHao/low-rank-clone-lrc-6828389e96a93f1d4219dfaf.

LLM-Kontextkonditionierung und PWP-Prompting zur multimodalen Validierung chemischer Formeln
LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas

May 18

ByEvgeny Markhasin

Das Erkennen subtiler technischer Fehler in komplexen wissenschaftlichen und technischen Dokumenten, insbesondere solchen, die eine multimodale Interpretation erfordern (z. B. Formeln in Bildern), stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, deren inhärente Fehlerkorrektur-Tendenzen Ungenauigkeiten verschleiern können. Diese explorative Proof-of-Concept (PoC)-Studie untersucht strukturierte LLM-Kontextkonditionierung, basierend auf den Prinzipien des Persistent Workflow Prompting (PWP), als methodische Strategie zur Modulation dieses LLM-Verhaltens während der Inferenz. Der Ansatz zielt darauf ab, die Zuverlässigkeit von allgemein verfügbaren, universellen LLMs (insbesondere Gemini 2.5 Pro und ChatGPT Plus o3) für präzise Validierungsaufgaben zu verbessern, wobei ausschließlich deren Standard-Chat-Oberflächen ohne API-Zugriff oder Modellmodifikationen genutzt werden. Um diese Methodik zu erforschen, konzentrierten wir uns auf die Validierung chemischer Formeln in einem einzigen, komplexen Testdokument mit bekannten textuellen und bildbasierten Fehlern. Mehrere Prompting-Strategien wurden evaluiert: Während einfache Prompts sich als unzuverlässig erwiesen, schien ein Ansatz, der PWP-Strukturen anpasst, um das analytische Denken des LLMs rigoros zu konditionieren, die Identifikation textueller Fehler bei beiden Modellen zu verbessern. Bemerkenswerterweise führte diese Methode auch dazu, dass Gemini 2.5 Pro wiederholt einen subtilen bildbasierten Formelfehler identifizierte, der zuvor bei der manuellen Überprüfung übersehen worden war – eine Aufgabe, bei der ChatGPT Plus o3 in unseren Tests versagte. Diese vorläufigen Ergebnisse beleuchten spezifische LLM-Betriebsmodi, die eine detailorientierte Validierung behindern, und deuten darauf hin, dass PWP-informierte Kontextkonditionierung eine vielversprechende und hochgradig zugängliche Technik zur Entwicklung robusterer LLM-gestützter analytischer Workflows bietet, insbesondere für Aufgaben, die eine sorgfältige Fehlererkennung in wissenschaftlichen und technischen Dokumenten erfordern. Eine umfassende Validierung über diesen begrenzten PoC hinaus ist notwendig, um die breitere Anwendbarkeit zu bestätigen.

KI-gestützte wissenschaftliche Peer-Review durch persistente Workflow-Prompting, Meta-Prompting und Meta-Reasoning
AI-Driven Scholarly Peer Review via Persistent Workflow Prompting, Meta-Prompting, and Meta-Reasoning

May 6

ByEvgeny Markhasin

Die kritische Begutachtung wissenschaftlicher Manuskripte durch Fachkollegen stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, teilweise aufgrund von Datenbeschränkungen und der Komplexität von Expertenargumentationen. Dieser Bericht stellt Persistent Workflow Prompting (PWP) vor, eine potenziell breit anwendbare Prompt-Engineering-Methodik, die entwickelt wurde, um diese Lücke mithilfe standardmäßiger LLM-Chat-Oberflächen (zero-code, keine APIs) zu überbrücken. Wir präsentieren einen Proof-of-Concept-PWP-Prompt für die kritische Analyse von experimentellen Chemie-Manuskripten, der eine hierarchische, modulare Architektur (strukturiert via Markdown) aufweist, die detaillierte Analyse-Workflows definiert. Wir entwickeln diesen PWP-Prompt durch iterative Anwendung von Meta-Prompting-Techniken und Meta-Argumentation, die darauf abzielen, Expertenbegutachtungs-Workflows systematisch zu kodifizieren, einschließlich impliziten Wissens. Einmal zu Beginn einer Sitzung übermittelt, stattet dieser PWP-Prompt das LLM mit persistenten Workflows aus, die durch nachfolgende Abfragen ausgelöst werden und moderne argumentationsfähige LLMs durch systematische, multimodale Bewertungen führen. Demonstrationen zeigen, dass das PWP-gesteuerte LLM wesentliche methodische Mängel in einem Testfall identifiziert, während es LLM-Eingabeverzerrungen mindert und komplexe Aufgaben ausführt, darunter die Unterscheidung von Behauptungen und Beweisen, die Integration von Text-/Foto-/Abbildungsanalysen zur Ableitung von Parametern, die Durchführung quantitativer Machbarkeitsprüfungen, den Vergleich von Schätzungen mit Behauptungen und die Bewertung der a-priori-Plausibilität. Um Transparenz zu gewährleisten und die Replikation zu erleichtern, stellen wir vollständige Prompts, detaillierte Demonstrationsanalysen und Protokolle interaktiver Chats als ergänzende Ressourcen bereit. Über die spezifische Anwendung hinaus bietet diese Arbeit Einblicke in den Meta-Entwicklungsprozess selbst und hebt das Potenzial von PWP hervor, das durch die detaillierte Formalisierung von Workflows informiert wird, um anspruchsvolle Analysen mit leicht verfügbaren LLMs für komplexe wissenschaftliche Aufgaben zu ermöglichen.

Können KI-Freiberufler mithalten? Benchmarking von Einkommen, Zuverlässigkeit und Aufgabenbewältigung im großen Maßstab
Can AI Freelancers Compete? Benchmarking Earnings, Reliability, and Task Success at Scale

May 16

ByDavid Noever, Forrest McKee

Diese Studie untersucht Large Language Models (LLMs) als autonome Agenten für reale Aufgaben, einschließlich freiberuflicher Softwareentwicklung. Die Arbeit stellt einen neuen Benchmark vor, der LLMs anhand von freiberuflichen Programmier- und Datenanalysaufgaben bewertet, die aus wirtschaftlichen Daten abgeleitet wurden. Wir konstruieren den Benchmark mithilfe synthetischer Aufgaben, die aus einem Kaggle-Freelancer-Datensatz von Stellenausschreibungen erstellt wurden, wobei alle Auftragspreise auf USD standardisiert sind (Median des Festpreisprojekts bei etwa 250 und ein Durchschnitt von 306). Jede Aufgabe wird von strukturierten Eingabe-Ausgabe-Testfällen und einem geschätzten Preisschild begleitet, was eine automatisierte Korrektheitsprüfung und eine monetäre Leistungsbewertung ermöglicht. Dieser Ansatz ist von OpenAIs kürzlich veröffentlichtem SWE-Lancer-Benchmark inspiriert (1.400 reale Upwork-Aufgaben im Wert von insgesamt 1 Mio. USD). Unser Framework vereinfacht jedoch die Bewertung durch die Verwendung von programmatisch testbaren Aufgaben und vorhergesagten Preiswerten, was es hoch skalierbar und wiederholbar macht. Auf diesem Benchmark bewerten wir vier moderne LLMs – Claude 3.5 Haiku, GPT-4o-mini, Qwen 2.5 und Mistral. Wir berichten über die Genauigkeit jedes Modells (Aufgabenerfolgsrate und Testfall-Durchlaufrate) sowie die gesamten „freiberuflichen Einnahmen“, die es erzielt (Summe der Preise der gelösten Aufgaben). Unsere Ergebnisse zeigen, dass Claude 3.5 Haiku am besten abschneidet und etwa 1,52 Millionen USD verdient, dicht gefolgt von GPT-4o-mini mit 1,49 Millionen, dann Qwen 2.5 (1,33 Mio.) und Mistral (0,70 Mio. USD). Wir analysieren die Verteilung der Fehler pro Aufgabe und beobachten, dass die stärksten Modelle die meisten Aufgaben lösen und selten vollständig bei einem Projekt scheitern. Wir diskutieren die Implikationen dieser Ergebnisse für die Machbarkeit von KI als freiberuflicher Entwickler, die Vorteile und Grenzen unseres automatisierten Benchmark-Ansatzes sowie die Lücke zwischen der Leistung bei strukturierten Aufgaben und der tatsächlichen Komplexität realer freiberuflicher Jobs.