Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
18715
In dieser Arbeit stellen wir Reinforcement Pre-Training (RPT) als neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning (RL) vor. Konkret formulieren wir die Vorhersage des nächsten Tokens als eine mit RL trainierte Denkaufgabe, bei der das Modell überprüfbare Belohnungen für die korrekte Vorhersage des nächsten Tokens in einem gegebenen Kontext erhält. RPT bietet eine skalierbare Methode, um große Mengen an Textdaten für allgemeines RL zu nutzen, anstatt sich auf domänenspezifisch annotierte Antworten zu verlassen. Durch die Förderung der Fähigkeit zur nächsten Token-Vorhersage verbessert RPT die Genauigkeit der Sprachmodellierung bei der Vorhersage der nächsten Tokens erheblich. Darüber hinaus bietet RPT eine solide vortrainierte Grundlage für weitere Reinforcement-Fine-Tuning. Die Skalierungskurven zeigen, dass ein erhöhter Trainingsrechenaufwand die Genauigkeit der nächsten Token-Vorhersage kontinuierlich steigert. Die Ergebnisse positionieren RPT als ein effektives und vielversprechendes Skalierungsparadigma zur Weiterentwicklung des Vortrainings von Sprachmodellen.
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
943
Multimodale Large Language Models (MLLMs) haben beeindruckende Fähigkeiten beim Verständnis allgemeiner visueller Elemente gezeigt, was vor allem auf ihre umfangreichen Datensätze und fortschrittlichen Trainingsstrategien zurückzuführen ist. Ihre Effektivität in medizinischen Anwendungen bleibt jedoch aufgrund der inhärenten Diskrepanzen zwischen Daten und Aufgaben in medizinischen Szenarien und denen im allgemeinen Bereich begrenzt. Konkret stehen bestehende medizinische MLLMs vor folgenden kritischen Einschränkungen: (1) begrenzte Abdeckung medizinischen Wissens über die Bildgebung hinaus, (2) erhöhte Anfälligkeit für Halluzinationen aufgrund suboptimaler Datenkuratierungsprozesse, (3) fehlende Fähigkeiten zur logischen Schlussfolgerung, die auf komplexe medizinische Szenarien zugeschnitten sind. Um diese Herausforderungen zu bewältigen, schlagen wir zunächst ein umfassendes Datenkuratierungsverfahren vor, das (1) effizient umfangreiche medizinische Wissensdaten nicht nur aus der medizinischen Bildgebung, sondern auch aus umfangreichen medizinischen Texten und allgemeinen Domänendaten erfasst; und (2) präzise medizinische Beschreibungen, visuelle Frage-Antwort-Systeme (VQA) und Beispiele für logische Schlussfolgerungen synthetisiert. Als Ergebnis erstellen wir einen multimodalen Datensatz, der mit umfangreichem medizinischen Wissen angereichert ist. Aufbauend auf den kuratierten Daten stellen wir unser medizinspezialisiertes MLLM vor: Lingshu. Lingshu durchläuft ein mehrstufiges Training, um medizinisches Fachwissen zu verankern und seine Fähigkeiten zur Aufgabenlösung schrittweise zu verbessern. Darüber hinaus untersuchen wir vorläufig das Potenzial der Anwendung von Reinforcement Learning mit einem Paradigma überprüfbarer Belohnungen, um die medizinische Schlussfolgerungsfähigkeit von Lingshu zu verbessern. Zusätzlich entwickeln wir MedEvalKit, ein einheitliches Bewertungsframework, das führende multimodale und textbasierte medizinische Benchmarks für eine standardisierte, faire und effiziente Modellbewertung konsolidiert. Wir bewerten die Leistung von Lingshu in drei grundlegenden medizinischen Aufgaben: multimodale Frage-Antwort-Systeme, textbasierte Frage-Antwort-Systeme und die Generierung medizinischer Berichte. Die Ergebnisse zeigen, dass Lingshu die bestehenden Open-Source-Multimodalmodelle bei den meisten Aufgaben konsequent übertrifft ...
Dieses Papier stellt MiniCPM4 vor, ein hocheffizientes großes Sprachmodell (LLM), das speziell für Endgeräte entwickelt wurde. Wir erreichen diese Effizienz durch systematische Innovationen in vier Schlüsselbereichen: Modellarchitektur, Trainingsdaten, Trainingsalgorithmen und Inferenzsysteme. Im Bereich der Modellarchitektur präsentieren wir InfLLM v2, einen trainierbaren spärlichen Aufmerksamkeitsmechanismus, der sowohl die Vorbereitungs- als auch die Dekodierungsphase für die Verarbeitung langer Kontexte beschleunigt. Im Hinblick auf Trainingsdaten schlagen wir UltraClean vor, eine effiziente und präzise Strategie zur Filterung und Generierung von Vortrainingsdaten, sowie UltraChat v2, einen umfassenden Datensatz für überwachtes Feintuning. Diese Datensätze ermöglichen es, zufriedenstellende Modellleistungen mit nur 8 Billionen Trainings-Tokens zu erreichen. Im Bereich der Trainingsalgorithmen präsentieren wir ModelTunnel v2 für die effiziente Suche nach Vortrainingsstrategien und verbessern bestehende Post-Trainingsmethoden durch die Einführung von chunk-weiser Rollout für lastausgeglichenes Reinforcement Learning und das dateneffiziente ternäre LLM, BitCPM. Im Bereich der Inferenzsysteme schlagen wir CPM.cu vor, das spärliche Aufmerksamkeit, Modellquantisierung und spekulatives Sampling integriert, um effiziente Vorbereitungs- und Dekodierungsprozesse zu ermöglichen. Um verschiedenen Anforderungen auf Endgeräten gerecht zu werden, ist MiniCPM4 in zwei Versionen mit 0,5 Milliarden bzw. 8 Milliarden Parametern verfügbar. Umfangreiche Evaluierungsergebnisse zeigen, dass MiniCPM4 Open-Source-Modelle ähnlicher Größe in mehreren Benchmarks übertrifft, was sowohl seine Effizienz als auch seine Wirksamkeit unterstreicht. Besonders hervorzuheben ist, dass MiniCPM4-8B bei der Verarbeitung langer Sequenzen signifikante Geschwindigkeitsvorteile gegenüber Qwen3-8B aufweist. Durch weitere Anpassungen ermöglicht MiniCPM4 erfolgreich diverse Anwendungen, einschließlich der Generierung vertrauenswürdiger Umfragen und der Werkzeugnutzung mit Modellkontextprotokollen, was seine breite Einsetzbarkeit deutlich unterstreicht.
Bisherige Forschung zur Sicherheitsgewährleistung konzentrierte sich hauptsächlich auf die Trainingsphase, um sichere Verhaltensweisen in Large Language Models (LLMs) zu verankern. Jüngste Studien haben jedoch gezeigt, dass diese Methoden anfällig für diverse Jailbreak-Angriffe sind. Gleichzeitig hat die Inferenzskalierung die Fähigkeiten von LLMs im Bereich des logischen Denkens erheblich verbessert, wurde jedoch im Kontext der Sicherheitsgewährleistung noch nicht untersucht. Um diese Lücke zu schließen, führt unsere Arbeit die Inferenzskalierung für eine robuste und effektive Sicherheit von LLMs gegen neu auftretende Bedrohungen ein. Wir zeigen, dass konventionelle Inferenzskalierungstechniken, trotz ihrer Erfolge bei Denkaufgaben, in Sicherheitskontexten schlecht abschneiden und sogar hinter grundlegenden Ansätzen wie Best-of-N Sampling zurückbleiben. Diese Ineffizienz führen wir auf ein neu identifiziertes Problem zurück, das Exploration-Effizienz-Dilemma, das durch den hohen Rechenaufwand im Zusammenhang mit häufigen Bewertungen des Prozess-Belohnungsmodells (PRM) entsteht. Um dieses Dilemma zu überwinden, schlagen wir SAFFRON vor, ein neuartiges Inferenzskalierungsparadigma, das speziell für die Sicherheitsgewährleistung entwickelt wurde. Kern unseres Ansatzes ist die Einführung eines multifurkationsbasierten Belohnungsmodells (MRM), das die Anzahl der erforderlichen Belohnungsmodellbewertungen erheblich reduziert. Um dieses Paradigma umzusetzen, schlagen wir weiterhin vor: (i) ein partielles Überwachungsziel für das Training des MRM, (ii) eine konservative Explorationsbeschränkung, um Explorationen außerhalb der Verteilung zu verhindern, und (iii) eine Trie-basierte Schlüssel-Wert-Caching-Strategie, die die gemeinsame Nutzung von Caches über Sequenzen während der Baumsuche ermöglicht. Umfangreiche Experimente bestätigen die Wirksamkeit unserer Methode. Zusätzlich veröffentlichen wir unser trainiertes multifurkationsbasiertes Belohnungsmodell (Saffron-1) und den begleitenden tokenbasierten Sicherheits-Belohnungsdatensatz (Safety4M), um zukünftige Forschungen zur Sicherheit von LLMs zu beschleunigen. Unser Code, Modell und Daten sind öffentlich verfügbar unter https://github.com/q-rz/saffron, und unsere Projekt-Homepage befindet sich unter https://q-rz.github.io/p/saffron.
Text-to-Image (T2I)-Modelle haben aufgrund ihrer Fähigkeit, hochwertige Bilder in Übereinstimmung mit Textanweisungen zu generieren, erhebliche Aufmerksamkeit erregt. Die rasanten Fortschritte bei T2I-Modellen haben jedoch Schwächen in frühen Benchmark-Tests offengelegt, die keine umfassenden Bewertungen, beispielsweise in Bezug auf logisches Denken, Textdarstellung und Stil, bieten. Insbesondere zeigen aktuelle State-of-the-Art-Modelle mit ihren ausgeprägten Fähigkeiten zur Wissensmodellierung vielversprechende Ergebnisse bei Bildgenerierungsproblemen, die ein starkes logisches Denken erfordern. Dennoch haben bestehende Bewertungssysteme diese neue Entwicklung nicht ausreichend berücksichtigt. Um diese Lücken systematisch zu schließen, stellen wir OneIG-Bench vor, ein sorgfältig konzipiertes, umfassendes Benchmark-Framework zur feingranularen Bewertung von T2I-Modellen in mehreren Dimensionen, darunter die Übereinstimmung von Textanweisung und Bild, die Präzision der Textdarstellung, logisch generierte Inhalte, Stilisierung und Vielfalt. Durch die strukturierte Bewertung ermöglicht dieser Benchmark eine tiefgehende Analyse der Modellleistung, die Forschern und Praktikern hilft, Stärken und Engpässe im gesamten Bildgenerierungsprozess zu identifizieren. Insbesondere ermöglicht OneIG-Bench eine flexible Bewertung, indem Benutzer sich auf einen bestimmten Bewertungsbereich konzentrieren können. Anstatt Bilder für den gesamten Satz von Textanweisungen zu generieren, können Benutzer Bilder nur für die Anweisungen generieren, die mit der ausgewählten Dimension verknüpft sind, und die entsprechende Bewertung durchführen. Unser Code und Datensatz sind nun öffentlich verfügbar, um reproduzierbare Bewertungsstudien und modellübergreifende Vergleiche innerhalb der T2I-Forschungsgemeinschaft zu erleichtern.
SpatialLM ist ein großes Sprachmodell, das entwickelt wurde, um 3D-Punktwolkendaten zu verarbeiten und strukturierte 3D-Szenenverständnis-Ausgaben zu generieren. Diese Ausgaben umfassen architektonische Elemente wie Wände, Türen, Fenster sowie orientierte Objektboxen mit ihren semantischen Kategorien. Im Gegensatz zu früheren Methoden, die auf aufgabenspezifische Netzwerkdesigns setzen, folgt unser Modell der standardmäßigen multimodalen LLM-Architektur und wird direkt aus Open-Source-LLMs feinabgestimmt.
Um SpatialLM zu trainieren, haben wir einen groß angelegten, hochwertigen synthetischen Datensatz gesammelt, der die Punktwolken von 12.328 Innenraumszenen (54.778 Räume) mit Ground-Truth-3D-Annotationen enthält, und eine sorgfältige Studie zu verschiedenen Modellierungs- und Trainingsentscheidungen durchgeführt. Auf öffentlichen Benchmarks erzielt unser Modell Spitzenleistungen in der Layout-Schätzung und wettbewerbsfähige Ergebnisse in der 3D-Objekterkennung. Damit zeigen wir einen praktikablen Weg auf, um die räumlichen Verständnisfähigkeiten moderner LLMs für Anwendungen in Augmented Reality, embodied Robotics und mehr zu erweitern.
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
282
Vision Encoder werden zunehmend in modernen Anwendungen eingesetzt, von reinen Vision-Modellen bis hin zu multimodalen Systemen wie Vision-Sprache-Modellen. Trotz ihres bemerkenswerten Erfolgs bleibt unklar, wie diese Architekturen intern Merkmale repräsentieren. Hier schlagen wir einen neuartigen Ansatz zur Interpretation von Vision-Merkmalen durch Bildrekonstruktion vor. Wir vergleichen zwei verwandte Modellfamilien, SigLIP und SigLIP2, die sich nur in ihrem Trainingsziel unterscheiden, und zeigen, dass Encoder, die auf bildbasierten Aufgaben vortrainiert wurden, signifikant mehr Bildinformationen behalten als solche, die auf nicht-bildbezogenen Aufgaben wie kontrastivem Lernen trainiert wurden. Wir wenden unsere Methode weiterhin auf eine Reihe von Vision-Encodern an und ordnen sie nach der Informationsdichte ihrer Merkmalsrepräsentationen. Schließlich demonstrieren wir, dass die Manipulation des Merkmalsraums vorhersehbare Veränderungen in rekonstruierten Bildern bewirkt, wobei sich zeigt, dass orthogonale Rotationen (und nicht räumliche Transformationen) die Farbkodierung steuern. Unser Ansatz kann auf jeden Vision-Encoder angewendet werden und gibt Einblicke in die innere Struktur seines Merkmalsraums. Der Code und die Modellgewichte zur Reproduktion der Experimente sind auf GitHub verfügbar.
Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
272
Moderne Roboternavigationssysteme stoßen in vielfältigen und komplexen Innenraumumgebungen auf Schwierigkeiten. Traditionelle Ansätze verlassen sich auf mehrere Module mit kleinen Modellen oder regelbasierten Systemen und fehlen daher die Anpassungsfähigkeit an neue Umgebungen. Um dies zu beheben, haben wir Astra entwickelt, eine umfassende Dual-Modell-Architektur, bestehend aus Astra-Global und Astra-Local, für die Navigation mobiler Roboter. Astra-Global, ein multimodales LLM, verarbeitet visuelle und sprachliche Eingaben, um Selbst- und Ziel-Lokalisierung mithilfe eines hybriden topologisch-semantischen Graphen als globale Karte durchzuführen, und übertrifft dabei traditionelle Methoden der visuellen Ortserkennung. Astra-Local, ein Multitask-Netzwerk, übernimmt die lokale Pfadplanung und Odometrie-Schätzung. Sein 4D räumlich-zeitlicher Encoder, der durch selbstüberwachtes Lernen trainiert wird, erzeugt robuste 4D-Features für nachgelagerte Aufgaben. Der Planungskopf nutzt Flow Matching und einen neuartigen maskierten ESDF-Loss, um Kollisionsrisiken bei der Generierung lokaler Trajektorien zu minimieren, und der Odometrie-Kopf integriert Multi-Sensor-Eingaben über einen Transformer-Encoder, um die relative Pose des Roboters vorherzusagen. Auf realen hauseigenen mobilen Robotern eingesetzt, erreicht Astra eine hohe End-to-End-Missionserfolgsrate in verschiedenen Innenraumumgebungen.
Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
193
Hidden Markov Models (HMMs) sind grundlegende Werkzeuge zur Modellierung sequenzieller Daten mit latenter Markov-Struktur, doch ihre Anpassung an reale Daten bleibt eine rechnerische Herausforderung. In dieser Arbeit zeigen wir, dass vortrainierte große Sprachmodelle (LLMs) Daten, die von HMMs generiert werden, effektiv über In-Context-Learning (ICL) modellieren können – ihre Fähigkeit, Muster aus Beispielen innerhalb eines Prompts abzuleiten. Auf einer vielfältigen Menge synthetischer HMMs erreichen LLMs eine Vorhersagegenauigkeit, die sich dem theoretischen Optimum annähert. Wir entdecken neuartige Skalierungstrends, die von den Eigenschaften der HMMs beeinflusst werden, und bieten theoretische Vermutungen für diese empirischen Beobachtungen. Zudem geben wir praktische Leitlinien für Wissenschaftler, wie ICL als Diagnosewerkzeug für komplexe Daten genutzt werden kann. Bei realen Aufgaben zur Entscheidungsfindung von Tieren erzielt ICL eine wettbewerbsfähige Leistung im Vergleich zu von menschlichen Experten entworfenen Modellen. Unseres Wissens ist dies der erste Nachweis, dass ICL HMM-generierte Sequenzen lernen und vorhersagen kann – ein Fortschritt, der unser Verständnis von In-Context-Learning in LLMs vertieft und sein Potenzial als leistungsstarkes Werkzeug zur Aufdeckung verborgener Strukturen in komplexen wissenschaftlichen Daten aufzeigt.
Vision-Language-Action (VLA)-Modelle haben beeindruckende Fähigkeiten bei einer Vielzahl von Robotermanipulationsaufgaben gezeigt. Ihre zunehmende Modellgröße stellt jedoch erhebliche Herausforderungen für den Einsatz auf ressourcenbeschränkten Robotersystemen dar. Während sich das 1-Bit-Pretraining als effektiv erwiesen hat, um die Inferenzeffizienz großer Sprachmodelle bei minimalem Leistungsverlust zu verbessern, ist seine Anwendung auf VLA-Modelle noch weitgehend unerforscht. In dieser Arbeit präsentieren wir BitVLA, das erste 1-Bit-VLA-Modell für die Robotermanipulation, bei dem jeder Parameter ternär ist, d.h. {-1, 0, 1}. Um den Speicherbedarf des Vision-Encoders weiter zu reduzieren, schlagen wir die distilationsbewusste Trainingsstrategie vor, die den Encoder mit voller Präzision auf 1,58-Bit-Gewichte komprimiert. Während dieses Prozesses dient ein Encoder mit voller Präzision als Lehrer-Modell, um latente Repräsentationen besser auszurichten. Trotz des Mangels an groß angelegtem Robotik-Pretraining erreicht BitVLA eine Leistung, die mit dem state-of-the-art Modell OpenVLA-OFT mit 4-Bit-Post-Training-Quantisierung auf dem LIBERO-Benchmark vergleichbar ist, während nur 29,8 % des Speichers verbraucht werden. Diese Ergebnisse unterstreichen das Potenzial von BitVLA für den Einsatz auf speicherbeschränkten Edge-Geräten. Wir veröffentlichen den Code und die Modellgewichte unter https://github.com/ustcwhy/BitVLA.
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
162
Multimodale Diffusions-Transformer (MM-DiTs) haben bemerkenswerte Fortschritte in der textgesteuerten visuellen Generierung erzielt. Allerdings haben selbst state-of-the-art MM-DiT-Modelle wie FLUX Schwierigkeiten, eine präzise Ausrichtung zwischen Textprompts und generierten Inhalten zu erreichen. Wir identifizieren zwei zentrale Probleme im Aufmerksamkeitsmechanismus von MM-DiT, nämlich 1) die Unterdrückung der cross-modalen Aufmerksamkeit aufgrund von Token-Ungleichgewichten zwischen visuellen und textuellen Modalitäten und 2) das Fehlen einer zeitstufenabhängigen Aufmerksamkeitsgewichtung, was die Ausrichtung behindert. Um diese Probleme zu lösen, schlagen wir Temperature-Adjusted Cross-modal Attention (TACA) vor, eine parameter-effiziente Methode, die multimodale Interaktionen durch Temperaturskalierung und zeitstufenabhängige Anpassung dynamisch neu ausbalanciert. In Kombination mit LoRA-Fine-Tuning verbessert TACA die Text-Bild-Ausrichtung auf dem T2I-CompBench-Benchmark erheblich bei minimalem Rechenaufwand. Wir haben TACA an state-of-the-art Modellen wie FLUX und SD3.5 getestet und seine Fähigkeit zur Verbesserung der Bild-Text-Ausrichtung in Bezug auf Objekterscheinung, Attributbindung und räumliche Beziehungen nachgewiesen. Unsere Ergebnisse unterstreichen die Bedeutung des Ausgleichs der cross-modalen Aufmerksamkeit für die Verbesserung der semantischen Treue in Text-zu-Bild-Diffusionsmodellen. Unsere Codes sind öffentlich verfügbar unter https://github.com/Vchitect/TACA.
Die Überwachung mit langen Gedankenketten (Chain-of-Thought, CoT) hat sich zu einer gängigen Strategie entwickelt, um das logische Denken in Sprachmodellen zu verbessern. Obwohl dies bei großen Modellen effektiv ist, identifizieren wir ein Phänomen, das wir als Long CoT Degradation bezeichnen, bei dem kleine Sprachmodelle (SLMs; <=3B Parameter), die mit begrenzten langen CoT-Daten trainiert werden, eine erhebliche Leistungsverschlechterung erfahren. Durch umfangreiche Experimente mit den Modellfamilien Qwen2.5, LLaMA3 und Gemma3 zeigen wir, dass diese Verschlechterung bei SLMs weit verbreitet ist. In einigen Fällen verlieren Modelle, die mit nur 8.000 langen CoT-Beispielen trainiert wurden, bis zu 75 % ihrer ursprünglichen Leistung vor dem Fine-Tuning. Bemerkenswerterweise beobachten wir weiterhin, dass bei einigen besonders kleinen Modellen selbst das Training mit 220.000 langen CoT-Beispielen nicht ausreicht, um ihre ursprüngliche Leistung vor dem Fine-Tuning wiederherzustellen oder zu übertreffen. Unsere Analyse führt diesen Effekt auf Fehlerakkumulation zurück: Während längere Antworten die Kapazität für mehrstufiges logisches Denken erhöhen, verstärken sie auch das Risiko, dass sich Fehler summieren. Darüber hinaus stellen wir fest, dass Long CoT Degradation sich negativ auf nachgelagerte Verstärkungslernverfahren (Reinforcement Learning, RL) auswirken kann, obwohl dies durch ausreichend skaliertes überwachtes Fine-Tuning (Supervised Fine-Tuning, SFT) gemildert werden kann. Unsere Ergebnisse stellen gängige Annahmen über die Vorteile des langen CoT-Trainings für SLMs in Frage und bieten praktische Leitlinien für den Aufbau effektiverer kleinerer Modelle für logisches Denken.
Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
142
Wir untersuchen den Mechanismus, der einem zuvor identifizierten Phänomen in Vision Transformern zugrunde liegt – dem Auftreten von Tokens mit hoher Norm, die zu verrauschten Aufmerksamkeitskarten führen. Wir beobachten, dass in mehreren Modellen (z. B. CLIP, DINOv2) eine spärliche Menge von Neuronen dafür verantwortlich ist, Aktivierungen mit hoher Norm auf Ausreißer-Tokens zu konzentrieren, was zu unregelmäßigen Aufmerksamkeitsmustern führt und die nachgelagerte visuelle Verarbeitung beeinträchtigt. Während die bestehende Lösung zur Entfernung dieser Ausreißer darin besteht, Modelle von Grund auf mit zusätzlichen gelernten Register-Tokens neu zu trainieren, nutzen wir unsere Erkenntnisse, um einen trainingsfreien Ansatz zur Minderung dieser Artefakte zu entwickeln. Indem wir die Aktivierungen mit hoher Norm von unseren entdeckten Register-Neuronen in einen zusätzlichen untrainierten Token verschieben, können wir den Effekt von Register-Tokens in einem Modell nachahmen, das bereits ohne Register trainiert wurde. Wir zeigen, dass unsere Methode sauberere Aufmerksamkeits- und Feature-Karten erzeugt, die Leistung gegenüber Basismodellen in mehreren nachgelagerten visuellen Aufgaben verbessert und Ergebnisse erzielt, die mit Modellen vergleichbar sind, die explizit mit Register-Tokens trainiert wurden. Anschließend erweitern wir Testzeit-Register auf gebrauchsfertige Vision-Language-Modelle, um deren Interpretierbarkeit zu verbessern. Unsere Ergebnisse deuten darauf hin, dass Testzeit-Register effektiv die Rolle von Register-Tokens zur Testzeit übernehmen und somit eine trainingsfreie Lösung für jedes vorgefertigte Modell bieten, das ohne diese veröffentlicht wurde.
Die Entwicklung generalisierbarer Fähigkeiten zur multimodalen Argumentation in großen multimodalen Sprachmodellen (MLLMs) bleibt eine Herausforderung. Inspiriert durch die kognitionswissenschaftliche Literatur, die nahelegt, dass Spielen übertragbare kognitive Fähigkeiten fördert, schlagen wir ein neuartiges Nachschulungsparadigma vor: Visual Game Learning (ViGaL), bei dem MLLMs durch das Spielen von Arcade-ähnlichen Spielen eine domänenübergreifende Generalisierung der multimodalen Argumentation entwickeln. Konkret zeigen wir, dass die Nachschulung eines 7-Milliarden-Parameter-MLLMs mittels Reinforcement Learning (RL) auf einfachen Arcade-ähnlichen Spielen, wie z. B. Snake, dessen Leistung auf multimodalen mathematischen Benchmarks wie MathVista und auf multidisziplinären Fragen wie MMMU signifikant verbessert, ohne dass während des RL-Lernprozesses Lösungen, Gleichungen oder Diagramme gesehen wurden. Dies deutet auf die Erfassung übertragbarer Argumentationsfähigkeiten hin. Bemerkenswerterweise übertrifft unser Modell spezialisierte Modelle, die auf multimodale Argumentationsdaten abgestimmt sind, in multimodalen Argumentationsbenchmarks, während es die Leistung des Basismodells auf allgemeinen visuellen Benchmarks beibehält – eine Herausforderung, bei der spezialisierte Modelle oft scheitern. Unsere Ergebnisse legen ein neues Nachschulungsparadigma nahe: synthetische, regelbasierte Spiele können als kontrollierbare und skalierbare Voraufgaben dienen, die generalisierbare multimodale Argumentationsfähigkeiten in MLLMs freisetzen.
Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
132
Wir führen die Bewertung von Debattenreden als neuartige und anspruchsvolle Benchmark zur Beurteilung von LLM-Richtern ein. Die Bewertung von Debattenreden erfordert ein tiefgreifendes Verständnis der Rede auf mehreren Ebenen, einschließlich der Stärke und Relevanz der Argumente, der Kohärenz und Struktur der Rede, der Angemessenheit ihres Stils und Tons sowie weiterer Aspekte. Diese Aufgabe umfasst ein einzigartiges Set kognitiver Fähigkeiten, die bisher in der systematischen Benchmarking von LLMs nur begrenzt berücksichtigt wurden. Um solche Fähigkeiten zu untersuchen, nutzen wir einen Datensatz von über 600 sorgfältig annotierten Debattenreden und präsentieren die erste detaillierte Analyse, wie state-of-the-art LLMs im Vergleich zu menschlichen Richtern bei dieser Aufgabe abschneiden. Unsere Ergebnisse zeigen ein differenziertes Bild: Während größere Modelle in einigen Aspekten individuelle menschliche Urteile annähern können, unterscheiden sie sich erheblich in ihrem allgemeinen Urteilsverhalten. Wir untersuchen auch die Fähigkeit von führenden LLMs, überzeugende, meinungsstarke Reden zu generieren, und zeigen, dass Modelle bei dieser Aufgabe auf menschlichem Niveau agieren können.
Optical Chemical Structure Recognition (OCSR) ist entscheidend für die Digitalisierung chemischen Wissens, indem molekulare Bilder in maschinenlesbare Formate umgewandelt werden. Obwohl neuere Vision-Language-Modelle (VLMs) Potenzial in dieser Aufgabe gezeigt haben, kämpft ihr Bildbeschreibungsansatz oft mit komplexen molekularen Strukturen und inkonsistenten Annotationen. Um diese Herausforderungen zu bewältigen, stellen wir GTR-Mol-VLM vor, ein neuartiges Framework mit zwei Schlüsselinnovationen: (1) den Graph Traversal as Visual Chain of Thought-Mechanismus, der menschliches Denken nachahmt, indem er molekulare Graphen durch sequenzielle Atom-Bindungs-Vorhersagen schrittweise analysiert, und (2) das datenzentrierte Prinzip „Faithfully Recognize What You've Seen“, das die Diskrepanz zwischen abgekürzten Strukturen in Bildern und ihren erweiterten Annotationen adressiert. Zur Unterstützung der Modellentwicklung haben wir GTR-CoT-1.3M erstellt, einen groß angelegten Instruction-Tuning-Datensatz mit sorgfältig korrigierten Annotationen, und MolRec-Bench eingeführt, den ersten Benchmark, der für eine detaillierte Bewertung der Graphenparsungsgenauigkeit in OCSR entwickelt wurde. Umfassende Experimente zeigen, dass GTR-Mol-VLM im Vergleich zu spezialisierten Modellen, chemiebezogenen VLMs und kommerziellen allgemeinen VLMs überlegene Ergebnisse erzielt. Insbesondere in Szenarien mit molekularen Bildern, die Funktionsgruppenabkürzungen enthalten, übertrifft GTR-Mol-VLM die zweitbeste Baseline um etwa 14 Prozentpunkte, sowohl in SMILES-basierten als auch in graphenbasierten Metriken. Wir hoffen, dass diese Arbeit die OCSR-Technologie dazu anregt, die Anforderungen der realen Welt effektiver zu erfüllen und damit die Bereiche der Chemoinformatik und KI für die Wissenschaft voranzubringen. Wir werden GTR-CoT unter https://github.com/opendatalab/GTR-CoT veröffentlichen.
Aktuelle Generationen von Sprachmodellen haben Large Reasoning Models (LRMs) eingeführt, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Obwohl diese Modelle eine verbesserte Leistung bei Reasoning-Benchmarks zeigen, bleiben ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Grenzen unzureichend verstanden. Aktuelle Bewertungen konzentrieren sich hauptsächlich auf etablierte Mathematik- und Programmier-Benchmarks, wobei die Genauigkeit der endgültigen Antwort im Vordergrund steht. Dieses Bewertungsparadigma leidet jedoch oft unter Kontamination und bietet keine Einblicke in die Reasoning-Spuren. In dieser Arbeit untersuchen wir diese Lücken systematisch mit Hilfe kontrollierbarer Puzzle-Umgebungen, die eine präzise Manipulation der Komplexität bei gleichbleibenden logischen Strukturen ermöglichen. Dieser Aufbau ermöglicht die Analyse nicht nur der endgültigen Antworten, sondern auch der internen Reasoning-Spuren, was Einblicke in die Denkweise von LRMs bietet. Durch umfangreiche Experimente zeigen wir, dass LRMs jenseits bestimmter Komplexitäten einen vollständigen Genauigkeitsverlust erleiden. Darüber hinaus zeigen sie eine kontraintuitive Skalierungsgrenze: ihr Reasoning-Aufwand steigt mit der Problemkomplexität bis zu einem bestimmten Punkt, nimmt dann jedoch ab, obwohl noch Token-Budget vorhanden ist. Durch den Vergleich von LRMs mit ihren Standard-LLM-Pendants unter gleichen Inferenz-Ressourcen identifizieren wir drei Leistungsregime: (1) Aufgaben mit geringer Komplexität, bei denen Standardmodelle LRMs übertreffen, (2) Aufgaben mittlerer Komplexität, bei denen LRMs einen Vorteil zeigen, und (3) Aufgaben hoher Komplexität, bei denen beide Modelle einen vollständigen Zusammenbruch erleben. Wir fanden heraus, dass LRMs Grenzen bei der exakten Berechnung haben: sie scheitern daran, explizite Algorithmen zu verwenden, und argumentieren inkonsistent über verschiedene Skalen hinweg. Wir untersuchen die Reasoning-Spuren auch tiefergehend, studieren die Muster der erkundeten Lösungen und analysieren das Rechenverhalten der Modelle, was ihre Stärken und Grenzen beleuchtet und Fragen zu ihren Reasoning-Fähigkeiten aufwirft.
Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
112
Inwiefern verfügen Vision-und-Sprache-Foundation-Modelle über ein realistisches Weltmodell (Beobachtung mal Aktion → Beobachtung) und ein Dynamikmodell (Beobachtung mal Beobachtung → Aktion), wenn Aktionen durch Sprache ausgedrückt werden? Während Open-Source-Foundation-Modelle bei beidem Schwierigkeiten haben, stellen wir fest, dass das Feinabstimmen dieser Modelle, um ein Dynamikmodell durch Überwachung zu erlernen, deutlich einfacher ist als das Erlernen eines Weltmodells. Dynamikmodelle können wiederum verwendet werden, um Weltmodelle durch zwei Hauptstrategien zu bootstrappen: 1) schwach überwachtes Lernen aus synthetischen Daten und 2) Verifikation zur Inferenzzeit. Erstens kann das Dynamikmodell Aktionen für unmarkierte Paare von Videobildbeobachtungen annotieren, um die Trainingsdaten zu erweitern. Wir schlagen außerdem ein neues Ziel vor, bei dem Bild-Token in Beobachtungspaaren nach ihrer Wichtigkeit gewichtet werden, wie sie von einem Erkennungsmodell vorhergesagt wird. Zweitens können Dynamikmodelle Belohnungen mehreren Stichproben des Weltmodells zuweisen, um sie zu bewerten und effektiv die Suche zur Inferenzzeit zu steuern. Wir bewerten die Weltmodelle, die aus beiden Strategien resultieren, durch die Aufgabe der aktionszentrierten Bildbearbeitung auf Aurora-Bench. Unser bestes Modell erzielt eine Leistung, die mit state-of-the-art Bildbearbeitungsmodellen konkurriert, und übertrifft diese auf realen Teilmengen um eine Marge von 15 % laut GPT4o-als-Richter, während es die beste durchschnittliche menschliche Bewertung über alle Teilmengen von Aurora-Bench erreicht.
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
92
Können wir große Sprachmodelle (LLMs) dazu bringen, auf das Erfinden faktischer Aussagen zu verzichten? In diesem Artikel stellen wir eine Feinabstimmungsstrategie vor, die wir ConfQA nennen und die die Halluzinationsrate von 20-40 % auf unter 5 % über mehrere Faktizitäts-Benchmarks hinweg reduzieren kann. Die Kernidee ist einfach: Wenn das LLM eine Frage korrekt beantwortet, wird es darauf trainiert, die Antwort fortzusetzen; andernfalls wird es darauf trainiert, zuzugeben: „Ich bin unsicher“. Es gibt jedoch zwei Schlüsselfaktoren, die das Training besonders effektiv machen. Erstens führen wir einen dämpfenden Prompt ein: „Antworte nur, wenn du dir sicher bist“, um das Verhalten explizit zu steuern. Ohne diesen bleibt die Halluzinationsrate mit 15-25 % hoch. Zweitens nutzen wir einfache faktische Aussagen, insbesondere Attributwerte aus Wissensgraphen, um den LLMs zu helfen, das Vertrauen zu kalibrieren, was zu einer robusten Generalisierung über Domänen und Fragentypen hinweg führt. Aufbauend auf dieser Erkenntnis schlagen wir das Dual Neural Knowledge Framework vor, das nahtlos zwischen intern parametrisiertem neuronalem Wissen und extern aufgezeichnetem symbolischem Wissen basierend auf dem Vertrauen von ConfQA auswählt. Das Framework ermöglicht potenzielle Genauigkeitssteigerungen auf über 95 %, während unnötige externe Abfragen um mehr als 30 % reduziert werden.
Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
82
Wir stellen CCI4.0 vor, einen groß angelegten bilingualen Vorverarbeitungsdatensatz, der für überragende Datenqualität und vielfältige, menschenähnliche Denkpfade entwickelt wurde. CCI4.0 beansprucht etwa 35 TB Speicherplatz und besteht aus zwei Unterdatensätzen: CCI4.0-M2-Base und CCI4.0-M2-CoT. CCI4.0-M2-Base kombiniert ein sorgfältig kuratiertes chinesisches Webkorpus von 5,2 TB, eine 22,5 TB große englische Teilmenge aus Nemotron-CC sowie diverse Quellen aus den Bereichen Mathematik, Wiki, Arxiv und Code. Obwohl diese Daten größtenteils aus gut aufbereiteten Datensätzen stammen, sind die Qualitätsstandards in verschiedenen Domänen dynamisch und erfordern umfangreiche Expertise und Arbeitsaufwand zur Verarbeitung. Daher schlagen wir eine neuartige Pipeline vor, die die Datenqualität hauptsächlich auf Basis von Modellen durch zweistufige Deduplizierung, Qualitätsbewertung mittels Multi-Klassifikatoren und domänenspezifische Flüssigkeitsfilterung sicherstellt. Wir extrahieren 4,5 Milliarden CoT (Chain-of-Thought)-Vorlagen, genannt CCI4.0-M2-CoT. Im Gegensatz zur Destillation von CoT aus größeren Modellen zeigt unsere vorgeschlagene gestufte CoT-Extraktion vielfältige Denkmuster auf und verringert die Wahrscheinlichkeit von Halluzinationen erheblich. Empirische Auswertungen zeigen, dass LLMs, die mit CCI4.0 vortrainiert wurden, von saubereren, zuverlässigeren Trainingssignalen profitieren und konsistente Verbesserungen in nachgelagerten Aufgaben, insbesondere in Mathematik- und Code-Reflexionsaufgaben, erzielen. Unsere Ergebnisse unterstreichen die entscheidende Rolle einer rigorosen Datenkuratierung und menschlicher Denkvorlagen für die Verbesserung der LLM-Leistung und geben Einblicke in die automatische Verarbeitung von Vorverarbeitungskorpora.
Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
82
Dieses Papier stellt ExpertLongBench vor, einen Benchmark auf Expertenniveau, der 11 Aufgaben aus 9 Domänen umfasst, die realistische Expertenworkflows und -anwendungen widerspiegeln. Über einfache Frage-Antwort-Szenarien hinaus erfordern die anwendungsgetriebenen Aufgaben in ExpertLongBench langformatige Ausgaben, die 5.000 Tokens überschreiten können, sowie strikte Einhaltung domänenspezifischer Anforderungen. Bemerkenswerterweise enthält jede Aufgabe in ExpertLongBench ein Bewertungsschema, das von Domänenexperten entworfen oder validiert wurde, um die Aufgabenanforderungen zu spezifizieren und die Bewertung der Ausgaben zu leiten. Darüber hinaus schlagen wir CLEAR vor, ein Bewertungsframework, das eine präzise Bewertung langformatiger Modellausgaben in unserem Benchmark unterstützt. Um eine feingranulare, expertenorientierte Bewertung zu erreichen, leitet CLEAR Checklisten sowohl aus den Modellausgaben als auch aus den Referenzen ab, indem Informationen extrahiert werden, die den Punkten im aufgabenspezifischen Bewertungsschema entsprechen. Die Checklistenpunkte für die Modellausgaben werden dann mit den entsprechenden Punkten für die Referenzausgaben verglichen, um deren Korrektheit zu bewerten, was eine fundierte Bewertung ermöglicht. Wir benchmarken 11 große Sprachmodelle (LLMs) und analysieren die Komponenten in CLEAR, wobei wir zeigen, dass (1) bestehende LLMs, bei denen das beste Modell nur einen F1-Score von 26,8 % erreicht, erhebliche Verbesserungen für Aufgaben auf Expertenniveau benötigen; (2) Modelle Inhalte generieren können, die den erforderlichen Aspekten entsprechen, oft jedoch nicht präzise; und (3) eine genaue Extraktion und Vergleich von Checklisten in CLEAR durch Open-Weight-Modelle erreicht werden kann, um eine skalierbarere und kostengünstigere Nutzung zu ermöglichen.
Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
82
Die Modellimmunisierung zielt darauf ab, Modelle vorzutrainieren, die schwer auf schädliche Aufgaben feinabzustimmen sind, während ihre Nützlichkeit für andere nicht-schädliche Aufgaben erhalten bleibt. Obwohl frühere Arbeiten empirische Belege für die Immunisierung von Text-zu-Bild-Modellen gezeigt haben, bleibt das grundlegende Verständnis darüber, wann Immunisierung möglich ist, sowie eine präzise Definition eines immunisierten Modells unklar. In dieser Arbeit schlagen wir ein Framework vor, das auf der Konditionszahl einer Hessematrix basiert, um die Modellimmunisierung für lineare Modelle zu analysieren. Aufbauend auf diesem Framework entwickeln wir einen Algorithmus mit Regularisierungstermen, um die resultierenden Konditionszahlen nach dem Vortraining zu steuern. Empirische Ergebnisse an linearen Modellen und nicht-linearen Deep-Nets demonstrieren die Wirksamkeit des vorgeschlagenen Algorithmus zur Modellimmunisierung. Der Code ist verfügbar unter https://github.com/amberyzheng/model-immunization-cond-num.
Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
72
Multimodale Large Language Models (MLLMs) haben großes Potenzial gezeigt, die Automatisierung von Grafischen Benutzeroberflächen (GUIs) zu revolutionieren. Bisherige GUI-Modelle stützen sich jedoch hauptsächlich auf das Lernen aus nahezu fehlerfreien Offline-Trajektorien und verfügen daher über keine Reflexions- und Fehlerbehebungsfähigkeiten. Um diese Lücke zu schließen, schlagen wir GUI-Reflection vor, ein neuartiges Framework, das Selbstreflexion und Fehlerkorrektur explizit in end-to-end multimodale GUI-Modelle integriert, und zwar über dedizierte Trainingsphasen: GUI-spezifisches Pre-Training, Offline Supervised Fine-Tuning (SFT) und Online Reflection Tuning. GUI-Reflection ermöglicht die Entstehung von Selbstreflexionsverhalten durch vollautomatisierte Datengenerierung und Lernprozesse, ohne dass menschliche Annotationen erforderlich sind. Konkret: 1) Wir schlagen skalierbare Datenpipelines vor, um automatisch Reflexions- und Fehlerkorrekturdaten aus bestehenden erfolgreichen Trajektorien zu konstruieren. Während sich bestehende GUI-Modelle hauptsächlich auf Grounding- und UI-Verständnisfähigkeiten konzentrieren, führen wir die GUI-Reflection Task Suite ein, um explizit reflexionsorientierte Fähigkeiten zu erlernen und zu bewerten. 2) Darüber hinaus haben wir eine vielfältige und effiziente Umgebung für das Online-Training und die Datensammlung von GUI-Modellen auf Mobilgeräten entwickelt. 3) Wir stellen auch einen iterativen Online Reflection Tuning-Algorithmus vor, der die vorgeschlagene Umgebung nutzt, um dem Modell zu ermöglichen, seine Reflexions- und Fehlerkorrekturfähigkeiten kontinuierlich zu verbessern. Unser Framework stattet GUI-Agenten mit Selbstreflexions- und Korrekturfähigkeiten aus und ebnet den Weg für robustere, anpassungsfähigere und intelligentere GUI-Automatisierung, wobei alle Daten, Modelle, Umgebungen und Tools öffentlich zugänglich gemacht werden.
Großskalige videogenerative Modelle können vielfältige und realistische visuelle Inhalte für die Erstellung dynamischer Welten synthetisieren, jedoch fehlt ihnen oft eine elementweise Steuerbarkeit, was ihre Verwendung bei der Bearbeitung von Szenen und dem Training von verkörperten KI-Agenten behindert. Wir schlagen Dreamland vor, ein hybrides Weltgenerierungsframework, das die granulare Kontrolle eines physikbasierten Simulators mit der fotorealistischen Inhaltsausgabe großskaliger vortrainierter generativer Modelle kombiniert. Insbesondere entwerfen wir eine geschichtete Weltabstraktion, die sowohl pixel- als auch objektbezogene Semantik und Geometrie als Zwischendarstellung kodiert, um den Simulator und das generative Modell zu verbinden. Dieser Ansatz verbessert die Steuerbarkeit, minimiert die Anpassungskosten durch frühzeitige Ausrichtung an realen Verteilungen und unterstützt die sofortige Verwendung bestehender und zukünftiger vortrainierter generativer Modelle. Darüber hinaus erstellen wir einen D3Sim-Datensatz, um das Training und die Bewertung hybrider Generierungspipelines zu erleichtern. Experimente zeigen, dass Dreamland bestehende Baselines mit einer um 50,8 % verbesserten Bildqualität und einer um 17,9 % stärkeren Steuerbarkeit übertrifft und großes Potenzial zur Verbesserung des Trainings verkörperter Agenten besitzt. Code und Daten werden verfügbar gemacht.
Große Sprachmodelle (LLMs) müssen mit menschlichen Präferenzen abgestimmt werden, um die Erzeugung von beleidigenden, falschen oder bedeutungslosen Inhalten zu vermeiden. In letzter Zeit haben ressourcenschonende Methoden zur Ausrichtung von LLMs an Popularität gewonnen, stehen jedoch weiterhin vor der Herausforderung, sowohl hochwertige als auch abgestimmte Inhalte zu erzeugen. Motiviert durch die Beobachtung, dass die Schwierigkeit, abgestimmte Antworten zu generieren, zu Beginn des Dekodierens konzentriert ist, schlagen wir ein neuartiges Framework vor, Weak-to-Strong Decoding (WSD), um die Ausrichtungsfähigkeit von Basismodellen durch die Anleitung eines kleinen, abgestimmten Modells zu verbessern. Das kleine Modell entwirft zunächst gut abgestimmte Anfänge, gefolgt vom großen Basismodell, das den Rest fortsetzt, gesteuert durch einen gut durchdachten Auto-Switch-Mechanismus. Wir sammeln auch einen neuen Datensatz, GenerAlign, um ein kleines Pilot-3B-Modell als Entwurfsmodell zu feinabstimmen, das verschiedene Basismodelle im WSD-Framework effektiv verbessert, um alle Baseline-Methoden zu übertreffen, während eine Verschlechterung bei nachgelagerten Aufgaben, bekannt als Alignment Tax, vermieden wird. Umfangreiche Experimente werden weiterhin durchgeführt, um die Auswirkungen verschiedener Einstellungen und die Zeiteffizienz zu untersuchen, sowie um die intrinsischen Mechanismen von WSD eingehend zu analysieren.
Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
62
Jüngste Forderungen nach einer pluralistischen Ausrichtung von Large Language Models (LLMs) ermutigen dazu, Modelle an die vielfältigen Präferenzen der Nutzer anzupassen. Die meisten bisherigen Arbeiten zu personalisierten Belohnungsmodellen stützen sich jedoch stark auf zusätzliche Identitätsinformationen, wie demografische Details oder eine vordefinierte Menge von Präferenzkategorien. In diesem Zusammenhang stellen wir SynthesizeMe vor, einen Ansatz zur Erzeugung synthetischer Nutzerpersonas aus Nutzerinteraktionen für die personalisierte Belohnungsmodellierung. SynthesizeMe generiert und überprüft zunächst Begründungen, um Nutzerpräferenzen zu erklären, leitet dann synthetische Nutzerpersonas aus diesen Begründungen ab und filtert schließlich informative vorherige Nutzerinteraktionen, um personalisierte Prompts für einen bestimmten Nutzer zu erstellen. Wir zeigen, dass die Verwendung von durch SynthesizeMe erzeugten Prompts die Genauigkeit von personalisierten LLM-as-a-Judge um 4,4 % auf Chatbot Arena verbessert. Die Kombination von durch SynthesizeMe abgeleiteten Prompts mit einem Belohnungsmodell erzielt die beste Leistung auf PersonalRewardBench: einer neuen Zusammenstellung von nutzerschichtenspezifischen Interaktionen mit Chatbots, die von 854 Nutzern von Chatbot Arena und PRISM gesammelt wurden.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) und visuell-sprachlichen Modellen (VLMs) haben leistungsstarke autonome Agenten ermöglicht, die zu komplexem Denken und multimodaler Werkzeugnutzung fähig sind. Trotz ihrer wachsenden Fähigkeiten bleiben heutige Agenten-Frameworks fragil, da ihnen prinzipielle Mechanismen für sicheren Informationsfluss, Zuverlässigkeit und Multi-Agenten-Koordination fehlen. In dieser Arbeit stellen wir SAFEFLOW vor, ein neues protokollbasiertes Framework zur Entwicklung vertrauenswürdiger LLM/VLM-basierter Agenten. SAFEFLOW erzwingt eine feingranulare Kontrolle des Informationsflusses (IFC), indem es die Herkunft, Integrität und Vertraulichkeit aller zwischen Agenten, Werkzeugen, Benutzern und Umgebungen ausgetauschten Daten präzise nachverfolgt. Durch die Einschränkung der LLM-Argumentation, um diese Sicherheitslabels zu respektieren, verhindert SAFEFLOW, dass nicht vertrauenswürdige oder feindliche Eingaben hochintegere Entscheidungen beeinträchtigen. Um Robustheit in gleichzeitigen Multi-Agenten-Szenarien zu gewährleisten, führt SAFEFLOW transaktionale Ausführung, Konfliktlösung und sichere Planung über gemeinsame Zustände ein, wodurch die globale Konsistenz über Agenten hinweg erhalten bleibt. Wir führen weiterhin Mechanismen ein, darunter Write-Ahead-Logging, Rollback und sichere Caches, die die Widerstandsfähigkeit gegen Laufzeitfehler und Richtlinienverletzungen weiter verbessern. Zur Validierung der Leistungen haben wir SAFEFLOWBENCH entwickelt, eine umfassende Benchmark-Suite, die darauf ausgelegt ist, die Zuverlässigkeit von Agenten unter feindlichen, verrauschten und gleichzeitigen Betriebsbedingungen zu bewerten. Umfangreiche Experimente zeigen, dass mit SAFEFLOW entwickelte Agenten auch in feindlichen Umgebungen beeindruckende Aufgabenleistung und Sicherheitsgarantien aufrechterhalten und dabei den Stand der Technik deutlich übertreffen. Zusammen legen SAFEFLOW und SAFEFLOWBENCH die Grundlage für prinzipielle, robuste und sichere Agenten-Ökosysteme und erweitern die Grenzen zuverlässiger Autonomie.
Große Sprachmodelle stützen sich häufig sowohl auf kontextuelle Eingaben als auch auf parametrisches Wissen, um Aufgaben zu bewältigen. Diese Quellen können jedoch in Konflikt geraten, insbesondere wenn abgerufene Dokumente dem parametrischen Wissen des Modells widersprechen. Wir schlagen ein diagnostisches Rahmenwerk vor, um das Verhalten von Sprachmodellen systematisch unter Kontext-Gedächtnis-Konflikten zu bewerten, bei denen die kontextuellen Informationen von ihren parametrischen Überzeugungen abweichen. Wir konstruieren diagnostische Daten, die diese Konflikte hervorrufen, und analysieren die Modellleistung über mehrere Aufgabentypen hinweg. Unsere Ergebnisse zeigen, dass (1) Wissenskonflikte nur minimalen Einfluss auf Aufgaben haben, die keine Wissensnutzung erfordern, (2) die Modellleistung durchweg höher ist, wenn kontextuelles und parametrisches Wissen übereinstimmen, (3) Modelle ihr internes Wissen auch bei entsprechender Anweisung nicht vollständig unterdrücken können und (4) die Bereitstellung von Begründungen, die den Konflikt erklären, die Abhängigkeit von Kontexten erhöht. Diese Erkenntnisse werfen Bedenken hinsichtlich der Validität modellbasierter Bewertungen auf und unterstreichen die Notwendigkeit, Wissenskonflikte bei der Anwendung von Sprachmodellen zu berücksichtigen.
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
52
Große Sprachmodelle werden häufig verwendet, um Anfragen zu beantworten, die auf umfangreichen Textkorpora basieren (z. B. Codebasen, juristische Dokumente oder Chatverläufe), indem das gesamte Korpus in das Kontextfenster eingebettet und In-Context-Learning (ICL) genutzt wird. Obwohl aktuelle Modelle Kontexte von 100.000 bis 1 Million Tokens unterstützen, ist diese Konfiguration kostspielig, da der Speicherverbrauch des KV-Caches mit der Eingabelänge skaliert. Wir untersuchen eine Alternative: das Offline-Training eines kleineren KV-Caches für jedes Korpus. Zum Inferenzzeitpunkt laden wir diesen trainierten KV-Cache, den wir als Cartridge bezeichnen, und dekodieren eine Antwort. Entscheidend ist, dass die Kosten für das Training einer Cartridge auf alle Anfragen, die sich auf dasselbe Korpus beziehen, verteilt werden können. Allerdings stellen wir fest, dass der naive Ansatz, die Cartridge mit Next-Token-Prediction auf dem Korpus zu trainieren, nicht mit ICL konkurrieren kann. Stattdessen schlagen wir Self-Study vor, ein Trainingsverfahren, bei dem wir synthetische Konversationen über das Korpus generieren und die Cartridge mit einem Context-Distillation-Ziel trainieren. Wir stellen fest, dass Cartridges, die mit Self-Study trainiert wurden, die Funktionalität von ICL replizieren, während sie deutlich kostengünstiger zu bedienen sind. Bei anspruchsvollen Langkontext-Benchmarks erreichen mit Self-Study trainierte Cartridges die Leistung von ICL, während sie 38,6-mal weniger Speicher verbrauchen und einen 26,4-mal höheren Durchsatz ermöglichen. Self-Study erweitert auch die effektive Kontextlänge des Modells (z. B. von 128.000 auf 484.000 Tokens bei MTOB) und führt überraschenderweise zu Cartridges, die zum Inferenzzeitpunkt ohne erneutes Training kombiniert werden können.
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben ihren Einsatz als autonome Agenten in einer Vielzahl von Aufgaben ermöglicht, doch sie haben weiterhin Schwierigkeiten, kohärente langfristige Strategien zu formulieren und einzuhalten. In diesem Artikel untersuchen wir, ob LLM-Agenten sich selbst verbessern können, wenn sie in Umgebungen platziert werden, die ihre strategischen Planungsfähigkeiten explizit herausfordern. Mithilfe des Brettspiels Die Siedler von Catan, das über das Open-Source-Framework Catanatron zugänglich ist, benchmarken wir eine Reihe von LLM-basierten Agenten, von einem einfachen spielenden Agenten bis hin zu Systemen, die in der Lage sind, ihre eigenen Prompts und den Code ihres Spieler-Agenten autonom zu überarbeiten. Wir stellen eine Multi-Agenten-Architektur vor, in der spezialisierte Rollen (Analyzer, Researcher, Coder und Player) zusammenarbeiten, um Spielverläufe iterativ zu analysieren, neue Strategien zu erforschen und die Logik oder den Prompt des Agenten zu modifizieren. Durch den Vergleich von manuell erstellten Agenten mit solchen, die vollständig von LLMs entwickelt wurden, bewerten wir, wie effektiv diese Systeme Fehler diagnostizieren und sich im Laufe der Zeit anpassen können. Unsere Ergebnisse zeigen, dass sich selbst weiterentwickelnde Agenten, insbesondere wenn sie von Modellen wie Claude 3.7 und GPT-4o unterstützt werden, statische Baselines übertreffen, indem sie ihre Strategien autonom anpassen, beispielhaftes Verhalten an spielende Agenten weitergeben und adaptives Denken über mehrere Iterationen hinweg demonstrieren.
In dieser Arbeit behandeln wir die dynamische Ansichtssynthese aus monokularen Videos als ein inverses Problem in einem trainingsfreien Setting. Durch die Neugestaltung der Rauschinitialisierungsphase eines vortrainierten Video-Diffusionsmodells ermöglichen wir eine hochauflösende dynamische Ansichtssynthese ohne Gewichtsaktualisierungen oder zusätzliche Module. Wir beginnen damit, ein grundlegendes Hindernis für die deterministische Inversion zu identifizieren, das sich aus Null-Terminal-Signal-Rausch-Verhältnis (SNR)-Zeitplänen ergibt, und lösen es durch die Einführung einer neuartigen Rauschdarstellung, die als K-Ordnung Rekursive Rauschdarstellung bezeichnet wird. Wir leiten einen geschlossenen Ausdruck für diese Darstellung ab, der eine präzise und effiziente Ausrichtung zwischen den VAE-kodierten und den DDIM-invertierten Latents ermöglicht. Um neu sichtbare Bereiche, die sich aus der Kamerabewegung ergeben, zu synthetisieren, führen wir die Stochastische Latente Modulation ein, die eine sichtbarkeitsbewusste Abtastung über den Latentraum durchführt, um verdeckte Bereiche zu vervollständigen. Umfassende Experimente zeigen, dass die dynamische Ansichtssynthese effektiv durch strukturierte Latent-Manipulation in der Rauschinitialisierungsphase durchgeführt werden kann.
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
42
Bestehende Benchmarks für konversationelle KI-Agenten simulieren Einzelkontroll-Umgebungen, in denen nur der KI-Agent Werkzeuge nutzen kann, um mit der Welt zu interagieren, während der Benutzer ein passiver Informationslieferant bleibt. Dies unterscheidet sich von realen Szenarien wie dem technischen Support, bei denen Benutzer aktiv an der Veränderung des Zustands der (geteilten) Welt teilnehmen müssen. Um diese Lücke zu schließen, führen wir tau^2-bench mit vier wesentlichen Beiträgen ein:
1) Eine neuartige Telekommunikations-Dualkontroll-Domäne, die als Dec-POMDP modelliert ist, in der sowohl der Agent als auch der Benutzer Werkzeuge nutzen, um in einer gemeinsamen, dynamischen Umgebung zu handeln, die sowohl die Koordination als auch die Kommunikation des Agents testet,
2) Ein kompositioneller Aufgaben-Generator, der programmatisch vielfältige, verifizierbare Aufgaben aus atomaren Komponenten erstellt und so die Domänenabdeckung und kontrollierte Komplexität sicherstellt,
3) Ein zuverlässiger Benutzersimulator, der eng mit der Umgebung gekoppelt ist und dessen Verhalten durch Werkzeuge und beobachtbare Zustände eingeschränkt wird, wodurch die Simulationsgenauigkeit verbessert wird,
4) Eine detaillierte Analyse der Agentenleistung durch mehrere Ablationen, einschließlich der Trennung von Fehlern, die aus dem Denken gegenüber der Kommunikation/Koordination entstehen.
Insbesondere zeigen unsere Experimente signifikante Leistungseinbußen, wenn Agenten von der Benutzerlosigkeit zur Dualkontroll-Situation wechseln, was die Herausforderungen bei der Anleitung von Benutzern verdeutlicht. Insgesamt bietet tau^2-bench eine kontrollierte Testumgebung für Agenten, die sowohl effektiv denken als auch Benutzeraktionen anleiten müssen.
Aktuelle Multimodale Große Sprachmodelle (MLLMs) könnten Schwierigkeiten haben, lange oder komplexe Videos zu verstehen, was auf den hohen Rechenaufwand zur Testzeit, mangelnde Robustheit und begrenzte Genauigkeit zurückzuführen ist, die hauptsächlich aus ihrer feed-forward-Verarbeitungsnatur resultieren. Diese Einschränkungen könnten bei Modellen mit weniger Parametern noch gravierender sein. Um diese Einschränkungen zu überwinden, schlagen wir ein neuartiges Framework vor, das von kybernetischen Prinzipien inspiriert ist und Video-MLLMs als adaptive Systeme neu gestaltet, die in der Lage sind, sich selbst zu überwachen, selbst zu korrigieren und Ressourcen dynamisch während der Inferenz zuzuweisen. Unser Ansatz, CyberV, führt eine kybernetische Schleife ein, die aus einem MLLM-Inferenzsystem, einem Sensor und einem Controller besteht. Konkret überwacht der Sensor die Vorwärtsprozesse des MLLM und sammelt Zwischeninterpretationen, wie z.B. Aufmerksamkeitsdrift, woraufhin der Controller entscheidet, wann und wie eine Selbstkorrektur ausgelöst und Feedback generiert wird, um die nächste Runde zu steuern. Dieses Framework zur adaptiven Skalierung zur Testzeit verbessert eingefrorene MLLMs, ohne dass eine Neuanpassung oder zusätzliche Komponenten erforderlich sind. Experimente zeigen signifikante Verbesserungen: CyberV steigert Qwen2.5-VL-7B um 8,3 % und InternVL3-8B um 5,5 % auf VideoMMMU und übertrifft dabei das konkurrenzfähige proprietäre Modell GPT-4o. Bei der Anwendung auf Qwen2.5-VL-72B ergibt sich eine Verbesserung von 10,0 %, was sogar mit der Leistung menschlicher Experten vergleichbar ist. Darüber hinaus zeigt unsere Methode konsistente Gewinne auf allgemeinen Benchmarks wie VideoMME und WorldSense, was ihre Effektivität und Generalisierungsfähigkeit unterstreicht, um MLLMs robuster und genauer für das dynamische Verständnis von Videos zu machen. Der Code ist unter https://github.com/marinero4972/CyberV veröffentlicht.
Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
32
Trotz jüngster Fortschritte in der Videogenerierung mangelt es bestehenden Modellen immer noch an fein abgestimmter Steuerbarkeit, insbesondere bei der Multi-Subjekt-Anpassung mit konsistenter Identität und Interaktion. In diesem Artikel stellen wir PolyVivid vor, ein Multi-Subjekt-Videoanpassungsframework, das eine flexible und identitätskonsistente Generierung ermöglicht. Um genaue Korrespondenzen zwischen Subjektbildern und textuellen Entitäten herzustellen, entwickeln wir ein VLLM-basiertes Text-Bild-Fusionsmodul, das visuelle Identitäten in den textuellen Raum einbettet, um eine präzise Verankerung zu gewährleisten. Um die Identitätserhaltung und Subjektinteraktion weiter zu verbessern, schlagen wir ein 3D-RoPE-basiertes Erweiterungsmodul vor, das eine strukturierte bidirektionale Fusion zwischen Text- und Bildeinbettungen ermöglicht. Darüber hinaus entwickeln wir ein aufmerksamkeitsvererbtes Identitätseinspeisungsmodul, um fusionierte Identitätsmerkmale effektiv in den Videogenerierungsprozess einzuspeisen und Identitätsdrift zu minimieren. Schließlich konstruieren wir eine MLLM-basierte Datenpipeline, die MLLM-basierte Verankerung, Segmentierung und eine Clique-basierte Subjektkonsolidierungsstrategie kombiniert, um hochwertige Multi-Subjekt-Daten zu erzeugen, die die Subjektunterscheidung effektiv verbessern und Mehrdeutigkeiten in der nachgelagerten Videogenerierung reduzieren. Umfangreiche Experimente zeigen, dass PolyVivid in Bezug auf Identitätstreue, Videorealismus und Subjektausrichtung überlegene Leistungen erzielt und bestehende Open-Source- und kommerzielle Baselines übertrifft.
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
32
Große Sprachmodelle (LLMs) sind zum Eckpfeiler der modernen KI geworden.
Das bestehende Paradigma der nächsten Token-Vorhersage begrenzt jedoch grundlegend
ihre Fähigkeit, kohärente, hochrangige Konzepte zu bilden, was eine kritische
Barriere für menschenähnliches Verständnis und logisches Denken darstellt. Nehmen
wir den Begriff "Ribonukleinsäure" als Beispiel: Ein LLM wird ihn zunächst in
Token, also künstliche Textfragmente ("rib", "on", ...), zerlegen und dann jeden
Token sequenziell lernen, anstatt den Begriff als eine einheitliche, kohärente
semantische Entität zu erfassen. Diese fragmentierte Darstellung behindert ein
tieferes konzeptionelles Verständnis und letztendlich die Entwicklung wirklich
intelligenter Systeme. Als Antwort darauf führen wir Concept-Aware Fine-Tuning
(CAFT) ein, eine neuartige Multi-Token-Trainingsmethode, die neu definiert, wie
LLMs feinabgestimmt werden. Indem sie das Lernen von Sequenzen ermöglicht, die
mehrere Token umfassen, fördert diese Methode ein stärkeres konzeptbewusstes
Lernen. Unsere Experimente zeigen signifikante Verbesserungen im Vergleich zu
konventionellen Next-Token-Fine-Tuning-Methoden über verschiedene Aufgaben hinweg,
einschließlich traditioneller Anwendungen wie Textzusammenfassung und
domänenspezifischer Anwendungen wie de novo Proteindesign. Die Vorhersage mehrerer
Token war bisher nur in der prohibitiven teuren Vor-Trainingsphase möglich; CAFT
ist, unseres Wissens nach, die erste Methode, die die Multi-Token-Einstellung in
die Post-Trainingsphase bringt und somit ihre Vorteile effektiv für die breitere
Gemeinschaft von Praktikern und Forschern demokratisiert. Schließlich deutet die
unerwartete Effektivität unserer vorgeschlagenen Methode auf weitere Implikationen
für die Machine-Learning-Forschungsgemeinschaft hin. Der gesamte Code und die
Daten sind unter https://github.com/michaelchen-lab/caft-llm verfügbar.
Jüngste Fortschritte im Bereich des logischen Denkens großer Sprachmodelle (LLMs) haben gezeigt, dass anspruchsvolle Verhaltensweisen wie Planung und Selbstreflexion durch Reinforcement Learning (RL) entstehen können. Trotz dieser Erfolge bleibt RL in seiner derzeitigen Form jedoch unzureichend, um Fähigkeiten zu induzieren, die die Grenzen des Basismodells überschreiten, da es primär auf der Grundlage des bestehenden Wissens des Modells optimiert wird, anstatt den Erwerb neuer Informationen zu ermöglichen. Um diese Einschränkung zu überwinden, setzen wir überwachtes Fein-Tuning (Supervised Fine-Tuning, SFT) ein, um das zu lernen, was RL nicht kann. Dies ermöglicht die Integration neuen Wissens und neuer Denkmuster durch die Nutzung hochwertiger Demonstrationsdaten. Wir analysieren die Trainingsdynamik von RL und SFT für das logische Denken von LLMs und stellen fest, dass RL besonders gut darin ist, die Leistung bei Fragen innerhalb der ursprünglichen Fähigkeiten des Modells zu erhalten und zu verbessern, während SFT effektiver darin ist, Fortschritte bei Fragen zu ermöglichen, die über den aktuellen Umfang des Modells hinausgehen. Motiviert durch die komplementären Stärken von RL und SFT, führen wir einen neuartigen Trainingsansatz ein, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). Bei ReLIFT wird das Modell hauptsächlich mit RL trainiert, aber wenn es auf herausfordernde Fragen stößt, werden hochwertige Lösungen für das Fein-Tuning gesammelt, und der Trainingsprozess wechselt zwischen RL und Fein-Tuning, um die Denkfähigkeiten des Modells zu verbessern. ReLIFT erzielt eine durchschnittliche Verbesserung von über +5,2 Punkten über fünf wettbewerbsorientierte Benchmarks und einen Out-of-Distribution-Benchmark im Vergleich zu anderen Zero-RL-Modellen. Darüber hinaus zeigen wir, dass ReLIFT sowohl RL als auch SFT übertrifft, während es nur 13\% der detaillierten Demonstrationsdaten verwendet, was seine Skalierbarkeit unterstreicht. Diese Ergebnisse liefern überzeugende Beweise dafür, dass ReLIFT die grundlegenden Einschränkungen von RL überwindet und das erhebliche Potenzial dieses Ansatzes verdeutlicht.
Kürzlich haben Techniken wie explizites strukturiertes Denken starkes Skalierungsverhalten zur Testzeit gezeigt, indem sie eine Trennung zwischen dem internen „Denkprozess“ des Modells und der endgültigen Antwort erzwingen. Ein entscheidender Faktor, der die Antwortqualität in diesem Kontext beeinflusst, ist die Länge der Denkphase. Wenn die Argumentation zu kurz ist, kann das Modell die Komplexität der Aufgabe nicht erfassen. Umgekehrt kann das Modell, wenn die Argumentation zu lang ist, überdenken, was zu unnötigen Berechnungen und einer Verschlechterung der Leistung führt. In diesem Artikel untersuchen und nutzen wir die zugrunde liegenden Mechanismen, durch die große Sprachmodelle (LLMs) die Länge ihrer Argumentation während expliziter Denkprozesse verstehen und regulieren. Zunächst zeigen wir, dass LLMs ihren Fortschritt im Denkprozess kodieren und führen eine interaktive Fortschrittsbalken-Visualisierung ein, die dann verwendet wird, um Einblicke in die Planungsdynamik des Modells zu gewähren. Zweitens manipulieren wir die interne Fortschrittskodierung während der Inferenz, um unnötige Schritte zu reduzieren und eine prägnantere und entschlossenere Gedankenkette zu erzeugen. Unsere empirischen Ergebnisse zeigen, dass diese „Übertaktungs“-Methode Überdenken mildert, die Antwortgenauigkeit verbessert und die Inferenzlatenz reduziert. Unser Code ist öffentlich verfügbar.
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben bemerkenswerte Fähigkeiten in verschiedenen Domänen gezeigt, insbesondere im Bereich des mathematischen Denkens, wobei die Lösung geometrischer Probleme nach wie vor eine herausfordernde Domäne bleibt, in der Hilfskonstruktionen eine entscheidende Rolle spielen. Bestehende Ansätze erzielen entweder suboptimale Leistungen oder setzen auf massive LLMs (z. B. GPT-4o), was erhebliche Rechenkosten verursacht. Wir vertreten die Ansicht, dass Verstärkungslernen mit überprüfbaren Belohnungen (z. B. GRPO) eine vielversprechende Richtung für das Training kleinerer Modelle bietet, die Hilfskonstruktionen effektiv mit robustem geometrischen Denken kombinieren. Die direkte Anwendung von GRPO auf geometrisches Denken stößt jedoch auf grundlegende Grenzen, da es von bedingungslosen Belohnungen abhängt, was zu undifferenzierten und kontraproduktiven Hilfskonstruktionen führt. Um diese Herausforderungen zu bewältigen, schlagen wir Group Contrastive Policy Optimization (GCPO) vor, ein neuartiges Verstärkungslern-Framework mit zwei zentralen Innovationen: (1) Group Contrastive Masking, das adaptiv positive oder negative Belohnungssignale für Hilfskonstruktionen basierend auf kontextueller Nützlichkeit bereitstellt, und (2) eine Längenbelohnung, die längere Denkketten fördert. Aufbauend auf GCPO entwickeln wir GeometryZero, eine Familie von geometrischen Denkmodellen mit überschaubarer Größe, die gezielt entscheiden, wann Hilfskonstruktionen eingesetzt werden sollen. Unsere umfangreiche empirische Auswertung über gängige geometrische Benchmarks (Geometry3K, MathVista) zeigt, dass GeometryZero-Modelle durchweg Baselines (z. B. GRPO) übertreffen und eine durchschnittliche Verbesserung von 4,29 % über alle Benchmarks hinweg erzielen.
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
32
Video-Generative Modelle, die auf Experten-Demonstrationen trainiert wurden, wurden als leistungsstarke textkonditionierte visuelle Planer zur Lösung von Robotikaufgaben eingesetzt. Die Generalisierung auf unbekannte Aufgaben bleibt jedoch eine Herausforderung. Während eine verbesserte Generalisierung durch die Nutzung von erlerntem Vorwissen aus zusätzlichen, vorab gesammelten Offline-Datenquellen, wie z.B. webweiten Video-Datensätzen, erleichtert werden könnte, zielen wir im Zeitalter der Erfahrung darauf ab, Agenten zu entwickeln, die sich kontinuierlich auf Online-Weise aus selbst gesammelten Verhaltensweisen verbessern können. In dieser Arbeit schlagen wir daher die Self-Adapting Improvement Loop (SAIL) vor, bei der ein domänenspezifisches Video-Modell iterativ anhand selbst erzeugter Trajektorien aktualisiert wird, die durch die Anpassung mit einem internetweit vortrainierten Video-Modell gesammelt wurden, und seine Leistung für eine spezifische Zielaufgabe stetig verbessert. Wir wenden SAIL auf eine vielfältige Reihe von MetaWorld-Aufgaben sowie auf zwei Manipulationsaufgaben an einem realen Roboterarm an und stellen fest, dass Leistungsverbesserungen über mehrere Iterationen hinweg kontinuierlich für neue Aufgaben auftreten, die ursprünglich während des Trainings des domänenspezifischen Video-Modells unbekannt waren. Darüber hinaus entdecken wir, dass SAIL überraschend robust in Bezug darauf ist, ob und wie die selbst gesammelten Erfahrungen gefiltert werden, sowie in Bezug auf die Qualität der anfänglichen domänenspezifischen Demonstrationen. Durch die Anpassung mit zusammengefassten internetweiten Daten und das Lernen durch Online-Erfahrung demonstrieren wir somit einen Weg, um ein leistungsstarkes Video-Modell zur Lösung neuer Robotikaufgaben durch Selbstverbesserung iterativ zu bootstrappen.
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
33
Trotz des wachsenden Interesses an domänenspezifischen Benchmarks für große Sprachmodelle (LLMs) und Agenten bleiben aktuelle Bewertungen auf statische, kleinere Datensätze beschränkt, insbesondere bei hochriskanten Aufgaben wie Netzwerkoperationen, die Zuverlässigkeit für den Einsatz erfordern. Wir stellen NetPress vor, ein automatisiertes Benchmark-Generierungsframework zur Bewertung von LLM-Agenten in Netzwerkanwendungen. NetPress führt eine einheitliche Abstraktion mit Zustand und Aktion ein, die die dynamische Erzeugung vielfältiger Abfragesätze zusammen mit entsprechenden Grundwahrheiten ermöglicht. Zur Laufzeit können Benutzer Benchmark-Konfigurationen angeben, um Millionen von Abfragen on-the-fly zu generieren. Neben der dynamischen Benchmark-Konstruktion integriert sich NetPress mit Netzwerkemulatoren, um realistische Umgebungsrückmeldungen zu liefern, und unterstützt so eine umfassende Bewertung hinsichtlich Korrektheit, Sicherheit und Latenz. Wir implementieren NetPress in drei repräsentativen Anwendungen und decken dabei interessante, feinkörnige Unterschiede im Agentenverhalten auf, die statische, rein auf Korrektheit basierende Benchmarks oft übersehen. NetPress bewegt die LLM-Bewertung in Richtung realistischer, skalierbarer Tests in infrastrukturzentrierten Domänen und hilft dabei, die Lücke zwischen Benchmark-Leistung und Einsatzbereitschaft in der realen Welt zu schließen. Der Code ist verfügbar unter https://github.com/Froot-NetSys/NetPress.
Wir stellen eine trainingsfreie Methode vor, um Tokenizer in vortrainierten großen Sprachmodellen (LLMs) zu transplantieren, indem nicht gesehene Token-Einbettungen mittels Orthogonal Matching Pursuit (OMP) rekonstruiert werden. Konkret approximieren wir jeden Out-of-Vocabulary-Token als eine spärliche lineare Kombination von gemeinsamen Tokens in zwei Phasen: Zuerst berechnen wir die Repräsentation jedes neuen Tokens im Einbettungsraum des Spender-Modells mit einem kleinen Wörterbuch von gemeinsamen Anker-Tokens, dann übertragen wir dieselben spärlichen Koeffizienten zurück in den Einbettungsraum des Basismodells.
Bei zwei anspruchsvollen Cross-Tokenizer-Aufgaben – LlamatoMistral NeMo (12B) und QwentoLlama (1B) – zeigen wir, dass OMP die beste Zero-Shot-Erhaltung der Leistung des Basismodells über mehrere Benchmarks hinweg erreicht, während andere Zero-Shot-Ansätze signifikant schlechter abschneiden. Im Vergleich zu Baselines (Zero-Init, Mean-Init und bestehenden Ansätzen wie WECHSEL, FOCUS, ZETT) erzielt OMP durchweg die beste Gesamtleistung und überbrückt effektiv große Tokenizer-Diskrepanzen ohne Gradienten-Updates. Unsere Analyse identifiziert weiterhin nicht übereinstimmende numerische Tokenisierungsschemata als eine kritische Herausforderung für die Erhaltung mathematischer Fähigkeiten. Diese Technik ermöglicht die direkte Wiederverwendung vortrainierter Modellgewichte mit neuen Tokenizern und erleichtert Cross-Tokenizer-Wissensdistillation, spekulative Dekodierung, Ensembling, Merging und domänenspezifische Vokabularanpassungen. Wir integrieren unsere Methode in das Open-Source-Tool mergekit-tokensurgeon zur nachträglichen Vokabular-Neuausrichtung.
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
22
Jüngste Fortschritte in der Konversations-KI sind beträchtlich, doch die Entwicklung von Echtzeitsystemen zur Wahrnehmungsaufgabenführung bleibt eine Herausforderung. Diese Systeme müssen interaktive, proaktive Unterstützung auf der Grundlage von Streaming-Visualinputs bieten, doch ihre Entwicklung wird durch den kostspieligen und arbeitsintensiven Prozess der Datensammlung und Systembewertung eingeschränkt. Um diese Einschränkungen zu überwinden, präsentieren wir ein umfassendes Framework mit drei wesentlichen Beiträgen. Erstens führen wir eine neuartige Datenkuratierungspipeline ein, die Dialoge aus annotierten egozentrischen Videos synthetisiert, was zu \dataset führt, einem groß angelegten synthetischen Dialogdatensatz, der mehrere Domänen umfasst. Zweitens entwickeln wir eine Reihe automatischer Bewertungsmetriken, die durch umfangreiche Humanstudien validiert wurden. Drittens schlagen wir ein End-to-End-Modell vor, das Streaming-Videoinputs verarbeitet, um kontextuell angemessene Antworten zu generieren, und dabei neuartige Techniken zur Handhabung von Datenungleichgewichten und langen Videos integriert. Diese Arbeit legt den Grundstein für die Entwicklung von Echtzeit-, proaktiven KI-Assistenten, die Benutzer durch verschiedene Aufgaben führen können. Projektseite: https://pro-assist.github.io/
Grundlegend für die chinesische Sprache und Kultur umfassen chinesische Schriftzeichen außerordentlich umfangreiche und ständig wachsende Kategorien, wobei der neueste chinesische GB18030-2022-Standard 87.887 Kategorien enthält. Die genaue Erkennung dieser enormen Anzahl von Schriftzeichen, bezeichnet als Mega-Kategorie-Erkennung, stellt eine gewaltige, aber entscheidende Herausforderung für die Bewahrung des kulturellen Erbes und digitale Anwendungen dar. Trotz bedeutender Fortschritte in der optischen Zeichenerkennung (OCR) bleibt die Mega-Kategorie-Erkennung aufgrund des Fehlens umfassender Datensätze unerforscht, wobei der größte bestehende Datensatz lediglich 16.151 Kategorien enthält. Um diese kritische Lücke zu schließen, stellen wir MegaHan97K vor, einen Mega-Kategorie-, groß angelegten Datensatz, der eine beispiellose Anzahl von 97.455 Kategorien chinesischer Schriftzeichen abdeckt. Unsere Arbeit bietet drei wesentliche Beiträge: (1) MegaHan97K ist der erste Datensatz, der den neuesten GB18030-2022-Standard vollständig unterstützt und mindestens sechsmal mehr Kategorien als bestehende Datensätze bereitstellt; (2) Er adressiert effektiv das Problem der Long-Tail-Verteilung, indem er durch seine drei verschiedenen Teilmengen – handgeschriebene, historische und synthetische Teilmengen – ausgewogene Proben für alle Kategorien bietet; (3) Umfassende Benchmarking-Experimente offenbaren neue Herausforderungen in Mega-Kategorie-Szenarien, darunter erhöhte Speicheranforderungen, die Erkennung morphologisch ähnlicher Schriftzeichen und Schwierigkeiten beim Zero-Shot-Lernen, während gleichzeitig erhebliche Möglichkeiten für zukünftige Forschung eröffnet werden. Nach bestem Wissen ist MegaHan97K wahrscheinlich der Datensatz mit den meisten Klassen, nicht nur im Bereich der OCR, sondern möglicherweise auch im weiteren Bereich der Mustererkennung. Der Datensatz ist verfügbar unter https://github.com/SCUT-DLVCLab/MegaHan97K.
Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
22
Die Ausrichtung von Large Language Models (LLMs) ist entscheidend, um deren Sicherheit und Zuverlässigkeit in praktischen Anwendungen zu gewährleisten. Direct Preference Optimization (DPO) hat sich als effiziente Methode etabliert, die Modelle direkt mithilfe von Präferenzpaaren optimiert und dabei den Ressourcenbedarf erheblich reduziert. Die Wirksamkeit von DPO hängt jedoch stark von der Datenqualität ab, die häufig durch Rauschen beeinträchtigt wird. In dieser Arbeit stellen wir gamma-PO vor, einen dynamischen Zielmargen-Präferenzoptimierungsalgorithmus, der die Belohnungsmargen auf Paarebene anpasst. Durch die Einführung einer instanzspezifischen Margenkalibrierung priorisiert gamma-PO strategisch hochvertrauenswürdige Paare (solche mit höheren Belohnungsmargen) und unterdrückt gleichzeitig potenzielles Rauschen aus mehrdeutigen Paaren. Darüber hinaus ist gamma-PO eine Plug-and-Play-Methode, die mit Varianten von DPO kompatibel ist, die auf Belohnungsmargen zwischen Präferenzpaaren basieren. In Benchmarks wie AlpacaEval2 und Arena-Hard erzielt gamma-PO eine durchschnittliche Verbesserung von 4,4 % gegenüber anderen Baselines und setzt damit neue Maßstäbe für die Spitzenleistung. Zudem erfordert gamma-PO minimale Codeänderungen und hat einen vernachlässigbaren Einfluss auf die Trainingseffizienz, was es zu einer robusten Lösung für die Verbesserung der Ausrichtung von LLMs macht. Unsere Codes sind unter https://github.com/sunjie279/gammaPO verfügbar.
Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
21
Multimodale große Sprachmodelle (MLLMs) werden zunehmend in offenen, realen Umgebungen eingesetzt, in denen Eingaben unstrukturiert, unvollständig und nicht immer vertrauenswürdig sind. Im Gegensatz zu kuratierten Benchmarks beinhalten diese Szenarien häufig Anweisungen, die sich auf fehlende Objekte oder widersprüchliche Fakten beziehen, auf mehrdeutige Referenzen angewiesen sind oder unmögliche Handlungen verlangen. In solchen Fällen hängt der Erfolg nicht allein von der Aufgabenausführung ab, sondern von der Fähigkeit des Modells, zu erkennen, wenn etwas stillschweigend falsch ist. Diese Arbeit präsentiert eine systematische Analyse, wie aktuelle MLLMs mit solchen impliziten Denkszenarien umgehen: Fälle, in denen der Fehler nicht explizit genannt wird, sondern aus dem Kontext erschlossen werden muss. Mithilfe eines kuratierten Diagnosesets, das vier Kategorien realer Fehlermodi umfasst, evaluieren wir sechs MLLMs, darunter o3 und GPT-4o, und stellen fest, dass Modelle häufig versteckte Probleme nicht aufdecken, selbst wenn sie über die notwendigen Wahrnehmungs- und Denkfähigkeiten verfügen. Explizites Prompting zeigt, dass die zugrunde liegenden Fähigkeiten vorhanden sind, jedoch oft zugunsten der Benutzerkonformität unterdrückt werden. Wir zeigen weiter, dass einfache Eingriffe zur Inferenzzeit, wie vorsichtiges Persona-Prompting und insbesondere die Anforderung einer klärenden Frage, die Leistung dramatisch verbessern können. Unsere Ergebnisse verdeutlichen eine anhaltende Lücke zwischen Denkkompetenz und Verhaltenskonformität bei aktuellen MLLMs und legen praktische Strategien nahe, um diese Modelle in unterbeschränkten Umgebungen vertrauenswürdiger zu machen.
Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
22
Große Sprachmodelle (LLMs) verweigern häufig die Reaktion auf pseudo-bösartige Anweisungen: semantisch harmlose Eingabeanfragen, die unnötige Ablehnungen durch LLMs aufgrund konservativer Sicherheitsausrichtung auslösen, was die Benutzererfahrung erheblich beeinträchtigt. Die Sammlung solcher Anweisungen ist entscheidend für die Bewertung und Minderung von Überablehnungen, aber bestehende Methoden zur Anweisungskuration, wie manuelle Erstellung oder Anweisungsüberarbeitung, mangelt es entweder an Skalierbarkeit oder sie scheitern daran, ausreichend vielfältige und effektive Ablehnungsauslöser zu erzeugen. Um diese Einschränkungen zu überwinden, führen wir EVOREFUSE ein, einen Prompt-Optimierungsansatz, der diverse pseudo-bösartige Anweisungen generiert, die konsistent Ablehnungen über verschiedene LLMs hinweg auslösen. EVOREFUSE verwendet einen evolutionären Algorithmus, der den Anweisungsraum in vielfältigeren Richtungen als bestehende Methoden durch Mutationsstrategien und Rekombination erkundet und iterativ Ausgangsanweisungen entwickelt, um die untere Evidenzgrenze für die Ablehnungswahrscheinlichkeit von LLMs zu maximieren. Mit EVOREFUSE erstellen wir zwei neuartige Datensätze: EVOREFUSE-TEST, einen Benchmark mit 582 pseudo-bösartigen Anweisungen, der den nächstbesten Benchmark mit einer um 140,41 % höheren durchschnittlichen Ablehnungsauslöserate über 9 LLMs, einer um 34,86 % größeren lexikalischen Vielfalt und einer um 40,03 % verbesserten LLM-Antwortzuverlässigkeit übertrifft; und EVOREFUSE-ALIGN, der 3.000 pseudo-bösartige Anweisungen mit Antworten für überwachtes und präferenzbasiertes Alignment-Training bereitstellt. LLAMA3.1-8B-INSTRUCT, das auf EVOREFUSE-ALIGN überwacht feinabgestimmt wurde, erreicht bis zu 14,31 % weniger Überablehnungen als Modelle, die auf dem zweitbesten Alignment-Datensatz trainiert wurden, ohne die Sicherheit zu beeinträchtigen. Unsere Analyse mit EVOREFUSE-TEST zeigt, dass Modelle Überablehnungen auslösen, indem sie sich übermäßig auf sensible Schlüsselwörter konzentrieren, während sie den breiteren Kontext ignorieren.
Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
12
Große Sprachmodelle (LLMs) haben in den letzten Jahren beeindruckende Fähigkeiten in verschiedenen Aufgaben der natürlichen Sprachverarbeitung (NLP) gezeigt. Ihre Anfälligkeit für Jailbreaks und Störungen erfordert jedoch zusätzliche Evaluierungen. Viele LLMs sind mehrsprachig, aber die sicherheitsbezogenen Trainingsdaten enthalten hauptsächlich Hochressourcensprachen wie Englisch. Dies kann sie anfällig für Störungen in Niedrigressourcensprachen wie Polnisch machen. Wir zeigen, wie überraschend starke Angriffe kostengünstig erstellt werden können, indem nur wenige Zeichen verändert und ein kleines Proxy-Modell zur Berechnung der Wortbedeutung verwendet wird. Wir stellen fest, dass diese Zeichen- und Wortebenenangriffe die Vorhersagen verschiedener LLMs drastisch verändern, was auf eine potenzielle Schwachstelle hinweist, die genutzt werden kann, um ihre internen Sicherheitsmechanismen zu umgehen. Wir validieren unsere Angriffskonstruktionsmethodik anhand von Polnisch, einer Niedrigressourcensprache, und finden potenzielle Schwachstellen von LLMs in dieser Sprache. Darüber hinaus zeigen wir, wie sie auf andere Sprachen erweitert werden kann. Wir veröffentlichen die erstellten Datensätze und den Code für weitere Forschungen.
Große multimodale Modelle (LMMs) verlassen sich oft auf In-Context-Learning (ICL), um neue Aufgaben mit minimaler Überwachung auszuführen. Die ICL-Leistung, insbesondere bei kleineren LMMs, ist jedoch inkonsistent und verbessert sich nicht immer monoton mit zunehmenden Beispielen. Wir vermuten, dass dies darauf zurückzuführen ist, dass das LMM durch zusätzliche Informationen in den Bild-Einbettungen überfordert wird, die für die nachgelagerte Aufgabe nicht erforderlich sind. Um dies zu beheben, schlagen wir einen Meta-Learning-Ansatz vor, der eine Alternative zur Induktion von Few-Shot-Fähigkeiten in LMMs bietet, indem ein fester Satz von Soft Prompts verwendet wird, die aus aufgabenrelevanten Bildmerkmalen destilliert werden und zur Testzeit mit wenigen Beispielen angepasst werden können. Um diese Destillation zu erleichtern, führen wir ein Attention-Mapper-Modul ein, das einfach in die beliebte LLaVA v1.5-Architektur integriert werden kann und gemeinsam mit den Soft Prompts gelernt wird, wodurch eine Aufgabenanpassung in LMMs unter Low-Data-Bedingungen mit nur wenigen Gradientenschritten ermöglicht wird. Die Auswertung auf dem VL-ICL-Bench zeigt, dass unsere Methode ICL und verwandte Prompt-Tuning-Ansätze konsistent übertrifft, selbst bei Bildstörungen, und die Aufgabeninduktion und das logische Denken bei visuellen Frage-Antwort-Aufgaben verbessert.